JP2003085190A - 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム - Google Patents

音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム

Info

Publication number
JP2003085190A
JP2003085190A JP2002160316A JP2002160316A JP2003085190A JP 2003085190 A JP2003085190 A JP 2003085190A JP 2002160316 A JP2002160316 A JP 2002160316A JP 2002160316 A JP2002160316 A JP 2002160316A JP 2003085190 A JP2003085190 A JP 2003085190A
Authority
JP
Japan
Prior art keywords
event
stage
events
natural language
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002160316A
Other languages
English (en)
Other versions
JP3936243B2 (ja
Inventor
Alexander C Loui
シー ルイ アリグザンダー
Amanda J Stent
ジェイ ステント アマンダ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eastman Kodak Co
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Publication of JP2003085190A publication Critical patent/JP2003085190A/ja
Application granted granted Critical
Publication of JP3936243B2 publication Critical patent/JP3936243B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

(57)【要約】 【課題】 デジタル化された写真画像を音声注釈に基づ
いたイベントに自動的に編成するための方法を提供す
る。 【解決手段】 本方法は、少なくとも幾つかの写真画像
に対応する音声注釈に基づく自然言語のテキストを提供
するステップ、画像の注釈を特徴付ける自然言語のテキ
ストから所定の情報を抽出するステップ、イベント間の
境界を示す所定の情報カテゴリの存在について注釈のそ
れぞれを調べることにより、デジタル化された写真画像
をイベントに区分するステップ、情報カテゴリからイベ
ント記述子を作成することにより、イベントのそれぞれ
を識別するステップを備えている。本発明は、写真アル
バムのような適切なやり方でイベント記述子を選択及び
配列することにより、イベントのそれぞれを要約するス
テップをさらに備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像処理の分野に
関し、より詳細には、写真を写真アルバムに自動的に編
成するための写真の処理に関する。
【0002】
【従来の技術】自動的アルバム作成は、それ自身の目的
又は他の応用における使用向けのいずれかとしての写真
の自動的な編成であり、近年の研究の主題となってきて
いる。比較的洗練された画像コンテンツの分析技法は、
画像の索引付け及び編成のために使用されている。簡単
なテキスト分析技法は、画像の索引付け及び検索アプリ
ケーションのために、テキスト又は個々の写真に関連し
た音声注釈で使用されている。
【0003】最近の研究は、写真から自動的にアルバム
を作成するための多数の技法及びツールを含んでおり、
以下の処理を含んでいる。 ・カメラからの日付及び時間情報を使用して、イベント
の区分を実行する。 ・画像のコンテンツを分析して、イベントの区分を実行
し、また、画像の不良を識別する。 ・ブラウジングの目的のために、ビデオフレームを分析
する。 ・テキストキーワードを使用して、画像又はビデオセグ
メントを検索する。
【0004】ここで記載される研究は、音声注釈から所
定の情報タイプを抽出することにより、又は写真に関連
する音声注釈のトランスクリプションを抽出することに
より、アルバム作成のアプリケーションの機能を拡張
し、次いで、結果を使用して以下の処理を実行する。 ・イベント区分:どの位多くのイベントが1本のフィル
ムにあるか、及びどの写真がどのイベントに属するかを
判定する。 ・イベント識別:1本のフィルムにおけるイベントのそ
れぞれのタイプ(たとえば、誕生日、結婚式、休日)を
判定する。 ・要約:関連する人、物体及び行動と共に、イベントの
日付、時間及び位置を識別し、様々なやり方でこの情報
を要約する。
【0005】この場合、自然言語(又は自然言語に基づ
いたテキスト)が処理されて、所望の情報が抽出され、
結果的に抽出された情報は、イベントを識別及び記述す
るために処理される。
【0006】概して、自然言語の処理に依存して、情報
検索、情報抽出及び自然言語の構文解析という3つの異
なるフィールドが現在存在する。情報検索では、タスク
は、テキスト問い合わせに基づいて、データベースから
特定の項目を検索することを含む。
【0007】たとえば、学会論文に関連するキーワード
は、ユーザがそれらのキーワードを使用して質問を尋ね
るときに、それら学会論文を検索するために使用するこ
とができる。画像に関連するテキストは、同じ単語が別
のテキストに現れたときに、画像を検索するために使用
することができる。ビデオ系列で発見されたテキスト
は、記事における同じテキストをクリックしたときに、
それら系列を検索するために使用することができる。
【0008】これらアプリケーションに関連するテキス
ト処理は、あったとしても非常に少ない。たとえば、係
属中の米国特許出願シリアル番号09/685,112“An Agent
forIntegrated Annotation and Retrieval of Image
s”では、単語頻度手段が使用されて、キーワードを識
別して画像データベースにおいて検索する。しかし、部
分的な構文解析技法をタイプ入力された問合せに適用し
て、注釈された写真のデータベースからの検索を改善す
ることができる幾つかの研究が示されている。
【0009】情報抽出(IE)は、考え方は、テキストか
ら予め決定された情報を抽出することである。Gaizausk
as及びWilks(R.Gaizauskas 及びY. Wilksによる“Info
rmation extraction :Beyond document retrieval”,C
omputations Linguistics and Chinese Language Proce
ssing, 3(2),1998)は、「IEは、構造化されていない、
すなわちフリーテキストの情報源から構造化された情報
源(すなわちデータベース)を構築する行為として見る
ことができる。」のように言及している。
【0010】アプリケーションは、分析、データマイニ
ング、要約及び索引付けを含んでいる。記載されたニュ
ースリポートからの自動的な情報抽出における研究の長
い歴史が存在する(J.Hobbs, D.Appelet, J.Bear, D.Is
rael, M.Kameyma, M.Stickel, and Tyson.“FATUS: A C
ascaded Finite-State Transfer for Extracting Infor
mation from Natural-Language Text”in Roche and Sh
abes, editors, Finite State Devices for Natural La
nguage Procesing, MIT Press, Cambridge, MA, 1996を
参照されたい)。幾つかの最近の研究は、音声注釈から
の情報抽出を調査し始めている。
【0011】情報検索及び情報抽出の両者は、入力テキ
ストの一部のみを使用して、他の構造又は関連する成分
を無視するという点で最小限の処理アプローチである。
自然言語の構文解析は、テキストの一部又は音声のセグ
メントの詳細な分析を含み、構造及びその一部の意味を
発見し、可能であれば、その発生の背後の意味を識別
し、可能であれば、大きな会話の他の部分に関連付け
る。自然言語の構文解析は、言語的な動機を与えるルー
ルに基づいた構文解析及び統計的な構文解析を含んでい
る。部分的な構文解析は、入力テキストの選択された部
分の統語的な構造を分析することが可能である。
【0012】
【発明が解決しようとする課題】本発明について、完全
な自然言語の構文解析を使用することは、理論的に可能
であるが、実際には実施不可能であり、不必要である。
リアルタイム又は非リアルタイムで一般的なテキスト入
力をロバストに処理するために十分に汎用な既存の構文
解析はない。流動的であって多様な音声注釈を処理しよ
うする構文解析はほとんどない。さらに、自然言語の構
文解析は、(注釈における項目の統語分類で)必要とさ
れる情報を必然的に作り出すことなしに、不必要な情報
を生成する(入力の統語的構造に関する詳細情報)。
【0013】自動アルバム作成のための写真注釈の使用
は、情報抽出のための理想的なアプリケーションであ
る。典型的に、写真に関連する注釈に含まれる情報にお
いて関心が存在するが、その全てにおいてではなく、た
とえば、写真の品質又はその時の写真家の感性は、写真
家がそれらの事柄を議論するために選択したとしても、
一般に関心があるものではない。
【0014】さらに、使用される言語の基礎となる豊富
な意味論及び語用論の全てにおいて関心がない。言い換
えれば、しばしば注釈の非常に簡単な理解で足りること
がある。最後に、情報抽出技法のロバストさは、写真家
が不完全な文、又は「1998年8月 釣り旅行 adrian mike
及びcharles」におけるような句を使用する状況では、
特に魅力的である。
【0015】過去において、情報抽出技法は、ニュース
ワイヤテキストで主に使用されてきている。これらは、
テキストで比較的短く書かれているが、典型的な写真の
注釈よりもずっと長く書かれる。さらに、(付属のマイ
クロフォンを有するデジタルカメラの使用を特に増加す
る)写真の注釈は、慎重に編成されたテキストではな
く、書かれたものよりはむしろ音声である場合がある。
これは、写真注釈に基づく抽出は、所定の情報抽出技法
が強く依存する幾つかの逐語的な手掛り(句読点、大文
字化)に依存することができないことを意味している。
【0016】
【課題を解決するための手段】本発明は上述した課題の
1つ以上を解決することに向けられる。簡単に要約する
と、本発明の1態様によれば、デジタル化された写真画
像を音声注釈に基づいたイベントに自動的に編成するた
めの方法は、写真画像の少なくとも幾つかに対応する音
声注釈に基づく自然言語のテキストを提供するステッ
プ、画像の注釈を特徴付ける自然言語のテキストから所
定の情報を抽出するステップ、イベント間の境界を示す
所定の情報カテゴリの存在について注釈のそれぞれを調
べることにより、デジタル化された写真画像をイベント
に区分するステップ、及び情報カテゴリからイベント記
述子を作成することにより、イベントのそれぞれを識別
するステップを備えている。本発明は、消費者の画像向
けに特別な抽出ステップにおいて有名な地名辞書の利用
と同様に、写真アルバムのような、適切なやり方でイベ
ント記述子を選択及び配列することにより、イベントの
それぞれを要約するステップをさらに備えている。
【0017】本発明の利点は、本発明により、偶然の音
声注釈として提供されるユーザの示唆をイベント区分の
ためのガイドにすることが可能である点である。テキス
ト分析技法を使用して、画像編成及び索引付けアプリケ
ーションに対する結果を適用するという目標により、比
較的構造化されていない消費者の注釈から情報を抽出す
ることが可能である。
【0018】本発明のこれら及び他の態様、目的、機能
及び効果は、添付図面を参照して、特許請求の範囲及び
好適な実施の形態の以下に詳細な記載を精査することか
ら明らかに理解される。
【0019】
【発明の実施の形態】一般的な自動アルバム作成及び関
連する画像処理は知られているので、本実施の形態で
は、本発明のよる方法及びシステムの一部を形成する属
性、又はより直接に組み合わされた属性に特に向けられ
る。特に図示されていない属性、又は本実施の形態で記
載されていない属性は、公知の技術から選択される場合
がある。以下の記載では、本発明の好適な実施の形態
は、ソフトウェアプログラムとして通常は実現される
が、当業者であれば、かかるソフトウェアに等価な構成
をハードウェアで構築する場合があることを容易に認識
することができる。
【0020】以下のマテリアルにおいて、本発明により
記載される方法及びシステムが与えられると、本発明の
実現のために有効な本実施の形態が提案及び記載され
る、特に図示されないソフトウェアは、当該技術分野に
おける通常の技術の範囲内である。本発明がコンピュー
タプログラムとして実現される場合、該プログラムは、
従来のコンピュータ読取り可能な記録媒体に記憶される
場合があり、該記録媒体は、たとえば、磁気ディスク
(フロプティカルディスク又はハードディスクドライ
ブ)又は磁気テープのような磁気記憶媒体、光ディス
ク、光テープ又はマシン読取り可能なバーコードのよう
な光記憶媒体、ランダムアクセスメモリ(RAM)又は
リードオンリメモリ(ROM)のような固体電子記憶素
子、或いはコンピュータプログラムを記憶するために使
用される他の物理的な装置又は媒体を含んでいる。
【0021】本発明のより詳細な理解のための図面を参
照して、図1は、本発明による自動アルバム作成方法及
びシステムの基本機能に関する概略図を示している。画
像及び入力音声(又は音声に対応するテキスト)は、取
得ステージ10において取得される。音声がステージ1
0において取得されると、この入力音声は、従来の音声
−テキスト変換アルゴリズム(たとえば、IBM社から
入手可能なViaVoice,2000、及びhttp://htk.eng.cam.a
c.uk/でケンブリッジ大学工学部からWebで入手可能なS.
Young P.WoodlandによるHidden Markov Model toolkit
(HTK))を使用して、音声−テキスト変換ステージ12
においてテキストに変換され、テキストがはじめに取得
されると、次いで、このステージがバイパスされる場合
がある。
【0022】つぎに、情報抽出ステージ14におけるテ
キストから情報が導出される。イベントの数及びどの写
真がどのイベントに属するかは、イベント区分ステージ
16で判定される。それぞれのイベントのタイプ(たと
えば、誕生日、結婚式、休日)は、イベント識別ステー
ジ18において、それぞれのイベントについて判定さ
れ、イベントの特徴(たとえば、日付、時間、位置、並
びに人、物体及び行動の識別)は、イベント要約ステー
ジ20において、それぞれのイベントについて要約され
る。
【0023】本方法の生成物は、ステージ16からのイ
ベント境界、ステージ18からの識別されたイベント、
又はイベント要約ステージ20からのイベントの命令さ
れた要約である場合がある。好適な実施の形態では、生
成物は、写真アルバム22であり、このアルバムは、ア
ルバム作成手法の最終出力であるか、又は完成前のユー
ザレビューのために選択的に提供される場合がある。
【0024】本方法及びシステムの基本構造は、有限状
態マシンのシーケンスを使用し、該マシンのそれぞれ
は、特定の機能を実行する(たとえば、Hobbs等により
記載されたFATUSシステムを参照されたい。参照に
より、本実施の形態に組み込まれる)。
【0025】それぞれのマシンは、幾つかの情報をテキ
ストに加え、幾つかのマシンは、情報を取り去る。加え
られる情報は、XML(Extensible Markup Language)
タグの形式である。使用するタグのセットは、これらタ
グの目的は若干異なるがA.Mikheev, C.Grover及びM.Moe
nsによる“XML tools and architecture for named ent
ity recognition”in Markup Languages: Theory and P
ractice, 1(3),1999,pp.89-113で使用されるタグに類
似している。XML文書構造は、添付Aにおいて見るこ
とができる。入力文書がXML文書構造に従う限り、有
限状態マシンは、独立に実行することができる。
【0026】図2は、本発明を実施するために使用され
る場合があるコンピュータシステムを示している。シス
テムは、各種標準的なコンピュータ又はデータプロセッ
サのいずれかであるコンピュータ110を含んでいる。
コンピュータのサイズ及び能力は、アクセスされるデー
タベースのサイズにつれて、及び各種動作を実行するた
めにプロセッサに必要とされるスピードに関して、ある
範囲に変化する場合がある。
【0027】以下の記載のために、本発明の限定として
意図されるものではないが、自然言語のテキストから情
報を抽出して、画像をイベントに区分し、イベントを識
別及び要約して、注釈されたイベントを記憶するため
に、同じコンピュータ110が利用されると仮定する。
たとえば、自然言語の抽出のために(たとえば、デスク
トップPC)、及びデータベースのために(たとえば、
インターネットを介してデスクトップPCに接続される
リモートサーバ)、個別のプロセッサが利用される場合
がある。
【0028】コンピュータ110は、サーチされる画像
及び/又はデータベースに記憶される大容量のメモリ1
12を含んでいる。代替的に、又はメモリ112に加え
て、コンピュータ110は、ネットワークインタフェー
ス114を介して、画像及び/又はデータベースが記憶
されるリモートサーバ116と相互接続される場合があ
る。相互接続しているネットワーク118は、たとえ
ば、専用ネットワーク又はインターネットのような公衆
網とすることができる。
【0029】これらのメモリは、様々なタイプの大容量
ハードディスクドライブ、又は光ディスクドライブのよ
うないずれかの種類の大容量のメモリである場合があ
る。コンピュータ110は、本実施の形態で記載される
ような本発明の方法を実現するためのソフトウェアを典
型的に記憶するROMのような内部メモリ120をさら
に含む。メモリ112及び120は、個別のメモリであ
るか、又は同じ記憶装置の各種のセクションである場合
がある。
【0030】多数の標準的な入力装置122は、情報及
びデータをコンピュータ110に提供するために利用可
能である場合がある。これらの装置は、制約なしに、キ
ーボード装置、マウス、イメージスキャナ等を含む場合
がある。特定の入力装置は、(デジタルカメラが画像を
オフロードする)メモリカードから画像を取得するため
のメモリカードリーダ124、及び相互接続ネットワー
ク118を通して、電子メールのようなネットワークソ
ースからの画像を取得するためのネットワークインタフ
ェース126を含んでいる。
【0031】選択的な入力装置は、マイクロフォンを有
する音声認識モジュール128であり、該モジュール1
28は、システムに表題、意味論的情報、又は注釈を入
力するか、又はアルバム作成システムの仮の結果を訂正
するために利用される。
【0032】また、多数の標準的な出力装置130は、
表示装置132、プリンタ134及び相互接続ネットワ
ーク118を通してネットワークインタフェース136
に接続される出力装置138のような、コンピュータに
接続される場合がある。説明のために個別に図示されて
いるが、ネットワークインタフェース114,126及
び136は、同じインタフェースであるか、又は各種態
様の同じインタフェースである場合がある。新たに捕獲
された画像又は処理された画像は、索引付け及び記憶の
ために、データベースメモリ112又はサーバ116に
送出することができる。
【0033】はじめに情報抽出ステージ14に戻り、情
報抽出処理のシーケンスは、有限状態マシンから構成さ
れるステージのシーケンスとして図3に例示されてお
り、該有限状態マシンのそれぞれは、以下に要約するこ
とができる固有の機能を実行する。 ・区分及びフィルタリング(ステージ30):入力され
るトランスクリプションを(関連する句読点が存在する
場合)単語、文に分解し、(1人以上の話者が存在する
場合)ターンに分解する。新たなイベントの有無を合図
する場合がある手掛りとなるキーワードを識別する。後
の処理のために、役に立たない単語及び句を除く。 ・番号付け(ステージ32):簡単な数及び複雑な数を
識別する。 ・分類(ステージ34):辞書/地名辞典を適用して重
要な単語を分類する。 ・日付、時間、金及びパーセンテージ(ステージ3
6):日付、時間、金及びパーセンテージを識別する表
現を識別する。 ・人、位置、イベント及び物体(ステージ38):名前
付けされた入力、及び人、位置、イベント及び物体に対
する他の参照を識別する。 ・句(ステージ40):基本的な句及び複雑な句、並び
にそのタイプを識別する。 ・相互参照による分類(ステージ42):注釈の参照内
部、及び注釈の参照間を分類する。
【0034】この順序は、絶対的なものではなく、たと
えば、番号付けステージ32及び分類ステージ34を困
難なしに再整理することができる。分類ステージ34、
日付、時間、金及びパーセンテージステージ36及び
人、位置、イベント及び物体ステージ38を再整理する
ことができる。結果は、日付、時間、位置、人、行動及
び物体がデータベースへの挿入のために抽出される良好
に特定されたXML文書44である。
【0035】ここで、それぞれのステージは、例として
以下の典型的なタイプの(図3にも示されるような)音
声注釈48を使用して、より詳細に記載される。 “the smith and me ah june ninety eight at the gla
ss museum in corning new york”
【0036】[区分及びフィルタリングステージ30]
区分及びフィルタリングステージ30への入力は、記録
されていないテキストである。ステージ30の出力は、
単語、句読点、文及びターンが記録されているテキスト
である。ある明細事項は、以下のように、できるだけ近
くに続いている。
【0037】・所有格は分離される。たとえば、“sall
y’s”は、“<w>sally</w><w>’s</w>”となる。 ・略記は展開される。たとえば、“dr.”は、“<w>doct
or</w>”となる。 ・短縮は展開される。たとえば、“can’t”は、“<w>c
an</w><w>not</w>”となる。
【0038】<ターン(TURN)>タグは、現在のデータセッ
トにおける全ての注釈が音声のトランスクリプトであ
り、トランスクリプトの幾つかが複数の話者(複数のタ
ーン)を含むために、XML仕様に追加される。注釈に
おいて句読点が存在しない場合、区分アルゴリズムは、
入力内の文を識別しようとしない。これは、注釈が典型
的に1つ又は2つのみの短い発生であるので、このアプ
リケーションのために機能し、開始するために文構造を
有する必要がないので、該文構造を構築することが実現
可能である。
【0039】またステージ30において、進行中のイベ
ントを合図することができる手掛りが識別されて記録さ
れる。かかる手掛りの例は、以下を含んでいる。 “this is another picture of” “more of” “the third try at” かかる進行中のイベントの手掛りのリストは、カスタマ
の基礎的な研究及びカスタマの写真から得ることができ
る。
【0040】最後に、ステージ30は、フィルタリング
を実行する。後の処理に役に立たない入力テキストの要
素、及び後の処理を妨害する場合がある入力テキストの
要素は、除かれる。例は、つなぎ語(“um”,“ah”,
“er”)、及び人々がしばしば使用する句(“this i
s”、“a nice picture of”、“here we have”)を含
んでいる。
【0041】この例の文について、ステージ30からの
出力は、以下に示される。 <CAPTION><PHR><W>the</W><W>smiths</W><W>and</W> <W>me</W><W>june</W><W>ninety</W><W>eight</W> <W>at</W><W>the</W><W>glass</W><W>museum</W> <W>in</W><W>corning</W><W>new</W> <W>york</W></PHR></CAPTION>
【0042】[簡単な番号及び複雑な番号付けステージ
32]この番号付けステージ32は、2つの有限状態マ
シンを含んでいる。第1の有限状態マシンは、“firs
t”、“three million and twenty-two”及び“43.5”
のような数値表現の要素を識別する。第2の有限状態マ
シンは、“fifths”が続く“thirty-three”のような数
値表現の一部を形成する要素を結合する。この例の文に
ついて、このステージからの出力は、以下に示される。 <CAPTION><PHR><W>the</W><W>smiths</W><W>and</W> <W>me</W><W>june</W><PHR C=’NUM’>ninety eight</PHR> <W>at</W><W>the</W><W>glass</W><W>museum</W> <W>in</W><W>corning</W><W>new</W> <W>york</W></PHR></CAPTION>
【0043】[分類ステージ34]殆どの情報抽出シス
テムは、重要な用語を含み、典型的には適切な名前のリ
スト、会社名のリスト、国名及び通過のリストを含んで
いる幾つかの辞典(非常に簡単な辞典)を使用する分類
ステージを使用する。
【0044】システムにおいて、本実施の形態のかかる
分類ステージは、書かれたテキストよりはむしろ音声を
処理し、大文字により提供される手掛りを利用すること
ができないため、かかる辞典はより重要になる。消費者
の写真のジャンルは、各種領域をカバーし、それらの分
野の殆どは、従来カバーされている分野に類似していな
いので、消費者の画像向けに特別な辞典が作成される。
【0045】結果として、本発明の特別な機能によれ
ば、分類ステージ34は、既存の辞典からのある種の典
型的な索引、及び以下のような消費者の写真向けに特別
に開発された特別な辞書の代表となるある種の特別な索
引を含む特別な辞典を含んでいる。
【0046】・固有名称:一般に使用される名及び姓の
リスト。これらは、たとえば、CRL単語リストのよう
な一般に利用可能な名前リストから、及びたとえば、幾
つかの大学の結合された学生辞典からの辞典の結合から
得られる場合がある。ストップ語句(たとえば、“bu
t”)又は動詞は、最初の名称又は最後の名称としてリ
ストに列挙される場合、名称の列挙をやめる。あるとし
ても、トレイニングデータにおいて言及されるデータは
殆どないので、会社名は含まれない。
【0047】・場所:世界中からの場所に加えて、観光
スポットを含むことが望ましい。好適な地名のリスト
は、以下を含んでいる。 ・国。 ・アメリカ合衆国における州及びカナダにおける地方。 ・国家の領土及び領地。 ・アメリカ合衆国におけるそれぞれの州の主要都市、及
びカナダにおけるそれぞれの地方の主要都市。 ・世界における主要都市:首都、大都市及び有名都市の
リスト。 ・観光地:観光で有名な国及び都市のリスト、現代世界
の「不思議」のリストと共に古代世界の7不思議のリス
ト、保護された財産であるユネスコの世界遺産のリスト
のような可能性のある観光地のリスト。 ・祝賀、教育、又は「レストラン」、「映画館」、「美
術館」、「学校」のような家族のイベントのために人々
が一般に行く場所。
【0048】・通貨名:たとえば、ニューヨークタイム
から取得される通貨名(単数の形式のみ)。通貨のシン
ボルは、注釈が音声であるので、本実施の形態では重要
ではない。数種の通過について、包含される複数の形式
が与えられ、さもなければ、複数の形式が正規のもので
あると仮定される。
【0049】・機能又はストップ語句:代名詞、接続
詞、前置詞及び限定詞のリスト。 ・不規則動詞の形式:過去時制及び現在分詞と共に、約
200の不規則動詞のリスト。 ・規則動詞:英語における600の最も一般的な規則動
詞のリスト。
【0050】・ランク付けされていない技術的及び専門
的学校並びにサービス学校と同様に、私立及び公立の両
者について、全ての4つの階層における総合大学、単科
大学及び高校を含む単科大学及び総合大学。他のアメリ
カの単科大学及び総合大学は、知られていないように思
われ、識別し易くするための指示“college”又は“uni
versity”を含むフルネームにより言及される。殆どの
外国の総合大学は、その位置について名前付けされてお
り、したがって、識別し易い。 ・イベント:たとえば、“americaid”、“wild west t
our”のような名前付けされたイベント、及び“誕生
日”、“クリスマス”のようなカレンダーのイベントの
両者である。
【0051】地名辞典は、操作の容易さのために、幾つ
かのカテゴリに固有なファイルに記憶されている。それ
ぞれの単語は、そのタイプ(たとえば、代名詞PRONOU
N、名FIRST_NAME)と共に記憶される。好適な実施の形
態では、27000を超えるユニークなペア(単語/句、タ
イプ)が辞典にある。システムを実行する前に、ファイ
ルが1つのファイルにマージされ、アルファベット順に
エントリがソートされ、これにより、サーチが非常に高
速になる。
【0052】分類器は、有限状態マシンではなく、地名
辞典における単語及び句を見て、整合するエントリを発
見したとき、全ての関連するタイプを入力単語又は句に
付属させる。分類器は、簡単な阻止器を使用して、関連
するエントリのためのサーチにおいて補助する。
【0053】本実施の形態の注釈について、分類器は、
以下の出力を与える。 <CAPTION><PHR><WC=’DET’>the</W><WC=’COLLEGE/LASTNAME’> smiths</W><WC=’CONJ’>and</W> <WC=’PRO’>me</W><WC=’FIRSTNAME/LASTNAME’>june</W> <PHR C=’NUM’>ninety eight</PHR><WC=’PREP’>at</W> <WC=’DET’>the</W><W>glass</W><WC=’LOCATION’>museum</W> <WC=’PREP’>in</W><WC=’CITY’>corning</W> <WC=’CITY/STATE’>new york</W></PHR></CAPTION>
【0054】[日付、時間、金及びパーセンテージステ
ージ36]ステージ36は、番号識別ステージ32を即
座に続けることができ、このステージ36は、入力にお
いて金銭の表現が存在しない場合、分類ステージ34が
高速に実行されることを必要としない。このステージで
は、様々な日付及び時間の表現がラベル付けされる。識
別される表現のタイプは、以下(例)を含んでいる。
【0055】・この来たる月曜。 ・明日 ・1992年8月31日(しかし1992年2月31日ではない) ・31/08/92 ・1993年の春 ・感謝祭 ・30分過ぎ。 ・3:45 この例について、このステージからの出力は、以下に示
される。 <CAPTION><PHR><WC=’DET’>the</W><WC=’COLLEGE/LASTNAME’> smiths</W><WC=’CONJ’>and</W><WC=’PRO’>me</W><TIME TYPE= ’DATE’>june ninety eight</TIMEX><WC=’PREP’>at</W><WC=’DET’>the </W><W>glass</W><WC=’LOCATION’>museum</W><WC=’PREP’>in</W> <WC=’CITY’>corning</W><WC=’CITY/STATE’>new york</W></PHR> </CAPTION>
【0056】[人、位置、イベント及び物体ステージ3
8]ステージ38は、名前付けされたエンティティを含
む人、位置、イベント及び物体への参照を識別する。殆
どの名前付けされたエンティティ抽出システムよりも一
般的となるように慎重に設計される。固有名詞、とりわ
け関連する指示詞(たとえば、“boss”、“friend”、
“grandma”)、及び名前付けされていない位置(たと
えば、“college”、“school”)ではない多くの参照
を認識する。
【0057】この例について、このステージからの出力
は、以下に示される。 <CAPTION><PHR><WC=’DET’>the</W><ENAMEX TIPE=’PERSON_NAME’>smiths</E NAMEX><WC=’CONJ’>and</W><ENAMEX TIPE=’PERSON_PRONOUN’>me</ENAMEX><T IMEX TYPE=’DATE’>june ninety eight</TIMEX><WC=’PREP’>at</W><WC=’DET ’>the</W><ENAMEX TYPE=’LOCATION_NAME’>glass museum</ENAMEX><WC=’PREP ’>in</W> <ENAMEX TYPE=’LOCATION_NAME’>corning new york</ENAMEX></PHR></CAPTION>
【0058】[簡単な句及び複雑な句のステージ40]
このステージ40は、2つの有限状態マシンを組み込ん
でいる。第1の有限状態マシンは、以下の基本的な句を
識別する。
【0059】・名詞句:“Samantha”、“the green ca
ts”、“fifteen years”。これらは、人、位置、物
体、日付又は時間を言及するかに従いサブカテゴリに分
類される。 ・動詞句:“will happy go”、“was to be eaten”。
これらは、それらのタイプ(たとえば、能動、受動)に
ついて記録される。
【0060】前置詞句は明示的に記録されないが、前置
詞に続く名詞句/動詞句は記録され、前置詞自身は、こ
れらの句のタイプに制約を課す。
【0061】第2の有限状態マシンは、基本的な句をよ
り複雑な句に結合する。たとえば、“the door”と“of
the house”を結合し、又は“september6”と“at10p.
m.”を結合する。
【0062】この例の注釈について、このステージから
の出力は、以下に示される。 <CAPTION><PHR><PHR CAT=’NP’ TIPE=’PERSON’><PHR CAT=’NP’ TYPE=’PE RSON’><WC=’DET’>the</W><ENAMEX TYPE=’PERSON_NAME’>smiths</ENAMEX></ PHR><WC=’CONJ’>and</W><PHR CAT=’NP’ TYPE=’PERSON><ENAMEX TIPE=’PER SON_PRONOUN’>me</ENAMEX></PHR></PHR><PHR CAT=’NP’ TYPE=’DATE’><TIM EX TYPE=’DATE’>june ninety eight</TIMEX></PHR><WC=’PREP’>at</W><PHR CAT=’NP’ TYPE=’LOCATION’><WC=’DET’>the</W><ENAMEX TYPE=’LOCATION_ NAME’>glass museum</ENAMEX></PHR><WC=’PREP’>in</W><PHR CAT=’NP’ TYP E=’LOCATION’<ENAMEX TYPE=’LOCATION_NAME’>>corning new york</ENAMEX>< /PHR></PHR></CAPTION>
【0063】[相互参照ステージ42]複雑さを変化さ
せる多くの相互参照アルゴリズムが存在する。このシス
テムでは、相互参照ステージ42は、非常に簡単な最新
性に基づいたアルゴリズムを実現する。
【0064】システムは、それぞれの名詞句を順次取得
する。名詞句が不明確な名詞句である場合、その名詞句
は、該名詞句により言及される項目の最初の記述である
と仮定する。名詞句が定義済みの名詞句である場合、そ
のルートを共有してそのタイプに整合する名詞句を発見
することができるかを調べるために、前に記述された名
詞句を通してサーチが行われる。名詞句が略記である場
合、該略記に整合する固有名詞についてサーチが行われ
る。
【0065】名詞句が代名詞である場合、番号及び人の
特徴並びに代名詞のタイプに一致しない名詞句を発見す
ることができるかを調べるために、前に記述された名詞
句を通してサーチが行われる。最後に、名詞句が固有名
詞である場合、この固有名詞の別の(可能であれば短
い)記述を発見することができるかを調べるために、前
に記述された名詞句を通してサーチが行われる。
【0066】このサーチは、最新性により厳密であるの
で、文の位置及び他の参照の手掛りは使用されず、アル
ゴリズムは、文の位置及び他の参照の手掛りがないため
に生じるエラーの数を制限するために、相互参照のため
にそのサーチにおいて慎重に保守的である。
【0067】これは、1つの写真よりはむしろ写真の系
列に関して動作する唯一のステージである。参照ステー
ジにおいて、サンプルとなる文に対して変更がなされな
い。
【0068】図3に示されるこのプロセスのそれぞれ
は、できるだけ他のステージのそれぞれから独立である
ように設計される。ステージは、別のステージに直接的
又は間接的に参照又はコールしない。XML文書構造
は、それぞれのステージからの入力及び出力を指定する
APIとしての役割を果たす。これは、それぞれのステ
ージが独立なモジュールとして本質的に動作することを
意味する。
【0069】それぞれのステージは、主にスタンドアロ
ン型のプログラムへのコンピュータ言語向けの辞書アナ
ライザを編集するプログラムであるFlex(V.Paxson
等によるFlexバージョン2.5)、を使用して編集す
ることができる。又は、それぞれのステージは、ツール
のフレームワーク内で実行するために編集することがで
きる。これは、開発及びメンテナンスを容易にする一方
で、大幅な影響及び性能を有する。
【0070】最も重要なことは、それぞれのステージ
は、全体の入力ストリングを通して読まれなければなら
ない。あるステージが入力ストリングの一部に関して他
を「コール」することが可能である場合(たとえば、第
1の数値表現識別子が、識別したそれら数値表現のみに
関する第2の数値表現識別子をコールする場合)、これ
は必要ではない。それにも関わらず、システムは、ほぼ
リアルタイムで個々の注釈を処理しようとする。
【0071】この異なるステージの厳密な区別は、別な
影響を有する。順序に依存して、ステージはならし運転
し、僅かに異なる出力を得ることができる。これは、句
“june california”における単語“june”を考慮する
ことにより、知ることが容易である。日付識別ステージ
が名前付けされたエンティティステージの前に実行され
る場合、“june”は日付として記録される。名前付けさ
れたエンティティステージがはじめに実行される場合、
“june”は人の名前として識別される。理論的に、全て
のステージからの全てのルールを1つに結合することは
可能である。値上げは、どのルールがはじめに適合する
かになお依存する。
【0072】システムは、抽出された項目の分類に対す
る最小限度の委託アプローチを使用する。このアプロー
チは、不確かな可能性の分離をラベル付けし、多くの項
目“PERSON/OBJECT”又は“PERSON/OBJECT/LOCATION”
にラベル付けする。記載された評価技術は、これらオプ
ションのうちの1つが採用され、他が廃棄されることを
必要とする。結果として、多くの項目は、実際に複数の
カテゴリでラベル付けされるOBJECTカテゴリに落ち着
く。
【0073】ここで、図1に示されるイベント区分ステ
ージ16を参照して、本発明の仮説は、個々の写真につ
いて、注釈における情報がその点でのイベントの境界が
存在する証明、又は存在しない証明を提供する場合があ
る。スコアは、情報抽出ステージ14の出力を使用し
て、注釈においてどの人、物体、位置、イベント、日付
/時間及び行動が記載されているかを表すそれぞれの注
釈について計算することができる。
【0074】これらのスコアは、その点でのイベントの
途切れである可能性、該余切れではない可能性に関する
基準を提供する。結果的に、これらのスコアは、イベン
トの境界の位置を推定するために使用される。消費者が
写真の内容を論議することを制限して、その注釈にかな
り直接的である場合、スコアは、イベントの境界に関す
る正確な情報を与える。
【0075】図4には、イベント区分アルゴリズムが示
されている。アルゴリズムは、写真が撮影された順序で
注釈のそれぞれを調べる。それぞれの注釈について、好
適な実施の形態では、イベント、位置、行動、日付/時
間、人及び物体といった情報のカテゴリが調べられる。
イベントを記述する他の情報のカテゴリもまた、本発明
の精神の範囲内である。
【0076】基本的なアプローチは、写真の注釈及び
(そのイベントにおける他の写真の注釈からの情報を含
む)イベントに関するある情報が与えられると、注釈に
含まれる情報は、イベントに関して知られている情報に
比較される。アルゴリズムは、表1に示されるように、
イベントの途切れである証明(「正の証明」すなわちP
E)、及びイベントの途切れではない証明(「負の証
明」すなわちNE)を計算する。(これらの発見は、実
験的に識別され、発明に関する限定として見られるべき
ではない。) その点でのイベントの途切れである証明がイベントの途
切れではない証明に勝る場合、アルゴリズムは、イベン
トの途切れを記録し、新たなイベントについての証明に
関する新たな収集を開始する。他方で、イベントの途切
れではない証明がイベントの途切れである証明に勝る場
合、アルゴリズムは、現在の注釈からの情報を現在のイ
ベントにおける他の注釈からの情報に加える。
【0077】正の証明についてのスコアが負の証明につ
いてのスコアに等しい場合、又は両者が0である場合、
イベントの途切れは作成されない。より詳細には、実際
に、ある写真について、以下に示すように、負の証明に
関連する正の証明の所望のレベル(“LEVEL”)が存在
する。 (PE−LEVEL)<NE 現在の写真はマージされ、既存のイベントになる。さも
なければ、新たなイベントが作成される。
【0078】
【表1】 ときに、シリーズにおける1つの注釈が誤り導く証明を
与えることがあるか、又は、シリーズにおける1つのピ
クチャが全体のイベントに関連していないことがある。
これを処理するために、アルゴリズムは、「ギャップ考
慮」を使用する。
【0079】写真フレームFRAMExが、前の写真フレーム
FRAMEyび距離gap内に収まる場合(すなわち、y<x及びx
-y<gap)、証明は、フレームFRAMEyと同じイベントに属
するフレームFRAMExのためのものであり、フレームFRAM
Exと、フレームFRAMExとFRAMEyの間の全ての写真は、フ
レームFRAMEyと同じイベントに含まれる。1から10ま
での様々なギャップ距離での実験において、2であるギ
ャップが、殆どのデータにおいて誤り導く注釈に注意す
ることが発見されている。
【0080】図4に示されるように、区分アルゴリズム
への入力は、マークアップmarkupを有するnフレームの
注釈、正の証明(PE)の所望のレベル及び所望の「メ
モリ」(ギャップ)からなるセットである。ギャップは
2であることが好ましく、現在のフレームFRAME(j)は、
好適なギャップgap=2について、既存のフレームの前に
2つのフレームが位置される(すなわち、2つの並んだ
フレームがgap=1を有し、1つのフレームにより分離さ
れた2つのフレームはgap=2を有する)前のフレームFRA
ME(j-gap)と比較される。
【0081】アルゴリズムがgap>1を処理する場合(ス
テップ50)、どのイベントフレームが属するかを判定
する実際のプロセスは、以下のように示される。 1.フレームFRAMExからの距離gapでピクチャが存在
し、gap>0である場合、フレームFRAMEx-gapと同じイベ
ントに属するフレームFRAMExである証明及びフレームFR
AMExでない証明を計算する(ステップ52)。 a.そのイベントに属するフレームFRAMExである証明が
フレームFRAMExではない証明に勝る場合(ステップ5
4)、全てのフレームをそのイベントにおけるxとgap-x
の間に配置する(ステップ56)。 b.さもなければ、gapから1を引いて(ステップ5
8)、ステップ50に戻る。
【0082】2.さもければ(gap=1のとき)、フレー
ムFRAMEx-1と同じイベントに属するフレームFRAMExであ
る証明及びフレームFRAMExではない証明を計算する(ス
テップ60)。 a.そのイベントに属するフレームFRAMExである証明
が、フレームFRAMExではない証明に勝る場合(ステップ
62)、フレームFRAMEx及びFRAMEx-1をそのイベントに
配置する(ステップ64)。 b.さもなければ、フレームFRAMExについて新たなイベ
ントを作成する(ステップ66)。フレームがフレーム
のセット(j=0)における最初である場合(ステップ6
8)、新たなイベントが即座に確立される(ステップ6
6)。
【0083】このアルゴリズムにより、システムのユー
ザは、イベントの途切れである証明のための閾値(すな
わち「レベル」)を指定することができる。正の証明の
スコアがこの閾値よりも小さい場合、正の証明のスコア
が減少される。この閾値の使用は、情報の減少固有のカ
テゴリの作用を有する。すなわち、閾値が1に設定され
ている場合、前に記述されていない物体はイベントの途
切れである証明としてカウントされる。
【0084】つぎに、イベント識別ステージ18を参照
して、写真がイベントに区分されるとき、それぞれの注
釈からの全ての情報が収集される。これは、それぞれの
イベントの記述となる。好適な実施の形態では、かかる
記述は、以下に示される。 ・記録及び記録されていないその注釈を有し、カメラか
ら取得された他の情報(たとえば、日付/時間情報)を
有する、そのイベントにおける写真のリスト。 ・それぞれの情報カテゴリ(たとえば、位置、行動)に
ついて、そのイベントについての注釈から得られたその
カテゴリにおける全てのデータからなるリスト。 ・イベントセグメンテーションのためのスコア。
【0085】イベント識別のタスクは、(ステージ38
から生じる)「イベント」リストにおけるイベント記述
が存在するかをチェックするために減少される。存在し
ない場合、他のカテゴリから集めようとする。多くのル
ールは、イベント識別を実現するために使用される場合
があるのに対し、以下のルールは、先のルールが後のル
ールを引き継いで、満足なものとなる。
【0086】1.イベントが記述されている場合、その
イベントを与える。 2.イベントが1つの写真のみを含んでいる場合、その
写真についての注釈を与える。 3.位置が記述されている場合、その位置を与える。 4.人が記述されている場合、その人を与える。 5.イベントにおける最初の写真についての注釈を与え
る。
【0087】イベント区分及び識別の後に、それぞれの
イベントは、そのイベントについての注釈において記述
された人、位置、物体、日付/時間、行動及びイベント
の収集を備える。イベント要約ステージ20では、イベ
ントについての要約の作成は、適切なやり方で、この情
報を選択及び配列することである。
【0088】異なるタイプの要約は、異なるタイプのア
プリケーションに適している。情報検索アプリケーショ
ンについて、好適な要約は、おそらく、副本が除かれて
(しかし、おそらく、たとえば、“my son”及び“joh
n”といった同じ事柄への参照を変化せずに)、イベン
トにおける全ての記述された項目からなるリストであ
る。
【0089】自動アルバム作成について、良好な要約
は、たとえば、関連するイベント自身、位置、日付/時
間及び人といったイベントにおける重要な情報を識別す
る文又は短いパラグラフである。異なるパラグラフ要約
のためのテンプレートを作成することができ、その幾つ
かは、異なるタイプのイベントに固有にすることができ
る(たとえば、結婚式、ハロウィン、旅行)。
【0090】データを見ることから、イベントについて
全ての注釈を簡単に結合することは、共用可能な文/パ
ラグラフ要約とはならない。代わりに、文の要約は、以
下のように構築される(全ての適用可能なルールが使用
される)。 ・5以下の人が記述される場合、該人をリストに列挙す
る。 ・イベントが記述される場合、該イベントを与える。 ・位置が記述される場合、該位置を与える。 ・日付/時間が記述される場合、該日付/時間を与え
る。
【0091】別の可能性は、要約のリストのタイプであ
り、すなわち、おそらく副本が除かれるが、同じ項目を
言及する句を含んで、それぞれのイベントに関連する全
ての情報は、カテゴリによりプリント出力される場合で
ある。それぞれの種類の要約の例は、写真の2つの典型
的なイベントグループ分けについて、表2及び表3に与
えられている。
【0092】
【表2】
【0093】
【表3】
【0094】
【表4】
【図面の簡単な説明】
【図1】本発明による方法及びシステムの機能に関する
ブロック図である。
【図2】本発明を実現するためのコンピュータシステム
に関するブロック図である。
【図3】図1に示される情報抽出機能に関するフローシ
ーケンス図である。
【図4】図1に支援されるイベント区分機能に関するフ
ローシーケンス図である。
【符号の説明】
10:取得ステージ 12:音声−テキスト変換ステージ 14:情報抽出ステージ 16:イベント区分ステージ 18:イベント識別ステージ 20:イベント要約ステージ 22:写真アルバム 30:区分及びフィルタリングステージ 32:番号付けステージ 34:分類ステージ 36:日付、時間、金及びパーセンテージステージ 38:人、位置、イベント及び物体ステージ 40:句ステージ 42:相互参照による分類ステージ 44:XMLドキュメント 48:注釈 50:ギャップチェックステップ 52:計算ステップ 54:証明チェックステップ 56:マージステップ 58:ギャップインクリメントステップ 60:計算ステップ 62:証明チェックステップ 64:マージステップ 66:新たなイベントステップ 68:最初のフレームチェックステップ 110:コンピュータ 112:大容量メモリ 114:ネットワークインタフェース 116:リモートサーバ 118:ネットワーク 120:内部メモリ 122:入力装置 124:メモリカードリーダ 126:ネットワークインタフェース 128:音声認識モジュール 130:出力装置 132:ディスプレイ装置 134:プリンタ 136:ネットワークインタフェース 138:出力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アマンダ ジェイ ステント アメリカ合衆国 ニューヨーク 14605 ロチェスター ギッブス・ストリート 125 Fターム(参考) 5B075 ND08 ND14 NK06 NR05 NR15 NS01

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 デジタル化された写真画像を、写真アル
    バムの編成に役立つ音声注釈に基づいたイベントに自動
    的に編成するための方法であって、 写真画像の複数のフレームに対応する音声注釈に基づく
    自然言語のテキストを提供するステップと、 画像の注釈を特徴付ける前記自然言語のテキストから所
    定の情報を抽出するステップと、 イベント間の境界を示す所定の情報カテゴリの存在につ
    いて注釈のそれぞれを調べることにより、前記デジタル
    化された写真画像をイベントに区分するステップと、 前記情報カテゴリからイベント記述子を作成することに
    より、イベントのそれぞれを識別するステップと、を備
    える方法。
  2. 【請求項2】 適切なやり方で前記イベント記述子を選
    択及び配列することにより、イベントのそれぞれを要約
    するステップをさらに備える、請求項1記載の方法。
  3. 【請求項3】 前記イベント記述子は、写真アルバムと
    して適切なやり方で選択及び配列される、請求項1記載
    の方法。
  4. 【請求項4】 前記自然言語のテキストを提供する前記
    ステップは、 音声注釈を取得するステップと、 前記音声注釈を自然言語のテキストに変換するステップ
    とを備える、請求項1記載の方法。
  5. 【請求項5】 前記自然言語のテキストから所定の情報
    を抽出する前記ステップは、 前記自然言語のテキストを単語及び文に区分するステッ
    プと、 複数の辞書及び地名辞典を前記単語及び文に適用して、
    可能性のあるイベントを示す重要な単語を分類するステ
    ップとを備える、請求項1記載の方法。
JP2002160316A 2001-06-01 2002-05-31 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム Expired - Fee Related JP3936243B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US872593 2001-06-01
US09/872,593 US6810146B2 (en) 2001-06-01 2001-06-01 Method and system for segmenting and identifying events in images using spoken annotations

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007009219A Division JP2007102819A (ja) 2001-06-01 2007-01-18 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム

Publications (2)

Publication Number Publication Date
JP2003085190A true JP2003085190A (ja) 2003-03-20
JP3936243B2 JP3936243B2 (ja) 2007-06-27

Family

ID=25359914

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002160316A Expired - Fee Related JP3936243B2 (ja) 2001-06-01 2002-05-31 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム
JP2007009219A Pending JP2007102819A (ja) 2001-06-01 2007-01-18 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007009219A Pending JP2007102819A (ja) 2001-06-01 2007-01-18 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム

Country Status (3)

Country Link
US (2) US6810146B2 (ja)
EP (1) EP1262883B1 (ja)
JP (2) JP3936243B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090730A (ja) * 2006-10-04 2008-04-17 Nikon Corp 情報処理プログラム、および情報処理装置
JP2020166602A (ja) * 2019-03-29 2020-10-08 東京瓦斯株式会社 記録システムおよびプログラム

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299405B1 (en) * 2000-03-08 2007-11-20 Ricoh Company, Ltd. Method and system for information management to facilitate the exchange of ideas during a collaborative effort
US7653925B2 (en) 1999-11-17 2010-01-26 Ricoh Company, Ltd. Techniques for receiving information during multimedia presentations and communicating the information
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
US20030033602A1 (en) * 2001-08-08 2003-02-13 Simon Gibbs Method and apparatus for automatic tagging and caching of highlights
US7091989B2 (en) * 2001-08-10 2006-08-15 Sony Corporation System and method for data assisted chroma-keying
JP2003167914A (ja) 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
GB0129787D0 (en) * 2001-12-13 2002-01-30 Hewlett Packard Co Method and system for collecting user-interest information regarding a picture
GB2383247A (en) * 2001-12-13 2003-06-18 Hewlett Packard Co Multi-modal picture allowing verbal interaction between a user and the picture
US20030187820A1 (en) 2002-03-29 2003-10-02 Michael Kohut Media management system and process
US20030187632A1 (en) * 2002-04-02 2003-10-02 Menich Barry J. Multimedia conferencing system
US20040167907A1 (en) * 2002-12-06 2004-08-26 Attensity Corporation Visualization of integrated structured data and extracted relational facts from free text
US7747625B2 (en) * 2003-07-31 2010-06-29 Hewlett-Packard Development Company, L.P. Organizing a collection of objects
US7109848B2 (en) * 2003-11-17 2006-09-19 Nokia Corporation Applications and methods for providing a reminder or an alert to a digital media capture device
US20050105374A1 (en) * 2003-11-17 2005-05-19 Nokia Corporation Media diary application for use with digital device
US8010579B2 (en) 2003-11-17 2011-08-30 Nokia Corporation Bookmarking and annotating in a media diary application
US20050108643A1 (en) * 2003-11-17 2005-05-19 Nokia Corporation Topographic presentation of media files in a media diary application
US8990255B2 (en) * 2003-11-17 2015-03-24 Nokia Corporation Time bar navigation in a media diary application
US20050108234A1 (en) * 2003-11-17 2005-05-19 Nokia Corporation Speed browsing of media items in a media diary application
US7689712B2 (en) 2003-11-26 2010-03-30 Ricoh Company, Ltd. Techniques for integrating note-taking and multimedia information
US7774718B2 (en) * 2003-12-17 2010-08-10 Nokia Corporation Time handle in a media diary application for accessing media files
US20050187943A1 (en) * 2004-02-09 2005-08-25 Nokia Corporation Representation of media items in a media file management application for use with a digital device
US20050192808A1 (en) * 2004-02-26 2005-09-01 Sharp Laboratories Of America, Inc. Use of speech recognition for identification and classification of images in a camera-equipped mobile handset
JP2005345616A (ja) * 2004-06-01 2005-12-15 Canon Inc 情報処理装置及び情報処理方法
US20050286428A1 (en) * 2004-06-28 2005-12-29 Nokia Corporation Timeline management of network communicated information
US8443279B1 (en) * 2004-10-13 2013-05-14 Stryker Corporation Voice-responsive annotation of video generated by an endoscopic camera
JP2006293985A (ja) 2005-03-15 2006-10-26 Fuji Photo Film Co Ltd アルバム作成装置、アルバム作成方法、及びプログラム
JP2006295890A (ja) * 2005-03-15 2006-10-26 Fuji Photo Film Co Ltd アルバム作成装置、アルバム作成方法、及びプログラム
JP4588642B2 (ja) * 2005-03-15 2010-12-01 富士フイルム株式会社 アルバム作成装置、アルバム作成方法、及びプログラム
JP2006293986A (ja) 2005-03-15 2006-10-26 Fuji Photo Film Co Ltd アルバム作成装置、アルバム作成方法、及びプログラム
US20060287996A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Computer-implemented method, system, and program product for tracking content
US8805929B2 (en) * 2005-06-20 2014-08-12 Ricoh Company, Ltd. Event-driven annotation techniques
US20070005592A1 (en) * 2005-06-21 2007-01-04 International Business Machines Corporation Computer-implemented method, system, and program product for evaluating annotations to content
US7613667B2 (en) * 2005-06-30 2009-11-03 The Boeing Company Methods and systems for analyzing incident reports
US20070008321A1 (en) 2005-07-11 2007-01-11 Eastman Kodak Company Identifying collection images with special events
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8756057B2 (en) * 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
WO2007076529A2 (en) * 2005-12-28 2007-07-05 The Trustees Of Columbia University In The City Of New York A system and method for accessing images with a novel user interface and natural language processing
US8078618B2 (en) 2006-01-30 2011-12-13 Eastman Kodak Company Automatic multimode system for organizing and retrieving content data files
US9135339B2 (en) 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US7627541B2 (en) * 2006-09-15 2009-12-01 Microsoft Corporation Transformation of modular finite state transducers
US7624075B2 (en) * 2006-09-15 2009-11-24 Microsoft Corporation Transformation of modular finite state transducers
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
KR100768127B1 (ko) * 2007-04-10 2007-10-17 (주)올라웍스 가독성 데이터로부터 인간 관계를 추론하는 방법과 가독성데이터를 이용하여 디지털 데이터 내의 인물 식별을 통해태그를 부여하는 방법 및 시스템
US7730036B2 (en) 2007-05-18 2010-06-01 Eastman Kodak Company Event-based digital content record organization
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
AU2008312423B2 (en) * 2007-10-17 2013-12-19 Vcvc Iii Llc NLP-based content recommender
US9706345B2 (en) * 2008-01-04 2017-07-11 Excalibur Ip, Llc Interest mapping system
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20110054906A1 (en) * 2008-04-17 2011-03-03 Talking Pix Systems Llc Multimedia Keepsake with Customizable Content
US8024311B2 (en) * 2008-12-05 2011-09-20 Eastman Kodak Company Identifying media assets from contextual information
WO2010073591A1 (ja) * 2008-12-26 2010-07-01 日本電気株式会社 テキスト処理装置、テキスト処理方法、及びコンピュータ読み取り可能な記録媒体
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
US8380866B2 (en) 2009-03-20 2013-02-19 Ricoh Company, Ltd. Techniques for facilitating annotations
US8887190B2 (en) * 2009-05-28 2014-11-11 Harris Corporation Multimedia system generating audio trigger markers synchronized with video source data and related methods
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
US20110182493A1 (en) * 2010-01-25 2011-07-28 Martin Huber Method and a system for image annotation
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CA2794959C (en) * 2010-03-30 2018-08-28 Nvoq Incorporated Hierarchical quick note to allow dictated code phrases to be transcribed to standard clauses
US9454280B2 (en) 2011-08-29 2016-09-27 Intellectual Ventures Fund 83 Llc Display device providing feedback based on image classification
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9460199B2 (en) 2013-05-01 2016-10-04 International Business Machines Corporation Application of text analytics to determine provenance of an object
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9881023B2 (en) * 2014-07-22 2018-01-30 Microsoft Technology Licensing, Llc Retrieving/storing images associated with events
US20160093297A1 (en) * 2014-09-26 2016-03-31 Michael E. Deisher Method and apparatus for efficient, low power finite state transducer decoding
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
CN106033418B (zh) * 2015-03-10 2020-01-31 阿里巴巴集团控股有限公司 语音添加、播放方法及装置、图片分类、检索方法及装置
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
DK179049B1 (en) * 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10083162B2 (en) 2016-11-28 2018-09-25 Microsoft Technology Licensing, Llc Constructing a narrative based on a collection of images
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11567991B2 (en) 2018-10-08 2023-01-31 Google Llc Digital image classification and annotation

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US685112A (en) * 1901-04-13 1901-10-22 Frank M Dannelly Machine for destroying cotton-boll weevil, &c.
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
US5579471A (en) 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface
US5692225A (en) * 1994-08-30 1997-11-25 Eastman Kodak Company Voice recognition of recorded messages for photographic printers
US5862519A (en) * 1996-04-02 1999-01-19 T-Netix, Inc. Blind clustering of data with application to speech processing systems
JPH10301953A (ja) 1997-04-28 1998-11-13 Just Syst Corp 画像管理装置、画像検索装置、画像管理方法、画像検索方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US6128446A (en) * 1997-12-11 2000-10-03 Eastman Kodak Company Method and apparatus for annotation of photographic film in a camera
US6250928B1 (en) * 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus
US6606411B1 (en) * 1998-09-30 2003-08-12 Eastman Kodak Company Method for automatically classifying images into events
US6360237B1 (en) * 1998-10-05 2002-03-19 Lernout & Hauspie Speech Products N.V. Method and system for performing text edits during audio recording playback
EP1004967B1 (en) * 1998-11-25 2004-03-17 Eastman Kodak Company Photocollage generation and modification using image recognition
US6462778B1 (en) * 1999-02-26 2002-10-08 Sony Corporation Methods and apparatus for associating descriptive data with digital image files
US6272461B1 (en) * 1999-03-22 2001-08-07 Siemens Information And Communication Networks, Inc. Method and apparatus for an enhanced presentation aid
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
US6332122B1 (en) * 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
US6487531B1 (en) * 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
US6499016B1 (en) * 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
US6741963B1 (en) * 2000-06-21 2004-05-25 International Business Machines Corporation Method of managing a speech cache
US6563911B2 (en) * 2001-01-23 2003-05-13 Ivoice, Inc. Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090730A (ja) * 2006-10-04 2008-04-17 Nikon Corp 情報処理プログラム、および情報処理装置
JP2020166602A (ja) * 2019-03-29 2020-10-08 東京瓦斯株式会社 記録システムおよびプログラム
JP7353057B2 (ja) 2019-03-29 2023-09-29 東京瓦斯株式会社 記録システムおよびプログラム

Also Published As

Publication number Publication date
US7120586B2 (en) 2006-10-10
EP1262883A2 (en) 2002-12-04
EP1262883A3 (en) 2006-10-18
EP1262883B1 (en) 2011-06-22
US20040260558A1 (en) 2004-12-23
US20030059112A1 (en) 2003-03-27
JP3936243B2 (ja) 2007-06-27
US6810146B2 (en) 2004-10-26
JP2007102819A (ja) 2007-04-19

Similar Documents

Publication Publication Date Title
JP3936243B2 (ja) 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム
US7788084B2 (en) Labeling of work of art titles in text for natural language processing
US8060357B2 (en) Linguistic user interface
US20040073874A1 (en) Device for retrieving data from a knowledge-based text
US10296584B2 (en) Semantic textual analysis
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
US20050216443A1 (en) Method and system for indexing and searching timed media information based upon relevance intervals
JP2010529569A (ja) 辞書の単語及び熟語の判定
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
Carrive et al. Transdisciplinary analysis of a corpus of French newsreels: The ANTRACT Project
Hassel Evaluation of automatic text summarization
Stent et al. Using event segmentation to improve indexing of consumer photographs
Al-Ayyoub et al. Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study.
Camelin et al. Frnewslink: a corpus linking tv broadcast news segments and press articles
JP2002278982A (ja) 情報抽出方法および情報検索方法
JP2002183175A (ja) テキストマイニング方法
Lindsay et al. Representation and linking mechanisms for audio in MPEG-7
JP2003271616A (ja) 文書分類装置、文書分類方法及び記録媒体
Yuan et al. Parsing model for answer extraction in Chinese question answering system
Smits et al. Personal semantic indexation of images using textual annotations
Davis et al. Retrieving what's relevant in audio and video: statistics and linguistics in combination.
Chanod Natural language processing and digital libraries
Kehat Between Visualizability and Abstractness: Deploying Visual Text to Detect Non-literal Language
Heiden et al. Transdisciplinary Analysis of a Corpus of French Newsreels: The ANTRACT Project
Papageorgiou et al. Cimwos: A multimedia, multimodal and multilingual indexing and retrieval system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060718

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061017

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070322

R150 Certificate of patent or registration of utility model

Ref document number: 3936243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees