JP2008287698A - 索引付けシステム及び索引付けプログラム - Google Patents
索引付けシステム及び索引付けプログラム Download PDFInfo
- Publication number
- JP2008287698A JP2008287698A JP2007333334A JP2007333334A JP2008287698A JP 2008287698 A JP2008287698 A JP 2008287698A JP 2007333334 A JP2007333334 A JP 2007333334A JP 2007333334 A JP2007333334 A JP 2007333334A JP 2008287698 A JP2008287698 A JP 2008287698A
- Authority
- JP
- Japan
- Prior art keywords
- segments
- segment
- similarity
- index
- indexing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】認識モジュール101は、メディア・ストリームの複数のセグメントから複数の索引タームを抽出する。各々のセグメントについて、重みモジュール102は、特定セグメントとその近隣セグメントとの間の視覚、テキスト、時間、及び音声の類似性に基づいて、重みベクトルを計算する。次に、インデクサ103は、特定セグメントの索引ターム、及び重みベクトルによって調整された重みを有する近隣セグメントからの索引タームの双方を含めることによって、特定セグメントの索引を構築する。
【選択図】図1
Description
(1)セグメントのテキスト上に配置された固定長窓の上で首尾一貫性の尺度を測定し、測定結果として得られた値を閾値として使用する手法
(2)段落又は文である語彙単位を利用する手法、
(3)セグメントのテキストを固定語数の一節へ分割する手法
(1)セグメント上で検出された複数の索引タームの重なり
(2)セグメントの時間近接性、セグメントの順序近接性
(3)セグメントの視覚類似性
(4)セグメントの音響特徴の類似性
(1)セグメント上にあるセグメント特有の索引タームの類似性の程度
(2)セグメントを分ける時間
(3)セグメントの順序
(4)セグメントの視覚的特徴
(5)セグメントの音声・音色・韻律的類似性
(1)共通の見出し又はフッタ
(2)共通の視覚要素
(3)共通の色彩及び/又は色彩配合
(4)中点付きリストにおけるテキスト階層のパターン
2つのセグメントの語彙(vocabulary)が近似するほど、それだけ大きい尤度で、近隣セグメント由来の索引タームが使用されて、ターゲットが検索される。正確な関数は経験的に決定可能である。
比較的に近接して一緒にプレゼンテーションされたセグメントは、関連している尤度が大きいと考えられる。機械学習アルゴリズムをトレーニングして、各々のセグメントが表示された時間量に基づいて近隣セグメント間の関連性を推定することができる。この得点(score)を使用して、上記で計算された類似性の程度を調整することができる。
他の因子(例えば、テキスト類似性又は視覚類似性)が関係する場合を除いて、近隣セグメントが有意味的にグループ化される尤度が大きい。従って、セグメント間の距離が増加するときのテキスト類似性の割引(discounting:低い見積り)は、索引タームの重み因子にしなければならない。
これに限定される訳ではないが、共通の見出し(headings)又はフッタ(footers)、共通の視覚要素(例えば、アイコン(icons)又は画像(images))、共通の色彩(colors)及び/又は色彩配合(color schemes)、及び中点付きリスト(bulleted lists)におけるテキスト階層パターンを含む特徴は、視覚的特徴の全ての例であり、それらに基づいてセグメント間の類似性を測定することができる。セグメント間で計算された類似性の得点を使用して、近隣セグメントに由来する索引タームの出現頻度情報を調整することができる。
換言すれば、もしセグメントに対応する音声が記録されていたならば、その音声から得られた音響的特徴(acoustic features)を使用して、類似性を評価することができる。
Claims (11)
- 類似性に基づいてメディア・ストリームを索引付けする索引付けシステムであって、
メディア・ストリームの複数のセグメントの各々から複数の索引タームを抽出するように動作可能な認識モジュールと、
メディア・ストリーム内の特定セグメントと当該特定セグメントの近隣にある近隣セグメントとの間の類似性に基づいて、少なくとも1つの特定セグメントについて重みベクトルを計算するように動作可能な重みモジュールと、
少なくとも、特定セグメント上で検出された複数の索引ターム、及び前記重みベクトルによって調整された重みを有する前記近隣セグメント由来の複数の索引タームを組み入れて、特定セグメントの索引を作成するように動作可能なインデクサと、
を含む索引付けシステム。 - 前記特定セグメントと前記近隣セグメントとの間の類似性が、視覚類似性、テキスト類似性、時間類似性、及び音声類似性からなる群から選択された1つ又は複数を含む、請求項1に記載の索引付けシステム。
- 前記認識モジュールが、以下の(1)〜(3)の少なくとも1つのテキスト分割手法を用いて、複数のセグメントの各々からテキストによる索引タームを生成し、前記テキスト類似性を評価するように動作可能である、請求項2に記載の索引付けシステム。
(1)セグメントのテキスト上に配置された固定長窓の上で首尾一貫性の尺度を測定し、測定結果として得られた値を閾値として使用する手法
(2)段落又は文である語彙単位を利用する手法、
(3)セグメントのテキストを固定語数の一節へ分割する手法 - 前記首尾一貫性の尺度が、記号的尺度又は確率的尺度である、請求項3に記載のシステム。
- 前記特定セグメントと前記近隣セグメントとの間の類似性が、以下の(1)〜(4)からなる群から選択された1つ又は複数を含む、請求項1に記載の索引付けシステム。
(1)セグメント上で検出された複数の索引タームの重なり
(2)セグメントの時間近接性、セグメントの順序近接性
(3)セグメントの視覚類似性
(4)セグメントの音響特徴の類似性 - 前記重みベクトルが、ユークリッド空間及び統計空間の少なくとも一方である特徴空間内の距離に基づいて計算される、請求項1に記載の索引付けシステム。
- 前記重みモジュールが、以下の(1)〜(5)からなる群から選択された少なくとも1つに基づいて、前記重みベクトルを計算するように動作可能である、請求項1に記載の索引付けシステム。
(1)セグメント上にあるセグメント特有の索引タームの類似性の程度
(2)セグメントを分ける時間
(3)セグメントの順序
(4)セグメントの視覚的特徴
(5)セグメントの音声・音色・韻律的類似性 - 前記セグメントの視覚的特徴が、以下の(1)〜(4)からなる群から選択された1つ又は複数を含む、請求項7に記載の索引付けシステム。
(1)共通の見出し又はフッタ
(2)共通の視覚要素
(3)共通の色彩及び/又は色彩配合
(4)中点付きリストにおけるテキスト階層のパターン - 前記インデクサが、更に、前記重みベクトル及び検索時ユーザ指定クエリの双方によって調整された重みを有する近隣セグメント由来の複数の索引タームを索引の中に組み入れて、特定セグメントの索引を作成するように動作可能である、請求項1に記載の索引付けシステム。
- 前記インデクサは、類似性に基づいて計算された重みベクトルを、類似するセグメントをグループ化して索引付けする索引付け時グループ化、及びセグメント毎に索引付けし類似するセグメントをグループ化して検索する検索時グループ化の少なくとも一方を介して、索引に反映させる、請求項1に記載の索引付けシステム。
- 類似性に基づいてメディア・ストリームを索引付けする索引付けプログラムであって、
コンピュータを、
メディア・ストリームの複数のセグメントの各々から複数の索引タームを抽出する手段と、
メディア・ストリーム内の特定セグメントと当該特定セグメントの近隣にある近隣セグメントとの間の類似性に基づいて、少なくとも1つの特定セグメントについて重みベクトルを計算する手段と、
少なくとも、特定セグメントから上で検出された複数の索引ターム、及び前記重みベクトルによって調整された重みを有する前記近隣セグメント由来の複数の索引タームを組み入れて、特定セグメントの索引を作成する手段と、
として機能させるための索引付けプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/749,398 US20080288537A1 (en) | 2007-05-16 | 2007-05-16 | System and method for slide stream indexing based on multi-dimensional content similarity |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008287698A true JP2008287698A (ja) | 2008-11-27 |
Family
ID=40028608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007333334A Pending JP2008287698A (ja) | 2007-05-16 | 2007-12-25 | 索引付けシステム及び索引付けプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20080288537A1 (ja) |
JP (1) | JP2008287698A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248228A (ja) * | 2010-05-28 | 2011-12-08 | Brother Ind Ltd | 光走査装置 |
WO2017087003A1 (en) * | 2015-11-20 | 2017-05-26 | Hewlett Packard Enterprise Development Lp | Segments of data entries |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141627A (zh) * | 2007-10-23 | 2008-03-12 | 深圳市迅雷网络技术有限公司 | 一种流媒体文件的存储系统及方法 |
JP5247311B2 (ja) * | 2008-08-29 | 2013-07-24 | キヤノン株式会社 | 電子文書処理装置および電子文書処理方法 |
US8631040B2 (en) * | 2010-02-23 | 2014-01-14 | Sas Institute Inc. | Computer-implemented systems and methods for flexible definition of time intervals |
US9047559B2 (en) | 2011-07-22 | 2015-06-02 | Sas Institute Inc. | Computer-implemented systems and methods for testing large scale automatic forecast combinations |
US20130138654A1 (en) * | 2011-11-30 | 2013-05-30 | Nokia Corporation | Methods and apparatuses for generating semantic signatures for media content |
CN103294684B (zh) * | 2012-02-24 | 2016-08-24 | 浙江易网科技股份有限公司 | 关联词汇搜索系统及方法 |
US20130346385A1 (en) * | 2012-06-21 | 2013-12-26 | Revew Data Corp. | System and method for a purposeful sharing environment |
US9244887B2 (en) | 2012-07-13 | 2016-01-26 | Sas Institute Inc. | Computer-implemented systems and methods for efficient structuring of time series data |
US9087306B2 (en) | 2012-07-13 | 2015-07-21 | Sas Institute Inc. | Computer-implemented systems and methods for time series exploration |
US9244923B2 (en) | 2012-08-03 | 2016-01-26 | Fuji Xerox Co., Ltd. | Hypervideo browsing using links generated based on user-specified content features |
US9147218B2 (en) | 2013-03-06 | 2015-09-29 | Sas Institute Inc. | Devices for forecasting ratios in hierarchies |
US9122681B2 (en) | 2013-03-15 | 2015-09-01 | Gordon Villy Cormack | Systems and methods for classifying electronic information using advanced active learning techniques |
US9934259B2 (en) | 2013-08-15 | 2018-04-03 | Sas Institute Inc. | In-memory time series database and processing in a distributed environment |
US10169720B2 (en) | 2014-04-17 | 2019-01-01 | Sas Institute Inc. | Systems and methods for machine learning using classifying, clustering, and grouping time series data |
US9892370B2 (en) | 2014-06-12 | 2018-02-13 | Sas Institute Inc. | Systems and methods for resolving over multiple hierarchies |
US9208209B1 (en) | 2014-10-02 | 2015-12-08 | Sas Institute Inc. | Techniques for monitoring transformation techniques using control charts |
US10289733B2 (en) * | 2014-12-22 | 2019-05-14 | Rovi Guides, Inc. | Systems and methods for filtering techniques using metadata and usage data analysis |
US9418339B1 (en) | 2015-01-26 | 2016-08-16 | Sas Institute, Inc. | Systems and methods for time series analysis techniques utilizing count data sets |
US10229117B2 (en) | 2015-06-19 | 2019-03-12 | Gordon V. Cormack | Systems and methods for conducting a highly autonomous technology-assisted review classification |
US10983682B2 (en) | 2015-08-27 | 2021-04-20 | Sas Institute Inc. | Interactive graphical user-interface for analyzing and manipulating time-series projections |
US11321372B2 (en) * | 2017-01-03 | 2022-05-03 | The Johns Hopkins University | Method and system for a natural language processing using data streaming |
US10331490B2 (en) | 2017-11-16 | 2019-06-25 | Sas Institute Inc. | Scalable cloud-based time series analysis |
US10338994B1 (en) | 2018-02-22 | 2019-07-02 | Sas Institute Inc. | Predicting and adjusting computer functionality to avoid failures |
US10255085B1 (en) | 2018-03-13 | 2019-04-09 | Sas Institute Inc. | Interactive graphical user interface with override guidance |
US10560313B2 (en) | 2018-06-26 | 2020-02-11 | Sas Institute Inc. | Pipeline system for time-series data forecasting |
US10685283B2 (en) | 2018-06-26 | 2020-06-16 | Sas Institute Inc. | Demand classification based pipeline system for time-series data forecasting |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216443A1 (en) * | 2000-07-06 | 2005-09-29 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
JP2005535018A (ja) * | 2002-07-29 | 2005-11-17 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | メディアオブジェクトのコレクションの提示 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100357261B1 (ko) * | 1999-12-30 | 2002-10-18 | 엘지전자 주식회사 | 멀티미디어 데이터의 의미적/구조적 정보 생성방법 및 그 정보의 기록매체와 멀티미디어 검색 및 브라우징 방법 |
US6675174B1 (en) * | 2000-02-02 | 2004-01-06 | International Business Machines Corp. | System and method for measuring similarity between a set of known temporal media segments and a one or more temporal media streams |
US6578040B1 (en) * | 2000-06-14 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for indexing of topics using foils |
CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
US20060224584A1 (en) * | 2005-03-31 | 2006-10-05 | Content Analyst Company, Llc | Automatic linear text segmentation |
BRPI0708456A2 (pt) * | 2006-03-03 | 2011-05-31 | Koninkl Philips Electronics Nv | método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados |
EP2044772A4 (en) * | 2006-07-07 | 2010-03-31 | Redlasso Corp | SEARCH ENGINE FOR AUDIO DATA |
-
2007
- 2007-05-16 US US11/749,398 patent/US20080288537A1/en not_active Abandoned
- 2007-12-25 JP JP2007333334A patent/JP2008287698A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216443A1 (en) * | 2000-07-06 | 2005-09-29 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
JP2005535018A (ja) * | 2002-07-29 | 2005-11-17 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | メディアオブジェクトのコレクションの提示 |
Non-Patent Citations (6)
Title |
---|
CSNG200900289150; 岡本拓明: 'プレゼンテーション蓄積検索システムにおける講義・講演音声情報を利用した適合度の改善' DEWS2006論文集 [online] , 20060630, 電子情報通信学会データ工学研究専門委員会 * |
CSNG200900341008; 岡本拓明: 'プレゼンテーション蓄積検索システムにおける適合度計算の改善' 第15回データ工学ワークショップ(DEWS2004)論文集 [online] , 20040618, 電子情報通信学会データ工学研究専門委員会 * |
JPN6012045775; YOKOTA Haruo: 'UPRISE : Unified Presentation Slide Retrieval by Impression Search Engine' IEICE transactions on information and systems Vol.E87-D, No.2, 20040201, pp.397-406, 社団法人電子情報通信学会情報・システムソサイエティ * |
JPN6012045776; 岡本拓明: 'プレゼンテーション蓄積検索システムにおける適合度計算の改善' 第15回データ工学ワークショップ(DEWS2004)論文集 [online] , 20040618, 電子情報通信学会データ工学研究専門委員会 * |
JPN6012045777; 岡本拓明: 'プレゼンテーション蓄積検索システムにおける講義・講演音声情報を利用した適合度の改善' DEWS2006論文集 [online] , 20060630, 電子情報通信学会データ工学研究専門委員会 * |
JPN6012045778; Okamoto, H.: 'Presentation Retrieval Method Considering the Scope of Targets and Outputs' Web Information Retrieval and Integration, 2005. WIRI '05. Proceedings. International Workshop on Ch , 2005 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248228A (ja) * | 2010-05-28 | 2011-12-08 | Brother Ind Ltd | 光走査装置 |
WO2017087003A1 (en) * | 2015-11-20 | 2017-05-26 | Hewlett Packard Enterprise Development Lp | Segments of data entries |
Also Published As
Publication number | Publication date |
---|---|
US20080288537A1 (en) | 2008-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008287698A (ja) | 索引付けシステム及び索引付けプログラム | |
Annett et al. | A comparison of sentiment analysis techniques: Polarizing movie blogs | |
KR101672579B1 (ko) | 키워드 추출에 관한 시스템 및 방법 | |
Lossio-Ventura et al. | Yet another ranking function for automatic multiword term extraction | |
Newman et al. | Bayesian text segmentation for index term identification and keyphrase extraction | |
Deschacht et al. | Text analysis for automatic image annotation | |
Martinez-Romo et al. | Web spam identification through language model analysis | |
WO2006001906A2 (en) | Graph-based ranking algorithms for text processing | |
Chen et al. | Plagiarism detection using ROUGE and WordNet | |
Okumura et al. | Semeval-2010 task: Japanese wsd | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
Galanopoulos et al. | Temporal lecture video fragmentation using word embeddings | |
Wu et al. | Leveraging social Q&A collections for improving complex question answering | |
Roy et al. | Discovering and understanding word level user intent in web search queries | |
Cimino et al. | Linguistic profiling based on general–purpose features and native language identification | |
Chen et al. | A boundary assembling method for Chinese entity-mention recognition | |
Gupta et al. | Plagiarism detection in text documents using sentence bounded stop word n-grams | |
Tsai | Chinese text segmentation: A hybrid approach using transductive learning and statistical association measures | |
Chaibi et al. | Topic segmentation for textual document written in arabic language | |
Izquierdo et al. | An empirical study on class-based word sense disambiguation | |
Lee | Text-based video genre classification using multiple feature categories and categorization methods | |
Heu et al. | Multi-document summarization exploiting semantic analysis based on tag cluster | |
Peng et al. | SIR-NERD: a chinese named entity recognition and disambiguation system using a two-stage method | |
JP4175093B2 (ja) | トピック境界決定方法及び装置及びトピック境界決定プログラム | |
Welch | Addressing the challenges of underspecification in web search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121022 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130226 |