JP5158379B2 - コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム - Google Patents
コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム Download PDFInfo
- Publication number
- JP5158379B2 JP5158379B2 JP2009512962A JP2009512962A JP5158379B2 JP 5158379 B2 JP5158379 B2 JP 5158379B2 JP 2009512962 A JP2009512962 A JP 2009512962A JP 2009512962 A JP2009512962 A JP 2009512962A JP 5158379 B2 JP5158379 B2 JP 5158379B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- dissimilarity
- search
- document
- concealed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
10 文書データベース
11 入力部
12 指定部
13 検索部
14 非類似度演算部
15 選択部
16 出力部
20 距離計算用データベース
24 非類似度演算部
(但し、Wiは指定部分に含まれる単語、Wjは類似文書に含まれる単語、D(Wi,Wj)はWiとWjの シソーラス上の距離)
また、距離計算を行う際に公開されているWEB上の情報を参照することで、検索された類似文書の出現頻度・出現時刻を計算し、高頻度あるいは最近出現している文書に対して重み付けを与えるように非類似度を補正してもよい。
Claims (27)
- 原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索手段と、
前記検索手段により得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算手段と
前記検索手段により検索されたコンテンツの中から、前記演算手段により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択手段と
を有することを特徴とするコンテンツ処理装置。 - 前記検索手段は、予め設定された許容される類似度に基づいて、前記類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索することを特徴とする請求項1に記載のコンテンツ処理装置。
- 前記選択手段は、非類似の度合いが大きいコンテンツとして、最も類似しないコンテンツを選択することを特徴とする請求項1または請求項2に記載のコンテンツ処理装置。
- 前記コンテンツは文書であって、
前記演算手段は、前記非類似度を、前記検索手段による検索の結果得られた文書と、前記隠蔽する部分に含まれる文書とのユークリッド距離として算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。 - 前記コンテンツ処理装置は、単語の統計情報を含む距離計算用のデータベースを備え、
前記演算手段は、前記距離計算用のデータベースを参照し、前記検索手段による検索の結果得られたコンテンツの文書に含まれる単語と、前記隠蔽する部分の文書に含まれる単語との各共起頻度の総和又は相互情報量の総和として非類似度を算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。 - 前記コンテンツ処理装置は、単語の統計情報を含む距離計算用のデータベースとしてシソーラスを備え、
前記演算手段は、前記シソーラスを参照し、前記検索手段による検索の結果得られた類似文書に含まれる単語と、前記入力された文書の指定された範囲に含まれる単語との単語間におけるシソーラス上の距離の総和として前記非類似度を算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。 - 前記演算手段は、前記検索手段による検索の結果で得られた文書に含まれる単語又は文字列の出現頻度、又は前記検索の結果で得られた文書の出現時刻の少なくともいずれかを算出し、この算出した結果に基づいて前記非類似度を補正するように構成されていることを特徴とする請求項1から請求項6のいずれかに記載のコンテンツ処理装置。
- 前記演算手段における非類似度の補正は、算出した出現頻度を前記非類似度に加算する補正であることを特徴とする請求項7に記載のコンテンツ処理装置。
- 前記演算手段における非類似度の補正は、算出した出現時刻と現在時刻との差分値を算出し、この差分値に応じた重み付け値を前記非類似度に加算する補正であることを特徴とする請求項7または請求項8に記載のコンテンツ処理装置。
- 入力された文書中の隠蔽する部分を指定するための指定手段を有することを特徴とする請求項1から請求項9のいずれかに記載のコンテンツ処理装置。
- 前記指定手段は、文書フォーマットが予め定義されている場合に、この文書フォーマットの所定の箇所に入力された文書、単語、又は単語列を指定するように構成されていることを特徴とする請求項10に記載のコンテンツ処理装置。
- 前記コンテンツは画像であって、
前記演算手段は、前記非類似度を、前記検索手段による検索の結果得られた画像のデータと、前記隠蔽する部分に含まれる画像データとの差分として算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。 - 検索部が原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索ステップと、
演算部が前記検索ステップにより得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算ステップと、
選択部が前記検索ステップにより検索されたコンテンツの中から、前記演算ステップにより算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択ステップと
を有することを特徴とするコンテンツ処理方法。 - 前記検索ステップは、許容される類似度を予め設定しておき、この設定された類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索することを特徴とする請求項13に記載のコンテンツ処理方法。
- 前記選択ステップは、前記演算ステップにより算出された非類似度に基づいて、前記検索ステップにより検索されたコンテンツの中から、前記隠蔽する部分と最も類似しないコンテンツを選択することを有することを特徴とする請求項13または請求項14に記載のコンテンツ処理方法。
- 前記コンテンツは文書であって、
前記演算ステップは、前記非類似度を、前記検索手段による検索の結果得られた文書と、前記隠蔽する部分に含まれる文書とのユークリッド距離として算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。 - 前記演算ステップは、単語の統計情報を含む距離計算用のデータベースを参照し、前記検索ステップによる検索の結果得られたコンテンツの文書に含まれる単語と、前記隠蔽する部分の文書に含まれる単語との各共起頻度の総和又は相互情報量の総和として非類似度を算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。
- 前記演算ステップは、単語の統計情報を含む距離計算用のデータベースであるシソーラスを参照し、前記非類似度を、前記検索手段による検索の結果得られた類似文書に含まれる単語と、前記入力された文書の指定された範囲に含まれる単語との単語間におけるシソーラス上の距離の総和として算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。
- 前記演算ステップは、前記検索ステップによる検索の結果得られた文書に含まれる単語又は文字列の出現頻度、又は前記検索の結果で得られた文書の出現時刻の少なくともいずれかを算出し、この算出した結果に基づいて前記非類似度を補正することを特徴とする請求項13から請求項18のいずれかに記載のコンテンツ処理方法。
- 前記演算ステップにおける非類似度の補正は、算出した出現頻度を前記非類似度に加算する補正であることを特徴とする請求項19に記載のコンテンツ処理方法。
- 前記演算ステップにおける非類似度の補正は、算出した出現時刻と現在時刻との差分値を算出し、この差分値に応じた重み付け値を前記非類似度に加算する補正であることを特徴とする請求項19または請求項20に記載のコンテンツ処理方法。
- 前記コンテンツ処理方法は、入力された文書中の隠蔽する部分を指定部が指定する指定ステップを有することを特徴とする請求項13から請求項21のいずれかに記載のコンテンツ処理方法。
- 前記指定ステップは、文書フォーマットが予め定義されている場合に、この文書フォーマットの所定の箇所に入力された文書、単語、又は文字列を指定することを特徴とする請求項22に記載のコンテンツ処理装置方法。
- 前記コンテンツは画像であって、
前記演算ステップは、前記非類似度を、前記検索手段による検索の結果得られた画像のデータと、前記隠蔽する部分に含まれる画像データとの差分として算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。 - 情報処理装置のプログラムであって、前記プログラムは情報処理装置を、
原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索処理と、
前記検索処理により得られたコンテンツのそれぞれと、前記コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算処理と、
前記検索処理により検索されたコンテンツの中から、前記演算処理により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択処理と
して機能させることを特徴とするプログラム。 - 前記検索処理は、許容される類似度を予め設定しておき、この設定された類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索する処理であることを特徴とする請求項25に記載のプログラム。
- 前記選択処理は、前記演算処理により算出された非類似度に基づいて、前記検索ステップにより検索されたコンテンツの中から、前記隠蔽する部分と最も類似しないコンテンツを選択する処理であることを特徴とする請求項25または請求項26に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009512962A JP5158379B2 (ja) | 2007-04-27 | 2008-04-25 | コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007119393 | 2007-04-27 | ||
JP2007119393 | 2007-04-27 | ||
JP2009512962A JP5158379B2 (ja) | 2007-04-27 | 2008-04-25 | コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム |
PCT/JP2008/058019 WO2008136381A1 (ja) | 2007-04-27 | 2008-04-25 | コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008136381A1 JPWO2008136381A1 (ja) | 2010-07-29 |
JP5158379B2 true JP5158379B2 (ja) | 2013-03-06 |
Family
ID=39943490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009512962A Active JP5158379B2 (ja) | 2007-04-27 | 2008-04-25 | コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100063965A1 (ja) |
JP (1) | JP5158379B2 (ja) |
CN (1) | CN101669119B (ja) |
WO (1) | WO2008136381A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016031733A (ja) * | 2014-07-30 | 2016-03-07 | 富士通株式会社 | 推論容易性算出プログラム、装置、及び方法 |
JP2019153056A (ja) * | 2018-03-02 | 2019-09-12 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006235880A (ja) * | 2005-02-23 | 2006-09-07 | Sharp Corp | 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 |
JP2007074169A (ja) * | 2005-09-05 | 2007-03-22 | Sharp Corp | 番組抽出装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933823A (en) * | 1996-03-01 | 1999-08-03 | Ricoh Company Limited | Image database browsing and query using texture analysis |
EP0849723A3 (en) * | 1996-12-20 | 1998-12-30 | ATR Interpreting Telecommunications Research Laboratories | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition |
GB9701866D0 (en) * | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
JP2000148793A (ja) * | 1998-09-11 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体 |
AU2003243533A1 (en) * | 2002-06-12 | 2003-12-31 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
US8868405B2 (en) * | 2004-01-27 | 2014-10-21 | Hewlett-Packard Development Company, L. P. | System and method for comparative analysis of textual documents |
US20050004922A1 (en) * | 2004-09-10 | 2005-01-06 | Opensource, Inc. | Device, System and Method for Converting Specific-Case Information to General-Case Information |
US7844566B2 (en) * | 2005-04-26 | 2010-11-30 | Content Analyst Company, Llc | Latent semantic clustering |
US7770220B2 (en) * | 2005-08-16 | 2010-08-03 | Xerox Corp | System and method for securing documents using an attached electronic data storage device |
JP4918776B2 (ja) * | 2005-10-24 | 2012-04-18 | 富士通株式会社 | 電子文書比較プログラム、電子文書比較装置および電子文書比較方法 |
JP2007150724A (ja) * | 2005-11-28 | 2007-06-14 | Toshiba Corp | 映像視聴支援システムおよび方法 |
US7739279B2 (en) * | 2005-12-12 | 2010-06-15 | Fuji Xerox Co., Ltd. | Systems and methods for determining relevant information based on document structure |
US7724918B2 (en) * | 2006-11-22 | 2010-05-25 | International Business Machines Corporation | Data obfuscation of text data using entity detection and replacement |
-
2008
- 2008-04-25 JP JP2009512962A patent/JP5158379B2/ja active Active
- 2008-04-25 CN CN2008800139178A patent/CN101669119B/zh not_active Expired - Fee Related
- 2008-04-25 US US12/595,346 patent/US20100063965A1/en not_active Abandoned
- 2008-04-25 WO PCT/JP2008/058019 patent/WO2008136381A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006235880A (ja) * | 2005-02-23 | 2006-09-07 | Sharp Corp | 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 |
JP2007074169A (ja) * | 2005-09-05 | 2007-03-22 | Sharp Corp | 番組抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101669119A (zh) | 2010-03-10 |
US20100063965A1 (en) | 2010-03-11 |
CN101669119B (zh) | 2012-08-08 |
WO2008136381A1 (ja) | 2008-11-13 |
JPWO2008136381A1 (ja) | 2010-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9633063B2 (en) | Methods and apparatus for automated redaction of content in a document | |
KR100974906B1 (ko) | 위치와 관련하여 신뢰성 있는 문서를 식별하는 시스템 및 방법 | |
US8433704B2 (en) | Local item extraction | |
US20070288308A1 (en) | Method and system for providing job listing affinity | |
US20070273909A1 (en) | Method and system for providing job listing affinity utilizing jobseeker selection patterns | |
US8924852B2 (en) | Apparatus, method, and program for supporting processing of character string in document | |
JP2009503739A (ja) | 定義の抽出 | |
CN105874427A (zh) | 基于应用上下文识别帮助信息 | |
CN112912873A (zh) | 动态地抑制搜索中的查询答复 | |
TW202301081A (zh) | 輔助系統之基於真實世界文字偵測的任務執行 | |
JP5158379B2 (ja) | コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム | |
JP3903993B2 (ja) | 文章の感情認識装置及び文章の感情認識方法ならびにそのプログラム | |
US20140279991A1 (en) | Conducting search sessions utilizing navigation patterns | |
JP6107003B2 (ja) | 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム | |
KR101099154B1 (ko) | 검색 서비스 제공 방법 및 시스템 | |
JP2000105768A (ja) | 問合わせ文書の特徴量計算装置および方法 | |
JP5148583B2 (ja) | 機械翻訳装置、方法及びプログラム | |
JP4283038B2 (ja) | 文書登録装置、文書検索装置、プログラム及び記憶媒体 | |
US20220165076A1 (en) | Processing apparatus, processing method, and non-strategy medium | |
JP2020060981A (ja) | ノード探索方法及びノード探索プログラム | |
JPWO2008114316A1 (ja) | 電子文書管理装置及び電子文書管理プログラム | |
JP5915841B2 (ja) | 整合性判定システム、方法およびプログラム | |
JP3875510B2 (ja) | 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 | |
JP4945646B2 (ja) | コミュニケーションシステム、プログラム及び方法 | |
JP4519867B2 (ja) | コミュニケーションシステム及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5158379 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |