JP5308199B2 - 文書検索システム - Google Patents
文書検索システム Download PDFInfo
- Publication number
- JP5308199B2 JP5308199B2 JP2009063880A JP2009063880A JP5308199B2 JP 5308199 B2 JP5308199 B2 JP 5308199B2 JP 2009063880 A JP2009063880 A JP 2009063880A JP 2009063880 A JP2009063880 A JP 2009063880A JP 5308199 B2 JP5308199 B2 JP 5308199B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- similar
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
「キーワード型監査」とは、例えば、予め用意されているNGキーワードリストに登録されているNGキーワードが含まれている送信メールを抽出し、抽出された送信メールの本文を人手等で確認することで、会社に不利益となる送信メール(以下、危険メール)が社外に流出していないかどうかを監査する手法である。本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、NGキーワード「XXX」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(危険メール)を対象メールとし、「対象メールに類似するメールであってキーワード「ABC」を含まないメール」を二次検索で検索する。これにより、NGキーワード「ABC」を含まないメール群の中から、NGキーワード「ABC」を含む危険メールに類似したメールを見つけることができる。つまり、検索の網羅性が確保され、危険メールの流出検知の確実性が向上する。
本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、ユーザからのキーワード「DFG」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(ユーザ所望のメール)を対象メールとし、「対象メールに類似するメールであってキーワード「DFG」を含むメール」を二次検索で検索する。つまり、ユーザが入力したキーワード「DFG」に加えて類似メール検索で絞り込みを行う。これにより、ユーザが新たにキーワードを追加入力すること無く、ユーザ所望のメール以外のメールの数が少なくなるよう、検索結果を絞り込むことができる。
(5−1)対象メールの初めの検索範囲である類似メール空間Aの類似度モデルAに従って、対象メールのハッシュ値=48を算出する。
(5−2):類似メール空間Aからハッシュ値=48に該当するメール群を検索する。
(5−3):(5−2)の検索で見つかったメール群から、所定の方法で、メール#5を選択する。
(5−4):(5−3)で選択されたメール#5のID=5をキーに、この(5−4)の直前の検索範囲とは別の検索範囲である類似メール空間Bを参照する。これにより、類似メール空間Bから、メール#5が分類されているハッシュ値=948のメール群が見つかる。
(5−5):(5−4)で見つかったメール群から、所定の方法で、メール#8を選択する。
(5−6):(5−5)で選択されたメール#8のID=8をキーに、この(5−6)の直前の検索範囲とは別の検索範囲である類似メール空間Aを参照する。これにより、類似メール空間Aから、メール#8が分類されているハッシュ値=18のメール群が見つかる。
(5−7):(5−6)で見つかったメール群に含まれているメール#4は、類似度モデルBに従うハッシュ値が483である。この(5−6)の直前の検索範囲である類似メール空間Bでは、ハッシュ値=483には、メール#1も分類されている。メール#1は、最初の検索範囲の類似メール空間Aにおいて、対象メールと同じハッシュ値=48に分類されているメールである。以上のことから、メール#4は、対象メールに類似するメール#1に類似しており、メール#1が、対象メールに類似しているということになる。このため、メール#4を、対象メールに類似するメールと判定する。
Claims (4)
- キーワードを入力するキーワード入力手段と、
対象文書を入力する対象文書入力手段と、
前記キーワードに関する所定の条件に適合し且つ前記対象文書と類似する文書を複数の文書の中から検索する検索手段と、
を備え、
異なる観点に従う異なる文書空間があり、各文書空間に、その文書空間の観点に基づいて決定された複数の類似カテゴリがあり、
各文書は、いずれか二以上の文書空間のいずれかの類似カテゴリに分類されており、
前記検索手段が、以下の(A)乃至(D)の処理:
(A)前記対象文書の初めの検索範囲とされる文書空間の観点に基づき、前記対象文書のその文書空間での類似カテゴリを特定する、
(B)前記特定された類似カテゴリと同一の類似カテゴリに分類されている文書を前記初めの文書空間から検索する;
(C)この(C)の処理の直前の検索範囲とは別の文書空間から、この(C)の直前の処理により見つかった文書と同一の類似カテゴリに分類されている文書を検索する;
(D)前記(C)の処理により見つかった文書が前記対象文書と所定の関係があるか否かを判断する;
を実行し、
前記(D)の判断の結果が否定的であれば、前記検索手段は、前記(C)の処理を再実行し、
前記(D)の判断の結果が肯定的であれば、前記検索手段は、前記(C)の処理により見つかった文書を、前記対象文書に類似する文書と判断し、
前記(B)及び/又は(C)の処理により見つかった文書は、キーワードに関する所定の条件に適合する文書である、
文書検索システム。 - 前記所定の関係とは、前記(C)の処理により見つかった文書と、前記対象文書の前記初めの文書空間での類似カテゴリに分類されている文書が、前記(C)の処理の直前の検索範囲の文書空間において同一の類似カテゴリに分類されていることである、
請求項1記載の文書検索システム。 - 前記(C)の処理の直前の検索範囲から見つかった文書とは、その検索範囲から見つかった二以上の文書がキーワードを用いて絞り込まれた文書である、
請求項1又は2記載の文書検索システム。 - 少なくとも1つの文書空間は、LSH(Locality Sensitive
Hashing)の類似度モデルに基づく空間であり、
各類似度カテゴリは、ハッシュ値であり、
前記(C)の処理の直前の検索範囲から見つかった文書とは、その(C)での検索のために入力された文書と同一のハッシュ値を有する複数の文書のうちの、その入力された文書を中心とした調整後の半径R以内の範囲に属する文書である、
請求項1又は2記載の文書検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009063880A JP5308199B2 (ja) | 2009-03-17 | 2009-03-17 | 文書検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009063880A JP5308199B2 (ja) | 2009-03-17 | 2009-03-17 | 文書検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010218190A JP2010218190A (ja) | 2010-09-30 |
JP5308199B2 true JP5308199B2 (ja) | 2013-10-09 |
Family
ID=42976979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009063880A Expired - Fee Related JP5308199B2 (ja) | 2009-03-17 | 2009-03-17 | 文書検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5308199B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5742506B2 (ja) * | 2011-06-27 | 2015-07-01 | 日本電気株式会社 | 文書類似度算出装置 |
JP7183845B2 (ja) * | 2019-02-12 | 2022-12-06 | 日本電気株式会社 | メールシステム、データ復元装置、データ復元方法、およびプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10116290A (ja) * | 1996-10-11 | 1998-05-06 | Mitsubishi Electric Corp | 文書分類管理方法及び文書検索方法 |
JP4021583B2 (ja) * | 1999-04-08 | 2007-12-12 | 富士通株式会社 | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 |
JP3974377B2 (ja) * | 2001-11-05 | 2007-09-12 | 日本電信電話株式会社 | 情報蓄積・検索装置及び方法、情報蓄積・検索プログラムならびにそのプログラムを記録した記録媒体 |
-
2009
- 2009-03-17 JP JP2009063880A patent/JP5308199B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010218190A (ja) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement | |
JP6612303B2 (ja) | ユーザコンタクトエントリのデータ設定 | |
US7827165B2 (en) | Providing a social network aware input dictionary | |
US9298710B2 (en) | Document search system which reflects the situation of using documents in the search results | |
WO2017143930A1 (zh) | 一种搜索结果排序方法及其设备 | |
US9727647B1 (en) | Annotating articles | |
JP2004062893A (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
JP6390139B2 (ja) | 文書検索装置、文書検索方法、プログラム、及び、文書検索システム | |
JP5308199B2 (ja) | 文書検索システム | |
JP2008123527A (ja) | 検索結果の最適化方法及び装置 | |
JP6038232B2 (ja) | 効率的なメール検索のためのメールサービスシステムおよび方法 | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP5265420B2 (ja) | 文書検索システム | |
JP6194180B2 (ja) | 文章マスク装置及び文章マスクプログラム | |
JP5953851B2 (ja) | 文書管理装置及びプログラム | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
CN112905871A (zh) | 热点关键词推荐方法、装置、终端及存储介质 | |
JP6321874B1 (ja) | サーバー装置 | |
JP5223293B2 (ja) | 位置表現抽出装置、方法及びプログラム | |
US11151103B1 (en) | Method for providing an indication of the exact search hit within a large universe of contextual information | |
JP6160427B2 (ja) | 差分抽出システム及びプログラム | |
JP6141091B2 (ja) | 情報処理装置、情報処理方法、サーバ装置、プログラム、記録媒体 | |
KR101400412B1 (ko) | 검색 시스템 및 그의 동의어 생성 방법 | |
JP6767825B2 (ja) | データ管理装置、データ管理方法、およびデータ管理プログラム | |
JP5893474B2 (ja) | 検索式妥当性判断装置、特許検索装置、検索式妥当性判断方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130628 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |