JP2016133817A - 類似性判定装置、類似性判定方法および類似性判定プログラム - Google Patents
類似性判定装置、類似性判定方法および類似性判定プログラム Download PDFInfo
- Publication number
- JP2016133817A JP2016133817A JP2015005875A JP2015005875A JP2016133817A JP 2016133817 A JP2016133817 A JP 2016133817A JP 2015005875 A JP2015005875 A JP 2015005875A JP 2015005875 A JP2015005875 A JP 2015005875A JP 2016133817 A JP2016133817 A JP 2016133817A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- feature
- document information
- similarity
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する類似性判定部と
を有することを特徴とする類似性判定装置。
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行することを特徴とする類似性判定方法。
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行させることを特徴とする類似性判定プログラム。
100 判定装置
140 記憶部
150 制御部
Claims (5)
- 文書情報に含まれる各キーワードの出現回数を計数し、前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行する特徴抽出部と、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する類似性判定部と
を有することを特徴とする類似性判定装置。 - 前記特徴抽出部は、前記出現回数が閾値未満となるキーワードの配列を削除する場合に、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする請求項1に記載の類似性判定装置。
- 前記類似性判定部は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、前記類似性判定部の判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する検索部を更に有することを特徴とする請求項1または2に記載の類似性判定装置。
- コンピュータが実行する類似性判定方法であって、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行することを特徴とする類似性判定方法。 - コンピュータに、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を前記特徴として抽出する処理実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行させることを特徴とする類似性判定プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015005875A JP6507657B2 (ja) | 2015-01-15 | 2015-01-15 | 類似性判定装置、類似性判定方法および類似性判定プログラム |
US14/967,580 US10025784B2 (en) | 2015-01-15 | 2015-12-14 | Similarity determination apparatus, similarity determination method, and computer-readable recording medium |
EP15200078.2A EP3046037A1 (en) | 2015-01-15 | 2015-12-15 | Similarity determination apparatus, similarity determination method, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015005875A JP6507657B2 (ja) | 2015-01-15 | 2015-01-15 | 類似性判定装置、類似性判定方法および類似性判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016133817A true JP2016133817A (ja) | 2016-07-25 |
JP6507657B2 JP6507657B2 (ja) | 2019-05-08 |
Family
ID=54849890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015005875A Active JP6507657B2 (ja) | 2015-01-15 | 2015-01-15 | 類似性判定装置、類似性判定方法および類似性判定プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10025784B2 (ja) |
EP (1) | EP3046037A1 (ja) |
JP (1) | JP6507657B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019082967A (ja) * | 2017-10-31 | 2019-05-30 | 富士通株式会社 | 変更検出プログラム、変更検出方法および変更検出装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334644B (zh) * | 2018-03-30 | 2019-03-15 | 百度在线网络技术(北京)有限公司 | 图像识别方法和装置 |
CN110737821B (zh) * | 2018-07-03 | 2022-06-07 | 百度在线网络技术(北京)有限公司 | 相似事件查询的方法、装置、存储介质和终端设备 |
CN110874526B (zh) * | 2018-12-29 | 2024-03-01 | 北京安天网络安全技术有限公司 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
CN111711559B (zh) * | 2020-06-12 | 2022-04-05 | 北京百度网讯科技有限公司 | 用于撤回信息的方法和装置 |
CN114036957B (zh) * | 2021-12-27 | 2022-06-21 | 中科大数据研究院 | 一种快速语义相似度计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338883A (ja) * | 1998-05-29 | 1999-12-10 | Hitachi Ltd | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
JP2005339150A (ja) * | 2004-05-26 | 2005-12-08 | Mitsubishi Electric Corp | 文書検索装置 |
JP2010231766A (ja) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6615209B1 (en) * | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
US20080195595A1 (en) | 2004-11-05 | 2008-08-14 | Intellectual Property Bank Corp. | Keyword Extracting Device |
US20140081994A1 (en) | 2012-08-10 | 2014-03-20 | The Trustees Of Columbia University In The City Of New York | Identifying Content for Planned Events Across Social Media Sites |
JP2014115719A (ja) | 2012-12-06 | 2014-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 語彙ネットワーク作成装置、知識推定装置、方法、及びプログラム |
-
2015
- 2015-01-15 JP JP2015005875A patent/JP6507657B2/ja active Active
- 2015-12-14 US US14/967,580 patent/US10025784B2/en active Active
- 2015-12-15 EP EP15200078.2A patent/EP3046037A1/en not_active Ceased
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338883A (ja) * | 1998-05-29 | 1999-12-10 | Hitachi Ltd | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
JP2005339150A (ja) * | 2004-05-26 | 2005-12-08 | Mitsubishi Electric Corp | 文書検索装置 |
JP2010231766A (ja) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019082967A (ja) * | 2017-10-31 | 2019-05-30 | 富士通株式会社 | 変更検出プログラム、変更検出方法および変更検出装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3046037A1 (en) | 2016-07-20 |
JP6507657B2 (ja) | 2019-05-08 |
US10025784B2 (en) | 2018-07-17 |
US20160210339A1 (en) | 2016-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6507657B2 (ja) | 類似性判定装置、類似性判定方法および類似性判定プログラム | |
US9886464B2 (en) | Versioned bloom filter | |
US20180012039A1 (en) | Anonymization processing device, anonymization processing method, and program | |
US10154041B2 (en) | Website access control | |
CN104572717B (zh) | 信息搜索方法和装置 | |
JP2019204246A (ja) | 学習データ作成方法及び学習データ作成装置 | |
JP6281491B2 (ja) | テキストマイニング装置、テキストマイニング方法及びプログラム | |
US11620406B2 (en) | Information processing device, information processing method, and recording medium | |
US10049164B2 (en) | Multidimensional-range search apparatus and multidimensional-range search method | |
US20180285693A1 (en) | Incremental update of a neighbor graph via an orthogonal transform based indexing | |
CN112052251A (zh) | 目标数据更新方法和相关装置、设备及存储介质 | |
US9036946B2 (en) | Image processing apparatus that retrieves similar images, method of controlling the same, and storage medium | |
JP6603194B2 (ja) | 画面認識装置、画面認識方法、および、画面認識プログラム | |
KR101761177B1 (ko) | 상위 k 중요 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체 | |
JP2017224240A (ja) | 表データ検索装置、表データ検索方法、及び表データ検索プログラム | |
US9208343B2 (en) | Transitive closure security | |
US10409992B2 (en) | Investigation apparatus, computer-readable recording medium, and investigation method | |
JP2017107472A (ja) | 文字列検索方法および装置 | |
JP5983333B2 (ja) | 検索処理方法、データ生成方法及び情報処理装置 | |
KR101815968B1 (ko) | 그룹 분리 기능을 제공하기 위한 악성코드 분류 시스템 및 그 방법 | |
JP2018077763A (ja) | オブジェクト検索装置、オブジェクト検索方法、および、オブジェクト検索プログラム | |
JP5758262B2 (ja) | 類似文書可視化装置、類似文書可視化方法およびプログラム | |
US10649982B2 (en) | Automated database updating and curation | |
CN105468603A (zh) | 数据选择方法及装置 | |
CN105512117B (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181016 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6507657 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |