JP2021096858A - ベクトル量子化を利用した重複文書探知方法およびシステム - Google Patents
ベクトル量子化を利用した重複文書探知方法およびシステム Download PDFInfo
- Publication number
- JP2021096858A JP2021096858A JP2020208547A JP2020208547A JP2021096858A JP 2021096858 A JP2021096858 A JP 2021096858A JP 2020208547 A JP2020208547 A JP 2020208547A JP 2020208547 A JP2020208547 A JP 2020208547A JP 2021096858 A JP2021096858 A JP 2021096858A
- Authority
- JP
- Japan
- Prior art keywords
- document
- similarity
- vector
- duplicate
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013139 quantization Methods 0.000 title abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000004590 computer program Methods 0.000 claims abstract description 11
- 230000014509 gene expression Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
Description
320:類似度モデル
410:文書集合
420:文書
430:ベクトル
Claims (16)
- 少なくとも1つのプロセッサを含むコンピュータ装置の重複文書探知方法であって、
前記少なくとも1つのプロセッサが、文書間の意味的類似度に基づいて文書に対するベクトル表現を出力するように学習された類似度モデルにより、文書集合に含まれた文書それぞれに対するベクトル表現を取得する段階、
前記少なくとも1つのプロセッサが、前記ベクトル表現をベクトル量子化して2進数の文字列で実現されるキーを生成する段階、および
前記少なくとも1つのプロセッサが、前記キーにより、前記文書集合に含まれた文書のうちから重複文書を探知する段階
を含む、重複文書探知方法。 - 前記ベクトル表現は、N(前記Nは2以上の自然数)次元実数ベクトルの形態であることを特徴とする、請求項1に記載の重複文書探知方法。
- 前記キーを生成する段階は、
前記ベクトル表現の各成分の値が0以上の場合には該当の成分の値を1に、各成分の値が負数の場合には該当の成分の値を0に替えて前記ベクトル表現をベクトル量子化し、2進数の文字列を生成キーとして生成することを特徴とする、請求項1に記載の重複文書探知方法。 - 前記重複文書を探知する段階は、
同じキーを有する文書を重複文書として探知することを特徴とする、請求項1に記載の重複文書探知方法。 - 前記ベクトル表現を生成する段階は、
前記類似度モデルが出力した値と実際値との差に対して付与される、加重値によって調整された前記類似度モデルの損失関数を利用して前記ベクトル表現を生成することを特徴とする、請求項1に記載の重複文書探知方法。 - 前記ベクトル表現を生成する段階は、
前記加重値の値を調節することによって前記ベクトル表現間の平均距離を調節することを特徴とする、請求項5に記載の重複文書探知方法。 - 前記少なくとも1つのプロセッサが、文書データベースから、同じ属性を有する複数の類似文書ペアを含む類似文書ペア集合およびランダムに抽出された複数の非類似文書ペアを含む非類似文書ペア集合を抽出する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を減少させて、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対する意味的類似度を計算する段階、および
前記少なくとも1つのプロセッサが、前記複数の類似文書ペア、前記複数の非類似文書ペア、および前記意味的類似度を利用して類似度モデルを学習させる段階
をさらに含む、請求項1に記載の重複文書探知方法。 - 前記属性は、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも1つを含むことを特徴とする、請求項7に記載の重複文書探知方法。
- 前記意味的類似度を計算する段階は、
前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を第1非線形関数に入力して増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を第2非線形関数に入力して減少させ、
前記第1非線形関数および前記第2非線形関数は、前記第1非線形関数が同一するすべての入力値に対して前記第2非線形関数よりも高い値を算出するという条件を満たす2つの非線形関数であることを特徴とする、請求項7に記載の重複文書探知方法。 - コンピュータ装置と結合して請求項1〜9のうちのいずれか一項に記載の方法をコンピュータ装置に実行させる、コンピュータプログラム。
- 請求項1〜9のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
- コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
文書間の意味的類似度に基づいて文書に対するベクトル表現を出力するように学習された類似度モデルにより、文書集合に含まれた文書それぞれに対するベクトル表現を取得し、
前記ベクトル表現をベクトル量子化して2進数の文字列で実現されるキーを生成し、
前記キーにより、前記文書集合に含まれた文書のうちから重複文書を探知すること
を特徴とする、コンピュータ装置。 - 前記ベクトル表現は、N(前記Nは2以上の自然数)次元実数ベクトルの形態であること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサはさらに、
前記ベクトル表現の各成分の値が0以上の場合には該当の成分の値を1に、各成分の値が負数の場合には該当の成分の値を0に替えて前記ベクトル表現をベクトル量子化し、2進数の文字列を生成キーとして生成すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサはさらに、
同じキーを有する文書を重複文書として探知すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサはさらに、
前記類似度モデルが出力した値と実際値との差に対して付与される加重値によって調整された前記類似度モデルの損失関数を利用して前記ベクトル表現を生成すること
を特徴とする、請求項12に記載のコンピュータ装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0169132 | 2019-12-17 | ||
KR1020190169132A KR102432600B1 (ko) | 2019-12-17 | 2019-12-17 | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021096858A true JP2021096858A (ja) | 2021-06-24 |
JP7112475B2 JP7112475B2 (ja) | 2022-08-03 |
Family
ID=73854766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020208547A Active JP7112475B2 (ja) | 2019-12-17 | 2020-12-16 | ベクトル量子化を利用した重複文書探知方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11550996B2 (ja) |
EP (1) | EP3839764A1 (ja) |
JP (1) | JP7112475B2 (ja) |
KR (1) | KR102432600B1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11893348B2 (en) * | 2020-06-30 | 2024-02-06 | Royal Bank Of Canada | Training a machine learning system for keyword prediction with neural likelihood |
CN113836322A (zh) * | 2021-09-27 | 2021-12-24 | 平安科技(深圳)有限公司 | 文章查重方法和装置、电子设备、存储介质 |
CN116108455B (zh) * | 2023-04-12 | 2023-06-16 | 北京华云安信息技术有限公司 | 漏洞去重方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160147891A1 (en) * | 2014-11-25 | 2016-05-26 | Chegg, Inc. | Building a Topical Learning Model in a Content Management System |
US20180329935A1 (en) * | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809695B2 (en) * | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
US20090265160A1 (en) | 2005-05-13 | 2009-10-22 | Curtin University Of Technology | Comparing text based documents |
US20060294101A1 (en) | 2005-06-24 | 2006-12-28 | Content Analyst Company, Llc | Multi-strategy document classification system and method |
KR20100008466A (ko) | 2008-07-16 | 2010-01-26 | 주식회사 케이티 | 중복 웹페이지 제거 장치 및 방법 |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
US9355171B2 (en) * | 2009-10-09 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Clustering of near-duplicate documents |
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
US20180068023A1 (en) * | 2016-09-07 | 2018-03-08 | Facebook, Inc. | Similarity Search Using Polysemous Codes |
WO2018051233A1 (en) * | 2016-09-14 | 2018-03-22 | FileFacets Corp. | Electronic document management using classification taxonomy |
US11233761B1 (en) * | 2019-03-21 | 2022-01-25 | Pinterest, Inc. | Determining topic cohesion between posted and linked content |
-
2019
- 2019-12-17 KR KR1020190169132A patent/KR102432600B1/ko active IP Right Grant
-
2020
- 2020-12-14 US US17/120,693 patent/US11550996B2/en active Active
- 2020-12-16 EP EP20214492.9A patent/EP3839764A1/en active Pending
- 2020-12-16 JP JP2020208547A patent/JP7112475B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160147891A1 (en) * | 2014-11-25 | 2016-05-26 | Chegg, Inc. | Building a Topical Learning Model in a Content Management System |
US20180329935A1 (en) * | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
Non-Patent Citations (1)
Title |
---|
SHICONG LIU, ET AL.: ""Accurate Deep Representaion Quantization with Gradient Snapping Layer for Similarity Search"", [ONLINE], JPN6021043075, 30 October 2016 (2016-10-30), ISSN: 0004632042 * |
Also Published As
Publication number | Publication date |
---|---|
KR20210077464A (ko) | 2021-06-25 |
KR102432600B1 (ko) | 2022-08-16 |
US20210182479A1 (en) | 2021-06-17 |
JP7112475B2 (ja) | 2022-08-03 |
US11550996B2 (en) | 2023-01-10 |
EP3839764A1 (en) | 2021-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7112475B2 (ja) | ベクトル量子化を利用した重複文書探知方法およびシステム | |
CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
CN110945500A (zh) | 键值记忆网络 | |
US10943068B2 (en) | N-ary relation prediction over text spans | |
JP6987209B2 (ja) | ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム | |
US20230076387A1 (en) | Systems and methods for providing a comment-centered news reader | |
US20180285448A1 (en) | Producing personalized selection of applications for presentation on web-based interface | |
CA3131157A1 (en) | System and method for text categorization and sentiment analysis | |
Sunarya et al. | Comparison of accuracy between convolutional neural networks and Naïve Bayes Classifiers in sentiment analysis on Twitter | |
CN106663123B (zh) | 以评论为中心的新闻阅读器 | |
JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
KR102595384B1 (ko) | 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템 | |
US10990762B2 (en) | Chat analysis using machine learning | |
Phuvipadawat et al. | Detecting a multi-level content similarity from microblogs based on community structures and named entities | |
JP7099254B2 (ja) | 学習方法、学習プログラム及び学習装置 | |
CN113962221A (zh) | 一种文本摘要的提取方法、装置、终端设备和存储介质 | |
KR101987605B1 (ko) | 음악 감성 인식 방법 및 장치 | |
Sharma et al. | Supervised Learning Techniques for Sentiment Analysis | |
EP4339817A1 (en) | Anomalous command line entry detection | |
Guo et al. | A method of source code authorship attribution based on graph neural network | |
Swędrak et al. | Combining Knowledge Graphs with Semantic Similarity Metrics for Sentiment Analysis | |
CN117788842A (zh) | 图像检索方法及相关装置 | |
CN113961805A (zh) | 呈现对象的推送方法、装置、电子设备和存储介质 | |
CN115481102A (zh) | 数据迁移方法、装置、计算机设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7112475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |