JP7112475B2 - ベクトル量子化を利用した重複文書探知方法およびシステム - Google Patents
ベクトル量子化を利用した重複文書探知方法およびシステム Download PDFInfo
- Publication number
- JP7112475B2 JP7112475B2 JP2020208547A JP2020208547A JP7112475B2 JP 7112475 B2 JP7112475 B2 JP 7112475B2 JP 2020208547 A JP2020208547 A JP 2020208547A JP 2020208547 A JP2020208547 A JP 2020208547A JP 7112475 B2 JP7112475 B2 JP 7112475B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- similarity
- documents
- vector
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
320:類似度モデル
410:文書集合
420:文書
430:ベクトル
Claims (15)
- 少なくとも1つのプロセッサを含むコンピュータ装置の重複文書探知方法であって、
前記少なくとも1つのプロセッサが、文書間の意味的類似度に基づいて文書に対するベクトル表現を出力するように学習された類似度モデルにより、文書集合に含まれた文書それぞれに対するベクトル表現を取得する段階、
前記少なくとも1つのプロセッサが、前記ベクトル表現をベクトル量子化して2進数の文字列で実現されるキーを生成する段階、および
前記少なくとも1つのプロセッサが、前記キーにより、前記文書集合に含まれた文書のうちから重複文書を探知する段階
を含み、
前記類似度モデルは、以下の段階により学習させたものであり、
前記類似度モデルを学習させるための段階は、
前記少なくとも1つのプロセッサが、文書データベースから、同じ属性を有する複数の類似文書ペアを含む類似文書ペア集合およびランダムに抽出された複数の非類似文書ペアを含む非類似文書ペア集合を抽出する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を減少させて、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対する意味的類似度を計算する段階、および
前記少なくとも1つのプロセッサが、前記複数の類似文書ペア、前記複数の非類似文書ペア、および前記意味的類似度を利用して前記類似度モデルを学習させる段階
をさらに含む、重複文書探知方法。 - 前記ベクトル表現は、N(前記Nは2以上の自然数)次元実数ベクトルの形態であることを特徴とする、請求項1に記載の重複文書探知方法。
- 前記キーを生成する段階は、
前記ベクトル表現の各成分の値が0以上の場合には該当の成分の値を1に、各成分の値が負数の場合には該当の成分の値を0に替えて前記ベクトル表現をベクトル量子化し、2進数の文字列を生成キーとして生成することを特徴とする、請求項1に記載の重複文書探知方法。 - 前記重複文書を探知する段階は、
同じキーを有する文書を重複文書として探知することを特徴とする、請求項1に記載の重複文書探知方法。 - 前記ベクトル表現を生成する段階は、
前記類似度モデルが出力した値と実際値との差に対して付与される、加重値によって調整された前記類似度モデルの損失関数を利用して前記ベクトル表現を生成することを特徴とする、請求項1に記載の重複文書探知方法。 - 前記ベクトル表現を生成する段階は、
前記加重値の値を調節することによって前記ベクトル表現間の平均距離を調節することを特徴とする、請求項5に記載の重複文書探知方法。 - 前記属性は、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも1つを含むことを特徴とする、請求項1に記載の重複文書探知方法。
- 前記意味的類似度を計算する段階は、
前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を第1非線形関数に入力して増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を第2非線形関数に入力して減少させ、
前記第1非線形関数および前記第2非線形関数は、前記第1非線形関数が同一するすべての入力値に対して前記第2非線形関数よりも高い値を算出するという条件を満たす2つの非線形関数であることを特徴とする、請求項1に記載の重複文書探知方法。 - コンピュータ装置と結合して請求項1~8のうちのいずれか一項に記載の方法をコンピュータ装置に実行させる、コンピュータプログラム。
- 請求項1~8のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
- コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
文書間の意味的類似度に基づいて文書に対するベクトル表現を出力するように学習された類似度モデルにより、文書集合に含まれた文書それぞれに対するベクトル表現を取得し、
前記ベクトル表現をベクトル量子化して2進数の文字列で実現されるキーを生成し、
前記キーにより、前記文書集合に含まれた文書のうちから重複文書を探知し、
前記類似度モデルは、以下の段階により学習させたものであり、
前記類似度モデルを学習させるための段階は、
前記少なくとも1つのプロセッサが、文書データベースから、同じ属性を有する複数の類似文書ペアを含む類似文書ペア集合およびランダムに抽出された複数の非類似文書ペアを含む非類似文書ペア集合を抽出する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を減少させて、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対する意味的類似度を計算する段階、および
前記少なくとも1つのプロセッサが、前記複数の類似文書ペア、前記複数の非類似文書ペア、および前記意味的類似度を利用して前記類似度モデルを学習させる段階
を含む
コンピュータ装置。 - 前記ベクトル表現は、N(前記Nは2以上の自然数)次元実数ベクトルの形態であること
を特徴とする、請求項11に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサはさらに、
前記ベクトル表現の各成分の値が0以上の場合には該当の成分の値を1に、各成分の値が負数の場合には該当の成分の値を0に替えて前記ベクトル表現をベクトル量子化し、2進数の文字列を生成キーとして生成すること
を特徴とする、請求項11に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサはさらに、
同じキーを有する文書を重複文書として探知すること
を特徴とする、請求項11に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサはさらに、
前記類似度モデルが出力した値と実際値との差に対して付与される加重値によって調整された前記類似度モデルの損失関数を利用して前記ベクトル表現を生成すること
を特徴とする、請求項11に記載のコンピュータ装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0169132 | 2019-12-17 | ||
KR1020190169132A KR102432600B1 (ko) | 2019-12-17 | 2019-12-17 | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021096858A JP2021096858A (ja) | 2021-06-24 |
JP7112475B2 true JP7112475B2 (ja) | 2022-08-03 |
Family
ID=73854766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020208547A Active JP7112475B2 (ja) | 2019-12-17 | 2020-12-16 | ベクトル量子化を利用した重複文書探知方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11550996B2 (ja) |
EP (1) | EP3839764A1 (ja) |
JP (1) | JP7112475B2 (ja) |
KR (1) | KR102432600B1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11893348B2 (en) * | 2020-06-30 | 2024-02-06 | Royal Bank Of Canada | Training a machine learning system for keyword prediction with neural likelihood |
US12106051B2 (en) | 2020-07-16 | 2024-10-01 | Optum Technology, Inc. | Unsupervised approach to assignment of pre-defined labels to text documents |
US20230070715A1 (en) * | 2021-09-09 | 2023-03-09 | Canon Medical Systems Corporation | Text processing method and apparatus |
CN113836322B (zh) * | 2021-09-27 | 2024-06-28 | 平安科技(深圳)有限公司 | 文章查重方法和装置、电子设备、存储介质 |
US12112132B2 (en) * | 2022-06-22 | 2024-10-08 | Optum Services (Ireland) Limited | Natural language processing machine learning frameworks trained using multi-task training routines |
US11989506B2 (en) * | 2022-07-27 | 2024-05-21 | Capital One Services, Llc | Systems for database searching and database schemas management and methods of use thereof |
CN116108455B (zh) * | 2023-04-12 | 2023-06-16 | 北京华云安信息技术有限公司 | 漏洞去重方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160147891A1 (en) | 2014-11-25 | 2016-05-26 | Chegg, Inc. | Building a Topical Learning Model in a Content Management System |
US20180329935A1 (en) | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809695B2 (en) | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
US20090265160A1 (en) | 2005-05-13 | 2009-10-22 | Curtin University Of Technology | Comparing text based documents |
US20060294101A1 (en) | 2005-06-24 | 2006-12-28 | Content Analyst Company, Llc | Multi-strategy document classification system and method |
KR20100008466A (ko) | 2008-07-16 | 2010-01-26 | 주식회사 케이티 | 중복 웹페이지 제거 장치 및 방법 |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
US9355171B2 (en) * | 2009-10-09 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Clustering of near-duplicate documents |
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
US20180068023A1 (en) * | 2016-09-07 | 2018-03-08 | Facebook, Inc. | Similarity Search Using Polysemous Codes |
WO2018051233A1 (en) * | 2016-09-14 | 2018-03-22 | FileFacets Corp. | Electronic document management using classification taxonomy |
US11233761B1 (en) * | 2019-03-21 | 2022-01-25 | Pinterest, Inc. | Determining topic cohesion between posted and linked content |
-
2019
- 2019-12-17 KR KR1020190169132A patent/KR102432600B1/ko active IP Right Grant
-
2020
- 2020-12-14 US US17/120,693 patent/US11550996B2/en active Active
- 2020-12-16 JP JP2020208547A patent/JP7112475B2/ja active Active
- 2020-12-16 EP EP20214492.9A patent/EP3839764A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160147891A1 (en) | 2014-11-25 | 2016-05-26 | Chegg, Inc. | Building a Topical Learning Model in a Content Management System |
US20180329935A1 (en) | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
Non-Patent Citations (1)
Title |
---|
Shicong Liu, et al.,"Accurate Deep Representaion Quantization with Gradient Snapping Layer for Similarity Search",[online],2016年10月30日,[令和3年10月26日検索], インターネット <URL:https://arxiv.org/pdf/1610.09645.pdf> |
Also Published As
Publication number | Publication date |
---|---|
US20210182479A1 (en) | 2021-06-17 |
JP2021096858A (ja) | 2021-06-24 |
KR102432600B1 (ko) | 2022-08-16 |
US11550996B2 (en) | 2023-01-10 |
EP3839764A1 (en) | 2021-06-23 |
KR20210077464A (ko) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7112475B2 (ja) | ベクトル量子化を利用した重複文書探知方法およびシステム | |
CN107315759B (zh) | 归类关键字的方法、装置和处理系统、分类模型生成方法 | |
Peralta et al. | Evolutionary feature selection for big data classification: A mapreduce approach | |
CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
US8280829B2 (en) | Efficient algorithm for pairwise preference learning | |
US20200311198A1 (en) | N-ary relation prediction over text spans | |
KR102448061B1 (ko) | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 | |
KR20180099812A (ko) | 딥러닝 모델을 사용한 엔티티의 식별 | |
CN109918621B (zh) | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 | |
WO2022140900A1 (zh) | 个人知识图谱构建方法、装置及相关设备 | |
US20180285448A1 (en) | Producing personalized selection of applications for presentation on web-based interface | |
US10296635B2 (en) | Auditing and augmenting user-generated tags for digital content | |
KR102649675B1 (ko) | 그래프 자료 구조 및 벡터 데이터가 통합된 풀 텍스트 인덱스를 이용한 정보 제공 방법 및 시스템 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
KR102595384B1 (ko) | 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템 | |
Li | [Retracted] An Advertising Recommendation Algorithm Based on Deep Learning Fusion Model | |
US20200302017A1 (en) | Chat analysis using machine learning | |
CN114417102B (zh) | 文本去重方法、装置和电子设备 | |
KR101987605B1 (ko) | 음악 감성 인식 방법 및 장치 | |
JP7044729B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN117788842B (zh) | 图像检索方法及相关装置 | |
KR102389555B1 (ko) | 가중 트리플 지식 그래프를 생성하는 장치, 방법 및 컴퓨터 프로그램 | |
Guo et al. | A method of source code authorship attribution based on graph neural network | |
CN113961805A (zh) | 呈现对象的推送方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7112475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |