JP2021093163A - ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム - Google Patents
ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム Download PDFInfo
- Publication number
- JP2021093163A JP2021093163A JP2020204421A JP2020204421A JP2021093163A JP 2021093163 A JP2021093163 A JP 2021093163A JP 2020204421 A JP2020204421 A JP 2020204421A JP 2020204421 A JP2020204421 A JP 2020204421A JP 2021093163 A JP2021093163 A JP 2021093163A
- Authority
- JP
- Japan
- Prior art keywords
- document
- similarity
- pairs
- duplicate
- dissimilar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
310:文書DB
320:類似度モデル
330:類似文書ペア集合
340:非類似文書ペア集合
Claims (16)
- 少なくとも1つのプロセッサを含むコンピュータ装置の重複文書探知方法であって、
前記少なくとも1つのプロセッサが、文書データベースから、同じ属性を有する複数の類似文書ペアを含む類似文書ペア集合およびランダムに抽出された複数の非類似文書ペアを含む非類似文書ペア集合を抽出する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を減少させて、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対する意味的類似度を計算する段階、
前記少なくとも1つのプロセッサが、前記複数の類似文書ペア、前記複数の非類似文書ペア、および前記意味的類似度を利用して類似度モデルを学習させる段階、および
前記少なくとも1つのプロセッサが、前記類似度モデルを利用して重複文書を探知する段階
を含む、重複文書探知方法。 - 前記属性は、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも1つを含むことを特徴とする、請求項1に記載の重複文書探知方法。
- 前記意味的類似度を計算する段階は、
前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を第1非線形関数に入力して増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を第2非線形関数に入力して減少させ、
前記第1非線形関数および前記第2非線形関数は、同一のすべての入力値に対して前記第1非線形関数が前記第2非線形関数よりも高い値を算出するという条件を満たす2つの非線形関数であることを特徴とする、請求項1に記載の重複文書探知方法。 - 前記類似度モデルを学習させる段階は、
前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれを前記類似度モデルに順に入力して前記類似度モデルの出力値と入力された文書ペアに対応する意味的類似度間の平均二乗誤差(Mean Squared Error:MSE)が最小化するように前記類似度モデルを学習させることを特徴とする、請求項1に記載の重複文書探知方法。 - 前記重複文書を探知する段階は、
重複を探知しようとする文書集合から文書ペアを抽出する段階、
前記抽出された文書ペアを前記類似度モデルに順に入力して前記抽出された文書ペアそれぞれの意味的類似度を計算する段階、および
前記計算された意味的類似度が予め設定された閾値以上である文書ペアを重複文書として決定する段階
を含むことを特徴とする、請求項1に記載の重複文書探知方法。 - 前記文書ペアを抽出する段階は、
前記文書集合の部分集合のうちで要素の数が2である部分集合を文書ペアとして抽出することを特徴とする、請求項5に記載の重複文書探知方法。 - 前記重複文書を探知する段階は、
新しい文書に対する登録要求にしたがい、予め設定された文書を含む文書集合の文書のいずれか1つと前記新しい文書を含む文書ペアを前記文書集合の文書それぞれに対して抽出する段階、
前記抽出された文書ペアを前記類似度モデルに順に入力して前記抽出された文書ペアそれぞれの意味的類似度を計算する段階、
前記計算された意味的類似度が予め設定された第1閾値以上である文書ペアを重複文書として決定する段階、および
前記重複文書として決定された文書ペアの数が予め設定された第2閾値以上である場合、前記新しい文書を重複文書として決定する段階
を含むことを特徴とする、請求項1に記載の重複文書探知方法。 - 前記重複文書を探知する段階は、
前記新しい文書が重複文書として決定された場合、前記新しい文書を登録する代わりにキャプチャ(Captcha)を表示することを特徴とする、請求項7に記載の重複文書探知方法。 - 前記数学的類似度を計算する段階は、
前記数学的尺度として、コサイン類似度(Cosine Similarity)、ユークリッド距離(Euclidean Distance)、およびジャッカード類似度(Jaccard Similarity)のうちの少なくとも1つを利用して前記数学的類似度を計算することを特徴とする、請求項1に記載の重複文書探知方法。 - コンピュータ装置により実行されると、請求項1〜9のうちのいずれか一項に記載の方法を前記コンピュータ装置に実行させる、コンピュータプログラム。
- 請求項1〜9のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
- コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサにより、
文書データベースから、同じ属性を有する複数の類似文書ペアを含む類似文書ペア集合およびランダムに抽出された複数の非類似文書ペアを含む非類似文書ペア集合を抽出し、
前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算し、
前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を減少させて、前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれに対する意味的類似度を計算し、
前記複数の類似文書ペア、前記複数の非類似文書ペア、および前記意味的類似度を利用して類似度モデルを学習させ、
前記類似度モデルを利用して重複文書を探知すること
を特徴とする、コンピュータ装置。 - 前記少なくとも1つのプロセッサにより、
前記複数の類似文書ペアそれぞれに対して計算された数学的類似度を第1非線形関数に入力して増加させ、前記複数の非類似文書ペアそれぞれに対して計算された数学的類似度を第2非線形関数に入力して減少させ、
前記第1非線形関数および前記第2非線形関数は、同一のすべての入力値に対して前記第1非線形関数が前記第2非線形関数よりも高い値を算出する条件を満たす2つの非線形関数であること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサにより、
前記複数の類似文書ペアそれぞれおよび前記複数の非類似文書ペアそれぞれを前記類似度モデルに順に入力して前記類似度モデルの出力値と入力された文書ペアに対応する意味的類似度間の平均二乗誤差(Mean Squared Error、MSE)が最小化するように前記類似度モデルを学習させること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサにより、
重複を探知しようとする文書集合から文書ペアを抽出し、
前記抽出された文書ペアを前記類似度モデルに順に入力して前記抽出された文書ペアそれぞれの意味的類似度を計算し、
前記計算された意味的類似度が予め設定された閾値以上である文書ペアを重複文書として決定すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサにより、
新しい文書に対する登録要求にしたがい、予め設定された文書を含む文書集合の文書のいずれか1つと前記新しい文書を含む文書ペアを前記文書集合の文書それぞれに対して抽出し、
前記抽出された文書ペアを前記類似度モデルに順に入力して前記抽出された文書ペアそれぞれの意味的類似度を計算し、
前記計算された意味的類似度が予め設定された第1閾値以上である文書ペアを重複文書として決定し、
前記重複文書として決定された文書ペアの数が予め設定された第2閾値以上である場合、前記新しい文書を重複文書として決定すること
を特徴とする、請求項12に記載のコンピュータ装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190164926A KR102448061B1 (ko) | 2019-12-11 | 2019-12-11 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
KR10-2019-0164926 | 2019-12-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021093163A true JP2021093163A (ja) | 2021-06-17 |
JP6987209B2 JP6987209B2 (ja) | 2021-12-22 |
Family
ID=73834156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020204421A Active JP6987209B2 (ja) | 2019-12-11 | 2020-12-09 | ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11631270B2 (ja) |
EP (1) | EP3835997A1 (ja) |
JP (1) | JP6987209B2 (ja) |
KR (2) | KR102448061B1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11683335B2 (en) * | 2021-01-15 | 2023-06-20 | Bank Of America Corporation | Artificial intelligence vendor similarity collation |
US11895128B2 (en) | 2021-01-15 | 2024-02-06 | Bank Of America Corporation | Artificial intelligence vulnerability collation |
US11757904B2 (en) | 2021-01-15 | 2023-09-12 | Bank Of America Corporation | Artificial intelligence reverse vendor collation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP2006201926A (ja) * | 2005-01-19 | 2006-08-03 | Konica Minolta Holdings Inc | 類似文書検索システム、類似文書検索方法、およびプログラム |
JP2010256960A (ja) * | 2009-04-21 | 2010-11-11 | Nec Corp | 類似度判定システム、類似度判定方法および類似度判定用プログラム |
US20110087701A1 (en) * | 2009-10-09 | 2011-04-14 | International Business Machines Corporation | System, method, and apparatus for pairing a short document to another short document from a plurality of short documents |
JP2017068742A (ja) * | 2015-10-01 | 2017-04-06 | 日本電信電話株式会社 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US20040064449A1 (en) * | 2002-07-18 | 2004-04-01 | Ripley John R. | Remote scoring and aggregating similarity search engine for use with relational databases |
US7809695B2 (en) | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
WO2006119578A1 (en) | 2005-05-13 | 2006-11-16 | Curtin University Of Technology | Comparing text based documents |
US20060294101A1 (en) | 2005-06-24 | 2006-12-28 | Content Analyst Company, Llc | Multi-strategy document classification system and method |
KR20100008466A (ko) | 2008-07-16 | 2010-01-26 | 주식회사 케이티 | 중복 웹페이지 제거 장치 및 방법 |
US7967731B2 (en) * | 2009-05-29 | 2011-06-28 | Sk Telecom Americas, Inc. | System and method for motivating users to improve their wellness |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
US9355171B2 (en) | 2009-10-09 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Clustering of near-duplicate documents |
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
CN104252445B (zh) * | 2013-06-26 | 2017-11-24 | 华为技术有限公司 | 近似重复文档检测方法及装置 |
WO2015099810A1 (en) * | 2013-12-29 | 2015-07-02 | Hewlett-Packard Development Company, L.P. | Learning graph |
KR101626247B1 (ko) | 2015-01-06 | 2016-06-01 | 인하대학교 산학협력단 | 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템 |
US9990268B2 (en) * | 2015-03-30 | 2018-06-05 | Infosys Limited | System and method for detection of duplicate bug reports |
KR101687674B1 (ko) * | 2015-11-26 | 2016-12-19 | 성신여자대학교 산학협력단 | 유사도를 이용한 데이터 평가 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체 |
US20180068023A1 (en) | 2016-09-07 | 2018-03-08 | Facebook, Inc. | Similarity Search Using Polysemous Codes |
US20180075138A1 (en) | 2016-09-14 | 2018-03-15 | FileFacets Corp. | Electronic document management using classification taxonomy |
US11170177B2 (en) * | 2017-07-28 | 2021-11-09 | Nia Marcia Maria Dowell | Computational linguistic analysis of learners' discourse in computer-mediated group learning environments |
US11233761B1 (en) | 2019-03-21 | 2022-01-25 | Pinterest, Inc. | Determining topic cohesion between posted and linked content |
US11216619B2 (en) * | 2020-04-28 | 2022-01-04 | International Business Machines Corporation | Feature reweighting in text classifier generation using unlabeled data |
-
2019
- 2019-12-11 KR KR1020190164926A patent/KR102448061B1/ko active IP Right Grant
-
2020
- 2020-12-09 JP JP2020204421A patent/JP6987209B2/ja active Active
- 2020-12-10 EP EP20213229.6A patent/EP3835997A1/en active Pending
- 2020-12-11 US US17/119,028 patent/US11631270B2/en active Active
-
2022
- 2022-05-16 KR KR1020220059733A patent/KR102523160B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP2006201926A (ja) * | 2005-01-19 | 2006-08-03 | Konica Minolta Holdings Inc | 類似文書検索システム、類似文書検索方法、およびプログラム |
JP2010256960A (ja) * | 2009-04-21 | 2010-11-11 | Nec Corp | 類似度判定システム、類似度判定方法および類似度判定用プログラム |
US20110087701A1 (en) * | 2009-10-09 | 2011-04-14 | International Business Machines Corporation | System, method, and apparatus for pairing a short document to another short document from a plurality of short documents |
JP2017068742A (ja) * | 2015-10-01 | 2017-04-06 | 日本電信電話株式会社 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR102523160B1 (ko) | 2023-04-18 |
JP6987209B2 (ja) | 2021-12-22 |
US20210182551A1 (en) | 2021-06-17 |
KR20210074023A (ko) | 2021-06-21 |
KR20220070181A (ko) | 2022-05-30 |
KR102448061B1 (ko) | 2022-09-27 |
EP3835997A1 (en) | 2021-06-16 |
US11631270B2 (en) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11238339B2 (en) | Predictive neural network with sentiment data | |
JP6987209B2 (ja) | ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム | |
US10496752B1 (en) | Consumer insights analysis using word embeddings | |
US11741316B2 (en) | Employing abstract meaning representation to lay the last mile towards reading comprehension | |
CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
CN111615706A (zh) | 基于子流形稀疏卷积神经网络分析空间稀疏数据 | |
US11550996B2 (en) | Method and system for detecting duplicate document using vector quantization | |
US20230076387A1 (en) | Systems and methods for providing a comment-centered news reader | |
CN111666415A (zh) | 话题聚类方法、装置、电子设备及存储介质 | |
US20210365837A1 (en) | Systems and methods for social structure construction of forums using interaction coherence | |
US20180285448A1 (en) | Producing personalized selection of applications for presentation on web-based interface | |
CN112805715A (zh) | 识别实体属性关系 | |
EP3304342A1 (en) | Comment-centered news reader | |
US11803796B2 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
US10685184B1 (en) | Consumer insights analysis using entity and attribute word embeddings | |
US11030539B1 (en) | Consumer insights analysis using word embeddings | |
WO2021174924A1 (zh) | 信息生成方法、装置、电子设备及存储介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
KR102595384B1 (ko) | 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템 | |
US11055491B2 (en) | Geographic location specific models for information extraction and knowledge discovery | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
WO2022053018A1 (zh) | 一种文本聚类系统、方法、装置、设备及介质 | |
KR102152889B1 (ko) | 워드 임베딩을 활용한 반의어 추출 방법 | |
KR102209100B1 (ko) | 활동 데이터 분석을 통해 비정상 사용자 그룹을 탐지하는 방법 및 시스템 | |
Otsuka et al. | Text Filtering for Harmful Document Classification Using Three‐Word Co‐Occurrence and Large‐Scale Data Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6987209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |