JP2021022252A - 類似文章検索装置およびプログラム - Google Patents
類似文章検索装置およびプログラム Download PDFInfo
- Publication number
- JP2021022252A JP2021022252A JP2019139293A JP2019139293A JP2021022252A JP 2021022252 A JP2021022252 A JP 2021022252A JP 2019139293 A JP2019139293 A JP 2019139293A JP 2019139293 A JP2019139293 A JP 2019139293A JP 2021022252 A JP2021022252 A JP 2021022252A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- search
- character string
- url
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
前記分割手段により分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLを検索する検索手段と、
前記検索手段により得られたURLと当該URLに登録されている情報を取得する取得手段と、
前記取得手段により取得された情報における検索したキーワードとの一致部分の文章と、前記検索対象の文章との一致率を算出する算出手段と、
前記算出手段により算出された一致率とともに前記検索手段により得られたURLを表示する表示手段とを備えた類似文章検索装置である。
前記表示手段は、前記算出手段により算出された類似度とともに前記検索手段により得られたURLを表示するようにしても良い。
前記表示手段は、前記算出手段により算出された混成一致率を表示するようにしても良い。
前記分割ステップにおいて分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLを検索する検索ステップと、
前記検索ステップにおいて得られたURLと当該URLに登録されている情報を取得する取得ステップと、
前記取得ステップにおいて取得された情報における検索したキーワードとの一致部分の文章と、前記検索対象の文章との一致率を算出する算出ステップと、
前記算出ステップにおいて算出された一致率とともに前記検索ステップにおいて得られたURLを表示する表示ステップとをコンピュータに実行させるためのプログラムである。
そして、このような検索結果例をURL毎にまとめて、上述したような方法によりそれぞれのURLに対する一致率と類似度を算出した場合の算出例を図23に示す。
11 CPU
12 メモリ
13 記憶装置
14 通信インタフェース
15 ユーザインタフェース装置
16 制御バス
20 端末装置
30 インターネット
31 分割処理部
32 検索処理部
33 検索結果取得部
34 データ送受信部
35 算出部
36 表示処理部
37 データ格納部
40 Webサーバ
Claims (9)
- 検索対象の文章を、インターネットによる検索に適した文字数の文字列に分割する分割手段と、
前記分割手段により分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLをそれぞれ検索する検索手段と、
前記検索手段により得られた複数のURLと当該URLに登録されている情報をそれぞれ取得する取得手段と、
前記取得手段により取得された複数の情報における検索したキーワードとの一致部分を連結することにより得られた文章と、前記検索対象の文章との一致率を算出する算出手段と、
前記算出手段により算出された一致率とともに前記検索手段により得られたURLを表示する表示手段と、
を備えた類似文章検索装置。 - 前記分割手段は、検索対象の文章に対して形態素解析を行うことにより当該文章を品詞単位の単語に分割し、品詞単位で分割した単語を、予め設定された区切りの品詞で区切ることによりグループ化して、グループ化した単語どうしを、文字数が予め設定された文字数となるまで結合することにより、検索対象の文章をインターネットによる検索に適した文字数の文字列に分割する請求項1記載の類似文章検索装置。
- 前記分割手段は、グループ化した単度どうしを結合する際に、句点または読点が文字列の最後となった場合には、前記文字数よりも少ない文字数まで複数の単語を結合した時点で、グループ化した単語どうしの結合を終了する請求項2記載の類似文章検索装置。
- 前記表示手段は、前記検索手段により得られた複数のURLを、前記算出手段により算出された一致率が高い順に表示する請求項1から3のいずれか記載の類似文章検索装置。
- 前記算出手段は、前記取得手段により取得された複数の情報における検索したキーワードとの一致部分の文字列と、前記分割手段により分割された文字列との編集距離をそれぞれ算出して、算出された編集距離が予め設定された値以下となる文字列の割合を類似度として算出し、
前記表示手段は、前記算出手段により算出された類似度とともに前記検索手段により得られたURLを表示する請求項1から4のいずれか記載の類似文章検索装置。 - 前記算出手段は、前記取得手段により複数のURLから取得された複数の情報における検索したキーワードとの一致部分の文字列と、前記分割手段により分割された文字列との編集距離をそれぞれ算出して、複数のURLから取得された文字列を組み合わせた複数の文字列における、算出された編集距離が予め設定された値以下となる文字列の割合を混成一致率として算出し、
前記表示手段は、前記算出手段により算出された混成一致率を表示する請求項1から5のいずれか記載の類似文章検索装置。 - 前記取得手段により取得される情報が、URLに対して登録されているディスクリプション情報である請求項1から5のいずれか記載の類似文章検索装置。
- 前記取得手段により取得される情報が、URLにアクセスして取得した文章情報である請求項1から5のいずれか記載の類似文章検索装置。
- 検索対象の文章を、インターネットによる検索に適した文字数の文字列に分割する分割ステップと、
前記分割ステップにおいて分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLを検索する検索ステップと、
前記検索ステップにおいて得られたURLと当該URLに登録されている情報を取得する取得ステップと、
前記取得ステップにおいて取得された情報における検索したキーワードとの一致部分を連結することにより得られた文章と、前記検索対象の文章との一致率を算出する算出ステップと、
前記算出ステップにおいて算出された一致率とともに前記検索ステップにおいて得られたURLを表示する表示ステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019139293A JP6695538B1 (ja) | 2019-07-30 | 2019-07-30 | 類似文章検索装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019139293A JP6695538B1 (ja) | 2019-07-30 | 2019-07-30 | 類似文章検索装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6695538B1 JP6695538B1 (ja) | 2020-05-20 |
JP2021022252A true JP2021022252A (ja) | 2021-02-18 |
Family
ID=70682454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019139293A Active JP6695538B1 (ja) | 2019-07-30 | 2019-07-30 | 類似文章検索装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6695538B1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100717998B1 (ko) * | 2005-12-26 | 2007-05-15 | 고려대학교 산학협력단 | 문서의 표절 검사 방법 |
JP2008210206A (ja) * | 2007-02-27 | 2008-09-11 | Shizuoka Prefecture | 類似文章検索プログラム |
US20100325614A1 (en) * | 2003-11-25 | 2010-12-23 | Robert Marc Zeidman | Detecting plagiarism in computer source code |
JP2011175568A (ja) * | 2010-02-25 | 2011-09-08 | Mitsubishi Electric Corp | 文書間距離算出器および文章検索器 |
JP2012194647A (ja) * | 2011-03-15 | 2012-10-11 | Ricoh Co Ltd | 検索装置、検索装置の制御方法及び検索装置の制御プログラム |
JP2014149848A (ja) * | 2008-02-01 | 2014-08-21 | Kanazawa Inst Of Technology | 引用判定支援装置および引用判定支援プログラム |
-
2019
- 2019-07-30 JP JP2019139293A patent/JP6695538B1/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100325614A1 (en) * | 2003-11-25 | 2010-12-23 | Robert Marc Zeidman | Detecting plagiarism in computer source code |
KR100717998B1 (ko) * | 2005-12-26 | 2007-05-15 | 고려대학교 산학협력단 | 문서의 표절 검사 방법 |
JP2008210206A (ja) * | 2007-02-27 | 2008-09-11 | Shizuoka Prefecture | 類似文章検索プログラム |
JP2014149848A (ja) * | 2008-02-01 | 2014-08-21 | Kanazawa Inst Of Technology | 引用判定支援装置および引用判定支援プログラム |
JP2011175568A (ja) * | 2010-02-25 | 2011-09-08 | Mitsubishi Electric Corp | 文書間距離算出器および文章検索器 |
JP2012194647A (ja) * | 2011-03-15 | 2012-10-11 | Ricoh Co Ltd | 検索装置、検索装置の制御方法及び検索装置の制御プログラム |
Non-Patent Citations (1)
Title |
---|
田代 崇 外: "Webページを対象とした著作権違反自動検知システム", 電子情報通信学会技術研究報告, vol. 106, no. 149, JPN6019047095, 6 July 2006 (2006-07-06), JP, pages 23 - 28, ISSN: 0004167006 * |
Also Published As
Publication number | Publication date |
---|---|
JP6695538B1 (ja) | 2020-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586155B2 (en) | Clarification of submitted questions in a question and answer system | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
US20210192126A1 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
JP2010531492A (ja) | ワード確率決定 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
WO2009026850A1 (en) | Domain dictionary creation | |
US20150286706A1 (en) | Forensic system, forensic method, and forensic program | |
CN111194457A (zh) | 专利评估判定方法、专利评估判定装置以及专利评估判定程序 | |
JP2022510818A (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
KR102256007B1 (ko) | 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
JP2021144348A (ja) | 情報処理装置及び情報処理方法 | |
JP4935243B2 (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
US9990444B2 (en) | Apparatus and method for supporting visualization of connection relationship | |
JP2019128925A (ja) | 事象提示システムおよび事象提示装置 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN108614821B (zh) | 地质资料互联互查系统 | |
JP6488399B2 (ja) | 情報提示システム、及び情報提示方法 | |
JP6695538B1 (ja) | 類似文章検索装置およびプログラム | |
JP2009271819A (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP2011159100A (ja) | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190731 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190731 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6695538 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |