JP6695538B1 - 類似文章検索装置およびプログラム - Google Patents
類似文章検索装置およびプログラム Download PDFInfo
- Publication number
- JP6695538B1 JP6695538B1 JP2019139293A JP2019139293A JP6695538B1 JP 6695538 B1 JP6695538 B1 JP 6695538B1 JP 2019139293 A JP2019139293 A JP 2019139293A JP 2019139293 A JP2019139293 A JP 2019139293A JP 6695538 B1 JP6695538 B1 JP 6695538B1
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- search
- character string
- url
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
前記分割手段により分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLを検索する検索手段と、
前記検索手段により得られたURLと当該URLに登録されている情報を取得する取得手段と、
前記取得手段により取得された情報における検索したキーワードとの一致部分の文章と、前記検索対象の文章との一致率を算出する算出手段と、
前記算出手段により算出された一致率とともに前記検索手段により得られたURLを表示する表示手段とを備えた類似文章検索装置である。
前記表示手段は、前記算出手段により算出された類似度とともに前記検索手段により得られたURLを表示するようにしても良い。
前記表示手段は、前記算出手段により算出された混成一致率を表示するようにしても良い。
前記分割ステップにおいて分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLを検索する検索ステップと、
前記検索ステップにおいて得られたURLと当該URLに登録されている情報を取得する取得ステップと、
前記取得ステップにおいて取得された情報における検索したキーワードとの一致部分の文章と、前記検索対象の文章との一致率を算出する算出ステップと、
前記算出ステップにおいて算出された一致率とともに前記検索ステップにおいて得られたURLを表示する表示ステップとをコンピュータに実行させるためのプログラムである。
そして、このような検索結果例をURL毎にまとめて、上述したような方法によりそれぞれのURLに対する一致率と類似度を算出した場合の算出例を図23に示す。
11 CPU
12 メモリ
13 記憶装置
14 通信インタフェース
15 ユーザインタフェース装置
16 制御バス
20 端末装置
30 インターネット
31 分割処理部
32 検索処理部
33 検索結果取得部
34 データ送受信部
35 算出部
36 表示処理部
37 データ格納部
40 Webサーバ
Claims (4)
- 検索対象の文章に対して形態素解析を行うことにより当該文章を品詞単位の単語に分割し、品詞単位で分割した単語を、予め設定された区切りの品詞で区切ることによりグループ化して、グループ化した単語どうしを、文字数が予め設定された文字数となるまで結合することにより、検索対象の文章を、インターネットによる検索に適した文字数の文字列に分割する分割手段と、
前記分割手段により分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLをそれぞれ検索する検索手段と、
前記検索手段により得られた複数のURLと当該URLに登録されているディスクリプション情報をそれぞれ取得する取得手段と、
前記取得手段により取得された複数のディスクリプション情報における検索したキーワードとの一致部分を連結することにより得られた文章と、前記検索対象の文章との一致率を算出するとともに前記取得手段により複数のURLから取得された複数のディスクリプション情報における検索したキーワードとの一致部分の文字列と、前記分割手段により分割された文字列との編集距離をそれぞれ算出して、複数のURLから取得された文字列を組み合わせた複数の文字列における、算出された編集距離が予め設定された値以下となる文字列の割合を、検索対象の文章が複数のURLからの文字列を組み合わせて構成されている割合を示す混成一致率として算出する算出手段と、
前記検索手段により得られた複数のURLを前記算出手段により算出された一致率が高い順に表示するとともに前記算出手段により算出された混成一致率を表示する表示手段と、
を備えた類似文章検索装置。 - 前記分割手段は、グループ化した単語どうしを結合する際に、句点または読点が文字列の最後となった場合には、前記文字数よりも少ない文字数まで複数の単語を結合した時点で、グループ化した単語どうしの結合を終了する請求項1記載の類似文章検索装置。
- 前記算出手段は、前記取得手段により取得された複数の情報における検索したキーワードとの一致部分の文字列と、前記分割手段により分割された文字列との編集距離をそれぞれ算出して、算出された編集距離が予め設定された値以下となる文字列の割合を類似度として算出し、
前記表示手段は、前記算出手段により算出された類似度とともに前記検索手段により得られたURLを表示する請求項1又は2記載の類似文章検索装置。 - 検索対象の文章に対して形態素解析を行うことにより当該文章を品詞単位の単語に分割し、品詞単位で分割した単語を、予め設定された区切りの品詞で区切ることによりグループ化して、グループ化した単語どうしを、文字数が予め設定された文字数となるまで結合することにより、検索対象の文章を、インターネットによる検索に適した文字数の文字列に分割する分割ステップと、
前記分割ステップにおいて分割された文字列をキーワードとしてインターネットによる検索を行うことにより、当該文字列が含まれた文章が掲載されたURLを検索する検索ステップと、
前記検索ステップにおいて得られたURLと当該URLに登録されているディスクリプション情報を取得する取得ステップと、
前記取得ステップにおいて取得されたディスクリプション情報における検索したキーワードとの一致部分を連結することにより得られた文章と、前記検索対象の文章との一致率を算出するとともに前記取得ステップにおいて複数のURLから取得された複数のディスクリプション情報における検索したキーワードとの一致部分の文字列と、前記分割ステップにおいて分割された文字列との編集距離をそれぞれ算出して、複数のURLから取得された文字列を組み合わせた複数の文字列における、算出された編集距離が予め設定された値以下となる文字列の割合を、検索対象の文章が複数のURLからの文字列を組み合わせて構成されている割合を示す混成一致率として算出する算出ステップと、
前記検索ステップにおいて得られた複数のURLを前記算出ステップにおいて算出された一致率が高い順に表示するとともに前記算出ステップにおいて算出された混成一致率を表示する表示ステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019139293A JP6695538B1 (ja) | 2019-07-30 | 2019-07-30 | 類似文章検索装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019139293A JP6695538B1 (ja) | 2019-07-30 | 2019-07-30 | 類似文章検索装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6695538B1 true JP6695538B1 (ja) | 2020-05-20 |
JP2021022252A JP2021022252A (ja) | 2021-02-18 |
Family
ID=70682454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019139293A Active JP6695538B1 (ja) | 2019-07-30 | 2019-07-30 | 類似文章検索装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6695538B1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7823127B2 (en) * | 2003-11-25 | 2010-10-26 | Software Analysis And Forensic Engineering Corp. | Detecting plagiarism in computer source code |
KR100717998B1 (ko) * | 2005-12-26 | 2007-05-15 | 고려대학교 산학협력단 | 문서의 표절 검사 방법 |
JP4838743B2 (ja) * | 2007-02-27 | 2011-12-14 | 静岡県 | 類似文章検索プログラム |
JP5510912B2 (ja) * | 2008-02-01 | 2014-06-04 | 学校法人金沢工業大学 | 引用判定支援装置および引用判定支援プログラム |
JP5441760B2 (ja) * | 2010-02-25 | 2014-03-12 | 三菱電機株式会社 | 文書間距離算出器および文章検索器 |
JP2012194647A (ja) * | 2011-03-15 | 2012-10-11 | Ricoh Co Ltd | 検索装置、検索装置の制御方法及び検索装置の制御プログラム |
-
2019
- 2019-07-30 JP JP2019139293A patent/JP6695538B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021022252A (ja) | 2021-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
JP6461980B2 (ja) | 検索結果におけるコヒーレントな質問回答 | |
KR20100047221A (ko) | 사전 단어 및 어구 판정 | |
JP2007517338A (ja) | サーチ品質の改善システムおよび改善方法 | |
WO2008151466A1 (en) | Dictionary word and phrase determination | |
KR20100052461A (ko) | 단어 확률 결정 | |
CN111026319B (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
JP2020087353A (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
WO2009026850A1 (en) | Domain dictionary creation | |
WO2017004137A1 (en) | Systems and methods for automatically creating tables using auto-generated templates | |
US11651015B2 (en) | Method and apparatus for presenting information | |
US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
WO2023024975A1 (zh) | 文本处理方法、装置和电子设备 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN103744889A (zh) | 一种用于对问题进行聚类处理的方法与装置 | |
CN111194457A (zh) | 专利评估判定方法、专利评估判定装置以及专利评估判定程序 | |
CN110866408A (zh) | 数据库制作装置以及检索系统 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
JP6868576B2 (ja) | 事象提示システムおよび事象提示装置 | |
US9720896B1 (en) | Synthesizing union tables from the web | |
JP6695538B1 (ja) | 類似文章検索装置およびプログラム | |
Yahya et al. | Arabic text categorization based on Arabic Wikipedia | |
CN108614821B (zh) | 地质资料互联互查系统 | |
WO2022134824A1 (en) | Tuning query generation patterns | |
JP6488399B2 (ja) | 情報提示システム、及び情報提示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190731 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190731 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6695538 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |