JP2018077611A - 文書検索装置、文書検索方法およびコンピュータプログラム - Google Patents
文書検索装置、文書検索方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2018077611A JP2018077611A JP2016217884A JP2016217884A JP2018077611A JP 2018077611 A JP2018077611 A JP 2018077611A JP 2016217884 A JP2016217884 A JP 2016217884A JP 2016217884 A JP2016217884 A JP 2016217884A JP 2018077611 A JP2018077611 A JP 2018077611A
- Authority
- JP
- Japan
- Prior art keywords
- search
- words
- document
- document data
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
実施例の文書検索装置が備える検索エンジンは、N−gram方式の文書検索を実行する。例えば、「eat」で検索すれば、「beat」「heat」「beaten」は全てヒットする。N−gram方式の検索エンジンは、単語の区切りを認識しない。例えば、「eat」と「beaten」はどちらも「eat」による検索にヒットする。
図1は、第1実施例の文書検索システム10を示す。文書検索システム10は、文書検索装置12とユーザ端末14を備える。文書検索装置12は、キーワード検索や近傍検索等の文書検索サービスを提供する情報処理装置である。例えば、文書検索装置12は、インターネットを介して、特許文献の検索サービスを提供するサーバであってもよい。
図4は、第1実施例の文書検索装置12の動作を示すフローチャートである。同図は、コード化文書データ生成時の動作を示している。原本文書記憶部28には、検索の母集団に含めるべきオリジナル文書データ(例えば新たに公開された公開特許公報等)が随時追加されていく。文書変換部32は、新たなオリジナル文書データが原本文書記憶部28に格納されるまで待機する(S10のN)。文書変換部32は、新たなオリジナル文書データが原本文書記憶部28に格納されたことを検出すると(S10のY)、新たなオリジナル文書データに記載された文字列に対して形態素解析処理を実行し、新たなオリジナル文書データに記載された複数の単語を抽出する(S11)。
第2実施例の文書検索装置12は、単語に対応するコードが辞書データに未定義の場合の処理が第1実施例とは異なる。第2実施例における文書検索システム10の構成と、文書検索装置12の機能ブロックは第1実施例と同様(図1および図2)である。以下、第1実施例と重複する構成の説明は適宜省略し、第1実施例と異なる点を主に説明する。
図6は、第2実施例の文書検索装置12の動作を示すフローチャートである。同図は、図4に対応し、コード化文書データ生成時の動作を示している。同図のS50〜S52は、図4のS10〜S12と同じであるため説明を省略する。
入力文書データ1:
「I bought a book from that shopper, when I was a little girl.」
入力文書データ1を変換後の検索形文書データ1:
「I buy a book from that shop, when I be a little girl.」
入力文書データ2:
「The chef cooked a special food at a national event while we were devoted in eating.」
入力文書データ1を変換後の検索形文書データ2:
「The chef cook a special food at a nation event while we were devot in eat.」
Claims (11)
- 複数の文書データを記憶する第1文書記憶部であって、前記複数の文書データのそれぞれは、オリジナル文書に記載された互いに異なる複数の単語が、互いに異なる固定長のコードに変換されたものである第1文書記憶部と、
複数の単語を指定する検索要求であって、かつ、それら複数の単語が存在すべき範囲を単語数で指定する検索要求を受け付ける受付部と、
検索要求で指定された複数の単語のそれぞれに対応する固定長のコードを取得する取得部と、
検索要求で指定された単語数基準の範囲と、固定のコード長とに応じて、文字数基準の範囲を導出する導出部と、
前記取得部により取得された複数の単語のコードと、前記導出部により導出された文字数基準の範囲とを条件とする近傍検索を実行し、前記第1文書記憶部に記憶された複数の文書データの中から前記条件を満たす文書データを抽出する検索部と、
を備えることを特徴とする文書検索装置。 - 前記固定長のコードの先頭には、先頭以外では使用されない特殊値が設定されることを特徴とする請求項1に記載の文書検索装置。
- 前記固定長のコードの先頭には、先頭以外では使用されない複数の特殊値のうちいずれかが設定されることを特徴とする請求項1に記載の文書検索装置。
- 前記第1文書記憶部に記憶された複数の文書データに対応する変換前の文書データである複数のオリジナル文書データを記憶する第2文書記憶部をさらに備え、
前記検索部は、前記第1文書記憶部から抽出した文書データに対応するオリジナル文書データを前記第2文書記憶部から抽出することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記第1文書記憶部に記憶される文書データは、オリジナル文書データに記載された単語に予め対応付けられたコードが記録されたものであり、オリジナル文書データに記載された或る単語に対応するコードが未定義の場合、その単語に関するコードは前記文書データに記録されず、
検索要求で指定された複数の単語のうち一部の単語に対応するコードが未定義の場合、前記検索部は、対応するコードが存在する単語のコードに基づく近傍検索を実行し、当該近傍検索で抽出した1つ以上のオリジナル文書データの中から、前記一部の単語を含むオリジナル文書データを抽出することを特徴とする請求項4に記載の文書検索装置。 - 前記第1文書記憶部に記憶される文書データは、オリジナル文書データに記載された単語に予め対応付けられたコードが記録されたものであり、オリジナル文書データに記載された或る単語に対応するコードが未定義の場合、その単語は複数の単文字単語に分解され、複数の単文字単語に予め対応付けられたコードが前記文書データに記録され、
検索要求で指定された複数の単語のうち一部の単語に対応するコードが未定義の場合、前記検索部は、対応するコードが存在する単語のコードと、前記一部の単語を分解した複数の単文字単語のコードとに基づく近傍検索を実行することを特徴とする請求項1から4のいずれかに記載の文書検索装置。 - 前記導出部は、検索要求で指定された単語数基準の範囲を、前記一部の単語を分解した単文字単語の個数に応じて拡大し、拡大した単語数基準の範囲に応じて文字数基準の範囲を導出することを特徴とする請求項6に記載の文書検索装置。
- 前記検索部は、前記近傍検索により抽出した1つ以上の文書データを母集団とした新たな近傍検索であって、前記複数の単文字単語のコードが隣接することを条件とする新たな近傍検索をさらに実行することを特徴とする請求項6または7に記載の文書検索装置。
- 前記第1文書記憶部に記憶される文書データは、オリジナル文書データに記載された互いに関連性を有する複数の単語を、共通のコードへ変換したものである請求項1から8のいずれかに記載の文書検索装置。
- 複数の文書データを記憶する文書記憶部であって、前記複数の文書データのそれぞれは、オリジナル文書に記載された互いに異なる複数の単語が、互いに異なる固定長のコードに変換されたものである文書記憶部にアクセス可能なコンピュータが、
複数の単語を指定する検索要求であって、かつ、それら複数の単語が存在すべき範囲を単語数で指定する検索要求を受け付けるステップと、
検索要求で指定された複数の単語のそれぞれに対応する固定長のコードを取得するステップと、
検索要求で指定された単語数基準の範囲と、固定のコード長とに応じて、文字数基準の範囲を導出するステップと、
前記取得するステップで取得された複数の単語のコードと、前記導出するステップで導出された文字数基準の範囲とを条件とする近傍検索を実行し、前記文書記憶部に記憶された複数の文書データの中から前記条件を満たす文書データを抽出するステップと、
を実行することを特徴とする文書検索方法。 - 複数の文書データを記憶する文書記憶部であって、前記複数の文書データのそれぞれは、オリジナル文書に記載された互いに異なる複数の単語が、互いに異なる固定長のコードに変換されたものである文書記憶部にアクセス可能なコンピュータに、
複数の単語を指定する検索要求であって、かつ、それら複数の単語が存在すべき範囲を単語数で指定する検索要求を受け付ける機能と、
検索要求で指定された複数の単語のそれぞれに対応する固定長のコードを取得する機能と、
検索要求で指定された単語数基準の範囲と、固定のコード長とに応じて、文字数基準の範囲を導出する機能と、
前記取得する機能により取得された複数の単語のコードと、前記導出する機能により導出された文字数基準の範囲とを条件とする近傍検索を実行し、前記文書記憶部に記憶された複数の文書データの中から前記条件を満たす文書データを抽出する機能と、
を実現させるためのコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016217884A JP6787755B2 (ja) | 2016-11-08 | 2016-11-08 | 文書検索装置 |
CN201780069191.9A CN109923538B (zh) | 2016-11-08 | 2017-09-14 | 文本检索装置、文本检索方法以及计算机程序 |
PCT/JP2017/033316 WO2018088027A1 (ja) | 2016-11-08 | 2017-09-14 | 文書検索装置、文書検索方法およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016217884A JP6787755B2 (ja) | 2016-11-08 | 2016-11-08 | 文書検索装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020117646A Division JP7022789B2 (ja) | 2020-07-08 | 2020-07-08 | 文書検索装置、文書検索方法およびコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018077611A true JP2018077611A (ja) | 2018-05-17 |
JP2018077611A5 JP2018077611A5 (ja) | 2019-05-30 |
JP6787755B2 JP6787755B2 (ja) | 2020-11-18 |
Family
ID=62110263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016217884A Active JP6787755B2 (ja) | 2016-11-08 | 2016-11-08 | 文書検索装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6787755B2 (ja) |
CN (1) | CN109923538B (ja) |
WO (1) | WO2018088027A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019189183A1 (ja) | 2018-03-27 | 2019-10-03 | 三菱ケミカルアクア・ソリューションズ株式会社 | ヘッダー付散気装置及び膜分離活性汚泥装置 |
WO2020213776A1 (ko) * | 2019-04-19 | 2020-10-22 | 한국과학기술원 | 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242416A (ja) * | 2004-02-24 | 2005-09-08 | Shogakukan Inc | 自然言語文の検索方法および検索装置 |
JP2010287052A (ja) * | 2009-06-11 | 2010-12-24 | Fujitsu Ltd | 検索システムおよび記憶媒体 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5523946A (en) * | 1992-02-11 | 1996-06-04 | Xerox Corporation | Compact encoding of multi-lingual translation dictionaries |
US6883001B2 (en) * | 2000-05-26 | 2005-04-19 | Fujitsu Limited | Document information search apparatus and method and recording medium storing document information search program therein |
US20020165707A1 (en) * | 2001-02-26 | 2002-11-07 | Call Charles G. | Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers |
JP5737079B2 (ja) * | 2011-08-31 | 2015-06-17 | カシオ計算機株式会社 | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 |
-
2016
- 2016-11-08 JP JP2016217884A patent/JP6787755B2/ja active Active
-
2017
- 2017-09-14 WO PCT/JP2017/033316 patent/WO2018088027A1/ja active Application Filing
- 2017-09-14 CN CN201780069191.9A patent/CN109923538B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242416A (ja) * | 2004-02-24 | 2005-09-08 | Shogakukan Inc | 自然言語文の検索方法および検索装置 |
JP2010287052A (ja) * | 2009-06-11 | 2010-12-24 | Fujitsu Ltd | 検索システムおよび記憶媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019189183A1 (ja) | 2018-03-27 | 2019-10-03 | 三菱ケミカルアクア・ソリューションズ株式会社 | ヘッダー付散気装置及び膜分離活性汚泥装置 |
WO2020213776A1 (ko) * | 2019-04-19 | 2020-10-22 | 한국과학기술원 | 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기 |
Also Published As
Publication number | Publication date |
---|---|
WO2018088027A1 (ja) | 2018-05-17 |
JP6787755B2 (ja) | 2020-11-18 |
CN109923538B (zh) | 2023-09-15 |
CN109923538A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5054210B2 (ja) | 属性抽出装置および方法 | |
CN103838876B (zh) | 使用拼音检索文件的文件检索方法及系统 | |
JP5185402B2 (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
JP2009075791A (ja) | 機械翻訳を行う装置、方法、プログラムおよびシステム | |
JP2012027788A (ja) | 文書検索システム、文書検索方法およびプログラム | |
US10296583B2 (en) | Construction of a lexicon for a selected context | |
US10346545B2 (en) | Method, device, and recording medium for providing translated sentence | |
JP2020140503A (ja) | 文書検索装置及び文書検索方法 | |
WO2018088027A1 (ja) | 文書検索装置、文書検索方法およびコンピュータプログラム | |
JP2019121060A (ja) | 生成プログラム、生成方法及び情報処理装置 | |
JP2024506415A (ja) | 情報検索方法、装置、コンピュータ機器、及び記憶媒体 | |
US10929446B2 (en) | Document search apparatus and method | |
KR20160140527A (ko) | 다국어 전자책 시스템 및 방법 | |
US10726210B2 (en) | Non-transitory computer-readable storage medium, information outputting method, and information processing apparatus | |
JP7022789B2 (ja) | 文書検索装置、文書検索方法およびコンピュータプログラム | |
JP2004246422A (ja) | 情報検索支援装置 | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JP2009093581A (ja) | 類義語検索管理システム | |
JP5248121B2 (ja) | 愛称を推定する装置、方法およびプログラム | |
JP4187802B2 (ja) | 文書作成装置 | |
JP2013145448A (ja) | 文書検索システム、文書検索方法 | |
JP5160120B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
WO2023119573A1 (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
JP2001022787A (ja) | 多言語インタラクティブ情報検索システム及び多言語インタラクティブ情報検索プログラムを記録した記録媒体 | |
KR20220111823A (ko) | 신조어 및 이모티콘 감성사전 구축장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190417 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6787755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |