JP5364802B2 - 文書検索システム、文書検索方法 - Google Patents
文書検索システム、文書検索方法 Download PDFInfo
- Publication number
- JP5364802B2 JP5364802B2 JP2012005225A JP2012005225A JP5364802B2 JP 5364802 B2 JP5364802 B2 JP 5364802B2 JP 2012005225 A JP2012005225 A JP 2012005225A JP 2012005225 A JP2012005225 A JP 2012005225A JP 5364802 B2 JP5364802 B2 JP 5364802B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- occurrence
- document
- dictionary
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
21…語彙切り出し部
22…索引化部
23…共起辞書生成部
24…グループ化部
25…入力中キーワード受信部
26…共起語彙取得部
27…共起グループ処理部
28…共起語彙提示部
29…入力済みキーワード受信部
30…キーワード検索処理部
31…索引辞書
32…共起辞書
33…共起辞書作成パラメータ
34…グループ辞書
Claims (7)
- 検索対象となる文書を登録する文書登録装置と、入力された検索用キーワードと一致する文書を検索する文書検索装置と、を備える文書検索システムであって、
前記文書登録装置は、
前記文書から語彙を切り出す語彙切り出し部と、
切り出された前記語彙と、当該語彙が含まれる文書とを対応付けて索引辞書に記憶する索引化部と、
一の語彙に対して、同一の文書内に出現して共起関係にある他の語彙を対応付けた共起情報を共起辞書に記憶する共起辞書生成部と、
前記共起辞書のサイズが所定の最大サイズより大きい場合に、グループ化される前記語彙の文書中における出現頻度の合計値が所定の最大出現頻度以下となるよう前記共起辞書に記憶された複数の語彙を同一の語彙グループに対応付けグループ辞書に記憶するグループ化処理を実行するグループ化部と、
を備え、
前記共起辞書生成部は、当該語彙グループに含まれる語彙と共起関係にある語彙と前記語彙グループとを対応付けた共起情報を前記共起辞書に記憶するとともに、当該語彙グループに対応付けられた語彙の前記共起情報を前記共起辞書から削除し、
前記文書検索装置は、
入力された検索用キーワードを受け付ける入力中キーワード受信部と、
前記入力中キーワード受信部で受け付けた前記検索用キーワードと共起する前記語彙または前記語彙グループを前記共起辞書から取得する共起語彙取得部と、
前記語彙グループが取得された場合は、前記グループ辞書から当該語彙グループに含まれる前記語彙を取得するとともに、取得した前記語彙と、前記検索用キーワードとの同一文書中における出現回数である共起頻度を前記索引辞書を用いて算出し、当該共起頻度から前記検索用キーワードと前記共起関係にあると判断される前記語彙を取得する共起グループ処理部と、
前記共起語彙取得部、及び前記共起グループ処理部が取得した前記語彙を前記検索用キーワードに対する関連キーワードとして提示する共起語彙提示部と
を備えることを特徴とする文書検索システム。 - 前記グループ化部は、前記共起辞書に登録された前記語彙のうち、前記出現頻度が低い語彙から順に前記グループ化処理を行う
ことを特徴とする請求項1に記載の文書検索システム。 - 前記グループ化部は、前記共起辞書に登録された前記語彙のうち、前記出現頻度が所定値以下の前記語彙に対して前記グループ化処理を行う
ことを特徴とする請求項1に記載の文書検索システム。 - 前記最大出現頻度は、前記共起グループ処理部が、前記検索用キーワードと前記共起関係にある前記語彙を選択するまでに要する時間の許容値として予め設定された共起取得時間内に、ある語彙が他の語彙と前記共起関係にあるか否かを判断することのできる語彙数に基づき設定される
ことを特徴とする請求項1に記載の文書検索システム。 - 前記グループ化部は、概念辞書に基づいて概念が類似する語彙同士を同一の前記語彙グループに対応付けて前記グループ辞書に記憶する
ことを特徴とする請求項1に記載の文書検索システム。 - 前記共起語彙取得部は、利用者が前記検索用キーワードを入力後に新たな入力を検知すると、当該検索用キーワードと共起関係にある前記語彙、又は前記語彙グループを取得する
ことを特徴とする請求項1に記載の文書検索システム。 - 検索対象となる文書を登録する文書登録装置と、入力された検索用キーワードと一致する文書を検索する文書検索装置と、を備える文書検索システムにおいて、実行される文書検索方法であって、
前記文書登録装置が、前記文書から語彙を切り出す語彙切り出しステップと、
前記文書登録装置が、切り出された前記語彙と、当該語彙が含まれる文書とを対応付けて索引辞書に記憶する索引化ステップと、
前記文書登録装置が、一の語彙に対して、同一の文書内に出現して共起関係にある他の語彙を対応付けた共起情報を共起辞書に記憶する共起辞書生成ステップと、
前記文書登録装置が、前記共起辞書のサイズが所定の最大サイズより大きい場合に、グループ化される前記語彙の文書中における出現頻度の合計値が所定の最大出現頻度以下となるよう前記共起辞書に記憶された複数の語彙を同一の語彙グループに対応付けグループ辞書に記憶するグループ化処理を実行するグループ化ステップと、
前記文書登録装置が、当該語彙グループに含まれる語彙と共起関係にある語彙と、前記語彙グループとを対応付けた共起情報を前記共起辞書に記憶するとともに、当該語彙グループに対応付けられた語彙の前記共起情報を前記共起辞書から削除する共起辞書更新ステップと、
前記文書検索装置が、入力された検索用キーワードを受け付ける入力中キーワード受信ステップと、
前記文書検索装置が、前記入力中キーワード受信ステップで受け付けた前記検索用キーワードと共起する前記語彙または前記語彙グループを前記共起辞書から取得する共起語彙取得ステップと、
前記文書検索装置が、前記語彙グループが取得された場合は、前記グループ辞書から当該語彙グループに含まれる前記語彙を取得するとともに、取得した前記語彙と、前記検索用キーワードとの同一文書中における出現回数である共起頻度を前記索引辞書を用いて算出し、当該共起頻度から前記検索用キーワードと共起関係にあると判断される前記語彙を取得する共起グループ処理ステップと、
前記文書検索装置が、前記共起語彙取得ステップ、及び前記共起グループ処理ステップにて取得された前記語彙を前記検索用キーワードに対する関連キーワードとして提示する共起語彙提示ステップと
を含む文書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012005225A JP5364802B2 (ja) | 2012-01-13 | 2012-01-13 | 文書検索システム、文書検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012005225A JP5364802B2 (ja) | 2012-01-13 | 2012-01-13 | 文書検索システム、文書検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013145448A JP2013145448A (ja) | 2013-07-25 |
JP5364802B2 true JP5364802B2 (ja) | 2013-12-11 |
Family
ID=49041221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012005225A Active JP5364802B2 (ja) | 2012-01-13 | 2012-01-13 | 文書検索システム、文書検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5364802B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102326121B1 (ko) * | 2017-09-20 | 2021-11-12 | 삼성에스디에스 주식회사 | 텍스트 컨텐츠 인덱싱 방법 및 그 장치 |
CN111651446B (zh) * | 2020-06-02 | 2023-06-06 | 亚太恒星经济技术发展有限公司 | 一种基于大数据的数据重复频率监测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3687118B2 (ja) * | 1994-12-01 | 2005-08-24 | 富士ゼロックス株式会社 | 関連語辞書作成装置および関連語辞書作成方法 |
JP3539282B2 (ja) * | 1998-08-28 | 2004-07-07 | トヨタ自動車株式会社 | 仕様設定支援装置 |
US8631004B2 (en) * | 2009-12-28 | 2014-01-14 | Yahoo! Inc. | Search suggestion clustering and presentation |
-
2012
- 2012-01-13 JP JP2012005225A patent/JP5364802B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013145448A (ja) | 2013-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11803596B2 (en) | Efficient forward ranking in a search engine | |
US9639609B2 (en) | Enterprise search method and system | |
JP5740029B2 (ja) | 対話型サーチクエリーを改良するためのシステム及び方法 | |
US8713024B2 (en) | Efficient forward ranking in a search engine | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
US7680778B2 (en) | Support for reverse and stemmed hit-highlighting | |
US8793259B2 (en) | Information retrieval device, information retrieval method, and program | |
US20100287162A1 (en) | method and system for text summarization and summary based query answering | |
JP4129048B2 (ja) | 固有表現抽出装置、方法、及びプログラム | |
WO2012142553A2 (en) | Identifying query formulation suggestions for low-match queries | |
US11573989B2 (en) | Corpus specific generative query completion assistant | |
JP2008090401A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
WO2019009995A1 (en) | SYSTEM AND METHOD FOR RESEARCHING MUSIC IN NATURAL LANGUAGE | |
JP4959603B2 (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
JP2000276487A (ja) | 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体 | |
JP5364802B2 (ja) | 文書検索システム、文書検索方法 | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JPH0844771A (ja) | 情報検索装置 | |
JP4783563B2 (ja) | インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置 | |
JP2008026964A (ja) | 検索処理装置及びプログラム | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP7428035B2 (ja) | データ検索装置、データ検索方法およびプログラム | |
JP7022789B2 (ja) | 文書検索装置、文書検索方法およびコンピュータプログラム | |
JP7272540B2 (ja) | 情報提供システム、情報提供方法、及びデータ構造 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5364802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |