JP4428703B2 - 情報検索方法及びそのシステム並びにコンピュータプログラム - Google Patents
情報検索方法及びそのシステム並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP4428703B2 JP4428703B2 JP2004327849A JP2004327849A JP4428703B2 JP 4428703 B2 JP4428703 B2 JP 4428703B2 JP 2004327849 A JP2004327849 A JP 2004327849A JP 2004327849 A JP2004327849 A JP 2004327849A JP 4428703 B2 JP4428703 B2 JP 4428703B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- occurrence
- document
- query
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
"情報検索結果の知的提示のための自動要約ならびにインタフェースに関する研究",http://www.forest.eis.ynu.ac.jp/〜mori/Kaken/Informatics/ 岩波講座ソフトウェア科学15 自然言語処理、長尾真 編、11章 "Web 文書集合からの意見情報抽出と着眼点に基づく要約生成"立石他,言語処理学会 第10回年次大会発表論文集(2004年3月)
Claims (5)
- コンピュータ装置が実行する情報検索方法であって、
前記コンピュータ装置は、
複数の文書が格納されている文書集合データベースからクエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納するステップと、
前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録するステップと、
前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納するステップと、
前記共起単語毎に、前記適合文書数テーブルに格納された前記3種類の適合文書数を用いて、前記クエリ単語と前記共起単語の関連度を算出するステップと、
前記算出した関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語とし、前記クエリ単語に対応させて前記重要共起単語を重要共起単語リストに格納するステップと、
前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として共起表現データベースに格納するステップと、
を実行することを特徴とする情報検索方法。 - 前記コンピュータ装置は、前記関連度を算出する際に、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数とを乗算した値で、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数を除算した値の対数を前記関連度として算出するステップを実行する
ことを特徴とする請求項1に記載の情報検索方法。 - 複数の文書が格納されている文書集合データベースと、
前記文書集合データベースから前記クエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納する適合文書検索部と、
前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録する共起単語取得部と、
前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納する適合文書数取得部と、
前記共起単語毎に、前記適合文書数テーブルに格納された前記3種類の適合文書数を用いて、クエリ単語と共起単語の関連度を計算する関連度計算部と、
前記クエリ単語と共起単語の関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語として、クエリ単語に対応させて重要共起単語を前記重要共起単語リストに格納する重要共起単語格納部と、
前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として前記共起表現データベースに格納する共起表現収集部と、
を有することを特徴とする情報検索システム。 - 前記関連度計算部は、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数とを乗算した値で、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数を除算した値の対数を前記関連度として算出する手段を有する
ことを特徴とする請求項3に記載の情報検索システム。 - 前記請求項1乃至請求項2の何れかに記載の処理ステップを含むことを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004327849A JP4428703B2 (ja) | 2004-11-11 | 2004-11-11 | 情報検索方法及びそのシステム並びにコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004327849A JP4428703B2 (ja) | 2004-11-11 | 2004-11-11 | 情報検索方法及びそのシステム並びにコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006139484A JP2006139484A (ja) | 2006-06-01 |
JP4428703B2 true JP4428703B2 (ja) | 2010-03-10 |
Family
ID=36620279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004327849A Expired - Fee Related JP4428703B2 (ja) | 2004-11-11 | 2004-11-11 | 情報検索方法及びそのシステム並びにコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4428703B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4938515B2 (ja) * | 2007-03-16 | 2012-05-23 | 日本電信電話株式会社 | 単語間相関度計算装置および方法、プログラム並びに記録媒体 |
JP5536991B2 (ja) * | 2008-06-10 | 2014-07-02 | 任天堂株式会社 | ゲーム装置、ゲームデータ配信システムおよびゲームプログラム |
JP5768492B2 (ja) | 2011-05-18 | 2015-08-26 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP5491446B2 (ja) * | 2011-05-20 | 2014-05-14 | 日本電信電話株式会社 | 話題語獲得装置、方法、及びプログラム |
WO2015162719A1 (ja) * | 2014-04-23 | 2015-10-29 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
CN112989118B (zh) * | 2021-02-04 | 2023-08-18 | 北京奇艺世纪科技有限公司 | 视频召回方法及装置 |
CN114925692B (zh) * | 2022-07-21 | 2022-10-11 | 中科雨辰科技有限公司 | 一种获取目标事件的数据处理系统 |
-
2004
- 2004-11-11 JP JP2004327849A patent/JP4428703B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006139484A (ja) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10552467B2 (en) | System and method for language sensitive contextual searching | |
US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
US7657546B2 (en) | Knowledge management system, program product and method | |
US20150379018A1 (en) | Computer-generated sentiment-based knowledge base | |
US10387469B1 (en) | System and methods for discovering, presenting, and accessing information in a collection of text contents | |
US20100205198A1 (en) | Search query disambiguation | |
Piperski et al. | Big and diverse is beautiful: A large corpus of Russian to study linguistic variation | |
Lytvyn et al. | Identifying textual content based on thematic analysis of similar texts in big data | |
US10621252B2 (en) | Method for searching in a database | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
Quasthoff et al. | Building large resources for text mining: The Leipzig Corpora Collection | |
Kisilevich et al. | “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments | |
Kerremans et al. | Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
JP4057962B2 (ja) | 質問応答装置、質問応答方法及びプログラム | |
KR101667918B1 (ko) | 질의 반응형 스마트 검색 서비스 제공 방법 및 이를 구현하기 위한 검색 서비스 장치 | |
Přichystal | Mobile application for customers’ reviews opinion mining | |
JP2007293377A (ja) | 主観的ページと非主観的ページを分離する入出力装置 | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
Krilavičius et al. | News media analysis using focused crawl and natural language processing: case of Lithuanian news websites | |
JP5187187B2 (ja) | 体験情報検索システム | |
CN106708808B (zh) | 一种信息挖掘方法及装置 | |
JP2002183195A (ja) | 概念検索方式 | |
Aksan et al. | The Turkish National Corpus (TNC): comparing the architectures of v1 and v2 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091210 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091214 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121225 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121225 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131225 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |