JP2005242455A - コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム - Google Patents
コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム Download PDFInfo
- Publication number
- JP2005242455A JP2005242455A JP2004048024A JP2004048024A JP2005242455A JP 2005242455 A JP2005242455 A JP 2005242455A JP 2004048024 A JP2004048024 A JP 2004048024A JP 2004048024 A JP2004048024 A JP 2004048024A JP 2005242455 A JP2005242455 A JP 2005242455A
- Authority
- JP
- Japan
- Prior art keywords
- content
- search
- word
- morphological analysis
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】 インデックス作成部10が、検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持するインデックステーブル(データベース25)と、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成する。また、コンテンツ検索部20が、入力される検索文字列の形態素解析を作成した形態素解析辞書を用いて行い、インデックステーブルを参照して検索文字列を含むコンテンツ情報およびその重要度情報を取得してコンテンツを出力する。
【選択図】 図1
Description
本発明によれば、コンテンツ検索部が、検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書を用いて、検索文字列を形態素解析するので、従来より形態素解析の対象となる単語が少なくなり、これにより、形態素解析の処理を高速化することができる。またインデックステーブルを参照して検索文字列を含むコンテンツ情報およびその重要度情報を取得してコンテンツを出力することで、例えば、取得した重要度順にコンテンツを表示することで、ユーザに利便性を提供できる。
本発明によれば、コンテンツ検索部が不定語に対応するコンテンツの取得を省略することで、検索処理の一層の高速化がはかれる。
図1に示されるように、本発明のコンテンツ検索システムは、機能的に大別すれば、インデックス作成部10と、コンテンツ検索部20で構成される。
なお、上述のインデックス作成部10が、データベース25とデータベース26とを構成として保持しているようにしてもよい。
まず、インデックス作成部10によるインデックス作成処理から説明する。図7において、インデックス作成制御部15は、検索対象コンテンツ11としての文書を取得する(S71)。ここで、検索対象コンテンツ11は、外部から直接入力され、これを取込む場合と、データベース26にあらかじめ格納されている場合のそれぞれがある。ここでは、入力されるものとし、その検索対象コンテンツ11は、インデックス作成制御部15を介してデータベース26に格納される。
形態素解析部13は、形態素解析辞書12を参照しながら取得した文書の形態素解析を行う(S73)。ここで、形態素解析とは、取得した文書を単語に分割してそれぞれ品詞を判別する処理をいう。図2に形態素解析辞書12のデータ構造の一例が示されている。ここでは、漢字、読み、品詞の各データ項目から成り、通常使用される単語の全てが含まれる。
上記したように、検索対象の文書に出現する単語を形態素解析によって取得した後(S74)、単語の文書毎の出現数(TF)と、その単語が出現する文書数(DF)を集計し、各文書におけるその単語の重要度(スコア)をTF*IDF法で計算する(S75)。ここで、TF*IDF法とは重要度計算部14による周知のスコア計算の一手法であり、ここでは、ある文書における単語の重要度を示す指標となり、以下の演算式に従い計算するものとする。
ここで、所定の値(閾値)との比較が行われ、スコアの低いものについては単語も含めてその記録を省略し、検索に有用な単語とその品詞のみ記録する(S79)。つまり、形態素解析部13は検索対象コンテンツに含まれる単語のうちスコアが所定の値よりも高いみの情報を保持する形態素解析辞書を作成している。
検索インデックス+形態素解析辞書25は、図2に示す形態素解析辞書としてのデータ(漢字、読み、品詞)の他に、単語毎、どのページ(検索対象の単位)に含まれるかを示すページIDと、そのページでの重要度を示すスコアのデータ項目を持つ。ここでは、入力される検索対象コンテンツ11の中に含まれる重要語のみが含まれる。
また、ページIDによって示されるページ情報として、そのページのタイトルと、格納場所を示すURLを持つ。つまり、データベース25の形態素解析辞書は検索対象コンテンツの保持している単語についての各情報のみを保持していることとなる。
ここでは入力された検索文字列に出現する単語を取得し、それが不定語であるか否かを判断し(S84)、不定語でない場合に限ってその単語に対応するページIDを取得し(S85)、ページID毎にスコアを集計する(S86)。
以上の処理は、全てのページに対し繰り返し実行され(S87)、更に全ての単語について繰り返し実行される(S88)。不定語の判断処理(S84)、およびページID毎のスコア集計(S86)の具体例について、図4、図5を用いて詳述する。
ここに示されるように、「インクカートリッジの回収情報」という語を解析した結果、「情報」に対する解析結果は図4(a)では「名詞」となるが、図4(b)では辞書として存在しないため、品詞の解析に失敗して「不定語」となる。検索時における形態素解析で不定語となった単語については、検索対象コンテンツには存在しないか、あるいは重要度の低い単語であるため、検索時には無視してよい。
図5に示されるように、形態素解析部22による形態素解析の結果から、「情報」については検索では不要な語であることがわかる。一方、「インクカートリッジ」は、ページIDが172、166、167で示されるそれぞれのページに存在することから、ここではそれぞれ対応するスコアを取得する。また、「回収」はページIDが172のページに存在することから、同じく、対応するスコアを取得する。
この結果から、順次、ページIDに対するタイトルおよびURLを、データベース25(検索インデックス+形態素解析辞書)から取得することにより(S90)、コンテンツ検索制御部24は、検索結果27として、図6に出力事例が示されるように、例えば図示せぬ液晶表示モニタを介して表示する。ここでは、検索コンテンツのタイトルとURLがスコア順に表形式で出力される。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (5)
- 検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えたコンテンツ検索装置であって、
前記検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成するインデックス作成部、
を備えたことを特徴とするコンテンツ検索装置。 - 入力される検索文字列の形態素解析を前記作成した形態素解析辞書を用いて行い、前記インデックステーブルを参照して前記検索文字列を含むコンテンツ情報およびその重要度情報を取得して前記コンテンツを出力するコンテンツ検索部、
を備えたことを特徴とする請求項1に記載のコンテンツ検索装置。 - 前記コンテンツ検索部は、
前記形態素解析で品詞の解析に失敗したとき、その不定語に対応するコンテンツの取得を省略することを特徴とする請求項2に記載のコンテンツ検索装置。 - 検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えたコンテンツ検索装置におけるインデックス作成方法であって、
前記検索対象コンテンツを形態素解析して各単語の重要度を計算する過程と、
所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成する過程と、
を有することを特徴とするコンテンツ検索装置作成方法。 - 検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えたコンテンツ検索装置に用いられプログラムであって、
前記検索対象コンテンツを形態素解析して各単語の重要度を計算する処理と、
所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成する処理と、
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004048024A JP2005242455A (ja) | 2004-02-24 | 2004-02-24 | コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004048024A JP2005242455A (ja) | 2004-02-24 | 2004-02-24 | コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005242455A true JP2005242455A (ja) | 2005-09-08 |
Family
ID=35024167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004048024A Pending JP2005242455A (ja) | 2004-02-24 | 2004-02-24 | コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005242455A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304719A (ja) * | 2006-05-09 | 2007-11-22 | Fuji Xerox Co Ltd | 文書利用追跡システム |
JP2008108781A (ja) * | 2006-10-23 | 2008-05-08 | Fujikura Ltd | 冷却システム |
JP2010205060A (ja) * | 2009-03-04 | 2010-09-16 | Nomura Research Institute Ltd | 文書内画像検索方法および文書内画像検索システム |
JP2011090463A (ja) * | 2009-10-21 | 2011-05-06 | Fujitsu Ltd | 文書検索システム、情報処理装置およびプログラム |
-
2004
- 2004-02-24 JP JP2004048024A patent/JP2005242455A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304719A (ja) * | 2006-05-09 | 2007-11-22 | Fuji Xerox Co Ltd | 文書利用追跡システム |
JP2008108781A (ja) * | 2006-10-23 | 2008-05-08 | Fujikura Ltd | 冷却システム |
JP2010205060A (ja) * | 2009-03-04 | 2010-09-16 | Nomura Research Institute Ltd | 文書内画像検索方法および文書内画像検索システム |
JP2011090463A (ja) * | 2009-10-21 | 2011-05-06 | Fujitsu Ltd | 文書検索システム、情報処理装置およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664650B2 (en) | Slide tagging and filtering | |
JP3860347B2 (ja) | リンク処理装置 | |
US8489602B2 (en) | Systems and methods for determining exclusion efficiencies of a plurality of keywords appearing in a search result | |
US20160292153A1 (en) | Identification of examples in documents | |
JP2010003015A (ja) | 文書検索システム | |
Zainol et al. | Text analytics of unstructured textual data: a study on military peacekeeping document using R text mining package | |
JP6840597B2 (ja) | 検索結果要約装置、プログラム及び方法 | |
JP2010211688A (ja) | 文書編集装置、データ処理方法及びプログラム | |
JP2003345829A (ja) | 情報の検索方法およびその装置および情報検索のためのコンピュータプログラム | |
JP2005242455A (ja) | コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム | |
JP5466217B2 (ja) | オブジェクトコンピュータシステムの情報を起動する方法、システムおよびコンピュータプログラム | |
JP2007140639A (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP2000099526A (ja) | 文書情報抽出装置 | |
JP2002049638A (ja) | 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体 | |
KR20070067058A (ko) | 웹 문서 제목 추출 방법 및 그 장치 | |
JPH11102372A (ja) | 文書要約装置及びコンピュータ読み取り可能な記録媒体 | |
KR20070095506A (ko) | 웹 문서 제목 추출 방법 및 그 장치 | |
JP3710463B2 (ja) | 翻訳支援辞書装置 | |
Ritharson et al. | Multi-Document Summarization Made Easy: An Abstractive Query-Focused System Using Web Scraping and Transformer Models | |
JP3872764B2 (ja) | 検索装置、検索方法、ならびに、プログラム | |
JP4899128B2 (ja) | 関連語統合システム | |
JP2011054006A (ja) | 画像のキーワード決定システム | |
JP4261876B2 (ja) | 統計装置、検索装置、プログラム、統計方法、検索方法 | |
JP2010152705A (ja) | 体験情報検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090803 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091112 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091208 |