JP2005242455A

JP2005242455A - コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム

Info

Publication number: JP2005242455A
Application number: JP2004048024A
Authority: JP
Inventors: Yasuo Kasai; 庸雄河西; Takashige Tanaka; 敬重田中; Kazuyoshi Nagaho; 和義長保
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2004-02-24
Filing date: 2004-02-24
Publication date: 2005-09-08

Abstract

【課題】記憶容量が少ないあるいはその利用が制限される利用環境を持つ機器に用いて好適なコンテンツ検索装置を提供する。
【解決手段】インデックス作成部１０が、検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持するインデックステーブル（データベース２５）と、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成する。また、コンテンツ検索部２０が、入力される検索文字列の形態素解析を作成した形態素解析辞書を用いて行い、インデックステーブルを参照して検索文字列を含むコンテンツ情報およびその重要度情報を取得してコンテンツを出力する。
【選択図】図１

Description

本発明は、検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えた、コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラムに関する。

近年、製品購入時に添付されるマニュアルと、製品に関するＱ＆Ａ情報は別個に提供されることが多くなった。従って、ユーザは、マニュアルを調べて不明な場合は、あらためてサポート窓口に問合せ、あるいはインターネット上に公開されているＱ＆Ａ情報を検索する必要がある。

上記した検索の際に使用する装置の一例とてし、ＨＴＭＬ（Hyper Text Markup Language）形式の製品マニュアルを、ユーザが持つＰＣで検索するシステムが知られている（例えば、特許文献１参照）。また形態素解析を使用して自然文の検索をする技術が公開されている（例えば、特許文献２参照）。
特開平１１−３１６６３６号公報特開平６−４５８４号公報

特許文献１や特許文献２に開示された技術によれば、形態素解析を利用した自然文検索を行うが、この形態素解析を行うためには形態素解析辞書が必要になる。ところが、現在のＰＣのように、内蔵ＨＤＤ（Hard Disc Drive）が大量に利用できればほとんど問題とはならないが、記憶容量が少ない、あるいはその使用に制限のある機器で利用しようとした場合に問題となる。

本発明は上記事情に鑑みてなされたものであり、記憶容量が少ない、あるいはその利用が制限される利用環境を持つ機器に用いて好適な、コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラムを提供することを目的とする。

上記した課題を解決するために本発明は、検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えたコンテンツ検索装置であって、前記検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持するインデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成するインデックス作成部を備えたことを特徴とする。

コンテンツ検索装置は、通常、インデックスとコンテンツを含む比較的大容量のデータベースを備える。データベースには、例えば、ＨＴＭＬ（Hyper Text Markup Language）のページ等、検索対象コンテンツとしての文章情報の他に、当該文章を構成する単語毎、その品詞情報と、その単語が含まれる文章情報、およびその重要度がインデックステーブルとして保持される。本発明によれば、インデックス作成部が、検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持するインデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成する。これにより、形態素解析辞書が検索対象コンテンツに含まれる単語だけの情報を保持する辞書なので、利用するインデックス容量を削減でき、特に、機器組み込みの検索システム等、検索対象コンテンツが限られ、記憶容量が制約される場合に大きな効果が得られる。

また、本発明において、入力される検索文字列の形態素解析を前記作成した形態素解析辞書を用いて行い、前記インデックステーブルを参照して前記検索文字列を含むコンテンツ情報およびその重要度情報を取得して前記コンテンツを出力するコンテンツ検索部、を備えたことを特徴とする。
本発明によれば、コンテンツ検索部が、検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書を用いて、検索文字列を形態素解析するので、従来より形態素解析の対象となる単語が少なくなり、これにより、形態素解析の処理を高速化することができる。またインデックステーブルを参照して検索文字列を含むコンテンツ情報およびその重要度情報を取得してコンテンツを出力することで、例えば、取得した重要度順にコンテンツを表示することで、ユーザに利便性を提供できる。

また、本発明において、前記コンテンツ検索部は、前記形態素解析で品詞の解析に失敗したとき、その不定語に対応するコンテンツの取得を省略することを特徴とする。
本発明によれば、コンテンツ検索部が不定語に対応するコンテンツの取得を省略することで、検索処理の一層の高速化がはかれる。

上記した課題を解決するために本発明は、検索対象コンテンツとそのインデックス情報を含むデータベースを備えたコンテンツ検索装置におけるインデックス作成方法であって、前記検索対象コンテンツを形態素解析して各単語の重要度を計算する過程と、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックス情報を作成し、記憶装置に格納する過程と、を有することを特徴とする。

上記した課題を解決するために本発明は、検索対象コンテンツとそのインデックス情報を含むデータベースを備えたコンテンツ検索装置に用いられるプログラムであって、前記検索対象コンテンツを形態素解析して各単語の重要度を計算する処理と、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックス情報を作成し、記憶装置に格納する処理と、をコンピュータに実行させることを特徴とする。

以下、図面を参照しながら本発明のコンテンツ検索システムの実施形態について説明する。図１は、本発明実施形態を示すブロック図である。
図１に示されるように、本発明のコンテンツ検索システムは、機能的に大別すれば、インデックス作成部１０と、コンテンツ検索部２０で構成される。

インデックス作成部１０は、検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持するインデックステーブルを作成する機能を持ち、形態素解析辞書が格納されるデータベース１２と、形態素解析部１３と、重要度計算部１４と、インデックス作成制御部１５とで構成される。

コンテンツ検索部２０は、入力される検索文字列の形態素解析を行い、インデックステーブルを参照して検索文字列を含むコンテンツ情報およびその重要度情報を取得してコンテンツを出力する機能を持ち、形態素解析部２２と、適合度計算部２３と、コンテンツ検索制御部２４と、検索インデックス＋形態素解析辞書が格納されるデータベース２５と、検索対象コンテンツが格納されるデータベース２６で構成される。
なお、上述のインデックス作成部１０が、データベース２５とデータベース２６とを構成として保持しているようにしてもよい。

図７、図８は、本発明実施形態の動作を説明するために引用したフローチャートであり、インデックス作成部１０、コンテンツ検索部２０のそれぞれの動作を示す。図７、図８はまた、本発明のプログラムの処理手順も併せて示している。
まず、インデックス作成部１０によるインデックス作成処理から説明する。図７において、インデックス作成制御部１５は、検索対象コンテンツ１１としての文書を取得する（Ｓ７１）。ここで、検索対象コンテンツ１１は、外部から直接入力され、これを取込む場合と、データベース２６にあらかじめ格納されている場合のそれぞれがある。ここでは、入力されるものとし、その検索対象コンテンツ１１は、インデックス作成制御部１５を介してデータベース２６に格納される。

続いて、インデックス作成制御部１５は、データベース２５（検索インデックス＋形態素解析辞書）に、該当ページのページＩＤ、タイトル、ＵＲＬ（Uniform Resource Locater）を記録した後、形態素解析部１３を起動する（Ｓ７２）。データベース２５のデータ構造については後述する。
形態素解析部１３は、形態素解析辞書１２を参照しながら取得した文書の形態素解析を行う（Ｓ７３）。ここで、形態素解析とは、取得した文書を単語に分割してそれぞれ品詞を判別する処理をいう。図２に形態素解析辞書１２のデータ構造の一例が示されている。ここでは、漢字、読み、品詞の各データ項目から成り、通常使用される単語の全てが含まれる。
上記したように、検索対象の文書に出現する単語を形態素解析によって取得した後（Ｓ７４）、単語の文書毎の出現数（ＴＦ）と、その単語が出現する文書数（ＤＦ）を集計し、各文書におけるその単語の重要度（スコア）をＴＦ＊ＩＤＦ法で計算する（Ｓ７５）。ここで、ＴＦ＊ＩＤＦ法とは重要度計算部１４による周知のスコア計算の一手法であり、ここでは、ある文書における単語の重要度を示す指標となり、以下の演算式に従い計算するものとする。

ここで、ＴＦ（ｔ）とは、ある文書に単語ｔが出現する回数、ＤＦ（ｔ）とは、文書群内で単語ｔが出現する文書数を示し、また、ｔは任意の単語、ｄは文書群内の文書数をいう。

形態素解析による単語取得（Ｓ７４）、スコア計算（Ｓ７５）の処理は単語毎、更には文書毎に繰り返され（Ｓ７６、Ｓ７７）、このようにＴＦ＊ＩＤＦ法により計算された値を、データベース２５（検索インデックス＋形態素解析辞書）の該当データ項目にスコアとして記録する（Ｓ７８）。
ここで、所定の値（閾値）との比較が行われ、スコアの低いものについては単語も含めてその記録を省略し、検索に有用な単語とその品詞のみ記録する（Ｓ７９）。つまり、形態素解析部１３は検索対象コンテンツに含まれる単語のうちスコアが所定の値よりも高いみの情報を保持する形態素解析辞書を作成している。

図３に、インデックス作成部１０により作成される、データベース２５（検索インデックス＋形態素解析辞書）のデータ構造の一例が示されている。
検索インデックス＋形態素解析辞書２５は、図２に示す形態素解析辞書としてのデータ（漢字、読み、品詞）の他に、単語毎、どのページ（検索対象の単位）に含まれるかを示すページＩＤと、そのページでの重要度を示すスコアのデータ項目を持つ。ここでは、入力される検索対象コンテンツ１１の中に含まれる重要語のみが含まれる。
また、ページＩＤによって示されるページ情報として、そのページのタイトルと、格納場所を示すＵＲＬを持つ。つまり、データベース２５の形態素解析辞書は検索対象コンテンツの保持している単語についての各情報のみを保持していることとなる。

次に、コンテンツ検索部２０によるコンテンツ検索処理について図８のフローチャートを参照しながら説明する。図８において、コンテンツ検索制御部２４は、入力される検索文字列２１を取得し（Ｓ８１）、形態素解析部２２に供給して形態素解析処理部２２による形態素解析処理を起動する。
ここでは入力された検索文字列に出現する単語を取得し、それが不定語であるか否かを判断し（Ｓ８４）、不定語でない場合に限ってその単語に対応するページＩＤを取得し（Ｓ８５）、ページＩＤ毎にスコアを集計する（Ｓ８６）。
以上の処理は、全てのページに対し繰り返し実行され（Ｓ８７）、更に全ての単語について繰り返し実行される（Ｓ８８）。不定語の判断処理（Ｓ８４）、およびページＩＤ毎のスコア集計（Ｓ８６）の具体例について、図４、図５を用いて詳述する。

図４（ａ）（ｂ）は、形態素解析部２２による形態素解析結果を示す模式図であり、（ａ）は通常の形態素解析辞書１２を用いた例、（ｂ）は、インデックス作成部１０により作成されたデータベース２５（検索インデックス＋形態素解析辞書）を用いた例を示す。本発明では、後者（図４（ｂ））が用いられる。
ここに示されるように、「インクカートリッジの回収情報」という語を解析した結果、「情報」に対する解析結果は図４（ａ）では「名詞」となるが、図４（ｂ）では辞書として存在しないため、品詞の解析に失敗して「不定語」となる。検索時における形態素解析で不定語となった単語については、検索対象コンテンツには存在しないか、あるいは重要度の低い単語であるため、検索時には無視してよい。

図５は、適合度計算部２３により、検索文字列に対してどのページが適当かを計算する処理の模式図である。
図５に示されるように、形態素解析部２２による形態素解析の結果から、「情報」については検索では不要な語であることがわかる。一方、「インクカートリッジ」は、ページＩＤが１７２、１６６、１６７で示されるそれぞれのページに存在することから、ここではそれぞれ対応するスコアを取得する。また、「回収」はページＩＤが１７２のページに存在することから、同じく、対応するスコアを取得する。

説明を図８のフローチャートに戻す。適合度計算部２３は、上記したスコア取得の後、単語が含まれるページ毎にスコアを集計し、スコアの大きな順にソートする（Ｓ８９）。このことにより、図５の下部に示される表が求められる。
この結果から、順次、ページＩＤに対するタイトルおよびＵＲＬを、データベース２５（検索インデックス＋形態素解析辞書）から取得することにより（Ｓ９０）、コンテンツ検索制御部２４は、検索結果２７として、図６に出力事例が示されるように、例えば図示せぬ液晶表示モニタを介して表示する。ここでは、検索コンテンツのタイトルとＵＲＬがスコア順に表形式で出力される。

なお、図９に形態素解析辞書と検索インデックスが格納されるデータベース構造が対比して示されるように、従来、マニュアルにない単語も含めて大量に存在した形態素解析辞書と、その検索インデックスの組み合わせが、本発明により、マニュアルに存在する単語のみでコンパクト化された形態素解析辞書とその検索インデックスが統合（データベース２５）されることで記憶容量を削減でき、かつ、検索時の辞書索引量が減るため検索速度の向上がはかれる。本発明は、機器組み込み型の検索システム等、検索対象コンテンツが限られており、記憶容量の制限がある用途に用いて効果が顕著に現れる。

以上説明のように、本発明は、検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持するインデックステーブルを作成することで、利用するインデックス容量を削減するものであり、また、入力される検索文字列の形態素解析を行い、インデックステーブルを参照して検索文字列を含むコンテンツ情報およびその重要度情報を取得してコンテンツを出力することで、形態素解析する場合の処理を高速化するものである。更に、形態素解析で品詞の解析に失敗したとき、その不定語に対応するコンテンツの取得を省略することで検索処理の一層の高速化をはかるものである。

なお、図１に示すインデックス作成部１０を構成する形態素解析部１３と、重要度計算部１４と、インデックス作成制御部１５、そして、コンテンツ検索部２０を構成する形態素解析部２２と、適合度計算部２３と、コンテンツ検索制御部２４のそれぞれで実行される手順をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって本発明を実現するものである。ここでいうコンピュータシステムとは、ＯＳや周辺機器等のハードウェアを含む。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明実施形態を示すブロック図である。データベース１２のデータ構造の一例を示す図である。データベース２５のデータ構造の一例を示す図である。形態素解析処理の模式図である。適合度計算処理の模式図である。コンテンツ検索結果事例を示す図である。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。データベース構造を対比して示した図である。

符号の説明

１０…インデックス作成部、１１…検索対象コンテンツ、１２…データベース（形態素解析辞書）、１３…形態素解析部、１４…重要度計算部、１５…インデックス作成制御部、２０…コンテンツ検索部、２１…検索文字列、２２…形態素解析部、２３…適合度計算部、２４…コンテンツ検索制御部、２５…データベース（検索インデックス＋形態素解析辞書）、２６…データベース（検索対象コンテンツ）、２７…検索結果

Claims

検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えたコンテンツ検索装置であって、
前記検索対象コンテンツを形態素解析して各単語の重要度を計算し、所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成するインデックス作成部、
を備えたことを特徴とするコンテンツ検索装置。
入力される検索文字列の形態素解析を前記作成した形態素解析辞書を用いて行い、前記インデックステーブルを参照して前記検索文字列を含むコンテンツ情報およびその重要度情報を取得して前記コンテンツを出力するコンテンツ検索部、
を備えたことを特徴とする請求項１に記載のコンテンツ検索装置。
前記コンテンツ検索部は、
前記形態素解析で品詞の解析に失敗したとき、その不定語に対応するコンテンツの取得を省略することを特徴とする請求項２に記載のコンテンツ検索装置。
検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えたコンテンツ検索装置におけるインデックス作成方法であって、
前記検索対象コンテンツを形態素解析して各単語の重要度を計算する過程と、
所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成する過程と、
を有することを特徴とするコンテンツ検索装置作成方法。
検索対象コンテンツとそのインデックステーブルとを含むデータベースを備えたコンテンツ検索装置に用いられプログラムであって、
前記検索対象コンテンツを形態素解析して各単語の重要度を計算する処理と、
所定値以上の重要度を持つ単語を含むコンテンツの情報を少なくとも保持する前記インデックステーブルと、前記形態素解析により前記検索対象コンテンツからのみ得られた各単語とその品詞を対応付けて保持する形態素解析辞書とを作成する処理と、
をコンピュータに実行させるプログラム。