JP2006126883A - 情報検索装置及び情報検索方法 - Google Patents

情報検索装置及び情報検索方法 Download PDF

Info

Publication number
JP2006126883A
JP2006126883A JP2004310273A JP2004310273A JP2006126883A JP 2006126883 A JP2006126883 A JP 2006126883A JP 2004310273 A JP2004310273 A JP 2004310273A JP 2004310273 A JP2004310273 A JP 2004310273A JP 2006126883 A JP2006126883 A JP 2006126883A
Authority
JP
Japan
Prior art keywords
conversion
keyword
information
character string
registration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004310273A
Other languages
English (en)
Inventor
Kazuteru Suzuki
一輝 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shinano Kenshi Co Ltd
Original Assignee
Shinano Kenshi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shinano Kenshi Co Ltd filed Critical Shinano Kenshi Co Ltd
Priority to JP2004310273A priority Critical patent/JP2006126883A/ja
Publication of JP2006126883A publication Critical patent/JP2006126883A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 適切な情報検索を可能とした情報検索装置及び情報検索方法を提供する。
【解決手段】 情報検索装置100は、登録情報の中からキーワードに対応するものを検索するものであって、登録情報を登録情報用変換アルゴリズム112に従って変換する登録情報変換部110と、登録情報変換部110による変換後の登録情報を格納するコンテンツDB120と、キーワードをキーワード用変換アルゴリズム142に従って変換するキーワード変換部140と、キーワード変換部140による変換後のキーワードに対応する変換後の登録情報をコンテンツDB120から抽出する検索部150とを有する。
【選択図】 図1

Description

本発明は、登録情報の中からキーワードに対応するものを検索する情報検索装置及び情報検索方法に関する。
従来、利用者等によって入力されるキーワードに基づいて、コンテンツのタイトルやアーティスト名等の様々な情報を検索することが一般的に行われている(例えば、特許文献1及び2参照)。このような情報検索においては、例えば、予め変換アルゴリズムを定めておき、検索の対象となる登録情報が入力された場合には、その変換アルゴリズムに従って変換が行われ、その変換後の登録情報が保持される。そして、検索時には、キーワードが入力されると、そのキーワードが登録情報の変換に用いられた変換アルゴリズムに従って変換され、変換後のキーワードに対応する変換後の登録情報が検索結果として得られる。
特開平7−36929号公報 特開平7−78172号公報
上述した従来の情報検索の手法では、登録情報及びキーワードは、同一の変換アルゴリズムによって変換される。しかし、登録情報及びキーワードは、文字列の種別等が様々であるため、このような画一的な変換では、適切な情報検索の妨げになる場合がある。また、同一の情報の検索を目的とする場合であっても、個々の利用者により入力されるキーワードは様々であるため、画一的な変換では、適切な情報検索ができない場合がある。
本発明は、前述したような従来の問題を解決するためになされたもので、適切な情報検索を可能とした情報検索装置及び情報検索方法を提供するものである。
本発明に係る情報検索装置は、登録情報の中からキーワードに対応するものを検索するものであって、前記登録情報を第1の変換アルゴリズムに従って変換する第1の変換手段と、前記第1の変換手段による変換後の登録情報を格納する登録情報格納手段と、前記キーワードを前記第1の変換アルゴリズムとは異なる第2の変換アルゴリズムに従って変換する第2の変換手段と、前記第2の変換手段による変換後のキーワードに対応する前記変換後の登録情報を前記登録情報格納手段から抽出する抽出手段とを有する。
この構成により、登録情報の変換とキーワードの変換とで異なる変換アルゴリズムが用いられるため、登録情報とキーワードのそれぞれに適した変換が可能となり、適切な情報検索が行えるようになる。
また、本発明に係る情報検索装置は、前記第1の変換アルゴリズムが、前記登録情報の属性に基づいて構成されるものであり、前記第2の変換アルゴリズムが、前記キーワードの属性に基づいて構成されるものである。
この構成により、登録情報の変換とキーワードの変換において、それぞれの属性(例えば、文字列の種別、文字列の意味、文字列の傾向等)に基づいた適切な変換アルゴリズムが用いられるため、適切な情報検索が可能となる。
また、本発明に係る情報検索装置は、前記第1の変換アルゴリズムが、前記登録情報の属性に基づいて所定の順序で組み合わされた複数の変換規則により構成され、前記第2の変換アルゴリズムが、前記キーワードの属性に基づいて所定の順序で組み合わされた複数の変換規則により構成される。
この構成により、登録情報の変換とキーワードの変換において、それぞれの属性に基づいた所定の順序で変換規則を組み合わせた適切な変換アルゴリズムを用いることが可能となる。
また、本発明に係る情報検索装置は、前記抽出手段が、完全一致又は前方一致の手法により前記変換後の登録情報を抽出する。
また、本発明に係る情報検索方法は、登録情報の中からキーワードに対応するものを検索するものであって、前記登録情報を第1の変換アルゴリズムに従って変換する第1の変換ステップと、前記第1の変換ステップにおける変換後の登録情報を登録情報格納手段に格納する格納ステップと、前記キーワードを第2の変換アルゴリズムに従って変換する第2の変換ステップと、前記第2の変換ステップにおける変換後のキーワードに対応する前記変換後の登録情報を前記登録情報格納手段から抽出する抽出ステップとを有する。
また、本発明に係る情報検索方法は、前記第1の変換アルゴリズムが、前記登録情報の属性に基づいて構成されるものであり、前記第2の変換アルゴリズムは、前記キーワードの属性に基づいて構成されるものである。
また、本発明に係る情報検索方法は、前記第1の変換アルゴリズムが、前記登録情報の属性に基づいて所定の順序で組み合わされた複数の変換規則により構成され、前記第2の変換アルゴリズムが、前記キーワードの属性に基づいて所定の順序で組み合わされた複数の変換規則により構成される。
また、本発明に係る情報検索方法は、前記抽出ステップが、完全一致又は前方一致の手法により前記変換後の登録情報を抽出する。
本発明に係る情報検索装置及び情報検索方法によれば、登録情報とキーワードのそれぞれに適した変換が可能となり、適切な情報検索が行えるようになる。
以下、本発明の実施の形態の情報検索装置について、図面を用いて説明する。
本発明の実施の形態における情報検索装置のブロック図を図1に示す。図1に示す情報検索装置100は、DVD(Digital Versatile Disk)200に収録されたコンテンツにおけるアーティスト名、コンテンツ名(タイトル名)、曲名、POS(Point Of Sale)コード、JAN(Japanese Article Number)コード、品番の検索を行うものである。
この情報検索装置100は、登録情報変換部110、コンテンツデータベース(DB)120、操作部130、キーワード変換部140、検索部150及び表示部160を有する。
DVD200には、画像や音楽等のコンテンツデータと、これらのコンテンツデータに関連する情報であるアーティスト名、タイトル名、曲名、POSコード、JANコード、品番の各登録情報が記憶されている。
登録情報変換部110には、DVD200から読み出された情報であるコンテンツデータ及び登録情報が入力される。登録情報変換部110は、各登録情報の属性に基づいて予め構成される変換アルゴリズム(登録情報用変換アルゴリズム)112を、内蔵するメモリ(図示せず)等に保持しており、この登録情報用変換アルゴリズム112に従って、各登録情報の文字列を変換する。そして、登録情報変換部110は、変換前及び変換後の登録情報とコンテンツデータとを対応付けてコンテンツDB120に格納する。
操作部130は、検索を所望する利用者が操作するものである。具体的には、利用者は、操作部130を使用して、検索したい文字列であるキーワードを入力するとともに、そのキーワードの意味(アーティスト名、タイトル名、曲名、POSコード、JANコード、品番)を指定する。キーワードと当該キーワードの意味は、キーワード情報として、キーワード変換部140に入力される。
キーワード変換部140は、キーワードの属性に基づいて予め構成される変換アルゴリズム(キーワード用変換アルゴリズム)142を内蔵するメモリ(図示せず)等に保持しており、このキーワード用変換アルゴリズム142に従って、各キーワードの文字列を変換する。そして、キーワード変換部140は、変換後のキーワードを検索部150へ出力する。
検索部150は、キーワード変換部140からの変換後のキーワードに基づいて、コンテンツDB120内の変換後の登録情報を検索し、変換後のキーワードに対応する変換後の登録情報を抽出する。ここで、検索手法としては、完全一致又は前方一致の手法が用いられる。検索の結果は、表示部160に表示される。
上述した登録情報変換部110において登録情報の変換に用いられる登録情報用変換アルゴリズム112と、キーワード変換部140においてキーワードの変換に用いられるキーワード用変換アルゴリズム142は、それぞれ登録情報及びキーワードの文字列の属性に応じて複数の変換規則が適宜選択されて組み合わされることによって構成される。変換規則には、特殊な変換規則(特殊規則)であるspC2、spC1、spC0、spB2、spB1、spAの6種類と、一般的な変換規則(一般規則)であるLv5、Lv4.5、Lv4.2、Lv4、Lv3、Lv2.5、Lv2、Lv1.5、Lv1.2、Lv1、Lv0の11種類とが存在する。これら変換規則は、特殊規則が先に適用され、一般規則が後に適用されるように組み合わされる。更には、特殊規則同士では、spC2、spC1、spC0、spB2、spB1、spAの順序で適用されるように組み合わされ、一般規則同士では、Lv5、Lv4.5、Lv4.2、Lv4、Lv3、Lv2.5、Lv2、Lv1.5、Lv1.2、Lv1、Lv0の順序で適用されるように組み合わされる。
図2は、登録情報及びキーワードの文字列の属性に応じた変換規則の組み合わせの一例を示す図である。図2において、白い丸は登録情報用変換アルゴリズム112を構成する変換規則を示し、黒い丸はキーワード用変換アルゴリズム142を構成する変換規則を示す。図2によれば、登録情報の文字列の意味がアーティスト名であって種別がカナ文字である場合、登録情報用変換アルゴリズム112は、特殊規則spC2、spC1、spC0、SpAと、一般規則Lv4.5、Lv2、Lv1、Lv0とをこの順序で組み合わせて構成される。また、キーワードの文字列の意味がアーティスト名であって種別がカナ文字である場合、キーワード用変換アルゴリズム142は、特殊規則spC1、spC0と、一般規則Lv4.5、Lv3、Lv2.5、Lv1、Lv0とをこの順序で組み合わせて構成される。
各変換規則は、以下に示す文字列の変換を行うものである。特殊規則spC2は、文字列の先頭及び最後に付加されているタブ情報、改行情報を全て削除し、先頭と最後がタブ情報及び改行情報以外の文字になるようにするものである。特殊規則spC1は、文字列の先頭及び最後に付加されているタブ情報、改行情報を全て削除し、先頭と最後がタブ情報及び改行情報以外の文字になるようにするものである。更に、特殊規則spC1は、文字列の先頭と最後のスペース(空白)を全て削除し、先頭と最後がスペース以外の文字になるようにするものである。特殊規則spC0は、文字列内に複数のスペースが連続して存在する場合には、これら複数の連続するスペースを1つのスペースにまとめるものである。特殊規則spB2は、数字以外の文字の次が数字「0」である場合には、その「0」を削除するものである。特殊規則spB1は、文字列の種別が品番である場合に、文字「/」より後の文字を全て削除するものである。特殊規則spAは、カナ文字が含まれるべきフィールドに英字が含まれている場合に、その英字を削除するものである。
一般規則Lv5は、文字列の2文字目以降に半角アルファベット及び半角数字以外の文字が含まれる場合には、その文字を削除する第1の手順と、文字「/」、「〜」、「→」以降の文字を削除する第2の手順からなる。一般規則Lv4.5は、文字列がスペースで区切られている場合に、そのままの文字列と、文字列をそのスペースで文節(単語)に分けて2つ目の文節を1つ目の文節の前に配置したものとを作成するものである。一般規則4.2は、文字列がスペースで区切られている場合に、そのままの文字列と、文字列をそのスペースで分けた文節とを作成するものである。一般規則Lv4は、文字列がスペースで区切られている場合に、文字列をそのスペースで分けて文節を作成するものである。
一般規則Lv3は、文字列「ザ○○○」について「ザ」の次の文字が大文字の場合に、そのままの文字列である「ザ○○○」と、先頭の文字「ザ」を削除した「○○○」とを作成するとともに、文字列「ジ○○○」について「ジ」の次の文字が大文字の場合に、そのままの文字列である「ジ○○○」と、先頭の文字「ジ」を削除した「○○○」とを作成するものである。また、一般規則Lv3は、文字列の先頭と最後のスペースを全て削除し、先頭と最後がスペース以外の文字になるようにするものである。
一般規則Lv2.5は、文字列に含まれるカナ文字「ヴァ」、「ヴィ」、「ヴ」、「ヴェ」、「ヴォ」、「ヂ」、「ヅ」をそれぞれ「バ」、「ビ」、「ブ」、「ベ」、「ボ」、「ジ」、「ズ」に変換するとともに、文字列の2文字目以降の「ハ」を「ワ」に変換するものである。また、一般規則2.5は、文字列「○○○チ」について、そのままの文字列である「○○○チ」と、最後の文字「チ」を「シ」に置き換えた文字列「○○○シ」とを作成するとともに、文字列「○○○ツ」について、そのままの文字列である「○○○ツ」と、最後の文字「ツ」を「ス」に置き換えた文字列「○○○ス」とを作成するものである。また、一般規則2.5は、2文字以上の文字列「○○○ハ」について、そのままの文字列である「○○○ハ」と、最後の文字「ハ」を「ワ」に置き換えた文字列「○○○ワ」を作成するものである。一般規則Lv2は、一般規則Lv2.5の一部と同様、文字列に含まれるカナ文字「ヴァ」、「ヴィ」、「ヴ」、「ヴェ」、「ヴォ」、「ヂ」、「ヅ」をそれぞれ「バ」、「ビ」、「ブ」、「ベ」、「ボ」、「ジ」、「ズ」に置き換え、文字列の2文字目以降の「ハ」を「ワ」に置き換えるものである。
一般規則Lv1.5は、文字列に含まれる英字、数字、スペース以外の文字を削除するものである。一般規則Lv1.2は、文字列に含まれる英字の小文字を全て大文字にするものである。一般規則Lv1は、文字列に含まれるカナ文字、濁音、半濁音、スペース(空白)以外を削除する第1の手順、カナ文字の小文字のうち「ャ」、「ュ」、「ョ」、「ッ」を大文字に置き換える第2の手順、カナ文字の小文字のうち「ァ」、「ィ」、「ゥ」、「ェ」、「ォ」を大文字に置き換える第3の手順、カナ文字「ヲ」を「オ」に置き換える第4の手順、及び、文字列の2文字目以降の濁音及び半濁音を削除する第5の手順からなる。一般規則Lv0は、文字列に含まれるスペースを削除するものである。
以下、登録情報及びキーワードの例を用いて、その変換の例について説明する。図3は、登録情報の変換の第1の例を示す図である。ここで登録情報は、アーティスト名のカナ文字である。従って、図2によれば、登録情報用変換アルゴリズム112は、特殊規則spC2、spC1、spC0、spAと、一般規則Lv4.5、Lv2、Lv1、Lv0とをこの順序で組み合わせて構成される。登録情報変換部110は、アーティスト名のカナ文字である文字列「オルビス プリスリー」が入力されると、特殊規則spC2、spC1、spC0、SpAを用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、登録情報変換部110は、一般規則Lv4.5を用いた文字列変換を行い、そのままの文字列「オルビス プリスリー」と、当該文字列をスペースで文節に分けて2つ目の文節を1つ目の文節の前に配置した文字列「プリスリーオルビス」とを作成する。更に、登録情報変換部110は、一般規則Lv2を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、登録情報変換部110は、一般規則Lv1を用いた文字列変換を行い、文字列「オルビス プリスリー」及び「プリスリーオルビス」のそれぞれについて、長音の文字「ー」を削除するとともに、2文字目以降の濁音及び半濁音を削除した文字列「オルヒス フリスリ」及び「プリスリオルヒス」を作成する。次に、登録情報変換部110は、一般規則Lv0を用いた文字列変換を行い、スペースを削除した文字列「オルヒスフリスリ」及び「プリスリオルヒス」を作成する。これら文字列「オルヒスフリスリ」及び「プリスリオルヒス」が変換後の登録情報としてコンテンツDB120に格納される。
一方、図4は、キーワードの変換の第1の例を示す図である。ここでキーワードは、アーティスト名のカナ文字である。従って、図2によれば、キーワード用変換アルゴリズム142は、特殊規則spC1、spC0と、一般規則Lv4.5、Lv3、Lv2.5、Lv1、Lv0とをこの順序で組み合わせて構成される。キーワード変換部140は、アーティスト名のカナ文字である文字列「オルヴィス プリスリー ↓」(「↓」は改行情報)が入力されると、特殊規則spC1を用いた文字列変換を行い、文字列の最後の改行情報とスペースを削除し、文字列「オルヴィス プリスリー」を作成する。次に、キーワード変換部140は、spC0を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv4.5を用いた文字列変換を行い、そのままの文字列「オルヴィス プリスリー」と、当該文字列をスペースで文節に分けて2つ目の文節を1つ目の文節の前に配置した文字列「プリスリーオルヴィス」とを作成する。更に、キーワード変換部140は、一般規則Lv3を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv2.5を用いた文字列変換を行い、文字「ヴィ」を「ビ」に置き換えた文字列「オルビス プリスリー」及び「プリスリーオルビス」を作成する。更に、キーワード変換部140は、一般規則Lv1を用いた文字列変換を行い、文字列「オルビス プリスリー」及び「プリスリーオルビス」のそれぞれについて、長音の文字「ー」を削除するとともに、2文字目以降の濁音及び半濁音を削除した文字列「オルヒス フリスリ」及び「プリスリオルヒス」を作成する。次に、キーワード変換部140は、一般規則Lv0を用いた文字列変換を行い、文字列「オルヒス フリスリ」についてスペースを削除した文字列「オルヒスフリスリ」を作成する。この結果、文字列「オルヒスフリスリ」及び「プリスリオルヒス」が変換後のキーワードとして検索部150に出力される。検索部150は、図4に示す変換後のキーワード「オルヒスフリスリ」及び「プリスリオルヒス」を用いた完全一致の手法による検索を行うことにより、図3に示す変換後の登録情報「オルヒスフリスリ」及び「プリスリオルヒス」を抽出することができる。
また、図5は、キーワードの変換の第2の例を示す図である。ここでキーワードは、アーティスト名のカナ文字である。従って、図2によれば、キーワード用変換アルゴリズム142は、図4の場合と同様、特殊規則spC1、spC0と、一般規則Lv4.5、Lv3、Lv2.5、Lv1、Lv0とをこの順序で組み合わせて構成される。キーワード変換部140は、アーティスト名のカナ文字である文字列「プリスリー」が入力されると、特殊規則spC1、spC0、一般規則Lv4.5、Lv3、Lv2.5を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv1を用いた文字列変換を行い、文字列「プリスリー」について、長音の文字「ー」を削除した文字列「プリスリ」を作成する。次に、キーワード変換部140は、一般規則Lv0を用いた文字列変換を行うが、結果的には変換されずにそのままであり、文字列「プリスリ」が変換後のキーワードとして検索部150に出力される。検索部150は、図4に示す変換後のキーワード「プリスリ」を用いた前方一致の手法による検索を行うことにより、図3に示す変換後の登録情報「プリスリオルヒス」を抽出することができる。
図6は、登録情報の変換の第2の例を示す図である。ここで登録情報は、アーティスト名のカナ文字である。従って、図2によれば、登録情報用変換アルゴリズム112は、特殊規則spC2、spC1、spC0、spAと、一般規則Lv4.5、Lv2、Lv1、Lv0とをこの順序で組み合わせて構成される。登録情報変換部110は、アーティスト名のカナ文字である文字列「ビークルズ」が入力されると、特殊規則spC2、spC1、spC0、SpA、一般規則Lv4.5、Lv2を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、登録情報変換部110は、一般規則Lv1を用いた文字列変換を行い、文字列「ビークルズ」について、長音の文字「ー」を削除するとともに、2文字目以降の濁音及び半濁音を削除した文字列「ビクルス」を作成する。次に、登録情報変換部110は、一般規則Lv0を用いた文字列変換を行うが、結果的には変換されずにそのままであり、文字列「ビクルス」が変換後の登録情報としてコンテンツDB120に格納される。
一方、図7は、キーワードの変換の第3の例を示す図である。ここでキーワードは、アーティスト名のカナ文字である。従って、図2によれば、キーワード用変換アルゴリズム142は、特殊規則spC1、spC0と、一般規則Lv4.5、Lv3、Lv2.5、Lv1、Lv0とをこの順序で組み合わせて構成される。キーワード変換部140は、アーティスト名のカナ文字である文字列「ジ ビークルズ」が入力されると、特殊規則spC1、spC0を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv4.5を用いた文字列変換を行い、そのままの文字列「ジ ビークルズ」と、当該文字列をスペースで文節に分けて2つ目の文節を1つ目の文節の前に配置した文字列「ビークルズジ」とを作成する。更に、キーワード変換部140は、一般規則Lv3を用いた文字列変換を行い、文字列「ジ ビークルズ」について、そのままの文字列「ジ ビークルズ」と、「ジ 」を削除した文字列「ビークルズ」とを作成する。更に、キーワード変換部140は、一般規則Lv2.5を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv1を用いた文字列変換を行い、文字列「ジ ビークルス」、「ビークルス」及び「ビークルズジ」のそれぞれについて、長音の文字「ー」を削除するとともに、2文字目以降の濁音及び半濁音を削除した文字列「ジ ヒクルス」、「ビクルス」及び「ビクルスシ」を作成する。更に、キーワード変換部140は、一般規則Lv0を用いた文字列変換を行い、文字列「ジ ヒクルス」についてスペースを削除した文字列「ジヒクルス」を作成する。この結果、文字列「ジヒクルス」、「ビクルス」及び「ビクルスシ」が変換後のキーワードとして検索部150に出力される。検索部150は、図7に示す変換後のキーワード「ビクルス」を用いた完全一致の手法による検索を行うことにより、図6に示す変換後の登録情報「ビクルス」を抽出することができる。
また、図8は、キーワードの変換の第4の例を示す図である。ここでキーワードは、アーティスト名のカナ文字である。従って、図2によれば、キーワード用変換アルゴリズム142は、特殊規則spC1、spC0と、一般規則Lv4.5、Lv3、Lv2.5、Lv1、Lv0とをこの順序で組み合わせて構成される。キーワード変換部140は、アーティスト名のカナ文字である文字列「ザビークルズ」が入力されると、特殊規則spC1、spC0、一般規則Lv4.5を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv3を用いた文字列変換を行い、文字列「ザビークルズ」について、そのままの文字列「ザビークルズ」と、「ザ」を削除した文字列「ビークルズ」とを作成する。更に、キーワード変換部140は、一般規則Lv2.5を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv1を用いた文字列変換を行い、文字列「ザビークルス」及び「ビークルス」のそれぞれについて、長音の文字「ー」を削除するとともに、2文字目以降の濁音及び半濁音を削除した文字列「ザヒクルス」及び「ビクルス」を作成する。更に、キーワード変換部140は、一般規則Lv0を用いた文字列変換を行うが、結果的には変換されずにそのままであり、文字列「ザヒクルス」及び「ビクルス」が変換後のキーワードとして検索部150に出力される。検索部150は、図8に示す変換後のキーワード「ビクルス」を用いた完全一致の手法による検索を行うことにより、図6に示す変換後の登録情報「ビクルス」を抽出することができる。
図9は、登録情報の変換の第3の例を示す図である。ここで登録情報は、アーティスト名の英字である。従って、図2によれば、登録情報用変換アルゴリズム112は、特殊規則spC2、spC1、spC0と、一般規則Lv4.2、Lv1.5、Lv1.2、Lv0とをこの順序で組み合わせて構成される。登録情報変換部110は、アーティスト名の英字である文字列「Jahn Lemon」が入力されると、特殊規則spC2、spC1、spC0を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、登録情報変換部110は、一般規則Lv4.2を用いた文字列変換を行い、そのままの文字列「Jahn Lemon」と、この文字列をスペースで分けた文節である「 Lemon」及び「Jahn 」とを作成する。更に、登録情報変換部110は、一般規則Lv1.5を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、登録情報変換部110は、一般規則Lv1.2を用いた文字列変換を行い、小文字を大文字にした文字列「JAHN LEMON」、「 LEMON」及び「JAHN 」を作成する。更に、登録情報変換部110は、一般規則Lv0を用いた文字列変換を行い、スペースを削除した文字列「JAHNLEMON」、「LEMON」及び「JAHN」を作成する。これら文字列「JAHNLEMON」、「LEMON」及び「JAHN」が変換後の登録情報としてコンテンツDB120に格納される。
一方、図10は、キーワードの変換の第5の例を示す図である。ここでキーワードは、アーティスト名の英字である。従って、図2によれば、キーワード用変換アルゴリズム142は、特殊規則spC1、spC0と、一般規則Lv4、Lv1.2とをこの順序で組み合わせて構成される。キーワード変換部140は、アーティスト名の英字である文字列「JAHN LEMON」が入力されると、特殊規則spC1、spC0を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、一般規則Lv4を用いた文字列変換を行い、文字列「JAHN LEMON」をスペースで分けて文節「JAHN」及び「LEMON」を作成する。更に、キーワード変換部140は、一般規則Lv1.2を用いた文字列変換を行うが、結果的には変換されずにそのままであり、文字列「JAHN」及び「LEMON」が変換後のキーワードとして検索部150に出力される。検索部150は、図10に示す変換後のキーワード「JAHN」及び「LEMON」の少なくともいずれかを用いた完全一致又は前方一致の手法による検索を行うことにより、図9に示す変換後の登録情報「JAHNLEMON」、「LEMON」及び「JAHN」を抽出することができる。
また、図11は、キーワードの変換の第6の例を示す図である。ここでキーワードは、アーティスト名の英字である。従って、図2によれば、キーワード用変換アルゴリズム142は、特殊規則spC1、spC0と、一般規則Lv4、Lv1.2とをこの順序で組み合わせて構成される。キーワード変換部140は、アーティスト名の英字である文字列「LEMON」及び「JAHNLEMON」が入力されると、特殊規則spC1、spC0と、一般規則Lv4、Lv1.2とを用いた文字列変換を行うが、結果的には変換されずにそのままであり、文字列「LEMON」及び「JAHNLEMON」が変換後のキーワードとして検索部150に出力される。検索部150は、図11に示す変換後のキーワード「LEMON」及び「JAHNLEMON」のいずれかを用いた完全一致の手法による検索を行うことにより、図9に示す変換後の登録情報「JAHNLEMON」及び「LEMON」を抽出することができる。
図12は、登録情報の変換の第4の例を示す図である。ここで登録情報は、品番である。従って、図2によれば、登録情報用変換アルゴリズム112は、特殊規則spC2、spC1、spC0、spB2、spB1と、一般規則Lv1.5、Lv1.2、Lv0とをこの順序で組み合わせて構成される。登録情報変換部110は、品番の文字列「CDCD 01234」が入力されると、特殊規則spC2、spC1、spC0を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、登録情報変換部110は、特殊規則spB2を用いた文字列変換を行い、数字以外の文字であるスペースの次にある数字「0」を削除し、文字列「CDCD 1234」を作成する。更に、登録情報変換部110は、特殊規則spB1と一般規則Lv1.5、Lv1.2とを用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、登録情報変換部110は、一般規則Lv0を用いた文字列変換を行い、スペースを削除した文字列「CDCD1234」を作成する。この文字列「CDCD1234」が変換後の登録情報としてコンテンツDB120に格納される。
一方、図13は、キーワードの変換の第7の例を示す図である。ここでキーワードは、品番である。図2によれば、キーワード用変換アルゴリズム142は、特殊規則spC1、spC0、spB2と、一般規則Lv5、Lv1.5、Lv1.2、Lv0とをこの順序で組み合わせて構成される。キーワード変換部140は、品番の文字列「CDCD 01234」、「CDCD-01234」、「CDCD01234」、「CDCD-1234/2」が入力されると、特殊規則spC1、spC0を用いた文字列変換を行うが、結果的には変換されずにそのままである。次に、キーワード変換部140は、特殊規則spB2を用いた文字列変換を行い、文字列「CDCD 01234」、「CDCD-01234」及び「CDCD01234」のそれぞれについて、数字以外の文字であるスペースの次にある数字「0」を削除し、文字列「CDCD 1234」、「CDCD-1234」及び「CDCD1234」を作成する。更に、キーワード変換部140は、一般規則Lv5を用いた文字列変換を行い、文字列「CDCD-1234/2」について文字「/」以降の文字を削除した文字列「CDCD-1234」を作成する。次に、キーワード変換部140は、一般規則Lv1.5を用いた文字列変換を行い、文字列「CDCD-1234」について、文字「−」を削除した文字列「CDCD1234」を作成する。更に、キーワード変換部140は、一般規則Lv1.2を用いた文字列変換を行い、文字列「CDCD 01234」についてスペースを削除した文字列「CDCD1234」を作成する。このような変換によって、入力されるキーワード「CDCD 01234」、「CDCD-01234」、「CDCD01234」、「CDCD-1234/2」はいずれも文字列「CDCD1234」に変換され、変換後のキーワードとして検索部150に出力される。検索部150は、図13に示す変換後のキーワード「CDCD1234」を用いた完全一致の手法による検索を行うことにより、図12に示す変換後の登録情報「CDCD1234」を抽出することができる。
このように本実施形態の情報検索装置100は、登録情報とキーワードのそれぞれの文字列を変換するに際して、その文字列の属性に基づいて適切な変換規則を組み合わせた変換アルゴリズムを用いている。このため、登録情報とキーワードのそれぞれの属性を考慮した適切な情報検索が可能となる。
以上、説明したように、本発明に係る情報検索装置は、適切な情報検索が可能になるという効果を奏し、情報検索装置として有用である。
情報検索装置のブロック図である。 登録情報及びキーワードの文字列の属性に応じた変換規則の組み合わせの一例を示す図である。 登録情報の変換の第1の例を示す図である。 キーワードの変換の第1の例を示す図である。 キーワードの変換の第2の例を示す図である。 登録情報の変換の第2の例を示す図である。 キーワードの変換の第3の例を示す図である。 キーワードの変換の第4の例を示す図である。 登録情報の変換の第3の例を示す図である。 キーワードの変換の第5の例を示す図である。 キーワードの変換の第6の例を示す図である。 登録情報の変換の第4の例を示す図である。 キーワードの変換の第7の例を示す図である。
符号の説明
100 情報検索装置
110 登録情報変換部
112 登録情報用変換アルゴリズム
120 コンテンツDB
130 操作部
140 キーワード変換部
142 キーワード用変換アルゴリズム
150 検索部
160 表示部
200 DVD

Claims (8)

  1. 登録情報の中からキーワードに対応するものを検索する情報検索装置であって、
    前記登録情報を第1の変換アルゴリズムに従って変換する第1の変換手段と、
    前記第1の変換手段による変換後の登録情報を格納する登録情報格納手段と、
    前記キーワードを前記第1の変換アルゴリズムとは異なる第2の変換アルゴリズムに従って変換する第2の変換手段と、
    前記第2の変換手段による変換後のキーワードに対応する前記変換後の登録情報を前記登録情報格納手段から抽出する抽出手段とを有することを特徴とする情報検索装置。
  2. 前記第1の変換アルゴリズムは、前記登録情報の属性に基づいて構成されるものであり、
    前記第2の変換アルゴリズムは、前記キーワードの属性に基づいて構成されるものであることを特徴とする請求項1に記載の情報検索装置。
  3. 前記第1の変換アルゴリズムは、前記登録情報の属性に基づいて所定の順序で組み合わされた複数の変換規則により構成され、
    前記第2の変換アルゴリズムは、前記キーワードの属性に基づいて所定の順序で組み合わされた複数の変換規則により構成されるものであることを特徴とする請求項2に記載の情報検索装置。
  4. 前記抽出手段は、完全一致又は前方一致の手法により前記変換後の登録情報を抽出することを特徴とする請求項1乃至3のいずれかに記載の情報検索装置。
  5. 登録情報の中からキーワードに対応するものを検索する情報検索方法であって、
    前記登録情報を第1の変換アルゴリズムに従って変換する第1の変換ステップと、
    前記第1の変換ステップにおける変換後の登録情報を登録情報格納手段に格納する格納ステップと、
    前記キーワードを第2の変換アルゴリズムに従って変換する第2の変換ステップと、
    前記第2の変換ステップにおける変換後のキーワードに対応する前記変換後の登録情報を前記登録情報格納手段から抽出する抽出ステップとを有することを特徴とする情報検索方法。
  6. 前記第1の変換アルゴリズムは、前記登録情報の属性に基づいて構成されるものであり、
    前記第2の変換アルゴリズムは、前記キーワードの属性に基づいて構成されるものであることを特徴とする請求項5に記載の情報検索方法。
  7. 前記第1の変換アルゴリズムは、前記登録情報の属性に基づいて所定の順序で組み合わされた複数の変換規則により構成され、
    前記第2の変換アルゴリズムは、前記キーワードの属性に基づいて所定の順序で組み合わされた複数の変換規則により構成されるものであることを特徴とする請求項6に記載の情報検索方法。
  8. 前記抽出ステップは、完全一致又は前方一致の手法により前記変換後の登録情報を抽出することを特徴とする請求項5乃至7のいずれかに記載の情報検索方法。
JP2004310273A 2004-10-26 2004-10-26 情報検索装置及び情報検索方法 Pending JP2006126883A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004310273A JP2006126883A (ja) 2004-10-26 2004-10-26 情報検索装置及び情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004310273A JP2006126883A (ja) 2004-10-26 2004-10-26 情報検索装置及び情報検索方法

Publications (1)

Publication Number Publication Date
JP2006126883A true JP2006126883A (ja) 2006-05-18

Family

ID=36721614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004310273A Pending JP2006126883A (ja) 2004-10-26 2004-10-26 情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JP2006126883A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009060817A1 (ja) * 2007-11-08 2009-05-14 Honda Motor Co., Ltd. 情報検索装置
JP2009116737A (ja) * 2007-11-08 2009-05-28 Honda Motor Co Ltd 情報検索装置
JP2009277068A (ja) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd 検索装置及び検索プログラム
JP2009277263A (ja) * 2008-05-12 2009-11-26 Pioneer Electronic Corp 音楽データ記録装置、音楽データ記録方法及び音楽データ記録プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073656A (ja) * 2000-09-01 2002-03-12 Ricoh Co Ltd 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP2002132809A (ja) * 2000-10-30 2002-05-10 Hitachi Ltd 文字列検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP2002207784A (ja) * 2001-01-10 2002-07-26 Misawa Homes Co Ltd ユニット式建物用cadシステム
JP2002269136A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム
JP2002278972A (ja) * 2001-03-19 2002-09-27 Seiko Epson Corp 検索結果の表示
JP2002288175A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp 文書の標準化
JP2003108375A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 対話型エキスパートシステム及びプログラム
JP2003140959A (ja) * 2001-11-05 2003-05-16 Landscape:Kk データベース管理システム
JP2003178087A (ja) * 2002-10-21 2003-06-27 Fuji Xerox Co Ltd 外国語電子辞書検索装置および方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073656A (ja) * 2000-09-01 2002-03-12 Ricoh Co Ltd 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP2002132809A (ja) * 2000-10-30 2002-05-10 Hitachi Ltd 文字列検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP2002207784A (ja) * 2001-01-10 2002-07-26 Misawa Homes Co Ltd ユニット式建物用cadシステム
JP2002269136A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム
JP2002278972A (ja) * 2001-03-19 2002-09-27 Seiko Epson Corp 検索結果の表示
JP2002288175A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp 文書の標準化
JP2003108375A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 対話型エキスパートシステム及びプログラム
JP2003140959A (ja) * 2001-11-05 2003-05-16 Landscape:Kk データベース管理システム
JP2003178087A (ja) * 2002-10-21 2003-06-27 Fuji Xerox Co Ltd 外国語電子辞書検索装置および方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009060817A1 (ja) * 2007-11-08 2009-05-14 Honda Motor Co., Ltd. 情報検索装置
JP2009116737A (ja) * 2007-11-08 2009-05-28 Honda Motor Co Ltd 情報検索装置
JP2009277263A (ja) * 2008-05-12 2009-11-26 Pioneer Electronic Corp 音楽データ記録装置、音楽データ記録方法及び音楽データ記録プログラム
JP2009277068A (ja) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd 検索装置及び検索プログラム

Similar Documents

Publication Publication Date Title
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
JP5426710B2 (ja) 検索支援装置、検索支援方法およびプログラム
CN105404677A (zh) 一种基于树形结构的检索方法
JP3544749B2 (ja) キーワード自動抽出装置
JP2006126883A (ja) 情報検索装置及び情報検索方法
CN105426490A (zh) 一种基于树形结构的索引方法
JP2011129006A (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
US20080319982A1 (en) Method and Apparatus for Manipulating Data Files
JP3253657B2 (ja) 文書検索方法
JP3531222B2 (ja) 類似文字列検索装置
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP2009093405A (ja) データ検索のためのシステム、方法及びコンピュータプログラム
JPH11203312A (ja) キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体
JP2003216605A (ja) 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体
JP2729342B2 (ja) 仮名漢字変換方法および装置
JP2006163995A (ja) 索引作成装置及び文書検索装置
JPH0721212A (ja) 文書処理装置
JP2004164133A (ja) 抽出装置、用例検索装置、ならびに、プログラム
CN105488114A (zh) 一种基于树形结构的排序方法
Naji Information retrieval of digitized medieval manuscripts
JP2002007411A (ja) 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP2002251394A (ja) 全文検索システム
JPH11143894A (ja) 日本語テキスト検索装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426