JP2009271867A - 情報検索装置、情報検索方法、及びコンピュータプログラム - Google Patents

情報検索装置、情報検索方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2009271867A
JP2009271867A JP2008124045A JP2008124045A JP2009271867A JP 2009271867 A JP2009271867 A JP 2009271867A JP 2008124045 A JP2008124045 A JP 2008124045A JP 2008124045 A JP2008124045 A JP 2008124045A JP 2009271867 A JP2009271867 A JP 2009271867A
Authority
JP
Japan
Prior art keywords
information
character string
search
service information
specifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008124045A
Other languages
English (en)
Inventor
Noriyuki Shirakami
則幸 白上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canvas Mapple Co Ltd
Original Assignee
Canvas Mapple Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canvas Mapple Co Ltd filed Critical Canvas Mapple Co Ltd
Priority to JP2008124045A priority Critical patent/JP2009271867A/ja
Publication of JP2009271867A publication Critical patent/JP2009271867A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Abstract

【課題】検索精度の低下を解消し、検索対象となる所定の情報群より、所望のサービス情報を効率良く円滑に探し出す検索を行う。
【解決手段】本装置10では、全てのサービス情報に含まれる文字情報を適宜分割して文字列を抽出し、この文字列ごとに、出現頻度を算出すると共に、集中度合を算出し、さらに、出現頻度と集中度合とを掛け合わせて重要語係数を算出する。次いで、この重要語係数から重要語として文字列を特定し、この文字列を含むサービス情報を特定すると共に、このサービス情報の記憶位置を特定する検索位置特定情報を特定し、文字列と検索位置特定情報とを互いに関連付けて記憶するサービス検索情報記憶部F2を作成する。そして、サービス情報を検索するための文字列の入力を受け付け、このサービス検索情報記憶部を参照して検索位置特定情報を特定し、サービス情報を特定・抽出し、抽出したサービス情報を出力する。
【選択図】図3

Description

本発明は、所望のサービス情報を探し出す検索技術に係り、詳しくは、検索対象となる所定の情報群より、指定(入力)された文字列に対応するサービス情報を、効率良く円滑に探し出すことのできる検索を行う情報検索装置、情報検索方法、及び情報検索用のコンピュータプログラムに関する。
従来、ガソリンスタントやコンビニエンスストア、ラーメン店、ホテル・旅館といった店舗や、有名な施設、行楽地といったPOI(Point Of Interest)を検索対象物とし、その属性となり得る名称や住所、紹介記事(テキスト文)等からPOIを探し出し、POIに関する情報をサービス情報として表示する情報検索装置が知られている。また、この情報検索装置機能を備え、電子地図と共にその情報を表示するカーナビゲーション装置(以下、「カーナビ」という。)も知られている。
このような情報検索装置では、検索データより所望のサービス情報を探し出す場合、サービス情報に含まれる文字情報を適宜分割して得られた文字列を検索用の索引(インデックス)としている。ところが、カーナビにおいて、得られた文字列を全て索引として用いると、データサイズが非常に大きなものとなってしまい、所望の情報を素早く探し出すことが困難となってしまう。また、単に文字情報を適宜分割して得られた文字列の中には、POIの特徴を示す索引とはなり得ない文字列も存在し、このような文字列が多く存在すると、やはり所望の情報を効率良く探し出すことができない検索精度が劣るものとなってしまう虞もある。
そこで、索引として用いられる文字列の登録量を低減し、所望のサービス情報を素早く探し出すことができるようにした手段が幾つか提案されている。
たとえば、キーワードを第1と第2の部分に分け、該第1の部分をキーとし、該第2の部分に該キーワードの残りの文字列と該キーワードを含む文書IDを対応付けたサブインデックスを格納することで、該第1の部分が同一の文字列である複数のキーワードを1つのレコードとして登録する第2形態のレコードとを格納する手段を備えた手段がある(特許文献1を参照)。
また、文字列毎に、少なくとも文書番号、及び位置情報を格納するインデックスデータベースと、文字列毎に、少なくとも登録文書出現頻度、検索文字頻度、及び統合頻度を格納する統合頻度管理テーブルと、登録文書を格納する文書データベースと、文書を文書データベースに登録する文書登録手段と、文書を検索する文書検索手段と、登録文書中の文字列毎の出願頻度を抽出し、統合頻度管理テーブルの登録文書出現頻度を更新する登録文書出現頻度算出手段と、検索キーワード中の文字列毎の出現頻度を抽出し、統合頻度管理テーブルの検索文字頻度、及び統合頻度を更新する検索文字頻度算出手段と、統合頻度に基づき文字列を前記インデックスデータベースに作成するインデックス作成手段と、を備えた手段がある(特許文献2を参照)。
特開2000−29879号公報 特開2003−208433号公報
しかしながら、上記特許文献1及び2に記載の技術は何れにおいても、索引とはなり得ない文字列の存在による検索精度の低下を解消し、所望のサービス情報を効率良く円滑に探し出すことを可能としたものではない。
また、Webを利用して情報検索サービスを行うWebアプリでは、データベース等を使用することにより、入力された文字列に応じて適切に検索を行うようにするものもある。しかしながら、カーナビのような限られた環境ではデータサイズの制約によりデータベースを導入することが困難である。
このように、検索精度の低下を解消し、検索対象となる所定の情報群より、所望のサービス情報を効率良く円滑に探し出すことを可能とした検索手段は、現在のところ提案されていない。
本発明は、上記事情に鑑みて成されたものであり、検索精度の低下を解消し、検索対象となる所定の情報群より、所望のサービス情報を効率良く円滑に探し出す検索を行うことが可能な仕組みを提供することを目的とする。
本発明の情報検索装置は、検索対象となる所定の情報群より、指定された文字列に対応するサービス情報を効率良く円滑に探し出す検索を行う情報検索装置であって、前記サービス情報の記憶位置を特定する検索位置特定情報と、前記サービス情報と、を互いに関連付けて記憶する第1記憶手段と、前記所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する検索用文字列抽出手段と、前記検索用文字列抽出手段で抽出した文字列が1つのサービス情報の中で出現する頻度(以下、「出現頻度」という。)を算出する出現頻度算出手段と、前記検索用文字列抽出手段で抽出した文字列が全てのサービス情報の中において一部のサービス情報に集中している度合い(以下、「集中度合」という。)を算出する集中度合算出手段と、前記出現頻度算出手段で算出した出現頻度と、前記集中度合算出手段で算出した集中度合とを掛け合わせて重要語係数を算出し、この重要語係数が所定の値以上の文字列を重要語として特定する重要語特定手段と、前記重要語特定手段で特定した文字列を含む各サービス情報をそれぞれ特定すると共に、このサービス情報の前記第1記憶手段での記憶位置を特定する検索位置特定情報を特定し、前記重要語特定手段で特定した文字列と、特定した前記検索位置特定情報と、を互いに関連付けて記憶する第2記憶手段を作成する索引情報作成手段と、前記サービス情報を検索するための文字列の入力を受け付ける文字列情報受付手段と、前記文字列情報受付手段で受け付けた文字列に基づき、前記索引情報作成手段で作成した前記第2記憶手段を参照して検索位置特定情報を特定する検索位置情報特定手段と、前記検索位置情報特定手段で特定した検索位置特定情報に基づき、前記第1記憶手段を参照してサービス情報を特定し、抽出するサービス情報検索手段と、前記サービス情報検索手段で抽出したサービス情報を出力するサービス情報出力手段と、を備えることを特徴とする。
また、本発明の情報検索装置は、前記索引情報作成手段が、前記サービス情報と前記検索位置特定情報の特定後、このサービス情報内において前記文字列が存在する属性区分を特定し、この属性区分ごとに前記文字列を分類し、並べ替えるものとしても良い。
また、本発明の情報検索方法は、サービス情報の記憶位置を特定する検索位置特定情報と、前記サービス情報と、を互いに関連付けて記憶する第1記憶手段、を備え、情報検索装置において、検索対象となる所定の情報群より、指定された文字列に対応するサービス情報を効率良く円滑に探し出す検索を行う情報検索方法であって、前記情報検索装置が、前記所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する第1ステップと、前記情報検索装置において、前記第1ステップで抽出した文字列が1つのサービス情報の中で出現する頻度(以下、「出現頻度」という。)を算出する第2ステップと、前記情報検索装置において、前記第1ステップで抽出した文字列が全てのサービス情報の中において一部のサービス情報に集中している度合い(以下、「集中度合」という。)を算出する第3ステップと、前記情報検索装置において、前記第2ステップで算出した出現頻度と、前記第3ステップで算出した集中度合とを掛け合わせて重要語係数を算出し、この重要語係数が所定の値以上の文字列を重要語として特定する第4ステップと、前記情報検索装置において、第4ステップで特定した文字列を含む各サービス情報をそれぞれ特定すると共に、このサービス情報の前記第1記憶手段での記憶位置を特定する検索位置特定情報を特定し、前記重要語特定手段で特定した文字列と、特定した前記検索位置特定情報と、を互いに関連付けて記憶する第2記憶手段を作成する第5ステップと、前記情報検索装置において、前記サービス情報を検索するための文字列の入力を受け付ける第6ステップと、前記情報検索装置において、前記第6ステップで受け付けた文字列に基づき、前記第5ステップで作成した前記第2記憶手段を参照して検索位置特定情報を特定する第7ステップと、前記情報検索装置において、前記第7ステップで特定した検索位置特定情報に基づき、前記第1記憶手段を参照してサービス情報を特定し、抽出する第8ステップと、前記第8ステップで抽出したサービス情報を前記情報検索装置より出力する第9ステップと、を含むことを特徴とする。
また、本発明の情報検索方法は、前記情報検索装置において、前記第5ステップが、前記サービス情報と前記検索位置特定情報の特定後、このサービス情報内において前記文字列が存在する属性区分を特定し、この属性区分ごとに前記文字列を分類し、並べ替えるものとしても良い。
また、本発明のコンピュータプログラムは、サービス情報の記憶位置を特定する検索位置特定情報と、前記サービス情報と、を互いに関連付けて記憶する第1記憶手段、を備え、検索対象となる所定の情報群より、指定された文字列に対応するサービス情報を効率良く円滑に探し出す検索を行うことを実行させるためにコンピュータを、前記所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する手段、抽出した前記文字列が1つのサービス情報の中で出現する頻度(以下、「出現頻度」という。)を算出する手段、抽出した前記文字列が全てのサービス情報の中において一部のサービス情報に集中している度合い(以下、「集中度合」という。)を算出する手段、算出した前記出現頻度と前記集中度合とを掛け合わせて重要語係数を算出し、この重要語係数が所定の値(閾値)以上の文字列を重要語として特定する手段、特定した前記文字列を含む各サービス情報をそれぞれ特定すると共に、このサービス情報の前記第1記憶手段での記憶位置を特定する検索位置特定情報を特定し、特定した前記文字列と、特定した前記検索位置特定情報と、を互いに関連付けて記憶する第2記憶手段を作成する手段、前記サービス情報を検索するための文字列の入力を受け付ける手段、受け付けた前記文字列に基づき、作成した前記第2記憶手段を参照して検索位置特定情報を特定する手段、特定した前記検索位置特定情報に基づき、前記第1記憶手段を参照してサービス情報を特定し、抽出する手段、抽出した前記サービス情報を出力する手段、として機能させることを特徴とする。
また、本発明のコンピュータプログラムは、前記コンピュータを、前記サービス情報と前記検索位置特定情報の特定後、このサービス情報内において前記文字列が存在する属性区分を特定し、この属性区分ごとに前記文字列を分類し、並べ替える手段、としてさらに機能させるものとしても良い。
本発明の情報検索装置は、全てのサービス情報に含まれる文字情報を適宜分割して文字列を抽出し、この文字列ごとに、出現頻度を算出すると共に、集中度合を算出し、さらに、出現頻度と集中度合とを掛け合わせて重要語係数を算出する。次いで、この重要語係数から重要語として文字列を特定し、この文字列を含むサービス情報を特定すると共に、このサービス情報の記憶位置を特定する検索位置特定情報を特定し、文字列と検索位置特定情報とを互いに関連付けて記憶する索引手段を作成する。ゆえに、サービス情報を検索するための文字列の入力を受け付けると、この索引手段を参照して検索位置特定情報を特定し、サービス情報を特定・抽出し、抽出したサービス情報を出力することができる。
したがって、検索精度の低下を解消し、検索対象となる所定の情報群より、所望のサービス情報を効率良く円滑に探し出す検索を行うことが可能となる。
以下、図面を参照しながら、本発明に係る情報検索装置、情報検索方法、情報検索用のコンピュータプログラムの一例について説明する。
本発明に係る情報検索装置(以下、「本装置」という)は、検索対象となる所定の情報群より、指定された文字列に対応するサービス情報を素早く正確に探し出す検索を行う装置である。
図1は、本装置10を用いた情報検索システム(以下、「本システム」という)の一例を示す概略図である。
本システムは、図1に示すように、本装置10と、表示部20と、入力部30と、によって構成することができる。
表示部20は、本装置10に対して検索を指示する文字列や、本装置10による検索結果を出力・表示するディスプレイ(モニタ)である。
入力部30は、本装置10に対して各種指示を行うコマンドの入力用ボタンである。
また、図2は、本システムを用いることにより実現されるナビゲーション装置1を示す概略図である。
図2において、表示部20のスクリーン上に、入力部30が積層されたものとなっている。
入力部30を構成する入力用ボタンは、図2に示すように、文字入力ボタン31、片仮名入力又は変換するための「カタカナ」ボタン32、アルファベット入力又は変換するための「ABC」ボタン33、小文字入力に切り替えたり、濁点「゛」や半濁点「゜」を入力したりするための「小゛゜」ボタン34、数字を入力するための「123」ボタン35、入力された仮名文字を漢字へ変換する「変換」ボタン36、入力文字列の確定や、受け付けた文字情報により構成された文字列に基づく検索実行を指示する「OK」ボタン37等より構成されている。
文字入力ボタン31は、該当情報を検索するための文字の入力情報を発信する処理を行う。文字入力ボタン31としては、たとえば平仮名のキーボードを模したGUI(Graphical User Interface)画面を表示部20に表示し、ユーザがGUI画面上で平仮名を1文字ずつカーソルあるいは指で選択していくことで、所望の文字列の入力を行なうものとすることができる。
図2において、文字入力ボタン31は、あ行、か行、さ行・・・わ行の各種文字ボタン、句点「。」を入力するためのボタン、読点「、」を入力するためのボタン、「−」を入力するためのボタンにより構成されている。
また、表示部20には、文字入力ボタン31より入力された文字情報を出力・表示する表示欄21が表示されたものとなっている。
図2において、表示欄21には、「新井商店 うどん」といった検索のための文字列が表示されている。
図3は、本装置10の一例を示すブロック構成図である。
本装置10は、図3に示すように、サービス情報記憶部F1と、サービス索引情報記憶部F2と、検索用文字列抽出部11と、出現頻度算出部12と、集中度合算出部13と、重要語特定部14と、索引情報作成部15と、文字列情報受付部16と、検索位置情報特定部17と、サービス情報検索部18と、サービス情報出力部19と、制御部Cと、を少なくとも有している。なお、図中の符号Bは、本装置10において制御信号、データ等を伝送するバスである。
本装置10は、情報処理装置であればよく、たとえば、モバイルタイプのパーソナルコンピュータをはじめ、PND(Portable Navigation Device)や専用デバイス、携帯電話機などで実現される。また、本装置10は、図示しないが、CPU(中央処理装置)、プログラム記憶部、補助記憶装置、OS(オペレーティング・システム)、等を有する。
CPUは、プログラム記憶部に記憶されたコンピュータプログラムに従い、本装置10の各構成要素を統制制御し、プログラム処理を実行する手段である。プログラム記憶部は、ROM(Read Only Memory)やRAM(Random Access Memory)等で構成され、本装置10が使用する各種コンピュータプログラムを記憶している手段である。
サービス情報記憶部F1は、サービス情報の記憶位置を特定する検索位置特定情報と、前記サービス情報と、を互いに関連付けて記憶する手段である。サービス情報は、ガソリンスタントやコンビニエンスストア、ラーメン店、ホテル・旅館といった店舗や、有名な施設、行楽地といったPOI(Point Of Interest)に関する情報をいう。また、このサービス情報は、POIの名称や住所、ジャンル、紹介文といった属性区分ごとに分けられている。なお、ジャンルとは、ラーメンや和食、喫茶、ショーパブ、カラオケ、ディスコ、ゴルフ練習場、旅館、ビジネスホテル、水族館、ペット・ペット用品、工芸品・民芸品、といった業種等によってPOIを分類できる区分をいう。また、検索位置特定情報は、いわゆるオフセット情報である。
したがって、本装置10では、この検索位置特定情報に基づきサービス情報を特定する検索を行うことができる。
図4は、サービス情報記憶部F1に記憶されている情報の例を示す図である。
たとえば、図4に示すサービス情報ファイルでは、検索位置特定情報と、POIの名称や住所、電話番号、ジャンル、紹介文(テキスト記事)、といった属性情報と、を関連付けてファイルを構成することを示している。なお、ここでの紹介文には、web上の口コミ情報等を含めることもできる。
したがって、本装置10では、このサービス情報記憶部F1により、検索位置特定情報から検索対象物のサービス情報が分かるものとなる。
サービス索引情報記憶部F2は、重要語特定部14において重要語として特定した文字列と、索引情報作成部15においてこの文字列を含む各サービス情報のサービス情報記憶部F1での記憶位置を特定する検索位置特定情報と、を互いに関連付けて記憶する手段である。
図5は、サービス索引情報記憶部F1に記憶されている情報の例を示す図である。
たとえば、図5に示すサービス索引情報ファイルでは、文字列情報と検索位置特定情報(オフセット情報)とを関連付けてファイルを構成することを示している。
したがって、本装置10では、このサービス索引情報記憶部F1により、サービス情報を検索するために入力した文字列から、サービス情報の記憶位置を特定する検索位置特定情報が分かるものとなる。
検索用文字列抽出部11は、所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する処理を行う。すなわち、この文字列は、サービス情報のPOIの名称や住所、ジャンル、紹介文といった属性区分における特徴を表した単語である。
検索用文字列抽出部11は、抽出した文字列情報を出現頻度算出部12及び集中度合算出部13へ送信する。
また、検索用文字列抽出部11においては、たとえばサービス情報を形態素解析して得られた形態素を文字列として抽出するものとしても良い。形態素解析とは、コンピュータ等の計算機を用いた自然言語処理の基礎技術のひとつであり、自然言語で書かれた文を、言語で意味を持つ最小単位、すなわち形態素の列に分割し、それぞれの品詞を判別する作業をいう。
ここで、形態素解析して得られた形態素を文字列とする一例は、図7に示すことができる。図7は、検索対象物となるPOIの紹介文を形態素解析した場合の文字列を示す模式図である。
また、図7において、「新井商店」をPOIとする紹介文として「江戸の町並みが残る引田の町で目をひく、ベンガラ色の蔵が醤油醸造元の新井商店。土・日曜、祝日はうどん屋を営業。うどん、サードメニューともに無添加を守る。」があり、これを形態素解析すると「江戸」「町並み」「引田」「ベンガラ色」「醤油醸造元」「新井商店」「祝日」「うどん屋」「営業」「うどん」「サイドメニュー」「無添加」といった複数の形態素に分割され、これらの形態素をそれぞれ検索用文字列抽出部11において抽出する検索用の文字列として用いることが示されている。なお、これらの文字列からは何れも、「新井商店」のサービス情報を検索するための検索位置特定情報を特定することができるものとなっている。
また、図示しないが、POIの名称として「東京ファミリーランド」があり、これを形態素解析した場合は、「東京」「ファミリー」「ランド」といった3つの形態素に分割され、これらの形態素をそれぞれ検索用文字列抽出部11において抽出する検索用の文字列として用いるものとなる。そして、これらの文字列からは何れも、「東京ファミリーランド」のサービス情報を検索するための検索位置特定情報を特定することができることになる。
また、POIの名称として「アイダホフライドポテト新宿東口店」があり、これを形態素解析した場合は、「アイダホ」「フライド」「ポテト」「新宿」「東口店」といった5つの形態素に分割され、これらの形態素をそれぞれ検索用文字列抽出部11において抽出する検索用の文字列として用いるものとなる。そして、これらの文字列からは何れも、「アイダホフライドポテト新宿東口店」のサービス情報を検索するための検索位置特定情報を特定することができることになる。
出現頻度算出部12は、検索用文字列抽出部11で抽出した文字列が1つのサービス情報の中で出現する頻度(以下、「出現頻度」という。)を算出する処理を行う。すなわち、1つのサービス情報の中で頻出する単語を重要とみなして、その頻出度の算出を行う。この出現頻度は、たとえばTF法により求めることができる。
出現頻度算出部12は、算出した出現頻度情報を重要語特定部14へ送信する。
集中度合算出部13は、検索用文字列抽出部11で抽出した文字列が全てのサービス情報の中において一部のサービス情報に集中している度合い(以下、「集中度合」という。)を算出する処理を行う。すなわち、全てのサービス情報の中において希少性のある単語を重要とみなして、その希少度の算出を行う。この集中度合は、たとえばIDF法により求めることができる。
集中度合算出部13は、算出した集中度合情報を重要語特定部14へ送信する。
重要語特定部14は、出現頻度算出部12で算出した出現頻度と、集中度合算出部13で算出した集中度合とを掛け合わせて重要語係数を算出し、この重要語係数が所定の値以上の文字列を重要語として特定する処理を行う。すなわち、出現頻度と集中度合とを掛け合わせることで、サービス情報において重要な文字列が何であるかを割り出すことができる。したがって、上述したTF法とIDF法とを掛け合わせたTF−IDF法により、サービス情報を特徴づける文字列のランク付けを行う重要語係数を求め、この重要語係数が所定の値以上の文字列を重要語として特定することができる。また、この所定の値とは、いわゆる閾値をいう。
重要語特定部14は、特定した文字列情報を索引情報作成部15へ送信する。
索引情報作成部15は、重要語特定部14で特定した文字列を含む各サービス情報をそれぞれ特定すると共に、このサービス情報のサービス情報記憶部F1での記憶位置を特定する検索位置特定情報を特定し、重要語特定部14で特定した文字列と、この検索位置特定情報と、を互いに関連付けて記憶するサービス索引情報記憶部F2を作成する処理を行う。
また、索引情報作成部15は、サービス情報と検索位置特定情報の特定後、このサービス情報内において前記文字列が存在する属性区分を特定し、この属性区分ごとに前記文字列を分類し、並べ替えるようにすると望ましい。ここで、属性区分とは、上述したとおりサービス情報のPOIの名称や住所、ジャンル、紹介文等をいう。したがって、名称や住所、ジャンル、紹介文といった属性区分ごとに並び替えられた文字列と、検索位置特定情報と、が互いに関連付けられてサービス索引情報記憶部F2に記憶するものとなる。
さらに、索引情報作成部15においては、検索において探し出すことができる割合、いわゆるヒット率を向上させるために、たとえばPOIの名称からは全文字、POIの紹介文等のテキストからは重要な語と判定できる文字だけを、それぞれ索引用の文字列として採用すると望ましい。
文字列情報受付部16は、サービス情報を検索するための文字列の入力を受け付ける処理を行う。なお、文字列情報受付部16では、片仮名、アルファベット、数字についての揺らぎを排除するため、事前に、半角文字を全角文字に変換、小文字を大文字に変換する処理を行なった文字列を取得するようにすると良い。
文字列情報受付部16は、受け付けた文字列情報を検索位置情報特定部17へ送信する。
検索位置情報特定部17は、文字列情報受付部16で受け付けた文字列に基づき、索引情報作成部15で作成したサービス索引情報記憶部F2を参照して検索位置特定情報を特定する処理を行う。
検索位置情報特定部17は、特定した検索位置特定情報をサービス情報検索部18へ送信する。
サービス情報検索部18は、検索位置情報特定部17で特定した検索位置特定情報に基づき、サービス情報記憶部F1を参照してサービス情報を特定し、抽出する処理を行う。
サービス情報検索部18は、抽出したサービス情報をサービス情報出力部19へ送信する。
サービス情報出力部19は、サービス情報検索部18で抽出したサービス情報を表示部30へ出力する処理を行う。
制御部Cは、CPU、ROM、RAM等を具備し、プログラム記憶部に記憶されたプログラムに従い、本装置10の各構成要素を統制制御し、プログラム処理を実行する。
<第1の実施の形態>
次に、上述した本装置10により実行される情報検索方法を実施する本装置10の動作の一例を、図6を参照しながら説明する。図6は、本装置10での情報検索処理の一例を示すフローチャートである。
まず、検索用文字列抽出部11が、所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する(S10)。
次いで、出現頻度算出部12が、検索用文字列抽出部11で抽出した文字列が1つのサービス情報の中で出現する頻度を示す出現頻度を算出する(S20)。
また、集中度合算出部13が、検索用文字列抽出部11で抽出した文字列が全てのサービス情報の中において一部のサービス情報に集中している度合いを示す集中度合を算出する(S30)。
引き続き、重要語特定部14が、出現頻度算出部12で算出した出現頻度と、集中度合算出部13で算出した集中度合とを掛け合わせて重要語係数を算出する(S40)。
さらに、重要語特定部14が、この重要語係数が所定の値、すなわち予め設定した閾値以上であるか否か判定する(S50)。
その結果、重要語特定部14が、重要語係数は閾値以上であると判定したとき(Y)、重要語特定部14が、この文字列を重要語として特定する(S60)。
一方、重要語特定部14が、重要語係数は閾値以上でない、すなわち閾値以下であると判定したとき(N)、そのまま本装置10での一連の動作が終了する。
また、重要語特定部14が、文字列を重要語として特定すると、引き続き、索引情報作成部15が、重要語として特定した文字列を含む各サービス情報をそれぞれ特定する(S70)。
次いで、索引情報作成部15が、このサービス情報のサービス情報記憶部F1での記憶位置を特定する検索位置特定情報を特定する(S80)。
さらに、索引情報作成部15が、重要語特定部14で特定した文字列と、特定したこの検索位置特定情報と、を互いに関連付けて記憶するサービス索引情報記憶部F2を作成する(S90)。
ここで、出現頻度算出部12で算出した出現頻度と、集中度合算出部13で算出した集中度合と、これらを掛け合わせて重要語特定部14で算出した重要語係数を示す一例は、図8に示すことができる。図8は、重要語係数の算出方法を説明する模式図である。
図8において、複数の検索用の文字列と、TF法により算出した出願頻度と、IDFにより算出した集中度合と、出願頻度と集中度合とを掛け合わせて算出した重要語係数と、がそれぞれの文字列に対して示されている。
具体的には、検索用の文字列「江戸」において、出願頻度が「0.07333」、集中度合が「7.38856」、重要語係数が「0.54180」となっている。また、同様に文字列「町並み」において、出願頻度が「0.07333」、集中度合が「6.50938」、重要語係数が「0.47733」となっている。同様に文字列「引田」において、出願頻度が「0.07333」、集中度合が「12.00514」、重要語係数が「0.88033」となっている。同様に文字列「ベンガラ色」において、出願頻度が「0.07333」、集中度合が「12.00514」、重要語係数が「0.88033」となっている。同様に文字列「醤油醸造元」において、出願頻度が「0.07333」、集中度合が「10.90653」、重要語係数が「0.79977」となっている。同様に文字列「新井商店」において、出願頻度が「0.07333」、集中度合が「10.90653」、重要語係数が「0.79977」となっている。同様に文字列「祝日」において、出願頻度が「0.07333」、集中度合が「6.36129」、重要語係数が「0.46647」となっている。同様に文字列「うどん屋」において、出願頻度が「0.07333」、集中度合が「8.91388」、重要語係数が「0.65365」となっている。同様に文字列「営業」において、出願頻度が「0.07333」、集中度合が「6.36129」、重要語係数が「0.46647」となっている。同様に文字列「うどん」において、出願頻度が「0.14666」、集中度合が「6.08140」、重要語係数が「0.89189」となっている。同様に文字列「サイドメニュー」において、出願頻度が「0.07333」、集中度合が「12.00514」、重要語係数が「0.88033」となっている。さらに、同様に文字列「無添加」において、出願頻度が「0.07333」、集中度合が「7.20859」、重要語係数が「0.52838」となっている。
ここで、この重要語係数が所定の値、たとえば閾値0.5以上の文字列を重要語として特定すると、重要語係数が「0.47733」である文字列「町並み」と、重要語係数が「0.46647」である文字列「祝日」及び「営業」が、検索用の索引文字列から除外される。そして、文字列「江戸」「引田」「ベンガラ色」「醤油醸造元」「新井商店」「うどん屋」「うどん」「サイドメニュー」「無添加」が検索用の索引文字列と採用され、これらの文字列と、各文字列を含むそれぞれのサービス情報のサービス情報記憶部F1での記憶位置を特定する検索位置特定情報と、を互いに関連付けて記憶するサービス索引情報記憶部F2を作成する。
また、文字列情報受付部16が、サービス情報を検索するための文字列の入力を受け付ける(S100)。
次いで、検索位置情報特定部17が、文字列情報受付部16で受け付けた文字列に基づき、索引情報作成部15において作成したサービス索引情報記憶部F2を参照して検索位置特定情報を特定する検索を行なう(S110)。
引き続き、サービス情報検索部18が、検索位置情報特定部17で特定した検索位置特定情報に基づき、サービス情報記憶部F1を参照してサービス情報を特定し、抽出する(S120)。
そして、サービス情報出力部19が、サービス情報検索部18で抽出したサービス情報を表示部30へ出力する(S130)。
これにより、本装置10での一連の動作が終了する。
なお、これら一連の処理は、制御部Cでの統制制御により実行される。
以上のように本実施の形態では、事前に、サービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出し、重要度の高い文字列のみをサービス情報を検索するための文字列として採用した索引を作成し、この索引を用いてサービス情報の検索を行なう。これにより、サービス情報に含まれていても重要度の低い文字列を排除することで検索精度の低下を解消し、検索対象となる所定の情報群より、ユーザが取得することを望む所望のサービス情報を効率良く円滑に探し出す検索を行うことができる。
したがって、サイズや操作性に制約が多いカーナビ等においてデータサイズが大きくなってしまうことがなく、ユーザインタフェースの向上を図ることが可能となると共に、ユーザの満足度を高めることができる。しかも、所望のサービス情報を効率良く円滑に探し出すことができるので、表示部が小さくても検索結果を効果的に表示することができる。
<第2の実施の形態>
また、本発明では、サービス情報に含まれる文字情報を対象とせず、サービス情報における属性区分ごとに効率良く検索を行なうものとすることもできる。すなわち、上述した第1の実施の形態とは、属性区分ごとに文字列を分類し、並べ替える機能を有する点で異なる。
なお、以下に述べる他の実施の形態では、上述した第1の実施の形態と異なる部分を中心に説明する。したがって、第1の実施の形態と同様の構成部分は同じ符号を付してその説明は省略し、特に説明しない限り同じであるものとする。
本実施の形態において、索引情報作成部15は、サービス情報と検索位置特定情報の特定後、このサービス情報内において文字列が存在する属性区分を特定し、この属性区分ごとに文字列を分類し、並べ替える機能を備える。
次に、上述した本装置10により実行される情報検索方法を実施する本装置10の動作の他の一例を、図9を参照しながら説明する。図9は、本装置10での情報検索処理の他の一例を示すフローチャートである。
まず、検索用文字列抽出部11が検索用の文字列を抽出し、出現頻度算出部12が出現頻度を算出し、集中度合算出部13が集中度合を算出し、重要語特定部14が出現頻度と集中度合とを掛け合わせて重要語係数を算出する。次いで、重要語特定部14がこの重要語係数は所定の値以上であるか否か判定し、重要語係数が閾値以上であると判定したとき、重要語特定部14がこの文字列を重要語として特定する。さらに、重要語特定部14が重要語として特定した文字列を含む各サービス情報をそれぞれ特定し、索引情報作成部15がサービス情報のサービス情報記憶部F1での記憶位置を特定する検索位置特定情報を特定する(S80)処理までは、上述した第1の実施の形態と同様である。
次いで、索引情報作成部15が、サービス情報と検索位置特定情報の特定後、このサービス情報内において文字列が存在する属性区分を特定する(S81)。
引き続き、索引情報作成部15が、特定した属性区分ごとに文字列を分類し、並べ替える(S82)。
そして、索引情報作成部15が、この並べ替えにしたがって、重要語特定部14で特定した文字列と、先に特定したこの検索位置特定情報と、を互いに関連付けて記憶するサービス索引情報記憶部F2を作成する(S90)。
なお、これ以降の処理は、上述した第1の実施の形態と同様である。
以上のように本実施の形態では、サービス情報における属性区分ごとに効率良く検索を行なうことができ、ユーザが取得することを望む所望のサービス情報を、属性区分ごとに分けてより素早く円滑に探し出す検索を行うことができる。
また、本装置10は、ナビゲーション機能を兼ね備えた装置としても良い。この場合、本装置10は、図示しないが、地図情報を記憶する手段や、この地図上の領域若しくはPOIを特定する位置情報と、POIのサービス情報とを互いに関連付けて記憶する手段をさらに備える。また、地図情報は、CD−ROMやDVD−ROM等の記憶媒体に格納されたものすることができる。
これにより、POI情報に基づき位置情報を特定し、さらに、特定した位置情報に基づき該当する道路地図情報を特定、抽出し、この道路地図上にサービス情報が表示されるように、サービス情報と道路地図情報とを重ね合わせて出力することができる。
本発明は、所定の情報群より、ユーザが求めているサービス情報の検索が可能なデバイスを扱う業種において産業上有用であり、検索によって電子地図上に所望のPOI情報の表示を可能とするカーナビゲーション装置等の電化製品市場においても有用である。
本発明に係る情報検索装置を用いた情報検索システムの一例を示す概略図である。 本発明に係る情報検索装置を情報検索システムに用いることにより実現されるナビゲーション装置を示す概略図である。 本発明に係る情報検索装置の実施形態の一例を示すブロック構成図である。 本発明に係る情報検索装置が備える記憶部に記憶されているサービス情報ファイルの構造を示す一例である。 本発明に係る情報検索装置が備える記憶部に記憶されているサービス索引情報ファイルの構造を示す一例である。 本発明に係る情報検索装置での情報検索処理の一例を示すフローチャートである。 本発明に係る情報検索装置において、検索対象物となるPOIの紹介文を形態素解析した場合の文字列を示す模式図である。 本発明に係る情報検索装置において、重要語係数の算出方法を説明する模式図である。 本発明に係る情報検索装置での情報検索処理の他の一例を示すフローチャートである。
符号の説明
F1 サービス情報記憶部(第1記憶部)、F2 サービス索引情報記憶部(第2記憶部)、10 情報検索装置、11 検索用文字列抽出部、12 出現頻度算出部、13 集中度合算出部、14 重要語特定部、15 索引情報作成部、16 文字列情報受付部、17 検索位置情報特定部、18 サービス情報検索部、19 サービス情報出力部、20 表示部、30 入力部。

Claims (6)

  1. 検索対象となる所定の情報群より、指定された文字列に対応するサービス情報を効率良く円滑に探し出す検索を行う情報検索装置であって、
    前記サービス情報の記憶位置を特定する検索位置特定情報と、前記サービス情報と、を互いに関連付けて記憶する第1記憶手段と、
    前記所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する検索用文字列抽出手段と、
    前記検索用文字列抽出手段で抽出した文字列が1つのサービス情報の中で出現する頻度(以下、「出現頻度」という。)を算出する出現頻度算出手段と、
    前記検索用文字列抽出手段で抽出した文字列が全てのサービス情報の中において一部のサービス情報に集中している度合い(以下、「集中度合」という。)を算出する集中度合算出手段と、
    前記出現頻度算出手段で算出した出現頻度と、前記集中度合算出手段で算出した集中度合とを掛け合わせて重要語係数を算出し、この重要語係数が所定の値以上の文字列を重要語として特定する重要語特定手段と、
    前記重要語特定手段で特定した文字列を含む各サービス情報をそれぞれ特定すると共に、このサービス情報の前記第1記憶手段での記憶位置を特定する検索位置特定情報を特定し、前記重要語特定手段で特定した文字列と、特定した前記検索位置特定情報と、を互いに関連付けて記憶する第2記憶手段を作成する索引情報作成手段と、
    前記サービス情報を検索するための文字列の入力を受け付ける文字列情報受付手段と、
    前記文字列情報受付手段で受け付けた文字列に基づき、前記索引情報作成手段で作成した前記第2記憶手段を参照して検索位置特定情報を特定する検索位置情報特定手段と、
    前記検索位置情報特定手段で特定した検索位置特定情報に基づき、前記第1記憶手段を参照してサービス情報を特定し、抽出するサービス情報検索手段と、
    前記サービス情報検索手段で抽出したサービス情報を出力するサービス情報出力手段と、
    を備えることを特徴とする情報検索装置。
  2. 前記索引情報作成手段は、前記サービス情報と前記検索位置特定情報の特定後、このサービス情報内において前記文字列が存在する属性区分を特定し、この属性区分ごとに前記文字列を分類し、並べ替える、
    ことを特徴とする請求項1に記載の情報検索装置。
  3. サービス情報の記憶位置を特定する検索位置特定情報と、前記サービス情報と、を互いに関連付けて記憶する第1記憶手段、を備え、情報検索装置において、検索対象となる所定の情報群より、指定された文字列に対応するサービス情報を効率良く円滑に探し出す検索を行う情報検索方法であって、
    前記情報検索装置が、前記所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する第1ステップと、
    前記情報検索装置において、前記第1ステップで抽出した文字列が1つのサービス情報の中で出現する頻度(以下、「出現頻度」という。)を算出する第2ステップと、
    前記情報検索装置において、前記第1ステップで抽出した文字列が全てのサービス情報の中において一部のサービス情報に集中している度合い(以下、「集中度合」という。)を算出する第3ステップと、
    前記情報検索装置において、前記第2ステップで算出した出現頻度と、前記第3ステップで算出した集中度合とを掛け合わせて重要語係数を算出し、この重要語係数が所定の値以上の文字列を重要語として特定する第4ステップと、
    前記情報検索装置において、第4ステップで特定した文字列を含む各サービス情報をそれぞれ特定すると共に、このサービス情報の前記第1記憶手段での記憶位置を特定する検索位置特定情報を特定し、前記重要語特定手段で特定した文字列と、特定した前記検索位置特定情報と、を互いに関連付けて記憶する第2記憶手段を作成する第5ステップと、
    前記情報検索装置において、前記サービス情報を検索するための文字列の入力を受け付ける第6ステップと、
    前記情報検索装置において、前記第6ステップで受け付けた文字列に基づき、前記第5ステップで作成した前記第2記憶手段を参照して検索位置特定情報を特定する第7ステップと、
    前記情報検索装置において、前記第7ステップで特定した検索位置特定情報に基づき、前記第1記憶手段を参照してサービス情報を特定し、抽出する第8ステップと、
    前記第8ステップで抽出したサービス情報を前記情報検索装置より出力する第9ステップと、
    を含むことを特徴とする情報検索方法。
  4. 前記第5ステップは、前記サービス情報と前記検索位置特定情報の特定後、このサービス情報内において前記文字列が存在する属性区分を特定し、この属性区分ごとに前記文字列を分類し、並べ替える、
    ことを特徴とする請求項3に記載の情報検索方法。
  5. サービス情報の記憶位置を特定する検索位置特定情報と、前記サービス情報と、を互いに関連付けて記憶する第1記憶手段、を備え、検索対象となる所定の情報群より、指定された文字列に対応するサービス情報を効率良く円滑に探し出す検索を行うことを実行させるためにコンピュータを、
    前記所定の情報群を構成する全てのサービス情報に含まれる文字情報を適宜分割して検索用の文字列を抽出する手段、
    抽出した前記文字列が1つのサービス情報の中で出現する頻度(以下、「出現頻度」という。)を算出する手段、
    抽出した前記文字列が全てのサービス情報の中において一部のサービス情報に集中している度合い(以下、「集中度合」という。)を算出する手段、
    算出した前記出現頻度と前記集中度合とを掛け合わせて重要語係数を算出し、この重要語係数が所定の値以上の文字列を重要語として特定する手段、
    特定した前記文字列を含む各サービス情報をそれぞれ特定すると共に、このサービス情報の前記第1記憶手段での記憶位置を特定する検索位置特定情報を特定し、特定した前記文字列と、特定した前記検索位置特定情報と、を互いに関連付けて記憶する第2記憶手段を作成する手段、
    前記サービス情報を検索するための文字列の入力を受け付ける手段、
    受け付けた前記文字列に基づき、作成した前記第2記憶手段を参照して検索位置特定情報を特定する手段、
    特定した前記検索位置特定情報に基づき、前記第1記憶手段を参照してサービス情報を特定し、抽出する手段、
    抽出した前記サービス情報を出力する手段、
    として機能させることを特徴とするコンピュータプログラム。
  6. 前記コンピュータを、
    前記サービス情報と前記検索位置特定情報の特定後、このサービス情報内において前記文字列が存在する属性区分を特定し、この属性区分ごとに前記文字列を分類し、並べ替える手段、
    としてさらに機能させることを特徴とする請求項5に記載のコンピュータプログラム。
JP2008124045A 2008-05-09 2008-05-09 情報検索装置、情報検索方法、及びコンピュータプログラム Pending JP2009271867A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008124045A JP2009271867A (ja) 2008-05-09 2008-05-09 情報検索装置、情報検索方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008124045A JP2009271867A (ja) 2008-05-09 2008-05-09 情報検索装置、情報検索方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2009271867A true JP2009271867A (ja) 2009-11-19

Family

ID=41438332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008124045A Pending JP2009271867A (ja) 2008-05-09 2008-05-09 情報検索装置、情報検索方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2009271867A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013046413A1 (ja) 2011-09-29 2013-04-04 富士通株式会社 検索方法及び情報管理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013046413A1 (ja) 2011-09-29 2013-04-04 富士通株式会社 検索方法及び情報管理装置

Similar Documents

Publication Publication Date Title
CN102449579B (zh) 一体式中文字输入方法
TWI320897B (en) Method and apparatus for the automatic completion of composite characters
US20110316796A1 (en) Information Search Apparatus and Information Search Method
JP2007310734A (ja) 検索装置
KR101391107B1 (ko) 검색 대상의 타입을 인터렉티브하게 표시하는 검색 서비스 제공 방법 및 장치
JP2010225035A (ja) 情報検索装置、情報検索方法、及び情報検索プログラム
US20120317141A1 (en) System and method for ordering of semantic sub-keys
JP4524327B1 (ja) 情報検索装置、及び情報検索プログラム
US9875298B2 (en) Automatic generation of a search query
KR101253502B1 (ko) 출원문서 표시 시스템
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
US20150356884A1 (en) Learning support apparatus, data output method in learning support apparatus, and storage medium
JP2007257369A (ja) 情報検索装置
JP2009271867A (ja) 情報検索装置、情報検索方法、及びコンピュータプログラム
US8335680B2 (en) Electronic apparatus with dictionary function background
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
JP2007086911A (ja) 文章入力装置、文章入力方法及び文章入力用プログラム
JP4469410B1 (ja) 情報検索装置、情報検索方法、及びコンピュータプログラム
JP6002328B2 (ja) 検索システム、検索プログラム、および検索条件入力方法
JP2009271593A (ja) 情報検索装置、情報検索方法、及びコンピュータプログラム
JP2013205854A (ja) 当て字変換人名入力装置、人名入力方法および人名入力プログラム
JP2009271869A (ja) 情報検索装置、情報検索方法、及びコンピュータプログラム
JP5532936B2 (ja) 電子機器及び情報表示プログラム
JP5428622B2 (ja) 電子機器及びプログラム
JP2009129202A (ja) データ処理装置、データ処理方法、および、プログラム