JP2012014741A - Webページ検索システム - Google Patents

Webページ検索システム Download PDF

Info

Publication number
JP2012014741A
JP2012014741A JP2011228367A JP2011228367A JP2012014741A JP 2012014741 A JP2012014741 A JP 2012014741A JP 2011228367 A JP2011228367 A JP 2011228367A JP 2011228367 A JP2011228367 A JP 2011228367A JP 2012014741 A JP2012014741 A JP 2012014741A
Authority
JP
Japan
Prior art keywords
search
term
word
dictionary
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011228367A
Other languages
English (en)
Inventor
Mieko Tsuyusaki
美恵子 露崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2011228367A priority Critical patent/JP2012014741A/ja
Publication of JP2012014741A publication Critical patent/JP2012014741A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報処理機器の初心者等であっても簡単、迅速かつ精度良く検索が行え、世界中の情報をも簡単に入手可能なWebページ検索システムを提供する。
【解決手段】所定の単語を含み検索エンジンにより抽出された複数のWebページと、該WebページのHTMLタグのキーワード欄中から、又は、該WebページのHTML文書中のテキストを分解した形態素中から、又は、該Webページの検索エンジンにおいてキーワード登録されている単語中から前記所定の単語以外の単語を該所定の単語の関連単語として抽出し保存する関連単語抽出手段と、該関連単語を頻度順、五十音順又はアルファベット順等の所定の順に基づき並べ所定の単語に対する関連単語としてユーザに対し表示する。
【選択図】図8

Description

本発明はWebページ検索システムに係わり、特に情報処理機器の初心者等であっても簡単、迅速かつ精度良く検索が行え、世界中の情報をも簡単に入手可能なWebページ検索システムに関する。
インターネットの普及に伴い膨大な情報の中からユーザが所望とする情報を効率良く探すため様々な検索エンジンが開発され、実用化されている。この検索エンジンには、キーワードを入力して検索するものと、カテゴリ別に分類された情報を階層を追って検索するものとが存在する。
ところで、従来の検索エンジンでは、キーワードを入力する必要がある場合、キーボードを操作する必要があり、キー配列を覚えていないパソコン初心者にとっては簡単には利用出来ない。
ワープロ操作にある程度慣れた者であっても英数字、半角、全角、ひらがな、カタカナ入力、漢字変換等様々な切り換え等を行う必要があり、ほんの数文字の入力であっても戸惑い、相当の通信時間を浪費する場合がある。特に最近はインターネット人口の増加に伴い若い世代だけではなく様々な世代のユーザが増えているので、その要望にも答えていく必要がある。
また、日本語には、ひらがな、漢字、カタカナと色々な表記法が存在し、同一の事象を異なる表記で検索した場合、異なる検索結果を得てしまう。
更に、検索式をたてる際に必要となる演算子の利用も初心者にとっては難しく、ときには条件の入力を忘れ、なかなか所望とする検索結果が素早く得られないのが実情である。
この場合でも条件の入力を忘れたことを指摘されることはないので、ユーザ自身の意図するものと異なる検索が行われ、ユーザは全く気付かないというおそれがある。このような状況の下では、たとえ正常に入力した場合でも、本当に条件が入力され、検索エンジンがきちんと検索式を認識してくれたか否か不安である。
更に、カテゴリ別に情報を追った場合でも、その含まれる情報量が多い場合には結局所望とする情報にはなかなか到達出来ない。
更に、入力された日本語の検索条件から日本に限らず、世界中の情報をも一気に集めたい場合が存在するが、現在の所かかる場合には各国の検索エンジンに飛び現地語を入力して検索する必要がある。入力文字の翻訳処理をすればよいが、変換精度やコスト、多数国言語対応とする場合等簡単な処理にはできないおそれがある。
更に、入力した検索式では所望の検索結果が得られなかった場合には、次の検索式の候補となる関連キーワードを見出すのが容易ではなかった。
本発明はこのような従来の課題に鑑みてなされたもので、情報処理機器の初心者等であっても簡単、迅速かつ精度良く検索が行え、世界中の情報をも簡単に入手可能なWebページ検索システムを提供することを目的とする。
このため本発明(請求項1)は、ユーザにより情報処理装置の検索入力欄に入力された文字列に基づきWebページの検索を行うインターネット上の検索エンジンと、該検索エンジンにより使用されるデータベースと、該データベースに保存された所定の単語と、該所定の単語を含み検索エンジンにより抽出された複数のWebページと、該WebページのHTMLタグのキーワード欄中から、又は、該WebページのHTML文書中のテキストを分解した形態素中から、又は、該Webページの検索エンジンにおいてキーワード登録されている単語中から前記所定の単語以外の単語を該所定の単語の関連単語として抽出し保存する関連単語抽出手段と、該関連単語に一致する単語の個数をカウントし頻度順とするカウント手段と、該関連単語を頻度順、五十音順又はアルファベット順等の所定の順に基づき並べる頻度順等並べ替え手段と、該頻度順等並べ替え手段で並べられた内の複数個を前記所定の単語に対する関連単語としてユーザに対し表示する関連キーワード表示手段とを備えて構成した。
また、本発明は、用語を形成する文字の先頭部分又は先頭部分の漢字の読みである少なくとも一文字のひらがな、カタカナ、ローマ字、アルファベット又は漢字等が選択された文字頭部と、多数の用語が保存されているデータベースと、該データベースより前記文字頭部を含む用語を抽出する候補抽出手段と、該候補抽出手段で抽出された用語を表示する候補用語表示手段とを備えて構成してもよい。
文字頭部は、用語を形成する文字の先頭部分であってもよいし、先頭部分の漢字の読みであってもよい。また、この文字の先頭部分は、漢字でもよいし、英単語等の一部であってもよい。候補抽出手段では、データベースより文字頭部を含む用語を抽出する。
以上により、ユーザは検索式を立てる際等に必要となる単語をキーボード等により入力することなく入手可能となる。従って、情報処理機器の初心者やキーボード入力の苦手な人にとっては助かる。ひらがなからの漢字変換も行う必要もない。また、人名、会社名等記憶だけを頼りに正確に名前を入力するのは難しいが、用語は予めデータベースに用意されているので入力ミスが生じることはない。
パソコンを始め、携帯電話、携帯情報端末、インターネット対応テレビ、カーナビ等に対しても有効である。携帯電話等からの検索はキーボードが存在しないので、キー操作に慣れた人にとっても煩わしいものであるが、入力する文字数が少ないので簡単に処理可能である。
更に、本発明は、用語が所定の分類及び/又は辞書に関連付けられ保存されているデータベースと、該データベースを基に所定期間内にクリック数の多かった用語の検索、最近話題の用語の検索又はWebページでよく使用されている用語の検索等を行う特徴検索手段と、前記分類及び/又は辞書を指定する分類指定手段と、該分類指定手段で指定された分類及び/又は辞書により絞られ、かつ前記特徴検索手段による検索指令により前記用語が絞られる候補抽出手段と、該候補抽出手段で絞られた用語を表示する候補用語表示手段とを備えて構成してもよい。
データベースにおいて、所定期間内にクリック数の多かった用語、最近話題の用語又はWebページでよく使用されている用語等を予め求め、この特徴を付記しておく。また、用語は、所定の分類や辞書にも関連付けされている。従って、この特徴や分類、辞書を指定することで、用語を簡単に絞ることができる。
更に、本発明は、用語を形成する文字の先頭部分又は先頭部分の漢字の読みである少なくとも一文字を含むひらがな、カタカナ、ローマ字、アルファベット又は漢字等が入力される検索キー欄と、多数の用語が保存されているデータベースと、該データベースを基に所定期間内にクリック数の多かった用語の検索、最近話題の用語の検索又はWebページでよく使用されている用語の検索等を行う特徴検索手段と、前記データベースより前記検索キー欄に入力された文字を含む用語を抽出し、かつ前記特徴検索手段による検索指令により該用語が絞られる候補抽出手段と、該候補抽出手段で絞られた用語を表示する候補用語表示手段とを備えて構成してもよい。
用語の文字頭部や全文字を検索キー欄に入力する。この文字と特徴の指定により、用語を簡単に絞ることができる。
更に、本発明は、多数の用語が保存されているデータベースと、該データベース中で所定期間内にクリック数の多かった用語、最近話題の用語又はWebページでよく使用されている用語等に対し該特徴を付記した特徴付記手段と、該特徴付記手段で付記された特徴の検索を指令する特徴検索指令手段と、該特徴検索指令手段による検索指令により前記用語が抽出される候補抽出手段と、該候補抽出手段で抽出された用語を表示する候補用語表示手段とを備えて構成してもよい。
特徴の指定のみにより、用語を簡単に絞ることができる。
更に、本発明は、前記候補用語表示手段で表示された用語の内から少なくとも一つを選択する用語選択手段と、該用語選択手段で選択された用語に基づきWebページを検索するWebページ検索手段とを備えて構成してもよい。
以上により、クリック操作のみで簡単に検索処理が可能である。
更に、本発明は、前記候補抽出手段で抽出された用語を、頻度順、五十音順又はアルファベット順等に整列させる用語整列手段を備えて構成してもよい。以上により、目的とする用語を迅速に見つけることが出来る。
更に、本発明は、前記候補抽出手段で抽出された用語には、該用語の意味、注記及び説明の内の少なくとも一つが併記されたことを特徴としてもよい。
用語の意味や注記、説明を見た上で用語を決定出来るので、検索精度等が向上する。
更に、本発明は、用語を形成する文字のすべてが、ひらがな、カタカナ、ローマ字、アルファベット又は漢字等で入力された検索用単語と、多数の用語が保存されているデータベースと、該データベースより前記検索用単語と一致するものが存在するか否かを判断する単語比較手段と、該単語比較手段で一致すると判断された用語に基づきWebページを検索するWebページ検索手段とを備えて構成してもよい。
検索用単語は、用語を形成する文字のすべてが入力されたものである。但し、検索用単語は、通常表記が漢字であるものでも、ひらがな、カタカナ、ローマ字で入力されてもよい。単語比較手段で一致すると判断された用語には、同音異義語の内から選択された用語も含んで考える。データベースに保存されている用語を用いて検索をすることで検索の精度が向上する。ひらがなからの漢字変換も行う必要もない。
更に、本発明は、前記データベースに保存された用語には分類が関連付けられたことを特徴としてもよい。
分類は用語と同一のデータベースに保存されてもよいし、異なるデータベースに保存されてもよい。
以上により、候補抽出手段による用語の抽出では、この分類により用語を絞り込み可能である。このように分類を組み合わせることで、所望の用語を見つけ易くできる。また、Webページ検索手段によるWebページの検索では、この分類によりWebページを効率良く絞り込み可能である。
更に、本発明は、前記データベースに保存された用語には少なくとも一カ国の訳語が割り付けられ、前記Webページ検索手段では該訳語に基づき所定の国のWebページが検索されることを特徴としてもよい。
用語と訳語は同一のデータベースに保存されてもよいし、異なるデータベースに保存されてもよい。訳語は訳語辞典等の用語であってもよい。
データベースに保存された用語は、各国の訳語に対応付けられている。このため、日本語で検索式を作成しても、国名を選択するだけで世界中のWebページを検索可能である。
更に、本発明は、前記データベースの用語及び/又は該用語に割り付けられた分類について、ユーザによる用語、分類の使用実績及び/又は前記Webページの登録申請者による用語、分類の登録実績に基づき前記用語及び/又は前記分類を追加、削除する学習手段を備えて構成してもよい。
学習手段を備えたので、検索が頻度高く行われる程、データベースは時代や流行等を取り入れてどんどん進化することが出来る。検索精度もその進化に合わせて向上する。
更に、本発明は、前記用語に対するユーザによる使用頻度を計算する使用頻度計算手段及び/又は前記Webページの登録申請者による登録頻度を計算する登録頻度計算手段を備えて構成してもよい。
使用頻度計算手段を設けたことで、当該用語の利用頻度が分かる。このため、所定期間内に一度も使用されていない用語を抽出し、削除する等の学習機能を追加することが可能である。また、用語の使用頻度順等をリスト化可能である。登録頻度計算手段による登録頻度を見れば、当該分類のWebページでどの程度よく使用されている用語か判断可能となる。
更に、本発明は、前記ひらがな、カタカナ又はアルファベット等は、五十音順又はアルファベット順等により表配列された文字入力支援ツールより選択されることを特徴としてもよい。
このことにより、文字入力が簡単に行える。
更に、本発明は、演算子が理論通り入力されているか否かを判断する演算子判断手段と、該演算子判断手段で前記演算子が理論通り入力されていないと判断されたときユーザに対し通知を行う通知手段を備えて構成してもよい。
演算子の入力を忘れた場合でも演算子の入力漏れが通知されるので、ユーザは自身の意図する検索を確実に行える。
更に、本発明は、前記データベースに保存された用語は、ひらがな、カタカナ、ローマ字、アルファベット及び漢字等の内の複数の表記により互いに関連付けられたことを特徴としてもよい。
データベースでは、同一の用語に対し、ひらがな、カタカナ、ローマ字、アルファベット、漢字等の表記がされている。従って、いずれの態様の文字で検索をしても同じ検索結果が得られる。
更に、本発明は、入力された用語と、該用語に基づきWebページを検索し、検索結果をリスト化するWebページ検索手段と、該Webページ検索手段により作成された検索結果リストの内、表示開始及び/又は表示終了のデータを指定する表示データ指定手段を備えて構成してもよい。
このことにより、ユーザは、また始めから検索結果リストを閲覧する必要がなく効率的である。
更に、本発明は、入力された用語と、該用語に基づきWebページを検索し、検索結果をリスト化するWebページ検索手段と、該Webページ検索手段により作成された検索結果リストを保存する検索結果リスト保存手段と、該検索結果リストの内ユーザに提供された最終データ又は該最終データの項目番号が保存される最終データ保存手段と、該最終データ保存手段で保存された最終データ以降又は該最終データを含む所定ブロックのリストを表示させるリスト表示再開手段を備えて構成してもよい。
以上により、ユーザは再度同じ検索を行う必要は無く、また既に閲覧済のページについて再閲覧等する無駄はなくなるので、便利である。なお、検索結果リストの内容は保存されているので、既に閲覧済のページを再表示することも可能である。
更に、本発明は、入力された用語と、該用語に基づきWebページを検索し、検索結果をリスト化するWebページ検索手段と、該Webページ検索手段で所望のWebページを検索出来なかったとき、前記用語の類義語を提示する類義語提示手段を備えて構成してもよい。
ユーザは、所望のWebページを検索出来なかったときには検索式の見直しを行うことになるが、この際には、次にどのような用語で検索したらよいのか判断に困る場合が多い。従って、前回検索時に使用された用語の類義語を提示し、ユーザに対し検索のヒントを提供する。
更に、本発明は、入力された用語と、該用語に対し予め割り付けられ、データベースに保存された類義語と、該類義語の内の少なくとも一つ及び前記用語の論理和に基づきWebページを検索し、検索結果をリスト化するWebページ検索手段とを備えて構成してもよい。
類義語も含めて検索を行うことで、検索の漏れを少なくすることが出来る。
更に、本発明は、入力された用語と、該用語に対し予め割り付けられ、データベースに保存された分類と、前記用語から前記分類を抽出する分類抽出手段と、該分類抽出手段で抽出された分類を表示する分類表示手段とを備えて構成してもよい。
当該用語に対し決められた分類を把握することが出来る。従って、ユーザはどの分類を探せばよいのか判断できる。また、ユーザの検索式中に分類指定の誤り等の存在することに気が付く。
更に、本発明は、使用言語が選択可能な使用言語選択手段を備え、前記用語を形成する文字は、該使用言語選択手段で選択された言語により記載されることを特徴としてもよい。
このことにより、例えば、日本に在住の外国人であっても検索式は母国語で行い、日本のWebページを検索可能である。なお、この際、検索結果リストでは、日本語若しくは英語のWebページの絞り込みが可能とされるのが望ましい。また、請求項7の所定の国を選択すれば、母国や他国のWebページも検索可能である。
更に、本発明は、前記単語比較手段で一致しないと判断されたとき、前記検索用単語に対する所定言語の訳語を見いだすのに使用される訳語辞典を備え、前記Webページ検索手段は、該訳語辞典で見いだされた訳語に基づきWebページが検索されることを特徴としてもよい。
例えば、検索用単語がひらがな等で入力されている場合には、和英辞典等の訳語辞典を利用可能である。従って、データベースに存在しない用語であっても、訳語に基づき検索が可能となる。
更に、本発明は、前記データベースに保存された用語は所定の分類及び/又は辞書に関連付けられ、前記分類及び/又は辞書を指定する分類指定手段を備え、前記用語が該分類指定手段で指定された分類及び/又は辞書により絞られることを特徴としてもよい。
用語が分類や辞書により絞れるので精度が向上する。
更に、本発明は、前記用語が検索式として使用されたとき該用語を履歴保存する履歴保存手段と、該履歴保存手段で保存された前記用語を表示する履歴表示手段とを備えたことを特徴としてもよい。
検索式を履歴保存することで、再度同じ検索式により検索する場合や、この検索式の一部修正をして使用したい場合等に便利である。また、検索式や分類等を履歴保存するようにすれば、これらの検索式等を基にユーザの趣味等を総合的に評価可能である。そして、この評価に従い、検索式や分類に一致若しくは近い広告を、広告データベースより抽出してユーザパソコンに表示等することも可能である。
以上説明したように本発明によれば、候補抽出手段によりデータベースから文字頭部を含む用語を抽出するよう構成したので、ユーザは検索式を立てる際等に必要となる単語をキーボード等により完全に入力することなく入手可能となる。ひらがなからの漢字変換も行う必要もない。従って、初心者であっても検索が簡単に行える。
また、データベースに保存された用語に対し、訳語を割り付けたので、世界中のWebページを、例えば日本語入力のままに検索可能である。
検索エンジンのメインメニュー表示例 辞書データベースの画面表示例 フローチャート 検索式の入力態様例 フローチャート フローチャート 検索キー欄の複数追加例 フローチャート 登録申請画面の例 機能分離したデータベースの例 同上
以下、本発明の実施形態について説明する。本発明の第1の実施形態である検索エンジン100のメインメニュー表示例を図1に示す。図1は、ユーザのパソコンにダウンロードされ、画面表示された検索エンジン100のホームページである。なお、本発明はパソコンに限定されるものではなく、携帯電話、カーナビ、移動情報処理端末等であっても適用可能である。
図1において、辞書表示部1には国語辞典、科学辞典、百科辞典、現代用語辞典、人名辞典等の単語の収納された辞書項目3が配設されている。科学辞典等のように複数の専門領域が存在するものでは、更に理学、工学、医学等の分野辞典4が配設されている。
但し、これらの辞書は、インターネット専用の辞書として用語が厳選されたものであることが望ましい。例えば古語や使用されることがあり得ない等と判断される用語等は削除されたものが望ましい。なお、辞書は固定されたものでは無く、後述する学習機能により用語が補充されたり削除されるようになっている。
また、分類表示部5にはビジネス、学校、生活、趣味、スポーツ等の分類項目7が配設されている。各分類項目7は階層構造となっており、分類項目7をクリックすることにより、詳細分類9が表示されるようになっている。
但し、分類項目7のクリック操作を必要とすることなく、最初から詳細分類9の内の所定段数までを画面表示するようにしてもよい。各詳細分類9の下位にはWebページのURL(Uniform Resource Locators)が存在する。但し、分類表示部5には分類の項目表示のみに止め、WebページのURLを表示しないようにしてもよい。
文字入力支援ツール10には、タブ11と文字一覧13が表示されている。タブ11によりひらがな、カタカナ、英数文字が選択可能なようになっている。但し、カタカナ若しくはひらがなの一方は省略されてもよい。文字一覧13で選択された文字は、検索キー欄15に入力されるようになっている。
文字一覧13の側部には演算子17が設けられている。演算子17は論理積である「かつ(*)」であり、演算子17をクリックすると、「*」が検索キー欄15に入力されるようになっている。演算子17を論理積である「かつ(*)」に限定せず、更に論理和である「または(OR)」や括弧である「(」「)」等を設けるようにしてもよい。
但し、この場合には、ユーザにとっては複雑となるおそれがあるので、上級者向けボタンを別途配設し、このボタンが選択されたときにこれらの論理が選択されるようにするのが望ましい。
なお、辞書項目3、分野辞典4、分類項目7、詳細分類9で選択された項目も同様に検索キー欄15に入力されるようになっている。但し、かかる分類、辞書等は、検索キー欄15とは別に配設される分類ボックスに表示されるようにしてもよい。
検索キー欄15に入力された用語は、前項削除ボタン19により用語単位で前項のみを削除可能なようになっている。例えば、「趣味*旅行」と入力されている場合には旅行のみが削除可能である。全削除ボタン21によりすべての項目が削除可能である。
候補要求ボタン23は、この候補要求ボタン23がクリックされることで、文字一覧13より選択若しくはキーボードより入力されたひらがなの一文字、又は数文字から辞書項目3や分類項目7等との組み合わせのもとに適当な用語の候補を検索エンジン100が選びユーザに表示するものである。
この用語の候補表示の際には、頻度順ボタン27、五十音順ボタン29、アルファベット順ボタン31をクリックすることにより、表示される用語を頻度順、五十音順、アルファベット順に整列して表示することが可能である。選択された用語は検索に使用されるようになっている。
検索ボタン25は、この検索ボタン25がクリックされることで、検索キー欄15に入力された検索式に基づき検索エンジン100が検索を行うものである。
地域選択欄33には、国内選択ボックス35と外国選択ボックス37が配設されている。国内選択ボックス35を選択した場合には例えば関東地方、東京都、中央区、銀座等と階層形式で選択可能である。地図ボタン39を選択すれば、日本地図40が表示され、所望とする地図上の点を指定することにより同様に階層を追って順に選択可能である。
外国選択ボックス37を選択した場合には例えば地域であるヨーロッパ、国名であるイギリス等と階層形式で選択可能である。地図ボタン41を選択すれば、世界地図42から所望とする地図上の点を指定することにより地域や国を選択可能である。
特徴欄43は様々な特徴をもととして、Webページを検索し易くするために配設されている。例えば、所定期間内にクリック数の多かった用語を検索するクリック回数上位用語ボタン45、最近話題の用語を検索する話題用語ボタン47、Webページでよく使用されている用語を検索するWebページ使用用語ボタン49等である。Webページ使用用語ボタン49が選択される際には頻度順ボタン51により頻度順に、五十音順ボタン53により五十音順に、アルファベット順ボタン54によりアルファベット順に用語が整列された上で表示される。
海外のホームページを閲覧したい場合には、国名選択欄55により地域や国名を選択したり、地図ボタン57を選択すれば、世界地図42から所望とする地図上の点を指定することによりヨーロッパ等の地域や国を選択可能である。各国のWebページのURL、キーワード、要約等は各国毎のデータベースに記録されている。
そして、選択された国のデータベースに従い検索が行われる。ヨーロッパ等の地域による検索は、各国毎の検索が行われた後、選択されたWebページのURL等が例えば国単位に加算され、まとめて一つの検索結果とされるようになっている。この際には、例えば各国毎に10個ずつ等の等数ずつ加算される。そして、頻度順やアルファベット順に表示されるようになっている。
検索結果リスト番号入力欄59は、検索された結果の表示順位を何番目から表示するかを決めるものである。この検索結果リスト番号入力欄59は、検索結果リストが表示された際に表示されるようにしてもよい。
なお、使用言語選択欄81には、複数の言語が選択可能なようになっている。標準は日本語であり、例えば英語が選択された場合には辞書項目3や分類項目7等が英語表記されるようになっている。国語辞典は英語辞典になる。文字入力支援ツール10には、英数文字のみが表示される。特徴欄43は、英語が選択された場合でも日本のWebページに対するものである。但し、国名を選択して、その国の特徴にて検索可能としてもよい。この場合には、後述する使用頻度欄63、話題欄66、登録頻度欄64等は、各国単位に設けて処理される。
図2には、辞書データベース60の画面表示例を示す。辞書データベース60は、国語辞書のデータベース例である。同一の用語に関し、ひらがな、カタカナ、漢字、ローマ字表記がされ、また英語やドイツ語等の各国語の訳語が対応付けられている。各用語には分類項目7、詳細分類9が対応付けられており、この中から、各用語にふさわしい分類等が選択可能なようになっている。
なお、詳細分類9が多数にわたる場合には、分類項目7をクリックすることで詳細分類9を表示させ、その詳細分類9に対し選択を行うようにしてもよい。単一の用語に対し、分類は複数個付けられてもよいし、相当する分類がない場合には付けられなくてもよい。同音異義語が存在する場合や類義語が存在する場合にはこれらも記載されている。そして、図示されていないが、当該用語に対して類義語が割り付けられている。
辞書データベース60には、用語が選択される毎にカウントがインクリメントされ、データ更新される使用頻度欄63が設けられている。また、マスメディア等で話題の用語には話題欄66に、その程度に応じてA〜Eの表示がされている。
更に、学習機能に基づく結果を手動にて補足するため、用語の追加を行うための用語追加ボタン65や、用語の削除を行うための用語削除ボタン67、分類の追加を行うための分類追加ボタン69、分類の削除を行うための分類削除ボタン71が配設されている。
次に、本発明の第1の実施形態の動作を説明する。
図3にフローチャートを示す。本発明の第1の実施形態は、用語として例えば歌舞伎役者である板東玉三郎を検索する場合に、分類及び辞典をクリックし、文字入力支援ツール10の文字一覧13から「ば」のみの一文字をクリックすることで検索を可能とするものである。
ステップ1(図中S1と略す。以下、同旨)で検索式を検索キー欄15に入力する。この際には、分類項目7の芸能をクリックした後詳細分類9の歌舞伎をクリックする。その後、辞書項目3の人名辞典をクリックする。そして、文字入力支援ツール10の文字一覧13から「ば」のみの一文字をクリックする。
但し、「ば」のみではなく、複数の文字を入力してもよい。また、カタカナで入力されてもよい。これらのクリック操作により、検索キー欄15には「芸能*歌舞伎*人名*ば」と入力される。なお、これらの文字は、キーボードから入力されてもよい。また、分類項目7、辞書項目3、文字一覧13からの文字入力の順序は問わない。
次に、文字「ば」で始まる人名を探すためステップ3で候補要求ボタン23をクリックする。ステップ5では、検索エンジン100によりこの検索式が取得され、ステップ7で検索式が分析される。
ステップ9では、演算子が理論通り入力されているか否か判断される。キーボードから入力されたような場合には演算子が抜けている場合も考えられる。かかる場合、ステップ11で演算子の入力要求が検索エンジン100よりユーザに対してされる。
この際には、入力された文字が分類項目7、詳細分類9、辞書項目3に一致するか否か判断され、各項目等の間に演算子が存在するか否かで判断される。このように、辞書データベース等の内容と比較することで、演算子が抜けていることを判定可能となる。
ステップ13では、検索エンジン100により演算子間に記載された項目である分類、辞書、特徴、地域、文字が取得される。この場合には芸能、歌舞伎、人名、文字「ば」が取得される。取得される文字は、ひらがな、カタカナ、アルファベット、漢字等である。
そして、使用言語選択欄81で日本語が選択されているとき、取得された文字が、ひらがな、カタカナ、漢字、ローマ字等のいずれであるかがまず判断される。ローマ字やアルファベット等は半角、全角、大文字、小文字の区別なく検索可能とするのが望ましい。このため、いずれの文字が入力された場合でも例えば半角の小文字データに統一させる等の処理を行う。
または、データベース内の各用語に、半角、全角、大文字、小文字のデータを予め割り付けておいてもよい。ステップ15では、辞書データベース60から該当する文字を有する項目が抽出された後、更に選択された分類により絞られる。この場合には人名辞書から文字「ば」で始まる項目の内、芸能、歌舞伎に選択されている項目が抽出される。
項目が存在しない場合には、ユーザに対し候補リストは存在しない旨の表示がされる。複数項目存在する場合には、ステップ17で項目が整列される。この項目の整列は、予め頻度順ボタン27、五十音順ボタン29、アルファベット順ボタン31により指定された順に従い行われる。
頻度順ボタン27が選択されている場合には、辞書データベース60の使用頻度欄63の大きさ順にデータが配列される。ステップ19では、ユーザに対し作成された候補リストが表示される。
なお、候補リストの表示に際しては、人名の場合にその人の簡単なプロフィール等が説明されるのが望ましい。この場合、人名辞典の各人名にはプロフィール等が対応され、データ保存される。また、科学辞典等が選択され、表示された用語が難解な場合には、候補リストの表示の際に用語の持つ意味、注記、説明を提供するようにしてもよい。意味等も表示するか否かを別途ボタン指示出来るようにしてもよい。
この際、ユーザにとって不明瞭な用語のみに対し意味等を表示することが望ましいので、用語を改めて選択し、ボタンをクリックさせるようにしてもよい。このためには、辞書データベース60の各用語若しくは難易度の高い用語に対し用語の有する意味等を対応付けしておく必要がある。候補表示される用語は新聞等で一般的によく使用されている標準表記にて表示される。
ステップ21で、この候補リストを見たユーザが希望の項目、この場合には板東玉三郎の文字を見つけた場合、ステップ23に進みこの板東玉三郎の文字を項目選択する。項目が選択されるとステップ25で、当該用語の使用頻度欄63がインクリメントされる。
使用頻度欄63を設けたことで、当該用語の利用頻度が分かる。このため、所定期間内に一度も使用されていない用語を抽出し、削除する等の学習機能を追加することが可能である。また、用語の使用頻度順等をリスト化可能である。
ステップ21で、ユーザが希望の項目を見出せない場合や項目の数が多過ぎる場合には、ステップ27に進み、再度検索式の見直しを行う。この際には、分類を指定し直したり、文字「ば」に対し「ん」を追加修正したりする。また、当該用語に関する関連キーワードが関連キーワード表示欄28に表示されているので、この関連キーワードの中から適当なものを選択してもよい。
関連キーワードは、検索エンジン100において、当該用語がキーワード登録されている複数のホームページを当該用語が属する分類下から抽出し、これらのホームページ中から共通的に頻度高く検索エンジン100に対し登録されている単語を予め抽出したものである。関連キーワードは、当該用語に関連付けされてデータベースに保存されている。同一の用語がキーワード登録されている同一分類下のホームページは、共通のテーマを有することが推定され、キーワードも関連するものが登録されていると考えられるからである。
なお、関連キーワードは、次のように抽出されてもよい。即ち、まず、当該用語が、HTML文書中のタグのkeywords中に存在するホームページを抽出する。ホームページは、当該用語が属する分類下から抽出するのが望ましい。keywords中から、当該用語以外の単語を抽出する。同一の単語が同一のホームページ中に複数個存在する場合には、一つだけを抽出するのが望ましい。そして、抽出された単語の出現頻度をカウントする。その後、カウントされた出現頻度の高い単語を当該キーワードの関連キーワードとして保存する。
また、関連キーワードは、更に次のように抽出されてもよい。即ち、閲覧中のホームページのテキスト部分を品詞情報等が保存された辞書、各単語の係受け等を分析する文法辞書等により、構文を解析しつつ名詞、助詞、形容詞、動詞等の形態素に分解する。そして、この分解された形態素より名詞を抽出し、同一の名詞が使用されている回数をカウントし、多く使用されている名詞を関連キーワード表示欄28に表示する。
更に、閲覧中のホームページのHTML文書中のタグのkeywords中より取得されたデータを関連キーワード表示欄28に表示してもよい。
ステップ29で、国名選択欄55により国名が選択されている場合には、ステップ31で当該用語に対し割り付けられた訳語が選択される。この場合には、予め辞書データベース60にTamasaburo Bandoが訳語として割り付けられている。
但し、図2の用語「旅行」に対する英語に示すように、訳語の対応付けは一語には限らず、各国言語によっては複数個の単語が割り付けられてもよい。あるいは類義語の存在する場合には、訳語として類義語を割り付けてもよい。ステップ33では、国名選択欄55により選択された国のデータベースに進む。
そして、ステップ35では最終的な検索式がユーザに示される。この場合、選択された国の言語で表示するようにしてもよい。または、日本語と選択された国の言語の双方で表示されてもよい。そして、この検索式に基づき検索が実施される。一方、ステップ29で、国名が選択されていない場合には、ステップ35で、最終的な検索式がユーザに対し示される。そして、ステップ35で示された検索式に基づき検索エンジン100による国内検索が行われる。
ステップ37では、検索の結果URLが存在する場合にはステップ39でWebページの項目表示がされる。URLが存在しない場合には、ステップ41でユーザに対しWebページは存在しない旨の表示がされる。Webページが存在しなかったか、所望とするWebページが見つからなかった場合には、ユーザは、ステップ27で、再度検索式の見直しを行う。
この際、単語はデータベースに保存されているものなので、当該単語に予め類義語を関連付けておき、類義語が存在する場合には類義語を表示するようにしてもよい。類義語は使用頻度欄63でアクセス頻度順位の高い順あるいは登録頻度欄64でWebページの登録申請者による登録頻度の高い順に表示するのが望ましい。ユーザが検索式の見直しの際にこの類義語を選択すれば、当該単語と交換され、再度検索が実行される。類義語が複数選択された場合には、論理和にて検索される。
なお、ステップ23でユーザが用語の選択をする以前又は以降に、当該用語の類義語を含めて検索する旨の類義語ボタン24が選択された場合には、この類義語を表示し、ユーザに対し選択させるようにしてもよい。
この際には、選択された類義語は当該用語と論理和を取られた上でステップ25を経てステップ35で検索式の表示がされる。また、類義語ボタン24が選択された場合に、類義語をユーザに対し選択させることなく、すべて若しくは限定された数の類義語を検索式に含めるようにしてもよい。
また、検索式の修正、追加等に際しては、上述と同様に候補入力も可能である。検索式を追加すれば絞り検索が可能である。
更に、検索エンジン100において、検索キーや分類等を履歴保存するようにしてもよい。この場合、データ交信の際には、cookieデータにより個人管理を行う。あるいは、ID等の個人認証番号を入力させることで個人管理を行う。履歴保存は、ボタンにより「検索キーは保存しない」「前の検索キーを表示する」を選択可能である。
以上により、ユーザは検索式を立てる際等に、クリック操作のみで簡単に処理が可能である。また、この際の文字入力は一文字、又は数文字のみでよい。更に、検索式が確定した際には、関連キーワードが表示されるので、検索式の見直し等も簡単である。従って、パソコンの初心者やキーボード入力の苦手な人にとっては助かる。ひらがなからの漢字変換も行う必要がない。必要ならば候補表示された用語の意味等を見た上で用語の選択も可能である。
検索エンジン100においては、指定された分類でまずWebページが絞られ、その後、検索キーワードで更に絞られる。このため、検索の精度が高い。また、検索スピードも分類の中のみを検索すればよいので早い。ユーザにより分類指定のされていない場合には、検索キーワードにより絞られる。但し、この際、このキーワードに属する分類が複数存在する場合には表示し、一つの分類を選択させるようにしてもよい。分類を一つに絞ることにより、検索の精度は向上する。また、図示しない全分類指定検索ボタンを押すと、分類指定の有無によらず、全分類を対象として検索キーワードのみによる検索を行うことも可能である。
なお、本検索方法は携帯電話やカーナビ、インターネット対応テレビ等にも適用可能である。そして、携帯電話等からの検索はキーボードが存在しないので、キー操作に慣れた人にとっても煩わしいものであるが、入力する文字数が少ないので簡単に処理可能である。
使用言語選択欄81でいずれの言語を選択して検索式を作成したとしても、データベースにより日本語との間で用語同士の対応付けがされているので、日本語によるWebページの検索が可能となる。この場合には、検索式確認のため、原語と日本語の双方の検索式を表示するのが望ましい。従って、外国人にとって日本国のWebページの検索が自国の言語により可能となり検索がし易くなる。
一方、選択された用語は、各国の訳語に対応付けられているので、日本語で検索式を作成しても国名を選択するだけで世界中のWebページを検索可能である。
ひらがな、カタカナ、漢字の相互に対し同一の用語を割り付けているので、いずれの態様の文字で検索をしても同じ結果が得られる。この場合、用語は辞典や新聞等に記載されている一般的な当該用語についての標準表記(例えば漢字)により検索されるのが望ましい。しかしながら、選択によりすべての表記による論理和にて検索可能としてもよい。あるいは、日常的に使用されていることが予想される表記に絞れる場合には、それらの表記の論理和にて検索可能としてもよい。また、人名等記憶だけを頼りに正確に人の名前等を入力するのは難しいが、検索エンジン100では、データベースに用語は予め用意されているので入力ミスが生じることはなく、検索精度が向上する。
次に、検索式の入力態様について説明する。図4に入力態様例を示す。例えば、分類項目7に芸能、詳細分類9に歌舞伎、辞書項目3に人名辞典を選択し、候補要求ボタン23をクリックすると、歌舞伎役者の候補リストが予め頻度順ボタン27、五十音順ボタン29で選択された通りに整列され表示される。この際には、まったく文字入力をしないでもすむ。分類項目7、詳細分類9、辞書項目3等の順序は順不動である。以下、候補要求ボタン23をクリックする旨は省略して説明する。
分類項目7にビジネス、詳細分類9に会社、文字「に」を選択すれば、日本○○株式会社の候補リストが表示される。更に、業種を建設に選択すれば建設関係の会社に絞れる。分類項目7に学校、文字「と」あるいは「とう」を選択すれば、東京○○大学の候補リストが表示される。文字入力も、分類項目7、詳細分類9、辞書項目3等の順序同様、順不動でもよい。
話題用語ボタン47に続けて文字「ぷ」あるいは「ぷれ」を選択すれば、プレイステーション2を含む候補リストが表示される。候補選択すれば用語が確定され、ユーザには「話題*プレイステーション2」(又は分類を除いた形での「プレイステーション2」と表示されてもよい。分類は別途独立して表示されてもよい。)と検索式が表示された後検索が行われ、検索結果リストが表示される。但し、検索を実施するのに際し検索ボタン25を操作するようにしてもよい。
分類項目7にスポーツ、話題用語ボタン47をクリックすればスポーツで最近話題の用語を引くことが出来る。
分類項目7にスポーツ、辞書項目3である人名辞典をクリックした後、文字一覧13よりひらがなの「な」をクリックし、「スポーツ*人名*な」と入力した場合で、かつクリック回数上位用語ボタン45を選択したとき、長島茂雄、中田英寿が選択可能である。また、人名辞典とクリック回数上位用語ボタン45を選択しただけでも著名人の名前は容易に見つけることができる。
なお、クリック回数上位用語ボタン45は、これのみ選択してもよいし、候補リストの結果が出てから選択してもよい。この場合、検索式は表示されているので、その検索式を確認した上で、絞り込みボタン26をクリックし、その後追加の絞り込み(この場合はクリック回数上位用語ボタン45の選択)を行う。
分類項目7にショッピング、詳細分類9に化粧品、文字「こ」、外国選択ボックス37でフランスを選択し、候補要求ボタン23をクリックする。その後、候補リストから香水を選択すると、フランスの香水をショッピング可能なWebページが検索可能である。この際には辞書項目3が選択されていないが、各辞書項目3の内から文字「こ」に属する文字が検索され、かつ分類で絞られてリスト表示される。
辞書項目3に国語辞典、文字「ま」、分類項目7に本、国名選択欄55にロシア国を選択した場合には、候補リストから漫画を選択すると、ロシア国における漫画に関するWebページを見ることができる。
また、クリック回数上位用語ボタン45、話題用語ボタン47、Webページ使用用語ボタン49をクリックすれば、頻度順ボタン51、五十音順ボタン53で選択された通り頻度順又は五十音順に候補リスト表示可能である。また、これらのボタンは分類等と組み合わせて用いることで一層効果的な検索が行える。
なお、辞典のみの選択や分類のみの選択であっても候補リスト表示可能としてもよい。
次に、本発明の第2実施形態について説明する。
本発明の第2実施形態は、用語の文字入力を一部ではなく、全文字入力するものである。なお、図3と同一要素のものについては同一符号を付して説明は省略する。
辞書表示部1の科学辞典で経済を選択し、文字「しゅうし」を文字入力支援ツール10の文字一覧13(キーボード入力でもよい)から選択した場合を例にする。なお、国語辞典で文字「しゅうし」を入力した場合には終止、宗旨等も候補となる。また、文字はひらがな、カタカナ、アルファベット、漢字、ローマ字の他、英語、ドイツ語等の外国語でも入力は可能である。日本語で入力した場合と、外国語で入力した場合と、データベースで予め対応付けされた用語を使用するので、国名を同一に指定すれば同じ検索結果リストが得られる。
図5のフローチャートにおいて、ステップ51で、検索キー欄15には「科学*経済*しゅうし」と入力されている。ステップ53で、検索ボタン25をクリックする。但し、このようにひらがなやカタカナで入力した場合には、候補要求ボタン23をクリックしてもよい。この場合には、図3のように処理が行われる。
ステップ61では、検索エンジン100が取得された文字を辞書データベースの単語と比較する。文字「しゅうし」の科学辞典の経済には修士と収支の2語が存在するとする。ステップ63で複数語存在すると判断され、ステップ65に進み候補リストを作成する。ステップ67でユーザに対し候補リストを表示する。
なお、この際には用語の持つ意味等を提供するようにしてもよい。意味等も表示するか否かをボタン指定出来るようにしてもよい。ステップ69でユーザは用語を選択する。この場合、例えば収支を選択したとする。その後、ステップ25で当該単語に対し使用頻度欄63のカウントを1つインクリメントする。
ステップ63で一語のみ存在したと判断された場合には、ステップ25で当該単語に対し使用頻度欄63のカウントを1つインクリメントする。なお、ステップ69若しくはステップ63の以前又は以降に、当該用語の類義語を含めて検索する旨の類義語ボタン24が選択された場合には、この類義語を表示し、ユーザに対し選択させるようにしてもよい。
この際には、選択された類義語は当該用語と論理和を取られた上でステップ25を経てステップ35で検索式の表示がされる。また、類義語は、ユーザに対し選択させることなく、すべて若しくは限定された数の類義語を検索式に含めるようにしてもよい。
ステップ37で、検索の結果URLが存在する場合にはステップ39でWebページの項目表示がされる。URLが存在しない場合には、ステップ41でユーザに対しWebページは存在しない旨の表示がされる。Webページが存在しなかったか、所望とするWebページが見つからなかった場合には、ユーザは、ステップ27で、再度検索式の見直しを行う。
この際、当該単語に予め類義語を関連付けておき、類義語を表示するようにしてもよい。類義語はアクセス頻度順位の高い順に表示するのが望ましい。ユーザが検索式の見直しの際にこの類義語を選択すれば、当該単語と交換され、再度検索が実行される。類義語が複数選択された場合には、論理和にて検索される。
なお、関連キーワードが関連キーワード表示欄28に表示されているので、この関連キーワードの中から適当なものを選択してもよい。
ステップ71では、データベースにて当該単語に予め割り付けられている分類と今回入力された分類とが一致しているか否か判断される。一致していればステップ73で終了する。一致していなければステップ75に進み、当該単語に分類を追加する。
このように処理を行うのは、データベースに予め割り付けた分類は検索エンジン100側の判断で割り付けたものであり、あくまで最終的なものではなく、ユーザの使用如何や流行等によっては用語と分類の組み合わせ関係が想定されたものと異なる場合が生ずる可能性があるためである。
当該単語と分類の組み合わせでURLが存在する以上、データベースを修正するのが望ましいと判断できるからである。なお、ステップ75の処理は、当該単語と分類の組み合わせが所定回数以上になったときに行うようにしてもよい。
ステップ61で、検索エンジン100が取得された文字を辞書データベースの単語と一致しないと判断した場合は、ステップ81で、当該単語が辞書データベースにないので、使用言語選択欄81で選択された言語が使用される国での検索のみが可能となる旨の表示を行う。
従って、国名選択欄55により国名を選択していても無効となる。但し、この際、例えば使用言語が日本語で国名選択欄55にアメリカが選択されている場合で、ひらがな、カタカナ、ローマ字で入力されているとき、和英辞典により用語の候補を表示するようにしてもよい。そして、候補表示された用語の中から選択された用語に基づき英語で検索をする。
このとき、分類と選択された用語は検索エンジン100に保存され、学習機能としての処理が行われるのが望ましい。また、和英辞典等によっても用語の候補が存在しない場合で、検索キー欄15にひらがな等が入力されている場合には、その後の検索実行に際し、漢字変換等の当該用語に関する一般的によく使用される他の通常表記に変換させる必要はないかどうかの確認メッセージを表示し、文字変換させるようにしてもよい。このことにより、用語の候補が存在しない場合でも検索エンジン100にて検索が可能となる。
その後、ステップ83で検索を行いURLが存在する場合にはステップ39でWebページの項目表示がされる。この際、ステップ85では、入力された文字と、分類を保存する。入力された文字が辞書データベースに存在しないにも関わらず現実にはURLが存在するからであり、この場合には、ステップ87で単語とこの単語に対する分類の追加を行う必要がある。
なお、この修正の判断を慎重に行うため、ステップ85で単語等を保存する際、カウントを機能させ、所定回数以上になった場合にステップ87の追加処理を行う等してもよい。
以上により、用語の文字入力が全文字入力された場合でも検索は可能である。この際、辞書データベースに存在している用語であるならば、検索式が日本語入力のままで、外国のWebページを参照可能である。漢字変換等による当該用語の標準表記への必要もない。候補選択の際には用語の意味等も判断しつつ選択も可能である。ひらがな、カタカナ等様々な態様で入力可能である。
従って、日本に在住する外国人等がその国の言葉で日本国内等のWebページを検索することも可能である。なお、この際、検索結果リストでは、日本語若しくは英語のWebページの絞り込みが可能とされるのが望ましい。用語が辞書データベースに存在しない場合にも検索可能である。この際、学習機能を備えたので、検索が頻度高く行われる程、データベースは時代や流行等を取り入れてどんどん進化することが出来る。検索精度もその進化に合わせて向上する。
なお、検索キー欄15に用語を入力し、図示しない分類表示ボタンをクリックすることにより、当該用語に対し検索エンジン100側で決められた分類を表示するようにしてもよい。この場合には、ユーザはどの分類を探せばよいのか判断できる。また、ユーザの検索式中に分類指定の誤り等の存在することに気が付く。
日本語で用語を入力した場合と、外国語で用語を入力した場合と、同一のデータベースにてそれぞれの用語の対応付けがされているものなので、国名を同一に指定すれば同じ検索結果が得られる。
次に、Webページでよく使用されている用語の収集方法について説明する。図6にフローチャートを示す。ステップ101で分類を指定する。ステップ103で検索の結果であるWebページを読み込む。ステップ105では、HTML文書中のヘッダのキーワードやタイトル等から本Webページを検索する際のキーワードが検出される。
ステップ107でこのキーワードの中から一つが選択される。ステップ109でデータベースに選択されたキーワードと同じ単語が存在するか否か判断される。同じ単語が存在する場合にはステップ111で登録頻度欄64のカウンタが1つインクリメントされる。
従って、登録頻度欄64のカウンタ値を見れば、当該分類のWebページでどの程度よく使用されている用語か判断可能となる。一方、同じ単語が存在しない場合にはステップ113で当該キーワードを保存する。そして、ステップ115で、ステップ105で検出されたキーワードに残りのキーワードが存在するか否か判断される。
残りのキーワードが存在する場合には、ステップ107に戻り次のキーワードを選択して以降同様の処理を繰り返す。ステップ117で、サイト中のすべてのホームページについて終了するまで行った後、ステップ103で他のWebページを読み込む。そして、同様の処理を繰り返す。
以上により、ユーザは、分類項目7、詳細分類9とWebページ使用用語ボタン49を組み合わせることで、当該分類においてWebページで登録申請者がキーワードとしてよく設定されている用語が分かる。頻度順ボタン51により頻度順に整列可能である。
また、五十音順ボタン53により五十音順にも整列可能である。ユーザがこのキーワードを使用すれば、多くのWebページの登録申請者が意図した通りに検索が行え、最も多くのWebページが検索可能となり、検索漏れを少なくできる。
なお、Webページ使用用語ボタン49を基に表示された用語が選択されると、検索式に当該用語が組み込まれる。
また、検索キー欄15は図1のように一つだけ設けてもよいが、図7に示すように、入力ボックス追加ボタン83のクリックにより検索キー欄15を複数追加可能としてもよい。
そして、各検索キー欄には一つの分類あるいは一つの単語のみを入力してもよいし、検索式を入力するようにしてもよい。検索キー欄毎に候補要求ボタン85によりリスト要求が行え、演算子選択ボタン87を選択するようにすれば複雑な検索式にも容易に対処可能である。
また、検索結果リスト番号入力欄59によれば、例えば検索結果の先頭から200件までのWebページのURLを既に確認済の場合、その後201件目からの指定を行うことで201件目からの検索結果リストの表示が可能である。
検索エンジン100では、検索結果リスト番号入力欄59に指定のある場合には、検索結果リストの順位を数え、指定の件数目から、またはこの指定の件数目を含むブロック単位(1〜100件、101〜200件等の範囲)にリストを作成してユーザに対し表示する。このことにより、ユーザは、また始めから検索結果リストを閲覧する必要がなく効率的である。
更に、ユーザが検索結果リストの保存を希望する場合には、検索エンジン100よりユーザパソコンのcookieファイル等にデータ交信時にユーザID等を記録しておく。または、ユーザに対し検索エンジン100使用時にユーザID等を入力してもらう。そして、一時、検索結果リストの内容及びユーザに対し既に表示済の項目番号を、検索エンジン100側にこのユーザIDで保存するようにする。
その後、リスト表示再開ボタン101が選択されたとき、検索エンジン100側では保存されている検索結果リストの内容及び表示済の項目番号を判断し、まだユーザが閲覧していない残りの情報から継続してリスト表示する。この際、ユーザは再度検索を行う必要は無く、また既に閲覧済のページについて再閲覧等する無駄はなくなるので、便利である。なお、検索結果リストの内容は保存されているので、既に閲覧済のページを再表示することも可能である。
なお、以上は検索エンジン100側に文字入力支援ツール10を配設するとして説明した。しかしながら、必ずしも検索エンジン100側に限定するものではなく、ユーザのパソコンにおいて文字入力支援ツール10を配設するようにしてもよい。また、辞書表示部1や分類表示部5、地域指定、特徴等もユーザのパソコン側に配設してもよい。
但し、この場合には、これらの最新の情報を含むソフトウェアが随時インターネット上の所定のサイトからダウンロード可能とするのが望ましい。このとき、検索キー欄15には分類や辞書等を組み合わせたり、一文字若しくは数文字の単語頭部にて検索式を入力可能である。
また、辞書データベースをもユーザのパソコン側に持たせれば、候補リストの表示や選択等がユーザのパソコン内で処理可能である。検索キー欄15には単語も確定した完成された形の検索式が入力される。このときの単語は辞書データベースに一致するものであれば海外のWebページの検索にも適用可能である。検索式を慎重に完成させた上でインターネットに接続すれば検索の無駄もなくなる。
次に、検索式に使用された用語に対する関連キーワードの収集方法の一例について説明する。
検索式にて用語を確定すると関連キーワード表示欄28に関連キーワードが表示される。このために、関連キーワードを予め各用語毎に求めてデータベースに保存しておく。または、各用語に対し関連キーワードを関連付けしておく。関連付けは、各用語から関連キーワードを抽出可能とするものである。
関連キーワードの収集は、以下のように行う。なお、図6と同一のステップには同一のステップ番号を付し、説明は省略する。図8において、ステップ121では、単語をデータベースより一つ選択する。ステップ123では、この単語に属する分類を読む。そして、ステップ101でこの分類を指定する。ステップ125では、指定された分類下に属するホームページについて、当該単語にて検索を行う。ステップ108では、当該単語以外のキーワードをkeywords中から選択する。ステップ110では、関連キーワードデータ中に既に同じ単語が存在するか否か判断する。同じ単語が無ければステップ113でこの単語を関連キーワードデータとして保存する。同じ単語が存在すればステップ111で当該単語に割り付けられたカウンタをインクリメントする。
ステップ127では、カウンタの値の大きい順に関連キーワードを整理する。関連キーワードは、カウンタの値の大きい順に複数個を関連キーワード表示欄28に表示する。但し、五十音順等に表示可能としてもよい。ステップ129でデータベースに次の単語の存在する限りこの処理を繰り返す。データベースの範囲は、辞書単位や所定のブロック単位等任意に定めた範囲である。
以上により、始めに一つキーワードを決めると、次のキーワードは考える必要がなく、関連キーワード表示欄28から選択することで検索キー欄15に設定可能である。従って、簡単に検索式を見直し等可能であり、特に初心者にとって楽である。
次に、検索エンジンへのWebページの登録申請方法について説明する。
図9に登録申請画面の例を示す。使用言語選択欄81で使用言語を選択すると、選択された言語表記に変わる。まず、登録申請者は、ホームページのアドレスを図示しないアドレス欄に指定した後、登録申請したい自己のホームページが所属すると考えられる分類項目7、詳細分類9を選択する。階層の選択は一通りとするのが望ましいが、複数の分類に属すると考えられる場合には、階層を複数選択可能としてもよい。その後、登録ボタン93をクリックする。
このことにより、自己のホームページ(URL)がどの分類の下に属するのかが決められる。その後は、この指定した分類に帰属する単語を候補選択する限り、分類の選択は不要である。登録キーワード入力欄91には必要ならば辞書項目3を選択し、ひらがなの一文字か数文字、アルファベットの一文字か数文字を入力する。登録キーワード入力欄91に何も入力せずに、候補要求ボタン23をクリックすれば当該分類に属するすべての単語の候補リストが作成され、表示される。表示は、頻度順や五十音順等に整列可能である。
文字は、文字入力支援ツール10により入力してもよいし、キーボードより入力してもよい。候補要求ボタン23をクリックすればデータベースに存在する単語より候補リストが作成され、表示されるので、そのリストの中からキーワードとしてふさわしい用語を選択する。
但し、他の分類項目7、詳細分類9を選択する必要がある場合には、分類等を改めて指定した後に単語を入力する。この場合でも、一文字か数文字の入力により候補を選択することが可能である。また、分類指定をせずに、単語のみをキーワード登録することも可能である。このように、他の分類について指定されたキーワード等は、ユーザにより分類指定がされずに検索された場合や、図示しない全分類指定検索ボタンが押されることにより検索がされる。
更に、関連キーワード表示欄28から関連キーワードを選択することで、登録キーワード入力欄91にキーワード設定することも可能である。
従って、簡単に登録申請可能である。また、選択された用語により登録申請すれば、候補要求等により、ユーザによってもこの用語がデータベースから選択されることになるため、検索される精度及び確率は高くなる。関連キーワード表示欄28もユーザとホームページの登録申請者と同一のキーワードを参照し利用することになるため、検索される精度及び確率は高くなる。
単語が辞書データベースに存在しない場合には、ユーザに対し候補リストは存在しない旨の表示がされる。しかしながら、登録申請者がこの単語でよいと判断する場合にはこの状態で登録ボタン93をクリックする。単語は検索エンジン100側で一旦保存され、確認された後、適当ならば辞書データベースに単語が追加される。
一方、単語は存在するが、入力された分類が存在しない場合にはその旨が表示される。
しかしながら、登録申請者がこの単語に対してはこの分類が最もふさわしいと判断する場合にはこの状態で登録ボタン93をクリックする。この情報は、検索エンジン100側に保存され、確認された後、適当ならば辞書データベースに分類が追加される。
また、単語にふさわしい分類が存在しない場合には、登録申請者は登録キーワード入力欄91に必要な単語を入力した後、分類名入力欄97に新分類を記載した後、「分類が存在しない」ボタン99をクリックする。この情報は、検索エンジン100側に保存され、確認された後、適当ならば分類表示部5に分類項目7、詳細分類9が追加される。このため、辞書データベースや分類等は、時代や流行に応じてどんどん進化することができる。
登録申請者が最初から用語の完全な文字入力をした場合には、辞書データベースに用語が存在するか否か判断される。そして、存在しない場合には、単語は検索エンジン100側で一旦保存され、確認された後、適当ならば辞書データベースに単語が追加される。
登録申請者もユーザも同一のデータベースを使用することになるので、検索の際に余計なノイズを拾う可能性は極めて少なくなり検索精度は向上する。検索精度の向上する分、検索は登録申請者の意図通りに検索される可能性が高くなる。
次に、本発明の第3の実施形態について説明する。
本発明の第1、第2の各実施形態では、国語辞書や人名辞書等の各辞書データベース毎に、ひらがな、カタカナ、ローマ字、漢字等で表記された用語、分類項目や詳細分類、各国言語の訳語、使用頻度欄等を配設したが、この辞書データベースを機能別に分離することも可能である。
例えば、図10及び図11に機能分離したデータベースの一例を示す。図10及び図11において、国語用語索引部111A、工学用語索引部111B、経済用語索引部111C等の用語索引部111には、ひらがな、カタカナ、ローマ字、漢字等で表記された用語111aが記載されている。
また、分類データベース113には、分類項目113aや詳細分類113bがリスト化され、各分類項目や詳細分類にはそれぞれ符号欄113c、113dが割り付けられている。用語索引部111の分類欄111bには、この分類データベース113の符号欄113c、113dで各分類に付けられた記号が記入されている。
また、番号欄111cには、各用語索引部111毎に番号が割り付けられている。例えば、国語用語索引部111Aには10万代、工学用語索引部111Bには20万代、経済用語索引部111Cには30万代の番号が割り付けられている。各用語索引部111では、あ行から始まる用語について、番号1(国語用語索引部111Aでは100001)から順に番号がふられている。
一方、各用語索引部111に対応させて国語辞典115A、工学辞典115B等の各辞典115が配設されている。そして、例えば国語用語索引部111Aの用語と同じ国語辞典115Aの用語に対して、国語用語索引部111Aの番号欄111cで割り付けられたのと同じ番号が、国語辞典115Aの番号欄115aに付けられる。
類義語辞典117に対しても同様に、用語索引部111の用語と同じ類義語辞典117の用語に対して、番号欄111cで割り付けられたのと同じ番号が番号欄117aに付けられる。なお、類義語辞典117によらず、例えば国語用語索引部111Aの番号欄111cで割り付けられたのと同じ番号を、国語辞典115Aの番号欄115aの複数の用語に対し割り付けてもよい。この場合、国語辞典115Aの番号欄115aには、同一の用語に対して複数個の番号が配設されてもよい。
また、各用語索引部111に対応させて、英語辞典119A、ドイツ語辞典119B、英語版工学辞典119C、ドイツ語版経済辞典119D等の訳語辞典119が配設されている。そして、英語辞典119A、ドイツ語辞典119B等の番号欄119aには、国語用語索引部111Aの番号欄111cで同義の用語に対し割り付けられたのと同じ番号が付けられる。
英語版工学辞典119C、ドイツ語版経済辞典119D等の番号欄119aには、工学用語索引部111B、経済用語索引部111C等の番号欄111cで同義の用語に対し割り付けられたのと同じ番号が付けられる。
このように、共通の用語に対しては共通の番号を付して関連付けしたので、本発明の各実施形態と同様の処理が行える。例えば、使用言語選択欄81で使用言語の英語を選択し、国名選択欄55にドイツを選択したとする。このとき、当該使用言語の辞典である英語辞典119A等が選択される。
検索キー欄15に入力された英文字を英語辞典119A等に保存された用語と一致するものが存在するか否か比較する。一致した場合には、その番号欄119aの番号を参照する。その後、この番号を基にドイツ語辞典119B等から用語が抽出され、その用語を基にドイツ国のデータベースにてWebページの検索が実施される。但し、かかる共通の番号によらず、用語索引部111に図2のように各国の訳語を記録しておき、この訳語自体を共通のキーとすることも可能である。
また、共通の用語に対して共通の番号を付するのではなく、用語索引部111や各辞典に対しそれぞれアドレスを付けて関連付けをしてもよい。例えば国語辞典115Aの123番目に記載された用語ならば、KJ123、国語用語索引部111Aの2134番目に記載された用語ならば、KY2134と番号を割り付ける。
そして、この国語用語索引部111Aの2134番目の用語と国語辞典115Aの123番目の用語とを関連付ける場合、国語用語索引部111Aの2134番目の用語には相手先であるKJ123を、国語辞典115Aの123番目の用語には相手先であるKY2134を記入する。
なお、辞典115、類義語辞典117、訳語辞典119等には、市販の各辞書データを利用可能である。用語の意味や説明も利用可能である。各用語索引部111のデータ容量は小さくてすむ。そして、辞書データは、必要に応じて様々な種類の辞書データを辞典単位等毎に随時簡単に追加、更新、削除等可能である。
次に、本発明の第4の実施形態について説明する。
本発明の第4実施形態は、広告についてである。
検索エンジン100で作成された検索結果リストは、ユーザパソコンにダウンロードされて表示される。この際には、広告スペースを検索結果リスト中の適所に設け、広告を表示することが可能である(図示略)。この広告は、検索エンジン100にて広告専用の広告データベースとして保存されている。広告データベースは、検索エンジン100の分類項目7、詳細分類9と同じ分類のもとに構成されている。そして、この分類の下にキーワードと共に広告画像ファイルが保存されている。キーワードは少なくとも一つ指定されている。
検索エンジン100の分類表示部5、検索キー欄15で指定された分類と検索式が、検索エンジン100にて抽出される。検索エンジン100では、広告データベースの当該分類から、この検索式に一致するキーワードを探す。そして、一致したキーワードが存在した場合には、該当する広告画像ファイルを選択する。広告画像ファイルが複数存在する場合には、所定の条件の下に一つに絞られる。所定の条件は、例えばランダムに絞られたり、所定の優先順位順に絞られたりする条件等であり、任意に若しくは一定の規則の下に決められる。
この広告画像ファイルは、広告スペースに組み込まれて検索結果リストのWebページが作成される。検索式が例えば同じ「車」であっても、ショッピング、趣味、旅行等の各分類によってユーザの興味を有する対象が相違する。従って、これらの分類に対応された形で、効率よく広告画像ファイルが選択可能とする。広告は、ユーザの興味あるものに精度高く一致されているので、広告の効果は大きい。
また、先述のように、検索エンジン100にて検索キーや分類等を履歴保存するようにすれば、これらの検索キー等を基にユーザの趣味等を総合的に評価可能である。評価は、例えば各検索キーに使用されている用語や分類の統計を取ったりすることで、ユーザの趣味、購入動向を調査する。この評価に際しては、期間を限定したり、最新の検索キー等のみに絞ったり、最新の検索キー等を優先的に扱ったりしてもよい。そして、この調査結果に基づき一致若しくは近い広告を選択してユーザパソコンに表示する。
次に、本発明の第5の実施形態について説明する。
本発明の第1実施形態〜第4実施形態では、検索エンジン100にてデータベースを検索するとして説明した。
これに対し、本発明の第5実施形態では、検索エンジン100がユーザにより指定された検索式等に基づき海外検索エンジンを直接検索し、その結果をユーザパソコンに表示するものである。
ユーザは、ユーザパソコンにダウンロードされた図1に示す検索エンジン100の画面に従い、分類を分類表示部5より指定し、検索キー欄15に検索式を完成させた後、検索ボタン25をクリックする。検索キー欄15では、1文字〜数文字の文字頭部の入力により候補選択等も可能である。このとき、国名選択欄55に選択された国データをもとに、その国のホームページを検索可能な海外検索エンジン200のURLが検索エンジン100により判断される。この際には、海外検索エンジン200で使用されている言語も判断され、データベースより当該言語に属する訳語が検索式として抽出される。なお、この海外検索エンジン200とそのURL、海外検索エンジン200にて使用されている言語等は、予め検索エンジン100に登録されている。但し、国名選択欄55に代えて海外検索エンジン200を直接選択可能なようにしてもよい。
そして、かかる海外検索エンジン200のURLが検索エンジン100により抽出され、検索エンジン100のブラウザにてアドレス指定される。検索エンジン100のブラウザにHTML文書、画像ファイル等がダウンロードされた後、検索エンジン100より当該海外検索エンジン200に対し翻訳された検索式が渡され、検索が行われる。そして、検索の結果であるHTML文書及び画像ファイルは、検索エンジン100を介してユーザパソコンにダウンロードされ表示される。
1 辞書表示部
3 辞書項目
4 分野辞典
5 分類表示部
7 分類項目
9 詳細分類
10 文字入力支援ツール
11 タブ
13 文字一覧
15 検索キー欄
17 演算子
23、85 候補要求ボタン
24 類義語ボタン
25 検索ボタン
27、51 頻度順ボタン
29、53 五十音順ボタン
31、54 アルファベット順ボタン
33 地域選択欄
35 国内選択ボックス
37 外国選択ボックス
39、41、57 地図ボタン
43 特徴欄
45 クリック回数上位用語ボタン
47 話題用語ボタン
49 Webページ使用用語ボタン
55 国名選択欄
59 検索結果リスト番号入力欄
60 辞書データベース
63 使用頻度欄
64 登録頻度欄
66 話題欄
81 使用言語選択欄
83 入力ボックス追加ボタン
87 演算子選択ボタン
91 登録キーワード入力欄
93 登録ボタン
97 分類名入力欄
101 リスト表示再開ボタン
111 用語索引部
113 分類データベース
115 辞典
117 類義語辞典
119 訳語辞典

Claims (1)

  1. ユーザにより情報処理装置の検索入力欄に入力された文字列に基づきWebページの検索を行うインターネット上の検索エンジンと、
    該検索エンジンにより使用されるデータベースと、
    該データベースに保存された所定の単語と、
    該所定の単語を含み検索エンジンにより抽出された複数のWebページと、
    該WebページのHTMLタグのキーワード欄中から、又は、該WebページのHTML文書中のテキストを分解した形態素中から、又は、該Webページの検索エンジンにおいてキーワード登録されている単語中から前記所定の単語以外の単語を該所定の単語の関連単語として抽出し保存する関連単語抽出手段と、
    該関連単語に一致する単語の個数をカウントし頻度順とするカウント手段と、
    該関連単語を頻度順、五十音順又はアルファベット順等の所定の順に基づき並べる頻度順等並べ替え手段と、
    該頻度順等並べ替え手段で並べられた内の複数個を前記所定の単語に対する関連単語としてユーザに対し表示する関連キーワード表示手段とを備えたことを特徴とするWebページ検索システム。
JP2011228367A 2000-10-11 2011-10-17 Webページ検索システム Pending JP2012014741A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011228367A JP2012014741A (ja) 2000-10-11 2011-10-17 Webページ検索システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000311301 2000-10-11
JP2000311301 2000-10-11
JP2011228367A JP2012014741A (ja) 2000-10-11 2011-10-17 Webページ検索システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001304487A Division JP2002189744A (ja) 2000-10-11 2001-09-28 Webページ検索システム

Publications (1)

Publication Number Publication Date
JP2012014741A true JP2012014741A (ja) 2012-01-19

Family

ID=45601001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011228367A Pending JP2012014741A (ja) 2000-10-11 2011-10-17 Webページ検索システム

Country Status (1)

Country Link
JP (1) JP2012014741A (ja)

Similar Documents

Publication Publication Date Title
JP5740029B2 (ja) 対話型サーチクエリーを改良するためのシステム及び方法
US9323827B2 (en) Identifying key terms related to similar passages
US8676820B2 (en) Indexing and search query processing
US8326860B2 (en) Indexing and searching product identifiers
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
US8099416B2 (en) Generalized language independent index storage system and searching method
US8874590B2 (en) Apparatus and method for supporting keyword input
KR20100047221A (ko) 사전 단어 및 어구 판정
Capstick et al. A system for supporting cross-lingual information retrieval
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
JP4934355B2 (ja) 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
JP2002189721A (ja) Webページ検索システム及び翻訳システム
US8082240B2 (en) System for retrieving information units
JP2002007450A (ja) 検索支援システム
KR20160015326A (ko) 데이터베이스 검색 방법
JP2017117021A (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP2011181109A (ja) 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
JP2002189744A (ja) Webページ検索システム
KR101037091B1 (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2012014741A (ja) Webページ検索システム
JP4004060B1 (ja) 文字検索方法
JP2003141125A (ja) マルチメディア情報統合検索装置およびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111116

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20130611