JPH10105562A - 検索システム - Google Patents

検索システム

Info

Publication number
JPH10105562A
JPH10105562A JP8254772A JP25477296A JPH10105562A JP H10105562 A JPH10105562 A JP H10105562A JP 8254772 A JP8254772 A JP 8254772A JP 25477296 A JP25477296 A JP 25477296A JP H10105562 A JPH10105562 A JP H10105562A
Authority
JP
Japan
Prior art keywords
text
word
character string
character
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8254772A
Other languages
English (en)
Inventor
Soshiro Kuzunuki
壮四郎 葛貫
Keiko Gunji
圭子 郡司
Akihiro Hashira
晃洋 柱
Toshimi Yokota
登志美 横田
Masaki Miura
雅樹 三浦
Toshio Fujiwara
敏雄 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8254772A priority Critical patent/JPH10105562A/ja
Publication of JPH10105562A publication Critical patent/JPH10105562A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】効率的な検索を可能とする。 【解決手段】予めデータベースを構成する複数のHTMLフ
ァイルの中から、リンクが定義されたテキストと定義さ
れたリンクを抽出し、リンクの階層に併せて階層的に、
単語辞書a6として管理する。検索のキーワードとなる
文字が入力されると、この単語の上位、下位の単語を単
語辞書a6より抽出し、キーワードとなる単語に連結し
た文字列を、各単語に定義されたリンクと共に、クライ
アントにおくるB。クライアントはこの文字列を表示し
A、利用者より文字列中の単語の指定があると、この単
語と共に送られたリンクを開き、リンク先のHTMLファイ
ルにアクセスする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、HTML(HyperText M
arkup Language)ファイルなどの、他のファイルへのリ
ンクが内部に記述されたリンク付きファイルの集合によ
って形成されたデータベースの検索を行う検索システム
に関するものである。
【0002】
【従来の技術】他のファイルへのリンクが内部に記述さ
れたリンク付きファイルの集合によって形成されたデー
タベースに含まれる情報を検索する技術としては、The
Internetとして知られるTCP/IPをベースにした世界的ネ
ットワークで用いられている検索エンジンの技術があ
る。また、このような検索エンジンとしては、クライア
ントから指定されたキーワードと、The Internetからア
クセス可能なHTMLファイルに含まれる全てのテキストを
比較し、一致するテキストを含むHTMLファイルのアドレ
ス(URL、パス)などをクライアントに提供するものなど
が知られている。また、あらかじめ、キーワード毎にHT
MLファイルを分類しておき、クライアントから指定され
たキーワードに対応するHTMLファイルのアドレス(UR
L、パス)などをクライアントに提供するものなどが知ら
れている。また、あらかじめ階層的な分類ごとにHTMLフ
ァイルを分類しておき、クライアントから階層的に分類
の指定を受け付け、最終的に所望のHTMLファイルのアド
レス(URL、パス)などをクライアントに提供するものな
どが知られている。
【0003】
【発明が解決しようとする課題】前述したキーワードを
用いる検索の技術では、クライアントを利用する利用者
はキーワードを正確に指定しなけらばならず、一文字で
も検索エンジンが取り扱うキーワードと異なる場合に
は、所望の検索を果たすことができない。特に、近年普
及しているペン入力型のコンピュータをクライアントと
して用いる場合などは、手書き文字の誤認識が生じるこ
とが避けられないため、キーワードによる検索を利用者
が効率的に行うことができない面がある。
【0004】また、前述した、HTMLファイルの全てのテ
キストをキーワードを比較する技術は、資源、時間的に
膨大なコストがかかるものである。また、前述した階層
的な検索は、利用者は、階層を辿らなければ所望の検索
を行うことができず、また、検索エンジンが管理する分
類の範囲や分類の仕方と、利用者の考える分類の範囲や
分類の仕方にずれがある場合には、所望の検索を行うこ
とが困難となる。
【0005】そこで、本発明は、さほど多くの資源を必
要とせずに、利用者が効率的に所望の検索を行うことの
できる検索システムを提供することを目的とする。
【0006】
【課題を解決するための手段】前記目的達成のために、
本発明は、種別が定義されたテキストを含む文書を、複
数記憶したデータベースを検索する検索システムであっ
て、前記データベースに記憶されている文書中より、所
定のテキスト種別が定義されたテキストを抽出し、蓄積
する蓄積手段と、記蓄積手段に蓄積されたテキストのう
ち、入力された文字列に対応すると考えられるテキスト
を推定する文字列推測手段と、推定されたテキストをキ
ーワードとして、前記データベースより、当該キーワー
ドに対応する文書を検索する手段とを有することを特徴
とする検索システムを提供する。
【0007】このような検索システムによれば、入力し
た単語の一部が検索エンジンの管理する単語と異なって
いた場合や、手書き文字の文字認識が誤った場合でも、
適切な検索を行うことができる。
【0008】また、前記目的達成のために、本発明は、
たとえば、他文書へのリンクが定義されたテキストを含
むリンク付き文書を、複数記憶したデータベースを検索
する検索システムであって、前記データベースに記憶さ
れているリンク付き文書中より前記リンクが定義された
テキストを、当該テキストに定義されたリンクと共に抽
出し、蓄積する蓄積手段と、入力された入力文字列に一
致するテキストを前記蓄積手段中より検索する検索手段
と、検索したテキストに定義されているリンクの示すリ
ンク先の、リンク付き文書を検索する手段とを有するこ
とを特徴とする検索システムを提供する。
【0009】このような検索システムによれば、利用者
より指定された単語の上位、下位の単語も併せてクライ
アントに提供することができ、利用者は、入力した単語
が適切であったかを判断することができるし、入力した
単語のみならず、その上位下位の単語を連結したものを
キーワードとして検索も行うことができるようになる。
【0010】
【発明の実施の形態】以下、本発明に係る検索システム
の位置実施態様について説明する。
【0011】本実施態様では、一例としてHTMLで記述さ
れたリンク付き文書によって構成されたデータベースを
検索する場合について説明する。
【0012】まず、本実施態様に係る検索システムが適
用されるネットワークシステムの全体構成を図1に示
す。
【0013】NET2はThe internetを構成するネットワ
ーク、NET1はThe interntに接続したIntranetを構成す
るネットワーク、CL1〜CL4はクライアント端末、SS1、S
S2はウェッブサーバーである。ウェッブサーバーは、サ
ーバマシンSM1、 SM2によって管理される複数のHTMLフ
ァイルを蓄積したデータベースData1、Data2より構成さ
れる。また、FWは、Intranet内へのIntranet外部よりの
アクセスを制限するファイヤーウォールである。
【0014】図示したシステムでは、Intranet内のクラ
イアントは外部のデータベース、も内部のデータベース
も、シームレスにアクセスできる。また、The internet
に接続したクライアントも、Intranet上のデータベース
を利用できる他、、FW許可する限りにおいてIntranet内
のデータベースを利用することができる。
【0015】次に、図2に、本実施態様に係る検索シス
テムが検索の対象とするデータベースシステムの構成を
示す。
【0016】図示するように、このデータベースシステ
ムは、ネットワーク上の複数のウェッブサーバより構成
される。マップサービスサーバSSbは地図情報を提供
し、観光案内サービスサーバSScは各種観光地の情報を
提供し、書籍サービスサーバSSdは出版されている書籍に
関する書籍名、出版社、価格等の情報を提供し、人名・
住所サービスサーバSSeは個人の氏名、住所、電話番号
などの情報を提供し、企業情報サービスサーバSSfは企業
の事業内容、製品、財務諸表等の企業内部情報を提供
し、ニュースサービスサーバSSgは新聞と同じように、世
界の情報をタイムリーに提供する。
【0017】また、残る検索マネージャサーバSSaは、
各ウエッブサーバが提供するサービスについての情報を
提供する。具体的には、検索マネージャサーバSSaは、
クライアントCLaからアクセスされると、各サーバSSb、
SSgの提供するサービスの一覧を、当該サービスを提供
するサーバへリンクと共に記述したHTMLファイルをクラ
イアントに送る。
【0018】クライアントは、このHTMLファイルに記述
されたサービスの一覧を表示し、ユーザによって一覧中
から所望のサービスが指定されると、検索マネージャサ
ーバSSaとの間のリンクを切断し、指定されたサービス
と共に記述されているリンクに従って、当該サービスを
提供するサーバとの間のリンクを確立し、そのサーバに
アクセスする。たとえば、マップサービスが指定される
と、クライアントは地図情報を提供するマップサービス
サーバSSbにアクセスすることになる。
【0019】マップサービスサーバSSbは、複数のHTML
ファイルや画像ファイルを蓄積しており、各ファイル
は、各ファイル中に記述されたリンクによって階層化さ
れている。すなわち、図3に示すように、マップサービ
ス全体について示しているe1のHTMLファイル中に、茨城
県のマップサービスについてのHTMLファイルe2などの各
都道府県各々のマップサービスについてのHTMLファイル
各々へのリンクが、各都道府県名称のテキストに関連づ
けられて記述されている。そして、たとえば、茨城県の
マップサービスについてのHTMLファイルには、大みか町
のマップサービスについてのHTMLファイルe3などの茨
城県内の各市町村各々のマップサービスについてのHTML
ファイル各々へのリンクが、各市町村名称のテキストに
関連づけられて記述されている。また、たとえば、大み
か町のマップサービスについてのHTMLファイルe3には、
大みか町の地図を表す画像ファイルe4などの大みか町内
の各地域の地図を表す画像ファイルへのリンクが、各地
域名称のテキストに関連づけられて記述されている。
【0020】具体的には、図3に示した、マップサービ
ス全体について示しているe1のHTMLファイルは図4のよ
うに記述され、茨城県のマップサービスについてのHTML
ファイルは図5のように記述されて、日立市のマップサ
ービスについてのHTMLファイルは図6のように記述され
る。
【0021】図4において行番号1と行番号32が、当
該ファイルHTMLファイルであることを示すタグ、行番号
2と行番号4が、その間がヘッダ部であることを表すタ
グである。また、ヘッダ部の行場番号3には、このHTML
ファイルのタイトル「マップサービス」が記述されてい
る。なお、ヘッダ部は、クライアント側では表示されな
い。
【0022】行番号5と行番号35は、その間がクライ
アント側で表示される内容に関する事項を記述したボデ
イ部であることを示している。また、行番号5は、テキ
スト文字を赤色にすることも宣言している。行番号6
は、テキスト「マップサービス」をサイズH1で中央に表
示することを、行番号7、30は段落の終了と、水平ラ
インの表示を、行番号8行目は改行を表している。ま
た、行番号9は、以降で用いられる相対アドレスに対す
る絶対アドレスを表している。
【0023】行番号10から行番号34は、2行毎に、
表示するテキストと、そのテキストにが指定されたとき
移動するHTMLファイルのアドレスであるリンク先を相対
アドレスで表している。たとえば、行番号16は、先に
行番号9で指定した絶対アドレス「http:/www.MAP-SER
V.or.jp/"の下にある「map-茨城県.html」をリンク先と
して指定しており、行番号17は、指定されたときに、
このリンク先に移動するテキストとして「●茨城県」を
指定している。
【0024】図5、図6のHTMLファイルも同様に記述さ
れている。なお、図5の茨城県のマップサービスについ
てのHTMLファイルは、図4のHTMLファイルのテキスト
「●茨城県」に対して定義されたリンク先「http:/www.
MAP-SERV.or.jp/map-茨城県.html」で指定される。ま
た、図6の日立市のマップサービスについてのHTMLファ
イルは、図5のHTMLファイルのテキスト「●日立市」に
対して定義されたリンク先「http:/www.MAP-SERV.or.jp
/map-日立市.html」で指定される。
【0025】また、同様に、図7の大みか町のマップサ
ービスについてのHTMLファイルは、図7のHTMLファイル
のテキスト「●大みか町」に対して定義されたリンク先
「http:/www.MAP-SERV.or.jp/map-大みか町.html」で指
定される。
【0026】この図7のHTMLファイルも、図4〜6と、
ほぼ同様に記述されているが、ボディ部の行番号9、1
0では、「http:/www.MAP-SERV.or.jp/map-大みか町.gi
f」で指定される画像ファイルの画像を表示することを
記述している。
【0027】なお、図4の行番号31は全国地図画像を
表示するHTMLファイル”全国.html”へのリンクであ
り、図5の行番号23は茨城県の地図画像を表示するHT
MLファイル”茨城.html”へのリンクであり、図6の行
番号23は日立市の地図画像を表示するHTMLファイル”
日立.html”へのリンクである。
【0028】また、図4の行番号31、図5の行番号2
5、図6の行番号25は、クライアントとマップサービ
スサーバSSbに設けられている検索エンジンとのインタ
フェースとなるHTMLファイルへのリンクである。
【0029】以上のようなHTMLファイル群を蓄積したマ
ップサービスサーバSSbにクライアントがアクセスする
と、まず、図4のHTMLファイルがマップサービスサーバ
SSbから送られマップサービスの全体画面e1がクライア
ント側で表示され、この表示上で”●茨城県”を指示す
ると、”●茨城県”にリンクした図5のHTMLファイルが
マップサービスサーバSSbから送られ市町村名の画面e2
がクライアント側に表示され、ここで、同様に”●日立
市”を指定すると、これにリンクした図6のHTMLファイ
ルがマップサービスサーバSSbから送られ日立市のマッ
プサービス画面e3が表示され、ここで、”大みか町”を
指定すると、図7のHTMLファイルがマップサービスサー
バSSbから送られ”大みか町”の地図画面が表示される
ことになる。また、各画面において、”◇サービス”を
指定すると、その画面の階層に応じた地域の地図を表示
するHTMLファイルがマップサービスサーバSSbから送ら
れ、クライアント側に表示されるとになる。また、各画
面において”◇検索入力画面”を指定すると、マップサ
ービスサーバSSbが提供する情報(HTML"ファイルを検索
する検索エンジンとの間のインタフェースとなる検索入
力用画面を表示するHTMLファイルが、マップサービスサ
ーバより送られ、クライアント側に表示される。
【0030】以下では、このようなマップサービスサー
バSSbの情報を検索する場合を例にとり、本検索システ
ムの詳細を説明することとする。
【0031】図8に、本検索システムの構成を示す。
【0032】図示するように、本検索システムは、クラ
イアントCLとマップサービスサーバSS上に設けられた
検索エンジンSEより構成される。
【0033】クライアントCLは、本検索システムに関わ
る部位として、ペンa9による手書き入力を行うためのタ
ブレット、タブレットa9から手書き入力された文字を認
識辞書a2を参照して認識する文字認識部a3、音声を入力
するためのマイクa10、マイクa10から入力された音
声を認識する音声認識部a11、テキストのキー入力な
どを行うためのキーボードa12、各種表示を行うためのL
CD(液晶ディスプレイ装置)などを備えている。
【0034】クライアントCLは、実際には、図9に示す
ように、タブレットa1、タブレットコントローラc
1、LCDa8、LCDコントローラc2、マイクロフォンa
10、マイクロフォンコントローラc6,キーボードa
12、キーボードコントローラc8,CPU(c3)、RAM
(c4)、ROM(c5)、intranetを構成するットワー
クに接続するためのLANコントローラ(c7)などによ
り構成することができる。この場合、図8に示した文字
認識部a3や音声認識部あ11は、CPU(c3)がROM
(c4)やRAM(c5)に格納されたプログラムを実行するこ
とにより具現化するプロセスとして実現される。また、
認識辞書はROM(c4)やRAM(c5)に格納される。なお、こ
のようなプロセスとしては、この他、各種ウェッブサー
バにアクセスしてHTMLファイルを受信したり、受信した
HTMLファイルを、その記述に従って表示したり、HTML
ファイルその記述に従ってウェッブサーバに各種情報を
送信したりするブラウザプロセスなどもある。
【0035】さて、図8に戻り、マップサービスサーバ
SS上に設けられた検索エンジンSEは、出現確率テーブル
d8、遷移確率テーブルa4、単語辞書a6、単語推測
部a5、文字列推測部a7、辞書生成部d9を備えてい
る。
【0036】このような検索システムの構成において、
クライアントCLは、図3の各画面において”◇検索入力
画面”を指定することにより、表示される検索入力用画
面上において、タブレットa1により受け付けた手書き
の文字列を受け付け、認識辞書a2に蓄積された文字パ
ターンとの照合などにより手書き文字列を解析し、各手
書きストロークによる筆跡に対応する文字の候補となる
複数の文字を候補文字として検索エンジンSEに送る。ま
たは、検索入力用画面が表示されている状態で、マイク
a10から入力された音声を音声認識部a11で認識し、
入力された音声に対応する文字の候補となる複数の文字
を候補文字として検索エンジンSEに送る。
【0037】検索エンジンSEの単語推測部a5は、一連
の複数の手書き文字各々について複数の候補文字が送ら
れると、候補文字の組み合わせのいづれがマップサービ
スサーバを検索するにふさわしい単語を表しているか
を、出現確率テーブルd8、遷移確率テーブルa4を参
照して推測する。文字列推測部a7は、単語辞書a6を
参照し、単語推測部a5が推測した単語と、これに関連
する文字列を生成し、単語推測部a5が推測した単語に
対応するHTMLファイルへのリンクと共に、クライアント
CLに送る。辞書生成部d9は、予め、出現確率テーブルd
8、遷移確率テーブルa4、単語辞書a6を作成する処
理を行う。
【0038】クライアントCLでは、送られた文字列をLC
Da8に表示し、 この文字列が利用者が検索しようとした
内容を表しているか利用者に問い合わせる。そして、利
用者より表示された文字列が意図に沿ったものであると
の指示がなされたならば、文字列と共に送られたリンク
先にアクセスし、このHTMLファイルをマップサービスサ
ーバSSbから受け取りLCD(a8)に表示する。
【0039】以下、このような検索システムの詳細につ
いて説明する。
【0040】まず、検索エンジンの辞書生成部d9が行う
出現確率テーブルd8、遷移確率テーブルa4、単語辞
書a6を作成する処理について説明する。
【0041】図10に、この単語辞書a6を作成する処
理の概要を示す。図中、e12が単語辞書a6を作成する
処理に相当する。
【0042】図示するように、この処理では、一定周期
毎にマップサービスサーバSSbに蓄積されているHTMLフ
ァイルを調べ、その内容に変更があった場合には、ま
ず、マップサービスサーバーSSbの最上位層のHTMLファ
イルから、この最上位層のHTMLファイルに直接もしくは
間接的にリンクしているHTMLファイルを、順次ファイル
内に記述されたリンクを辿りながら調べていく。最上位
のHTMLファイル中の一つのリンクから順次リンク先のHT
MLファイル中の一つのリンク先を選択しながら、リンク
先が記述されていないHTML ファイルまで調べていくこ
とを1検索パスとすると、本実施態様の場合は、たとえ
ば、1回の検索パスで 図10のe1の画面に対応する図4
のHTMLファイルから順次、リンクを辿って図19のe2、
e3、e4のHTMLファイルなどが調べられることになる。
【0043】そして、リンクされた各HTMLファイルのツ
リー状の階層構造を認識する。また、各HTMLファイル
の、リンク先が記述されたタグ中のテキストとリンク先
を抽出する。具体的には、たとえば、図4のHTMLファイ
ルからは、行番号10〜29中の表示するテキスト部分
とリンク先のアドレス部分が抽出される。なお、この抽
出の際は、必要に応じて、タイトルタグ中のテキストな
ども抽出するようにしてよい。また、リンク先の抽出の
際には、絶対アドレスを定義しているタグを参照し、相
対アドレスで記述されたリンク先を絶対アドレスの記述
に戻しておく。
【0044】このようにして各HTMLファイルからテキス
ト部分を抽出したら、これを、(必要に応じてかな漢字
変換、英日翻訳などを施した後に)単語とし学習用単語
辞書に一旦格納する。そして、その後、学習用単語辞書
から抽出された各単語を読み出し、各単語は、この単語
が抽出されたHTMLファイルへのリンクを持つHTMLのこの
単語が抽出されたHTMLファイルへのリンク先が記述され
たタグ中から抽出した単語の下位の単語であるとするこ
とにより、図11に示すように単語のツリー状の階層構
造を定義した単語辞書a6を生成する。また、単語辞書
a6において、各単語と共に当該単語と同じタグ中から
抽出したリンク先PAをマップポインタとして記述する。
また、単語辞書a6中において各単語には、単語固有の
単語No.に、その単語のツリー状上位に位置する単語No.
を付加するようにしている。
【0045】結果、図11に示すように、マップサービ
スサーバーSSbのHTMLファイル群によるサービスの階層
に従って、都道府県・市町村・それ以下で階層化された
構造の単語辞書が得られる。また、単語辞書の、各要素
は、単語No.(単語の位置情報),上位単語No.,マッ
プポインタ,単語(文字列)となる。
【0046】さて、のようにして単語辞書a6を作成し
たならば、次に、出現確率テーブルd8と遷移確率テー
ブルa8の作成を行う。
【0047】この作成の手順を図12に示す。
【0048】この処理では、まず、学習用単語辞書d2
0に蓄積されている単語を読み出すd1。読み出した単
語について、単語中に含まれる文字の出現回数をカウン
トし(d2)、出現回数テーブルd3に記録する。続い
て、ある文字からある文字へ遷移した回数である文字遷
移回数を、2つの文字の順列ごとにカウントし(d
4),遷移回数テーブルd6に記録する。続いて、遷移
回数テーブルd6に、その文字遷移が含まれていた元の
単語の単語辞書a6における単語No.(単語のポイン
タ)を記録するd5。例えば、単語「大みか」の例で
は、文字の出現回数は、「大」「み」「か」それぞれ1
回、文字遷移回数では「大→み」と「み→か」がそれぞ
れ1回とカウントされる。また、「大→み」と「み→
か」の候補単語No.には、単語「大みか」の単語No.が
記録される。このような処理d1〜d6を、単語辞書a
6中の全ての単語について繰り返し行う。その後、前記
処理により作成した文字出現回数テーブルd3と文字遷
移回数テーブルd6を参照して、文字間の遷移確率と文
字遷移を含む候補単語No.の情報を記述した遷移確率テ
ーブルa4を作成する(d9)。
【0049】さらに、必要があれば、文字出現回数テー
ブルd3を参照して、文字毎の出現確率を記述した文字
出現確率テーブルd8を作成する(d7)。
【0050】ここで、図13に、文字出現回数テーブル
d3の構成を示す。
【0051】図示するように、文字出現回数テーブルd
3には、各文字毎に学習用単語辞書中における文字の出
現回数(個数)がカウントされ、出現回数として記録さ
れる。
【0052】次に、図14に、文字遷移回数テーブルd
6の構成を示す。
【0053】図示するように、文字遷移回数テーブルd
6は、学習用単語辞書中に各文字遷移が現れた回数と、
文字遷移が含まれていた単語の単語辞書a6中のNo.
(単語No.)を記録する。
【0054】次に図15に、文字出現確率テーブルd8の
構成を示す。
【0055】文字「日」の出現確率は、出現確率(日)
=出現回数(日)/全文字数で表せる。従って、文字出
現確率テーブルd8を作成するには、文字出現回数テー
ブルd3を参照し、各文字の出現回数を求め、これを学
習用単語辞書d20中の全文字数で割った値を、文字毎
に、文字出現確率テーブルd8に記録する。
【0056】次に、図16に、文字遷移確率テーブルa4
の構成を示す。
【0057】ここで、例えば、文字遷移「日→立」の遷移
確率は、遷移確率(日→立)=遷移回数(日→立)/出
現回数(日)で表せる。そこで、、文字遷移確率テーブ
ルa4には、文字出現回数テーブルd3と文字遷移回数
テーブルd6を参照して、各2文字間の遷移確率を求
め、これを、この2文字と共に文字遷移確率テーブルa
4に記録する。
【0058】以上、辞書作成部d9の行う処理について
説明した。
【0059】次に、単語推測部a5が行う単語を推測す
る処理について説明する。
【0060】図17に、この処理の概要を示す。
【0061】いま、クライアントCLから、検索エンジン
SEに、利用者が「大みか」と手書き入力した3文字の手
書き文字列の各文字の候補文字として、第1番目の文字
に対して「大」と「犬」が、第2番目の文字対して
「る」と「み」が、第3番目の文字に対して「か」と
「カ」が第1候補、第2候補として送られてきた場合を
考える。
【0062】この場合、候補文字の組み合わせは、図1
7bに示す8通りが考えられる。そこで、これら8通り
の文字列について、文字出現確率テーブルd8と文字遷
移確率テーブルa4を参照して、文字列の出現確率と、
この文字列の単語辞書a6中の単語候補の単語のポイン
タを求める。
【0063】文字列の出現確率は次式によって求めるこ
とができる。
【0064】すなわち、文字列S1 S2 …Snの出
現確率は、次式で近似できる。
【0065】出現確率(S1 S2 …Sn)=出現確
率(S1)×遷移確率(S1→S2)×…×遷移確率(Sn
−1→Sn) 図17bの候補文字の組み合わせNo.3の「大みか」の
例では、以下の通りとなる。
【0066】出現確率(大みか)=出現確率(大)×遷
移確率(大→み)×遷移確率(み→か) 具体的には、遷移確率テーブルa4と出現確率テーブル
a8とにより、次式の通り値が求められる。
【0067】 出現確率(大みか) =(18/89274)×(1/18)×(2/15)×(2/198) =14940×10-8% このようにして、各文字列の出現確率を求めたら、出現
確率が最大の1又は複数の文字列を候補単語とする。
【0068】そして、次に、候補単語に対応する単語の
単語辞書a6中の位置を示す単語No.を次のようにして
求める。
【0069】いま、この候補単語が文字列S1 S2
…Snである場合、この単語No.は、文字遷移確率テー
ブルa4に記述した候補単語No.より次式のように求め
ることができる。
【0070】単語No.(S1 S2 …Sn)=候補単
語No.(S1→S2)∩…∩候補単語No.(Sn−1→S
n) 文字列「大みか」の場合は、文字遷移確率テーブルa4
により次式のようになる。
【0071】 候補単語No.(大みか) =∩候補単語No.(大→み)∩候補単語No.(み→か) =(A11)∩(A11,A12) =A11 この例では、各文字遷移に対する候補単語No.の集合の
アンド(∩)をとることにより、単語No.を「大みか
町」(A11)に絞ったが、オア(∪)をとり単語Noを
「大みか町」と「みかの原町」にしてもよい。
【0072】なお、この場合でも、全集合中に含まれる
最大の単語No.として「大みか町」の単語No.を求めるこ
とができる。
【0073】なお、このような手順によれば、「大みか
町」の一部分である「みか」のみを入力しても、単語N
o.として「大みか町」と「みかの原町」の単語No.を求
めることができる。
【0074】次に、文字列推測部a7の行う文字列の推
測処理について説明する。
【0075】図18に、この処理の概要を示す。
【0076】いま、前述した単語推測部a5の処理によ
り単語「大みか町」の単語No.A11が得られた場合を
考える。
【0077】この場合、図18Bに示すように、単語No.
11は最下位の階層であり、上位単語No.のリンクを辿る
ことにより上位の単語として「日立市」「茨城県」が一
意に抽出できる。
【0078】そして、この場合、文字列推測部a7は、
抽出した単語と文字推測部a5で求めた単語No.の単語
と上位のものから順次連結した「茨城県 日立市 大み
か町」を求める文字列とする。そして、この文字列を、
文字列中の最下位の単語と共に記述されているマップア
ドレスPAと共にクライアントCLに送る。また、この際、
文字推測部a5が求めた候補単語「おおみか」に対応す
る文字列部分は反転表示するよう指定して、文字列を送
る。
【0079】そして、クライアントCLは、この送られた
文字列を、指定に従って候補単語「おおみか」に対応す
る文字列部分を反転表示した形態でLCD(a8 )に表示して
いる検索用入力画面上に表示する。
【0080】図18Aは、クライアントCLのLCD(a8 )に
表示される検索入力画面を示しており、図示するよう
に、「大みか」と手書き入力した検索用入力画面上に、
検索エンジンSEの文字列推測部a7から送られた「茨城
県 日立市 大みか町」を表示している。クライアント
CLにおいて、この「茨城県 日立市 大みか町」の表示
部分が利用者により指定されると、クライアントCLは、
この「茨城県 日立市大みか町」と共に送られたマップ
アドレスPAが示すマップサービスサーバSSbのアドレス
のファイル、すなわち、図7の大みか町の地図画像を表
示するHTMLファイルにアクセスする。
【0081】ここで、文字列推測部a7は、抽出した単
語と文字推測部a5で求めた単語No.の単語を上位のも
のから順次連結した「茨城県 日立市 大みか町」と共
に、各単語と共に記述されている各マップアドレスPAを
クライアントCLに送るようにしてもよい。この場合、ク
ライアントCLは、「茨城県 日立市 大みか町」の表示
中の、単語「茨城県」の部分が利用者により指定される
と「茨城県」と共に送られたマップアドレスPAが示す図
5のHTMファイルに、「日立市」の部分が利用者により
指定されると、単語「日立市」と共に送られたマップア
ドレスPAが示す図6のHTMファイルに、単語「大みか
町」の部分が利用者により指定されると「大みか町」と
共に送られたマップアドレスPAが示す図7のHTMファイ
ルににアクセスする。
【0082】また、文字列推測部a7は、抽出した単語
と文字推測部a5で求めた単語を上位のものから順次連
結した「茨城県 日立市 大みか町」と共に、文字推測
部a5で求めた候補単語「大みか」の双方を、マップア
ドレスPAと共にクライアントCLに送り、図19に示すよ
うに双方が側において表示されるようにしてもよい。
【0083】次に、図20Bに示すように、前述した単
語推測部a5の処理により単語「日立市」の単語No.A
11が得られた場合を考える。
【0084】この場合、図20Bに示すように、単語N
o.A11は中間階層であり、上位単語No.のリンクを調べる
上位の単語として「茨城県」、下位の単語として「大み
か町」、「みかの原町」・・・が求まる。この場合、文
字列推測部a7は、最上位の単語「茨城県」からリンク
の最下位の各単語「大みか町」、「みかの原町」・・・
への、単語推測部a5が求めた単語No.の単語を経路中
に含む各パスに対応する各文字列「茨城県 日立市 大
みか町」「茨城県 日立市 みかの原町」・・・を、マ
ップアドレスPAと共にクライアントCLに送る。クライア
ントCLは、図20Aに示すように送られてきた各文字列
を表示する。クライアントCLにおいて、表示中の利用者
から指示された部分において、対応するPAのアドレスの
ファイルにアクセスするのは先ほどと同じである。
【0085】ところで、このように複数の文字列が文字
列推測部a7で求まる場合には、この文字列に優先順位
を設け、優先順位の順にクライアント側において表示す
るようにしてもよい。
【0086】優先順位のつけかたとしては、図21に示
すように、単語辞書a6に登録された単語間の遷移確率
も、文字間の遷移確率と同様にして求めておき、上位単
語との間の遷移確率を単語辞書a6の単語と共に記述し
ておき、求まった複数の文字列のうち、文字列に含まれ
る単語に記述された単語遷移確率の積の大きいものほど
優先順位が高いものとするようにしてもよい。 また
は、図22に示すように、単語辞書a6に登録された各
単語に対応する地域の人口を別途単語と共に登録してお
き、この人口が多いものほど優先順位が高いものとする
ようにしてもよい。
【0087】ところで、単語推測部a5で、単語辞書の
中間階層の単語No.がも止まった場合は、文字列推測部
a7は、図23に示すように、この単語No.の単語と、
この単語の上位の単語を連結した文字列のみをマップア
ドレスと共にクライアントCLに送り、表示するように
してもよい。
【0088】ところで、このような文字列推測部a7か
ら送られた文字列のクライアントCLにおける表示であ
るが、これは、図24に示すように「大みか」と入力さ
れた手書き文字を入力位置に表示した近くに文字列「茨
城県 日立市 大みか町」の中の「大みか町」の部分を
表示するようにしてもよい。このような表示によれば、
手書きした筆跡と認識結果の候補を対比しやすいメリッ
トがある。または、図25に示したように、「大みか」
と手書き文字を表示した位置の近くから、「茨城県 日
立市 大みか町」と表示するようにしてもよい。このよ
うな表示によれば、手書き文字と表示文字列の頭が揃っ
ているので、結果の表示開始位置が容易に分かるメリッ
トがある。または、図26に示すように、「大みか」と
手書き文字を表示した位置を中心として、文字列「茨城
県 日立市 大みか町」と表示するようにしてもよい。
このような表示によれば、手書き文字と文字列の位置が
全体的に見て一番近く、視点をあまり動かさなくて済む
というメリットがある。または、図27に示すように、
「大みか町」と手書き文字を表示した終りの位置と候補
文字列「茨城県 日立市 大みか町」の最後の文字の位
置を揃えて表示するようにしてもよい。このような表示
によれば、特に右利きの利用者がペンを持った手の下に
候補文字列が隠れないメリットがある。また、これらの
表示のうちの一つを、利用者が任意に選択できるように
してもよい。また、図示したように手書き文字に対応す
る「大みか」を反転表示して分かりやすく表示するかわ
りに、例えばフォントを変えるなど、他のスタイルによ
って表示してもよい。また、特に反転表示やフォントを
変えるなどを行わなくてもよい。
【0089】以上、本発明に係る検索システムの一実施
形態について説明した。
【0090】なお、以上の実施形態においては、図8に
示すように、文字認識部a3、音声認識部a11は、ク
ライアントCL配置したが、これらは、検索エンジンSE側
に配置し、複数のクライアントCLから共用可能とするよ
うにしてもよい。この場合、クライアントCは、検索エ
ンジンに、手書き文字の画像や音声を送ることになる。
【0091】また、逆に、図9の検索エンジンを、個々
のクライアントに備えるようにすることも可能である
し、図9の検索エンジンを、クライアントCLやマップサ
ービスサーバとは別に、ネットワーク上に備えるように
してもよい。
【0092】また、以上の実施形態では、単語辞書a6
にマップアドレスとして各単語に定義づけられたリンク
先も登録し、文字列推測部a7から文字列をクライアン
トCLに送る際にリンク先も送り、このリンク先をクライ
アントが利用することにより検索を実現したが、これは
次のようにしてもよい。
【0093】すなわち、単語辞書a6にはマップアドレ
スは登録せず、文字列推測部a7からは1または複数の
文字列のみをクライアント側に送る表示させる。そし
て、クライアント側は、表示上で利用者が指定した文字
列を検索エンジンに送る。検索エンジンは、この文字列
をキーワードとして、このキーワードに対応するHTMLフ
ァイルを検索し、そのHTMLファイルへのリンク先をクラ
イアントに送る。そして、クライアントは、このリンク
先のHTMLファイルにアクセスする。キーワードによりHT
MLファイルの検索は、従来の検索エンジンが行うキーワ
ードによる検索と同様な技術によって行うことができ
る。
【0094】このようにしても、上記実施形態と同様な
検索を実現することができる。
【0095】なお、このようなキーワード検索を行う場
合において、図22のように単語辞書における一部の階
層の単語のみを表示する場合は、この表示後にユーザが
入力した文字を、表示した文字列に連結した文字列をク
ライアントから検索エンジンにおくり、検索エンジンに
おいて、これをキーワードとして検索を行うようにして
もよい。
【0096】なお、以上の実施形態に係る検索システム
は、マップサービスサーバ以外の各種サーバに適用可能
であり、また、HTMLに限らず、Java、VRMLなど各種リン
ク付きファイルに適用可能である。
【0097】以上説明してきたように本実施形態によれ
ば、リンク付きファイルの中から、各リンク付きファイ
ルの内容を比較的適切に表していると考えられるリンク
先が定義されたテキストのみを抽出し、このテキストを
もとに検索を行うので資源をさほど消費することなく、
効果的な検索を行うことができる。
【0098】また、この際に、リンク先も抽出してお
き、これを直接クライアントに提供するので、効率的に
検索したリンク付きファイルのアドレスをクライアント
に提供することができる。
【0099】また、リンク付きファイルのリンクの関係
に従い、利用者より指定された単語の上位、下位の単語
も併せてクライアントに提供するので、利用者は、入力
した単語が適切であったかを判断することができるし、
入力した単語のみならず、その上位下位の単語を連結し
たものをキーワードとして検索も行うことができる。
【0100】また、文字の出現確率や遷移確率に基づい
て、利用者から入力された文字列を、検索に用いる単語
として適していると考えられる文字列に変換するので、
利用者は検索に必要な単語の一部を入力するのみで適切
な検索を行うことができる、また、入力した単語の一部
が検索エンジンの管理する単語と異なっていた場合や、
手書き文字の文字認識が誤った場合でも、適切な検索を
行うことができる。したがって、利用者の検索の効率は
向上する。
【0101】
【発明の効果】以上のように、本発明によれば、さほど
多くの資源を必要とせずに、利用者が効率的に所望の検
索を行うことのできる検索システムを提供することがで
きる。
【図面の簡単な説明】
【図1】ネットワークシステムの構成を示すブロック図
である。
【図2】データベースシステムの構成を示すブロック図
である。
【図3】マップサービスサーバの提供するHTMLファイル
の関係を示す図である。
【図4】マップサービスサーバの提供するHTMLファイル
を示す図である。
【図5】マップサービスサーバの提供するHTMLファイル
を示す図である。
【図6】マップサービスサーバの提供するHTMLファイル
を示す図である。
【図7】マップサービスサーバの提供するHTMLファイル
を示す図である。
【図8】検索システムの構成を示すブロック図である。
【図9】クライアントの構成を示すブロック図である。
【図10】辞書作成処理部の行う処理の概要を示す図で
ある。
【図11】単語辞書の構成を示す図である。
【図12】辞書作成部の辞書作成の処理の概要を示す図
である。
【図13】文字出現回数テーブルの構成を示す図であ
る。
【図14】文字遷移回数テーブルの構成を示す図であ
る。
【図15】文字出現確率テーブルの構成を示す図であ
る。
【図16】文字遷移確率テーブルの構成を示す図であ
る。
【図17】単語推定部の行う処理の概要を示す図であ
る。
【図18】文字列推定部の行う処理の概要を示す図であ
る。
【図19】文字列推定部の行う処理の概要を示す図であ
る。
【図20】文字列推定部の行う処理の概要を示す図であ
る。
【図21】文字列推定部の行う処理の概要を示す図であ
る。
【図22】文字列推定部の行う処理の概要を示す図であ
る。
【図23】クライアントにおける文字列の表示のようす
を示した図である。
【図24】クライアントにおける文字列の表示のようす
を示した図である。
【図25】クライアントにおける文字列の表示のようす
を示した図である。
【図26】クライアントにおける文字列の表示のようす
を示した図である。
【図27】クライアントにおける文字列の表示のようす
を示した図である。
【符号の説明】
CL1〜CL4、CLa、CLb…クライアント SS1〜SS2、SSa〜SSg…ウェッブサーバ SE…検索エンジン SM1〜SM2…サーバマシン Data1〜Data2…データベース NET1、NET2…ネットワーク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 横田 登志美 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内 (72)発明者 三浦 雅樹 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内 (72)発明者 藤原 敏雄 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】種別が定義されたテキストを含む文書を、
    複数記憶したデータベースを検索する検索システムであ
    って、 前記データベースに記憶されている文書中より、所定の
    テキスト種別が定義されたテキストを抽出し、蓄積する
    蓄積手段と、 記蓄積手段に蓄積されたテキストのうち、入力された文
    字列に対応すると考えられるテキストを推定する文字列
    推測手段と、 推定されたテキストをキーワードとして、前記データベ
    ースより、当該キーワードに対応する文書を検索する手
    段とを有することを特徴とする検索システム。
  2. 【請求項2】他文書へのリンクが定義されたテキストを
    含むリンク付き文書を、複数記憶したデータベースを検
    索する検索システムであって、 前記データベースに記憶されているリンク付き文書中よ
    り前記リンクが定義されたテキストを、当該テキストに
    定義されたリンクと共に抽出し、蓄積する蓄積手段と、 入力された入力文字列に一致するテキストを前記蓄積手
    段中より検索する検索手段と、 検索したテキストに定義されているリンクの示すリンク
    先の、リンク付き文書を検索する手段とを有することを
    特徴とする検索システム。
  3. 【請求項3】他文書へのリンクが定義されたテキストを
    含むリンク付き文書を、複数記憶したデータベースを検
    索する検索システムであって、 前記データベースに記憶されているリンク付き文書中よ
    り前記リンクが定義されたテキストを抽出し、抽出した
    テキストと、各テキストに定義されたリンクの階層関係
    に従った各テキストの階層関係を蓄積する蓄積手段と、 前記蓄積手段より、入力された入力文字列に一致するテ
    キストと、当該テキストと前記階層関係上関連を有する
    テキストを、検索の依頼元に提示する手段を有すること
    を特徴とする検索システム。
  4. 【請求項4】請求項1記載の検索システムであって、 前記文字列推測手段は、前記データベースに記憶されて
    いる文書中よりテキストを抽出し、各文字の出現率と各
    文字間の遷移率を算出し記憶する手段と、入力する複数
    の文字列のうち、当該文字列に含まれる1又は複数の文
    字の出現率と文字間の遷移の遷移率の和が最大の文字列
    に、最も良く整合する、前記蓄積手段に蓄積されたテキ
    ストを、入力された文字列に対応すると考えられるテキ
    ストとして推定する手段とを有することを特徴とする検
    索システム。
  5. 【請求項5】請求項4記載の検索システムであって、 手書き文字を入力し、各手書き文字について、当該手書
    き文字に対応すると推定される複数の文字を候補文字と
    して出力する認識手段を備え、 前記入力する複数の文字列は、各手書き文字について一
    つづつ候補文字を手書き文字の並びの順に選択して得ら
    れる候補文字の複数の文字列であることを特徴とする検
    索システム。
  6. 【請求項6】ネットワークに接続されたサーバであっ
    て、 請求項1、2、3、4または5記載の検索システムと、
    前記データベースを備えたことを特徴とするサーバ。
  7. 【請求項7】ネットワークに接続されたデータベース
    と、ネットワークに接続されたクライアントと、ネット
    ワークに接続され、前記クライアントの依頼に応じて前
    記データベースを検索する請求項1、2、3、4または
    5記載の検索システムとを備えたことを特徴とするネッ
    トワークシステム。
JP8254772A 1996-09-26 1996-09-26 検索システム Pending JPH10105562A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8254772A JPH10105562A (ja) 1996-09-26 1996-09-26 検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8254772A JPH10105562A (ja) 1996-09-26 1996-09-26 検索システム

Publications (1)

Publication Number Publication Date
JPH10105562A true JPH10105562A (ja) 1998-04-24

Family

ID=17269679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8254772A Pending JPH10105562A (ja) 1996-09-26 1996-09-26 検索システム

Country Status (1)

Country Link
JP (1) JPH10105562A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001012960A (ja) * 1999-06-28 2001-01-19 Hitachi Ltd 情報提供システム
JP2002304407A (ja) * 2001-04-03 2002-10-18 Canon Inc プログラム及び情報処理装置
US9760628B2 (en) 2001-08-20 2017-09-12 Masterobjects, Inc. System and method for asynchronous client server session communication
JP2018538616A (ja) * 2015-11-18 2018-12-27 グーグル エルエルシー モバイルデバイス上での擬似ハイパーリンク
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001012960A (ja) * 1999-06-28 2001-01-19 Hitachi Ltd 情報提供システム
JP2002304407A (ja) * 2001-04-03 2002-10-18 Canon Inc プログラム及び情報処理装置
US9760628B2 (en) 2001-08-20 2017-09-12 Masterobjects, Inc. System and method for asynchronous client server session communication
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
JP2018538616A (ja) * 2015-11-18 2018-12-27 グーグル エルエルシー モバイルデバイス上での擬似ハイパーリンク
US10733360B2 (en) 2015-11-18 2020-08-04 Google Llc Simulated hyperlinks on a mobile device

Similar Documents

Publication Publication Date Title
US9323827B2 (en) Identifying key terms related to similar passages
Gupta et al. A survey of text mining techniques and applications
JP4365074B2 (ja) ユーザ定義可能なパーソナリティを備えた文書拡充システム
US6167370A (en) Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
JP3717808B2 (ja) 情報検索システム
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20080140644A1 (en) Matching and recommending relevant videos and media to individual search engine results
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
CN102402604A (zh) 搜索引擎的有效前向排序
US8892537B2 (en) System and method for providing total homepage service
US20060149775A1 (en) Document segmentation based on visual gaps
JP4200834B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
KR100434902B1 (ko) 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
KR102256007B1 (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JPH10105562A (ja) 検索システム
CN113434789B (zh) 基于多维度文本特征的搜索排序方法及相关设备
KR20010107810A (ko) 웹 검색시스템 및 그 방법
JP2010282403A (ja) 文書検索方法
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP2020181495A (ja) 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体
JP3943005B2 (ja) 情報検索プログラム