JPH09274646A - Urlの自動認識方法 - Google Patents

Urlの自動認識方法

Info

Publication number
JPH09274646A
JPH09274646A JP8084154A JP8415496A JPH09274646A JP H09274646 A JPH09274646 A JP H09274646A JP 8084154 A JP8084154 A JP 8084154A JP 8415496 A JP8415496 A JP 8415496A JP H09274646 A JPH09274646 A JP H09274646A
Authority
JP
Japan
Prior art keywords
url
template
character string
image
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8084154A
Other languages
English (en)
Inventor
Kiyotoshi Yoshii
清敏 吉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zakuson R & D Kk
Original Assignee
Zakuson R & D Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zakuson R & D Kk filed Critical Zakuson R & D Kk
Priority to JP8084154A priority Critical patent/JPH09274646A/ja
Publication of JPH09274646A publication Critical patent/JPH09274646A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 この発明は、書籍等に記述されているURL
を高速かつ高精度に自動認識できるURLの自動認識方
法を提供することを目的とする。 【解決手段】 URLの読み取り画像に基づいて、UR
Lを自動認識するURLの自動認識方法において、UR
Lに使用されうる2以上の文字からなる文字列のうちか
ら、所定のものを選択して、テンプレートとして登録し
ておき、URLの読み取り画像から、テンプレートに対
応する部分を抽出し、抽出した部分画像と、テンプレー
トとに基づいて、抽出された部分画像の文字列を認識す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する分野】この発明は、インターネットで利
用されているWWW上のアドレスであるURLを自動的
に認識するURLの自動認識方法に関する。
【0002】
【従来の技術】この明細書において、文字とは、URL
で使用される英文字、数字、その他の記号を含む意味で
用いられているものとする。
【0003】一般にWWW(world wide web) サービス
を利用する場合には、Netscape Navigator( 商品名) で
代表されるWWWブラウザと呼ばれるクライアント側ア
プリケーションが利用される。ユーザは、WWWサーバ
におかれた文書を要求する場合には、その文書名URL
(uniform Resource Locator)をブラウザから指定する。
すると、ブラウザから、その文書を持つサーバに対して
送信要求が送られ、そのサーバから指定された文書が送
られる。このように、WWWサーバにおかれた文書を要
求する場合には、その文書名URLを入力する必要があ
る。
【0004】図9は、URLの形式を示している。
【0005】URLは、プロトコル( Protocol ) と、
アドレス( address )と、パス( Path ) (パス)とか
らなる。URLは、アドレスで示されるサーバ上に、パ
スで示されるディレクトリ(にあるファイル)に、プロ
トコルで示される方法でアクセスすることを表してい
る。
【0006】プロトコルとアドレスとは、「: 」(コロ
ン)と「//」(2個のスラッシュ)とで区切られる。ア
ドレスとパスとは、「/ 」(1個のスラッシュ)で区切
られる。URLは、すべて1バイト(半角)の英数字お
よび記号で記述される。
【0007】プロトコルは、各種リソースに対するアク
セスの方法を指定するものである。アドレスは、接続先
のサーバをドメイン・ネームで指定するものである。パ
スは、目的のリソースがあるサーバ上のディレクトリを
指定するものである。ディレクトリに続けて、ファイル
名が記述されることもある。
【0008】ところで、各種雑誌、新聞等の書籍に、U
RLが紹介されている。書籍等に記述されているURL
の文書を要求する場合には、通常は、そのURLを手入
力しなければならず、その操作が面倒であった。そこ
で、URLの入力操作を容易にするために、書籍等に記
述されているURLをスキャナで読み取り、URLを構
成する文字を自動認識して、クライアント側アプリケー
ションに付与することが考えられる。
【0009】従来例として、URLをスキャナで読み取
り、1文字ずつテンプレートの文字と照合して、URL
を構成する文字を自動認識するものがある。しかしなが
ら、この方法では、1文字ずつテンプレートによる照合
を行なっているため、認識速度が遅い、認識精度が低い
という問題がある。
【0010】
【発明が解決しようとする課題】この発明は、書籍等に
記述されているURLを高速かつ高精度に自動認識でき
るURLの自動認識方法を提供することを目的とする。
【0011】
【課題を解決するための手段】この発明によるURLの
自動認識方法は、URLの読み取り画像に基づいて、U
RLを自動認識するURLの自動認識方法において、U
RLに使用されうる2以上の文字からなる文字列のうち
から、所定のものを選択して、テンプレートとして登録
しておき、URLの読み取り画像から、テンプレートに
対応する部分を抽出し、抽出した部分画像と、テンプレ
ートとに基づいて、抽出された部分画像の文字列を認識
することを特徴とする。
【0012】テンプレートとしては、URLに使用され
うる2以上の文字からなる文字列のうちから、使用され
る頻度または確率が高い複数の文字列を選択することが
好ましい。また、URLのヘッダ、ドメインネーム、フ
ァイル名それぞれに対して、テンプレートを登録するこ
とが好ましい。
【0013】URLの読み取り画像中のテンプレートに
対応する部分は、たとえば、URLの読み取り画像中に
含まれる特定の文字に基づいて抽出される。具体的に
は、URLの読み取り画像中のテンプレートに対応する
部分は、URLの読み取り画像中に含まれるスラッシュ
およびピリオドから抽出される。
【0014】URLを、文字列とその文字列を取り囲む
矩形枠とで構成しておき、URLの読み取り画像に含ま
れている矩形枠に基づいて、URLの読み取り画像に含
まれている文字列を正規化した後に、文字列の認識を行
なうことが好ましい。
【0015】
【発明の実施の形態】以下、図面を参照して、この発明
をハイパーテスキト型文書のURLを自動認識する場合
の実施の形態について説明する。
【0016】図1は、URL自動認識装置の構成を示し
ている。
【0017】URL自動認識装置は、書籍等に記述され
ているURLを含む画像を読み取るハンディスキャナ
1、ハンディスキャナ1によって読み取られた画像を記
憶する画像メモリ2、テンプレートが記憶されているテ
ンプレートメモリ3およびテンプレートマッチング処理
等の画像処理を行なって画像メモリ2に格納された画像
からURLを認識するCPU4を備えている。CPU4
は、そのプログラムを記憶するROM5および必要なデ
ータを記憶するRAM6を備えている。
【0018】図2は、URLの一例を示している。
【0019】図2の例では、”http" がプロトコルであ
る。"www.kuamp.nihon.ad.jp" がアドレスである。"lab
s/aisys/index.html" がパスである。この実施の形態で
は、”http://www."の部分または、”http:// " の部分
をヘッダということにする。
【0020】プロトコルは、通常は、図2の例のよう
に、”http" である。アドレスの先頭は、通常は、図2
の例のように、”www ”である。また、”www ”に続く
ドメインネーム"kuamp.nihon.ad.jp" は、"." (ピリオ
ド)で区切られた各領域に意味がある。ドメインネーム
の最後の領域( 以下、第1領域という)には、通常
は、”jp”(日本)、”uk”(イギリス)、”ca”(カ
ナダ)等の国名が記述される。ただし、米国のサーバに
対するドメインネームには、国名は記述されない。米国
のサーバに対するドメインネームの最後の領域には、た
とえば、”com ”(コンピュータ)、”net ”(ネット
ワーク)等の分野が記述される。
【0021】また、サーバが日本である場合には、ドメ
インネームの最後の領域の1つ前の領域( 以下、第2領
域という)に、”ac”(研究機関)、”ad”(ネットワ
ーク管理組織)、”co”(一般企業)、”go”(政府関
係)または”or”(上記以外の組織)といった機関の種
類が記述される。
【0022】パス"labs/aisys/index.html" における"l
abs/aisys"は、ディレクトリを示している。また、"ind
ex.html"はファイル名である。ファイル名は、"index"
のようなファイル名本文と、".html" のようなファイル
形式に対応した拡張子とから構成されている。拡張子".
html" の代わりに拡張子".htm " が用いられることもよ
くある。
【0023】テンプレートメモリ3には、ヘッダの認識
を行なうために用いられるヘッダ認識用のテンプレー
ト、ドメインネームの認識を行なうために用いられるド
メインネーム認識用のテンプレート、ファイル名の認識
を行なうために用いられるファイル名認識用のテンプレ
ート、URLに用いられる文字を1文字ずつ認識するた
めに用いられるテンプレートが予め格納されている。
【0024】ヘッダ認識用のテンプレートとしては、こ
の例では、使用される確率の高い「http://www. 」およ
び「http:// 」が登録されている。
【0025】ドメインネーム認識用のテンプレートとし
ては、第1領域認識用のテンプレート、第2領域認識用
のテンプレート…第n領域認識用のテンプレートがあ
る。
【0026】第1領域認識用のテンプレートとしては、
国名を表す「jp」(日本)、「uk」(イギリス)、「c
a」(カナダ)等、分野を表す「com 」(コンピュー
タ)、「net 」(ネットワーク)等のように、第1領域
として使用される確率が高い文字列が登録されている。
第1領域が”jp”である場合に用いられる第2領域認
識用のテンプレートとしては、機関の種類を表す「ac」
(研究機関)、「ad」(ネットワーク管理組織)、「c
o」(一般企業)、「go」(政府関係)または”or”
(上記以外の組織)が登録されている。
【0027】ファイル名認識用のテンプレートとして
は、ファイル名本文認識用のテンプレートと、拡張子認
識用のテンプレートとがある。ファイル名本文認識用の
テンプレートとしては、この例では、使用される確率の
高い「index 」が登録されている。拡張子認識用のテン
プレートとしては、この例では、使用される確率の高い
「html」および「htm 」が登録されている。
【0028】図3および図4は、URLの認識精度をあ
げるためのURLの記述方法を示している。
【0029】図3の例では、URLは、1行の文字列
と、その文字列を囲む矩形の枠11とによって構成され
ている。枠11の左上に三角形の開始記号12が、枠1
1の右下には三角形の終了記号13が、それぞれ記述さ
れている。
【0030】図4の例では、URLは、2行の文字列
と、各行の文字列を囲む矩形の枠11a、11bとによ
って構成されている。また、枠11aの左上に三角形の
開始記号12が、枠11bの右下には三角形の終了記号
13が、それぞれ記述されている。なお、開始記号12
および終了記号13としては、3角形のものに限らず、
太線、二重線等を用いることができる。
【0031】開始記号12および終了記号13は、UR
Lを構成する文字数が多いために、URLを構成する文
字列を複数回にわけて入力した場合に、URLを構成す
る文字列の範囲が把握されるようにするために記述され
ている。
【0032】図5は、CPUによって行なわれる自動認
識処理の全体的な処理手順を示している。図3のように
記述されたURLを例にとって、自動認識処理について
詳述する。
【0033】まず、ハンディスキャナ1によって取り込
まれた画像から、枠11の部分が抽出される(ステップ
1)。
【0034】次に、正規化処理が行なわれる(ステップ
2)。つまり、ステップ1で抽出された枠11の横線の
傾きが算出されることにより、入力文字列の傾きが求め
られる。また、枠11の上下の横線の間隔が算出される
ことにより、入力文字列の大きさが求められる。これら
の情報に基づいて、入力文字列の移動、回転が行なわれ
て文字列の位置合わせが行なわれるとともに入力文字列
の拡大、縮小が行なわれ文字の大きさがテンプレートの
文字の大きさに合わせられる。
【0035】この後、ヘッダの認識処理(ステップ
3)、ドメインネームの認識処理(ステップ4)、ファ
イル名の認識処理(ステップ5)、および残り部分の認
識処理(ステップ6)が行なわれる。
【0036】図6は、図5のステップ3のヘッダの認識
処理手順を示している。
【0037】以下の説明においては、便宜上、入力文字
列中の認識箇所を示すものとしてポインタを用いること
にする。
【0038】まず、ポインタが、入力文字列の先頭にセ
ットされる(ステップ11)。
【0039】そして、ポインタから始まる入力文字列
と、ヘッダ認識用のテンプレート「http://www. 」とが
照合される(ステップ12)。ポインタから始まる入力
文字列とテンプレート「http://www. 」とが一致したと
きには、入力文字列のヘッダは、「http://www. 」であ
ると認識される。そして、ポインタが入力文字列におけ
るヘッダ”http://www. ”の直後の文字に移動せしめら
れた後(ステップ13)、ヘッダの認識処理は終了す
る。図3の例では、ポインタから始まる入力文字列とテ
ンプレート「http://www. 」とが一致すると判定され
る。
【0040】ステップ12において、ポインタから始ま
る入力文字列とヘッダ認識用のテンプレート「http://w
ww. 」とが一致しなかったときには、ポインタから始ま
る入力文字列と、テンプレート「http:// 」とが照合さ
れる(ステップ14)。ポインタから始まる入力文字列
と、テンプレート「http:// 」とが一致したときには、
入力文字列のヘッダは、「http:// 」であると認識され
る。そして、ポインタが入力文字列におけるヘッダ”ht
tp:// ”の直後の文字に移動せしめられた後(ステップ
15)、ヘッダの認識処理は終了する。
【0041】ステップ12において、ポインタから始ま
る入力文字列とヘッダ認識用のテンプレート「http://w
ww. 」とが一致せず、かつステップ14においてポイン
タから始まる入力文字列とヘッダ認識用のテンプレート
「http:// 」とが一致しなかったときには、入力文字列
はハイパーテキスト型文書のURLではないものとみな
され(ステップ16)、処理が中止される。
【0042】図7は、図5のステップ4のドメインネー
ムの認識処理手順を示している。まず、入力文字列の現
在のポインタ位置から、その右側であって最初にスラッ
シュ"/" (アドレスとパスとの区切りのスラッシュ)が
ある位置までの間において、ピリオド"." の存在する位
置が検出される(ステップ21)。ただし、入力文字列
の現在のポインタ位置から右側にスラッシュ"/" が存在
しない場合には(パスが存在しない場合には)、入力文
字列の現在のポインタ位置から文字列の最後までの間に
おいて、ピリオド"." の存在する位置が検出される。
【0043】つまり、ポインタを右方向に移動させなが
ら、ポインタによって指定されている文字がピリオ
ド"." であるか、スラッシュ"/" であるかが判定され
る。そして、ポインタによって指定されている文字がピ
リオド"." であれば、その位置が記憶された後、ポイン
タが進められる。ポインタによって指定されている文字
がスラッシュ"/" であれば、そのスラッシュ"/" の直後
の文字位置までポインタが移動せしめられる。スラッシ
ュ"/" が最後まで検出されなかったときには、入力文字
列の最後の文字位置までポインタが移動せしめられる。
【0044】ピリオドが検出されなかった場合には(ス
テップ22でNO)、入力文字列はハイパーテキスト型
文書のURLではないものとみなされ(ステップ2
3)、処理が中止される。
【0045】ピリオドが検出された場合には、入力文字
列のうち、ピリオドで区切られた領域の画像が、後ろか
ら順に、第1被照合画像d1、第2被照合画像d2…第
m被照合画像dmとして、画像メモリ2に格納される
(ステップ24)。
【0046】そして、第1被照合画像d1と、第1領域
認識用の各テンプレートとの照合が行なわれる(ステッ
プ25)。第1領域認識用のテンプレートには、上述し
たように、国名を表す「jp」(日本)、「uk」(イギリ
ス)、「ca」(カナダ)等、分野を表す「com 」(コン
ピュータ)、「net 」(ネットワーク)等がある。
【0047】第1被照合画像d1と、第1領域認識用の
テンプレートのいずれかとが一致した場合には、第1被
照合画像d1はそれと一致したテンプレートの文字列で
構成されていると認識される。そして、当該第1領域認
識用のテンプレートに関連する第2領域認識用の各テン
プレートと、第2被照合画像d2との照合が行なわれる
(ステップ26)。
【0048】たとえば、第1被照合画像d1が”jp" で
あり、第1領域認識用のテンプレート「jp」と一致した
場合には、第2被照合画像d2が、機関の種類を表す第
2領域認識用のテンプレート「ac」(研究機関)、「a
d」(ネットワーク管理組織)、「co」(一般企業)、
「go」(政府関係)または”or”(上記以外の組織)と
照合される。
【0049】このようにして、被照合画像とテンプレー
トとが一致した場合には、当該被照合画像より左側領域
の被照合画像に対して、照合処理(テンプレートマッチ
ング)が行なわれる(ステップ26〜27)。ステップ
24で格納された全ての被照合画像に対して、照合処理
によってその文字列が認識された場合には、ドメインネ
ームの認識処理が終了する。
【0050】ステップ25〜ステップ27の照合処理に
おいて、一致するテンプレートが存在しない場合には、
ステップ28に移行し、ステップ24で格納された各被
照合画像のうち、テンプレートと一致しないと判定され
た画像および照合処理が行なわれていない被照合画像に
対して、1文字ずつの文字認識がテンプレートマッチン
グによって行なわれる。そして、ドメインネームの認識
処理が終了する。
【0051】図3の例では、上記ステップ24におい
て、"jp"、"ad"、"nihon" および"kuamp" が、第1被照
合画像d1〜第4被照合画像d4として画像メモリ2に
格納される。そして、ステップ25において、第1被照
合画像”jp" が、テンプレート「jp」と一致すると判定
され、ステップ26において、第2被照合画像”ad"
が、テンプレート「ad」と一致すると判定される。
【0052】その次に行なわれる照合処理において、第
3被照合画像"nihon" が、テンプレート画像と一致しな
いと判定された場合には、ステップ28に移行し、第3
被照合画像"nihon" および第4被照合画像"kuamp" が、
1文字ずつ認識される。
【0053】図8は、図5のステップ5のファイル名の
認識処理手順を示している。
【0054】まず、ポインタが入力文字列の最後に位置
しているか否かが判定される(ステップ31)。ポイン
タが入力文字列の最後に位置していると判定された場合
には、入力文字列にパスが含まれていないと判断され、
URLの認識処理は終了する。
【0055】ポインタが入力文字列の最後に位置してい
ると判定されなかった場合には、ポインタはアドレスと
パスとの区切りのスラッシュ"/" の直後の文字に位置し
ていると判断され、入力文字列の現在のポインタ位置か
ら、入力文字列の最後までの間において、最後のスラッ
シュ"/" が存在する位置が検出される(ステップ3
2)。ただし、入力文字列の現在のポインタ位置より右
側に、スラッシュ"/" が検出されなかった場合には、入
力文字列のパスがディレクトリのみで構成されている
か、ファィル名のみで構成されていると判断され、入力
文字列の現在のポインタ位置の1つ前のスラッシュ"/"
が、最後のスラッシュ"/" が存在する位置とされる。
【0056】次に、入力文字列の最後のスラッシュ"/"
より右側において、ピリオド"." が存在する位置が検出
される(ステップ33)。
【0057】そして、ステップ33で検出されたピリオ
ド"." の数が1であるか、1以外(0を含む)であるか
が判定される(ステップ34)。
【0058】ステップ33で検出されたピリオド"." の
数が1である場合には、入力文字列の最後のスラッシ
ュ"/" より右側の文字列はファイル名であると判断さ
れ、入力文字列の最後のスラッシュ"/" より右側の文字
列のうち、ピリオドで区切られた領域の画像が、後ろか
ら順に、第1被照合画像F1、第2被照合画像F2とし
て、画像メモリ2に格納される(ステップ35)。
【0059】そして、第1被照合画像F1と、拡張子認
識用の各テンプレート「html」、「htm 」との照合が行
なわれる(ステップ36)。第1被照合画像F1がテン
プレート「html」または「htm 」と一致した場合には、
第1被照合画像F1はそれと一致したテンプレートの文
字列から構成されていると認識される。そして、第2被
照合画像F2とファイル名本文認識用のテンプレート
「index 」とが照合される(ステップ37)。第2被照
合画像F2がテンプレート「index 」と一致した場合に
は、第2被照合画像F2はそれと一致したテンプレート
「index 」の文字列から構成されていると認識される。
そして、ファイル名の認識処理が終了する。
【0060】上記ステップ34において、ステップ33
で検出されたピリオド"." の数が1以外であると判定さ
れたとき、上記ステップ36において第1被照合画像F
1がテンプレート「html」および「htm 」いずれとも一
致しなかった場合、または上記ステップ37において第
2被照合画像F2がテンプレート「index 」と一致しな
かった場合には、入力文字列の最後のスラッシュ"/" よ
り右側の文字のうち、未だ認識されていない文字が、テ
ンプレートマッチングにより、1文字ずつ認識される
(ステップ38)。そして、ファイル名の認識処理が終
了する。
【0061】図3の例では、上記ステップ32におい
て、ファイル名”index.html" の直前のスラッシュ"/"
が最後のスラッシュとして検出される。また、ステップ
33において、ファイル名”index.html" に含まれてい
る1つのピリオド"." が検出されるので、ステップ34
においてYESとなり、ステップ35に進む。ステップ
35では、ファイル名”index.html" 中の”html" が第
1被照合画像として、”index"が第2被照合画像として
格納される。そして、ステップ36では、第1被照合画
像”html" が、テンプレート「html」と一致すると判定
され、ステップ37では、第2被照合画像”index"が、
テンプレート「index 」と一致すると判定される。
【0062】なお、ファイル名本文としては、"index"
の代わりに、"index-j" のように、"index" の文字列の
後に他の文字が追加されている場合も多い。そこで、第
2被照合画像F2のうち、テンプレート「index 」の部
分のみをテンプレートマッチングによって認識するよう
にしてもよい。
【0063】ファイル名の認識処理が終了すると、図5
のステップ6の残り部分の認識処理が行なわれる。すな
わち、入力文字列のうち、未だ認識されていない文字が
1文字ずつ認識される。上記の例では、パスのうちの、
ディレクトリが未だ認識されていないので、ディレクト
リ、図3の例では"labs/aisys"が、テンプレートマッチ
ングにより、1文字ずつ認識される。
【0064】なお、上記実施の形態では、URLを、文
字列とその文字列を囲む矩形の枠とによって構成し、枠
に開始記号および終了記号が付けられているが、枠に開
始記号および終了記号を付けなくてもよい。枠、開始記
号および終了記号が無いURLにもこの発明を適用する
ことができる。
【0065】
【発明の効果】この発明によれば、書籍等に記述されて
いるURLを高速かつ高精度に自動認識できるようにな
る。
【図面の簡単な説明】
【図1】URL自動認識装置の構成を示すブロック図で
ある。
【図2】URLの一例を示す模式図である。
【図3】URLの認識精度をあげるためのURLの記述
例を示す模式図である。
【図4】URLの認識精度をあげるためのURLの他の
記述例を示す模式図である。
【図5】CPUによって行なわれる自動認識処理の全体
的な処理手順を示すフローチャートである。
【図6】図5のステップ3のヘッダの認識処理手順を示
すフローチャートである。
【図7】図5のステップ4のドメインネームの認識処理
手順を示すフローチャートである。
【図8】図5のステップ5のファイル名の認識処理手順
を示すフローチャートである。
【図9】URLの書式を示す模式図である。
【符号の説明】
1 ハンディスキャナ 2 画像メモリ 3 テンプレートメモリ 4 CPU 5 ROM 6 RAM

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 URLの読み取り画像に基づいて、UR
    Lを自動認識するURLの自動認識方法において、 URLに使用されうる2以上の文字からなる文字列のう
    ちから、所定のものを選択して、テンプレートとして登
    録しておき、URLの読み取り画像から、テンプレート
    に対応する部分を抽出し、抽出した部分画像と、テンプ
    レートとに基づいて、抽出された部分画像の文字列を認
    識することを特徴とするURLの自動認識方法。
  2. 【請求項2】 URLのヘッダ、ドメインネーム、ファ
    イル名それぞれに対して、テンプレートが登録されてい
    る請求項1に記載のURLの自動認識方法。
  3. 【請求項3】 URLの読み取り画像からテンプレート
    に対応する部分を、URLの読み取り画像中に含まれる
    特定の文字に基づいて抽出する請求項1に記載のURL
    の自動認識方法。
  4. 【請求項4】 URLの読み取り画像からテンプレート
    に対応する部分を、URLの読み取り画像中に含まれる
    スラッシュおよびピリオドから抽出する請求項3に記載
    のURLの自動認識方法。
  5. 【請求項5】 URLを、文字列とその文字列を取り囲
    む矩形枠とで構成しておき、URLの読み取り画像に含
    まれている矩形枠に基づいて、URLの読み取り画像に
    含まれている文字列を正規化した後に、文字列の認識が
    行なわれる請求項1、2、3および4のいずれかに記載
    のURLの自動認識方法。
JP8084154A 1996-04-05 1996-04-05 Urlの自動認識方法 Pending JPH09274646A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8084154A JPH09274646A (ja) 1996-04-05 1996-04-05 Urlの自動認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8084154A JPH09274646A (ja) 1996-04-05 1996-04-05 Urlの自動認識方法

Publications (1)

Publication Number Publication Date
JPH09274646A true JPH09274646A (ja) 1997-10-21

Family

ID=13822597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8084154A Pending JPH09274646A (ja) 1996-04-05 1996-04-05 Urlの自動認識方法

Country Status (1)

Country Link
JP (1) JPH09274646A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000026792A1 (fr) * 1998-11-04 2000-05-11 Dream Technologies Corporation Systeme et procede permettant de specifier un site web
JP2000235541A (ja) * 1998-11-04 2000-08-29 Dream Technologies Kk ネットワーク上の場所を指定するためのシステム及び方法
JP2014191825A (ja) * 2013-03-27 2014-10-06 Fujitsu Ltd 画像処理方法及び画像処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000026792A1 (fr) * 1998-11-04 2000-05-11 Dream Technologies Corporation Systeme et procede permettant de specifier un site web
JP2000235541A (ja) * 1998-11-04 2000-08-29 Dream Technologies Kk ネットワーク上の場所を指定するためのシステム及び方法
US6564254B1 (en) 1998-11-04 2003-05-13 Dream Technologies Corporation System and a process for specifying a location on a network
JP2014191825A (ja) * 2013-03-27 2014-10-06 Fujitsu Ltd 画像処理方法及び画像処理装置

Similar Documents

Publication Publication Date Title
US9411827B1 (en) Providing images of named resources in response to a search query
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US8495049B2 (en) System and method for extracting content for submission to a search engine
US6823311B2 (en) Data processing system for vocalizing web content
US20050100216A1 (en) Method and apparatus for capturing paper-based information on a mobile computing device
US9152859B2 (en) Property record document data verification systems and methods
US7814084B2 (en) Contact information capture and link redirection
US6272490B1 (en) Document data linking apparatus
US8064703B2 (en) Property record document data validation systems and methods
US8874590B2 (en) Apparatus and method for supporting keyword input
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP3521174B2 (ja) 情報フィルタリング装置および同装置に適用される関連情報提供方法
JP2019040260A (ja) 情報処理装置及びプログラム
WO2020133186A1 (zh) 一种文档信息提取方法、存储介质及终端
JPH09274646A (ja) Urlの自動認識方法
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics
JP2020030648A (ja) ファイル管理装置、ファイル管理方法、及びプログラム
US11010978B2 (en) Method and system for generating augmented reality interactive content
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2002342342A (ja) 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体
KR102639463B1 (ko) 커먼 아이디정보의 매칭을 이용한 웹페이지 메모 공유방법
EP4379573A1 (en) Computer implemented method for an automated search of an article of a printed medium
JP5514002B2 (ja) 検索装置及び方法及びプログラム
WO2024115773A1 (en) Computer implemented method for an automated search of an article of a printed medium
JP2004086272A (ja) 位置情報処理装置、方法及びコンピュータプログラム