JPH09274646A

JPH09274646A - Ｕｒｌの自動認識方法

Info

Publication number: JPH09274646A
Application number: JP8084154A
Authority: JP
Inventors: Kiyotoshi Yoshii; 清敏吉井
Original assignee: Zakuson R & D Kk
Current assignee: Zakuson R & D Kk
Priority date: 1996-04-05
Filing date: 1996-04-05
Publication date: 1997-10-21

Abstract

(57)【要約】【課題】この発明は、書籍等に記述されているＵＲＬ
を高速かつ高精度に自動認識できるＵＲＬの自動認識方
法を提供することを目的とする。【解決手段】ＵＲＬの読み取り画像に基づいて、ＵＲ
Ｌを自動認識するＵＲＬの自動認識方法において、ＵＲ
Ｌに使用されうる２以上の文字からなる文字列のうちか
ら、所定のものを選択して、テンプレートとして登録し
ておき、ＵＲＬの読み取り画像から、テンプレートに対
応する部分を抽出し、抽出した部分画像と、テンプレー
トとに基づいて、抽出された部分画像の文字列を認識す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する分野】この発明は、インターネットで利
用されているＷＷＷ上のアドレスであるＵＲＬを自動的
に認識するＵＲＬの自動認識方法に関する。

【０００２】

【従来の技術】この明細書において、文字とは、ＵＲＬ
で使用される英文字、数字、その他の記号を含む意味で
用いられているものとする。

【０００３】一般にＷＷＷ（world wide web) サービス
を利用する場合には、Netscape Navigator( 商品名) で
代表されるＷＷＷブラウザと呼ばれるクライアント側ア
プリケーションが利用される。ユーザは、ＷＷＷサーバ
におかれた文書を要求する場合には、その文書名ＵＲＬ
(uniform Resource Locator)をブラウザから指定する。
すると、ブラウザから、その文書を持つサーバに対して
送信要求が送られ、そのサーバから指定された文書が送
られる。このように、ＷＷＷサーバにおかれた文書を要
求する場合には、その文書名ＵＲＬを入力する必要があ
る。

【０００４】図９は、ＵＲＬの形式を示している。

【０００５】ＵＲＬは、プロトコル（ Protocol ) と、
アドレス（ address )と、パス（ Path ) （パス）とか
らなる。ＵＲＬは、アドレスで示されるサーバ上に、パ
スで示されるディレクトリ（にあるファイル）に、プロ
トコルで示される方法でアクセスすることを表してい
る。

【０００６】プロトコルとアドレスとは、「: 」（コロ
ン）と「//」（２個のスラッシュ）とで区切られる。ア
ドレスとパスとは、「/ 」（１個のスラッシュ）で区切
られる。ＵＲＬは、すべて１バイト（半角）の英数字お
よび記号で記述される。

【０００７】プロトコルは、各種リソースに対するアク
セスの方法を指定するものである。アドレスは、接続先
のサーバをドメイン・ネームで指定するものである。パ
スは、目的のリソースがあるサーバ上のディレクトリを
指定するものである。ディレクトリに続けて、ファイル
名が記述されることもある。

【０００８】ところで、各種雑誌、新聞等の書籍に、Ｕ
ＲＬが紹介されている。書籍等に記述されているＵＲＬ
の文書を要求する場合には、通常は、そのＵＲＬを手入
力しなければならず、その操作が面倒であった。そこ
で、ＵＲＬの入力操作を容易にするために、書籍等に記
述されているＵＲＬをスキャナで読み取り、ＵＲＬを構
成する文字を自動認識して、クライアント側アプリケー
ションに付与することが考えられる。

【０００９】従来例として、ＵＲＬをスキャナで読み取
り、１文字ずつテンプレートの文字と照合して、ＵＲＬ
を構成する文字を自動認識するものがある。しかしなが
ら、この方法では、１文字ずつテンプレートによる照合
を行なっているため、認識速度が遅い、認識精度が低い
という問題がある。

【００１０】

【発明が解決しようとする課題】この発明は、書籍等に
記述されているＵＲＬを高速かつ高精度に自動認識でき
るＵＲＬの自動認識方法を提供することを目的とする。

【００１１】

【課題を解決するための手段】この発明によるＵＲＬの
自動認識方法は、ＵＲＬの読み取り画像に基づいて、Ｕ
ＲＬを自動認識するＵＲＬの自動認識方法において、Ｕ
ＲＬに使用されうる２以上の文字からなる文字列のうち
から、所定のものを選択して、テンプレートとして登録
しておき、ＵＲＬの読み取り画像から、テンプレートに
対応する部分を抽出し、抽出した部分画像と、テンプレ
ートとに基づいて、抽出された部分画像の文字列を認識
することを特徴とする。

【００１２】テンプレートとしては、ＵＲＬに使用され
うる２以上の文字からなる文字列のうちから、使用され
る頻度または確率が高い複数の文字列を選択することが
好ましい。また、ＵＲＬのヘッダ、ドメインネーム、フ
ァイル名それぞれに対して、テンプレートを登録するこ
とが好ましい。

【００１３】ＵＲＬの読み取り画像中のテンプレートに
対応する部分は、たとえば、ＵＲＬの読み取り画像中に
含まれる特定の文字に基づいて抽出される。具体的に
は、ＵＲＬの読み取り画像中のテンプレートに対応する
部分は、ＵＲＬの読み取り画像中に含まれるスラッシュ
およびピリオドから抽出される。

【００１４】ＵＲＬを、文字列とその文字列を取り囲む
矩形枠とで構成しておき、ＵＲＬの読み取り画像に含ま
れている矩形枠に基づいて、ＵＲＬの読み取り画像に含
まれている文字列を正規化した後に、文字列の認識を行
なうことが好ましい。

【００１５】

【発明の実施の形態】以下、図面を参照して、この発明
をハイパーテスキト型文書のＵＲＬを自動認識する場合
の実施の形態について説明する。

【００１６】図１は、ＵＲＬ自動認識装置の構成を示し
ている。

【００１７】ＵＲＬ自動認識装置は、書籍等に記述され
ているＵＲＬを含む画像を読み取るハンディスキャナ
１、ハンディスキャナ１によって読み取られた画像を記
憶する画像メモリ２、テンプレートが記憶されているテ
ンプレートメモリ３およびテンプレートマッチング処理
等の画像処理を行なって画像メモリ２に格納された画像
からＵＲＬを認識するＣＰＵ４を備えている。ＣＰＵ４
は、そのプログラムを記憶するＲＯＭ５および必要なデ
ータを記憶するＲＡＭ６を備えている。

【００１８】図２は、ＵＲＬの一例を示している。

【００１９】図２の例では、”http" がプロトコルであ
る。"www.kuamp.nihon.ad.jp" がアドレスである。"lab
s/aisys/index.html" がパスである。この実施の形態で
は、”http://www."の部分または、”http:// " の部分
をヘッダということにする。

【００２０】プロトコルは、通常は、図２の例のよう
に、”http" である。アドレスの先頭は、通常は、図２
の例のように、”www ”である。また、”www ”に続く
ドメインネーム"kuamp.nihon.ad.jp" は、"." （ピリオ
ド）で区切られた各領域に意味がある。ドメインネーム
の最後の領域( 以下、第１領域という）には、通常
は、”jp”（日本）、”uk”（イギリス）、”ca”（カ
ナダ）等の国名が記述される。ただし、米国のサーバに
対するドメインネームには、国名は記述されない。米国
のサーバに対するドメインネームの最後の領域には、た
とえば、”com ”（コンピュータ）、”net ”（ネット
ワーク）等の分野が記述される。

【００２１】また、サーバが日本である場合には、ドメ
インネームの最後の領域の１つ前の領域( 以下、第２領
域という）に、”ac”（研究機関）、”ad”（ネットワ
ーク管理組織）、”co”（一般企業）、”go”（政府関
係）または”or”（上記以外の組織）といった機関の種
類が記述される。

【００２２】パス"labs/aisys/index.html" における"l
abs/aisys"は、ディレクトリを示している。また、"ind
ex.html"はファイル名である。ファイル名は、"index"
のようなファイル名本文と、".html" のようなファイル
形式に対応した拡張子とから構成されている。拡張子".
html" の代わりに拡張子".htm " が用いられることもよ
くある。

【００２３】テンプレートメモリ３には、ヘッダの認識
を行なうために用いられるヘッダ認識用のテンプレー
ト、ドメインネームの認識を行なうために用いられるド
メインネーム認識用のテンプレート、ファイル名の認識
を行なうために用いられるファイル名認識用のテンプレ
ート、ＵＲＬに用いられる文字を１文字ずつ認識するた
めに用いられるテンプレートが予め格納されている。

【００２４】ヘッダ認識用のテンプレートとしては、こ
の例では、使用される確率の高い「http://www. 」およ
び「http:// 」が登録されている。

【００２５】ドメインネーム認識用のテンプレートとし
ては、第１領域認識用のテンプレート、第２領域認識用
のテンプレート…第ｎ領域認識用のテンプレートがあ
る。

【００２６】第１領域認識用のテンプレートとしては、
国名を表す「jp」（日本）、「uk」（イギリス）、「c
a」（カナダ）等、分野を表す「com 」（コンピュー
タ）、「net 」（ネットワーク）等のように、第１領域
として使用される確率が高い文字列が登録されている。
第１領域が”ｊｐ”である場合に用いられる第２領域認
識用のテンプレートとしては、機関の種類を表す「ac」
（研究機関）、「ad」（ネットワーク管理組織）、「c
o」（一般企業）、「go」（政府関係）または”or”
（上記以外の組織）が登録されている。

【００２７】ファイル名認識用のテンプレートとして
は、ファイル名本文認識用のテンプレートと、拡張子認
識用のテンプレートとがある。ファイル名本文認識用の
テンプレートとしては、この例では、使用される確率の
高い「index 」が登録されている。拡張子認識用のテン
プレートとしては、この例では、使用される確率の高い
「html」および「htm 」が登録されている。

【００２８】図３および図４は、ＵＲＬの認識精度をあ
げるためのＵＲＬの記述方法を示している。

【００２９】図３の例では、ＵＲＬは、１行の文字列
と、その文字列を囲む矩形の枠１１とによって構成され
ている。枠１１の左上に三角形の開始記号１２が、枠１
１の右下には三角形の終了記号１３が、それぞれ記述さ
れている。

【００３０】図４の例では、ＵＲＬは、２行の文字列
と、各行の文字列を囲む矩形の枠１１ａ、１１ｂとによ
って構成されている。また、枠１１ａの左上に三角形の
開始記号１２が、枠１１ｂの右下には三角形の終了記号
１３が、それぞれ記述されている。なお、開始記号１２
および終了記号１３としては、３角形のものに限らず、
太線、二重線等を用いることができる。

【００３１】開始記号１２および終了記号１３は、ＵＲ
Ｌを構成する文字数が多いために、ＵＲＬを構成する文
字列を複数回にわけて入力した場合に、ＵＲＬを構成す
る文字列の範囲が把握されるようにするために記述され
ている。

【００３２】図５は、ＣＰＵによって行なわれる自動認
識処理の全体的な処理手順を示している。図３のように
記述されたＵＲＬを例にとって、自動認識処理について
詳述する。

【００３３】まず、ハンディスキャナ１によって取り込
まれた画像から、枠１１の部分が抽出される（ステップ
１）。

【００３４】次に、正規化処理が行なわれる（ステップ
２）。つまり、ステップ１で抽出された枠１１の横線の
傾きが算出されることにより、入力文字列の傾きが求め
られる。また、枠１１の上下の横線の間隔が算出される
ことにより、入力文字列の大きさが求められる。これら
の情報に基づいて、入力文字列の移動、回転が行なわれ
て文字列の位置合わせが行なわれるとともに入力文字列
の拡大、縮小が行なわれ文字の大きさがテンプレートの
文字の大きさに合わせられる。

【００３５】この後、ヘッダの認識処理（ステップ
３）、ドメインネームの認識処理（ステップ４）、ファ
イル名の認識処理（ステップ５）、および残り部分の認
識処理（ステップ６）が行なわれる。

【００３６】図６は、図５のステップ３のヘッダの認識
処理手順を示している。

【００３７】以下の説明においては、便宜上、入力文字
列中の認識箇所を示すものとしてポインタを用いること
にする。

【００３８】まず、ポインタが、入力文字列の先頭にセ
ットされる（ステップ１１）。

【００３９】そして、ポインタから始まる入力文字列
と、ヘッダ認識用のテンプレート「http://www. 」とが
照合される（ステップ１２）。ポインタから始まる入力
文字列とテンプレート「http://www. 」とが一致したと
きには、入力文字列のヘッダは、「http://www. 」であ
ると認識される。そして、ポインタが入力文字列におけ
るヘッダ”http://www. ”の直後の文字に移動せしめら
れた後（ステップ１３）、ヘッダの認識処理は終了す
る。図３の例では、ポインタから始まる入力文字列とテ
ンプレート「http://www. 」とが一致すると判定され
る。

【００４０】ステップ１２において、ポインタから始ま
る入力文字列とヘッダ認識用のテンプレート「http://w
ww. 」とが一致しなかったときには、ポインタから始ま
る入力文字列と、テンプレート「http:// 」とが照合さ
れる（ステップ１４）。ポインタから始まる入力文字列
と、テンプレート「http:// 」とが一致したときには、
入力文字列のヘッダは、「http:// 」であると認識され
る。そして、ポインタが入力文字列におけるヘッダ”ht
tp:// ”の直後の文字に移動せしめられた後（ステップ
１５）、ヘッダの認識処理は終了する。

【００４１】ステップ１２において、ポインタから始ま
る入力文字列とヘッダ認識用のテンプレート「http://w
ww. 」とが一致せず、かつステップ１４においてポイン
タから始まる入力文字列とヘッダ認識用のテンプレート
「http:// 」とが一致しなかったときには、入力文字列
はハイパーテキスト型文書のＵＲＬではないものとみな
され（ステップ１６）、処理が中止される。

【００４２】図７は、図５のステップ４のドメインネー
ムの認識処理手順を示している。まず、入力文字列の現
在のポインタ位置から、その右側であって最初にスラッ
シュ"/" （アドレスとパスとの区切りのスラッシュ）が
ある位置までの間において、ピリオド"." の存在する位
置が検出される（ステップ２１）。ただし、入力文字列
の現在のポインタ位置から右側にスラッシュ"/" が存在
しない場合には（パスが存在しない場合には）、入力文
字列の現在のポインタ位置から文字列の最後までの間に
おいて、ピリオド"." の存在する位置が検出される。

【００４３】つまり、ポインタを右方向に移動させなが
ら、ポインタによって指定されている文字がピリオ
ド"." であるか、スラッシュ"/" であるかが判定され
る。そして、ポインタによって指定されている文字がピ
リオド"." であれば、その位置が記憶された後、ポイン
タが進められる。ポインタによって指定されている文字
がスラッシュ"/" であれば、そのスラッシュ"/" の直後
の文字位置までポインタが移動せしめられる。スラッシ
ュ"/" が最後まで検出されなかったときには、入力文字
列の最後の文字位置までポインタが移動せしめられる。

【００４４】ピリオドが検出されなかった場合には（ス
テップ２２でＮＯ）、入力文字列はハイパーテキスト型
文書のＵＲＬではないものとみなされ（ステップ２
３）、処理が中止される。

【００４５】ピリオドが検出された場合には、入力文字
列のうち、ピリオドで区切られた領域の画像が、後ろか
ら順に、第１被照合画像ｄ１、第２被照合画像ｄ２…第
ｍ被照合画像ｄｍとして、画像メモリ２に格納される
（ステップ２４）。

【００４６】そして、第１被照合画像ｄ１と、第１領域
認識用の各テンプレートとの照合が行なわれる（ステッ
プ２５）。第１領域認識用のテンプレートには、上述し
たように、国名を表す「jp」（日本）、「uk」（イギリ
ス）、「ca」（カナダ）等、分野を表す「com 」（コン
ピュータ）、「net 」（ネットワーク）等がある。

【００４７】第１被照合画像ｄ１と、第１領域認識用の
テンプレートのいずれかとが一致した場合には、第１被
照合画像ｄ１はそれと一致したテンプレートの文字列で
構成されていると認識される。そして、当該第１領域認
識用のテンプレートに関連する第２領域認識用の各テン
プレートと、第２被照合画像ｄ２との照合が行なわれる
（ステップ２６）。

【００４８】たとえば、第１被照合画像ｄ１が”jp" で
あり、第１領域認識用のテンプレート「jp」と一致した
場合には、第２被照合画像ｄ２が、機関の種類を表す第
２領域認識用のテンプレート「ac」（研究機関）、「a
d」（ネットワーク管理組織）、「co」（一般企業）、
「go」（政府関係）または”or”（上記以外の組織）と
照合される。

【００４９】このようにして、被照合画像とテンプレー
トとが一致した場合には、当該被照合画像より左側領域
の被照合画像に対して、照合処理（テンプレートマッチ
ング）が行なわれる（ステップ２６〜２７）。ステップ
２４で格納された全ての被照合画像に対して、照合処理
によってその文字列が認識された場合には、ドメインネ
ームの認識処理が終了する。

【００５０】ステップ２５〜ステップ２７の照合処理に
おいて、一致するテンプレートが存在しない場合には、
ステップ２８に移行し、ステップ２４で格納された各被
照合画像のうち、テンプレートと一致しないと判定され
た画像および照合処理が行なわれていない被照合画像に
対して、１文字ずつの文字認識がテンプレートマッチン
グによって行なわれる。そして、ドメインネームの認識
処理が終了する。

【００５１】図３の例では、上記ステップ２４におい
て、"jp"、"ad"、"nihon" および"kuamp" が、第１被照
合画像ｄ１〜第４被照合画像ｄ４として画像メモリ２に
格納される。そして、ステップ２５において、第１被照
合画像”jp" が、テンプレート「jp」と一致すると判定
され、ステップ２６において、第２被照合画像”ad"
が、テンプレート「ad」と一致すると判定される。

【００５２】その次に行なわれる照合処理において、第
３被照合画像"nihon" が、テンプレート画像と一致しな
いと判定された場合には、ステップ２８に移行し、第３
被照合画像"nihon" および第４被照合画像"kuamp" が、
１文字ずつ認識される。

【００５３】図８は、図５のステップ５のファイル名の
認識処理手順を示している。

【００５４】まず、ポインタが入力文字列の最後に位置
しているか否かが判定される（ステップ３１）。ポイン
タが入力文字列の最後に位置していると判定された場合
には、入力文字列にパスが含まれていないと判断され、
ＵＲＬの認識処理は終了する。

【００５５】ポインタが入力文字列の最後に位置してい
ると判定されなかった場合には、ポインタはアドレスと
パスとの区切りのスラッシュ"/" の直後の文字に位置し
ていると判断され、入力文字列の現在のポインタ位置か
ら、入力文字列の最後までの間において、最後のスラッ
シュ"/" が存在する位置が検出される（ステップ３
２）。ただし、入力文字列の現在のポインタ位置より右
側に、スラッシュ"/" が検出されなかった場合には、入
力文字列のパスがディレクトリのみで構成されている
か、ファィル名のみで構成されていると判断され、入力
文字列の現在のポインタ位置の１つ前のスラッシュ"/"
が、最後のスラッシュ"/" が存在する位置とされる。

【００５６】次に、入力文字列の最後のスラッシュ"/"
より右側において、ピリオド"." が存在する位置が検出
される（ステップ３３）。

【００５７】そして、ステップ３３で検出されたピリオ
ド"." の数が１であるか、１以外（０を含む）であるか
が判定される（ステップ３４）。

【００５８】ステップ３３で検出されたピリオド"." の
数が１である場合には、入力文字列の最後のスラッシ
ュ"/" より右側の文字列はファイル名であると判断さ
れ、入力文字列の最後のスラッシュ"/" より右側の文字
列のうち、ピリオドで区切られた領域の画像が、後ろか
ら順に、第１被照合画像Ｆ１、第２被照合画像Ｆ２とし
て、画像メモリ２に格納される（ステップ３５）。

【００５９】そして、第１被照合画像Ｆ１と、拡張子認
識用の各テンプレート「html」、「htm 」との照合が行
なわれる（ステップ３６）。第１被照合画像Ｆ１がテン
プレート「html」または「htm 」と一致した場合には、
第１被照合画像Ｆ１はそれと一致したテンプレートの文
字列から構成されていると認識される。そして、第２被
照合画像Ｆ２とファイル名本文認識用のテンプレート
「index 」とが照合される（ステップ３７）。第２被照
合画像Ｆ２がテンプレート「index 」と一致した場合に
は、第２被照合画像Ｆ２はそれと一致したテンプレート
「index 」の文字列から構成されていると認識される。
そして、ファイル名の認識処理が終了する。

【００６０】上記ステップ３４において、ステップ３３
で検出されたピリオド"." の数が１以外であると判定さ
れたとき、上記ステップ３６において第１被照合画像Ｆ
１がテンプレート「html」および「htm 」いずれとも一
致しなかった場合、または上記ステップ３７において第
２被照合画像Ｆ２がテンプレート「index 」と一致しな
かった場合には、入力文字列の最後のスラッシュ"/" よ
り右側の文字のうち、未だ認識されていない文字が、テ
ンプレートマッチングにより、１文字ずつ認識される
（ステップ３８）。そして、ファイル名の認識処理が終
了する。

【００６１】図３の例では、上記ステップ３２におい
て、ファイル名”index.html" の直前のスラッシュ"/"
が最後のスラッシュとして検出される。また、ステップ
３３において、ファイル名”index.html" に含まれてい
る１つのピリオド"." が検出されるので、ステップ３４
においてＹＥＳとなり、ステップ３５に進む。ステップ
３５では、ファイル名”index.html" 中の”html" が第
１被照合画像として、”index"が第２被照合画像として
格納される。そして、ステップ３６では、第１被照合画
像”html" が、テンプレート「html」と一致すると判定
され、ステップ３７では、第２被照合画像”index"が、
テンプレート「index 」と一致すると判定される。

【００６２】なお、ファイル名本文としては、"index"
の代わりに、"index-j" のように、"index" の文字列の
後に他の文字が追加されている場合も多い。そこで、第
２被照合画像Ｆ２のうち、テンプレート「index 」の部
分のみをテンプレートマッチングによって認識するよう
にしてもよい。

【００６３】ファイル名の認識処理が終了すると、図５
のステップ６の残り部分の認識処理が行なわれる。すな
わち、入力文字列のうち、未だ認識されていない文字が
１文字ずつ認識される。上記の例では、パスのうちの、
ディレクトリが未だ認識されていないので、ディレクト
リ、図３の例では"labs/aisys"が、テンプレートマッチ
ングにより、１文字ずつ認識される。

【００６４】なお、上記実施の形態では、ＵＲＬを、文
字列とその文字列を囲む矩形の枠とによって構成し、枠
に開始記号および終了記号が付けられているが、枠に開
始記号および終了記号を付けなくてもよい。枠、開始記
号および終了記号が無いＵＲＬにもこの発明を適用する
ことができる。

【００６５】

【発明の効果】この発明によれば、書籍等に記述されて
いるＵＲＬを高速かつ高精度に自動認識できるようにな
る。

【図面の簡単な説明】

【図１】ＵＲＬ自動認識装置の構成を示すブロック図で
ある。

【図２】ＵＲＬの一例を示す模式図である。

【図３】ＵＲＬの認識精度をあげるためのＵＲＬの記述
例を示す模式図である。

【図４】ＵＲＬの認識精度をあげるためのＵＲＬの他の
記述例を示す模式図である。

【図５】ＣＰＵによって行なわれる自動認識処理の全体
的な処理手順を示すフローチャートである。

【図６】図５のステップ３のヘッダの認識処理手順を示
すフローチャートである。

【図７】図５のステップ４のドメインネームの認識処理
手順を示すフローチャートである。

【図８】図５のステップ５のファイル名の認識処理手順
を示すフローチャートである。

【図９】ＵＲＬの書式を示す模式図である。

【符号の説明】

１ハンディスキャナ２画像メモリ３テンプレートメモリ４ＣＰＵ５ＲＯＭ６ＲＡＭ

Claims

【特許請求の範囲】

【請求項１】ＵＲＬの読み取り画像に基づいて、ＵＲ
Ｌを自動認識するＵＲＬの自動認識方法において、ＵＲＬに使用されうる２以上の文字からなる文字列のう
ちから、所定のものを選択して、テンプレートとして登
録しておき、ＵＲＬの読み取り画像から、テンプレート
に対応する部分を抽出し、抽出した部分画像と、テンプ
レートとに基づいて、抽出された部分画像の文字列を認
識することを特徴とするＵＲＬの自動認識方法。
【請求項２】ＵＲＬのヘッダ、ドメインネーム、ファ
イル名それぞれに対して、テンプレートが登録されてい
る請求項１に記載のＵＲＬの自動認識方法。
【請求項３】ＵＲＬの読み取り画像からテンプレート
に対応する部分を、ＵＲＬの読み取り画像中に含まれる
特定の文字に基づいて抽出する請求項１に記載のＵＲＬ
の自動認識方法。
【請求項４】ＵＲＬの読み取り画像からテンプレート
に対応する部分を、ＵＲＬの読み取り画像中に含まれる
スラッシュおよびピリオドから抽出する請求項３に記載
のＵＲＬの自動認識方法。
【請求項５】ＵＲＬを、文字列とその文字列を取り囲
む矩形枠とで構成しておき、ＵＲＬの読み取り画像に含
まれている矩形枠に基づいて、ＵＲＬの読み取り画像に
含まれている文字列を正規化した後に、文字列の認識が
行なわれる請求項１、２、３および４のいずれかに記載
のＵＲＬの自動認識方法。