JP2021009625A - 情報処理装置、文字認識方法および文字認識プログラム - Google Patents

情報処理装置、文字認識方法および文字認識プログラム Download PDF

Info

Publication number
JP2021009625A
JP2021009625A JP2019124011A JP2019124011A JP2021009625A JP 2021009625 A JP2021009625 A JP 2021009625A JP 2019124011 A JP2019124011 A JP 2019124011A JP 2019124011 A JP2019124011 A JP 2019124011A JP 2021009625 A JP2021009625 A JP 2021009625A
Authority
JP
Japan
Prior art keywords
information
character
link information
correction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019124011A
Other languages
English (en)
Inventor
淳一 長谷
Junichi Hase
淳一 長谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019124011A priority Critical patent/JP2021009625A/ja
Priority to US16/919,759 priority patent/US11115544B2/en
Publication of JP2021009625A publication Critical patent/JP2021009625A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32037Automation of particular transmitter jobs, e.g. multi-address calling, auto-dialing
    • H04N1/32096Checking the destination, e.g. correspondence of manual input with stored destination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/44Secrecy systems
    • H04N1/4406Restricting access, e.g. according to user identity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 リンク情報が危険なサイトのURLに変換されるのを防止すること。【解決手段】 情報処理装置は、外部から入力される画像を入力データとして取得する取得部51と、入力データを文字認識し、複数の文字からなる文字情報を生成する文字認識部53と、文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正前検出部57と、文字情報に含まれる複数の文字列のうちリンク情報を構成する文字列を除く1以上の文字列を修正する修正部55と、を備える。【選択図】 図4

Description

この発明は、情報処理装置、文字認識方法および文字認識プログラムに関し、データのネットワークアドレスを示すリンク情報を含む画像を文字認識する情報処理装置、その情報処理装置で実行される文字認識方法およびその文字認識方法をコンピューターに実行させる文字認識プログラムに関する。
近年、画像で表された文字を電子データに変換する光学文字認識(OCR)が知られている。さらに、OCRの精度を向上させるために、OCRによって画像から変換された文字列を自動的に修正する技術が知られている。
一方、インターネット上のコンテンツは、そのコンテンツのネットワーク上の位置を示すURL(Uniform Resource Locator)で特定される。OCRで画像から変換されたURLを修正する場合に、修正後のURLが危険なサイトのコンテンツを特定する場合がある。特に、危険なサイトのURLは、著名なURLと紛らわしいURLである場合が多い。
特開2002‐279352号公報には、インターネットに接続された文字認識装置において、入力された文字画像を文字認識する文字認識部と、前記インターネットを経由してURLで示される接続先へ接続し、その結果を得るインターネット接続部と、前記文字認識部で認識された文字列がURLのとき、前記インターネット接続部へこの文字列を与えて、認識結果を検証する結果検証部とを備え、文字認識された結果が正しいかどうかを検証することを特徴とする文字認識装置が記載されている。
しかしながら、特開2002‐279352号公報に記載の文字認識装置は、URLであることを確認できるが、危険なサイトのURLであるか否かについては確認できない。このため、OCRで画像に表されたURLが危険なサイトのURLに変換されてしまうのを防止することができないといった問題がある。
特開2002‐279352号公報
この発明は上述した問題点を解決するために、この発明の目的の一つは、リンク情報が危険なデータを示す情報に変換されるのを防止した情報処理装置を提供することである。
この発明の他の目的は、リンク情報が危険なデータを示す情報に変換されるのを防止した文字認識方法を提供することである。
この発明の他の目的は、リンク情報が危険なデータを示す情報に変換されるのを防止した文字認識プログラムを提供することである。
上述した目的を達成するために、この発明のある局面によれば、情報処理装置は、外部から入力される画像を入力画像として取得する取得手段と、入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識手段と、文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正前検出手段と、文字情報に含まれる複数の文字列のうちリンク情報を構成する文字列を除く1以上の文字列を修正する修正手段と、を備える。
この局面に従えば、入力画像が文字認識されて文字情報が生成され、文字情報のうちからリンク情報が検出され、文字情報に含まれる複数の文字列のうちリンク情報を構成する文字列を除く1以上の文字列が修正される。このため、リンク情報が修正されないので、リンク情報が危険なデータを示す情報に変換されるのを防止した情報処理装置を提供することができる。
好ましくは、文字情報が修正手段により修正された後の修正情報のうちからリンク情報を検出する修正後検出手段と、修正情報に含まれるリンク情報の少なくとも一部を修正手段により修正される前の文字列に変換する変換手段と、を備える。
この局面に従えば、文字情報が修正された後の修正情報のうちからリンク情報が検出され、リンク情報の少なくとも一部が修正される前の文字列に変換される。このため、修正前にリンク情報として検出されなかった文字列が修正後にリンク情報として検出され、リンク情報が修正前の文字列に変換される。その結果、リンク情報が検出される確率が高くなるので、危険なデータを示す情報に変換されるのを防止できる。
この発明の他の局面に従えば、情報処理装置は、外部から入力される画像を入力画像として取得する取得手段と、入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識手段と、文字情報に含まれる文字列を修正する修正手段と、文字情報が修正手段により修正された後の修正情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正後検出手段と、修正情報に含まれるリンク情報の少なくとも一部を修正手段により修正される前の文字列に変換する変換手段と、を備える。
この局面に従えば、入力画像が文字認識されて文字情報が生成され、文字情報に含まれる文字列が修正され、文字情報が修正された後の修正情報のうちからリンク情報が検出され、修正情報に含まれるリンク情報の少なくとも一部が修正される前の文字列に変換される。このため、リンク情報が修正されないので、リンク情報が危険なデータを示す情報に変換されるのを防止した情報処理装置を提供することができる。
好ましくは、リンク情報で特定されるデータへのアクセスの可否を検証する検証手段を、さらに備える。
この局面に従えば、文字情報に含まれるリンク情報が有効な情報であるか否かを判断できる。
好ましくは、検証手段は、アクセスが許可されるネットワークアドレスが定められたホワイトリストに基づいてアクセスが許可されていることを確認する安全性確認手段を含む。
この局面に従えば、文字情報に含まれるリンク情報が安全であることを判断できる。
好ましくは、ホワイトリストからリンク情報と類似するネットワークアドレスを安全リンク情報として選択する選択手段と、リンク情報に対応する部分を安全リンク情報で置き換える置換手段と、をさらに備える。
この局面に従えば、文字情報中のリンク情報が安全リンク情報に置き換えられるので、危険なデータを示す情報が含まれないようにできる。
好ましくは、置換手段は、ユーザーによる許可が受け付けられることに応じて、リンク情報を安全リンク情報で置き換える。
好ましくは、選択手段により安全リンク情報の複数が選択される場合、複数の安全リンク情報のうちから1つの選択を受け付ける選択指示受付手段を、さらに備える。
好ましくは、検証手段は、リンク情報で特定されるデータへのアクセスが禁止されていることを確認する危険性確認手段を含む。
この局面に従えば、リンク情報で特定されるデータへのアクセスが禁止されていることを検出できる。
好ましくは、検証手段は、リンク情報で特定されるデータへのアクセスが禁止されていることを確認する危険性確認手段を含み、検証手段によりデータへのアクセスが許可されることが確認されずかつデータへのアクセスが禁止されることが確認されない場合にホワイトリストにリンク情報を追加する追加手段を、さらに備える。
この局面に従えば、データへのアクセスが許可されることが確認されずかつアクセスが禁止されることが確認されない場合にリンク情報がホワイトリストに追加される。このため、ホワイトリストが自動的に生成されるので、ホワイトリストの生成が容易となる。
好ましくは、危険性確認手段は、アクセスが禁止されているネットワークアドレスが定められたブラックリストに基づいてアクセスが禁止されていることを確認する。
この局面に従えば、リンク情報が危険なデータを示す情報であることを判断できる。
好ましくは、危険性確認手段は、外部から取得されるコンピューターウィルス定義データに基づいてアクセスが禁止されていることを確認する。
この局面に従えば、リンク情報が危険なデータを示す情報であることを判断できる。
この局面に従えば、検証手段によりデータへのアクセスが許可されることが確認されずかつアクセスが禁止されることが確認される場合にユーザーに通知する通知手段を、をさらに備える。
この局面に従えば、ユーザーに危険なデータにアクセスしないように注意させることができる。
好ましくは、検証手段によりアクセスが禁止されていることが確認される場合はリンク情報を削除する削除手段を、さらに備える。
この局面に従えば、リンク情報が修正情報から削除されるので、アクセスが禁止されているリンク情報で特定されるデータにユーザーがアクセスしないようにできる。
この発明の他の局面によれば、文字認識方法は、外部から入力される画像を入力画像として取得する取得ステップと、入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正前検出ステップと、文字情報に含まれる複数の文字列のうちリンク情報を構成する文字列を除く1以上の文字列を修正する修正ステップと、を情報処理装置に実行させる。
この局面に従えば、リンク情報が危険なデータを示す情報に変換されるのを防止した文字認識方法を提供することができる。
この発明のさらに他の局面によれば、文字認識方法は、外部から入力される画像を入力画像として取得する取得ステップと、入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、文字情報に含まれる文字列を修正する修正ステップと、文字情報が修正ステップにおいて修正された後の修正情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正後検出ステップと、修正情報に含まれるリンク情報の少なくとも一部を修正ステップにおいて修正される前の文字列に変換する変換ステップと、を情報処理装置に実行させる。
この局面に従えば、リンク情報が危険なデータを示す情報に変換されるのを防止した文字認識方法を提供することができる。
この発明のさらに他の局面によれば、文字認識プログラムは、情報処理装置を制御するコンピューターで実行される文字認識プログラムであって、外部から入力される画像を入力画像として取得する取得ステップと、入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正前検出ステップと、文字情報に含まれる複数の文字列のうちリンク情報を構成する文字列を除く1以上の文字列を修正する修正ステップと、をコンピューターに実行させる。
この局面に従えば、リンク情報が危険なデータを示す情報に変換されるのを防止した文字認識プログラムを提供することができる。
この発明のさらに他の局面によれば、文字認識プログラムは、情報処理装置を制御するコンピューターで実行される文字認識プログラムであって、外部から入力される画像を入力画像として取得する取得ステップと、入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、文字情報に含まれる文字列を修正する修正ステップと、文字情報が修正ステップにおいて修正された後の修正情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正後検出ステップと、修正情報に含まれるリンク情報の少なくとも一部を修正ステップにおいて修正される前の文字列に変換する変換ステップと、をコンピューターに実行させる。
この局面に従えば、リンク情報が危険なデータを示す情報に変換されるのを防止した文字認識プログラムを提供することができる。
本発明の実施の形態の1つにおけるデータ処理システムの全体概要を示す図である。 本実施の形態におけるMFPの外観を示す斜視図である。 本実施の形態におけるMFPのハードウェア構成の概要を示すブロック図である。 本実施の形態におけるMFPが備えるCPUの機能の一例を示す機能ブロック図である。 文字認識処理の流れの一例を示すフローチャートである。 検証処理の流れの一例を示すフローチャートである。 文字情報修正処理の流れの一例を示すフローチャートである。 補完処理の流れの一例を示すフローチャートである。
以下、本発明の実施の形態について図面を参照して説明する。以下の説明では同一の部品には同一の符号を付してある。それらの名称および機能も同じである。従ってそれらの詳細な説明は繰返さない。
図1は、本発明の実施の形態の1つにおけるデータ処理システムの全体概要を示す図である。図1を参照して、データ処理システム1は、ネットワーク2にそれぞれ接続されたMFP(Multi Function Peripheral)100,100A,100B,100Cと、サーバー300と、を含む。MFP100,100A,100Bおよび100Cは、情報処理装置の一例であり、スキャン機能、プリント機能、コピー機能、ファクシミリ送受信機能、通信機能等の複数の機能を備える。
ネットワーク2は、ローカルエリアネットワーク(LAN)であり、接続形態は有線または無線を問わない。また、ネットワーク2は、LANに限らず、ワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)等であってもよい。ネットワーク2は、ゲートウェイを介してインターネット3に接続されており、MFP100,100A,100B,100Cそれぞれは、インターネット3に接続されたサーバー350と通信可能である。
サーバー300は、一般的なコンピューターである。サーバー300は、危険度の高いURL(Uniform Resource Locator)を含むブラックリストを生成し、記憶している。サーバー300がブラックリストを生成する技術は、従来から知られている技術である。従って、ここでは説明を繰り返さない。サーバー300が記憶するブラックリストは、URLごとに危険度が定められてもよい。危険度は、危険であることを示す度合いであり、高いほど危険であることを示す。危険度は、例えば、コンピューターウィルスを頒布する可能性が高いほど高く設定される。また、危険度は、アクセスの許可を予め定められた基準としてもよい。例えば、アクセスに年齢制限のあるサイトの危険度が高い。なお、サーバー300が記憶するブラックリストは危険度を定めることなく、危険なURLを含んでもよい。ここでは、サーバー300がブラックリストを記憶するが、URLリストをサーバー350が記憶してもよい。
なお、本実施の形態においては情報処理装置の一例としてMFP100,100A,100B,100Cを例に説明するが、これに限定されるものではない。データ処理装置は、データを入出力する機能を備えた装置であれば、たとえば、パーソナルコンピュータ、スキャナ、プリンタ、ファクシミリ等でもよい。なお、MFP100,100A,100B,100C各々が有する機能は同じである。ここではMFP100を例に説明する。
図2は、本実施の形態におけるMFPの外観を示す斜視図である。図3は、本実施の形態におけるMFPのハードウェア構成の概要を示すブロック図である。図2および図3を参照して、MFP100は、メイン回路110と、原稿を読み取るための原稿読取部130と、原稿を原稿読取部130に搬送するための自動原稿搬送装置120と、画像データに基づいて用紙に画像を形成するための画像形成部140と、画像形成部140に用紙を供給するための給紙部150と、ユーザーインターフェースとしての操作パネル160とを含む。
自動原稿搬送装置120は、原稿トレイ125上にセットされた複数枚の原稿を1枚ずつ自動的に原稿読取部130の原稿読み取り位置まで搬送し、原稿読取部130により原稿に形成された画像が読み取られた原稿を原稿排紙トレイ127上に排出する。
原稿読取部130は、露光ランプと、受光される光を電子信号に光電変換するCCD(Charge Coupled Devices)センサーとを備える。露光ランプは、読取位置にセットされた原稿を露光する。露光ランプから照射される光は原稿で反射する。原稿からの反射光は、CCDセンサーに結像する。CCDセンサーは、受光面に結像した反射光を、電気信号としての原稿データに変換し、原稿データをCPU111に出力する。CCDセンサーは、光電変換素子が主走査方向に配置されている。原稿読取部130は、露光ランプが光を照射する原稿の位置を、主走査方向と直行する副走査方向に移動させることにより、2次元の原稿データを出力する。露光ランプと原稿の相対位置を副走査方向に変化させることにより、露光ランプが光を照射する原稿の位置を移動させる。
画像形成部140は、CPU111により制御され、給紙部150により搬送される用紙に、周知の電子写真方式により画像を形成する。本実施の形態では、画像形成部140は、CPU111から入力される画像データの画像を、画像形成条件で、給紙部150により搬送される用紙に画像を形成する。画像が形成された用紙は排紙トレイ159に排出される。CPU111が画像形成部140に出力する画像データは、原稿読取部130から入力される画像データの他、外部から受信されるプリントデータの画像を示す画像データを含む。
メイン回路110は、MFP100の全体を制御するCPU(中央演算処理装置)111と、通信インターフェース(I/F)部112と、ROM(Read Only Memory)113と、RAM(Random Access Memory)114と、大容量記憶装置としてのハードディスクドライブ(HDD)115と、ファクシミリ部116と、外部記憶装置118と、を含む。CPU111は、自動原稿搬送装置120、原稿読取部130、画像形成部140、給紙部150および操作パネル160と接続され、MFP100の全体を制御する。
ROM113は、CPU111が実行するプログラム、またはそのプログラムを実行するために必要なデータを記憶する。RAM114は、CPU111がプログラムを実行する際の作業領域として用いられる。また、RAM114は、原稿読取部130から連続的に送られてくる画像データを一時的に記憶する。
操作パネル160は、MFP100の上部に設けられる。操作パネル160は、表示部161と操作部163とを含む。表示部161は、例えば、液晶表示装置(LCD)であり、ユーザーに対する指示メニューや取得した画像データに関する情報等を表示する。なお、LCDに代えて、画像を表示する装置であれば、例えば、有機EL(electroluminescence)ディスプレイを用いることができる。
操作部163は、タッチパネル165と、ハードキー部167とを含む。タッチパネル165は、静電容量方式である。なお、タッチパネル165は、静電容量方式に限らず、例えば、抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式等の他の方式を用いることができる。
タッチパネル165は、その検出面が表示部161の上面または下面に表示部161に重畳して設けられる。ここでは、タッチパネル165の検出面のサイズと、表示部161の表示面のサイズとは同じである。このため、表示面の座標系と検出面の座標系は同じである。タッチパネル165は、ユーザーが表示部161の表示面を指示する位置を検出面で検出し、検出した位置の座標をCPU111に出力する。表示面の座標系と検出面の座標系は同じなので、タッチパネル165が出力する座標を、表示面の座標に置き換えることができる。
ハードキー部167は、複数のハードキーを含む。ハードキーは、例えば接点スイッチである。タッチパネル165は、表示部161の表示面中でユーザーにより指示された位置を検出する。ユーザーがMFP100を操作する場合は直立した姿勢となる場合が多いので、表示部161の表示面、タッチパネル165の操作面およびハードキー部167は、上方を向いて配置される。ユーザーが表示部161の表示面を容易に視認することができ、ユーザーが指で操作部163を容易に指示することができる。
通信I/F部112は、ネットワーク2にMFP100を接続するためのインターフェースである。通信I/F部112は、TCP(Transmission Control Protocol)またはFTP(File Transfer Protocol)等の通信プロトコルで、ネットワーク2に接続された他のコンピューターと通信する。
ファクシミリ部116は、公衆交換電話網(PSTN)に接続され、PSTNにファクシミリデータを送信する、またはPSTNからファクシミリデータを受信する。ファクシミリ部116は、受信したファクシミリデータを、HDD115に記憶するとともに、画像形成部140でプリント可能なプリントデータに変換して、画像形成部140に出力する。これにより、画像形成部140は、ファクシミリ部116により受信されたファクシミリデータの画像を用紙に形成する。また、ファクシミリ部116は、HDD115に記憶されたデータをファクシミリデータに変換して、PSTNに接続されたファクシミリ装置に送信する。
外部記憶装置118は、CPU111により制御され、CD−ROM(Compact Disk Read Only Memory)118A、または半導体メモリが装着される。本実施の形態においては、CPU111は、ROM113に記憶されたプログラムを実行する例を説明するが、CPU111は、外部記憶装置118を制御して、CD−ROM118AからCPU111が実行するためのプログラムを読出し、読み出したプログラムをRAM114に記憶し、実行するようにしてもよい。
なお、CPU111が実行するためのプログラムを記憶する記録媒体としては、CD−ROM118Aに限られず、フレキシブルディスク、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、ICカード、光カード、マスクROM、EPROM(Erasable Programmable ROM)などの半導体メモリ等の媒体でもよい。さらに、CPU111がネットワーク2に接続されたコンピューターからプログラムをダウンロードしてHDD115に記憶する、または、ネットワーク2に接続されたコンピューターがプログラムをHDD115に書込みするようにして、HDD115に記憶されたプログラムをRAM114にロードしてCPU111で実行するようにしてもよい。ここでいうプログラムは、CPU111により直接実行可能なプログラムだけでなく、ソースプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。
図4は、本実施の形態におけるMFPが備えるCPUの機能の一例を示す機能ブロック図である。図4に示す機能は、MFP100が備えるCPU111が文字認識プログラムを実行することによりCPU111で実現される機能である。図4を参照して、CPU111は、取得部51と、文字認識部53と、修正部55と、修正前検出部57と、検証部59と、修正後検出部61と、変換部63と、補完部65と、出力部67と、追加部69と、通知部71と、を含む。
取得部51は、外部から入力される画像を入力画像として取得する。外部から入力される画像は、原稿読取部130が原稿を読み取って出力する画像データ、通信I/F部112が外部のコンピューターから受信する画像データを含む。具体的には、取得部51は、原稿読取部130を制御して、原稿読取部130に原稿に形成された画像を光学的に読み取らせ、原稿読取部130が出力する画像データを入力画像として取得する。また、取得部51は、通信I/F部112を制御して、他のMFP100A,100Bのいずれかが送信する画像データを受信する場合、その画像データを入力画像として取得する。取得部51は、入力画像を文字認識部53に出力する。
文字認識部53は、入力画像を文字認識し、入力画像に表される複数の文字で構成される文字情報を生成する。文字認識部53は、文字情報を修正部55、修正前検出部57および変換部63に出力する。
修正前検出部57は、文字認識部53から入力される文字情報からリンク情報を検出する。具体的には、修正前検出部57は、文字情報のうちからURLのスキーム名として定められた文字列で始まる一群の文字列を、リンク情報として検出する。スキーム名は、例えば、「http」、「https」、「news」、「nntp」である。修正前検出部57は、検出されたリンク情報を修正部55、修正後検出部61および検証部59に出力する。また、修正前検出部57は、URLに使用できない文字や書式を含む文字列をリンク情報として検出しないようにしてもよい。
修正部55は、文字情報に含まれる複数の文字列を修正する。修正部55は、修正前検出部57からリンク情報が入力される場合は、文字情報に含まれる複数の文字列のうちリンク情報以外の文字列を修正する。換言すれば、修正部55は、リンク情報を構成する文字列を修正しない。文字列を修正する技術は周知なのでここでは説明を繰り返さない。ここでは、修正部55は、予め準備された辞書を用いて文字列を修正する。なお、文字列を修正する技術は、辞書を用いる方法に限定されず、他の方法を用いて修正してもよい。修正部55は、文字情報に含まれる文字列を修正した後の文字情報を修正情報として修正後検出部61に出力する。
修正後検出部61は、修正情報から修正前検出部57により検出されたリンク情報以外のリンク情報を検出する。具体的には、修正後検出部61は、修正情報のうちからURLのスキーム名として定められた文字列で始まる一群の文字列を、リンク情報として検出する。修正情報が、修正前の文字情報から検出されたリンク情報とは別のリンク情報を含む場合がある。例えば、修正前の文字情報においてはスキーム名でない文字列が、スキーム名に修正される場合がある。また、修正後検出部61は、URLに使用できない文字や書式を含む文字列をリンク情報として検出しない。修正後検出部61は、リンク情報を検出する場合、リンク情報と修正情報との組を変換部63に出力する。
変換部63は、文字認識部53から文字情報が入力され、修正後検出部61からリンク情報と修正情報との組が入力される。変換部63は、修正情報に含まれるリンク情報の少なくとも一部を、それが修正される前の文字列に変換する。具体的には、リンク情報のうちスキーム名以外の文字列を修正前の文字列に変換する。修正情報に含まれるリンク情報のうちでスキーム名以外の文字列を特定し、その文字列を文字情報に含まれる対応する文字列で置き換える。変換部63は、リンク情報の一部が変換された修正情報を補完部65に出力するとともに、一部が変換されたリンク情報を検証部59に出力する。
検証部59は、リンク情報で特定されるデータへのアクセスの可否を検証する。検証部59は、修正前検出部57から入力されるリンク情報、および変換部63から入力されるリンク情報それぞれについて、そのリンク情報で特定されるデータへのアクセスの可否を検証する。検証部59は、安全性確認部73と、危険性確認部75と、を含む。
安全性確認部73は、リンク情報で特定されるデータへのアクセスが許可されているか否かを確認する。具体的には、安全性確認部73は、検証の対象となるリンク情報について、ホワイトリストに基づいてアクセスが許可されていることを確認する。ホワイトリストは、アクセスが許可されるネットワークアドレスを定めたテーブルであり、HDD115に予め記憶される。安全性確認部73は、検証の対象となるリンク情報がホワイトリストに登録されていれば、検証の対象となるリンク情報で特定されるデータへのアクセスが許可されていることを確認する。安全性確認部73は、検証の対象となるリンク情報がホワイトリストに登録されていなければ、検証の対象となるリンク情報で特定されるデータへのアクセスが許可されていないことを確認する。
危険性確認部75は、リンク情報で特定されるデータへのアクセスが禁止されているか否かを確認する。具体的には、危険性確認部75は、検証の対象となるリンク情報について、ブラックリストに基づいてアクセスが禁止されていることを確認する。ブラックリストは、アクセスが禁止されるネットワークアドレスを定めたテーブルであり、サーバー300から取得される。なお、ブラックリストを、インターネット3に接続されたサーバー350から取得してもよい。この場合、ブラックリストにおいてネットワークアドレスに危険度が付与されている場合は、予め定められた危険度以上のネットワークアドレスをアクセスが禁止されているネットワークアドレスとすればよい。危険性確認部75は、検証の対象となるリンク情報がブラックリストに登録されていれば、検証の対象となるリンク情報で特定されるデータへのアクセスが禁止されていることを確認する。危険性確認部75は、検証の対象となるリンク情報がブラックリストに登録されていなければ、検証の対象となるリンク情報で特定されるデータへのアクセスが禁止されていないことを確認する。
さらに、危険性確認部75は、外部からコンピューターウィルス定義データを取得し、コンピューターウィルス定義データに基づいてアクセスが禁止されていることを確認してもよい。具体的には、危険性確認部75は、インターネット3に接続されたサーバー350からコンピューターウィルス定義データを取得する。さらに、危険性確認部75は、通信I/F部112を制御して、リンク情報で特定されるデータを取得し、コンピューターウィルス定義データを用いてリンク情報で特定されるデータへのアクセスが禁止されていることを確認する。例えば、リンク情報で特定されるデータにコンピューターウィルス定義データで定義されたデータが含まれる場合に、アクセスが禁止されていることが確認される。
検証部59は、リンク情報と検証結果との組を、補完部65、追加部69および通知部71に出力する。検証結果は、アクセスが許可されていることを示す結果、アクセスが禁止されていることを示す結果、アクセスが許可も禁止もされていないことを示す結果のいずれかである含む。
追加部69は、検証部59からリンク情報とアクセスが許可も禁止もされていないことを示す結果との組が入力される場合、そのリンク情報をホワイトリストに追加する。
通知部71は、検証部59からリンク情報とアクセスが禁止されていることを示す結果との組が入力される場合、ユーザーに通知する。例えば、表示部161にコンピューターウィルス感染の危険のあるURLが含まれることを示すメッセージが表示される。また、警告音を発生させることによりコンピューターウィルス感染の危険のあることがユーザーに通知される。また、通知部71は、MFP100を管理する管理者に電子メールなどを送信することにより通知してもよい。
補完部65は、変換部63から入力される修正情報を、検証部59から入力される検証結果に基づいて補完する。補完部65は、補完後の修正情報を出力部67に出力する。補完部65は、選択部81と、ユーザー指示受付部83と、置換部85と、削除部87と、を含む。
選択部81は、検証部59から入力されるリンク情報と類似するリンク情報がホワイトリストに登録されていれば、その類似するリンク情報を安全リンク情報として選択する。選択部81は、検証部59から入力されるリンク情報と類似する複数のリンク情報がホワイトリストに登録されていれば、それらを複数の安全リンク情報として選択する。選択部81は、安全リンク情報をユーザー指示受付部83に出力する。
ユーザー指示受付部83は、リンク情報を安全リンク情報で置き換える指示を受け付ける。具体的には、安全リンク情報を表示部161に表示し、安全リンク情報での置き換えを指示する操作が操作部163に入力される場合に、置き換え指示を受け付ける。選択部81により複数の安全リンク情報が選択される場合は、ユーザーによる指示は、複数の安全リンク情報のうちから置換の対象となる1つの安全リンク情報を選択する指示を含む。また、ユーザーが操作部163に入力するURLを安全リンク情報として受け付けてもよい。ユーザー指示受付部83は、1つの安全リンク情報でリンク情報の置換の指示する操作を受け付ける場合、置換指示を置換部85に出力するが、そうでなければ置換部85に置換指示を出力することなく削除部87に削除指示を出力する。置換指示は、リンク情報と安全リンク情報との組を含む。削除指示は、リンク情報を含む。
置換部85は、修正情報に含まれるリンク情報をそれと組になる安全リンク情報で置き換える。リンク情報で特定されるデータへのアクセスが禁止されている場合であっても、そのリンク情報が安全リンク情報に置き換えられるので、修正情報にアクセスが禁止されているリンク情報が含まれないようにできる。
削除部87は、削除指示に含まれるリンク情報が、危険性確認部75によりアクセスが禁止されているとされたリンク情報に含まれる場合、削除指示に含まれるリンク情報を修正情報から削除する。これにより、リンク情報で特定されるデータへのアクセスが禁止されている場合はそのリンク情報が修正情報から削除されるので、修正情報にアクセスが禁止されているリンク情報が含まれないようにできる。
出力部67は、修正情報を外部に出力する。出力部67は、修正情報を画像形成部140に出力し、修正情報の画像を用紙に形成させる。また、ユーザーが操作部163に入力する操作がHDD115への記憶を指示する操作の場合、出力部67は、修正情報をHDD115に格納する。ユーザーが操作部163に入力する操作が外部のコンピューターに送信を指示する操作の場合、出力部67は、修正情報を通信I/F部112を介して送信する。
図5は、文字認識処理の流れの一例を示すフローチャートである。文字認識処理は、MFP100が備えるCPU111が文字認識プログラムを実行することにより、CPU111により実行される処理である。図5を参照して、CPU111は、外部から入力される画像を入力画像として取得し(ステップS01)、処理をステップS02に進める。入力画像は、原稿読取部130が原稿を読み取って出力する画像データ、通信I/F部112が外部のコンピューターから受信する画像データを含む。
ステップS02においては、CPU111は、入力画像を文字認識し、処理をステップS03に進める。入力画像が文字認識され、入力画像に表された複数の文字で構成される文字情報が生成される。ステップS03においては、文字情報からリンク情報が検出され、処理はステップS04に進む。文字情報のうちからURLのスキーム名として定められた文字列で始まる一群の文字列がリンク情報として検出される。なお、URLに使用できない文字や書式を含む文字列がリンク情報として検出されないようにしてもよい。
ステップS04においては、リンク情報が抽出されたか否かが判断される。リンク情報が検出されたならば処理はステップS05に進むが、そうでなければ処理はステップS06に進む。ステップS05においては、検証処理が実行され、処理はステップS06に進む。検証処理の詳細は後述するが、リンク情報で特定されるデータへのアクセスが許可されているか否か、または、そのデータへのアクセスが禁止されているか否かを判断する処理である。ステップS06においては、文字情報修正処理が実行され、処理はステップS07に進む。文字情報修正処理の詳細は後述するが、文字情報に含まれる複数の文字列のうちリンク情報以外の文字列を修正する処理である。文字情報修正処理が実行されることにより、文字情報が修正された修正情報が生成される。
ステップS07においては、修正情報からリンク情報が検出され、処理はステップS08に進む。修正情報のうちからURLのスキーム名として定められた文字列で始まる一群の文字列がリンク情報として検出される。修正情報が、修正前の文字情報から検出されたリンク情報とは別のリンク情報を含む場合がある。なお、URLに使用できない文字や書式を含む文字列がリンク情報として検出されないようにしてもよい。
ステップS08においては、リンク情報が抽出されたか否かが判断される。リンク情報が検出されたならば処理はステップS09に進むが、そうでなければ処理はステップS11に進む。ステップS09においては、リンク情報の少なくとも一部の文字列が修正前の文字列に変換され、処理はステップS10に進む。具体的には、修正情報に含まれるリンク情報のうちでスキーム名以外の文字列を特定し、その文字列を文字情報に含まれる修正前の文字列で置き換える。
ステップS10においては、ステップS05と同様に、ステップS09において変換されたリンク情報に対して検証処理が実行され、処理はステップS11に進む。ステップS11においては、補完処理が実行され、処理はステップS12に進む。補完処理の詳細は後述するが、修正情報に含まれるリンク情報を補完する処理である。
図6は、検証処理の流れの一例を示すフローチャートである。検証処理は、文字認識処理のステップS05およびステップS10においてそれぞれ実行される処理である。検証処理が実行される前の段階で、1以上のリンク情報が選択されている。図6を参照して、CPU111は、処理対象となるリンク情報を選択し(ステップS21)、処理をステップS22に進める。ステップS22においては、処理対象に選択されたリンク情報がホワイトリストに登録されているか否かが判断される。リンク情報がホワイトリストに登録されているならば処理はステップS23に進むが、そうでなければ処理はステップS24に進む。ステップS23においては、処理対象に選択されたリンク情報がアクセス許可に設定され、処理はステップS31に進む。リンク情報がアクセス許可に設定される場合、そのリンク情報で特定されるデータへのアクセスが許可されることが示される。
ステップS24においては、処理対象に選択されたリンク情報がブラックリストに登録されているか否かが判断される。リンク情報がブラックリストに登録されているならば処理はステップS25に進むが、そうでなければ処理はステップS27に進む。ステップS25においては、処理対象に選択されたリンク情報がアクセス禁止に設定され、処理はステップS26に進む。リンク情報がアクセス禁止に設定される場合、そのリンク情報で特定されるデータへのアクセスが禁止されることが示される。ステップS26においては、ユーザーに通知され、処理はステップS31に進む。例えば、表示部161にコンピューターウィルス感染の危険のあるURLが含まれることを示すメッセージが表示される。また、警告音を発生させることによりコンピューターウィルス感染の危険のあることがユーザーに通知される。
ステップS27においては、コンピューターウィルス定義データで検証され、処理はステップS28に進む。外部から取得されたコンピューターウィルス定義データに基づいてアクセスが禁止されていることを確認する。具体的には、インターネット3に接続されたサーバー350からコンピューターウィルス定義データが予め取得される。通信I/F部112を制御して、リンク情報で特定されるデータが取得される。そして、コンピューターウィルス定義データを用いてリンク情報で特定されるデータへのアクセスが禁止されていることを確認する。例えば、リンク情報で特定されるデータにコンピューターウィルス定義データで定義されたデータが含まれる場合に、アクセスが禁止されていることが確認される。
ステップS28においては、ステップS27における検証結果によって処理が分岐する。検証結果がリンク情報で特定されるデータがコンピューターウィルスに感染する危険があることを示すならば処理はステップS29に進むが、そうでなければ処理はステップS30に進む。ステップS29においては、ステップS25と同様に、処理対象に選択されたリンク情報がアクセス禁止に設定され、処理はステップS26に進む。ステップS26においては、ユーザーに通知され、処理はステップS31に進む。ステップS30においては、処理対象のリンク情報がホワイトリストに追加され、処理はステップS31に進む。
ステップS31においては、ステップS21において処理対象に選択されていないリンク情報が存在するか否かが判断される。未選択のリンク情報が存在するならば処理はステップS21に戻るが、そうでなければ処理は文字認識処理に戻る。
図7は、文字情報修正処理の流れの一例を示すフローチャートである。文字情報修正処理は、文字認識処理のステップS06において実行される処理である。図7を参照して、CPU111は、文字情報に含まれる複数の文字列のうちから処理対象となる文字列を選択し(ステップS41)、処理をステップS42に進める。ステップS42においては、処理対象に選択された文字列がリンク情報か否かが判断される。文字列がリンク情報の一部を構成するならば処理はステップS45に進むが、そうでなければ処理はステップS43に進む。すなわち、リンク情報を構成する文字列は修正の対象とならない。
ステップS43においては、処理対象に選択された文字列を置換する候補が存在するか否かが判断される。予め記憶された辞書に処理対象に選択された文字列に類似または関連する文字列が存在する場合に、その文字列を候補に決定される。予め記憶された辞書に処理対象に選択された文字列に類似または関連する文字列が存在するならば処理はステップS44に進むが、そうでなければ処理はステップS45に進む。ステップS45においては、文字情報が候補の文字列に修正され、処理はステップS45に進む。文字情報に含まれる処理対象の文字列が、辞書に含まれる候補の文字列で置き換えられることにより文字情報が候補の文字列に修正される。
ステップS45においては、処理対象に選択するべき文字列が存在するか否かが判断される。文字情報が処理対象に選択されていない文字列を含むならば処理はステップS41に戻るが、そうでなければ処理は文字認識処理に戻る。
図8は、補完処理の流れの一例を示すフローチャートである。補完処理は、文字認識処理のステップS11において実行される処理である。補完処理が実行される前の段階で修正情報が生成されており、修正情報に含まれるリンク情報が特定されている。図8を参照して、CPU111は、処理対象となるリンク情報を選択し(ステップS51)、処理をステップS52に進める。ステップS52においては、処理対象に選択されたリンク情報がアクセス許可に設定されているか否かが判断される。アクセス許可に設定されているならば処理はステップS62に進むが、そうでなければ処理はステップS53に進む。
ステップS53において、ホワイトリストに安全リンク情報が存在するか否かが判断される。安全リンク情報は、ホワイトリストに登録されているリンク情報であって、処理対象に選択されているリンク情報と類似するリンク情報である。安全リンク情報が存在するならば処理はステップS54に進むが、そうでなければ処理はステップS60に進む。
ステップS54においては、安全リンク情報が単数か否かが判断する。ホワイトリストに処理対象のリンク情報に類似する複数のリンク情報が登録されている場合がある。安全リンク情報が単数ならば処理はステップS57に進むが、そうでなければ処理はステップS55に進む。ステップS55においては、選択画面が表示され、処理はステップS56に進む。選択画面は、複数の安全リンク情報のうちから1つをユーザーが選択するための画面である。ステップS56においては、ユーザーにより複数の安全リンク情報のうちから1つが選択されるまで待機状態となり、選択されたならば処理はステップS57に進む。
ステップS57においては問合せ画面が表示され、処理はステップS58に進む。問合せ画面は、安全リンク情報で修正するか否かをユーザーに問い合わせるための画面である。ステップS58においては、ユーザーによる許可されたか否かが判断される。ユーザーが操作部163に、安全リンク情報での修正を許可する操作を入力すると、許可を受け付ける。ユーザーにより許可されたならば処理はステップS59に進むが、そうでなければ処理はステップS60に進む。ステップS59においては、処理対象に選択されているリンク情報が安全リンク情報で置き換えられ、処理はステップS62に進む。
ステップS60においては、処理対象に選択されているリンク情報がアクセス禁止に設定されているか否かが判断される。アクセス禁止に設定されているならば処理はステップS61に進むが、そうでなければ処理はステップS62に進む。ステップS61においては、処理対象に選択されているリンク情報が修正情報から削除され、処理はステップS62に進む。
ステップS62においては、ステップS51において処理対象に選択されていないリンク情報が存在するか否かが判断される。未選択のリンク情報が存在するならば処理はステップS51に戻るが、そうでなければ処理は文字認識処理に戻る。
以上説明したように本実施の形態におけるMFP100は、情報処理装置として機能し、外部から入力される画像を入力画像として取得し、入力画像を文字認識し、複数の文字からなる文字情報を生成し、文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出し、文字情報に含まれる複数の文字列のうちリンク情報を構成する文字列を除く1以上の文字列を修正する。このため、リンク情報が修正されないので、リンク情報が危険なデータを示す情報に変換されないようにできる。
さらに、MFP100は、文字情報が修正された後の修正情報のうちからリンク情報を検出し、修正情報に含まれるリンク情報の少なくとも一部を修正される前の文字列に変換する。このため、修正前にリンク情報として検出されなかった文字列が修正後にリンク情報として検出され、リンク情報が修正前の文字列に変換される。従って、リンク情報が検出される確率が高くなるので、危険なデータを示す情報に変換されるのを防止できる。
また、MFP100は、リンク情報で特定されるデータへのアクセスの可否が検証するので、文字情報に含まれるリンク情報が有効な情報であるか否かを判断できる。
また、MFP100は、アクセスが許可されるネットワークアドレスが定められたホワイトリストに基づいてアクセスが許可されていることを確認する。このため、文字情報に含まれるリンク情報が安全であることを判断できる。
また、MFP100は、ホワイトリストからリンク情報と類似するネットワークアドレスを安全リンク情報として選択し、リンク情報に対応する部分を安全リンク情報で置き換える。このため、修正情報に危険なデータを示す情報が含まれないようにできる。
また、MFP100は、ユーザーによる許可が受け付けられることに応じて、リンク情報を安全リンク情報で置き換える。このため、ユーザーは置き換えを確認できる。
また、MFP100は、安全リンク情報の複数が選択される場合、複数の安全リンク情報のうちから1つの選択を受け付ける。このため、ユーザーは置き換え後のリンク情報を確認できる。
また、MFP100は、リンク情報で特定されるデータへのアクセスが禁止されていることを確認する。このため、リンク情報で特定されるデータへのアクセスが禁止されていることを検出できる。
また、MFP100は、リンク情報で特定されるデータへのアクセスが禁止されていることを確認し、データへのアクセスが許可されることが確認されずかつデータへのアクセスが禁止されることが確認されない場合にホワイトリストにリンク情報を追加する。このため、ホワイトリストが自動的に生成されるので、ホワイトリストの生成が容易となる。
また、MFP100は、アクセスが禁止されているネットワークアドレスが定められたブラックリストに基づいてアクセスが禁止されていることを確認する。このため、リンク情報が危険なデータを示す情報であることを判断できる。
また、MFP100は、外部から取得されるコンピューターウィルス定義データに基づいてアクセスが禁止されていることを確認する。このため、リンク情報が危険なデータを示す情報であることを判断できる。
また、MFP100は、データへのアクセスが許可されることが確認されずかつアクセスが禁止されることが確認される場合にユーザーに通知する。このため、ユーザーに危険なデータにアクセスしないように注意させることができる。
また、MFP100は、アクセスが禁止されていることが確認される場合はリンク情報を削除する。このため、アクセスが禁止されているリンク情報で特定されるデータにユーザーがアクセスしないようにできる。
<第1の変形例>
第1の変形例におけるMFP100が備えるCPU111は、図4に示した機能のうち修正後検出部61および変換部63を有しない。このため第1の変形例におけるMFP100は、修正情報からリンク情報を検出しないようにする。このため、修正部55により修正する前の文字情報からリンク情報が検出され、文字情報中のリンク情報以外の文字列が修正の対象となり、リンク情報は修正の対象とならない。
第1の変形例におけるMFP100は、情報処理装置として機能し、外部から入力される画像を入力画像として取得し、入力画像を文字認識し、複数の文字からなる文字情報を生成し、文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出し、文字情報に含まれる複数の文字列のうちリンク情報を構成する文字列を除く1以上の文字列を修正する。このため、リンク情報が修正されないので、リンク情報が危険なデータを示す情報に変換されないようにできる。
<第2の変形例>
第2の変形例におけるMFP100が備えるCPU111は、図4に示した機能のうち修正前検出部57を有しない。このため第2の変形例におけるMFP100は、修正情報からリンク情報を検出するが、文字情報からリンク情報を検出しない。このため、修正部55により修正された後の修正情報からリンク情報が検出され、修正情報中のリンク情報が修正前の文字列に変換される。
第2の変形例におけるMFP100は、外部から入力される画像を入力画像として取得し、入力画像を文字認識し、複数の文字からなる文字情報を生成し、文字情報に含まれる文字列を修正し、文字情報が修正された後の修正情報のうちからリンク情報し、修正情報に含まれるリンク情報の少なくとも一部をそれが修正される前の文字列に変換する。このため、リンク情報が修正されないので、リンク情報が危険なデータを示す情報に変換されるのを防止することができる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上述した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
<付記>
(1) 好ましくは、前記リンク情報は、予め定められた文字列を含む。
(2) 好ましくは、前記リンク情報は、予め定められた不使用文字を含む。
1 データ処理システム、2 ネットワーク、3 インターネット、100,100A,100B,100C MFP、300,350 サーバー、110 メイン回路、111 CPU、113 ROM、114 RAM、115 HDD、116 ファクシミリ部、118 外部記憶装置、118A CD−ROM、120 自動原稿搬送装置、130 原稿読取部、140 画像形成部、150 給紙部、160 操作パネル、161 表示部、163 操作部、165 タッチパネル、167 ハードキー部、51 取得部、53 文字認識部、55 修正部、57 修正前検出部、59 検証部、61 修正後検出部、63 変換部、65 補完部、67 出力部、69 追加部、71 通知部、73 安全性確認部、75 危険性確認部、81 選択部、83 ユーザー指示受付部、85 置換部、87 削除部。

Claims (18)

  1. 外部から入力される画像を入力画像として取得する取得手段と、
    前記入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識手段と、
    前記文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正前検出手段と、
    前記文字情報に含まれる複数の文字列のうち前記リンク情報を構成する文字列を除く1以上の文字列を修正する修正手段と、を備えた情報処理装置。
  2. 前記文字情報が前記修正手段により修正された後の修正情報のうちから前記リンク情報を検出する修正後検出手段と、
    前記修正情報に含まれる前記リンク情報の少なくとも一部を前記修正手段により修正される前の前記文字列に変換する変換手段と、を備えた請求項1に記載の情報処理装置。
  3. 外部から入力される画像を入力画像として取得する取得手段と、
    前記入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識手段と、
    前記文字情報に含まれる文字列を修正する修正手段と、
    前記文字情報が前記修正手段により修正された後の修正情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正後検出手段と、
    前記修正情報に含まれる前記リンク情報の少なくとも一部を前記修正手段により修正される前の前記文字列に変換する変換手段と、を備えた情報処理装置。
  4. 前記リンク情報で特定される前記データへのアクセスの可否を検証する検証手段を、さらに備えた請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記検証手段は、アクセスが許可されるネットワークアドレスが定められたホワイトリストに基づいてアクセスが許可されていることを確認する安全性確認手段を含む、請求項4に記載の情報処理装置。
  6. 前記ホワイトリストから前記リンク情報と類似するネットワークアドレスを安全リンク情報として選択する選択手段と、
    前記リンク情報に対応する部分を前記安全リンク情報で置き換える置換手段と、をさらに備えた、請求項5に記載の情報処理装置。
  7. 前記置換手段は、ユーザーによる許可が受け付けられることに応じて、前記リンク情報を前記安全リンク情報で置き換える、請求項6に記載の情報処理装置。
  8. 前記選択手段により前記安全リンク情報の複数が選択される場合、複数の前記安全リンク情報のうちから1つの選択を受け付ける選択指示受付手段を、さらに備えた、請求項7に記載の情報処理装置。
  9. 前記検証手段は、前記リンク情報で特定される前記データへのアクセスが禁止されていることを確認する危険性確認手段を含む、請求項4〜8のいずれか1項に記載の情報処理装置。
  10. 前記検証手段は、前記リンク情報で特定される前記データへのアクセスが禁止されていることを確認する危険性確認手段を含み、
    前記検証手段により前記データへのアクセスが許可されることが確認されずかつ前記データへのアクセスが禁止されることが確認されない場合に前記ホワイトリストに前記リンク情報を追加する追加手段を、さらに備えた請求項5〜8のいずれか1項に記載の情報処理装置。
  11. 前記危険性確認手段は、アクセスが禁止されているネットワークアドレスが定められたブラックリストに基づいてアクセスが禁止されていることを確認する、請求項9または10に記載の情報処理装置。
  12. 前記危険性確認手段は、外部から取得されるコンピューターウィルス定義データに基づいてアクセスが禁止されていることを確認する、請求項9〜11のいずれか1項に記載の情報処理装置。
  13. 前記検証手段により前記データへのアクセスが許可されることが確認されずかつアクセスが禁止されることが確認される場合にユーザーに通知する通知手段を、をさらに備えた請求項10〜12のいずれか1項に記載の情報処理装置。
  14. 前記検証手段によりアクセスが禁止されていることが確認される場合は前記リンク情報を削除する削除手段を、さらに備えた請求項9〜13のいずれか1項に記載の情報処理装置。
  15. 外部から入力される画像を入力画像として取得する取得ステップと、
    前記入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、
    前記文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正前検出ステップと、
    前記文字情報に含まれる複数の文字列のうち前記リンク情報を構成する文字列を除く1以上の文字列を修正する修正ステップと、を情報処理装置に実行させる文字認識方法。
  16. 外部から入力される画像を入力画像として取得する取得ステップと、
    前記入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、
    前記文字情報に含まれる文字列を修正する修正ステップと、
    前記文字情報が前記修正ステップにおいて修正された後の修正情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正後検出ステップと、
    前記修正情報に含まれる前記リンク情報の少なくとも一部を前記修正ステップにおいて修正される前の前記文字列に変換する変換ステップと、を情報処理装置に実行させる文字認識方法。
  17. 情報処理装置を制御するコンピューターで実行される文字認識プログラムであって、
    外部から入力される画像を入力画像として取得する取得ステップと、
    前記入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、
    前記文字情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正前検出ステップと、
    前記文字情報に含まれる複数の文字列のうち前記リンク情報を構成する文字列を除く1以上の文字列を修正する修正ステップと、を前記コンピューターに実行させる文字認識プログラム。
  18. 情報処理装置を制御するコンピューターで実行される文字認識プログラムであって、
    外部から入力される画像を入力画像として取得する取得ステップと、
    前記入力画像を文字認識し、複数の文字からなる文字情報を生成する文字認識ステップと、
    前記文字情報に含まれる文字列を修正する修正ステップと、
    前記文字情報が前記修正ステップにおいて修正された後の修正情報のうちからデータのネットワークアドレスを示すリンク情報を検出する修正後検出ステップと、
    前記修正情報に含まれる前記リンク情報の少なくとも一部を前記修正ステップにおいて修正される前の前記文字列に変換する変換ステップと、を前記コンピューターに実行させる文字認識プログラム。
JP2019124011A 2019-07-02 2019-07-02 情報処理装置、文字認識方法および文字認識プログラム Pending JP2021009625A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019124011A JP2021009625A (ja) 2019-07-02 2019-07-02 情報処理装置、文字認識方法および文字認識プログラム
US16/919,759 US11115544B2 (en) 2019-07-02 2020-07-02 Information processing apparatus, character recognition method and non-transitory computer-readable recording medium encoded with character recognition instructions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019124011A JP2021009625A (ja) 2019-07-02 2019-07-02 情報処理装置、文字認識方法および文字認識プログラム

Publications (1)

Publication Number Publication Date
JP2021009625A true JP2021009625A (ja) 2021-01-28

Family

ID=74065891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019124011A Pending JP2021009625A (ja) 2019-07-02 2019-07-02 情報処理装置、文字認識方法および文字認識プログラム

Country Status (2)

Country Link
US (1) US11115544B2 (ja)
JP (1) JP2021009625A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023042709A1 (ja) * 2021-09-16 2023-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 通信分析システム、分析方法及びプログラム
DE112022002164T5 (de) 2021-06-15 2024-01-25 Murata Manufacturing Co., Ltd. Elektronikkomponente
US11973915B2 (en) 2022-03-16 2024-04-30 Sharp Kabushiki Kaisha Image processing apparatus and image processing method for determining data output based on prompts

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210066467A (ko) * 2019-11-28 2021-06-07 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 화상 형성 장치에서의 url 관리

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279352A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 文字認識装置、文字認識方法および記録媒体
JP2003223608A (ja) * 2002-01-30 2003-08-08 Seiko Epson Corp 認識文字列修正方法およびその装置並びにコンピュータプログラム
JP2007249657A (ja) * 2006-03-16 2007-09-27 Fujitsu Ltd アクセス制限プログラム、アクセス制限方法およびプロキシサーバ装置
US20100316300A1 (en) * 2009-06-13 2010-12-16 Microsoft Corporation Detection of objectionable videos
US8601359B1 (en) * 2012-09-21 2013-12-03 Google Inc. Preventing autocorrect from modifying URLs
JP2013246474A (ja) * 2012-05-23 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> 中継サーバおよび代理アクセス方法
JP2019106028A (ja) * 2017-12-13 2019-06-27 京セラドキュメントソリューションズ株式会社 画像形成装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060219773A1 (en) * 2004-06-18 2006-10-05 Richardson Joseph L System and method for correcting data in financial documents
JP2006041623A (ja) 2004-07-22 2006-02-09 Canon Inc 画像処理装置およびその方法
JP5743443B2 (ja) * 2010-07-08 2015-07-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US8935343B2 (en) * 2011-05-16 2015-01-13 International Business Machines Corporation Instant messaging network resource validation
JP5973413B2 (ja) 2013-11-26 2016-08-23 ビッグローブ株式会社 端末装置、webメールサーバ、安全確認方法、及び安全確認プログラム
WO2017108576A1 (en) * 2015-12-24 2017-06-29 British Telecommunications Public Limited Company Malicious software identification
CN107944325B (zh) * 2017-11-23 2020-01-03 维沃移动通信有限公司 一种扫码方法、扫码装置及移动终端
JP7214963B2 (ja) * 2018-02-20 2023-01-31 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11953988B2 (en) * 2019-05-23 2024-04-09 Micron Technology, Inc. Error correction memory device with fast data access

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279352A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 文字認識装置、文字認識方法および記録媒体
JP2003223608A (ja) * 2002-01-30 2003-08-08 Seiko Epson Corp 認識文字列修正方法およびその装置並びにコンピュータプログラム
JP2007249657A (ja) * 2006-03-16 2007-09-27 Fujitsu Ltd アクセス制限プログラム、アクセス制限方法およびプロキシサーバ装置
US20100316300A1 (en) * 2009-06-13 2010-12-16 Microsoft Corporation Detection of objectionable videos
JP2013246474A (ja) * 2012-05-23 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> 中継サーバおよび代理アクセス方法
US8601359B1 (en) * 2012-09-21 2013-12-03 Google Inc. Preventing autocorrect from modifying URLs
JP2019106028A (ja) * 2017-12-13 2019-06-27 京セラドキュメントソリューションズ株式会社 画像形成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
重田 真義 MASAYOSHI SHIGETA: "教師なし学習を活用したマルウエア感染端末検知システムの実装と評価", 2018年 暗号と情報セキュリティシンポジウム(SCIS2018)予稿集 [USB] 2018年 暗, JPN6023009230, 23 January 2018 (2018-01-23), pages 1 - 7, ISSN: 0005005661 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112022002164T5 (de) 2021-06-15 2024-01-25 Murata Manufacturing Co., Ltd. Elektronikkomponente
WO2023042709A1 (ja) * 2021-09-16 2023-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 通信分析システム、分析方法及びプログラム
US11973915B2 (en) 2022-03-16 2024-04-30 Sharp Kabushiki Kaisha Image processing apparatus and image processing method for determining data output based on prompts

Also Published As

Publication number Publication date
US11115544B2 (en) 2021-09-07
US20210006670A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
JP2021009625A (ja) 情報処理装置、文字認識方法および文字認識プログラム
US10630858B2 (en) Document approval management system for creating document approval workflow
JP5672282B2 (ja) プリントシステム、画像形成装置、プリント時連携方法およびプリント時連携プログラム
JP2010026562A (ja) 中継サーバ、中継方法および中継プログラム
JP7199906B2 (ja) データ送信装置及び制御方法
JP4438868B2 (ja) データ通信システム、データ送信装置、送信先更新方法および送信先更新プログラム
US9319563B1 (en) Image processing device and method for processing image data
US11765292B2 (en) Information processing apparatus used for converting image to file, image processing system, method of controlling information processing apparatus, and storage medium
JP4437789B2 (ja) スキャナ装置、及び画像形成装置
JP3900175B2 (ja) 複合機
US10791247B2 (en) Data processing apparatus with URL risk assessment, data output method and non-transitory computer-readable recording medium encoded with data output program
KR101949805B1 (ko) 이기종 화상형성장치를 이용한 출력물의 출력 방법 및 출력 시스템
JP5691711B2 (ja) プリントシステム、画像形成装置、プルプリント方法およびプルプリントプログラム
KR20200020176A (ko) 화상 형성 장치에서 개인 정보를 보호하는 방법
JP4795309B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP5168347B2 (ja) 画像処理装置、アップロード方法およびアップロードプログラム
JP2006101393A (ja) 画像処理装置の動作環境設定プログラムおよび動作環境設定方法
JP2011166654A (ja) 文書処理装置
JP5218304B2 (ja) 多機能複合機
US20230319213A1 (en) Facsimile document management system using policies
US20230216975A1 (en) System having image processing apparatus, server apparatus, and information terminal, storage medium, control method for information terminal, and information terminal
JP6582930B2 (ja) データ送受信システム、情報処理装置、データ送受信方法およびデータ送受信プログラム
JP7056119B2 (ja) 原稿読取装置、原稿読取方法および原稿読取プログラム
JP2012128785A (ja) 画像処理装置、有識者情報蓄積方法および有識者情報蓄積プログラム
JP2017076194A (ja) 画像形成システムおよび画像形成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230905