JP4576211B2 - Document information retrieval system - Google Patents

Document information retrieval system Download PDF

Info

Publication number
JP4576211B2
JP4576211B2 JP2004336856A JP2004336856A JP4576211B2 JP 4576211 B2 JP4576211 B2 JP 4576211B2 JP 2004336856 A JP2004336856 A JP 2004336856A JP 2004336856 A JP2004336856 A JP 2004336856A JP 4576211 B2 JP4576211 B2 JP 4576211B2
Authority
JP
Japan
Prior art keywords
document
character
information
character string
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004336856A
Other languages
Japanese (ja)
Other versions
JP2006146627A (en
Inventor
達也 亀山
昌史 古賀
竜治 嶺
寿一 ▲高▼橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Omron Terminal Solutions Corp
Original Assignee
Hitachi Omron Terminal Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Omron Terminal Solutions Corp filed Critical Hitachi Omron Terminal Solutions Corp
Priority to JP2004336856A priority Critical patent/JP4576211B2/en
Publication of JP2006146627A publication Critical patent/JP2006146627A/en
Application granted granted Critical
Publication of JP4576211B2 publication Critical patent/JP4576211B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書中の文字列に擬似的に埋め込んだ関連情報を検索するシステムに係り、あらかじめ文書中の文字列と関連情報を対応した検索用DBを作成し、出版されている文書中の一部を携帯電話などに内蔵されているカメラで撮影した文書中の一部を撮影した画像から文字認識により文字列を認識し、前記複数の文字列から前記検索用DBに登録された関連情報を検索するものである。   The present invention relates to a system for searching related information that is artificially embedded in a character string in a document, and creates a search DB corresponding to the character string in the document and the related information in advance, Relevant information registered in the search DB from the plurality of character strings by recognizing a character string by character recognition from an image obtained by capturing a part of a document captured by a camera built in a mobile phone or the like Is to search.

従来、印刷された写真や文書に情報を埋め込む方法として電子透かしが知られていた。例えば、文書などの二値化された画像に電子透かしを埋め込む一例として特開2004−289783号公報(特許文献1)がある。
従来、カメラを搭載した携帯電話等の携帯端末で撮影した画像に含まれる文字列の文字を認識して、その認識結果である文字テキストを翻訳する技術が種々提案されている。例えば、特開平09−138802号公報(特許文献2)には、携帯端末内部に文字認識機能と翻訳機能を持ち、これらの機能を利用して、カメラで撮影した画像内の文字列を認識、翻訳処理する翻訳システムが開示されている。
Conventionally, digital watermarking has been known as a method for embedding information in a printed photograph or document. For example, as an example of embedding a digital watermark in a binarized image such as a document, there is Japanese Patent Laid-Open No. 2004-289883 (Patent Document 1).
Conventionally, various techniques for recognizing characters in a character string included in an image taken by a portable terminal such as a mobile phone equipped with a camera and translating the character text as a recognition result have been proposed. For example, Japanese Patent Application Laid-Open No. 09-138802 (Patent Document 2) has a character recognition function and a translation function inside a mobile terminal, and uses these functions to recognize a character string in an image taken by a camera. A translation system for translation processing is disclosed.

また、同出願人の先の出願、特願2004−227610号および特願2004−232891号に、携帯端末で撮影した画像中の複数の単語の並びや位置関係から、文書中の撮影位置を特定し、撮影した単語に関連した翻訳結果や文書中の位置に対して設定したリンク先URLをブラウザに表示する文書翻訳システムに関する発明がある。   Also, in the previous application of the same applicant, Japanese Patent Application No. 2004-227610 and Japanese Patent Application No. 2004-232891, the shooting position in the document is specified from the arrangement and positional relationship of a plurality of words in the image shot with the portable terminal. Then, there is an invention related to a document translation system that displays a translation result related to a photographed word and a link destination URL set for a position in a document on a browser.

特開2004−289783号公報Japanese Patent Application Laid-Open No. 2004-289883

特開平09−138802号公報JP 09-138802 A

特許文献1では、あらかじめ情報を埋め込んだ文書を印刷して配布する必要があった。そのため印刷済みの書籍に電子透かしを適用することができなかった。
また、特許文献2では、文書中の特定の場所を撮影し、文字認識により撮影した画像中の文字イメージを単語または文を含む文字列に変換して出力することにより、出力された単語または文を翻訳する翻訳システムが開示されている。認識範囲を文とした場合、撮影する範囲が広くなりカメラの解像度を高くするか、複数撮影した画像から文字列を認識し、細分化された文字列を再構築して文を再生する必要があった。また単語を翻訳する場合、文書中の単語の位置で訳が異なる場合があった。
In Patent Document 1, it is necessary to print and distribute a document in which information is embedded in advance. For this reason, digital watermarks cannot be applied to printed books.
Further, in Patent Document 2, a specific place in a document is photographed, a character image in an image photographed by character recognition is converted into a character string including a word or sentence, and the word or sentence is output. A translation system is disclosed for translating. If the recognition range is a sentence, it is necessary to increase the resolution of the camera because the shooting range is widened, or to recognize the character string from multiple captured images, reconstruct the subdivided character string, and reproduce the sentence there were. Also, when translating words, the translation may differ depending on the position of the word in the document.

また、文字認識は、誤読の可能性があることから認識率を向上させる必要がある。図32は文字認識処理の流れの例であり、画像二値化部51は、文字を含む画像から背景と文字を分けた二値画像を作成する。文字行切り出し部52は、二値画像から1行分の文字列領域を判別する。文字切り出し部53は、1行分の文字列領域から1文字の文字領域を判別する。特徴抽出部54は、1文字の文字領域から文字の特徴を算出する。識別処理部55は、文字の特徴からあらかじめ文字毎に登録した文字の特徴と比較し、特徴が似通った順に文字の候補を出力する。単語照合部56は、連続した1文字の文字領域毎の文字の候補から単語照合辞書登録されている単語に最も近い単語を出力する。画像二値化部51では、印刷された文書は、カラー印刷や網点印刷など条件が広く、一種類の二値化方法では、正しく二値化できない場合がある。また、文字行切り出し部52や文字切り出し部53では、文字を認識する前に画像中から文字行および文字領域を予測する必要があるが、罫線、行間、文字間隔など文書により多種多様であり、判別を誤ることがある。また、識別処理部55では、類似文字(例えば日、白、目など非常に似通った文字)があり、画像のノイズやかすれなどによる悪影響により、文字候補が正しく出力されない場合がある。また、単語照合部56では、正読率の向上に全ての単語を単語照合辞書に登録する必要があるが、出版されている全ての文書の単語を登録には大きなメモリが必要であり、メモリ制限がある携帯電話などの携帯端末では全ての単語を単語照合辞書に登録できない。   Moreover, since character recognition has a possibility of misreading, it is necessary to improve a recognition rate. FIG. 32 shows an example of the flow of character recognition processing. The image binarization unit 51 creates a binary image in which a background and characters are separated from an image including characters. The character line cutout unit 52 determines a character string area for one line from the binary image. The character cutout unit 53 determines a character area of one character from the character string area for one line. The feature extraction unit 54 calculates a character feature from a character region of one character. The identification processing unit 55 compares the character features with the character features registered in advance for each character, and outputs the character candidates in the order in which the features are similar. The word collating unit 56 outputs the word closest to the word registered in the word collation dictionary from the character candidates for each continuous character region. In the image binarization unit 51, the printed document has a wide range of conditions such as color printing and halftone printing, and may not be binarized correctly by one type of binarization method. The character line segmentation unit 52 and the character segmentation unit 53 need to predict the character line and the character area from the image before recognizing the character, but there are various types of documents such as ruled lines, line spacing, and character spacing. Misidentification may occur. In the identification processing unit 55, there are similar characters (for example, very similar characters such as date, white, eyes, etc.), and character candidates may not be output correctly due to an adverse effect due to image noise or blurring. The word collation unit 56 needs to register all words in the word collation dictionary to improve the correct reading rate. However, a large memory is required to register words of all published documents. On mobile terminals such as mobile phones with restrictions, all words cannot be registered in the word matching dictionary.

本発明の目的は、カメラを内蔵した携帯可能な情報端末で文書の一部をカメラで撮影した画像に含まれている文字列が文書中のどの場所に存在するかを特定し、その場所に関連付けられる情報を取得する文書情報検索システムを提供することにある。   An object of the present invention is to specify a location in a document where a character string included in an image obtained by photographing a part of a document with a camera using a portable information terminal with a built-in camera, and to the location. An object of the present invention is to provide a document information retrieval system for acquiring associated information.

また、本発明の別の目的は、文字の場所を特定するためのデータの作成を自動化し、また文書に関連付けられる情報のデータの作成を簡素に行う、文書情報検索システムを提供することにある。
また、本発明の別の目的は、文書毎に文書の構造を定義した文書ファイルから文書の特徴を抽出することにより文字認識のパラメータを作成し、検索対象の文書に合わせて文字認識のパラメータを設定することにより、文字認識率を向上させることが可能な文書情報検索システムを提供することにある。
Another object of the present invention is to provide a document information search system that automates the creation of data for specifying the location of characters and simplifies the creation of information data associated with a document. .
Another object of the present invention is to create a character recognition parameter by extracting document features from a document file that defines the document structure for each document, and set the character recognition parameter according to the document to be searched. An object of the present invention is to provide a document information search system that can improve the character recognition rate by setting.

本発明は、画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、画像撮影部で撮影された画像に含まれる文字に関連付けられた情報を得て、その情報を表示部に表示する文書情報検索システムにおいて、
文書の構成要素に関連する情報を対応付けた関連情報を作成する文書情報登録部と、文字列の位置情報を作成する座標登録部と前記関連情報と前記位置情報を保持する記憶装置とを備えるものである。また、文書選択部を設けることにより、文書毎に記憶装置に登録された関連情報と、位置情報を選択して検索部により情報を検索できるように文書を示す情報をも保持する。
The present invention relates to a character included in an image photographed by an image photographing unit using a portable information terminal having an image photographing unit, an input unit operated by a user to input information, and a display unit. In a document information retrieval system that obtains information and displays the information on a display unit,
A document information registration unit that creates related information in which information related to document components is associated; a coordinate registration unit that creates position information of a character string; and a storage device that holds the related information and the position information. Is. In addition, by providing a document selection unit, related information registered in the storage device for each document and information indicating the document are stored so that the position information can be selected and the search unit can retrieve the information.

また、本発明において、サーバ装置は、前記記憶装置、及び前記検索部を備え、携帯情報端末は、前記文字認識部より得られた文字列を、ネットワークを介して前記サーバに送信し、前記サーバにおいて前記検索部により関連情報を検索した結果得られた情報を、前記ネットワークを介して前記携帯情報端末に送信する。また、前記文字認識部は、サーバ装置に備えることもできる。   In the present invention, a server device includes the storage device and the search unit, and the portable information terminal transmits a character string obtained from the character recognition unit to the server via a network. The information obtained as a result of searching for related information by the search unit is transmitted to the portable information terminal via the network. The character recognition unit may be provided in a server device.

また、本発明の文書情報登録部は、文書の構造を定義した文書ファイルを入力し、前記文書ファイルの前記文書の構造、すなわち文字、文字種、文字座標、文字サイズなどを解析して文書の構成要素(章、段、文、行、見出しなど)に分解し、前記構成要素単位に関連する情報を対応付けた関連情報を作成する。例えば、図5に示す文書ファイル15は、PDFの文書構造を持つ。 PDFファイルでは、ページオブジェクト、テキストオブジェクトなど、文書を階層化した複数のオブジェクトを持つ。テキストオブジェクトには、書体、字体、文字幅の指定、ページ上の開始位置、文字コード、文字ごとの間隔が記述されている。これらの情報を利用することにより容易に文字列の位置を推定することが可能である。   The document information registration unit of the present invention inputs a document file that defines the document structure, analyzes the document structure of the document file, that is, character, character type, character coordinates, character size, etc. The information is divided into elements (chapter, column, sentence, line, heading, etc.), and related information in which information related to the constituent element unit is associated is created. For example, the document file 15 shown in FIG. 5 has a PDF document structure. A PDF file has a plurality of objects in which documents are hierarchized, such as a page object and a text object. The text object describes the typeface, font, character width specification, start position on the page, character code, and the spacing for each character. By using these pieces of information, it is possible to easily estimate the position of the character string.

さらに好ましくは、文書の構成要素を階層化し、上位階層から関連情報を設定し、検索時には下位階層から関連情報を検索する。さらに好ましくは、前記文書の構成要素を形態素に分解し、前記形態素単位に関連する情報を対応付けた関連情報を作成する。また、さらに好ましくは、前記形態素は、形態素の区切りを登録者が編集する編集部を有する。   More preferably, the constituent elements of the document are hierarchized, the related information is set from the upper hierarchy, and the related information is searched from the lower hierarchy when searching. More preferably, the constituent elements of the document are decomposed into morphemes, and related information in which information related to the morpheme unit is associated is created. Still more preferably, the morpheme has an editing unit in which a registrant edits a morpheme break.

本発明によって、文書の文字列および文字位置から行、文、単語などといった関連情報を設定する単位を作成するため、登録者が文書から行や文、単語などを登録する作業が不要または簡易となる。   According to the present invention, since a unit for setting related information such as a line, a sentence, and a word is created from a character string and a character position of the document, a registrant does not need to register a line, a sentence, a word, or the like from the document. Become.

本発明の実施形態の文書情報登録システムは、文書登録装置、サーバ装置、携帯端末装置により構成する。検索する文書に設定する関連情報は、行と単語単位にURL(Uniform Resource Locator)を設定し、URLを使ってブラウザ上に情報を表示する。また入力を行う文書の構造を数値化して定義した文書ファイルとしてPDF(Portable Document Format)ファイルを例として説明を行う。   The document information registration system according to the embodiment of the present invention includes a document registration device, a server device, and a mobile terminal device. As the related information set in the document to be searched, a URL (Uniform Resource Locator) is set for each line and word, and the information is displayed on the browser using the URL. Also, a PDF (Portable Document Format) file will be described as an example of a document file that defines the structure of a document to be input as a numerical value.

本発明の実施形態を、図1を用いて説明する。図1は、本実施形態の全体構成図の例である。関連情報を登録する文書は、あらかじめ文書登録者が文書登録装置10を操作し、文書入力装置41にて文書データを入力する。解析装置42は、入力された文書ファイルを行や単語などの文書を構成する構成要素に分解し、分解した構成要素を表示装置40に表示する。文書登録者は、構成要素に関連した情報を入力装置45から入力する。構成要素と構成要素に対応した関連情報を含む検索用DBは、登録装置43にて記憶装置44に記憶する。また、検索用DBは、文書登録装置10の通信装置46からサーバ装置320の通信装置33にネットワーク36を経由して送信され、サーバ装置320の記憶装置32に格納される。   An embodiment of the present invention will be described with reference to FIG. FIG. 1 is an example of an overall configuration diagram of the present embodiment. A document registrant operates the document registration apparatus 10 in advance, and the document input apparatus 41 inputs document data for a document for registering related information. The analysis device 42 disassembles the input document file into constituent elements constituting the document such as lines and words, and displays the disassembled constituent elements on the display device 40. The document registrant inputs information related to the component from the input device 45. The search DB including the component and related information corresponding to the component is stored in the storage device 44 by the registration device 43. The search DB is transmitted from the communication device 46 of the document registration device 10 to the communication device 33 of the server device 320 via the network 36 and stored in the storage device 32 of the server device 320.

携帯端末装置300は、関連情報を登録した文書の一覧を表示装置22に表示する。携帯端末装置300の利用者は、関連情報を検索する撮影対象の文書を、入力装置20の操作で文書選択装置21により選択し、印刷された文書の一部を撮影装置23により撮影する。文字認識装置24は、撮影した画像から注目する単語とその周辺の複数の単語を認識する。携帯端末装置300は、携帯電話、PDAなどの、撮像装置を有する情報端末である。   The mobile terminal device 300 displays a list of documents registered with related information on the display device 22. A user of the portable terminal device 300 selects a document to be photographed for searching for related information by the operation of the input device 20 using the document selection device 21 and photographs a part of the printed document by the photographing device 23. The character recognition device 24 recognizes a word of interest and a plurality of surrounding words from the captured image. The mobile terminal device 300 is an information terminal having an imaging device such as a mobile phone or a PDA.

サーバ装置320において、位置検索装置34は、記憶装置32に記憶した検索用DBから、携帯端末装置300で撮影した注目単語の文書中の位置を特定し、情報検索装置31は、注目単語に対応する関連情報を検索用DBから検索する。携帯端末装置300の表示装置22は、情報検索装置31で得られた関連情報を表示する。携帯端末装置300とサーバ装置320間のデータ通信は、通信装置25と通信装置30間でネットワーク26を経由して接続し、携帯端末装置300で認識した注目単語と、サーバ装置320で検索した関連情報の転送を行う。   In the server device 320, the position search device 34 specifies the position in the document of the attention word photographed by the mobile terminal device 300 from the search DB stored in the storage device 32, and the information search device 31 corresponds to the attention word. Related information is searched from the search DB. The display device 22 of the mobile terminal device 300 displays related information obtained by the information search device 31. Data communication between the mobile terminal device 300 and the server device 320 is performed by connecting the communication device 25 and the communication device 30 via the network 26, and the attention word recognized by the mobile terminal device 300 and the relationship searched by the server device 320. Transfer information.

次に本発明の実施形態における図1の文書登録装置10の詳細を、図2を用いて詳細に説明する。以下、図2の各部の動作を、図3のフローチャート図および必要に応じて図5、図8乃至図12の符号を用いて説明する。図2は、本実施形態の文書登録装置の動作を示すブロック図の例である。図3は、本実施形態の文書登録装置の動作を示すフローチャート図である。   Next, details of the document registration apparatus 10 in FIG. 1 according to the embodiment of the present invention will be described in detail with reference to FIG. 2 will be described below using the flowchart of FIG. 3 and the reference numerals of FIGS. 5 and 8 to 12 as necessary. FIG. 2 is an example of a block diagram showing the operation of the document registration apparatus of this embodiment. FIG. 3 is a flowchart showing the operation of the document registration apparatus of this embodiment.

図1と図2の各ブロックの対応を説明する。文書入力装置41は,文書登録部101と文書入力部100に対応する。解析装置42は,属性抽出部102,文書座標抽出部106,文書抽出部103,形態素解析部104,単語編集部105,単語リスト作成部107,照合辞書作成部109に対応する。登録装置43は,リンク先登録部111に対応する。記憶装置43は,文書情報120,文書属性情報121,単語照合辞書122,単語情報123,文字情報126,行リンク情報124,単語リンク情報125に対応する。   The correspondence between the blocks in FIGS. 1 and 2 will be described. The document input device 41 corresponds to the document registration unit 101 and the document input unit 100. The analysis device 42 corresponds to the attribute extraction unit 102, document coordinate extraction unit 106, document extraction unit 103, morpheme analysis unit 104, word editing unit 105, word list creation unit 107, and collation dictionary creation unit 109. The registration device 43 corresponds to the link destination registration unit 111. The storage device 43 corresponds to the document information 120, document attribute information 121, word collation dictionary 122, word information 123, character information 126, line link information 124, and word link information 125.

文書登録部101において、登録者は、文書登録部101から文書のタイトル201などを入力する(130)。登録者は、文書入力部100により文書ファイル15を入力する(131)。属性抽出部102は、文書ファイル15の文書構造を解析し、文書のページ数202、文字の背景、文字方向、使われている文字種を抽出し(132)、ページ数202と、文書登録部101により入力したタイトル201と、自動的に生成する文書番号200を文書情報120に登録する(133)。また、抽出した文字の背景、文字方向、使われている文字種から二値化モード70、文字方向71、文字コード72を作成し、文書属性情報121に登録する(150)。   In the document registration unit 101, the registrant inputs the document title 201 from the document registration unit 101 (130). The registrant inputs the document file 15 through the document input unit 100 (131). The attribute extraction unit 102 analyzes the document structure of the document file 15 and extracts the document page number 202, character background, character direction, and used character type (132). The page number 202 and the document registration unit 101 The title 201 input by the above and the automatically generated document number 200 are registered in the document information 120 (133). Further, the binarization mode 70, the character direction 71, and the character code 72 are created from the extracted character background, character direction, and character type used, and are registered in the document attribute information 121 (150).

文字座標抽出部106は、ページ中の文字の位置座標を抽出(160)し、文字毎にページ番号210、行番号211、列番号233などの位置情報を出力する。文字抽出部103は、文書ファイル15から文字を抽出し(135)、文字座標抽出部106が設定した文字単位のページ番号210、行番号211から同一行の文字列を再構成し、文字情報126に登録する(139)。   The character coordinate extraction unit 106 extracts the position coordinates of the characters in the page (160), and outputs position information such as the page number 210, the row number 211, and the column number 233 for each character. The character extraction unit 103 extracts characters from the document file 15 (135), reconstructs a character string on the same line from the page number 210 and line number 211 of each character set by the character coordinate extraction unit 106, and character information 126 (139).

形態素解析部104は、文字情報126から、行単位に文字列を形態素解析して行を構成する複数の品詞に分解する(136)。接続詞など不用な品詞を除去し固有名詞など単語として利用可能な品詞を選択して出力する(137)。単語編集部105は、形態素解析部104が出力する品詞を構成する文字列に対し、登録者が必要に応じて行う、連続する複数の品詞を構成する文字列の結合、または品詞を構成する文字列の分割などの編集を受け付け、単語230を作成する(138)。単語リスト作成部107は、単語編集部105が出力する単語230と、単語230の先頭文字の文字座標抽出部106が出力するページ番号210、行番号211、列番号233を用いて、単語情報123に登録する(140)。   The morpheme analysis unit 104 parses the character string from the character information 126 into a plurality of parts of speech constituting the line by performing morphological analysis on the line unit (136). Unnecessary parts of speech such as conjunctions are removed, and parts of speech that can be used as words such as proper nouns are selected and output (137). The word editing unit 105 combines the character strings constituting a plurality of continuous parts of speech, or the characters constituting the part of speech, which the registrant performs as necessary on the character strings constituting the part of speech output by the morphological analysis unit 104. Editing such as column division is accepted and a word 230 is created (138). The word list creation unit 107 uses the word 230 output from the word editing unit 105 and the page number 210, the line number 211, and the column number 233 output from the character coordinate extraction unit 106 of the first character of the word 230. (140).

照合辞書作成部109は、単語情報123に登録されている全ての単語230から、単語照合辞書122を作成する(171)。リンク先登録部111は、文字情報126の各文字データ212−1〜b、および単語情報123に登録してある単語データ234−1〜cに対応するリンク先URLの情報について登録者からの入力を受け付け、行リンク情報124および単語リンク情報125を作成する(143)。   The collation dictionary creating unit 109 creates the word collation dictionary 122 from all the words 230 registered in the word information 123 (171). The link destination registration unit 111 inputs from the registrant information on the link destination URL corresponding to the character data 212-1 to b of the character information 126 and the word data 234-1 to c registered in the word information 123. The line link information 124 and the word link information 125 are created (143).

以下、文書登録装置10が作成する、文書情報120、文字情報126、単語情報123、行リンク情報124、単語リンク情報125、を図8乃至図12を用いて説明する。
文書情報120を、図8を用いて説明する。図8において、文書情報120は、文書データ203−1〜aから構成され、文書データ203−1〜aは、文書毎の文書番号200とタイトル201、ページ数202から構成する。文書番号200は、登録された文書毎に自動的に設定する番号であり、タイトル201は、文書の表題であり、ページ数202は、文書を構成する総ページ数を示す。
Hereinafter, the document information 120, the character information 126, the word information 123, the line link information 124, and the word link information 125 created by the document registration apparatus 10 will be described with reference to FIGS.
The document information 120 will be described with reference to FIG. In FIG. 8, the document information 120 is composed of document data 203-1 to a, and the document data 203-1 to a is composed of a document number 200, a title 201, and a page number 202 for each document. The document number 200 is a number automatically set for each registered document, the title 201 is the title of the document, and the page number 202 indicates the total number of pages constituting the document.

次に文字情報126を、図9を用いて説明する。図9において、文字情報126は、文字データ212−1〜bから構成され、文字データ212−1〜bは、文書中の行単位毎に、文字列213と、文字列213が印刷されている、ページ番号210、行番号211、から構成される。   Next, the character information 126 will be described with reference to FIG. In FIG. 9, the character information 126 is composed of character data 212-1 to 212-b, and the character data 212-1 to b are printed with a character string 213 and a character string 213 for each line unit in the document. , Page number 210 and line number 211.

次に単語情報123を、図10を用いて説明する。図10において、単語情報123は、単語データ234−1〜cから構成され、単語データ234−1〜cは、単語230と、単語230の印刷された文書中の位置を示すページ番号210、行番号211、列番号233から構成する。単語230は、単語リスト作成部107で作成する単語である。列番号233は、単語230が含まれる文書情報126中の文字列213において、単語230の先頭文字を文字列213の左の文字から数えた位置である。   Next, the word information 123 will be described with reference to FIG. In FIG. 10, word information 123 includes word data 234-1 to 234-c, and the word data 234-1 to 234-c includes a word 230, a page number 210 indicating the position of the word 230 in the printed document, a line It consists of number 211 and column number 233. The word 230 is a word created by the word list creation unit 107. The column number 233 is a position where the first character of the word 230 is counted from the left character of the character string 213 in the character string 213 in the document information 126 including the word 230.

次に行リンク情報124を、図11を用いて説明する。図11において、行リンク情報124は、行リンクデータ222−1〜bから構成され、行リンクデータ222−1〜bは、文書中の全ての行に対して設定した、ページ番号210、行番号211、リンク先URL223から構成する。   Next, the row link information 124 will be described with reference to FIG. In FIG. 11, the line link information 124 is composed of line link data 222-1 to 22-b, and the line link data 222-1 to 222-b is a page number 210 and a line number set for all the lines in the document. 211 and a link destination URL 223.

次に単語リンク情報125を、図12を用いて説明する。図12において単語リンク情報125は、単語リンクデータ235−1〜eから構成され、単語リンクデータ235−1〜eは、単語230と、単語230に設定するリンク先URL223と、単語230の印刷文書中の位置を示す、ページ番号210、行番号211、列番号233から構成する。   Next, the word link information 125 will be described with reference to FIG. In FIG. 12, the word link information 125 includes word link data 235-1 to 235-1e, and the word link data 235-1 to 235-1 to the word 230, the link destination URL 223 set in the word 230, and the printed document of the word 230 It consists of page number 210, row number 211, and column number 233 indicating the position inside.

以下、PDFファイルを例とする文書ファイル15から文字情報126を抽出する手順を図5と図28を用いて、詳細に説明する。図5は,本実施形態の入力する文書ファイルの例,図28は、本実施形態の文字情報126の作成手順を示すフローチャート図である。   Hereinafter, a procedure for extracting the character information 126 from the document file 15 taking a PDF file as an example will be described in detail with reference to FIGS. FIG. 5 is an example of a document file input according to the present embodiment, and FIG. 28 is a flowchart showing a procedure for creating character information 126 according to the present embodiment.

図5のPDFファイル例の代表的な各行の意味を,行番号16を用いて説明する。説明を分かりやすくするため,埋め込まれた文字は英文である。PDFでは,文書のレイアウトを定義するためオブジェクト単位で定義を行っている。行1と行38は,PDF形式であることを示すヘッダとフッタである。行4〜11は,ページのオブジェクトを定義する。行12〜24は,使用されている書体のオブジェクトを定義する。行16が定義する文字の開始コード,行17が定義する文字の終了コードであり,行18〜19が開始から終了文字の文字幅を定義する。行21は,書体である。行25〜37は,印刷されるテキストオブジェクトを定義する。行28は,テキストオブジェクトの開始,行34は,テキストオブジェクトの終了を示す。行30は,Tcが文字の間隔,Twが単語の間隔を定義する。行31は,印刷する文字と必要に応じて配置のオフセットを定義する。行32は,Tdが次の行へのオフセットを定義する。行33は,印刷する文字を定義する。   The meaning of each representative line in the PDF file example of FIG. 5 will be described using line number 16. To make the explanation easier to understand, the embedded characters are in English. In PDF, definitions are made on an object basis to define the layout of the document. Lines 1 and 38 are a header and a footer indicating the PDF format. Lines 4-11 define page objects. Lines 12-24 define the typeface object being used. The start code of the character defined by line 16 and the end code of the character defined by line 17, and lines 18 to 19 define the character width of the end character from the start. Line 21 is a typeface. Lines 25-37 define the text object to be printed. Line 28 indicates the start of the text object, and line 34 indicates the end of the text object. Line 30 defines Tc as the character spacing and Tw as the word spacing. Line 31 defines the characters to be printed and, if necessary, the placement offset. Line 32 defines an offset to the next line where Td. Line 33 defines the character to be printed.

文書ファイル15から文字情報126を抽出するために、まず、テキストブロックからテキストブロックに共通する書体、字体、文字毎の文字幅のパラメータを抽出する(550)。最初の文字の始点座標のパラメータを抽出する(551)。1文字ごとに文字幅と文字間隔のパラメータより終点座標を計算し、求めた終点座標を次の文字の始点座標とする(552)。552の処理を行方向の座標が異なる文字の始点座標が見つかるまで繰り返す(553)。552で処理した文字を同一行の文字列213として、文字情報126に登録する(555)。テキストブロック内が終了するまで551から555の処理を繰り返す(556)。ページオブジェクトが終了するまで550から556の処理を繰り返す(557)。文書を終了するまで、上記ページオブジェクト内の処理を繰り返す(558)。   In order to extract the character information 126 from the document file 15, first, the font, font, and character width parameters for each character that are common to the text block are extracted from the text block (550). The parameter of the starting point coordinates of the first character is extracted (551). The end point coordinates are calculated from the parameters of the character width and the character interval for each character, and the obtained end point coordinates are set as the start point coordinates of the next character (552). The process of 552 is repeated until the start point coordinates of characters having different coordinates in the line direction are found (553). The character processed in 552 is registered in the character information 126 as a character string 213 on the same line (555). The processes from 551 to 555 are repeated until the text block is completed (556). The processes from 550 to 556 are repeated until the page object is completed (557). The process in the page object is repeated until the document is finished (558).

本発明の実施形態では、列番号233を行の先頭文字からの文字数としたが、例えば図28で求まる文字単位の始点座標を用いることも可能である。また、本発明の実施形態では、リンク先URL223の設定を行または単語単位設定し、それぞれ行リンク情報124、単語リンク情報125を作成したが、文単位にリンク先URL223を設定することも可能である。   In the embodiment of the present invention, the column number 233 is the number of characters from the first character of the line, but it is also possible to use, for example, the start point coordinates in units of characters obtained in FIG. In the embodiment of the present invention, the setting of the link destination URL 223 is set for each line or word, and the line link information 124 and the word link information 125 are respectively created. However, the link destination URL 223 can be set for each sentence. is there.

以下、文単位にリンク先URL223を設定した文リンク情報590の作成手順を文情報580と、文情報580の作成手順を、図29、図30、図31を用いて説明する。図29は、本実施形態の文情報580の作成手順示すフローチャート図である。   Hereinafter, the creation procedure of the sentence link information 590 in which the link destination URL 223 is set for each sentence will be described with reference to the sentence information 580 and the creation procedure of the sentence information 580 with reference to FIGS. 29, 30, and 31. FIG. 29 is a flowchart showing a procedure for creating the sentence information 580 of this embodiment.

図30は、本実施形態の文情報580の例であり、文情報580は、文データ582−1〜kから構成され、文データ582−1〜kは、文581と、文581が含まれるページのページ番号210と、文581の最初の文字が存在する文字データ212中の行番号211を始点の行番号273とし、文字列213の左から数えた文字数からなる列番号233を始点の列番号274とする。また、文581の最後の文字が存在する文字データ212中の行番号211を終点の行番号271とし、文字列213の左から数えた文字数からなる列番号233を終点の列番号272とする。
本実施形態では、列番号272、274を文字列中の左からの文字数としたが、図28で算出した文字の始点の座標を利用することも可能である。
FIG. 30 is an example of the sentence information 580 of the present embodiment. The sentence information 580 is composed of sentence data 582-1 to k, and the sentence data 582-1 to k includes a sentence 581 and a sentence 581. The page number 210 of the page and the line number 211 in the character data 212 in which the first character of the sentence 581 exists is set as the starting line number 273, and the column number 233 including the number of characters counted from the left of the character string 213 is set as the starting column. The number is 274. Further, the line number 211 in the character data 212 in which the last character of the sentence 581 exists is set as the end line number 271, and the column number 233 including the number of characters counted from the left of the character string 213 is set as the end line number 272.
In this embodiment, the column numbers 272 and 274 are the number of characters from the left in the character string. However, the coordinates of the start point of the character calculated in FIG. 28 can also be used.

図31は、本実施形態の文リンク情報590の例であり、文リンク情報590は、文リンクデータ591−1〜kから構成され、文リンクデータ591−1〜kは、文データ582−1〜kに対応して、文情報580の文581の代わりに、文581に関連つけられるリンク先URL223を設定する。   FIG. 31 is an example of the sentence link information 590 of the present embodiment. The sentence link information 590 is composed of sentence link data 591-1 to 59k, and the sentence link data 591-1 to 59k is sentence data 582-1. Corresponding to ~ k, instead of the sentence 581 of the sentence information 580, the link destination URL 223 associated with the sentence 581 is set.

文情報580の作成では、図28で作成した文字情報126と、書体、字体、文字コード、文字サイズを利用して作成する。文字情報126の文字データ212−1〜bに登録した行毎の文字列213について、文書ファイル15から図28で抽出した書体、字体と同様に、文字の書体、字体、文字サイズなどを抽出し、次の行の書体、字体、文字サイズなどが異なるか判定する(570)。異なる場合は、文字列213を見出し行として、文情報580の文データ582に追加登録する(573)。次に、先頭文字が記号“(1)”や見出し番号“1.1“など明らかに前後の行と異なるか判定する(571)。異なる場合は、文字列213を見出し行として、文情報580の文データ582に追加登録する(573)。次に、見出し行でなければ、順次行の文字列213から句点“。”を探索し、句点で区切った文581として文情報580の文データ582に登録する(572)。上記の処理を文書中の全ての行を走査するまで繰り返す(574)。   The sentence information 580 is created using the character information 126 created in FIG. 28 and the font, font, character code, and character size. For the character string 213 for each row registered in the character data 212-1 to 212-b of the character information 126, the character typeface, character type, character size, etc. are extracted in the same manner as the typeface and character type extracted from the document file 15 in FIG. Then, it is determined whether the font, font, character size, etc. of the next line are different (570). If they are different, the character string 213 is additionally registered in the sentence data 582 of the sentence information 580 as a heading line (573). Next, it is determined whether the first character is clearly different from the preceding and following lines such as the symbol “(1)” and the heading number “1.1” (571). If they are different, the character string 213 is additionally registered in the sentence data 582 of the sentence information 580 as a heading line (573). Next, if it is not a heading line, a phrase “.” Is searched from the character string 213 in the sequential line and registered in the sentence data 582 of the sentence information 580 as a sentence 581 separated by the phrase (572). The above processing is repeated until all lines in the document are scanned (574).

次に以下図4を用いて文書登録装置の構成を説明する。図4は、本実施形態の文書登録装置のハードウェア構成図の例である。
図1と図4の各ブロックの対応を説明する。入力装置45は,キーボード700,マウス701に対応する。表示装置40は,ディスプレイ703に対応する。通信装置320は,通信回路705に対応する。記憶装置44は,データメモリ801に対応する。文書選択装置21および文字認識装置24は,文書登録プログラム810に対応する。
Next, the configuration of the document registration apparatus will be described with reference to FIG. FIG. 4 is an example of a hardware configuration diagram of the document registration apparatus according to the present embodiment.
The correspondence between the blocks in FIGS. 1 and 4 will be described. The input device 45 corresponds to the keyboard 700 and the mouse 701. The display device 40 corresponds to the display 703. The communication device 320 corresponds to the communication circuit 705. The storage device 44 corresponds to the data memory 801. The document selection device 21 and the character recognition device 24 correspond to the document registration program 810.

キーボード700は、登録者からテキスト入力などを行う。マウス701は、利用者からのディスプレイ画面上のボタン操作などを行う。外部記憶装置702は、文書ファイル15を記憶したフロッピー(登録商標)ディスクやコンパクトディスクなどの記憶メディアから文書ファイル15を入力したり、データメモリ801に記憶されたデータを記憶メディアに出力したりする。ディスプレイ703は、登録者に操作画面などを表示する。CPU704はプログラムメモリ800中のプログラムを実行する。通信回路705は、サーバ装置320間でネットワーク36を経由してデータメモリ801に記憶されたデータの転送を行う。プログラムメモリ800は、図2の各部の動作を実行する文書登録プログラム810を格納する。データメモリ801は、文書情報120、文書属性情報121、単語照合辞書122、単語情報123、行リンク情報124、単語リンク情報125、文字情報126と、文書登録プログラム810が使用する作業用の一時データを格納する。   The keyboard 700 is used for text input from a registrant. The mouse 701 performs a button operation on the display screen from the user. The external storage device 702 inputs the document file 15 from a storage medium such as a floppy (registered trademark) disk or a compact disk in which the document file 15 is stored, and outputs the data stored in the data memory 801 to the storage medium. . The display 703 displays an operation screen and the like to the registrant. The CPU 704 executes the program in the program memory 800. The communication circuit 705 transfers data stored in the data memory 801 between the server apparatuses 320 via the network 36. The program memory 800 stores a document registration program 810 that executes the operation of each unit in FIG. The data memory 801 includes document information 120, document attribute information 121, word collation dictionary 122, word information 123, line link information 124, word link information 125, character information 126, and temporary data for work used by the document registration program 810. Is stored.

以下、本実施形態のリンク先登録のために文書登録装置300において、リンク先URL223を登録者が操作する手順を、図6を用いて説明する。図6は、本実施形態のディスプレイ703に表示する画面の例である。
CPU704で実行される文書登録プログラム810は、登録者が操作する画面をディスプレイ703に表示し、キーボード700およびマウス701を操作し入力操作を受け付ける。ボタンは、マウス701を利用して選択することができる。入力フィールドは、キーボード700を操作し文字を入力することができる。
The procedure for the registrant to operate the link destination URL 223 in the document registration apparatus 300 for link destination registration according to this embodiment will be described below with reference to FIG. FIG. 6 is an example of a screen displayed on the display 703 of this embodiment.
The document registration program 810 executed by the CPU 704 displays a screen operated by the registrant on the display 703 and operates the keyboard 700 and the mouse 701 to accept an input operation. The button can be selected using the mouse 701. In the input field, characters can be input by operating the keyboard 700.

文書登録プログラム810を起動すると、最初に文書登録画面600を表示する。最初に文書を登録する手順を説明する。文書登録画面600は、現在登録されている文書情報120を一覧表示する。登録者は、新規に文書を追加したい場合、追加ボタン601を選択することにより文書情報画面610を表示させることができる。登録した文書中登録を削除する場合は、削除したい項目の削除ボタン603を選択することにより、文書情報120より選択した文書情報を削除し、一覧表示から削除する。文書のリンク情報を設定する場合は、設定する文書の項目の設定ボタン602を選択することにより、リンク登録画面620を表示する。   When the document registration program 810 is activated, a document registration screen 600 is displayed first. First, a procedure for registering a document will be described. The document registration screen 600 displays a list of currently registered document information 120. When the registrant wants to add a new document, the registrant can display the document information screen 610 by selecting the add button 601. When deleting the registered registration in the document, by selecting the delete button 603 of the item to be deleted, the selected document information is deleted from the document information 120 and deleted from the list display. When setting the link information of a document, the link registration screen 620 is displayed by selecting the setting button 602 for the item of the document to be set.

文書情報画面610は、文書番号フィールド611に自動的に設定した文書番号200を表示し、タイトルフィールド612にタイトル201を入力する。登録者は、開くボタン613を選択することにより、文書ファイル15を入力する。入力した文書ファイル15のページ数などの文書情報は文書情報表示フィールド614に表示される。登録者は、登録内容に問題がないことを確認し、登録ボタン615を選択することにより文書の解析が開始され文書登録画面600を表示する。登録をキャンセルする場合は、キャンセルボタン616を選択することで文書情報120に登録されず、文書登録画面600を表示する。   The document information screen 610 displays the automatically set document number 200 in the document number field 611 and inputs the title 201 in the title field 612. The registrant inputs the document file 15 by selecting the open button 613. Document information such as the number of pages of the input document file 15 is displayed in a document information display field 614. The registrant confirms that there is no problem in the registered contents, and selects the registration button 615 to start document analysis and display the document registration screen 600. When canceling registration, selecting the cancel button 616 causes the document registration screen 600 to be displayed without being registered in the document information 120.

次にリンク情報を設定する手順を説明する。リンク登録画面620では、登録者がリンク先フィールド621に、文書全体に設定したいリンク先URL223を記入し、確定ボタン622で確定する。登録者は必要に応じて以下同様に確認ボタン623を選択することによりリンク確認画面660を表示する。登録者は、確定ボタン622を選択することにより、文書番号223および入力したリンク先URL223を、文書リンクテーブル240に登録する。ページ単位のリンク情報の設定では、ページ一括設定ボタン624の選択で、ページ設定画面630を表示する。行単位のリンク情報の設定では、行一括設定ボタン625の選択で、行設定画面640を表示する。単語単位のリンク情報設定では、単語設定626ボタンの選択で、単語設定画面650を表示する。以下同様に戻るボタン627の選択で、前画面を表示する。
リンク確認画面660は、設定したリンク先URL223に対応した画像などを表示画面662に表示する。リンク先URL223が誤った場合は、リンク先フィールド661に修正したリンク先URL223を記入し、更新ボタン663を選択することによりリンク先フィールド621に反映する。
Next, a procedure for setting link information will be described. On the link registration screen 620, the registrant enters the link destination URL 223 to be set for the entire document in the link destination field 621, and confirms with the confirm button 622. The registrant displays the link confirmation screen 660 by selecting the confirmation button 623 in the same manner as necessary. The registrant selects the confirmation button 622 to register the document number 223 and the input link destination URL 223 in the document link table 240. When setting link information in units of pages, the page setting screen 630 is displayed by selecting the page batch setting button 624. In setting link information in units of lines, a line setting screen 640 is displayed by selecting a line batch setting button 625. In the link information setting for each word, the word setting screen 650 is displayed by selecting the word setting 626 button. Similarly, when the return button 627 is selected, the previous screen is displayed.
The link confirmation screen 660 displays an image corresponding to the set link destination URL 223 on the display screen 662. If the link destination URL 223 is incorrect, the corrected link destination URL 223 is entered in the link destination field 661 and reflected in the link destination field 621 by selecting the update button 663.

ページ設定画面630は、登録者が追加ボタン601の選択で設定項目を追加し、追加した設定項目のページ数入力フィールド631に設定したいページ番号210、リンク先フィールド621にリンク先URL223をそれぞれ入力する。確定ボタン622の選択により、リンク先URL223、ページ番号210を、ページリンクテーブル250に登録する。   In the page setting screen 630, the registrant adds a setting item by selecting the add button 601, and inputs the page number 210 to be set in the page number input field 631 of the added setting item and the link destination URL 223 in the link destination field 621. . By selecting the confirmation button 622, the link destination URL 223 and the page number 210 are registered in the page link table 250.

行設定画面640は、登録者がページ設定フィールド641に設定したいページ番号210を入力し、追加ボタン601の選択により設定項目を追加する。登録者は、追加した設定項目の行数入力フィールド642に設定したい行番号211、リンク先フィールド621にリンク先URL223をそれぞれ入力する。登録者は、確定ボタン622の選択により、ページ番号210、行番号211、リンク先URL223を、行リンクテーブル260に登録する。   In the row setting screen 640, the registrant inputs a page number 210 to be set in the page setting field 641, and a setting item is added by selecting an add button 601. The registrant inputs the line number 211 desired to be set in the line number input field 642 of the added setting item and the link destination URL 223 in the link destination field 621. The registrant registers the page number 210, the line number 211, and the link destination URL 223 in the line link table 260 by selecting the confirmation button 622.

単語設定画面650は、登録者がページ設定フィールド641に設定したいページ、行設定フィールド651に設定したい行を入力し、追加ボタン601の選択により設定項目を追加する。追加した設定項目の単語フィールド652にページ設定フィールド641および行設定フィールド651に入力したページと行に含まれている単語を単語情報123から取得し一覧表示する。登録者は、設定したい単語に対応したリンク先フィールド621にリンク先URL223を記入する。登録者は、確定ボタン622により、ページ設定フィールド641、行設定フィールド651、単語フィールド652、リンク先フィールド621のそれぞれに設定した値と、単語情報123の内、設定した単語の列番号233を単語リンク情報125に登録する。   On the word setting screen 650, the registrant inputs a page to be set in the page setting field 641 and a line to be set in the line setting field 651, and a setting item is added by selecting an add button 601. The word contained in the page and line input in the page setting field 641 and the line setting field 651 is acquired from the word information 123 in the word field 652 of the added setting item and displayed in a list. The registrant enters the link destination URL 223 in the link destination field 621 corresponding to the word to be set. The registrant selects the value set in each of the page setting field 641, the row setting field 651, the word field 652, and the link destination field 621 and the column number 233 of the set word from the word information 123 by using the confirm button 622. Register in the link information 125.

図6の実施例では、画面を切り替えて設定を行う例を示したが、図7に示すように画面を遷移することなく一画面中で全ての設定を行うことももちろん可能である。   In the embodiment of FIG. 6, an example in which the setting is performed by switching the screen is shown. However, as shown in FIG. 7, it is of course possible to perform all the settings in one screen without changing the screen.

図7の動作を説明する。図7は本実施形態のリンク先登録のためにディスプレイ703に表示される他の画面の例である。図7において、登録画面180は、文書表示エリア181に設定を行う文書を表示し、行番号182に対応して行リンク設定フィールド185で行単位にリンク先URL223を設定する。またリンク先URL223を設定可能な単語は、文書表示エリア181に表示された文書中に設定枠183が表示され、単語リンク設定フィールド185で単語ごとにリンク先URL223を設定することができる。   The operation of FIG. 7 will be described. FIG. 7 is an example of another screen displayed on the display 703 for link destination registration of this embodiment. In FIG. 7, the registration screen 180 displays a document to be set in the document display area 181, and sets a link destination URL 223 for each line in the line link setting field 185 corresponding to the line number 182. In addition, for a word for which the link destination URL 223 can be set, a setting frame 183 is displayed in the document displayed in the document display area 181, and the link destination URL 223 can be set for each word in the word link setting field 185.

次に、リンク先登録部111において図11の行リンク情報124を作成する手順を、以下図14のフローチャート図と図13を用いて詳細に説明する。図13は、本実施形態のリンク先登録部111が作成するデータの例、図14は、本実施形態のリンク先登録部111の動作を示すフローチャート図である。   Next, a procedure for creating the row link information 124 of FIG. 11 in the link destination registration unit 111 will be described in detail with reference to the flowchart of FIG. 14 and FIG. FIG. 13 is an example of data created by the link destination registration unit 111 of this embodiment, and FIG. 14 is a flowchart showing the operation of the link destination registration unit 111 of this embodiment.

図13において、文書リンクテーブル240は、文書毎に設定される文書リンクデータ243−1〜fから構成され、文書リンクデータ243−1〜fは、文書番号200とリンク先URL223から構成される。ページリンクテーブル250は、ページ単位に設定するページリンクデータ253−1〜gから構成され、ページリンクデータ253−1〜gは、ページ番号210、リンク先URL223から構成される。行リンクテーブル260は、行単位に設定する行リンクデータ263−1〜hから構成され、行リンクデータ263−1〜hは、ページ番号210、行番号211、リンク先URL223から構成される。   In FIG. 13, the document link table 240 is composed of document link data 243-1 to 24-f set for each document, and the document link data 243-1 to 243-f is composed of a document number 200 and a link destination URL 223. The page link table 250 includes page link data 253-1 to 253-g set for each page, and the page link data 253-1 to 253-1 to 25g includes a page number 210 and a link destination URL 223. The line link table 260 includes line link data 263-1 to 263-h set for each line, and the line link data 263-1 to 263-h includes a page number 210, a line number 211, and a link destination URL 223.

行リンク情報124は、文書リンクテーブル240、ページリンクテーブル250、行リンクテーブル260から自動的に生成される。すなわち、行リンクテーブル260にリンク先URL223が設定しているか行単位に検査し(280)、検査した行のリンク先URL223が設定されている場合は、行リンク情報124に行リンクテーブル260の検査した行のリンク先URL223を設定する(281)。行リンクテーブル260の検査した行にリンク先URL223が設定されていない場合は、ページリンクテーブル250に、検査する行を含むページがリンク先URL223を設定しているか検査する(282)。リンク先URL223が設定されている場合は、ページリンクテーブル250の検査する行を含む指定ページのリンク先URL223を、行リンク情報124の検査する行のリンク先URL223として設定する(283)。ページリンクテーブル250の指定ページにリンク先URL223が設定していない場合は、文書リンクテーブル240の該当する文書番号200に対応するリンク先URL223を、行リンク情報124の検査する行のリンク先URL223に設定する(284)。   The line link information 124 is automatically generated from the document link table 240, the page link table 250, and the line link table 260. That is, it is inspected for each line whether or not the link destination URL 223 is set in the line link table 260 (280), and when the link destination URL 223 of the inspected line is set, the line link information 124 is inspected. The link destination URL 223 of the line thus set is set (281). If the link destination URL 223 is not set in the inspected line of the line link table 260, it is inspected in the page link table 250 whether the page including the line to be inspected has the link destination URL 223 set (282). When the link destination URL 223 is set, the link destination URL 223 of the designated page including the row to be checked in the page link table 250 is set as the link destination URL 223 of the row to be checked in the row link information 124 (283). When the link destination URL 223 is not set in the designated page of the page link table 250, the link destination URL 223 corresponding to the corresponding document number 200 in the document link table 240 is set as the link destination URL 223 of the line to be checked in the line link information 124. Set (284).

図1の携帯端末装置300とサーバ装置320の詳細を、図15を用いて詳細に説明する。以下、図15の携帯端末装置300とサーバ装置320の各部の動作を、図16のフローチャート図と図20、図21を用いて説明する。図15は、本実施形態の携帯端末装置300とサーバ装置320の動作を示すブロック図の例であり、図16は、本実施形態の携帯端末装置300とサーバ装置320の動作を示すフローチャート図である。図20は、本実施形態の印刷した文書の例、図21は、本実施形態のカメラ303で撮影した画像がディスプレイ716に表示する例である。   Details of the mobile terminal device 300 and the server device 320 of FIG. 1 will be described in detail with reference to FIG. Hereinafter, the operation of each unit of the mobile terminal device 300 and the server device 320 in FIG. 15 will be described with reference to the flowchart in FIG. 16 and FIGS. 20 and 21. FIG. 15 is an example of a block diagram illustrating operations of the mobile terminal device 300 and the server device 320 according to the present embodiment, and FIG. 16 is a flowchart diagram illustrating operations of the mobile terminal device 300 and the server device 320 according to the present embodiment. is there. FIG. 20 shows an example of a printed document according to the present embodiment, and FIG. 21 shows an example where an image photographed by the camera 303 according to the present embodiment is displayed on the display 716.

図1と図15の各ブロックの対応を説明する。撮影装置23はカメラ303に対応する。表示装置22は,表示部305に対応する。文書選択装置21は,文書選択部301に対応する。文字認識装置24は,文字認識部304,単語照合部322,認識設定部302に対応する。
図15において、最初にサーバ装置320は、文書登録装置10から文書情報120、文書属性情報121、単語照合辞書122、行リンク情報124、単語リンク情報125、文字情報126を取得する(355)。この処理は文書登録時に一度だけ実行すればよい。
The correspondence between the blocks in FIGS. 1 and 15 will be described. The photographing device 23 corresponds to the camera 303. The display device 22 corresponds to the display unit 305. The document selection device 21 corresponds to the document selection unit 301. The character recognition device 24 corresponds to the character recognition unit 304, the word collation unit 322, and the recognition setting unit 302.
In FIG. 15, the server device 320 first obtains document information 120, document attribute information 121, word collation dictionary 122, line link information 124, word link information 125, and character information 126 from the document registration device 10 (355). This process only needs to be executed once at the time of document registration.

携帯端末装置300において、文書選択部301は、サーバ装置320の文書情報120から利用者が選択した情報を文書選択情報127にコピーする(355)。さらに利用者は、文書選択情報127から検索対象の文書を選択する(340)。サーバ装置320の文書管理部321は、利用者が選択した文書の文書属性情報121、単語照合辞書122、行リンク情報124、単語リンク情報125、文字情報126を選択する(350)。認識設定部302は、文書管理部321が選択した文書属性情報121から文字認識部304のパラメータの設定を行い、単語照合辞書122を単語照合辞書307にコピーする(341)。カメラ303は、利用者の操作により印刷された文書370の一部の領域371を撮影する。文字認識部304は、カメラ303で撮影した画像中に含まれる文字の認識を行い、マーカ841を含む中心行385と、中心行385の上の行386、中心行385の下の行387の文字を認識し文字候補を出力する(343)。単語照合部322は、中心行385および上の行386、下の行387の文字候補から、単語照合辞書122に登録されている単語を利用して注目単語382、上単語383、下単語384を出力する(352)。   In the mobile terminal device 300, the document selection unit 301 copies information selected by the user from the document information 120 of the server device 320 to the document selection information 127 (355). Further, the user selects a search target document from the document selection information 127 (340). The document management unit 321 of the server device 320 selects the document attribute information 121, the word matching dictionary 122, the line link information 124, the word link information 125, and the character information 126 of the document selected by the user (350). The recognition setting unit 302 sets parameters of the character recognition unit 304 from the document attribute information 121 selected by the document management unit 321 and copies the word matching dictionary 122 to the word matching dictionary 307 (341). The camera 303 images a partial area 371 of the document 370 printed by the user's operation. The character recognizing unit 304 recognizes characters included in the image captured by the camera 303, and performs the character in the center line 385 including the marker 841, the line 386 above the center line 385, and the line 387 below the center line 385. And character candidates are output (343). The word collation unit 322 uses the words registered in the word collation dictionary 122 from the character candidates in the center line 385, the upper line 386, and the lower line 387 to extract the attention word 382, the upper word 383, and the lower word 384. Output (352).

サーバ装置320において、検索部323は、注目単語382、上単語383、下単語384を利用し、文字情報126から単語の位置を検索し、検索の確信度を候補リスト128に登録する(353)。判定部324は、候補リストから最も確信度の高い単語と単語位置から、行リンク情報124および単語リンク情報125を利用してリンク先URL223を検索する(354)。携帯端末装置300の表示部305は、判定部324で検索したリンク先URL223の情報をブラウザを利用して表示する(344)。   In the server device 320, the search unit 323 searches for the position of the word from the character information 126 using the attention word 382, the upper word 383, and the lower word 384, and registers the certainty of search in the candidate list 128 (353). . The determination unit 324 searches the link destination URL 223 using the line link information 124 and the word link information 125 from the word and the word position with the highest certainty factor from the candidate list (354). The display unit 305 of the mobile terminal device 300 displays the information of the link destination URL 223 searched by the determination unit 324 using a browser (344).

次に、検索部323の単語位置検索の詳細を図23のフローチャート図と図24を用いて以下説明する。図23は、本実施形態の検索部323の動作を示すフローチャート図であり、図24は、本実施形態の候補リスト128の例である。   Next, details of the word position search of the search unit 323 will be described below with reference to the flowchart of FIG. 23 and FIG. FIG. 23 is a flowchart showing the operation of the search unit 323 of this embodiment, and FIG. 24 is an example of the candidate list 128 of this embodiment.

図24において、候補リスト128は、候補データ425−1〜iにより構成され、候補データ425−1〜iは、注目単語382の文書中の位置を示すページ番号210、行番号211、列番号233と、注目単語382の場所と一致する可能性を示す確信度424からなる。   In FIG. 24, the candidate list 128 includes candidate data 425-1 to i, and the candidate data 425-1 to i includes a page number 210, a row number 211, and a column number 233 indicating the position of the word of interest 382 in the document. And a certainty factor 424 indicating the possibility of matching with the location of the attention word 382.

検索部323は、注目単語382を単語情報123から検索し、注目単語382と同一の単語230の行番号211と列番号233を取得する(400)。単語情報123で検索した単語230の上下の行に含まれる単語から、上単語383、下単語384と同一の単語230を検索し(401)、上単語383、下単語384の存在の判定を行う(402)。上単語383、下単語384が見つからない場合は、単語情報123の次の単語から検索を継続する。単語情報123に上単語383または下単語384が存在した場合は、注目単語と上単語383および下単語384との位置関係を判定する(403)。位置関係が閾値内であれば、注目単語の文字位置を算出し、確信度424と共に候補リスト128に登録する(404)。候補リスト128の確信度424は、注目単語382と上単語383または下単語384との列番号233の差と、上単語383または下単語384の存在により決定する。単語情報123全てに対して、注目単語382の文字位置の検索を繰り返す(405)。   The search unit 323 searches the word information 123 for the attention word 382, and acquires the row number 211 and the column number 233 of the same word 230 as the attention word 382 (400). The same word 230 as the upper word 383 and the lower word 384 is searched from words included in the upper and lower lines of the word 230 searched by the word information 123 (401), and the existence of the upper word 383 and the lower word 384 is determined. (402). If the upper word 383 and the lower word 384 are not found, the search is continued from the next word in the word information 123. When the upper word 383 or the lower word 384 exists in the word information 123, the positional relationship between the attention word and the upper word 383 and the lower word 384 is determined (403). If the positional relationship is within the threshold, the character position of the attention word is calculated and registered in the candidate list 128 together with the certainty factor 424 (404). The certainty factor 424 of the candidate list 128 is determined by the difference of the column number 233 between the attention word 382 and the upper word 383 or the lower word 384 and the presence of the upper word 383 or the lower word 384. The search for the character position of the word of interest 382 is repeated for all the word information 123 (405).

本発明のサーバ装置300の実施形態では、検索部323は、単語情報123を使用して文字列位置を検索したが、文字情報126を利用することも可能である。すなわち、単語情報123から列番号を取得する代わりに、文字情報126の文字列から単語を検索し、単語の位置を文字列の文字数から逐次計算することにより、列番号を得ることができる。   In the embodiment of the server device 300 of the present invention, the search unit 323 searches for the character string position using the word information 123, but the character information 126 can also be used. That is, instead of obtaining the column number from the word information 123, the column number can be obtained by searching for a word from the character string of the character information 126 and sequentially calculating the word position from the number of characters in the character string.

次に、判定部324の動作の詳細を図11、図12、図21、図22、図24および図25のフローチャート図を用いて以下説明する。図22は、本実施形態のカメラ303で撮影した画像がディスプレイ306に表示する他の例、図25は、本実施形態の判定部324の動作を示すフローチャート図である。   Next, details of the operation of the determination unit 324 will be described below with reference to the flowcharts of FIGS. 11, 12, 21, 22, 24, and 25. FIG. 22 is another example in which an image photographed by the camera 303 of the present embodiment is displayed on the display 306, and FIG. 25 is a flowchart showing the operation of the determination unit 324 of the present embodiment.

判定部324は、候補リスト128中の候補データ425−1〜iから確信度424が最も大きい候補データ425−n検索する(365)。注目単語382上にマーカ381が設定されていたか判定する(361)。注目単語382上にマーカ381がある場合は、単語リンク情報125の単語リンクデータ235−1〜eより、候補データ425−nのページ番号210、行番号211、列番号233と一致する、単語リンクデータ235−mを検索する(362)。つぎに、注目単語382と単語リンクデータ235−mの単語230を照合する(363)。一致した場合は、単語リンクデータ235−mのリンク先URL223を出力する(364)。一致しない場合は、および注目単語382の判定(361)で図22に示すようにマーカ381と注目単語382がずれている場合は、行リンク情報124の行リンクデータ222−1〜bより、候補データ425−nのページ番号210、行番号211が一致する行リンクデータ222−rを検索する(365)。検索されたリンク先URL223を出力する(364)。   The determination unit 324 searches candidate data 425-n having the highest certainty factor 424 from the candidate data 425-1 to i in the candidate list 128 (365). It is determined whether the marker 381 is set on the attention word 382 (361). When there is a marker 381 on the attention word 382, the word link that matches the page number 210, the row number 211, and the column number 233 of the candidate data 425-n from the word link data 235-1 to 235-1e of the word link information 125. Data 235-m is searched (362). Next, the attention word 382 and the word 230 of the word link data 235-m are collated (363). If they match, the link destination URL 223 of the word link data 235-m is output (364). If they do not match, and the determination of the attention word 382 (361), as shown in FIG. 22, the marker 381 and the attention word 382 are misaligned, the candidates are obtained from the line link data 222-1 to 22b of the line link information 124. The line link data 222-r in which the page number 210 and the line number 211 of the data 425-n match is searched (365). The searched link destination URL 223 is output (364).

本発明の実施形態では、判定部は、単語リンク情報125と行リンク情報124を用いて単語単位あるいは行単位のリンク先URL223の検索を行ったが、文リンク情報590から文単位のリンク先URL223を検索することも可能である。文単位のリンク先URL223の検索は、まず最初に注目単語382の文書中の位置を示すページ番号210、行番号211、列番号233を単語情報123から取得する。次に取得したページ番号210と同一であり、かつ、行番号211が文字の始点の行番号273と終点の行番号271以内であり、かつ、列番号233が文字の始点の列番号274と終点の列番号272以内である文リンク情報590中のリンク先URL223を出力する。文のリンク情報としてリンク先URLとしたが、例えば日本語の文は英訳文を、英語の文は和訳を情報として出力することも可能である。   In the embodiment of the present invention, the determination unit searches the link destination URL 223 in units of words or units using the word link information 125 and the line link information 124, but the link destination URL 223 in units of sentences from the sentence link information 590. It is also possible to search. In the search for the link destination URL 223 for each sentence, first, the page number 210, the line number 211, and the column number 233 indicating the position of the word of interest 382 in the document are acquired from the word information 123. Next, it is the same as the acquired page number 210, the line number 211 is within the line number 273 of the start point of the character and the line number 271 of the end point, and the column number 233 is the column number 274 and the end point of the start point of the character. The link destination URL 223 in the sentence link information 590 within the column number 272 is output. The link destination URL is used as the link information of the sentence. For example, a Japanese sentence can be output as an English translation sentence, and an English sentence can be output as a Japanese translation.

携帯端末装置300のハードウェア構成を、図17を用いて説明する。図17は、本実施形態の携帯端末装置300のハードウェア構成図の例である。図1と図17の各ブロックの対応を説明する。入力装置20は,入力キー710に対応する。撮影装置23は,カメラ303に対応する。表示装置22は,ディスプレイ716に対応する。通信装置25は,通信回路713に対応する。文字選択装置21と文字認識装置24は,文字認識プログラム820に対応する。   A hardware configuration of the mobile terminal device 300 will be described with reference to FIG. FIG. 17 is an example of a hardware configuration diagram of the mobile terminal device 300 of the present embodiment. The correspondence between the blocks in FIGS. 1 and 17 will be described. The input device 20 corresponds to the input key 710. The photographing device 23 corresponds to the camera 303. The display device 22 corresponds to the display 716. The communication device 25 corresponds to the communication circuit 713. The character selection device 21 and the character recognition device 24 correspond to the character recognition program 820.

図17において、入力キー710は、検索対象の文書選択やカメラ設定を行う。通信回路713は、サーバ装置320の通信回路714とネットワーク36を介して接続し、カメラ303で撮影した画像中から文字認識にて得た文字列の送信と、文字列に関連した情報の受信を行う。ディスプレイ716は、カメラで撮影する画像の表示や文書選択を行う。文字認識プログラム820は、携帯端末装置300の動作を行うプログラムである。データメモリ801は、文書選択情報127と単語照合辞書307を格記憶する。   In FIG. 17, an input key 710 performs selection of a document to be searched and camera setting. The communication circuit 713 is connected to the communication circuit 714 of the server device 320 via the network 36, and transmits a character string obtained by character recognition from an image captured by the camera 303 and receives information related to the character string. Do. A display 716 displays an image captured by the camera and selects a document. The character recognition program 820 is a program for operating the mobile terminal device 300. The data memory 801 stores document selection information 127 and a word matching dictionary 307.

サーバ装置320のハードウェア構成を、図18を用いて説明する。図18は、本実施形態のサーバ装置320のハードウェア構成図の例である。図1と図18の各ブロックの対応を説明する。通信装置30は,通信回路714に対応する。通信回路33は,第2の通信回路715に対応する。位置検索装置34と情報検索装置31は,文書検索プログラム840に対応する。記憶装置32は,データメモリ801に対応する。   The hardware configuration of the server device 320 will be described with reference to FIG. FIG. 18 is an example of a hardware configuration diagram of the server apparatus 320 according to the present embodiment. The correspondence between the blocks in FIGS. 1 and 18 will be described. The communication device 30 corresponds to the communication circuit 714. The communication circuit 33 corresponds to the second communication circuit 715. The position search device 34 and the information search device 31 correspond to the document search program 840. The storage device 32 corresponds to the data memory 801.

図18において、第2の通信回路715は、文書登録装置10とネットワーク26を介して接続し、文書登録装置10のデータメモリ801に記憶したデータを受信し、サーバ装置320のデータメモリ801に格納する。文書検索プログラム840は、サーバ装置320の動作を行うプログラムである。データメモリ801は、受信した、文書情報120、文書属性情報121、単語照合辞書122、行リンク情報124、単語リンク情報125、単語情報123と、候補リスト128を記憶する。   In FIG. 18, the second communication circuit 715 is connected to the document registration apparatus 10 via the network 26, receives data stored in the data memory 801 of the document registration apparatus 10, and stores it in the data memory 801 of the server apparatus 320. To do. The document search program 840 is a program that operates the server device 320. The data memory 801 stores the received document information 120, document attribute information 121, word matching dictionary 122, line link information 124, word link information 125, word information 123, and candidate list 128.

携帯端末装置300のディスプレイ716に表示される画面の遷移を、以下図19を用いて詳細に説明する。図19は、本実施形態のディスプレイ306に表示する画面遷移図の例である。以下ボタンは、入力キー710により選択される。また戻るボタン913の選択により前画面を表示する。文字認識プログラム820は、起動するとディスプレイ716に文書選択画面900を表示する。文書選択画面900は、利用可能な文書を文書選択情報127から読み出し、文書リスト901に表示する。利用者は、文書リスト901に利用する文書が表示されていない場合、追加ボタン902を選択することにより文書追加画面910を表示する。また、文書選択情報127から不要な文書情報を削除したい場合は、文書リスト901から削除する文書を選択し削除ボタン903を選択することにより文書選択情報127から該当する文書情報を削除する。検索を実行したい場合は、文書リスト901から文書を選択し選択ボタン904を選択することにより、文書確認画面930を表示する。文書追加画面910は、文書一覧911に、文書情報120に登録されている文書の一覧を表示し、文書一覧911から文書選択情報127に追加したい文書を選択し詳細ボタン912を選択することにより文書詳細画面920を表示する。文書詳細画面920は、選択した文書の詳細情報を詳細表示921に表示する。   The transition of the screen displayed on the display 716 of the mobile terminal device 300 will be described in detail below with reference to FIG. FIG. 19 is an example of a screen transition diagram displayed on the display 306 of this embodiment. The following buttons are selected by the input key 710. The previous screen is displayed by selecting the return button 913. When activated, the character recognition program 820 displays a document selection screen 900 on the display 716. The document selection screen 900 reads out available documents from the document selection information 127 and displays them in the document list 901. When a document to be used is not displayed in the document list 901, the user displays an add document screen 910 by selecting an add button 902. If unnecessary document information is to be deleted from the document selection information 127, the corresponding document information is deleted from the document selection information 127 by selecting a document to be deleted from the document list 901 and selecting a delete button 903. When a search is to be executed, a document confirmation screen 930 is displayed by selecting a document from the document list 901 and selecting a selection button 904. The document addition screen 910 displays a list of documents registered in the document information 120 in the document list 911, selects a document to be added to the document selection information 127 from the document list 911, and selects a detail button 912 to select a document. A detail screen 920 is displayed. The document details screen 920 displays detailed information of the selected document on the details display 921.

利用者は、タイトルや課金情報などを確認して登録ボタン922を選択することにより、文書選択情報127に選択した文書の文書情報を追加する。文書確認画面930は、詳細表示931に選択した文書の詳細情報を表示し、利用者は、タイトルや課金情報などを確認して、問題がなければ確認ボタン932を選択することにより撮影画面940を表示する。撮影画面940は、撮影する画像を表示画像380に表示し、利用者がマーカ381を検索したい文字に合わせ、検索ボタン943を選択することにより検索を実行し、検索が完了すると確認画面950を表示する。確認画面950は、リンク情報表示951に検索したリンク先URL223を表示する。利用者は、検索結果に誤りがなければ表示ボタン952を選択し、ブラウザ960を表示する。ブラウザ960は、リンク先URL223の情報を表示する。   The user adds the document information of the selected document to the document selection information 127 by confirming the title and billing information and selecting the registration button 922. The document confirmation screen 930 displays the detailed information of the selected document on the detail display 931. The user confirms the title, billing information, etc., and if there is no problem, selects the confirmation button 932 to display the shooting screen 940. indicate. The shooting screen 940 displays an image to be shot on the display image 380, and the user performs a search by selecting a search button 943 according to a character to search for the marker 381, and displays a confirmation screen 950 when the search is completed. To do. The confirmation screen 950 displays the searched link destination URL 223 in the link information display 951. If there is no error in the search result, the user selects the display button 952 and displays the browser 960. The browser 960 displays information on the link destination URL 223.

携帯端末装置300とサーバ装置320において、単語照合の別の方法について図26のブロック図を図27のフローチャート図を用いて詳細に説明する。図26は、本実施形態の携帯端末装置300とサーバ装置320の他の動作を示すブロック図、図27は、本実施形態の携帯端末装置300とサーバ装置320の他の動作を示すフローチャート図である。   In the portable terminal device 300 and the server device 320, another method of word matching will be described in detail with reference to the block diagram of FIG. 26 and the flowchart of FIG. 26 is a block diagram illustrating other operations of the mobile terminal device 300 and the server device 320 according to the present embodiment. FIG. 27 is a flowchart illustrating other operations of the mobile terminal device 300 and the server device 320 according to the present embodiment. is there.

携帯端末装置300は、あらかじめ第1の単語照合辞書501を備える。第2の単語照合辞書506は、単語照合辞書122と第1の単語照合辞書501との差で作成される。文書の選択(340)により、選択した文書に対応する第2の単語照合辞書501をデータメモリ801にロードする(521)。カメラ303から入力した画像は、文字認識部304で文字認識し文字候補を出力する(343)。第1の単語照合部500は、第1の単語照合辞書501を利用して文字候補から単語を照合し(514)、第1の単語照合辞書501に登録された単語と文字候補が一致するか判定する(515)。第1の単語照合辞書501の単語と一致した場合は、単語をサーバ装置320の検索部323に送信し、検索部323は、単語の文書中の位置の検索を行う(354)。一致しない場合は、サーバ装置320の第2の単語照合部505で第2の単語照合辞書506を利用して単語を照合する(522)。本発明の実施形態では、第2の単語照合辞書506をサーバ装置320に持つ例を示したが、携帯端末装置300にダウンロードし、携帯端末300側で第1の単語照合辞書501と第2の単語照合辞書506を利用して単語照合部322で単語照合を行うことも可能である。   The mobile terminal device 300 includes a first word matching dictionary 501 in advance. The second word matching dictionary 506 is created by the difference between the word matching dictionary 122 and the first word matching dictionary 501. By selecting a document (340), a second word matching dictionary 501 corresponding to the selected document is loaded into the data memory 801 (521). The image input from the camera 303 is recognized by the character recognition unit 304 and a character candidate is output (343). The first word matching unit 500 uses the first word matching dictionary 501 to match words from character candidates (514), and whether the word registered in the first word matching dictionary 501 matches the character candidate. Determine (515). When it matches with the word of the 1st word collation dictionary 501, a word is transmitted to the search part 323 of the server apparatus 320, and the search part 323 searches the position in the document of a word (354). If they do not match, the second word matching unit 505 of the server device 320 matches the words using the second word matching dictionary 506 (522). In the embodiment of the present invention, an example in which the second word matching dictionary 506 is included in the server device 320 has been shown. However, the second word matching dictionary 506 is downloaded to the portable terminal device 300 and the first word matching dictionary 501 and the second word matching dictionary 501 are downloaded on the portable terminal 300 side. It is also possible to perform word matching in the word matching unit 322 using the word matching dictionary 506.

次に文字認識部304と認識設定部302の動作の詳細を、図3と図3を用いて以下説明する。図3は、本実施形態の文字認識部304と認識設定部302の動作を示す図の例、図3は、本実施形態の文書属性情報121の例である。文書属性情報121は、複数の文書属性73−1〜73−jにより構成され、文書属性73−1〜73−jは、文書番号200、二値化モード70、文字方向71、文字コード72により構成する。
The act of the details of the character recognition section 304 and recognition setting unit 302 will be described below with reference to FIG. 3 3 and 3 4. Figure 3 3 is an example diagram showing an operation of the character recognition portion 304 and the recognition setting unit 302 of the present embodiment, FIG. 3. 4 is an example of the document attribute information 121 of the present embodiment. The document attribute information 121 includes a plurality of document attributes 73-1 to 73-j. The document attributes 73-1 to 73-j are represented by a document number 200, a binarization mode 70, a character direction 71, and a character code 72. Constitute.

認識設定部302は、サーバ装置320から受信した文書属性情報121から、選択した文書の文書番号200に対応する二値化モード70の値により、二値化処理部51の第1の画像二値化処理60と第2の画像二値化処理61を切り換える。また、文字方向71の値により、文字行切り出し部52の縦書き処理部62と横書き処理部63を切り換える。また、文字コード72の値により、識別部64が識別辞書65中の文字コード72で指定した文字コードの特徴量と比較するように設定する。なお、識別処理部55において、識別部64は、特徴抽出部54の文字ごとの特徴量と、識別辞書65に登録されている全ての文字コードの特徴量とを比較する。判定部66は、比較の差が小さい順に文字コードを出力する。   Based on the value of the binarization mode 70 corresponding to the document number 200 of the selected document from the document attribute information 121 received from the server device 320, the recognition setting unit 302 uses the first image binary of the binarization processing unit 51. Switching between the digitizing process 60 and the second image binarizing process 61. Further, the vertical writing processing unit 62 and the horizontal writing processing unit 63 of the character line cutout unit 52 are switched according to the value of the character direction 71. Further, according to the value of the character code 72, the identification unit 64 is set to be compared with the feature amount of the character code designated by the character code 72 in the identification dictionary 65. In the identification processing unit 55, the identification unit 64 compares the feature amount for each character of the feature extraction unit 54 with the feature amounts of all the character codes registered in the identification dictionary 65. The determination unit 66 outputs the character codes in ascending order of comparison difference.

本発明の文書情報検索システムの利用形態を、以下図35を用いて詳細に説明する。図35は、本実施形態の文書情報登録システムを運用するためのシステム利用形態の例である。出版社956は、発行する文書の著者から原稿受け取り、キーボード950よりDTP951に入力し編集を行う。DTP951は、原稿の校正のためPDFファイル952に出力し、プリンタ953で校正用原稿954を出力する。校正が終了した原稿は、DTP951から出版用印刷データ955を出力し、印刷機956にて販売用の書籍957を印刷する。文書登録装置10は、校正のため出力するPDFファイル952を入力し、文書に関連情報を付加した検索用DBを作成する。作成したDBは、ネットワーク26を経由して、コンテンツプロバイダ958のサーバ装置300に転送する。利用者は、出版した書籍957を購入し、携帯端末装置320を使用して書籍957の一部画像を撮影する。携帯端末装置320は、画像中から認識した文字列を、ネットワーク36を経由してサーバ装置300に転送する。サーバ装置300は、検索用DBから文字列に関連した情報を検索する。検索した情報は、携帯端末装置300に表示する。   The usage mode of the document information retrieval system of the present invention will be described in detail below with reference to FIG. FIG. 35 is an example of a system usage mode for operating the document information registration system of this embodiment. The publisher 956 receives a manuscript from the author of the document to be published, inputs it into the DTP 951 from the keyboard 950, and edits it. The DTP 951 outputs to the PDF file 952 for proofreading of the document, and the proofreading document 954 is output by the printer 953. After the proofreading is completed, the publishing print data 955 is output from the DTP 951, and the sales book 957 is printed by the printing machine 956. The document registration apparatus 10 receives a PDF file 952 output for proofreading, and creates a search DB in which related information is added to the document. The created DB is transferred to the server apparatus 300 of the content provider 958 via the network 26. The user purchases the published book 957 and takes a partial image of the book 957 using the mobile terminal device 320. The mobile terminal device 320 transfers the character string recognized from the image to the server device 300 via the network 36. The server device 300 searches for information related to the character string from the search DB. The retrieved information is displayed on the mobile terminal device 300.

また、出版社960は、既に出版されている書籍957を、スキャナ961から各ページを画像として入力する。OCR962は、各ページの画像から文字を認識するとともに文字画像の位置も検出する。構造化958は、文字と文字位置からPDFファイル952を作成する。文書登録装置10は、PDFファイル952を入力して、文書に関連情報を付加した検索用DBを作成する。   The publisher 960 inputs a book 957 that has already been published as an image from the scanner 961. The OCR 962 recognizes characters from the image of each page and also detects the position of the character image. The structured 958 creates a PDF file 952 from characters and character positions. The document registration apparatus 10 inputs the PDF file 952 and creates a search DB in which related information is added to the document.

以上で説明した、PDAファイルから検索用DBを作成する手順は、もちろん出版社以外の第三者が請け負ってもよい。
本発明の実施形態では、文書に関連する情報としてURLを想定したが、URLの他に、直接文字、音、画像といった情報を直接送ることももちろん可能である。
The procedure for creating the search DB from the PDA file described above may of course be undertaken by a third party other than the publisher.
In the embodiment of the present invention, a URL is assumed as information related to a document. However, it is of course possible to directly send information such as characters, sounds, and images in addition to the URL.

日本語文書を対象としているが、もちろん英文など各国語にも適応することは容易である。例えば英文やハングル語などは単語がスペースで区切られているため、形態素解析を行うことなく容易に単語単位に切り出すことが可能であり、また注目単語の上下行の単語に加え、注目単語の左右の単語を利用して注目単語の位置を検索することも可能である。   It is intended for Japanese documents, but of course it is easy to adapt to other languages such as English. For example, in English and Korean, words are separated by spaces, so they can be easily extracted in units of words without performing morphological analysis. It is also possible to search the position of the attention word using the word.

実施例では、携帯端末装置とサーバ装置で分けたが処理の分担を制限することはない。例えば、単語照合を携帯端末装置で実施したがサーバ装置で実施することも可能である。また、例えば、文字認識を携帯端末装置で実施したがサーバ装置で実施することも可能である。また、サーバ装置と携帯端末装置に分けたが、サーバ装置の動作と携帯端末の動作が同一装置内で実行することも可能である。   In the embodiment, the mobile terminal device and the server device are divided, but the sharing of processing is not limited. For example, although word collation was implemented with the portable terminal device, it is also possible to implement with the server device. For example, although character recognition was implemented with the portable terminal device, it is also possible to implement with the server device. Moreover, although it divided into the server apparatus and the portable terminal device, the operation | movement of a server apparatus and the operation | movement of a portable terminal can also be performed within the same apparatus.

実施例では、携帯端末装置320のプログラムメモリ800に文字認識プログラム820があらかじめ記憶されていたが、サーバから文字認識プログラム820をダウンロードして実行することも可能である。また、実施例では検索対象の文書を選択したが検索対象の文書にあわせて文書に対応した文字認識プログラム820をダウンロードすることも可能である。   In the embodiment, the character recognition program 820 is stored in advance in the program memory 800 of the mobile terminal device 320. However, the character recognition program 820 can be downloaded from a server and executed. In the embodiment, the search target document is selected. However, the character recognition program 820 corresponding to the document can be downloaded in accordance with the search target document.

実施例では、単語位置検索に注目単語382、上単語383、下単語383の3単語を使ったが、、検索に利用する単語の数を制限するものではない。
実施例では、電子ファイルから入力したが例えば既に印刷した文書をOCRを利用して文字および文字位置を取得することも可能である。
In the embodiment, three words of the attention word 382, the upper word 383, and the lower word 383 are used for the word position search, but the number of words used for the search is not limited.
In the embodiment, it is also possible to acquire characters and character positions using, for example, an OCR for a document that has been input from an electronic file but has already been printed.

実施例では、リンク先URL223の設定を行または単語単位としたが、文単位にリンク先URLを設定することも可能である。例えば図28に示すように、文の開始の行番号211と列番号233、および文の終了の行番号271と列番号272に体操してリンク先URL223を記憶することにより、検索した単語が設定した文と開始と終了内にあれば、該当するリンク先URL223を出力することも可能である。これにより、例えば日本語文章であれば英訳文や英語の文書なら和訳を情報とすることももちろん可能である。   In the embodiment, the link destination URL 223 is set in units of lines or words, but the link destination URL can be set in units of sentences. For example, as shown in FIG. 28, the searched word is set by memorizing the link destination URL 223 by manipulating the line number 211 and the column number 233 at the start of the sentence and the line number 271 and the column number 272 at the end of the sentence. It is also possible to output the corresponding link destination URL 223 if it is within the start and end of the sentence. As a result, for example, it is of course possible to use English translations for Japanese sentences and Japanese translations for English documents.

本実施形態の全体構成図の例。The example of the whole block diagram of this embodiment. 本実施形態の文書登録装置の動作を示すブロック図の例。FIG. 3 is an exemplary block diagram illustrating an operation of the document registration apparatus according to the embodiment. 本実施形態の文書登録装置の動作を示すフローチャート図。The flowchart figure which shows operation | movement of the document registration apparatus of this embodiment. 本実施形態の文書登録装置のハードウェア構成図の例。2 is an example of a hardware configuration diagram of a document registration apparatus according to the present embodiment. 本実施形態で入力される文書ファイルの例。An example of a document file input in the present embodiment. 本実施形態のディスプレイ703に表示される画面の例。An example of a screen displayed on the display 703 of the present embodiment. 本実施形態のディスプレイ703に表示される他の画面の例。The example of the other screen displayed on the display 703 of this embodiment. 本実施形態の文書情報120の例。The example of the document information 120 of this embodiment. 本実施形態の文字情報126の例。The example of the character information 126 of this embodiment. 本実施形態の単語情報123の例。The example of the word information 123 of this embodiment. 本実施形態の行リンク情報124の例。The example of the line link information 124 of this embodiment. 本実施形態の単語リンク情報125の例。The example of the word link information 125 of this embodiment. 本実施形態のリンク先登録部111が作成するデータの例。The example of the data which the link destination registration part 111 of this embodiment produces. 本実施形態のリンク先登録部111の動作を示すフローチャート図。The flowchart figure which shows operation | movement of the link destination registration part 111 of this embodiment. 本実施形態の携帯端末装置300とサーバ装置320の動作を示すブロック図の例。The example of the block diagram which shows operation | movement of the portable terminal device 300 and the server apparatus 320 of this embodiment. 本実施形態の携帯端末装置300とサーバ装置320の動作を示すフローチャート図。The flowchart figure which shows operation | movement of the portable terminal device 300 and the server apparatus 320 of this embodiment. 本実施形態の携帯端末装置300のハードウェア構成図の例。The example of the hardware block diagram of the portable terminal device 300 of this embodiment. 本実施形態のサーバ装置320のハードウェア構成図の例。The example of the hardware block diagram of the server apparatus 320 of this embodiment. 本実施形態のディスプレイ716に表示される画面遷移図の例。The example of the screen transition diagram displayed on the display 716 of this embodiment. 本実施形態の印刷された文書の例。An example of a printed document according to the present embodiment. 本実施形態のカメラ303で撮影した画像がディスプレイ716に表示される例。An example in which an image photographed by the camera 303 of the present embodiment is displayed on the display 716. 本実施形態のカメラ303で撮影した画像がディスプレイ716に表示される他の例。Another example in which an image photographed by the camera 303 of the present embodiment is displayed on the display 716. 本実施形態の検索部323の動作を示すフローチャート図。The flowchart figure which shows operation | movement of the search part 323 of this embodiment. 本実施形態の候補リスト128の例。The example of the candidate list | wrist 128 of this embodiment. 本実施形態の判定部324の動作を示すフローチャート図。The flowchart figure which shows operation | movement of the determination part 324 of this embodiment. 本実施形態の携帯端末装置300とサーバ装置320の他の動作を示すブロック図。The block diagram which shows other operation | movement of the portable terminal device 300 of this embodiment, and the server apparatus 320. FIG. 本実施形態の携帯端末装置300とサーバ装置320の他の動作を示すフローチャート図。The flowchart figure which shows the other operation | movement of the portable terminal device 300 and the server apparatus 320 of this embodiment. 本実施形態の文字情報126の作成手順を示すフローチャート図。The flowchart figure which shows the preparation procedure of the character information 126 of this embodiment. 本実施形態の文情報580の作成手順示すフローチャート図。The flowchart figure which shows the preparation procedure of the sentence information 580 of this embodiment. 本実施形態の文情報580の例。The example of the sentence information 580 of this embodiment. 本実施形態の文リンク情報590の例。The example of the sentence link information 590 of this embodiment. 本実施形態の文字認識処理の例。The example of the character recognition process of this embodiment. 本実施形態の文字認識部304と認識設定部302の動作を示す図の例。The example of the figure which shows operation | movement of the character recognition part 304 and the recognition setting part 302 of this embodiment. 本実施形態の文書属性情報121の例。An example of the document attribute information 121 of the present embodiment. 本実施形態の文書情報登録システムを運用するためのシステム利用形態の例。An example of a system usage mode for operating the document information registration system of the present embodiment.

符号の説明Explanation of symbols

10 文書登録装置、20 入力装置、21 文書選択装置、22 表示装置、23 撮影装置、24 文字認識装置、25 通信装置、26 ネットワーク、
30 通信装置、31 情報検索装置、32 記憶装置、33 通信装置、34 位置検索装置、36 ネットワーク、
41 文書入力装置、42 解析装置、43 登録装置、44 記憶装置、45 入力装置、46 通信装置、
300 サーバ装置、320 携帯端末装置。
10 document registration device, 20 input device, 21 document selection device, 22 display device, 23 photographing device, 24 character recognition device, 25 communication device, 26 network,
30 communication device, 31 information search device, 32 storage device, 33 communication device, 34 position search device, 36 network,
41 document input device, 42 analysis device, 43 registration device, 44 storage device, 45 input device, 46 communication device,
300 server device, 320 mobile terminal device.

Claims (11)

検索の対象である文書を記述した文書ファイルを入力する入力手段と、
前記文書ファイルの文書中の文字列を抽出する文字列抽出手段と、
前記文字列の前記文書中の文字置を登録する位置登録手段と、
前記文字列にリンクした情報を示す関連情報を登録する情報登録手段と、
前記文字列と前記文字置と前記関連情報を関連付けて記憶する記憶手段と、
前記文書中の一部である画像から指定される注目文字列と、前記注目文字列の周囲にある周辺文字列を認識する文字認識手段を備える端末装置から入力される前記注目文字列と前記周辺文字列との位置関係に基づいて、前記位置関係を満たす前記注目文字列の前記文書中の前記文字位置を前記記憶手段から検索する文字位置検索手段と、
検索した前記文字位置の文字列にリンクした前記関連情報を検索する情報検索手段と、
前記情報検索手段により検索した前記関連情報を前記端末装置に出力する出力手段を有することを特徴とする文書情報検索システム。
An input means for inputting a document file describing a document to be searched;
A character string extracting means for extracting a character string in the document of the document file;
And location registration means for registering the character position location in said document of the string,
Information registration means for registering related information indicating information linked to the character string;
Storage means for storing in association with the related information and the character position location with the character string,
The target character string specified from an image that is a part of the document, and the target character string input from a terminal device that includes a character recognition unit that recognizes a peripheral character string around the target character string and the peripheral based on the positional relationship between the character strings, and character position search means for searching said character position in said document of the target character string satisfying the positional relationship from the storage means,
Information retrieval means for retrieving the related information linked to the character string at the retrieved character position;
A document information search system comprising: output means for outputting the related information searched by the information search means to the terminal device.
請求項1記載の文書情報検索システムにおいて、前記文字列抽出手段は、最初の文字の始点座標のパラメータを抽出し、1文字ごとに文字幅と文字間隔のパラメータより終点座標を計算することによって、前記文字列を抽出することを特徴とする文書情報検索システム。   The document information search system according to claim 1, wherein the character string extraction unit extracts a parameter of a start point coordinate of a first character, calculates an end point coordinate from parameters of a character width and a character interval for each character, A document information retrieval system for extracting the character string. 請求項1記載の文書情報検索システムにおいて、前記文字列抽出手段は、前記文字列を形態素に分割する形態素解析手段を有し、前記形態素を文字列として抽出することを特徴とする文書情報検索システム。   2. The document information retrieval system according to claim 1, wherein the character string extraction means includes morpheme analysis means for dividing the character string into morphemes, and extracts the morphemes as character strings. . 前記形態素解析手段は、前記形態素から不要な形態素を選択して除去した文字列を抽出することを特徴とする請求項3記載の文書情報検索システム。   4. The document information retrieval system according to claim 3, wherein the morpheme analyzing unit extracts a character string obtained by selecting and removing unnecessary morphemes from the morpheme. 前記文字列抽出手段は、前記形態素を構成する文字列を分割、または隣り合う形態素を構成する文字列を合成した文字列を抽出することを特徴とする請求項3記載の文書情報検索システム。   4. The document information search system according to claim 3, wherein the character string extraction unit extracts a character string obtained by dividing a character string constituting the morpheme or synthesizing character strings constituting adjacent morphemes. 請求項1記載の文書情報検索システムにおいて、前記文字列抽出手段は、書体、字体、文字サイズのパラメータを抽出し、前記パラメータから見出しを抽出する見出し抽出手段と、文字列中の句点を判別し、文を抽出する文抽出手段を有し、前記見出しおよび前記文を前記文字列として抽出することを特徴とする文書情報検索システム。   2. The document information search system according to claim 1, wherein the character string extracting means extracts parameters of a typeface, a font and a character size, and extracts a headline from the parameters, and determines a punctuation point in the character string. A document information retrieval system comprising sentence extraction means for extracting a sentence and extracting the headline and the sentence as the character string. 請求項1記載の文書情報検索システムにおいて、前記文書情報検索システムは、更に、前記文書の文字種や文字方向の文書属性情報を抽出する文書属性情報抽出手段と、前記文書属性情報を記憶する文書属性記憶手段を有し、前記端末装置は、前記文字認識手段において、前記文書属性情報を、前記文字認識手段における文字認識のための文字行切り出しにおいて参照することを特徴とする文書情報検索システム。   2. The document information search system according to claim 1, wherein the document information search system further includes document attribute information extraction means for extracting character attribute and character direction document attribute information of the document, and a document attribute for storing the document attribute information. A document information search system comprising storage means, wherein the terminal device refers to the document attribute information in character line segmentation for character recognition in the character recognition means in the character recognition means. 請求項1記載の文書情報検索システムにおいて、前記文書情報検索システムは、更に、照合される単語を記憶した単語照合辞書を有し、前記単語照合辞書は、前記端末装置での文字認識のための文字行切り出しに用いられることを特徴とする文書情報検索システム。   2. The document information retrieval system according to claim 1, wherein the document information retrieval system further includes a word collation dictionary that stores words to be collated, the word collation dictionary for character recognition at the terminal device. A document information retrieval system characterized by being used for character line segmentation. 請求項1記載の文書情報検索システムにおいて、前記端末装置は、更に、特定の文字列で作成した第1の単語照合辞書を備え、
前記文書情報検索システムは、登録する文書から抽出した前記文字列と、前記第1の単語照合辞書に登録されている文字列との差分の文字列を記憶した第2の単語照合辞書を有し、
前記第1の単語照合辞書に登録した文字列が検索されない場合、前記第2の単語照合辞書を利用して文字列を出力することを特徴とする文書情報検索システム。
The document information retrieval system according to claim 1, wherein the terminal device further includes a first word matching dictionary created with a specific character string,
The document information search system includes a second word matching dictionary that stores a character string that is a difference between the character string extracted from a document to be registered and a character string registered in the first word matching dictionary. ,
A document information retrieval system that outputs a character string using the second word matching dictionary when a character string registered in the first word matching dictionary is not retrieved.
請求項1乃至9何れかに記載の文書情報検索システムにおいて、前記携帯端末は、前記検索の対象となる文書を選択させるための文書選択部を有することを特徴とする文書情報検索システム。   10. The document information search system according to claim 1, wherein the portable terminal includes a document selection unit for selecting a document to be searched. 請求項1記載の文書情報検索システムにおいて、前記情報検索手段は、前記文字位置の文字列の単語単位または行単位で、前記リンクした関連情報を検索することを特徴とする文書情報検索システム。   2. The document information search system according to claim 1, wherein the information search means searches for the linked related information in units of words or lines of the character string at the character position.
JP2004336856A 2004-11-22 2004-11-22 Document information retrieval system Expired - Fee Related JP4576211B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004336856A JP4576211B2 (en) 2004-11-22 2004-11-22 Document information retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004336856A JP4576211B2 (en) 2004-11-22 2004-11-22 Document information retrieval system

Publications (2)

Publication Number Publication Date
JP2006146627A JP2006146627A (en) 2006-06-08
JP4576211B2 true JP4576211B2 (en) 2010-11-04

Family

ID=36626224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004336856A Expired - Fee Related JP4576211B2 (en) 2004-11-22 2004-11-22 Document information retrieval system

Country Status (1)

Country Link
JP (1) JP4576211B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5232449B2 (en) 2007-11-21 2013-07-10 Kddi株式会社 Information retrieval apparatus and computer program
KR101117171B1 (en) * 2008-10-22 2012-03-07 엔에이치엔(주) Method, system and computer-readable recording medium for creating data for retrieval
JP5384315B2 (en) * 2009-08-04 2014-01-08 日本電信電話株式会社 SEARCH DEVICE, METHOD, AND PROGRAM
JP5312310B2 (en) * 2009-12-21 2013-10-09 日本電信電話株式会社 SEARCH DEVICE, METHOD, AND PROGRAM
JP5900204B2 (en) * 2012-07-10 2016-04-06 富士ゼロックス株式会社 Document processing apparatus and program
CN105264486B (en) * 2012-12-18 2018-10-12 汤姆森路透社全球资源无限责任公司 Mobile phone for intelligent study platform may have access to system and process
KR102244298B1 (en) 2014-04-30 2021-04-23 삼성전자주식회사 Apparatus and Method for structuring web page access history based on semantics
US10102206B2 (en) * 2016-03-31 2018-10-16 Dropbox, Inc. Intelligently identifying and presenting digital documents
JP7019963B2 (en) * 2016-05-10 2022-02-16 凸版印刷株式会社 Character string area / character rectangle extraction device, character string area / character rectangle extraction method, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157929A (en) * 2002-11-08 2004-06-03 Minoru Torii Information providing system cooperating with paper medium and business method for information provision cooperating with paper medium and program for information providing system cooperating with paper medium
JP2004318766A (en) * 2003-02-26 2004-11-11 Ricoh Co Ltd Information retrieval device, program and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157929A (en) * 2002-11-08 2004-06-03 Minoru Torii Information providing system cooperating with paper medium and business method for information provision cooperating with paper medium and program for information providing system cooperating with paper medium
JP2004318766A (en) * 2003-02-26 2004-11-11 Ricoh Co Ltd Information retrieval device, program and storage medium

Also Published As

Publication number Publication date
JP2006146627A (en) 2006-06-08

Similar Documents

Publication Publication Date Title
JP4854491B2 (en) Image processing apparatus and control method thereof
JP4181892B2 (en) Image processing method
US7783472B2 (en) Document translation method and document translation device
JP5511450B2 (en) Image processing apparatus, image processing method, and program
JP4785655B2 (en) Document processing apparatus and document processing method
US20040213458A1 (en) Image processing method and system
JP4576211B2 (en) Document information retrieval system
JP4227432B2 (en) Image processing method
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP4338189B2 (en) Image processing system and image processing method
JP2008129793A (en) Document processing system, apparatus and method, and recording medium with program recorded thereon
JP4597644B2 (en) Character recognition device, program and recording medium
JP7379876B2 (en) Character recognition device, document file generation method, document file generation program
JP2008282094A (en) Character recognition processing apparatus
JP2008028716A (en) Image processing method and apparatus
JP4474231B2 (en) Document link information acquisition system
JP2004348467A (en) Image retrieval apparatus and its control method, program
JP2007011683A (en) Document management support device
JP2005149210A (en) Image processor, method for controlling it, and program
JP4677750B2 (en) Document attribute acquisition method and apparatus, and recording medium recording program
JP2006134042A (en) Image processing system
JP2009110204A (en) Document processing apparatus, document processing system, document processing method, and document processing program
Lins et al. Generating Digital Libraries of M. Sc. and Ph. D. Theses
JP2009205209A (en) Document image processor and document image processing program
JP2003173421A (en) Character recognition result correcting device

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060509

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100817

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees