JP2020021469A - Information processing apparatus, information processing method, and information processing program - Google Patents

Information processing apparatus, information processing method, and information processing program Download PDF

Info

Publication number
JP2020021469A
JP2020021469A JP2019115412A JP2019115412A JP2020021469A JP 2020021469 A JP2020021469 A JP 2020021469A JP 2019115412 A JP2019115412 A JP 2019115412A JP 2019115412 A JP2019115412 A JP 2019115412A JP 2020021469 A JP2020021469 A JP 2020021469A
Authority
JP
Japan
Prior art keywords
file
text data
information
item
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019115412A
Other languages
Japanese (ja)
Other versions
JP7346931B2 (en
Inventor
小林 寛
Hiroshi Kobayashi
寛 小林
慶春 東條
Yoshiharu Tojo
慶春 東條
石倉 浩二
Koji Ishikura
浩二 石倉
山合 敏文
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US16/512,604 priority Critical patent/US11113559B2/en
Publication of JP2020021469A publication Critical patent/JP2020021469A/en
Application granted granted Critical
Publication of JP7346931B2 publication Critical patent/JP7346931B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To make available text data with higher accuracy.SOLUTION: An information processing apparatus comprises: an acquisition unit that acquires a file including first text data; and a processing unit that determines, on the basis of the file acquired by the acquisition unit, whether to perform predetermined processing by using second text data generated by performing character recognition on an image included in the file acquired by the acquisition unit, or perform the predetermined processing by using the first text data.SELECTED DRAWING: Figure 12

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。   The present invention relates to an information processing device, an information processing method, and an information processing program.

従来、紙等に印刷された各種の文書をスキャナにより光学的に読み込んでPDF(Portable Document Format)等のファイルを生成し、生成したPDF等のファイルに含まれる画像から文字を認識する技術が知られている。   2. Description of the Related Art Conventionally, there is known a technology for optically reading various documents printed on paper or the like with a scanner to generate a file such as a Portable Document Format (PDF) and recognizing characters from an image included in the generated file such as a PDF. Have been.

また、従来、帳票等の文書の画像から文字を認識し、各項目の文字列を抽出する技術が知られている(例えば、特許文献1を参照)。   Conventionally, a technique of recognizing characters from an image of a document such as a form and extracting a character string of each item is known (for example, see Patent Document 1).

従来、例えば、PDF等のファイルに含まれる画像中の文字を誤認識した等の場合、正しいテキストデータを利用できない場合がある。   Conventionally, for example, when characters in an image included in a file such as PDF are erroneously recognized, correct text data may not be used in some cases.

そこで、より精度が高いテキストデータを利用可能とすることを目的とする。   Therefore, an object of the present invention is to make text data with higher accuracy available.

情報処理装置は、第1テキストデータを含むファイルを取得する取得部と、前記取得部により取得されるファイルに含まれる画像を文字認識して生成される第2テキストデータを用いて所定の処理を行うか、前記第1テキストデータを用いて前記所定の処理を行うかを、前記取得部により取得されるファイルに基づいて決定する処理部と、を有する。   The information processing device performs a predetermined process using an acquisition unit that acquires a file including first text data, and second text data that is generated by character recognition of an image included in the file acquired by the acquisition unit. A processing unit that determines whether to perform the predetermined process using the first text data based on a file acquired by the acquisition unit.

より精度が高いテキストデータを利用可能とすることができる。   Text data with higher accuracy can be used.

実施形態に係る情報処理システムのシステム構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a system configuration of an information processing system according to an embodiment. 実施形態に係るサーバ装置のハードウェア構成の一例を示す図である。FIG. 3 is a diagram illustrating an example of a hardware configuration of a server device according to the embodiment. 第1の実施形態に係る種別判定データベースの一例を示す図である。FIG. 3 is a diagram illustrating an example of a type determination database according to the first embodiment. 第1の実施形態に係る帳票定義データベースに格納される帳票定義情報の種類を示す図である。FIG. 6 is a diagram illustrating types of form definition information stored in a form definition database according to the first embodiment. 第1の実施形態に係る汎用定義情報の一例を示す図である。FIG. 4 is a diagram illustrating an example of general definition information according to the first embodiment. 第1の実施形態に係る個社定義情報の一例を示す図である。It is a figure showing an example of individual company definition information concerning a 1st embodiment. 第1の実施形態に係る特定定義情報の一例を示す図である。FIG. 4 is a diagram illustrating an example of specific definition information according to the first embodiment. 第1の実施形態に係るサーバ装置の機能を説明する図である。FIG. 3 is a diagram illustrating functions of the server device according to the first embodiment. 第1の実施形態に係る情報処理システムの処理の一例(その一)を説明するシーケンス図である。FIG. 4 is a sequence diagram illustrating an example (one) of a process of the information processing system according to the first embodiment. 第1の実施形態に係る情報処理システムの処理の一例(その二)を説明するシーケンス図である。FIG. 9 is a sequence diagram illustrating an example (part 2) of the process of the information processing system according to the first embodiment. 第1の実施形態に係るジョブリストの一例を示す図である。FIG. 6 is a diagram illustrating an example of a job list according to the first embodiment. 第1の実施形態に係る処理部の処理を説明するフローチャートである。5 is a flowchart illustrating processing of a processing unit according to the first embodiment. 第1の実施形態に係る処理部の処理を説明するフローチャートである。5 is a flowchart illustrating processing of a processing unit according to the first embodiment. 実施形態に係るテキストデータの利用判定処理の一例を示すフローチャートである。9 is a flowchart illustrating an example of text data use determination processing according to the embodiment. 第1の実施形態に係る項目抽出部の処理を説明するフローチャートである。5 is a flowchart illustrating a process of an item extracting unit according to the first embodiment. 実施形態に係る処理対象のテキストデータの一例を示す図である。FIG. 4 is a diagram illustrating an example of text data to be processed according to the embodiment. 第1の実施形態に係る読取結果情報の一例を示す図である。FIG. 4 is a diagram illustrating an example of read result information according to the first embodiment. 第1の実施形態に係る認識結果確認画面の一例を示す図である。It is a figure showing an example of a recognition result confirmation screen concerning a 1st embodiment. 第1の実施形態に係る認識結果データの一例を示す図である。FIG. 4 is a diagram illustrating an example of recognition result data according to the first embodiment. 第2の実施形態に係る処理部の処理を説明するフローチャートである。9 is a flowchart illustrating processing of a processing unit according to the second embodiment. 実施形態に係るテキストデータの利用判定処理の一例を示すフローチャートである。9 is a flowchart illustrating an example of text data use determination processing according to the embodiment. 実施形態に係る端末装置の設定画面の一例について説明する図である。FIG. 5 is a diagram illustrating an example of a setting screen of the terminal device according to the embodiment.

[第1の実施形態]
第1の実施形態では、サーバ装置200が、画像形成装置300、及び端末装置400から受信した帳票のファイルから、各項目のデータを抽出する例について説明する。第1の実施形態では、サーバ装置200は、例えば、受信したファイルが、ファイルのフォーマットが変換された、テキストデータを含むファイルでない場合、受信したファイルを文字認識して生成したテキストデータを利用する。また、サーバ装置200は、例えば、受信したファイルが、ファイルのフォーマットが変換された、テキストデータを含むファイルである場合、当該テキストデータを利用する。なお、ファイルのフォーマットが変換された、テキストデータを含むファイルとは、例えば、文書、表、及びスライド等の所定のファイルフォーマットのファイルから、PDF(Portable Document Format)等のファイルフォーマットに変換されたPDFファイル等である。これにより、より精度が高いテキストデータを利用可能とすることができる。以下では、PDFファイルを処理対象とする例について説明するが、開示の技術は、PDF以外のファイルフォーマットのファイルを処理対象とするシステムにも適用できる。
[First Embodiment]
In the first embodiment, an example will be described in which the server apparatus 200 extracts data of each item from a form file received from the image forming apparatus 300 and the terminal apparatus 400. In the first embodiment, for example, when the received file is not a file including text data whose file format has been converted, the server device 200 uses text data generated by character recognition of the received file. . In addition, for example, when the received file is a file including text data whose file format has been converted, the server device 200 uses the text data. The file including the text data whose file format has been converted is, for example, a file having a predetermined file format such as a document, a table, or a slide, which has been converted to a file format such as PDF (Portable Document Format). A PDF file or the like. This makes it possible to use more accurate text data. Hereinafter, an example will be described in which a PDF file is to be processed. However, the disclosed technology can also be applied to a system in which a file having a file format other than PDF is to be processed.

以下に図面を参照して、実施形態について説明する。図1は、実施形態に係る情報処理システムのシステム構成の一例を示す図である。   Hereinafter, embodiments will be described with reference to the drawings. FIG. 1 is a diagram illustrating an example of a system configuration of an information processing system according to an embodiment.

実施形態に係る情報処理システム100は、サーバ装置200、画像形成装置300、端末装置400を有する。実施形態に係る情報処理システム100において、サーバ装置200と、画像形成装置300と、端末装置400とは、ネットワークを介して接続される。   The information processing system 100 according to the embodiment includes a server device 200, an image forming device 300, and a terminal device 400. In the information processing system 100 according to the embodiment, the server device 200, the image forming device 300, and the terminal device 400 are connected via a network.

また、実施形態に係る端末装置400は、例えば、ネットワークを介して基幹システム500と接続される。基幹システム500とは、例えば、実施形態に係る情報処理システム100において帳票を認識した結果を用いて、特定の処理を行うシステムである。具体的には、例えば、基幹システム500は、会計システムや、見積もり作成システム等であってもよい。   Further, the terminal device 400 according to the embodiment is connected to the core system 500 via a network, for example. The core system 500 is, for example, a system that performs a specific process using a result of recognizing a form in the information processing system 100 according to the embodiment. Specifically, for example, the core system 500 may be an accounting system, an estimate creation system, or the like.

実施形態に係る情報処理システム100において、サーバ装置200は、画像形成装置300のスキャナ機能によって読み取られた帳票の画像を含むPDFファイルを、画像形成装置300から受信する。また、サーバ装置200は、ファイルのフォーマットが変換された、テキストデータを含むPDFファイルを、端末装置400から受信する。そして、サーバ装置200は、受信したPDFファイルから、帳票に含まれる項目と項目の値とを抽出し、項目と項目の値とを対応付けたテキストデータとする。   In the information processing system 100 according to the embodiment, the server device 200 receives from the image forming apparatus 300 a PDF file including an image of a form read by the scanner function of the image forming apparatus 300. In addition, the server device 200 receives, from the terminal device 400, a PDF file containing text data in which the file format has been converted. Then, the server device 200 extracts the items included in the form and the values of the items from the received PDF file, and converts the extracted items into text data in which the items are associated with the values of the items.

以下の説明では、画像形成装置300のスキャナ機能によって読み取られた帳票の画像を帳票画像と呼ぶ。   In the following description, a form image read by the scanner function of the image forming apparatus 300 is referred to as a form image.

また、以下の説明では、帳票に含まれる項目と、この項目の値とを抽出し、項目と項目の値とをテキストデータに変換して対応付けることを、帳票認識と呼ぶ。   In the following description, extracting an item included in a form and a value of the item, converting the item and the value of the item into text data and associating the data with each other is called form recognition.

実施形態に係るサーバ装置200は、記憶部210と、制御部220とを有する。記憶部210には、PDFファイルデータベース230、種別判定データベース240、帳票定義データベース250、認識結果データベース260が設けられている。   The server device 200 according to the embodiment includes a storage unit 210 and a control unit 220. The storage unit 210 includes a PDF file database 230, a type determination database 240, a form definition database 250, and a recognition result database 260.

PDFファイルデータベース230は、PDFファイルが格納される。種別判定データベース240は、帳票の種類を判別する際に参照される情報が格納される。帳票定義データベース250は、制御部220による帳票認識を行う際に参照される帳票定義情報が格納される。認識結果データベース260は、制御部220による帳票認識の結果を示す情報が格納される。   The PDF file database 230 stores PDF files. The type determination database 240 stores information referred to when determining the type of a form. The form definition database 250 stores form definition information that is referred to when the control unit 220 performs form recognition. The recognition result database 260 stores information indicating the result of form recognition by the control unit 220.

実施形態に係る制御部220は、PDFファイルデータベース230に格納されたPDFファイルを取得し、種別判定データベース240を参照して帳票の種別の判定と、参照すべき帳票定義情報の特定を行う。そして、制御部220は、帳票定義データベース250において、特定された帳票定義情報を用いて帳票認識を行い、その結果を認識結果データベース260へ格納する。帳票定義情報とは、帳票に含まれる項目名の記載位置を示す情報と、項目名と項目の値との位置関係を示す情報とを含む。   The control unit 220 according to the embodiment acquires the PDF file stored in the PDF file database 230, determines the type of the form by referring to the type determination database 240, and specifies the form definition information to be referred to. Then, the control unit 220 performs form recognition in the form definition database 250 using the specified form definition information, and stores the result in the recognition result database 260. The form definition information includes information indicating a description position of an item name included in the form, and information indicating a positional relationship between the item name and the value of the item.

ここで、実施形態に係る制御部220は、帳票認識を行う際に、帳票定義データベース250に格納された、汎用定義情報と、個社定義情報と、を参照する。   Here, the control unit 220 according to the embodiment refers to the general definition information and the individual company definition information stored in the form definition database 250 when performing the form recognition.

実施形態に係る汎用定義情報とは、一般的な帳票のレイアウトを定義した帳票定義情報であり、個社定義情報とは、情報処理システム100を利用する利用者固有の帳票のレイアウトを定義した帳票定義情報である。種別判定データベース240と、帳票定義データベース250の詳細は後述する。   The general definition information according to the embodiment is form definition information that defines a general form layout, and the individual company definition information is a form that defines a user-specific form layout that uses the information processing system 100. Definition information. Details of the type determination database 240 and the form definition database 250 will be described later.

本実施形態では、このように、帳票認識の際に、2種類の帳票定義情報を用いることで、汎用的な帳票に加えて、利用者固有の帳票も認識することができ、帳票の認識の精度を向上させることができる。   In this embodiment, as described above, when two types of form definition information are used at the time of form recognition, a user-specific form can be recognized in addition to a general-purpose form. Accuracy can be improved.

実施形態に係る情報処理システム100において、画像形成装置300は、スキャナ機能を有する複合機である。画像形成装置300は、コピー機能、FAX機能、スキャナ機能等を実現するためのアプリケーションが搭載されており、各機能と対応するアプリケーションを選択することで、これらの機能が実現される。   In the information processing system 100 according to the embodiment, the image forming apparatus 300 is a multifunction peripheral having a scanner function. The image forming apparatus 300 is provided with applications for realizing a copy function, a FAX function, a scanner function, and the like. These functions are realized by selecting an application corresponding to each function.

実施形態に係る端末装置400は、情報処理システム100を利用する利用者によって使用される。また、端末装置400には、サーバ装置200による帳票認識の結果が表示されてもよい。   The terminal device 400 according to the embodiment is used by a user who uses the information processing system 100. Further, the result of the form recognition by the server device 200 may be displayed on the terminal device 400.

尚、本実施形態における利用者とは、例えば、企業等である。より具体的には、例えば、利用者とは、情報処理システム100が提供するサービスを利用するための契約を締結している事業所や企業、団体等である。   The user in the present embodiment is, for example, a company or the like. More specifically, for example, the user is a business establishment, a company, an organization, or the like that has concluded a contract for using a service provided by the information processing system 100.

尚、図1の例では、サーバ装置200は、記憶部210内に4つのデータベースを有する構成としたが、これに限定されない。各データベースは、一部がサーバ装置200の外部装置に設けられていてもよいし、各データベース全てが外部装置に設けられていてもよい。   In the example of FIG. 1, the server device 200 has a configuration in which the storage unit 210 has four databases, but is not limited thereto. Some of the databases may be provided in an external device of the server device 200, or all of the databases may be provided in the external device.

また、図1の例では、サーバ装置200が制御部220を実現するものとしたが、これに限定されない。制御部220は、複数の情報処理装置によって実現されてもよい。   Further, in the example of FIG. 1, the server device 200 realizes the control unit 220, but is not limited thereto. The control unit 220 may be realized by a plurality of information processing devices.

また、図1の例では、情報処理システム100に含まれる画像形成装置300と端末装置400とは、それぞれ1台としているが、情報処理システム100に含まれる画像形成装置300と端末装置400の台数は、任意の数であってよい。   Further, in the example of FIG. 1, the information processing system 100 includes one image forming apparatus 300 and one terminal apparatus 400. However, the number of the image forming apparatuses 300 and the terminal apparatus 400 included in the information processing system 100 May be any number.

次に、図2を参照して、実施形態に係るサーバ装置200のハードウェア構成について説明する。図2は、実施形態に係るサーバ装置のハードウェア構成の一例を示す図である。   Next, a hardware configuration of the server device 200 according to the embodiment will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of a hardware configuration of the server device according to the embodiment.

実施形態に係るサーバ装置200は、それぞれバスBで相互に接続されている入力装置21、出力装置22、ドライブ装置23、補助記憶装置24、メモリ装置25、演算処理装置26及びインターフェース装置27を含む情報処理装置である。   The server device 200 according to the embodiment includes an input device 21, an output device 22, a drive device 23, an auxiliary storage device 24, a memory device 25, an arithmetic processing device 26, and an interface device 27, which are mutually connected by a bus B. It is an information processing device.

入力装置21は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等であってもよい。出力装置22は、各種の情報の出力を行うためものであり、例えばディスプレイ等であってもよい。インターフェース装置27は、LANカード等を含み、ネットワークに接続する為に用いられる。   The input device 21 is a device for inputting various types of information, and may be, for example, a keyboard, a pointing device, or the like. The output device 22 is for outputting various types of information, and may be, for example, a display. The interface device 27 includes a LAN card and the like, and is used for connecting to a network.

情報処理プログラムは、サーバ装置200を制御する各種プログラムの少なくとも一部である。情報処理プログラムは例えば記憶媒体28の配布やネットワークからのダウンロード等によって提供される。情報処理プログラムを記録した記憶媒体28は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。   The information processing program is at least a part of various programs that control the server device 200. The information processing program is provided by, for example, distribution of the storage medium 28 or download from a network. The storage medium 28 on which the information processing program is recorded is a storage medium for recording information optically, electrically or magnetically, such as a CD-ROM, a flexible disk, a magneto-optical disk, or the like, or information, such as a ROM or a flash memory. Various types of storage media can be used, such as a semiconductor memory that electrically records data.

また、情報処理プログラムは、情報処理プログラムを記録した記憶媒体28がドライブ装置23にセットされると、記憶媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。ネットワークからダウンロードされた情報処理プログラムは、インターフェース装置27を介して補助記憶装置24にインストールされる。   When the storage medium 28 storing the information processing program is set in the drive device 23, the information processing program is installed from the storage medium 28 to the auxiliary storage device 24 via the drive device 23. The information processing program downloaded from the network is installed in the auxiliary storage device 24 via the interface device 27.

補助記憶装置24は、インストールされた情報処理プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置25は、サーバ装置200の起動時に補助記憶装置24から情報処理プログラムを読み出して格納する。そして、演算処理装置26はメモリ装置25に格納された情報処理プログラムに従って、後述するような各種処理を実現している。   The auxiliary storage device 24 stores the installed information processing program and also stores necessary files and data. The memory device 25 reads and stores the information processing program from the auxiliary storage device 24 when the server device 200 is started. Then, the arithmetic processing device 26 realizes various processes described below according to the information processing program stored in the memory device 25.

実施形態に係る端末装置400のハードウェア構成は、サーバ装置200と同様であるから、説明を省略する。尚、端末装置400は、例えば、タブレット型の端末装置や、スマートフォン等であっても良く、入力装置21と出力装置22との代わりに、タッチパネル等により実現される表示操作装置を有していてもよい。   Since the hardware configuration of the terminal device 400 according to the embodiment is the same as that of the server device 200, the description is omitted. Note that the terminal device 400 may be, for example, a tablet-type terminal device or a smartphone, and has a display operation device realized by a touch panel or the like instead of the input device 21 and the output device 22. Is also good.

次に、実施形態に係るサーバ装置200の有する種別判定データベース240と帳票定義データベース250について説明する。   Next, the type determination database 240 and the form definition database 250 of the server device 200 according to the embodiment will be described.

図3は、第1の実施形態に係る種別判定データベースの一例を示す図である。実施形態に係る種別判定データベース240は、情報の項目として、定義ID、定義種別、文書種別、識別文字列を有する。種別判定データベース240において、項目「定義ID」は、その他の項目と対応付けられており、項目「定義ID」の値と、その他の項目の値とを含む情報を、種別判定情報と呼ぶ。   FIG. 3 is a diagram illustrating an example of the type determination database according to the first embodiment. The type determination database 240 according to the embodiment has a definition ID, a definition type, a document type, and an identification character string as information items. In the type determination database 240, the item “definition ID” is associated with other items, and information including the value of the item “definition ID” and the values of other items is referred to as type determination information.

項目「定義ID」の値は、帳票定義情報を特定するための識別子を示す。   The value of the item “definition ID” indicates an identifier for specifying the form definition information.

項目「定義種別」の値は、帳票定義情報の種類を示す。本実施形態では、帳票定義情報の種類として、汎用定義情報と個社定義情報の他に、特定定義情報を含む。特定定義情報とは、特定の事業者等によって発行される特定の帳票を定義する帳票定義情報である。特定の帳票とは、具体的には、例えば、一般的に使用されている宅配業者の伝票等である。   The value of the item “definition type” indicates the type of the form definition information. In the present embodiment, the type of the form definition information includes specific definition information in addition to the general definition information and the individual company definition information. The specific definition information is form definition information that defines a specific form issued by a specific business entity or the like. Specifically, the specific form is, for example, a slip of a generally used courier company.

項目「文書種別」の値は、帳票の種類を示す。帳票の種類とは、具体的には、例えば、請求書、見積書、注文書等である。項目「識別文字列」の値は、帳票の種類を特定するための文字列を示す。具体的には、例えば、「請求書」又は「請求」という文字列を含む帳票は、項目「文書種別」が示す帳票の種類が「請求書」となる。また、「R社」及び「請求」という両方の文字列を含む帳票画像は、項目「文書種別」が示す帳票の種類が「R社用請求書」となる。   The value of the item “document type” indicates the type of the form. The form type is, for example, an invoice, a quote, an order form, and the like. The value of the item “identification character string” indicates a character string for specifying the form type. Specifically, for example, in a form including a character string of “invoice” or “billing”, the type of the form indicated by the item “document type” is “invoice”. Also, in the form image including both the character strings “R Company” and “Billing”, the form type indicated by the item “Document Type” is “R Company Bill”.

図3の例では、例えば、定義ID「H01」の帳票定義情報の種類は汎用定義情報であり、定義ID「H01」の汎用定義情報は、「請求書」のレイアウトを定義した情報であり、PDFファイルから「請求」又は「請求書」という文字列が抽出された場合に、参照される。   In the example of FIG. 3, for example, the type of the form definition information of the definition ID “H01” is general definition information, and the general definition information of the definition ID “H01” is information defining the layout of “invoice”. It is referred to when a character string “billing” or “billing statement” is extracted from the PDF file.

次に、図4乃至図7を参照して、実施形態に係る帳票定義データベース250について説明する。図4は、第1の実施形態に係る帳票定義データベースに格納される帳票定義情報の種類を示す図である。   Next, a form definition database 250 according to the embodiment will be described with reference to FIGS. FIG. 4 is a diagram showing types of form definition information stored in the form definition database according to the first embodiment.

実施形態に係る帳票定義データベース250には、汎用定義情報251と、個社定義情報252と、特定定義情報253と、が格納されている。   The form definition database 250 according to the embodiment stores general definition information 251, individual company definition information 252, and specific definition information 253.

実施形態に係る汎用定義情報251とは、帳票の中でも、複数の利用者により利用される汎用性の高いレイアウトの帳票の帳票定義情報である。汎用定義情報251は、3つの帳票定義情報のうち、最も優先度の低い帳票定義情報である。   The general definition information 251 according to the embodiment is form definition information of a form having a highly versatile layout used by a plurality of users among forms. The general-purpose definition information 251 is the form definition information having the lowest priority among the three form definition information.

実施形態に係る個社定義情報252とは、帳票の中でも、利用者が独自に設計したレイアウトの帳票の帳票定義情報であり、利用者専用の帳票定義情報である。個社定義情報252は、3つの帳票定義情報のうち、最も尊重されるべき定義であり、最も優先度が高い帳票定義情報である。   The individual company definition information 252 according to the embodiment is form definition information of a form of a layout uniquely designed by a user among forms, and is form definition information dedicated to the user. The individual company definition information 252 is the definition to be respected most among the three form definition information, and is the form definition information having the highest priority.

実施形態に係る特定定義情報253は、帳票の中でも、一般的に利用される帳票のレイアウトを示す帳票定義情報である。特定定義情報253の優先度は、3つの帳票定義情報のうちの中間となる。   The specific definition information 253 according to the embodiment is form definition information indicating a layout of a form generally used among forms. The priority of the specific definition information 253 is intermediate between the three form definition information.

実施形態に係る制御部220は、この3つの帳票定義情報を参照して、PDFファイルの認識を行う。したがって、本実施形態では、例えば、PDFファイルが、個社定義情報252においてレイアウトが定義されていない帳票のものであった場合でも、汎用定義情報251や特定定義情報253で定義されていれば、このPDFファイルを認識できる。   The control unit 220 according to the embodiment recognizes the PDF file with reference to the three form definition information. Therefore, in the present embodiment, for example, even when the PDF file is a form in which the layout is not defined in the individual company definition information 252, if the PDF file is defined in the general definition information 251 or the specific definition information 253, This PDF file can be recognized.

図5は、第1の実施形態に係る汎用定義情報の一例を示す図である。汎用定義情報251は、定義ID毎に生成されるものであり、情報の項目として、項目ID、項目名、方向、距離等を含む。つまり、実施形態に係る汎用定義情報251は、項目「定義ID」と、その他の項目とが対応付けられており、項目「定義ID」の値と、その他の項目の値とを含む。   FIG. 5 is a diagram illustrating an example of the general definition information according to the first embodiment. The general definition information 251 is generated for each definition ID, and includes items of information such as an item ID, an item name, a direction, a distance, and the like. That is, the general definition information 251 according to the embodiment is associated with the item “definition ID” and other items, and includes the value of the item “definition ID” and the values of other items.

項目「項目ID」の値は、帳票に含まれる項目を特定するための識別子である。項目「項目名」の値は、項目の名称を示す。   The value of the item “item ID” is an identifier for specifying an item included in the form. The value of the item “item name” indicates the name of the item.

項目「方向」、「距離」等は、文字列を抽出する範囲を示す。例えば、項目「方向」の値が「RD」であり、項目「距離」の値が「20mm」であった場合、項目名となる文字列と外接する矩形の右下の座標から下に向かって20mm以内の範囲から、文字列を抽出することを示す。   Items such as “direction” and “distance” indicate a range in which a character string is extracted. For example, when the value of the item “direction” is “RD” and the value of the item “distance” is “20 mm”, the coordinates of the rectangle circumscribing the character string serving as the item name are shifted downward from the lower right coordinate. Indicates that a character string is extracted from a range within 20 mm.

つまり、実施形態に係る項目「方向」、「距離」等は、文字列を抽出する範囲を示す条件であり、この条件は、項目名と対応付けられている。尚、図5の例では、文字列を抽出する範囲を示す条件として、項目「方向」、「距離」を挙げたが、条件には、他の項目が含まれていてもよい。   That is, the items “direction”, “distance”, and the like according to the embodiment are conditions indicating a range in which a character string is extracted, and these conditions are associated with the item names. In the example of FIG. 5, the items “direction” and “distance” are given as the conditions indicating the range in which the character string is extracted. However, the condition may include other items.

したがって、例えば、項目ID「2」の項目名「合計」という文字列と外接する矩形の右下の座標から下に向かって20mm以内の範囲から抽出された文字列は、項目名「合計」と対応する項目の値と認識される。   Therefore, for example, a character string extracted from a range within 20 mm downward from the lower right coordinate of the circumscribed rectangle with the character string of the item name “total” of the item ID “2” is referred to as the item name “total”. Recognized as the value of the corresponding item.

尚、汎用定義情報251では、帳票に含まれる可能性のある複数の項目に関する情報が含まれるものとした。   Note that the general definition information 251 includes information on a plurality of items that may be included in the form.

図6は、第1の実施形態に係る個社定義情報の一例を示す図である。実施形態に係る個社定義情報252は、利用者毎に登録されるものであり、情報の項目として、利用者ID、定義ID、項目名、方向、距離等を含む。   FIG. 6 is a diagram illustrating an example of the individual company definition information according to the first embodiment. The individual company definition information 252 according to the embodiment is registered for each user, and includes information items such as a user ID, a definition ID, an item name, a direction, and a distance.

項目「利用者ID」の値は、利用者を特定するための識別子である。尚、本実施形態では、定義ID、項目名、方向、距離等は、汎用定義情報251と同様であるから説明を省略する。   The value of the item “user ID” is an identifier for identifying the user. In this embodiment, the definition ID, the item name, the direction, the distance, and the like are the same as those of the general definition information 251, and thus the description is omitted.

尚、本実施形態では、定義種別が個社定義情報となる帳票定義情報の定義IDは、利用者IDを含むようにしてもよい。   In the present embodiment, the definition ID of the form definition information whose definition type is the individual company definition information may include the user ID.

また、個社定義情報252では、利用者によって、項目名と、項目の値が記載されている範囲を示す条件とが登録された項目に関する情報が格納される。したがって、個社定義情報252に含まれる項目IDは、汎用定義情報251に含まれる項目IDの一部となる場合がある。   In the individual company definition information 252, information on an item in which a user registers an item name and a condition indicating a range in which the value of the item is described is stored. Therefore, the item ID included in the individual company definition information 252 may be a part of the item ID included in the general definition information 251.

図6の例では、利用者ID「A」によって登録された個社定義情報252を示しており、この個社定義情報252は、定義IDが「A01」であり、文書種別が「R社用請求書」となる。   In the example of FIG. 6, the individual company definition information 252 registered by the user ID “A” is shown. The individual company definition information 252 has the definition ID “A01” and the document type “R company”. Invoice ".

図7は、第1の実施形態に係る特定定義情報の一例を示す図である。実施形態に係る特定定義情報253は、特定の帳票毎に登録されるものであり、情報の項目として、定義ID、項目名、方向、距離等を含む。図7の本実施形態では、定義ID、項目名、方向、距離等は、汎用定義情報251と同様であるから説明を省略する。   FIG. 7 is a diagram illustrating an example of the specific definition information according to the first embodiment. The specific definition information 253 according to the embodiment is registered for each specific form, and includes information items such as a definition ID, an item name, a direction, and a distance. In the embodiment of FIG. 7, the definition ID, the item name, the direction, the distance, and the like are the same as those of the general-purpose definition information 251;

尚、実施形態に係る特定定義情報253は、特定の事業者毎に設けられていてもよい。この場合には、特定定義情報253には、情報の項目として、事業者IDが含まれていてもよい。   Note that the specific definition information 253 according to the embodiment may be provided for each specific business entity. In this case, the specific definition information 253 may include a company ID as an information item.

次に、図8を参照して、実施形態に係るサーバ装置200の機能について説明する。図8は、第1の実施形態に係るサーバ装置の機能を説明する図である。   Next, a function of the server device 200 according to the embodiment will be described with reference to FIG. FIG. 8 is a diagram illustrating functions of the server device according to the first embodiment.

実施形態に係るサーバ装置200では、例えば、メモリ装置25や補助記憶装置24等に格納された情報処理プログラムを演算処理装置26が読み出して実行することで、後述する各部の機能が実現される。   In the server device 200 according to the embodiment, for example, the arithmetic processing device 26 reads and executes an information processing program stored in the memory device 25, the auxiliary storage device 24, or the like, thereby realizing the function of each unit described below.

実施形態に係るサーバ装置200は、制御部220を有する。制御部220は、入力受付部221、認証処理部222、処理部270を有する。   The server device 200 according to the embodiment includes a control unit 220. The control unit 220 includes an input receiving unit 221, an authentication processing unit 222, and a processing unit 270.

入力受付部221は、サーバ装置200に対する各種の入力を受け付ける。具体的には、入力受付部221は、情報処理システム100にログインするための認証情報の入力を受け付ける。認証情報とは、例えば、利用者IDとパスワード等である。また、入力受付部221は、例えば、画像形成装置300、及び端末装置400から送信されたPDFファイルの入力を受け付ける。   The input receiving unit 221 receives various inputs to the server device 200. Specifically, the input receiving unit 221 receives input of authentication information for logging in to the information processing system 100. The authentication information is, for example, a user ID and a password. The input receiving unit 221 receives, for example, an input of a PDF file transmitted from the image forming apparatus 300 and the terminal apparatus 400.

認証処理部222は、入力受付部221が入力を受け付けた認証情報に基づき、認証を行う。尚、認証処理部222は、例えば、サーバ装置200の外部に設けられた認証サーバに対して、入力された認証情報を送信し、認証サーバによる認証の結果を取得してもよい。認証処理部222は、利用者が認証されると、入力受付部221が受け付けたPDFファイルを処理部270に渡してもよい。   The authentication processing unit 222 performs authentication based on the authentication information received by the input receiving unit 221. Note that the authentication processing unit 222 may, for example, transmit the input authentication information to an authentication server provided outside the server device 200 and acquire the result of the authentication by the authentication server. When the user is authenticated, the authentication processing unit 222 may pass the PDF file received by the input receiving unit 221 to the processing unit 270.

処理部270は、例えば、入力受付部221により第1テキストデータを含むPDFファイルが取得されると、当該PDFファイルに含まれる画像を文字認識して生成される第2テキストデータを用いて所定の処理を行うか、当該第1テキストデータを用いて当該所定の処理を行うかを、当該PDFファイルに基づいて決定する。   For example, when the input receiving unit 221 obtains a PDF file including the first text data, the processing unit 270 performs predetermined processing using the second text data generated by performing character recognition on an image included in the PDF file. Whether to perform the process or to perform the predetermined process using the first text data is determined based on the PDF file.

処理部270は、データ格納部271、ジョブリスト生成部272、前処理部274、文字認識部275、定義特定部276、項目抽出部277、表示画面生成部278、出力部279を有する。   The processing unit 270 includes a data storage unit 271, a job list generation unit 272, a preprocessing unit 274, a character recognition unit 275, a definition specification unit 276, an item extraction unit 277, a display screen generation unit 278, and an output unit 279.

データ格納部271は、画像形成装置300からPDFファイルを受信すると、PDFファイルデータベース230に格納する。   Upon receiving the PDF file from the image forming apparatus 300, the data storage unit 271 stores the PDF file in the PDF file database 230.

ジョブリスト生成部272は、入力受付部221が画像データの入力を受け付けると、ジョブリストにジョブを登録し、ジョブリストを管理する。ジョブリストの詳細は後述する。   When the input receiving unit 221 receives the input of the image data, the job list generating unit 272 registers the job in the job list and manages the job list. Details of the job list will be described later.

前処理部274は、PDFファイルデータベース230から取得したPDFファイルに対して、帳票認識を行うための前処理を行う。   The preprocessing unit 274 performs preprocessing for performing the form recognition on the PDF file acquired from the PDF file database 230.

文字認識部275は、PDFファイルから、文字列と、文字列が配置された位置を示す情報とを抽出し、認識結果情報として保持する。認識結果情報の詳細は後述する。   The character recognizing unit 275 extracts a character string and information indicating a position where the character string is arranged from the PDF file, and holds the information as recognition result information. Details of the recognition result information will be described later.

定義特定部276は、種別判定データベース240を参照し、認識結果情報に含まれる文字列と対応する定義IDを特定する。言い換えれば、定義特定部276は、帳票画像データから抽出された文字列に基づき、帳票認識の際に参照する帳票定義情報を特定し、特定した帳票定義情報を帳票定義データベース250から取得する取得部である。   The definition specifying unit 276 specifies the definition ID corresponding to the character string included in the recognition result information with reference to the type determination database 240. In other words, the definition specifying unit 276 specifies the form definition information to be referred to at the time of form recognition based on the character string extracted from the form image data, and acquires the specified form definition information from the form definition database 250. It is.

項目抽出部277は、定義特定部276により特定された帳票定義情報と、認識結果情報とに基づき、帳票画像データに含まれる項目と、項目の値とを抽出して対応付けを行い、項目の項目IDと、項目の値とを対応付けた認識結果データを生成する。尚、XML形式のファイル(eXtensible Markup Language)を認識結果データとして生成しても良い。また、項目抽出部277は、帳票における項目の記載位置と、項目と項目の値との位置関係を抽出する。   The item extracting unit 277 extracts items included in the form image data and the values of the items based on the form definition information specified by the definition specifying unit 276 and the recognition result information, and associates the extracted items with the items. Recognition result data in which an item ID is associated with an item value is generated. Note that an XML format file (eXtensible Markup Language) may be generated as the recognition result data. Further, the item extracting unit 277 extracts the description position of the item in the form and the positional relationship between the item and the value of the item.

表示画面生成部278は、認識結果データベース260に格納された認識結果データを用いて、認識結果確認画面を生成する。尚、認識結果確認画面に表示する項目名は、予め項目IDと対応付けて登録しておき、認識結果確認画面を生成するときに、認識結果データに含まれる項目IDに対応する項目名を特定して認識結果確認画面に表示させると良い。   The display screen generation unit 278 generates a recognition result confirmation screen using the recognition result data stored in the recognition result database 260. The item names displayed on the recognition result confirmation screen are registered in advance in association with the item IDs, and when generating the recognition result confirmation screen, the item names corresponding to the item IDs included in the recognition result data are specified. And display it on the recognition result confirmation screen.

出力部279は、表示画面生成部278が生成した認識結果確認画面を出力する。言い換えれば、出力部279は、表示画面生成部278が生成した認識結果確認画面を端末装置400のウェブブラウザ上で表示させる。   The output unit 279 outputs the recognition result confirmation screen generated by the display screen generation unit 278. In other words, the output unit 279 displays the recognition result confirmation screen generated by the display screen generation unit 278 on the web browser of the terminal device 400.

以下に、図9Aを参照して、第1の実施形態に係る情報処理システム100の処理の一例について説明する。図9Aは、第1の実施形態に係る情報処理システムの処理の一例(その一)を説明するシーケンス図である。以下では、サーバ装置200が、画像形成装置300から受信したPDFファイルを処理する例について説明する。   Hereinafter, an example of processing of the information processing system 100 according to the first embodiment will be described with reference to FIG. 9A. FIG. 9A is a sequence diagram illustrating an example (one) of a process of the information processing system according to the first embodiment. Hereinafter, an example in which the server device 200 processes a PDF file received from the image forming device 300 will be described.

情報処理システム100において、画像形成装置300は、利用者から帳票認識を行うためのアプリケーションの起動要求を受け付けると(ステップS901)、このアプリケーションを起動させる(ステップS902)。   In the information processing system 100, when the image forming apparatus 300 receives an activation request of an application for performing form recognition from a user (step S901), the image forming apparatus 300 activates the application (step S902).

続いて、画像形成装置300は、利用者から認証情報の入力を受け付けると(ステップS903)、この認証情報をサーバ装置200へ送信し、認証要求を行う(ステップS904)。   Subsequently, when receiving the input of the authentication information from the user (step S903), the image forming apparatus 300 transmits the authentication information to the server apparatus 200 and makes an authentication request (step S904).

サーバ装置200は、認証要求を受けて、認証処理部222により認証を行い、その結果を画像形成装置300へ通知する(ステップS905)。尚、ここでは、利用者が認証された場合の処理を示している。   Upon receiving the authentication request, the server device 200 performs authentication by the authentication processing unit 222, and notifies the image forming apparatus 300 of the result (step S905). Here, the processing when the user is authenticated is shown.

続いて、画像形成装置300は、帳票のスキャン指示を受け付け(ステップS906)、帳票のスキャンを行い、スキャンした画像を含むPDFファイルを生成する(ステップS907)。続いて、画像形成装置300は、生成したPDFファイルをサーバ装置200へ送信する(ステップS908)。   Next, the image forming apparatus 300 receives a form scan instruction (step S906), scans the form, and generates a PDF file containing the scanned image (step S907). Subsequently, the image forming apparatus 300 transmits the generated PDF file to the server apparatus 200 (Step S908).

サーバ装置200は、入力受付部221がPDFファイルの入力を受け付けると、認証処理部222がこのPDFファイルを処理部270へ渡す(ステップS909)。なお、サーバ装置200は、認証処理部222を介さずに、入力受付部221から処理部270へPDFファイルを渡すようにしてもよい。   In the server device 200, when the input receiving unit 221 receives the input of the PDF file, the authentication processing unit 222 passes this PDF file to the processing unit 270 (step S909). The server device 200 may pass the PDF file from the input receiving unit 221 to the processing unit 270 without passing through the authentication processing unit 222.

サーバ装置200の処理部270は、PDFファイルを受け取ると、ジョブリスト生成部272により、ジョブリストにジョブを登録する(ステップS910)。続いて、処理部270は、データ格納部271により、PDFファイルをPDFファイルデータベース230へ格納する(ステップS911)。   When the processing unit 270 of the server device 200 receives the PDF file, the job list generation unit 272 registers the job in the job list (step S910). Subsequently, the processing unit 270 causes the data storage unit 271 to store the PDF file in the PDF file database 230 (Step S911).

続いて、処理部270は、PDFファイルデータベース230から認識する対象となるPDFファイルを取得し(ステップS912)、帳票を認識する処理を実行する(ステップS913)。ステップS912の処理の詳細は後述する。   Subsequently, the processing unit 270 acquires a PDF file to be recognized from the PDF file database 230 (step S912), and executes a process of recognizing a form (step S913). Details of the processing in step S912 will be described later.

続いて、処理部270は、項目抽出部277が生成した認識結果データを認識結果データベース260に格納する(ステップS914)。   Subsequently, the processing unit 270 stores the recognition result data generated by the item extracting unit 277 in the recognition result database 260 (Step S914).

情報処理システム100において、端末装置400は、利用者からのブラウザの表示指示の入力を受け付けると(ステップS915)、サーバ装置200に対して認識結果データを表示させるブラウザの表示要求を行う(ステップS916)。   In the information processing system 100, upon receiving the input of the browser display instruction from the user (step S915), the terminal device 400 requests the server device 200 to display the browser for displaying the recognition result data (step S916). ).

また、端末装置400は、利用者から認証情報の入力を受け付けて(ステップS917)、この認証情報をサーバ装置200へ送信する(ステップS918)。   Further, the terminal device 400 accepts the input of the authentication information from the user (Step S917), and transmits the authentication information to the server device 200 (Step S918).

サーバ装置200は、認証処理部222により、利用者の認証を行い(ステップS919)、その結果を端末装置400へ通知する(ステップS920)。尚、ここでは、利用者が認証された場合の処理を示す。   The server device 200 authenticates the user by the authentication processing unit 222 (step S919), and notifies the result to the terminal device 400 (step S920). Here, a process when the user is authenticated is shown.

続いて、端末装置400は、利用者から、帳票画像の認識結果の閲覧指示の入力を受け付けると(ステップS921)、サーバ装置200に対して閲覧要求を行う(ステップS922)。   Subsequently, when receiving an input of a browse instruction of the recognition result of the form image from the user (step S921), the terminal device 400 issues a browse request to the server device 200 (step S922).

サーバ装置200は、閲覧要求を受けて、認識結果データベース260に格納されている認識結果データを取得し(ステップS923)、端末装置400のブラウザ上に表示させ(ステップS924)、処理を終了する。   Upon receiving the browsing request, the server device 200 acquires the recognition result data stored in the recognition result database 260 (step S923), displays the data on the browser of the terminal device 400 (step S924), and ends the process.

以下に、図9Bを参照して、第1の実施形態に係る情報処理システム100の処理の一例について説明する。図9Bは、第1の実施形態に係る情報処理システムの処理の一例を説明するシーケンス図(その二)である。以下では、サーバ装置200が、端末装置400から受信したPDFファイルを処理する例について説明する。   Hereinafter, an example of processing of the information processing system 100 according to the first embodiment will be described with reference to FIG. 9B. FIG. 9B is a sequence diagram (part 2) illustrating an example of processing of the information processing system according to the first embodiment. Hereinafter, an example in which the server device 200 processes the PDF file received from the terminal device 400 will be described.

情報処理システム100において、端末装置400は、利用者から帳票認識を行うためのアプリケーションの起動要求を受け付けると(ステップS951)、このアプリケーションを起動させる(ステップS952)。   In the information processing system 100, when the terminal device 400 receives an activation request for an application for performing form recognition from a user (step S951), the terminal device 400 activates the application (step S952).

続いて、端末装置400は、利用者から認証情報の入力を受け付けると(ステップS953)、この認証情報をサーバ装置200へ送信し、認証要求を行う(ステップS954)。   Subsequently, when receiving the input of the authentication information from the user (step S953), the terminal device 400 transmits the authentication information to the server device 200 and makes an authentication request (step S954).

サーバ装置200は、認証要求を受けて、認証処理部222により認証を行い、その結果を端末装置400へ通知する(ステップS955)。尚、ここでは、利用者が認証された場合の処理を示している。   The server device 200 receives the authentication request, performs authentication by the authentication processing unit 222, and notifies the terminal device 400 of the result (step S955). Here, the processing when the user is authenticated is shown.

続いて、端末装置400は、帳票のアップロード指示を受け付け(ステップS956)、予め記憶されているPDFファイルをサーバ装置200へ送信する(ステップS958)。なお、当該PDFファイルは、他の端末装置400において、文書、表、及びスライド等の所定のファイルフォーマットのファイルが、PDF(Portable Document Format)等のファイルフォーマットに変換(エクスポート)されたファイルでもよい。なお、以下のステップS959からステップS974の処理は、上述した図9AのステップS919からステップS924の処理と同様でもよい。   Subsequently, the terminal device 400 receives the form upload instruction (step S956), and transmits a PDF file stored in advance to the server device 200 (step S958). The PDF file may be a file in which a file of a predetermined file format such as a document, a table, and a slide is converted (exported) to a file format such as PDF (Portable Document Format) in another terminal device 400. . Note that the following processing from step S959 to step S974 may be the same as the processing from step S919 to step S924 in FIG. 9A described above.

サーバ装置200は、入力受付部221がPDFファイルの入力を受け付けると、認証処理部222がこのPDFファイルを処理部270へ渡す(ステップS959)。なお、サーバ装置200は、認証処理部222を介さずに、入力受付部221から処理部270へPDFファイルを渡すようにしてもよい。   In the server device 200, when the input receiving unit 221 receives the input of the PDF file, the authentication processing unit 222 passes this PDF file to the processing unit 270 (step S959). The server device 200 may pass the PDF file from the input receiving unit 221 to the processing unit 270 without passing through the authentication processing unit 222.

サーバ装置200の処理部270は、PDFファイルを受け取ると、ジョブリスト生成部272により、ジョブリストにジョブを登録する(ステップS960)。続いて、処理部270は、データ格納部271により、PDFファイルをPDFファイルデータベース230へ格納する(ステップS961)。   When the processing unit 270 of the server device 200 receives the PDF file, the job list generation unit 272 registers the job in the job list (step S960). Subsequently, the processing unit 270 causes the data storage unit 271 to store the PDF file in the PDF file database 230 (Step S961).

続いて、処理部270は、PDFファイルデータベース230から認識する対象となるPDFファイルを取得し(ステップS962)、帳票を認識する処理を実行する(ステップS963)。   Subsequently, the processing unit 270 acquires a PDF file to be recognized from the PDF file database 230 (step S962), and executes a process of recognizing a form (step S963).

続いて、処理部270は、表示画面生成部278が生成した認識結果データを認識結果データベース260に格納する(ステップS964)。   Subsequently, the processing unit 270 stores the recognition result data generated by the display screen generating unit 278 in the recognition result database 260 (Step S964).

情報処理システム100において、端末装置400は、利用者からのブラウザの表示指示の入力を受け付けると(ステップS965)、サーバ装置200に対して認識結果データを表示させるブラウザの表示要求を行う(ステップS966)。   In the information processing system 100, when receiving the input of the browser display instruction from the user (step S965), the terminal device 400 requests the server device 200 to display the browser for displaying the recognition result data (step S966). ).

また、端末装置400は、利用者から認証情報の入力を受け付けて(ステップS967)、この認証情報をサーバ装置200へ送信する(ステップS968)。   Further, the terminal device 400 receives the input of the authentication information from the user (Step S967), and transmits the authentication information to the server device 200 (Step S968).

サーバ装置200は、認証処理部222により、利用者の認証を行い(ステップS969)、その結果を端末装置400へ通知する(ステップS970)。尚、ここでは、利用者が認証された場合の処理を示す。   The server device 200 authenticates the user by the authentication processing unit 222 (step S969), and notifies the result to the terminal device 400 (step S970). Here, a process when the user is authenticated is shown.

続いて、端末装置400は、利用者から、帳票画像の認識結果の閲覧指示の入力を受け付けると(ステップS971)、サーバ装置200に対して閲覧要求を行う(ステップS972)。   Subsequently, upon receiving an input of a browse instruction for a recognition result of the form image from the user (step S971), the terminal device 400 issues a browse request to the server device 200 (step S972).

サーバ装置200は、閲覧要求を受けて、認識結果データベース260に格納されている認識結果データを取得し(ステップS923)、認識結果確認画面を生成して端末装置400のブラウザ上に表示させ(ステップS924)、利用者に、表示された認識結果確認画面で認識結果を確認させて、処理を終了する。   Upon receiving the browsing request, the server device 200 acquires the recognition result data stored in the recognition result database 260 (step S923), generates a recognition result confirmation screen, and displays the screen on the browser of the terminal device 400 (step S923). (S924) The user is prompted to confirm the recognition result on the displayed recognition result confirmation screen, and the process ends.

ここで、図10を参照して、第1の実施形態に係るジョブリスト生成部272により生成されるジョブリストについて説明する。図10は、ジョブリストの一例を示す図である。   Here, a job list generated by the job list generation unit 272 according to the first embodiment will be described with reference to FIG. FIG. 10 is a diagram illustrating an example of the job list.

実施形態に係るサーバ装置200は、画像形成装置300からPDFファイルが入力されると、ジョブリスト生成部272により、PDFファイルとジョブIDとを対応付けたジョブリストとして保持する。   In the server device 200 according to the embodiment, when a PDF file is input from the image forming apparatus 300, the job list generation unit 272 holds the PDF file and a job ID as a job list in which the PDF file is associated with the job ID.

実施形態に係るジョブリスト101は、情報の項目として、ジョブID、利用者ID、帳票画像ファイルパス、認識結果ファイルパス、ステータス、定義IDを有する。   The job list 101 according to the embodiment has, as information items, a job ID, a user ID, a form image file path, a recognition result file path, a status, and a definition ID.

項目「ジョブID」の値は、ジョブを特定する識別子である。言い換えれば、項目「ジョブID」の値は、画像形成装置300から受信したPDFファイルを特定するための識別子である。   The value of the item “job ID” is an identifier for specifying the job. In other words, the value of the item “job ID” is an identifier for specifying the PDF file received from the image forming apparatus 300.

項目「利用者ID」の値は、情報処理システム100にログインした利用者を特定するための識別子である。   The value of the item “user ID” is an identifier for specifying a user who has logged in to the information processing system 100.

項目「画像ファイルパス」の値は、PDFファイルが格納されている場所を示す情報である。項目「認識結果ファイルパス」の値は、帳票画像を認識した結果の認識結果データが格納されている場所を示す情報である。   The value of the item “image file path” is information indicating the location where the PDF file is stored. The value of the item “recognition result file path” is information indicating a location where recognition result data of a result of recognizing the form image is stored.

項目「ステータス」の値は、帳票画像の認識の進捗を示す。項目「定義ID」の値は、項目「画像ファイルパス」の値が示す場所に格納されたPDFファイルを認識する際に参照される帳票定義情報の定義IDを示す。   The value of the item “status” indicates the progress of the recognition of the form image. The value of the item “definition ID” indicates the definition ID of the form definition information referred to when recognizing the PDF file stored in the location indicated by the value of the item “image file path”.

実施形態に係るサーバ装置200は、画像形成装置300からPDFファイルを受信すると、ジョブリスト生成部272により、ジョブIDを付与し、認証情報として取得した利用者IDを対応付けて、ジョブリスト101にレコードを追加する。そして、ジョブリスト生成部272は、PDFファイルがPDFファイルデータベース230に格納されると、この格納先を示す情報を項目「画像ファイルパス」の値として、追加する。   When the server apparatus 200 according to the embodiment receives the PDF file from the image forming apparatus 300, the job list generation unit 272 assigns a job ID, associates the user ID acquired as the authentication information, and associates the job ID with the job list 101. Add records. Then, when the PDF file is stored in the PDF file database 230, the job list generation unit 272 adds information indicating the storage destination as a value of the item “image file path”.

さらに、ジョブリスト生成部272は、帳票画像の認識において、参照する帳票定義情報が特定されると、その定義IDを項目「定義ID」の値として追加する。そして、ジョブリスト生成部272は、が完了して、認識結果データが認識結果データベース260に格納されると、この格納先を示す情報を項目「認識結果ファイルパス」の値として追加し、項目「ステータス」の値を完了とする。   Further, when the form definition information to be referred to is identified in the recognition of the form image, the job list generation unit 272 adds the definition ID as a value of the item “definition ID”. When the recognition result data is stored in the recognition result database 260 after the completion of the process, the job list generation unit 272 adds information indicating the storage destination as a value of the item “recognition result file path”, and Complete the value of "Status".

次に、図11A、及び図11Bを参照して、第1の実施形態に係る処理部270の処理について説明する。図11A、及び図11Bは、第1の実施形態に係る処理部270の処理を説明するフローチャートである。図11A、及び図11Bでは、図9AのステップS913、及び図9BのステップS963の処理の詳細を示している。また、図11A、及び図11Bでは、複数のPDFファイルを受け取った場合の処理を示している。   Next, the processing of the processing unit 270 according to the first embodiment will be described with reference to FIGS. 11A and 11B. FIGS. 11A and 11B are flowcharts illustrating the processing of the processing unit 270 according to the first embodiment. 11A and 11B show details of the processing in step S913 in FIG. 9A and step S963 in FIG. 9B. FIGS. 11A and 11B show processing when a plurality of PDF files are received.

処理部270は、PDFファイルデータベース230からPDFファイルを取得する(ステップS1101)。なお、処理部270は、端末装置400のユーザにより、PDFファイルに含まれているテキストデータを使用することが設定されている場合は、ステップS1102の処理に進み、端末装置400のユーザにより、PDFファイルに含まれているテキストデータを使用しないことが設定されている場合は、ステップS1105の処理に進む正にしてもよい。続いて、処理部270は、取得したPDFファイルに、テキストデータが含まれているか否かを判定する(ステップS1102)。ここで、画像形成装置300、及び端末装置400から受信したPDFファイルには、例えば、以下の(1)及び(2)のような場合に、テキストデータが含まれている。   The processing unit 270 acquires a PDF file from the PDF file database 230 (Step S1101). If the user of the terminal device 400 has set to use the text data included in the PDF file, the processing unit 270 proceeds to the process of step S1102, and the user of the terminal device 400 If it is set not to use the text data included in the file, the process may proceed to step S1105. Subsequently, the processing unit 270 determines whether the acquired PDF file includes text data (step S1102). Here, the PDF file received from the image forming apparatus 300 and the terminal device 400 includes, for example, text data in the following cases (1) and (2).

(1)他の端末装置400等において、帳票の印刷物がスキャンされて(光学的に読み込まれて)作成されたPDFファイルの画像が文字認識され、文字認識の結果のテキストデータ(「第1テキストデータ」の一例。)が当該PDFに付加された場合。(2)他の端末装置400等において、文書、表、スライド等のテキストデータを含むファイルが、PDFファイルに変換された場合。   (1) In another terminal device 400 or the like, a printed matter of a form is scanned (optically read) and an image of a created PDF file is subjected to character recognition, and text data (“first text”) as a result of character recognition is obtained. Data) is added to the PDF. (2) When a file including text data such as a document, a table, or a slide is converted to a PDF file in another terminal device 400 or the like.

テキストデータが含まれていない場合(ステップS1102でNO)、ステップS1105の処理に進む。   If text data is not included (NO in step S1102), the process advances to step S1105.

一方、テキストデータが含まれている場合(ステップS1102でYES)、当該テキストデータを利用するか否かを判定する(ステップS1103)。ここで、取得したPDFファイルが、上述した(2)のような、ファイルのフォーマットが変換された、テキストデータを含むPDFファイルである等の場合に、当該テキストデータを利用すると判定してもよい。なお、この処理については後述する。   If text data is included (YES in step S1102), it is determined whether to use the text data (step S1103). Here, in the case where the acquired PDF file is a PDF file that has been converted into a file format or includes text data as in (2) described above, it may be determined that the text data is to be used. . This processing will be described later.

当該テキストデータを利用する場合(ステップS1103でYES)、処理部270は、当該テキストデータを処理対象のテキストデータ(「第1テキストデータ」の一例。)として保持し(ステップS1104)、後述するステップS1110の処理に進む。図14Aは、実施形態に係る処理対象のテキストデータの一例を示す図である。図14Aの例では、IDに対応付けて、座標X、座標Y、文字の幅、文字の高さ、確信度、及び文字が記憶される。IDは、各文字のIDである。座標X及び座標Yは、それぞれ、IDに係る文字の横方向、及び縦方向の位置の座標である。文字の幅、及び文字の高さは、それぞれ、IDに係る文字の幅、及び高さである。確信度は、IDに係る文字の画像認識の精度である。なお、確信度は必須ではない。   If the text data is to be used (YES in step S1103), the processing unit 270 holds the text data as text data to be processed (an example of “first text data”) (step S1104), and performs steps to be described later. The process proceeds to S1110. FIG. 14A is a diagram illustrating an example of text data to be processed according to the embodiment. In the example of FIG. 14A, coordinates X, coordinates Y, character width, character height, certainty factor, and characters are stored in association with the ID. The ID is the ID of each character. The coordinates X and the coordinates Y are the coordinates of the horizontal and vertical positions of the character associated with the ID, respectively. The width of the character and the height of the character are the width and the height of the character related to the ID, respectively. The certainty factor is the accuracy of image recognition of the character associated with the ID. Note that the confidence is not essential.

当該テキストデータを利用しない場合(ステップS1103でNO)、処理部270は、前処理部274により、PDFファイルをpng、またはjpeg形式等の画像に変換する(ステップS1105)。   If the text data is not used (NO in step S1103), the processing unit 270 causes the preprocessing unit 274 to convert the PDF file into an image in a png or jpeg format (step S1105).

続いて、前処理部274は、1ページ分の画像を選択し(ステップS1106)、前処理を行う(ステップS1107)。前処理とは、具体的には、例えば、画像の向きを揃える補正処理等である。   Subsequently, the preprocessing unit 274 selects an image for one page (step S1106) and performs preprocessing (step S1107). The preprocessing is, for example, a correction process for aligning the orientation of an image, for example.

続いて、処理部270は、文字認識部275により、帳票画像から、文字が形成されている領域(以下、文字フィールド)を切り取る(ステップS1108)。続いて、処理部270は、文字認識部275により、切り取られた文字フィールドの中の文字を切り取り、文字認識し、文字認識の結果を処理対象のテキストデータ(「第2テキストデータ」の一例。)として保持する(ステップS1109)。このとき、文字認識部275は、切り出した文字の位置を示す座標も取得する。   Subsequently, the processing unit 270 causes the character recognition unit 275 to cut out an area in which characters are formed (hereinafter, a character field) from the form image (step S1108). Subsequently, the processing unit 270 cuts out the characters in the cut-out character field by the character recognition unit 275, performs character recognition, and processes the result of the character recognition as text data to be processed (an example of “second text data”. ) (Step S1109). At this time, the character recognition unit 275 also acquires coordinates indicating the position of the cut-out character.

続いて、処理部270は、処理対象のテキストデータに含まれる各文字の位置関係に基づいて読取結果情報を生成する(ステップS1110)。具体的に、処理部270は、認識された各文字の座標に基づいて、互いの距離が予め設定された閾値以内の文字を1つの文字列として認識し、文字列と、文字列が形成された領域の位置を示す座標などの情報とを対応付けて読取結果情報を生成する。読取結果情報の詳細は後述する。   Subsequently, the processing unit 270 generates read result information based on the positional relationship of each character included in the text data to be processed (step S1110). Specifically, the processing unit 270 recognizes, as one character string, characters whose distance is within a predetermined threshold based on the recognized coordinates of each character, and forms a character string and a character string. Then, read result information is generated in association with information such as coordinates indicating the position of the selected area. Details of the reading result information will be described later.

続いて、処理部270は、項目抽出部277により、読取結果情報と種別判定データベース240とに基づき特定した個社定義情報252を用いて、項目と項目の値とを抽出する(ステップS1111)。   Subsequently, the processing unit 270 extracts items and item values by the item extracting unit 277 using the individual company definition information 252 specified based on the read result information and the type determination database 240 (step S1111).

続いて、処理部270は、項目抽出部277により、読取結果情報と種別判定データベース240とに基づき特定した特定定義情報253を用いて、項目と項目の値とを抽出する(ステップS1112)。   Subsequently, the processing unit 270 extracts items and item values using the item definition unit 277 using the specific definition information 253 specified based on the read result information and the type determination database 240 (step S1112).

続いて、処理部270は、項目抽出部277により、読取結果情報と種別判定データベース240とに基づき特定した汎用定義情報251を用いて、項目と項目の値とを抽出する(ステップS1113)。   Subsequently, the processing unit 270 uses the item extraction unit 277 to extract items and item values using the general-purpose definition information 251 specified based on the read result information and the type determination database 240 (step S1113).

続いて、処理部270は、項目と、項目の値との抽出に成功したか否かを判定する(ステップS1114)。具体的には、処理部270は、ステップS1111からステップS1113までの間で、項目抽出部277により抽出された項目と項目の値とが存在する場合に、項目と、項目の値との抽出に成功したと判定してもよい。   Subsequently, the processing unit 270 determines whether the extraction of the item and the value of the item is successful (step S1114). Specifically, when the item extracted by the item extracting unit 277 and the value of the item exist between steps S1111 and S1113, the processing unit 270 extracts the item and the value of the item. You may determine that it was successful.

ステップS1114において、項目と項目の値の抽出に失敗した場合、処理部270は、端末装置400又は画像形成装置300に対してエラーを通知し(ステップS1115)、後述するステップS1118へ進む。   If the extraction of the item and the value of the item fails in step S1114, the processing unit 270 notifies the terminal device 400 or the image forming apparatus 300 of an error (step S1115), and proceeds to step S1118 described later.

ステップS1114において、項目と項目の値との抽出に成功すると、処理部270は、項目抽出部277により、抽出された項目と項目の値とを対応付けてマージした認識結果データを生成する(ステップS1116)。マージする処理の詳細は後述する。   If the extraction of the item and the value of the item is successful in step S1114, the processing unit 270 generates recognition result data in which the extracted item and the value of the item are merged in association with each other by the item extracting unit 277 (step S1114). S1116). Details of the merging process will be described later.

続いて、処理部270は、ジョブリスト生成部272により、認識結果データの生成に用いられた帳票定義情報の定義IDと、認識結果データの格納先とを、ジョブリスト101に登録する(ステップS1117)。   Subsequently, the processing unit 270 registers, in the job list 101, the definition ID of the form definition information used for generating the recognition result data and the storage destination of the recognition result data by the job list generation unit 272 (step S1117). ).

続いて、処理部270は、最後のページまで処理を実行したか否かを判定する(ステップS1118)。ステップS1117において、最後のページまで処理を実行していない場合、処理部270は、ステップS1106へ戻る。   Subsequently, the processing unit 270 determines whether the processing has been performed up to the last page (step S1118). If the processing has not been executed up to the last page in step S1117, the processing unit 270 returns to step S1106.

ステップS1118において、最後のページまで処理を実行した場合、処理部270は、表示画面生成部278により、認識結果データを用いて生成された認識結果確認画面を端末装置400に表示させ(ステップS1119)、処理を終了する。   If the processing has been executed up to the last page in step S1118, the processing unit 270 causes the display screen generation unit 278 to display the recognition result confirmation screen generated using the recognition result data on the terminal device 400 (step S1119). , And the process ends.

尚、図11A、及び図11Bの例では、認識結果データを表示させる処理まで実行するものとして説明したが、これに限定されない。処理部270は、端末装置400から、認識結果データの閲覧要求を受け付けてから、認識結果データを表示させてもよい。   Note that, in the examples of FIGS. 11A and 11B, the processing up to the display of the recognition result data has been described, but the present invention is not limited to this. The processing unit 270 may display the recognition result data after receiving the browsing request for the recognition result data from the terminal device 400.

≪テキストデータの利用判定処理≫
次に、図12を参照し、図11AのステップS1102の、テキストデータの利用判定処理の一例について説明する。図12は、実施形態に係るテキストデータの利用判定処理の一例を示すフローチャートである。
利用 Usage judgment processing of text data≫
Next, an example of text data use determination processing in step S1102 of FIG. 11A will be described with reference to FIG. FIG. 12 is a flowchart illustrating an example of text data use determination processing according to the embodiment.

ステップS101において、処理部270は、取得したPDFファイルが所定の条件を満たすか否かを判定する。ここで、処理部270は、例えば、取得したPDFファイルの拡張領域に、所定の企業により提供されるアプリケーション及びサービス等の機能により文字認識されたことを示す情報が含まれている場合、所定の条件を満たすと判定してもよい。これは、例えば、当該所定の企業と、サーバ装置200を提供する企業が同一である等の場合、取得したPDFファイルに予め付加されている文字認識の結果の精度と、サーバ装置200にて文字認識した結果の精度とが同等であると考えられるためである。これにより、例えば、サーバ装置200における文字認識の処理負荷を削減することができる。なお、当該拡張領域の情報は、例えば、画像形成装置300の文字認識モジュールにより設定されてもよい。   In step S101, the processing unit 270 determines whether the acquired PDF file satisfies a predetermined condition. Here, for example, when the extended area of the acquired PDF file includes information indicating that the character has been recognized by the functions of the application and the service provided by the predetermined company, the processing unit 270 determines that the predetermined area It may be determined that the condition is satisfied. For example, when the predetermined company and the company providing the server device 200 are the same, for example, the accuracy of the result of character recognition added in advance to the acquired PDF file and the character This is because the accuracy of the recognition result is considered to be equivalent. Thereby, for example, the processing load of character recognition in the server device 200 can be reduced. The information of the extension area may be set by, for example, a character recognition module of the image forming apparatus 300.

また、処理部270は、例えば、取得したPDFファイルの拡張領域に、端末装置400のユーザにより設定された所定の情報が含まれている場合、所定の条件を満たすと判定してもよい。これにより、PDFファイルに含まれるテキストデータを利用させるか、PDFファイルに含まれる画像をサーバ装置200に文字認識された結果を利用させるかを、ユーザが指定できる。   Further, for example, when the extension area of the acquired PDF file includes the predetermined information set by the user of the terminal device 400, the processing unit 270 may determine that the predetermined condition is satisfied. Thus, the user can specify whether to use the text data included in the PDF file or to use the result of character recognition of the image included in the PDF file by the server device 200.

所定の条件を満たす場合(ステップS101でYES)、当該ファイルに含まれるテキストデータを利用すると判定し(ステップS102)、処理を終了する。   If the predetermined condition is satisfied (YES in step S101), it is determined that the text data included in the file is to be used (step S102), and the process ends.

所定の条件を満たさない場合(ステップS101でNO)、処理部270は、取得したPDFファイルが、ファイルのフォーマットが変換された、テキストデータを含むファイルであるか否かを判定する(ステップS103)。ここで、処理部270は、例えば、以下の各条件のうち1以上の条件を用いてこの判定を行ってもよい。すなわち、処理部270は、以下の各条件のうち複数の条件を組み合わせてこの判定を行ってもよい。   If the predetermined condition is not satisfied (NO in step S101), processing unit 270 determines whether or not the acquired PDF file is a file that has been converted from a file format and includes text data (step S103). . Here, the processing unit 270 may perform this determination using, for example, one or more of the following conditions. That is, the processing unit 270 may make this determination by combining a plurality of conditions among the following conditions.

処理部270は、例えば、取得したPDFファイルに所定の表示サイズ以上の画像データが含まれない場合(すなわち、画像データが含まれない場合や、所定の表示サイズ以下の画像データしか含まれていない場合)、ファイルのフォーマットが変換された、テキストデータを含むファイルであると判定してもよい。なお、処理部270は、当該所定の表示サイズを、PDFファイルの各ページの表示サイズに応じて決定してもよい。この場合、処理部270は、当該所定の表示サイズを、例えば、PDFファイルの各ページの表示サイズの80%の大きさとしてもよい。これは、例えば、A4サイズの印刷物がスキャンされて生成されたPDFファイルの場合、A4サイズの各頁の領域のうち、余白以外の全領域が、スキャンされて生成された画像の表示領域であると考えられるためである。   The processing unit 270 may, for example, include a case where the acquired PDF file does not include image data of a predetermined display size or more (ie, does not include image data or includes only image data of a predetermined display size or less). In this case, the format of the file may be determined to be a file containing text data. Note that the processing unit 270 may determine the predetermined display size according to the display size of each page of the PDF file. In this case, the processing unit 270 may set the predetermined display size to, for example, 80% of the display size of each page of the PDF file. For example, in the case of a PDF file generated by scanning an A4-size printed matter, all areas other than the margins among the areas of each page of the A4-size are display areas of an image generated by scanning. It is because it is considered.

また、処理部270は、取得したPDFファイルが、画像形成装置300から取得されたファイルである場合、ファイルのフォーマットが変換された、テキストデータを含むファイルでないと判定してもよい。この場合、処理部270は、例えば、取得したファイルが、画像形成装置300からPDFを受信するための所定の通信プロトコルの通信ポートにて受信されていた場合に、取得したファイルが、画像形成装置300から取得されたファイルであると判定してもよい。   In addition, when the acquired PDF file is a file acquired from the image forming apparatus 300, the processing unit 270 may determine that the file format is not a file that has been converted and includes text data. In this case, for example, when the acquired file is received at a communication port of a predetermined communication protocol for receiving PDF from the image forming apparatus 300, the processing unit 270 determines that the acquired file is The file may be determined to be a file acquired from the file 300.

また、処理部270は、取得したPDFファイルが、印刷物が光学的に読み込まれて作成された等の画像から文字認識されたテキストデータを含むファイルである場合、ファイルのフォーマットが変換された、テキストデータを含むファイルでないと判定してもよい。この場合、処理部270は、例えば、取得したPDFファイルの拡張領域に、文字認識したことを示す情報が含まれている場合、当該画像から文字認識されたテキストデータ等を含むファイルであると判定してもよい。なお、当該拡張領域の情報は、例えば、画像形成装置300の文字認識モジュールにより設定されてもよい。   If the acquired PDF file is a file including text data in which a character is recognized from an image such as one created by reading a printout optically, the processing unit 270 converts the file format into a text file. It may be determined that the file is not a file containing data. In this case, for example, if the extended area of the acquired PDF file includes information indicating that the character has been recognized, the processing unit 270 determines that the file includes text data and the like whose characters have been recognized from the image. May be. The information of the extension area may be set by, for example, a character recognition module of the image forming apparatus 300.

ファイルのフォーマットが変換された、テキストデータを含むファイルである場合(ステップS103でYES)、ステップS102の処理に進む。PDFファイルへの変換処理では、元のファイルに含まれているテキストデータは保持されるため、変換後のPDFファイルに含まれるテキストデータは、文字認識処理をされていない、正しいテキストデータである。そのため、この処理により、例えば、文書等のファイルがPDFに変換されたファイルを処理対象とする場合、当該文書等に含まれていた元のテキストデータと同一のテキストデータを利用することができる。   If the file is a file containing text data whose format has been converted (YES in step S103), the process proceeds to step S102. In the process of converting to a PDF file, the text data included in the original file is retained, so the text data included in the converted PDF file is correct text data that has not been subjected to character recognition processing. For this reason, for example, when a file such as a document is converted to PDF by this processing, the same text data as the original text data included in the document or the like can be used.

ファイルのフォーマットが変換された、テキストデータを含むファイルでない場合(ステップS103でNO)、当該ファイルに含まれるテキストデータを利用しないと判定し(ステップS104)、処理を終了する。これにより、PDFファイルに含まれているテキストデータの文字認識の精度が担保できない場合に、当該テキストデータを利用せず、サーバ装置200で文字認識したテキストデータを利用することができる。   If the format of the file is not a file containing text data that has been converted (NO in step S103), it is determined that the text data included in the file is not used (step S104), and the process ends. Accordingly, when the accuracy of character recognition of text data included in the PDF file cannot be ensured, the text data recognized by the server device 200 can be used without using the text data.

次に、図13を参照して、第1の実施形態に係る項目抽出部277の処理について説明する。図13は、第1の実施形態に係る項目抽出部の処理を説明するフローチャートである。図13は、図11BのステップS1110の処理の詳細を示している。   Next, with reference to FIG. 13, a process of the item extracting unit 277 according to the first embodiment will be described. FIG. 13 is a flowchart illustrating a process of the item extraction unit according to the first embodiment. FIG. 13 shows details of the process of step S1110 in FIG. 11B.

実施形態に係る処理部270は、読取結果情報が保持されると、定義特定部276により、種別判定データベース240から、読取結果情報に含まれる識別文字列と対応する定義IDを抽出する(ステップS1201)。   When the reading result information is held, the processing unit 270 according to the embodiment extracts the definition ID corresponding to the identification character string included in the reading result information from the type determination database 240 by the definition specifying unit 276 (step S1201). ).

続いて、定義特定部276は、抽出した定義IDの中に、定義種別が個社定義情報である定義IDが存在するか否かを判定する(ステップS1202)。つまり、ここでは、読取結果情報に含まれる識別文字列が示す種類の帳票に対して、個社定義情報252が登録されているか否かを判定している。   Next, the definition specifying unit 276 determines whether a definition ID whose definition type is individual company definition information exists in the extracted definition IDs (step S1202). That is, here, it is determined whether or not the individual company definition information 252 has been registered for the form of the type indicated by the identification character string included in the read result information.

ステップS1202において、該当する定義IDが存在しない場合、この種類の帳票には、利用者固有のレイアウトを定義した個社定義情報252は登録されていないため、項目抽出部277は、処理を終了し、図11AのステップS1109へ進む。   If there is no corresponding definition ID in step S1202, since the individual company definition information 252 defining the user-specific layout is not registered in this type of form, the item extraction unit 277 ends the processing. Then, the process proceeds to step S1109 in FIG. 11A.

ステップS1202において、該当する定義IDが存在する場合、定義特定部276は、帳票定義データベース250を参照し、定義IDを含む個社定義情報252を特定する(ステップS1203)。該当する定義IDが存在する場合とは、この帳票は、利用者固有のレイアウトである場合である。   If a corresponding definition ID exists in step S1202, the definition specifying unit 276 refers to the form definition database 250 and specifies individual company definition information 252 including the definition ID (step S1203). The case where the corresponding definition ID exists is a case where this form has a layout unique to the user.

続いて、項目抽出部277は、特定された個社定義情報に基づき、読取結果情報から、項目と、項目の値とを抽出し、対応付ける(ステップS1204)。   Subsequently, the item extracting unit 277 extracts an item and a value of the item from the read result information based on the specified individual company definition information, and associates the item with the item value (step S1204).

尚、ステップS1109における特定定義情報を用いた項目と項目の値の抽出処理と、ステップS1110における汎用定義情報251を用いた項目と項目の値の抽出処理とは、ステップS1108の個社定義情報が、特定定義情報又は汎用定義情報となること以外は同様であるから、説明を省略する。   The item and item value extraction processing using the specific definition information in step S1109 and the item and item value extraction processing using the general definition information 251 in step S1110 are the same as those in step S1108. The description is omitted because it is the same except that it becomes the specific definition information or the general definition information.

ここで、第1の実施形態に係る認識結果データの生成について説明する。図14Bは、第1の実施形態に係る読取結果情報の一例を示す図である。   Here, generation of recognition result data according to the first embodiment will be described. FIG. 14B is a diagram illustrating an example of the reading result information according to the first embodiment.

図14Bに示す読取結果情報130は、例えば、ある請求書のPDFファイルから文字フィールドを切り取り、文字フィールドの中の文字を認識した結果と、文字の位置を示す座標とから抽出されたものである。   The read result information 130 shown in FIG. 14B is, for example, extracted from a result of cutting out a character field from a PDF file of a certain bill, recognizing a character in the character field, and coordinates indicating the position of the character. .

この読取結果情報130には、文字列「請求書」、「R社」、「計」、「12,960」が存在している。ここで、定義特定部276は、種別判定データベース240を参照し、読取結果情報130に含まれる文字列が識別文字列とされた定義IDを抽出する。この場合、定義ID「H01」、「A01」が抽出される(図3参照)。   The read result information 130 includes character strings “invoice”, “R company”, “total”, and “12,960”. Here, the definition specifying unit 276 refers to the type determination database 240 and extracts the definition ID in which the character string included in the read result information 130 is the identification character string. In this case, the definition IDs “H01” and “A01” are extracted (see FIG. 3).

次に、定義特定部276は、抽出された定義IDのうち、対応する定義種別が、個社定義情報である定義IDを特定する。ここでは、定義ID「A01」が特定される。つまり、読取結果情報130が抽出された帳票は、定義ID「A01」の個社定義情報が設定された帳票であることがわかる。   Next, the definition specifying unit 276 specifies a definition ID whose corresponding definition type is individual company definition information among the extracted definition IDs. Here, the definition ID “A01” is specified. That is, it is understood that the form from which the read result information 130 is extracted is a form in which the individual company definition information of the definition ID “A01” is set.

次に、項目抽出部277は、帳票定義データベース250において、定義ID「A01」の個社定義情報252を参照する(図6参照)。   Next, the item extracting unit 277 refers to the company definition information 252 of the definition ID “A01” in the form definition database 250 (see FIG. 6).

個社定義情報252では、請求額を示す項目である項目ID「2」の項目「計」の下の領域にある文字列が、項目名「計」の値であることが定義されている。したがって、項目抽出部277は、読取結果情報130に含まれる文字列「計」を項目名「計」とし、この文字列「計」の下の領域にある文字列「12,960」を項目名「計」の値として、抽出する。   In the individual company definition information 252, it is defined that the character string in the area below the item “Total” of the item ID “2”, which is the item indicating the billing amount, is the value of the item name “Total”. Therefore, the item extracting unit 277 sets the character string “total” included in the read result information 130 as the item name “total”, and replaces the character string “12,960” in the area below the character string “total” with the item name. Extract as the value of "Total".

項目抽出部277は、このようにして、個社定義情報252に定義されている各項目名に対応する文字列と、項目の値となる文字列とを読取結果情報130から抽出する。   The item extracting unit 277 extracts a character string corresponding to each item name defined in the individual company definition information 252 and a character string serving as an item value from the read result information 130 in this manner.

項目抽出部277により、個社定義情報252に定義されている項目名と項目の値との抽出が終了すると、次に、定義特定部276は、抽出された定義IDのうち、対応する定義種別が、特定定義情報である定義IDの有無を判定する。   When the item extraction unit 277 completes the extraction of the item name and the item value defined in the individual company definition information 252, the definition specifying unit 276 next sets the corresponding definition type in the extracted definition ID. Determines whether there is a definition ID that is the specific definition information.

ここでは、該当する定義IDは存在しない。つまり、読取結果情報130が抽出された帳票について、特定定義情報は定義されていないことがわかる。   Here, there is no corresponding definition ID. That is, it is understood that the specific definition information is not defined for the form from which the read result information 130 is extracted.

次に、定義特定部276は、抽出された定義IDのうち、対応する定義種別が、汎用定義情報である定義IDの有無を判定する。この場合、定義ID「A01」が特定される。つまり、読取結果情報130が抽出された帳票は、定義ID「H01」の汎用定義情報によっても定義されていることがわかる。   Next, the definition specifying unit 276 determines whether the corresponding definition type among the extracted definition IDs has a definition ID that is general-purpose definition information. In this case, the definition ID “A01” is specified. That is, it is understood that the form from which the read result information 130 is extracted is also defined by the general definition information of the definition ID “H01”.

ここで、項目抽出部277は、定義ID「A01」の汎用定義情報251を参照する(図5参照)。そして、項目抽出部277は、個社定義情報252を参照したときと同様に、汎用定義情報251に定義されている項目名と項目の値とを抽出する。   Here, the item extracting unit 277 refers to the general definition information 251 of the definition ID “A01” (see FIG. 5). Then, the item extracting unit 277 extracts the item name and the item value defined in the general definition information 251 in the same manner as when referring to the individual company definition information 252.

尚、汎用定義情報251では、文書種別「請求書」の帳票に含まれる全ての項目名と項目の値について定義されているため、汎用定義情報251を参照した場合、個社定義情報252で定義されていなかった項目名と項目の値とが抽出される。   In the general definition information 251, since all item names and item values included in the document of the document type “invoice” are defined, when the general definition information 251 is referred to, it is defined in the individual company definition information 252. The item name and the item value that have not been set are extracted.

また、個社定義情報252とは異なり、汎用定義情報251では、請求額を示す項目である項目ID「2」の項目「合計」の右下の領域にある文字列が、項目名「合計」の値であることが定義されている。ここでは、読取結果情報130には、文字列「合計」が含まれていないため、項目抽出部277は、項目IDが「2」の項目の値が「空」と判断する。   Also, unlike the individual company definition information 252, in the general definition information 251, the character string in the lower right area of the item “total” of the item ID “2”, which is the item indicating the billing amount, is the item name “total” Is defined. Here, since the read result information 130 does not include the character string “total”, the item extracting unit 277 determines that the value of the item whose item ID is “2” is “empty”.

仮に読取結果情報130には文字列「合計」が含まれている場合には、項目抽出部277は、読取結果情報130に含まれる文字列「合計」を項目名「合計」とし、この文字列「合計」の右下の領域にある文字列を項目名「合計」の値として抽出する。   If the read result information 130 includes the character string “total”, the item extracting unit 277 sets the character string “total” included in the read result information 130 to the item name “total”, and The character string in the lower right area of “total” is extracted as the value of the item name “total”.

このように、本実施形態では、異なる種類の帳票定義情報を参照し、それぞれの帳票定義情報に基づいて、項目名と項目の値とが抽出される。   As described above, in the present embodiment, item names and item values are extracted based on different types of form definition information with reference to different types of form definition information.

以下に、項目抽出部277による、マージする処理について説明する。実施形態に係る表示画面生成部278では、同一の項目IDについて、異なる種類の帳票定義情報のそれぞれから項目名と項目の値とが抽出された場合、優先度の高い種類の帳票定義情報から抽出された項目名と項目の値を採用して、認識結果データを生成する。   Hereinafter, the merging process performed by the item extracting unit 277 will be described. In the display screen generation unit 278 according to the embodiment, when the item name and the item value are extracted from each of the different types of form definition information for the same item ID, the items are extracted from the high-priority type form definition information. The recognition result data is generated by using the item names and the item values thus set.

本実施形態では、汎用定義情報、個社定義情報、特定定義情報のうち、個社定義情報の優先度を最も高くしている。これは、個社定義情報は、利用者が固有に設定した定義であり、最も優先して参照されるべき定義だからである。   In the present embodiment, of the general definition information, individual company definition information, and specific definition information, the individual company definition information has the highest priority. This is because the individual company definition information is a definition uniquely set by the user, and is a definition to be referred to with the highest priority.

また、本実施形態では、個社定義情報の次に、特定定義情報の優先度を高くし、汎用定義情報の優先度を最も低くしている。   Further, in the present embodiment, the priority of the specific definition information is set high next to the individual company definition information, and the priority of the general definition information is set lowest.

したがって、例えば、3種類の帳票定義情報のそれぞれから、項目名と項目の値とが抽出された場合には、個社定義情報に基づき抽出された項目名と項目の値とが採用される。   Therefore, for example, when an item name and an item value are extracted from each of the three types of form definition information, the item name and the item value extracted based on the individual company definition information are adopted.

具体的には、例えば、汎用定義情報251と個社定義情報252のそれぞれには、項目ID「2」の項目について定義がされている。   Specifically, for example, the item of item ID “2” is defined in each of the general definition information 251 and the individual company definition information 252.

したがって、本実施形態では、項目ID「2」の項目について、汎用定義情報251にしたがって抽出された項目名と項目の値と、個社定義情報252にしたがって抽出された項目名と項目の値とが存在する。   Therefore, in the present embodiment, for the item of item ID “2”, the item name and item value extracted according to the general definition information 251 and the item name and item value extracted according to the individual company definition information 252 are Exists.

この場合、項目抽出部277は、項目ID「2」の項目については、個社定義情報252にしたがって抽出された項目名と項目の値とを、認識結果データの生成に使用する。具体的に、個社定義情報252にしたがって文字列「12,960」が項目の値として抽出され、汎用定義情報251にしたがって項目の値が「空」と判断され、項目抽出部277は、優先度の高い個社定義情報252から抽出された「12,960」を、認識結果データの生成に使用する。   In this case, for the item with the item ID “2”, the item extracting unit 277 uses the item name and the item value extracted according to the individual company definition information 252 to generate recognition result data. Specifically, the character string “12,960” is extracted as an item value according to the individual company definition information 252, and the item value is determined to be “empty” according to the general definition information 251. “12,960” extracted from the individual company definition information 252 having a high degree is used for generating recognition result data.

一般的に請求書では、請求額を示す項目の項目名として「合計」が使用されているため、汎用定義情報251では、項目「合計」が設定されている。一方で、利用者Aに対するR社からの請求書は、「合計」ではなく、「計」が項目名として使用されているため、汎用定義情報251を用いてこのような請求書の請求額を認識できない。従って、利用者Aに対するR社からの請求書から請求額を抽出するために、項目「計」が設定された利用者A固有の個社定義情報252が必要である。   In general, in the invoice, “total” is used as the item name of the item indicating the amount to be charged, so the item “total” is set in the general definition information 251. On the other hand, since the invoice from Company R for user A uses “total” instead of “total” as an item name, the invoice amount of such an invoice is reduced using the general-purpose definition information 251. I can't recognize. Therefore, in order to extract the bill from the bill for the user A from the company R, the individual company definition information 252 unique to the user A in which the item “total” is set is required.

さらに、一般的な請求書に比べて、利用者Aに対するR社からの請求書では、請求額を示す項目の項目名として「合計」を使用されているが、項目値が記載された位置が異なる場合に、利用者A固有の個社定義情報252における項目「合計」の方向、距離などの項目値を、汎用定義情報251とは異なるものに設定すれば良い。   Furthermore, in comparison with a general invoice, in the invoice from Company R for user A, “Total” is used as the item name of the item indicating the amount charged, but the position where the item value is described is If different, the item values such as the direction and distance of the item “total” in the individual company definition information 252 unique to the user A may be set to be different from the general definition information 251.

また、汎用定義情報251に定義されている項目ID「10」の項目については、個社定義情報252では定義されていない。したがって、項目ID「10」の項目については、汎用定義情報251にしたがった項目名と項目の値のみが抽出される。よって、表示画面生成部278は、項目ID「10」の項目については、汎用定義情報251にしたがって抽出された項目名と項目の値とを、認識結果データの生成に使用する。   The item with the item ID “10” defined in the general definition information 251 is not defined in the individual company definition information 252. Therefore, for the item with the item ID “10”, only the item name and the item value according to the general definition information 251 are extracted. Therefore, for the item having the item ID “10”, the display screen generating unit 278 uses the item name and the item value extracted according to the general definition information 251 to generate the recognition result data.

このように、本実施形態では、複数種類の帳票定義情報に対して優先度を付与し、各帳票定義情報にしたがって抽出された項目名と項目の値のうち、優先度が最も高い帳票定義情報にしたがって抽出された項目名と項目の値とを使用して、帳票画像の認識結果となる認識結果データを生成する。   As described above, in the present embodiment, priorities are given to a plurality of types of form definition information, and among the item names and item values extracted according to each form definition information, the form definition information having the highest priority is set. Using the item names and the item values extracted according to the above, recognition result data which is a recognition result of the form image is generated.

図15Aは、第1の実施形態に係る認識結果確認画面の一例を示す図である。図15Aに示す画面140は、端末装置400に表示された画面の例であり、帳票を認識した結果として生成された認識結果が表示されている。   FIG. 15A is a diagram illustrating an example of a recognition result confirmation screen according to the first embodiment. A screen 140 illustrated in FIG. 15A is an example of a screen displayed on the terminal device 400, in which a recognition result generated as a result of recognizing a form is displayed.

画面140には、画像形成装置300が読み取った帳票画像141と、処理部270によって抽出された項目と項目の値とを対応付けた情報142とが表示されている。また、画面140には、登録ボタン143が表示されている。利用者は、帳票画像141を参照し、表示されている項目と項目の値とをチェックし、必要に応じて項目の値を修正する。そして、登録ボタン143が選択されると、修正後の項目の値が認識結果データに登録される。   The screen 140 displays a form image 141 read by the image forming apparatus 300 and information 142 that associates items extracted by the processing unit 270 with item values. In addition, a registration button 143 is displayed on the screen 140. The user refers to the form image 141, checks the displayed items and the values of the items, and corrects the values of the items as necessary. Then, when the registration button 143 is selected, the value of the item after correction is registered in the recognition result data.

本実施形態では、例えば、この登録ボタン143が選択されると、帳票画像141を示す画像データと、情報142とが基幹システム500等に格納されても良い。また、利用者は、認識結果確認画面を介して、登録した認識結果データをダウンロードして、基幹システム500の操作画面を介して、基幹システムに登録してもよい。   In the present embodiment, for example, when the registration button 143 is selected, the image data indicating the form image 141 and the information 142 may be stored in the core system 500 or the like. In addition, the user may download the registered recognition result data via the recognition result confirmation screen and register it in the backbone system via the operation screen of the backbone system 500.

また、画面140では、帳票画像141を認識する際に参照された帳票定義情報を示す情報144が表示されていても良い。本実施形態では、この情報144を表示させることで、帳票画像141が、どの種類の帳票定義情報を用いて認識されたかを、利用者に通知できる。   Further, on the screen 140, information 144 indicating the form definition information referred to when recognizing the form image 141 may be displayed. In the present embodiment, by displaying this information 144, it is possible to notify the user of what type of form definition information the form image 141 has been recognized using.

以下に、本実施形態の認識結果データの一例を示す。図15Bは、認識結果データの一例を示す図である。   Hereinafter, an example of the recognition result data of the present embodiment is shown. FIG. 15B is a diagram illustrating an example of the recognition result data.

図15Bに示す認識結果データ151では、帳票画像データに含まれる項目と、項目の値とを抽出して対応付けを行い、項目の項目IDと、項目の値とを対応付けた結果が、XML形式で記述されている。   In the recognition result data 151 shown in FIG. 15B, the items included in the form image data and the item values are extracted and associated with each other, and the result of associating the item IDs of the items with the item values is XML. It is described in the format.

本実施形態では、この認識結果データ151が生成されて認識結果データベース260に格納されると、この格納先が、ジョブリスト101の項目「認識結果ファイルパス」の値とされる。   In the present embodiment, when the recognition result data 151 is generated and stored in the recognition result database 260, the storage destination is set to the value of the item “recognition result file path” of the job list 101.

第2の実施形態では、サーバ装置200が、画像形成装置300、及び端末装置400から受信したファイルから、当該ファイルの内容が翻訳されたテキストデータを生成する例について説明する。なお、第2の実施形態は一部を除いて第1の実施形態と同様であるため、適宜説明を省略する。以下では、第1の実施形態と共通する部分については説明を省略し、異なる部分についてのみ説明する。   In the second embodiment, an example will be described in which the server apparatus 200 generates, from a file received from the image forming apparatus 300 and the terminal apparatus 400, text data in which the content of the file is translated. Note that the second embodiment is the same as the first embodiment except for a part, and thus the description will be appropriately omitted. In the following, description of parts common to the first embodiment will be omitted, and only different parts will be described.

次に、図16を参照して、第2の実施形態に係る処理部270の処理について説明する。図16は、第2の実施形態に係る処理部270の処理を説明するフローチャートである。   Next, with reference to FIG. 16, the processing of the processing unit 270 according to the second embodiment will be described. FIG. 16 is a flowchart illustrating the processing of the processing unit 270 according to the second embodiment.

処理部270は、PDFファイルデータベース230からPDFファイルを取得し(ステップS1601)、取得したPDFファイルに、テキストデータが含まれているか否かを判定する(ステップS1602)。   The processing unit 270 acquires a PDF file from the PDF file database 230 (step S1601), and determines whether the acquired PDF file includes text data (step S1602).

テキストデータが含まれていない場合(ステップS1602でNO)、ステップS1605の処理に進む。   If text data is not included (NO in step S1602), the process advances to step S1605.

一方、テキストデータが含まれている場合(ステップS1602でYES)、当該テキストデータを利用するか否かを判定する(ステップS1603)。   If text data is included (YES in step S1602), it is determined whether to use the text data (step S1603).

当該テキストデータを利用する場合(ステップS1603でYES)、処理部270は、当該テキストデータを処理対象のテキストデータ(「第1テキストデータ」の一例。)として保持し(ステップS1604)、後述するステップS1610の処理に進む。当該テキストデータを利用しない場合(ステップS1603でNO)、処理部270は、前処理部274により、PDFファイルをpng、またはjpeg形式等の画像に変換する(ステップS1605)。   If the text data is to be used (YES in step S1603), the processing unit 270 holds the text data as text data to be processed (an example of “first text data”) (step S1604), and a process to be described later. The process proceeds to S1610. If the text data is not used (NO in step S1603), the processing unit 270 causes the preprocessing unit 274 to convert the PDF file into an image in a png or jpeg format (step S1605).

続いて、前処理部274は、1ページ分の画像を選択し(ステップS1606)、前処理を行う(ステップS1607)。   Subsequently, the preprocessing unit 274 selects an image for one page (step S1606), and performs preprocessing (step S1607).

続いて、処理部270は、文字認識部275により、画像から、文字が形成されている領域(以下、文字フィールド)を切り取る(ステップS1608)。続いて、処理部270は、文字認識部275により、切り取られた文字フィールドの中の文字を切り取り、文字認識し、文字認識の結果を処理対象のテキストデータ(「第2テキストデータ」の一例。)として保持する(ステップS1609)。   Next, the processing unit 270 causes the character recognition unit 275 to cut out an area in which characters are formed (hereinafter, a character field) from the image (step S1608). Subsequently, the processing unit 270 cuts out the characters in the cut-out character field by the character recognition unit 275, performs character recognition, and processes the result of the character recognition as text data to be processed (an example of “second text data”. ) (Step S1609).

続いて、処理部270は、処理対象のテキストデータに含まれる各文字の位置関係に基づいて読取結果情報を生成する(ステップS1610)。   Subsequently, the processing unit 270 generates read result information based on the positional relationship of each character included in the text data to be processed (step S1610).

なお、ステップS1601からステップS1610の処理は、図11A、及び図11BのステップS1101からステップS1110の処理と同様でもよい。   Note that the processing from step S1601 to step S1610 may be the same as the processing from step S1101 to step S1110 in FIGS. 11A and 11B.

続いて、処理部270は、読取結果情報の翻訳を行い(ステップS1611)、翻訳結果を端末装置400に出力する(ステップS1612)。これにより、例えば、ユーザは、所定のWebサイト等から取得した英語等の論文のPDFファイルをサーバ装置200にアップロードすると、当該論文が日本語等に翻訳されたデータを取得できる。   Subsequently, the processing unit 270 translates the read result information (step S1611), and outputs the translation result to the terminal device 400 (step S1612). Thus, for example, when a user uploads a PDF file of a paper in English or the like obtained from a predetermined Web site or the like to the server device 200, the user can obtain data in which the paper is translated into Japanese or the like.

≪テキストデータの利用判定処理≫
次に、図17、及び図18を参照し、図11AのステップS1102の、テキストデータの利用判定処理の一例について説明する。図17は、実施形態に係るテキストデータの利用判定処理の一例を示すフローチャートである。図18は、実施形態に係る端末装置400の設定画面の一例について説明する図である。なお、処理部270は、図17の処理を、上述した図12の処理と適宜組み合わせて実行してもよい。
利用 Usage judgment processing of text data≫
Next, an example of the text data use determination processing in step S1102 of FIG. 11A will be described with reference to FIGS. FIG. 17 is a flowchart illustrating an example of text data use determination processing according to the embodiment. FIG. 18 is a diagram illustrating an example of a setting screen of the terminal device 400 according to the embodiment. Note that the processing unit 270 may execute the processing in FIG. 17 in combination with the processing in FIG.

ステップS1701において、処理部270は、例えば、取得したPDFファイルの属性情報(メタデータ)から、PDF以外の形式のデータであって、取得したPDFファイルの変換元となるデータであるオリジナルデータを作成した第1ツール(アプリケーションプログラム)を示す情報と、当該オリジナルデータをPDFファイルに変換した第2ツールを示す情報とを取得する。   In step S1701, the processing unit 270 creates, for example, original data that is data in a format other than PDF and that is data to be converted from the acquired PDF file, from the attribute information (metadata) of the acquired PDF file. Information indicating the first tool (application program) thus obtained and information indicating the second tool obtained by converting the original data into a PDF file are acquired.

なお、ISO 32000-1規格で規定されたPDFのデータ構造では、PDFファイルには、ヘッダー、ボディー、クロスリファレンス・テーブル、及びトレイラー(Trailer)の情報が含まれる。また、PDFファイルのトレイラーには、「Info」項目に文書情報(Document Information) ディクショナリのメタデータが含まれている。   In the PDF data structure defined by the ISO 32000-1 standard, the PDF file includes information of a header, a body, a cross reference table, and a trailer. Further, the trailer of the PDF file includes metadata of a document information (Document Information) dictionary in an “Info” item.

処理部270は、例えば、文書情報ディクショナリに含まれる各メタデータのうち、「Creator」項目に対応付けられた、「PDF以外の形式から変換した場合に、そのオリジナルの作成ツール(第1ファイルのフォーマットが変換されて生成されたPDFファイルである場合の当該第1ファイルを作成したツール)」を示す情報を、当該第1ツールを示す情報として取得してもよい。   The processing unit 270, for example, when converting from a format other than PDF associated with the "Creator" item among the metadata included in the document information dictionary, the original creation tool (the first file of the first file) (A tool that created the first file when the format is a PDF file generated by conversion)) may be acquired as information indicating the first tool.

また、処理部270は、例えば、文書情報ディクショナリに含まれる各メタデータのうち、「Producer」項目に対応付けられた、「PDF以外の形式から変換した場合に、その変換ツール(第3ファイルのフォーマットが変換されて生成されたPDFファイルである場合の当該第3ファイルをPDFファイルに変換したツール)」を示す情報を、当該第2ツールを示す情報として取得してもよい。   Further, for example, when converting from a format other than PDF associated with the “Producer” item among the metadata included in the document information dictionary, the processing unit 270 may use the conversion tool (for the third file). (A tool that converts the third file into a PDF file when the format is a PDF file generated by conversion)) may be acquired as information indicating the second tool.

続いて、処理部270は、PDFファイルに含まれるテキストデータの作成ツールとして許可されている第3ツールを示す情報と、当該テキストデータの変換ツールとして許可されている第4ツールを示す情報とを取得する(ステップS1702)。ここで、当該第3ツール、及び当該第4ツールは、予め設定されていてもよい。また、当該第3ツール、及び当該第4ツールは、端末装置400のユーザにより予め設定されてもよい。また、当該第3ツールを示すキーワード、及び当該キーワードと第1ツールを示す情報との一致を判定する条件とが設定されていてもよい。一致を判定する条件としては、例えば、部分一致、完全一致、前方一致、及び後方一致等が設定されてもよい。また、同様に、当該第4ツールを示すキーワード、及び当該キーワードと第2ツールを示す情報との一致を判定する条件とが設定されていてもよい。   Subsequently, the processing unit 270 converts information indicating a third tool permitted as a tool for creating text data included in the PDF file and information indicating a fourth tool permitted as a conversion tool for the text data. It is acquired (step S1702). Here, the third tool and the fourth tool may be set in advance. Further, the third tool and the fourth tool may be set in advance by a user of the terminal device 400. Further, a keyword indicating the third tool and a condition for determining whether the keyword matches information indicating the first tool may be set. As a condition for determining a match, for example, a partial match, a perfect match, a front match, a back match, or the like may be set. Similarly, a keyword indicating the fourth tool and a condition for determining whether the keyword matches information indicating the second tool may be set.

図18の例では、端末装置400は、表示画面1801において、作成ツールに関する条件設定1802、変換ツールに関する条件設定1803、及び「決定」ボタン1804を表示させている。図18の例では、作成ツールに関する条件設定1802において、第3ツールを示すキーワードとして「Excel」、及び「Word」がユーザにより指定され、各キーワードと第1ツールを示す情報との一致を判定する条件として「部分一致」が指定されている。   In the example of FIG. 18, the terminal device 400 displays on the display screen 1801 a condition setting 1802 relating to a creation tool, a condition setting 1803 relating to a conversion tool, and a “OK” button 1804. In the example of FIG. 18, “Excel” and “Word” are specified by the user as keywords indicating the third tool in the condition setting 1802 for the creation tool, and it is determined whether each keyword matches the information indicating the first tool. "Partial match" is specified as a condition.

また、同様に、変換ツールに関する条件設定1803において、第4ツールを示すキーワードとして「Excel」、及び「Word」がユーザにより指定され、各キーワードと第2ツールを示す情報との一致を判定する条件として「部分一致」が指定されている。「決定」ボタン1804が押下されると、端末装置400は、ユーザにより指定された、作成ツールに関する条件設定1802、及び変換ツールに関する条件設定1803の情報をサーバ装置200に送信する。そして、サーバ装置200は、ユーザにより指定された設定情報を記憶しておく。   Similarly, in the condition setting 1803 relating to the conversion tool, “Excel” and “Word” are specified by the user as keywords indicating the fourth tool, and a condition for determining whether each keyword matches information indicating the second tool is determined. "Partial match" is specified. When the “OK” button 1804 is pressed, the terminal device 400 transmits to the server device 200 information on the condition setting 1802 relating to the creation tool and the condition setting 1803 relating to the conversion tool designated by the user. Then, the server device 200 stores the setting information specified by the user.

続いて、処理部270は、作成ツールが許可されているか否かを判定する(ステップS1703)。ここで、処理部270は、ステップS1701で取得した第1ツールが、ステップS1702で取得した第3ツールと合致する場合に、作成ツールが許可されていると判定する。   Subsequently, the processing unit 270 determines whether the creation tool is permitted (step S1703). Here, when the first tool acquired in step S1701 matches the third tool acquired in step S1702, processing unit 270 determines that the creation tool is permitted.

この場合、処理部270は、例えば、第1ツールを示す情報が「Microsoft Word 2016 Professional」であり、第3ツールを示す情報が「Excel」、及び「Word」であり、指定された条件が「部分一致」である場合、第1ツールが第3ツールと合致すると判定してもよい。   In this case, for example, the processing unit 270 determines that the information indicating the first tool is “Microsoft Word 2016 Professional”, the information indicating the third tool is “Excel” and “Word”, and the specified condition is “ If "partial match", it may be determined that the first tool matches the third tool.

作成ツールが許可されている場合(ステップS1703でYES)、処理部270は、当該ファイルに含まれるテキストデータを利用すると判定し(ステップS1704)、処理を終了する。   If the creation tool is permitted (YES in step S1703), processing unit 270 determines to use the text data included in the file (step S1704), and ends the process.

一方、作成ツールが許可されていない場合(ステップS1703でNO)、処理部270は、変換ツールが許可されているか否かを判定する(ステップS1705)。ここで、処理部270は、ステップS1701で取得した第2ツールが、ステップS1702で取得した第4ツールと合致する場合に、変換ツールが許可されていると判定する。   On the other hand, if the creation tool is not permitted (NO in step S1703), the processing unit 270 determines whether the conversion tool is permitted (step S1705). Here, when the second tool acquired in step S1701 matches the fourth tool acquired in step S1702, processing unit 270 determines that the conversion tool is permitted.

この場合、処理部270は、例えば、第2ツールを示す情報が「Microsoft Word 2016 Professional」であり、第4ツールを示す情報が「Excel」、及び「Word」であり、指定された条件が「部分一致」である場合、第2ツールが第4ツールと合致すると判定してもよい。また、処理部270は、例えば、第2ツールを示す情報が「PDF Easy Parse」であり、第4ツールを示す情報が「Excel」、及び「Word」であり、指定された条件が「部分一致」である場合、第2ツールが第4ツールと合致しないと判定してもよい。   In this case, for example, the processing unit 270 determines that the information indicating the second tool is “Microsoft Word 2016 Professional”, the information indicating the fourth tool is “Excel” and “Word”, and the designated condition is “ If "partial match", it may be determined that the second tool matches the fourth tool. Further, the processing unit 270 determines that the information indicating the second tool is “PDF Easy Parse”, the information indicating the fourth tool is “Excel” and “Word”, and the designated condition is “partial match”. , It may be determined that the second tool does not match the fourth tool.

変換ツールが許可されている場合(ステップS1705でYES)、処理部270は、ステップS1704の処理に進む。一方、変換ツールが許可されていない場合(ステップS1705でNO)、処理部270は、当該ファイルに含まれるテキストデータを利用しないと判定し(ステップS1706)、処理を終了する。これにより、変換後のPDFファイルに付加されるテキストデータの精度が担保できないオリジナルデータの作成ツール、及び変換ツールが利用された場合に、当該テキストデータを利用せず、サーバ装置200で文字認識したテキストデータを利用することができる。   If the conversion tool is permitted (YES in step S1705), processing unit 270 proceeds to the process in step S1704. On the other hand, if the conversion tool is not permitted (NO in step S1705), processing unit 270 determines that text data included in the file is not used (step S1706), and ends the process. As a result, when the original data creation tool and the conversion tool that cannot guarantee the accuracy of the text data added to the converted PDF file are used, the server apparatus 200 recognizes characters without using the text data. Text data can be used.

<変形例>
サーバ装置200の各機能部は、例えば1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、サーバ装置200と端末装置400とを一体の構成としてもよい。また、端末装置400、及び画像形成装置300の機能の少なくとも一部を、サーバ装置200が有する構成としてもよい。
<Modification>
Each functional unit of the server device 200 may be realized by, for example, cloud computing including one or more computers. Further, the server device 200 and the terminal device 400 may be integrated. Further, the server device 200 may have at least a part of the functions of the terminal device 400 and the image forming device 300.

<実施形態のまとめ>
従来、例えば、FAXで送信された請求書を印刷した紙文書を電子化(例えば、PDF化)して、文字認識及び帳票認識が行われていた。近年、FAXの代わりに、文書作成ソフト等で作成した請求書をPDF化して、電子メールで送信するケースが増加している。
<Summary of Embodiment>
Conventionally, for example, a paper document on which a bill transmitted by facsimile is printed is digitized (for example, converted to PDF), and character recognition and form recognition are performed. 2. Description of the Related Art In recent years, invoices created by document creation software or the like have been converted to PDF and sent by e-mail instead of FAX.

一方で、従来の帳票認識方法では、例えば、文字によって(例えば、半角カナなど)認識率が低い場合があった。   On the other hand, in the conventional form recognition method, for example, the recognition rate may be low depending on characters (for example, half-width kana).

例えば、文書作成ソフト等で作成された請求書がPDF化される場合、このPDF化されたファイルに含まれるテキストデータは100%正確であるとも言える。上述した各実施形態によれば、サーバ装置200は、処理対象のファイルが、ファイルのフォーマットが変換された、テキストデータを含むファイル等の場合、当該ファイルに含まれるテキストデータを用いて帳票認識等の処理を行う。これにより、より精度が高いテキストデータを利用可能とすることができる。また、サーバ装置200は、処理対象のファイルが、例えば、印刷物が光学的に読み込まれて作成された画像から文字認識された第1テキストデータを含むファイル等の場合、当該ファイルを文字認識して第2テキストデータを生成し、当該第2テキストデータを利用して帳票認識等の処理を行う。   For example, when an invoice created by document creation software or the like is converted to PDF, it can be said that the text data included in the converted PDF file is 100% accurate. According to each of the above-described embodiments, when the file to be processed is a file including text data in which the format of the file has been converted, the server device 200 performs form recognition or the like using the text data included in the file. Is performed. This makes it possible to use more accurate text data. In addition, when the file to be processed is, for example, a file including first text data in which characters are recognized from an image created by reading a printed matter optically, the server 200 performs character recognition on the file. The second text data is generated, and processing such as form recognition is performed using the second text data.

以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。   As described above, the present invention has been described based on the embodiments. However, the present invention is not limited to the requirements described in the above embodiments. Regarding these points, the gist of the present invention can be changed within a range that does not impair the gist, and can be appropriately determined according to the application form.

100 情報処理システム
200 サーバ装置
210 記憶部
220 制御部
221 入力受付部(「取得部」の一例。)
230 PDFファイルデータベース
240 種別判定データベース
250 帳票定義データベース
260 認識結果データベース
270 処理部
271 データ格納部
272 ジョブリスト生成部
274 前処理部
275 文字認識部
276 定義特定部
277 項目抽出部
278 表示画面生成部
279 出力部
300 画像形成装置
400 端末装置
500 基幹システム
REFERENCE SIGNS LIST 100 information processing system 200 server device 210 storage unit 220 control unit 221 input reception unit (an example of “acquisition unit”)
230 PDF file database 240 Type judgment database 250 Form definition database 260 Recognition result database 270 Processing unit 271 Data storage unit 272 Job list generation unit 274 Preprocessing unit 275 Character recognition unit 276 Definition specifying unit 277 Item extraction unit 278 Display screen generation unit 279 Output unit 300 Image forming device 400 Terminal device 500 Core system

特開2016−051339号公報JP-A-2006-051339

Claims (13)

第1テキストデータを含むファイルを取得する取得部と、
前記取得部により取得されるファイルに含まれる画像を文字認識して生成される第2テキストデータを用いて所定の処理を行うか、前記第1テキストデータを用いて前記所定の処理を行うかを、前記取得部により取得されるファイルに基づいて決定する処理部と、を有する情報処理装置。
An acquisition unit for acquiring a file including the first text data;
Whether to perform predetermined processing using second text data generated by character recognition of an image included in a file acquired by the acquisition unit or to perform the predetermined processing using the first text data. An information processing apparatus comprising: a processing unit that determines based on a file acquired by the acquisition unit.
前記取得部により取得されるファイルは、PDF(Portable Document Format)のデータである、
請求項1に記載の情報処理装置。
The file acquired by the acquisition unit is PDF (Portable Document Format) data.
The information processing device according to claim 1.
前記処理部は、前記取得部により取得されるファイルが、テキストデータを含むファイルのフォーマットが変換されて生成されたファイルである場合、前記第1テキストデータを用いて前記所定の処理を行う、
請求項1または2に記載の情報処理装置。
The processing unit performs the predetermined process using the first text data when the file acquired by the acquisition unit is a file generated by converting a format of a file including text data.
The information processing apparatus according to claim 1.
前記処理部は、前記取得部により取得されるファイルに所定の表示サイズ以上の画像データが含まれない場合、前記第1テキストデータを用いて前記所定の処理を行う、
請求項1乃至3のいずれか一項に記載の情報処理装置。
The processing unit performs the predetermined process using the first text data when the file acquired by the acquisition unit does not include image data of a predetermined display size or more,
The information processing device according to claim 1.
前記処理部は、前記第1テキストデータが画像から文字認識されたことを示す情報が前記取得部により取得されるファイルに含まれる場合、前記第2テキストデータを用いて前記所定の処理を行う、
請求項1乃至4のいずれか一項に記載の情報処理装置。
The processing unit performs the predetermined process using the second text data when information indicating that the first text data is character-recognized from an image is included in a file acquired by the acquisition unit.
The information processing device according to claim 1.
前記処理部は、画像形成装置から前記取得部によりファイルが取得されると、前記第2テキストデータを用いて前記所定の処理を行う、
請求項1乃至5のいずれか一項に記載の情報処理装置。
The processing unit, when a file is obtained from the image forming apparatus by the obtaining unit, performs the predetermined process using the second text data,
The information processing apparatus according to claim 1.
前記処理部は、所定の企業により提供される機能により文字認識されたことを示す情報が前記取得部により取得されるファイルに含まれる場合、前記第1テキストデータを用いて前記所定の処理を行う、
請求項1乃至6のいずれか一項に記載の情報処理装置。
The processing unit performs the predetermined process using the first text data when information indicating that a character is recognized by a function provided by a predetermined company is included in a file obtained by the obtaining unit. ,
The information processing device according to claim 1.
前記取得部は、帳票のファイルを取得し
前記所定の処理は、前記帳票から所定の項目のデータを抽出する処理である、
請求項1乃至7のいずれか一項に記載の情報処理装置。
The acquisition unit acquires a form file, and the predetermined process is a process of extracting data of a predetermined item from the form.
The information processing apparatus according to claim 1.
前記処理部は、前記取得部により取得されるファイルの属性情報に基づいて、前記第2テキストデータを用いて前記所定の処理を行うか、前記第1テキストデータを用いて前記所定の処理を行うかを決定する、
請求項1乃至8のいずれか一項に記載の情報処理装置。
The processing unit performs the predetermined process using the second text data or performs the predetermined process using the first text data based on the attribute information of the file acquired by the acquisition unit To decide,
An information processing apparatus according to claim 1.
前記処理部は、前記取得部により取得されるファイルの属性情報に含まれる、当該ファイルが第1ファイルのフォーマットが変換されて生成された第2ファイルである場合の前記第1ファイルを作成したツールを示す情報に基づいて、前記第2テキストデータを用いて前記所定の処理を行うか、前記第1テキストデータを用いて前記所定の処理を行うかを決定する、
請求項9に記載の情報処理装置。
A processing unit that, when included in the attribute information of the file acquired by the acquisition unit, creates the first file when the file is a second file generated by converting the format of the first file; Based on the information indicating, determines whether to perform the predetermined process using the second text data, or to perform the predetermined process using the first text data,
The information processing device according to claim 9.
前記処理部は、前記取得部により取得されるファイルの属性情報に含まれる、当該ファイルが第3ファイルのフォーマットが変換されて生成された第4ファイルである場合の前記第3ファイルを前記第4ファイルに変換したツールを示す情報に基づいて、前記第2テキストデータを用いて前記所定の処理を行うか、前記第1テキストデータを用いて前記所定の処理を行うかを決定する、
請求項9または10に記載の情報処理装置。
The processing unit may include, in the attribute information of the file acquired by the acquisition unit, the third file in a case where the file is a fourth file generated by converting a format of the third file, by the fourth file. Based on the information indicating the tool converted to a file, determine whether to perform the predetermined process using the second text data or to perform the predetermined process using the first text data,
The information processing device according to claim 9.
情報処理装置が、
第1テキストデータを含むファイルを取得する処理と、
前記取得する処理により取得されるファイルに含まれる画像を文字認識して生成される第2テキストデータを用いて所定の処理を行うか、前記第1テキストデータを用いて前記所定の処理を行うかを、前記取得する処理により取得されるファイルに基づいて決定する処理と、を実行する情報処理方法。
The information processing device is
A process of obtaining a file containing the first text data;
Whether to perform a predetermined process using second text data generated by character recognition of an image included in a file obtained by the obtaining process or to perform the predetermined process using the first text data Determining based on the file acquired by the acquiring process.
情報処理装置に、
第1テキストデータを含むファイルを取得する処理と、
前記取得する処理により取得されるファイルに含まれる画像を文字認識して生成される第2テキストデータを用いて所定の処理を行うか、前記第1テキストデータを用いて前記所定の処理を行うかを、前記取得する処理により取得されるファイルに基づいて決定する処理と、を実行させる情報処理プログラム。
For information processing equipment,
A process of obtaining a file containing the first text data;
Whether to perform a predetermined process using second text data generated by character recognition of an image included in a file obtained by the obtaining process or to perform the predetermined process using the first text data Determining based on the file acquired by the acquiring process.
JP2019115412A 2018-07-20 2019-06-21 Information processing device, information processing method, and information processing program Active JP7346931B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/512,604 US11113559B2 (en) 2018-07-20 2019-07-16 Information processing apparatus for improving text data recognition, information processing method, and non-transitory recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018137253 2018-07-20
JP2018137253 2018-07-20

Publications (2)

Publication Number Publication Date
JP2020021469A true JP2020021469A (en) 2020-02-06
JP7346931B2 JP7346931B2 (en) 2023-09-20

Family

ID=69588934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019115412A Active JP7346931B2 (en) 2018-07-20 2019-06-21 Information processing device, information processing method, and information processing program

Country Status (1)

Country Link
JP (1) JP7346931B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6887744B1 (en) * 2020-05-18 2021-06-16 ファーストアカウンティング株式会社 Invoice data management device, invoice data management system, invoice data management method and program
WO2023032802A1 (en) * 2021-09-01 2023-03-09 株式会社KPMG Ignition Tokyo Annotation assistance device, annotation assistance method, and annotation assistance program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328432A (en) * 2006-06-06 2007-12-20 Canon Inc Business form processor, business form processing method, and program
JP2012008942A (en) * 2010-06-28 2012-01-12 Ricoh Co Ltd Document management system, document management device, document management method and document management program
JP2016189086A (en) * 2015-03-30 2016-11-04 ブラザー工業株式会社 Information processing apparatus, information processing method, and computer program
JP2017068303A (en) * 2015-09-28 2017-04-06 富士ゼロックス株式会社 Image processing apparatus and program
JP2017080358A (en) * 2015-10-23 2017-05-18 株式会社中村商店 Laundry net

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328432A (en) * 2006-06-06 2007-12-20 Canon Inc Business form processor, business form processing method, and program
JP2012008942A (en) * 2010-06-28 2012-01-12 Ricoh Co Ltd Document management system, document management device, document management method and document management program
JP2016189086A (en) * 2015-03-30 2016-11-04 ブラザー工業株式会社 Information processing apparatus, information processing method, and computer program
JP2017068303A (en) * 2015-09-28 2017-04-06 富士ゼロックス株式会社 Image processing apparatus and program
JP2017080358A (en) * 2015-10-23 2017-05-18 株式会社中村商店 Laundry net

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6887744B1 (en) * 2020-05-18 2021-06-16 ファーストアカウンティング株式会社 Invoice data management device, invoice data management system, invoice data management method and program
WO2021234767A1 (en) * 2020-05-18 2021-11-25 ファーストアカウンティング株式会社 Invoice data management device, invoice data management system, invoice data management method, and program
WO2023032802A1 (en) * 2021-09-01 2023-03-09 株式会社KPMG Ignition Tokyo Annotation assistance device, annotation assistance method, and annotation assistance program

Also Published As

Publication number Publication date
JP7346931B2 (en) 2023-09-20

Similar Documents

Publication Publication Date Title
JP7131488B2 (en) Information processing device, information processing method and information processing program
JP5743443B2 (en) Image processing apparatus, image processing method, and computer program
US11113559B2 (en) Information processing apparatus for improving text data recognition, information processing method, and non-transitory recording medium
JP4785655B2 (en) Document processing apparatus and document processing method
JP7346931B2 (en) Information processing device, information processing method, and information processing program
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
KR20240020719A (en) Information processing apparatus, storage medium, and storing method
KR20210038384A (en) Apparatus, method, and storage medium for supporting data entry
US20220068276A1 (en) Information processor, print system, and control method
JP2015187846A (en) Document processing system and document processor
US11151373B2 (en) Information processing apparatus and information processing method
JP4673542B2 (en) Document transfer device, document transfer system, and document transfer method
CN108881665B (en) Information processing apparatus, information processing method, and computer program
JP7211276B2 (en) Information processing device, information processing method and information processing program
JP7484466B2 (en) Information processing device, information processing method, program, and information processing system
US11006015B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP7456131B2 (en) Information processing system, information processing method and program
JP2007323317A (en) Conversion device, conversion method, and program
JP2014063457A (en) Annotation management system, and program for making computer execute the same
JP7447928B2 (en) Information processing device, program, information processing system, information processing method
JP6281739B2 (en) Processing apparatus and program
US20240073346A1 (en) Information processing apparatus, information processing method, and storage medium
US20230343322A1 (en) Provision of voice information by using printout on which attribute information of document is recorded
JP2007074140A (en) Image processing apparatus and system, and its control method
JP2023081132A (en) Information processing system, form recognition method, program, form recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230821

R151 Written notification of patent or utility model registration

Ref document number: 7346931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151