JP7272037B2 - Information processing device and program - Google Patents

Information processing device and program Download PDF

Info

Publication number
JP7272037B2
JP7272037B2 JP2019054542A JP2019054542A JP7272037B2 JP 7272037 B2 JP7272037 B2 JP 7272037B2 JP 2019054542 A JP2019054542 A JP 2019054542A JP 2019054542 A JP2019054542 A JP 2019054542A JP 7272037 B2 JP7272037 B2 JP 7272037B2
Authority
JP
Japan
Prior art keywords
document
stored
name
quotation
item name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019054542A
Other languages
Japanese (ja)
Other versions
JP2020154962A (en
Inventor
裕 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019054542A priority Critical patent/JP7272037B2/en
Publication of JP2020154962A publication Critical patent/JP2020154962A/en
Application granted granted Critical
Publication of JP7272037B2 publication Critical patent/JP7272037B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。 The present invention relates to an information processing apparatus and program.

従来、見積書や契約書等の文書から項目値を自動的に抽出したい場合において、項目値に対応する項目名が既知の場合、文書上における項目名の位置を特定し、その特定した項目名と所定の位置関係にある記載内容を項目値として抽出する技術が提案されている(例えば、特許文献1,2)。 Conventionally, when you want to automatically extract item values from documents such as quotations and contracts, if you know the item name corresponding to the item value, specify the position of the item name on the document, and specify the specified item name. There have been proposed techniques for extracting description contents having a predetermined positional relationship with , as item values (for example, Patent Literatures 1 and 2).

例えば、項目値が見積書の識別情報である見積番号を格納先の名称として当該見積書を格納するという規則に従って見積書を管理する場合、前述した方法にて見積書から見積番号を抽出して、その見積番号と同一名称の格納先を作成してから当該見積書を格納する。 For example, when managing quotations according to the rule that the quotation number, whose item value is the identification information of the quotation, is stored as the name of the storage location, extract the quotation number from the quotation by the method described above. , create a storage location with the same name as the quotation number, and then store the quotation.

特開2018-037036号公報JP 2018-037036 A 特開2007-233913号公報JP-A-2007-233913

従来技術では、文書の識別情報に対応する項目名が既知であること、また定型文書などのように文書における項目名と文書の識別情報の各記載位置が既知の関係にある文書でなければ文書の識別情報を正しく抽出できるとは限らなかった。 In the prior art, unless the item name corresponding to the document identification information is known, and the item name and the document identification information are in a known relationship, such as a standard document, the document It was not always possible to correctly extract the identification information of

本発明は、文書の識別情報と同一名称の格納先に文書を格納する場合において、格納対象となる文書と同じ種別の文書と、当該同じ種別の文書の格納先の格納先名称との関係から格納対象となる文書の格納先を特定することを目的とする。 When a document is stored in a storage destination having the same name as the document identification information, the present invention is based on the relationship between the document of the same type as the document to be stored and the storage destination name of the storage destination of the document of the same type. The purpose is to specify the storage destination of the document to be stored.

本発明に係る情報処理装置は、格納先への格納対象とする文書を取得する取得手段と、前記格納対象とする文書と同じ種別の複数の格納済みの文書それぞれに記述されている当該格納済みの文書の識別情報であって当該格納済みの文書の格納先の格納先名称と合致する識別情報の近傍に、前記複数の格納済みの文書に共通して記述されている文字列を当該識別情報の項目名として抽出する項目名抽出手段と、前記複数の格納済みの文書がそれぞれ格納されている格納先の格納先名称に共通している命名規則を抽出する命名規則抽出手段と、前記取得手段が取得した文書に記述されている前記項目名の近傍に記述されている文字列であって前記命名規則に合致する文字列を、前記格納対象とする文書の格納先の格納先名称として決定する決定手段と、を有することを特徴とする。 An information processing apparatus according to the present invention comprises an acquisition unit for acquiring a document to be stored in a storage destination; a character string commonly described in the plurality of stored documents near the identification information that matches the storage location name of the storage location of the stored document, the identification information a naming rule extracting means for extracting a naming rule common to the storage destination names of the storage destinations in which the plurality of stored documents are respectively stored; and the acquisition means determines a character string described near the item name described in the acquired document and matching the naming rule as the storage destination name of the storage destination of the document to be stored. and determining means.

また、前記項目名抽出手段は、複数の文字列を前記識別情報の項目名の候補として抽出する場合、文字列毎に前記識別情報の項目名としての確度を算出することを特徴とする。 Further, the item name extracting means is characterized in that, when extracting a plurality of character strings as candidates for the item name of the identification information, the accuracy as the item name of the identification information is calculated for each character string.

また、前記決定手段は、前記複数の格納済みの文書がそれぞれ格納されている格納先の格納先名称を参照して前記文書の識別情報に対応する項目名を決定することを特徴とする。 Further, the determination means determines the item name corresponding to the identification information of the document by referring to the storage location name of the storage location where the plurality of stored documents are stored.

また、前記命名規則抽出手段は、複数の命名規則を抽出する場合、命名規則毎に規則としての確度を算出することを特徴とする。 Further, the naming rule extracting means is characterized in that, when extracting a plurality of naming rules, the accuracy as a rule is calculated for each naming rule.

また、前記決定手段は、前記命名規則抽出手段が算出した前記各命名規則の確度をユーザに提示することを特徴とする。 Also, the determining means presents the accuracy of each of the naming rules calculated by the naming rule extracting means to the user.

また、前記項目名抽出手段は、前記複数の格納済みの文書がそれぞれ格納されている格納先に前記格納対象とする文書と異なる種別の文書が合わせて格納されている場合、当該格納先に格納されている文書に記述されている文書種別名が、前記格納対象とする文書の文書種別を表している文書を、前記複数の格納済みの文書として抽出することを特徴とする。 In addition, when a document of a type different from the document to be stored is also stored in the storage location where the plurality of stored documents are respectively stored, the item name extraction means stores the document in the storage location. A document whose document type name described in the stored document indicates the document type of the document to be stored is extracted as the plurality of stored documents.

また、前記決定手段は、前記複数の格納済みの文書がそれぞれ格納されている格納先を格納する格納先の中に、前記格納対象とする文書と同じ種別の文書が登録されていない格納先がある場合、当該格納先の格納先名称を、前記格納対象とする文書の格納先の格納先名称の候補とすることを特徴とする。 Further, the determining means determines that, among the storage destinations storing the plurality of stored documents, there is a storage destination in which a document of the same type as the document to be stored is not registered. In one case, the storage destination name of the storage destination is used as a candidate for the storage destination name of the storage destination of the document to be stored.

本発明に係るプログラムは、コンピュータを、格納先への格納対象とする文書を取得する取得手段、前記格納対象とする文書と同じ種別の複数の格納済みの文書それぞれに記述されている当該格納済みの文書の識別情報であって当該格納済みの文書の格納先の格納先名称と合致する識別情報の近傍に、前記複数の格納済みの文書に共通して記述されている文字列を当該識別情報の項目名として抽出する項目名抽出手段、前記複数の格納済みの文書がそれぞれ格納されている格納先の格納先名称に共通している命名規則を抽出する命名規則抽出手段、前記取得手段が取得した文書に記述されている前記項目名の近傍に記述されている文字列であって前記命名規則に合致する文字列を、前記格納対象とする文書の格納先の格納先名称として決定する決定手段、として機能させる。 A program according to the present invention comprises a computer, an acquisition means for acquiring a document to be stored in a storage destination, a character string commonly described in the plurality of stored documents near the identification information that matches the storage location name of the storage location of the stored document, the identification information item name extracting means for extracting as the item name of the stored document, naming rule extracting means for extracting a naming rule common to storage destination names of the storage destinations in which the plurality of stored documents are respectively stored, and the obtaining means obtains Determining means for determining a character string described near the item name described in the document and matching the naming rule as a storage destination name of the storage destination of the document to be stored. , to function as

請求項1に記載の発明によれば、文書の識別情報と同一名称の格納先に文書を格納する場合において、格納対象となる文書と同じ種別の文書と、当該同じ種別の文書の格納先の格納先名称との関係から格納対象となる文書の格納先を特定することができる。 According to the first aspect of the invention, when a document is stored in a storage destination having the same name as the identification information of the document, the document of the same type as the document to be stored and the storage destination of the document of the same type are stored. The storage destination of the document to be stored can be specified from the relationship with the storage destination name.

請求項2に記載の発明によれば、各文字列の項目名としての確度を、識別情報の項目名を決定する際の指標値として提供することができる。 According to the second aspect of the invention, the accuracy of each character string as an item name can be provided as an index value when determining the item name of identification information.

請求項3に記載の発明によれば、格納済みの文書と当該格納済みの文書の格納先の格納先名称との関係を参照して、格納対象となる文書の識別情報に対応する項目名を決定することができる。 According to the third aspect of the invention, by referring to the relationship between the stored document and the name of the storage location of the stored document, the item name corresponding to the identification information of the document to be stored is determined. can decide.

請求項4に記載の発明によれば、各命名規則の規則としての確度を、識別情報の項目名を決定する際の指標値として決定手段に提供することができる。 According to the fourth aspect of the invention, the accuracy of each naming rule as a rule can be provided to the determining means as an index value when determining the item name of the identification information.

請求項5に記載の発明によれば、格納対象とする文書の格納先の格納先名称を、各命名規則の確度を参照にユーザに選択させることができる。 According to the fifth aspect of the invention, the user can select the storage destination name of the storage destination of the document to be stored, referring to the accuracy of each naming rule.

請求項6に記載の発明によれば、格納対象とする文書と同じ種別の文書が格納されている格納先に、異なる種別の文書が格納されている場合でも、正しい格納先名称を得ることができる。 According to the sixth aspect of the invention, even if a document of a different type is stored in a storage destination storing a document of the same type as a document to be stored, a correct storage destination name can be obtained. can.

請求項7に記載の発明によれば、格納先名称の候補の中から、格納対象とする文書の格納先の格納先名称を絞り込むことで決定することができる。 According to the seventh aspect of the invention, it is possible to determine the storage location name of the storage location of the document to be stored by narrowing down the storage location name candidates.

請求項8に記載の発明によれば、文書の識別情報と同一名称の格納先に文書を格納する場合において、格納対象となる文書と同じ種別の文書と、当該同じ種別の文書の格納先の格納先名称との関係から格納対象となる文書の格納先を特定することができる。 According to the eighth aspect of the invention, when a document is stored in a storage destination having the same name as the identification information of the document, the document of the same type as the document to be stored and the storage destination of the document of the same type are stored. The storage destination of the document to be stored can be specified from the relationship with the storage destination name.

本発明に係る情報処理装置の一実施の形態を示したブロック構成図である。1 is a block configuration diagram showing an embodiment of an information processing device according to the present invention; FIG. 本実施の形態における格納先決定処理を示すフローチャートである。4 is a flow chart showing storage destination determination processing in the present embodiment. 本実施の形態において格納対象文書となる見積書の例を示す図である。FIG. 4 is a diagram showing an example of a written estimate that is a document to be stored in this embodiment; 本実施の形態において見積書の格納領域の構造を示す図である。FIG. 4 is a diagram showing the structure of a storage area for a written estimate in the present embodiment; 本実施の形態において格納済み文書に相当する見積書の例を示す図である。FIG. 10 is a diagram showing an example of a written estimate corresponding to a stored document in the present embodiment; FIG. 本実施の形態において格納対象文書となる見積書がフォルダに格納された後の見積書の格納領域の構造を示す図である。FIG. 4 is a diagram showing the structure of a storage area for a written estimate after the written estimate, which is a document to be stored in the present embodiment, is stored in a folder; 本実施の形態において文書の格納領域の構造を示す図である。3 is a diagram showing the structure of a document storage area in this embodiment; FIG. 本実施の形態において見積書の格納領域の他の構造を示す図である。FIG. 11 is a diagram showing another structure of a quotation storage area in the embodiment;

以下、図面に基づいて、本発明の好適な実施の形態について説明する。 Preferred embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明に係る情報処理装置10の一実施の形態を示したブロック構成図である。本実施の形態における情報処理装置10は、汎用的なパーソナルコンピュータ(PC)等のコンピュータで実現できる。つまり、情報処理装置10は、CPU、ROM、RAM、ハードディスクドライブ(HDD)等の記憶手段、また処理対象とする文書をネットワーク経由で取得する場合、ネットワークインタフェースを有する。コンテンツをCD-ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体から読み取る場合には、そのための外部インタフェースを備える必要がある。また、情報処理装置10は、ユーザと情報を授受する必要があるので、そのためにユーザーインタフェース、例えばマウスやキーボード、またディスプレイを有する。あるいは、ネットワークを介してユーザと情報の授受を行う場合にはネットワークインタフェースを備えてもよい。 FIG. 1 is a block configuration diagram showing an embodiment of an information processing apparatus 10 according to the present invention. Information processing apparatus 10 according to the present embodiment can be realized by a computer such as a general-purpose personal computer (PC). That is, the information processing apparatus 10 has storage means such as a CPU, a ROM, a RAM, and a hard disk drive (HDD), and a network interface when acquiring a document to be processed via a network. When reading content from a computer-readable recording medium such as a CD-ROM or USB memory, it is necessary to provide an external interface for that purpose. Further, the information processing apparatus 10 needs to exchange information with the user, so it has a user interface such as a mouse, keyboard, and display. Alternatively, a network interface may be provided when exchanging information with a user via a network.

本実施の形態における情報処理装置10は、格納先特定依頼受付部11、関連文書情報取得部12、解析部13、フォルダ名決定部14、項目名候補情報記憶部15及び命名規則記憶部16を有している。なお、本実施の形態の説明に用いない構成要素については、図から省略している。本実施の形態における情報処理装置10は、ユーザからの格納先特定依頼に応じて処理対象とする文書の格納先の格納先名称を自動的に決定する機能を有する情報処理装置である。図1に示すように、情報処理装置10に文書の格納先となる記憶手段を設けておく必要はない。本実施の形態では、情報処理装置10の外部の文書管理システムに処理対象とする文書の格納先が設けられているものとして説明する。もちろん、情報処理装置10が処理対象とする文書の格納先であってもよい。 The information processing apparatus 10 according to the present embodiment includes a storage location identification request reception unit 11, a related document information acquisition unit 12, an analysis unit 13, a folder name determination unit 14, an item name candidate information storage unit 15, and a naming rule storage unit 16. have. Constituent elements that are not used in the description of this embodiment are omitted from the drawing. The information processing apparatus 10 according to the present embodiment is an information processing apparatus having a function of automatically determining a storage location name of a document to be processed in response to a storage location specification request from a user. As shown in FIG. 1, the information processing apparatus 10 does not need to be provided with a storage means as a document storage destination. In the present embodiment, it is assumed that a document management system external to the information processing apparatus 10 is provided with a storage destination for documents to be processed. Of course, it may be a storage destination of a document to be processed by the information processing apparatus 10 .

ところで、企業では、物品の購買の際に購買部門などを通じて見積を購入先の候補となる企業に対して依頼し、購入先の候補からの見積回答を元に購入可否を決定するという手順が一般的である。購買部門側は、回答やその後の発注の有無を管理するため、見積依頼ごとに見積書を識別する識別情報として見積番号を採番するのが一般的である。そして、前述した文書管理システムでは、見積書毎にフォルダを作成するという運用が既になされているとし、そして各見積書の見積番号と同一の名称を当該見積書の格納先の格納先名称として命名しているものとする。つまり、各見積書を格納するフォルダのフォルダ名は、当該見積書の見積番号となる。 By the way, in a company, when purchasing goods, it is common to request quotations from candidate companies through the purchasing department, etc., and decide whether to purchase based on the quotation responses from the candidate suppliers. target. In general, the purchasing department assigns an estimate number as identification information for identifying the estimate sheet for each estimate request in order to manage responses and subsequent orders. In the document management system described above, it is assumed that a folder is already created for each quotation, and the same name as the quotation number of each quotation is used as the storage destination name of the quotation. It is assumed that In other words, the folder name of the folder storing each quotation is the quotation number of the quotation.

本実施の形態では、このように見積依頼先から送付されてきた見積書を文書の例とし、その文書の識別情報として見積書の見積番号を利用する場合を例にして説明する。そして、見積番号は、見積書に記載される項目値の1つであり、必ず見積書に記載されているものとする。但し、各見積書において、見積番号は見積書のどこに記載されているかは不明である。また、見積番号という項目値に対応付けられる項目名、更に項目名と項目値との位置関係も不明である。つまり、本実施の形態では、定型文書以外の文書も処理対象とすることが可能である。 In the present embodiment, the quotation sent from the quotation requester is used as an example of a document, and the quotation number of the quotation is used as the identification information of the document. The quotation number is one of the item values described in the quotation, and is always written in the quotation. However, it is unclear where the quotation number is written in each quotation. In addition, the item name associated with the item value of quotation number and the positional relationship between the item name and the item value are also unknown. In other words, in this embodiment, documents other than standard documents can also be processed.

格納先特定依頼受付部11は、格納先への格納対象とする文書及びその文書の文種種別を取得する。関連文書情報取得部12は、格納先特定依頼受付部11が取得した文書(以下、「格納対象文書」ともいう)と関連する文書に関する情報を関連文書情報として取得する。格納対象文書と関連する文書というのは、格納対象文書と同じ種別の文書であって格納先に既に格納されている文書(以下、「格納済み文書」ともいう)のことをいう。関連文書情報取得部12は、格納済み文書に関する情報、すなわち関連文書情報として、各格納済みの文書の格納先の格納先名称を取得する。 The storage destination identification request reception unit 11 acquires a document to be stored in the storage destination and the text type of the document. The related document information acquisition unit 12 acquires information related to the document (hereinafter also referred to as “storage target document”) acquired by the storage destination identification request reception unit 11 as related document information. A document related to a document to be stored means a document of the same type as the document to be stored and already stored in a storage destination (hereinafter also referred to as a "stored document"). The related document information acquisition unit 12 acquires the storage location name of the storage location of each stored document as information related to the stored document, that is, related document information.

解析部13は、関連文書情報取得部12が取得した関連文書情報を解析することによって項目名の候補及び格納済み文書の格納先の格納先名称の命名規則を抽出する。解析部13は、項目名候補抽出部131及び命名規則抽出部132を含む。項目名候補抽出部131は、関連文書情報を解析することによって項目名の候補を抽出して、項目名候補情報記憶部15に保存する。命名規則抽出部132は、格納済みの文書がそれぞれ格納されている格納先の格納先名称に共通している命名規則を抽出して、命名規則記憶部16に保存する。 The analysis unit 13 analyzes the related document information acquired by the related document information acquisition unit 12 to extract candidate item names and a naming rule for storage destination names of stored documents. The analysis unit 13 includes an item name candidate extraction unit 131 and a naming rule extraction unit 132 . The item name candidate extraction unit 131 extracts item name candidates by analyzing the related document information and stores them in the item name candidate information storage unit 15 . The naming rule extraction unit 132 extracts a naming rule common to the names of the storage locations in which the stored documents are respectively stored, and stores it in the naming rule storage unit 16 .

フォルダ名決定部14は、項目名候補抽出部131が抽出した項目名の候補及び命名規則を参照して格納対象文書の格納先の格納先名称を決定する。 The folder name determination unit 14 refers to the item name candidates extracted by the item name candidate extraction unit 131 and the naming rule to determine the storage location name of the storage location of the document to be stored.

情報処理装置10における各構成要素11~14は、情報処理装置10を形成するコンピュータと、コンピュータに搭載されたCPUで動作するプログラムとの協調動作により実現される。また、各記憶部15,16は、情報処理装置10に搭載されたHDDにて実現される。あるいは、RAM又は外部にある記憶手段をネットワーク経由で利用してもよい。 Each component 11 to 14 in the information processing apparatus 10 is realized by cooperative operation of a computer that forms the information processing apparatus 10 and a program that runs on a CPU installed in the computer. Moreover, each of the storage units 15 and 16 is implemented by an HDD mounted on the information processing apparatus 10 . Alternatively, RAM or external storage means may be used via a network.

また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD-ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。 The program used in the present embodiment can be provided not only by communication means but also by being stored in a computer-readable recording medium such as a CD-ROM or USB memory. A program provided from a communication means or a recording medium is installed in a computer, and various processes are realized by the CPU of the computer sequentially executing the program.

本実施の形態における情報処理装置10は、前述したように格納対象文書と関連する格納済み文書の関連文書情報を解析することによって格納対象文書の格納先の格納先名称を自動的に決定することを特徴としているが、以下、この特徴的な格納先決定処理について図2に示すフローチャートを用いて説明する。なお、前述したように、文書として見積書を取り扱う場合を例にして説明する。 As described above, the information processing apparatus 10 according to the present embodiment automatically determines the storage location name of the storage location of the storage target document by analyzing the related document information of the stored document related to the storage target document. This characteristic storage location determination process will be described below with reference to the flowchart shown in FIG. In addition, as described above, the case of handling a written estimate as a document will be described as an example.

ユーザ(ここでは、ある企業の従業員を想定)は、見積書の作成を企業に依頼し、この依頼に応じて送付されてきた見積書を受け取ったとする。なお、本実施の形態において取り扱う見積書は、電子データ化されている文書データである。本実施の形態では、全ての文書を共通したファイル形式、例えばPDFのファイル形式にて取り扱うものとして説明する。 It is assumed that a user (here, assumed to be an employee of a certain company) requests the company to prepare an estimate, and receives an estimate sent in response to this request. It should be noted that the quotation handled in the present embodiment is document data converted into electronic data. In this embodiment, it is assumed that all documents are handled in a common file format, for example, a PDF file format.

格納先特定依頼受付部11は、ユーザから格納先を特定したい見積書を取得することによって格納先の特定依頼を受け付ける(ステップ101)。このとき、ユーザが文書の種別が見積書であることも合わせて指定すると、格納先特定依頼受付部11は、指定された文書の文種種別が見積書であると認識する(ステップ102)。格納対象文書となる見積書の内容例を図3に示す。前述したように、格納対象文書となる見積書には、当該見積書を識別する見積番号“180005”が記載されている。 The storage location identification request reception unit 11 receives a storage location identification request by obtaining a quotation for which the storage location is to be identified from the user (step 101). At this time, if the user also specifies that the type of the document is an estimate, the storage destination specification request receiving section 11 recognizes that the type of document specified is an estimate (step 102). FIG. 3 shows an example of the content of a quotation that is a document to be stored. As described above, an estimate number "180005" for identifying the estimate is described in the estimate as a document to be stored.

なお、本実施の形態では、ユーザから見積書を取得するように説明したが、見積書作成元の企業から直接取得してもよい。また、ユーザに文書種別を指定させなくても、受け取った文書の内容を解析することで、文書種別を認識するように処理してもよい。一般に、文書種別を特定する語句は、文書の標題(タイトル)として文書の上方に記載されていることから特定しやすい。 In this embodiment, the quotation is obtained from the user, but the quotation may be obtained directly from the company that created the quotation. Alternatively, the document type may be recognized by analyzing the content of the received document without requiring the user to specify the document type. In general, the phrase specifying the document type is easy to specify because it is written at the top of the document as the title of the document.

格納対象文書の文書種別が認識されると、関連文書情報取得部12は、文書種別から当該文書種別に対応する文書の格納先のルートフォルダを特定する。文書種別として見積書と指定された場合、“見積回答書フォルダ”というルートフォルダを特定する。そして、関連文書情報取得部12は、ルートフォルダ以下のフォルダに格納されている文書、すなわちフォルダに既に格納されている見積書(ファイル名は“見積回答書.pdf”)及び各見積書のフォルダ名を関連文書情報として取得する(ステップ103)。なお、格納先名称とフォルダ名とは同義である。以降の説明では、文書の格納先となる記憶手段を「文書データベース」と称することにすると、この文書データベースにおいて見積書の格納領域の構造を図4に示す。また、文書データベースに既に格納されている見積書の内容例を図5に示す。 When the document type of the document to be stored is recognized, the related document information acquisition unit 12 identifies the root folder of the storage destination of the document corresponding to the document type from the document type. If the document type is specified as an estimate, the root folder "estimate reply folder" is identified. Then, the related document information acquisition unit 12 acquires the documents stored in the folders under the root folder, that is, the quotations already stored in the folder (file name is "quotation reply form.pdf") and each quotation folder. Name is acquired as related document information (step 103). Note that the storage location name and the folder name are synonymous. In the following description, if the storage means in which documents are stored is referred to as a "document database", FIG. 4 shows the structure of the quotation storage area in this document database. Also, FIG. 5 shows an example of the content of the quotation already stored in the document database.

図4及び図5に示すように、企業(D株式会社)から格納対象文書となる見積書を受け取る前に、他の企業(A,B,Cの各株式会社)から受け取っている見積書は、文書データベースにおいて“見積回答書フォルダ”と命名された見積書のルートフォルダ以下に既に格納されている格納済み文書である。格納済み文書に相当する各見積書は、各見積書の見積番号をフォルダ名としたフォルダに格納される。 As shown in FIGS. 4 and 5, quotations received from other companies (A, B, and C companies) before receiving a quotation that is a document to be stored from the company (D company) are , is a stored document already stored under the root folder of the quotation named "Quotation Reply Folder" in the document database. Each quotation corresponding to the stored document is stored in a folder whose folder name is the quotation number of each quotation.

また、図5に例示するように、各企業から受け取る見積書のフォーマットは、共通化されておらず、項目値の1つである見積番号の記載位置、また項目値である見積番号と当該項目値に対応する項目名である“見積番号:”との位置関係も一様ではない。なお、図5においては、項目値である見積番号に対応する項目名を全て同じとしたが、項目名も一様であるとは限らない。 In addition, as shown in FIG. 5, the format of the quotation received from each company is not standardized. The positional relationship with "Quotation number:", which is the item name corresponding to the value, is also not uniform. In FIG. 5, the item names corresponding to the quotation numbers, which are item values, are all the same, but the item names are not always the same.

関連文書情報取得部12が文書種別を参照して文書データベースから関連文書情報を取得すると、解析部13は、関連文書情報を解析することで項目名の候補及びフォルダ名の命名規則を次のようにして抽出する。 When the related document information acquisition unit 12 acquires related document information from the document database by referring to the document type, the analysis unit 13 analyzes the related document information to obtain item name candidates and folder name naming rules as follows. and extract.

まず、解析部13における項目名候補抽出部131は、各格納済み文書である見積書に対応するフォルダ名から当該見積書における見積番号を特定する。なお、フォルダ名と見積番号とは同じである。そして、項目名候補抽出部131は、画像解析を行うことで、各見積書における見積番号の記載位置を特定する。この特定される見積番号というのは、見積書に記載されている項目値の1つである。続いて、項目名候補抽出部131は、その特定した見積番号の近傍に位置する文字列を抽出し、見積番号と、抽出した文字列との関係に基づき、項目名の候補を抽出する(ステップ104)。 First, the item name candidate extraction unit 131 in the analysis unit 13 identifies the quotation number in the quotation from the folder name corresponding to the quotation, which is each stored document. Note that the folder name and the quotation number are the same. Then, the item name candidate extraction unit 131 identifies the description position of the quotation number in each quotation by performing image analysis. This identified quotation number is one of the item values described in the quotation. Subsequently, the item name candidate extracting unit 131 extracts a character string located near the identified quotation number, and extracts an item name candidate based on the relationship between the quotation number and the extracted character string (step 104).

例えば、図5(a)に示す見積書によると、見積番号の近傍には、上方に“見積番号:”という文字列があり、下方に“2019年○月×日”という文字列がある。従って、図5(a)では、“見積番号:”及び“2019年○月×日”を項目名の候補として抽出可能である。また、図5(b)に示す見積書によると、見積番号の近傍には、左方に“見積番号:”という文字列があり、下方に“御見積書”という文字列がある。従って、図5(b)では、“見積番号:”及び“御見積書”を項目名の候補として抽出可能である。また、また、図5(c)に示す見積書によると、見積番号の近傍には、左方に“見積番号:”という文字列があり、下方には“下記の通り回答致します。”という文字列がある。従って、図5(c)では、“見積番号:”及び“下記の通り回答致します。”を項目名の候補として抽出可能である。 For example, according to the quotation shown in FIG. 5(a), near the quotation number, there is a character string "quotation number:" above and a character string "2019 XX month x date" below. Therefore, in FIG. 5A, "Quotation number:" and "2019 XX month x day" can be extracted as item name candidates. Further, according to the quotation shown in FIG. 5(b), near the quotation number, there is a character string "quotation number:" on the left, and a character string "quotation" below. Therefore, in FIG. 5B, "Quotation number:" and "Quotation" can be extracted as item name candidates. Also, according to the quotation shown in FIG. 5(c), there is a character string "Quotation number:" on the left near the quotation number, and below it is "I will answer as follows." I have a string. Therefore, in FIG. 5(c), "Quotation number:" and "I will reply as follows" can be extracted as item name candidates.

ここで、図5(a)に示す見積書によると、項目値である見積番号の左斜め上方向に“御見積書”という文字列がある。この文字列は、下方の“2019年○月×日”より見積番号に距離的に近いかもしれない。つまり、見積番号の近傍に位置すると考えられるかもされない。しかしながら、項目名と項目値との位置関係において、通常は斜めの位置関係にあることはない。通常は、上下左右のいずれかに位置すると考えられる。また、見積番号の直上に“見積番号:”があるので、“見積番号:”を飛び越えた位置にある“御見積書”が見積番号の項目名となるとは考えられない。このように、「見積番号」という項目値と単に距離的に近い位置関係にあっても、項目値に対する相対的位置、つまり、上下左右に位置し、かつ項目値との間に他の文字列が存在しない文字列を項目名の候補として抽出する。本実施の形態において「近傍」というのは、単に距離的に近いという意味だけではなく、他の文字列との位置関係を考慮している。 Here, according to the quotation shown in FIG. 5(a), there is a character string "quotation" in the diagonally upper left direction of the quotation number which is the item value. This character string may be closer to the quotation number than the lower "2019 XX month x day". In other words, it may be considered to be located near the quotation number. However, the positional relationship between the item name and the item value is usually not oblique. Usually, it is considered to be positioned either up, down, left, or right. Also, since there is "Quotation number:" directly above the quotation number, it is unthinkable that the item name of the quotation number will be "Quotation sheet" located beyond "Quotation number:". In this way, even if the positional relationship is simply close to the item value "Quotation number", it is positioned relative to the item value, i.e., is positioned above, below, left and right, and is between the item value and another character string. Extracts strings that do not exist as candidates for item names. In the present embodiment, the term “nearby” does not only mean close in terms of distance, but also takes into consideration the positional relationship with other character strings.

図5(c)においても同様で、“見積書”は見積番号の直上にあるかもしれないけれども、見積番号の左斜め上には“Z株式会社”という文字列が存在する。すなわち、“見積書”は、“Z株式会社”を飛び越えた位置にあるため、項目名の候補として抽出しない。そして、“Z株式会社”は、見積番号の斜めの位置にあるため、項目名の候補として抽出しない。 Similarly, in FIG. 5(c), "Quotation" may be directly above the quotation number, but the character string "Z Co., Ltd." exists diagonally to the upper left of the quotation number. In other words, "Quotation" is not extracted as an item name candidate because it is located beyond "Z Corporation". Since "Z Co., Ltd." is located diagonally from the quotation number, it is not extracted as an item name candidate.

このように、本実施の形態では、項目値である見積番号の直上、直下、直左及び直右に位置する文字列を項目名の候補として抽出する。 As described above, in this embodiment, the character strings positioned immediately above, immediately below, immediately left, and immediately right of the quotation number, which is the item value, are extracted as item name candidates.

更に、図5(c)に示す“下記の通り回答致します。”と項目値である見積番号との間には、文字列が存在しないが、項目名は、項目値が示す値を説明する文字列であり、本来、項目値のすぐ近くに存在するはずである。従って、項目値の近傍に位置しない文字列は、項目名の候補としない。距離的に「近傍」に該当するかどうかは、所定の距離関係を示す指標値との比較により判定してもよい。距離関係を示す指標値として、例えば、ピクセル数を示す閾値を予め設定する。そして、見積書から抽出された文字列と項目値との間がその閾値以上離れている場合、その文字列は項目値の近傍に位置しないとみなし、項目名の候補として抽出しない。 Furthermore, there is no character string between "I will reply as follows" shown in FIG. It's a string and should be in the immediate vicinity of the item value. Therefore, character strings that are not located near item values are not used as item name candidates. Whether or not it corresponds to "neighborhood" in terms of distance may be determined by comparison with an index value indicating a predetermined distance relationship. As an index value indicating the distance relationship, for example, a threshold value indicating the number of pixels is set in advance. If the character string extracted from the quotation is separated from the item value by more than the threshold value, the character string is regarded as not located near the item value and is not extracted as an item name candidate.

また、行数を示す閾値を予め設定する。そして、文字列又は項目値のフォントサイズを特定し、そのフォントサイズを参照して文字列と項目値との行間を算出する。その行間がその閾値以上離れている場合、その文字列は項目値の近傍に位置しないとみなし、項目名の候補として抽出しない。同様に、文字数を示す閾値を予め設定し、文字列と項目値との間の文字数がその閾値以上離れている場合、その文字列は項目値の近傍に位置しないとみなし、項目名の候補として抽出しないようにしてもよい。 Also, a threshold indicating the number of rows is set in advance. Then, the font size of the character string or item value is specified, and the line spacing between the character string and the item value is calculated by referring to the font size. If the line spacing is greater than the threshold, the character string is regarded as not located near the item value and is not extracted as an item name candidate. Similarly, a threshold value indicating the number of characters is set in advance, and if the number of characters between the character string and the item value is more than the threshold, the character string is considered not to be located near the item value and is used as a candidate for the item name. It is possible not to extract.

更に、所定の割合(率)を予め設定する。そして、見積書の用紙サイズを特定し、文字列と項目値との間が用紙サイズに割合を乗算した値以上離れている場合、その文字列は項目値の近傍に位置しないとみなし、項目名の候補として抽出しない。 Furthermore, a predetermined ratio (ratio) is set in advance. Then, specify the paper size of the quotation, and if the distance between the character string and the item value is greater than the value obtained by multiplying the paper size by the ratio, the character string is considered not to be near the item value, and the item name is not extracted as a candidate for

以上説明したように、項目名候補抽出部131は、項目値である見積番号との位置関係及び距離関係に従って項目値である見積番号の近傍に位置するかどうかを判定して項目名の候補を抽出する。 As described above, the item name candidate extracting unit 131 determines whether or not the candidate is located in the vicinity of the quotation number, which is the item value, according to the positional relationship and the distance relationship with the quotation number, which is the item value, and extracts the item name candidate. Extract.

項目名の候補を抽出すると、続いて、項目名候補抽出部131は、各項目名の候補が項目値(つまり、見積番号)に対してどの位置にあるかその傾向を解析する。換言すると、項目名と項目値との位置規則性を抽出する(ステップ105)。 After the item name candidates are extracted, the item name candidate extraction unit 131 analyzes the position of each item name candidate with respect to the item value (that is, the quotation number). In other words, the position regularity between item names and item values is extracted (step 105).

例えば、図5(a)に示す見積書を解析することで、項目名候補抽出部131は、見積番号“180001”に対し、文字列“見積番号:”は上方3ピクセルの位置にあり、文字列“2019年○月×日”は下方30ピクセルの位置にあることを認識する。また、図5(b)に示す見積書を解析することで、項目名候補抽出部131は、見積番号“180002”に対し、文字列“見積番号:”は左方3ピクセルの位置にあり、文字列“御見積書”は下方15ピクセルの位置にあることを認識する。同様に、図5(c)に示す見積書を解析することで、項目名候補抽出部131は、見積番号“180007”に対し、文字列“見積番号:”は左方5ピクセルの位置にあると認識する。 For example, by analyzing the quotation shown in FIG. 5A, the item name candidate extraction unit 131 finds that the character string “quotation number:” is located three pixels above the quotation number “180001”, and the character string Recognize that the column “XX, 2019” is positioned 30 pixels below. Further, by analyzing the quotation shown in FIG. 5B, the item name candidate extraction unit 131 finds that the character string "quotation number:" is located 3 pixels to the left of the quotation number "180002". Recognize that the string "quote" is located 15 pixels below. Similarly, by analyzing the quotation shown in FIG. 5(c), the item name candidate extraction unit 131 finds that the character string “quotation number:” is located 5 pixels to the left of the quotation number “180007”. Recognize.

このような位置関係から、例えば、文字列“見積番号:”は、項目値である見積番号に対し、上下左右いずれかの方向の5ピクセル以内に存在する確率は100%である、また、文字列“御見積書”は項目値である見積番号に対し、上下左右の25ピクセル以内に存在する確率は67%である、などのように各項目名の候補に対して位置規則性を抽出する。本実施の形態では、前述した100%及び67%のように、項目値の項目名としての確度を項目名の候補毎に算出する。項目名候補抽出部131は、各項目名の候補における位置規則性の確度を、フォルダ名決定部14がフォルダ名を決定する際の指標値として提供する。 From such a positional relationship, for example, the character string "Quotation number:" has a 100% probability of existing within 5 pixels in any direction from the quotation number, which is the item value. The position regularity is extracted for each item name candidate, such as the probability that the column "Quotation" exists within 25 pixels of the top, bottom, left, and right of the item value, the quotation number, is 67%. . In the present embodiment, the accuracy of the item value as the item name is calculated for each item name candidate, such as 100% and 67% described above. The item name candidate extraction unit 131 provides the accuracy of the positional regularity in each item name candidate as an index value when the folder name determination unit 14 determines the folder name.

なお、図5(a)~(c)に例示したように、同じ意味を示す語句でも“御見積書”や“見積書”のように表記に揺らぎが発生している可能性がある。この表記の揺らぎを考慮し、同じ意味を示す文字列を集約してから各項目名の候補に対して位置規則性を抽出するようにするのが好適である。 As shown in FIGS. 5(a) to 5(c), there is a possibility that words with the same meaning may fluctuate in notation such as "quote" and "estimate". In consideration of this variation in notation, it is preferable to extract the positional regularity for each item name candidate after aggregating the character strings indicating the same meaning.

以上のようにして、項目名候補抽出部131は、項目名の候補を抽出し、また項目値と各項目名の候補との位置規則性を抽出すると、項目名候補情報記憶部15に登録する。本実施の形態においては、以上の項目名の抽出処理により、文字列“見積番号:”及び“御見積書”を項目名の候補とし抽出でき、またそれぞれの項目名の候補につき位置規則性が抽出されたものとして説明を続ける。 As described above, the item name candidate extracting unit 131 extracts the item name candidates and the positional regularity between the item value and each item name candidate, and registers them in the item name candidate information storage unit 15. . In this embodiment, the character strings "Quotation number:" and "Quotation" can be extracted as item name candidates by the above item name extraction processing, and the positional regularity of each item name candidate can be obtained. The description is continued assuming that it is extracted.

本実施の形態では、各項目名の候補を抽出してから位置規則性を抽出するようにしたが、項目値と見積書に記載されている各文字列との位置規則性を抽出し、項目値と各文字列との位置関係及び距離関係から、項目値の近傍に位置すると判定される文字列を各項目名の候補として抽出してもよい。 In this embodiment, positional regularity is extracted after extracting candidates for each item name. A character string that is determined to be located near the item value may be extracted as a candidate for each item name based on the positional relationship and distance relationship between the value and each character string.

続いて、解析部13における命名規則抽出部132は、格納済み文書の各フォルダ名を解析することで、フォルダ名の命名規則を抽出する(ステップ106)。図4に示すフォルダ名の例によると、6桁の数字であるという規則は100%、先頭2文字は“18”であるという規則は100%などのように命名規則を抽出する。なお、命名規則を抽出する場合、前述した100%及び100%のように、命名規則としての確度を命名規則毎に算出する。命名規則抽出部132は、以上のようにして抽出した命名規則を命名規則記憶部16に登録する。 Subsequently, the naming rule extraction unit 132 in the analysis unit 13 extracts the naming rule of the folder name by analyzing each folder name of the stored document (step 106). According to the folder name example shown in FIG. 4, naming rules are extracted such as 100% for the rule that the number is six digits, and 100% for the rule that the first two characters are "18". When extracting naming rules, the degree of certainty as a naming rule is calculated for each naming rule, such as 100% and 100% described above. The naming rule extraction unit 132 registers the naming rules extracted as described above in the naming rule storage unit 16 .

前述したステップ103~106は、見積書という文書種別に該当する格納対象文書の格納先を決定する際に、格納対象文書の文書種別が特定されたことに伴い実施される事前処理に相当するとも考えられる。つまり、例えば、見積書、発注書、契約書等の文書種別毎にステップ103~106に示す処理を事前に実施して項目名の候補及び命名規則を予め用意してもよい。そして、予め用意されている項目名の候補及び命名規則の中から、ステップ102で文書種別が認識されると、その認識された文書種別に対応する項目名の候補及び命名規則を取り出すようにしてもよい。 The above-described steps 103 to 106 correspond to pre-processing that is performed when the document type of the document to be stored is specified when the storage destination of the document to be stored corresponding to the document type of quotation is determined. Conceivable. That is, for example, item name candidates and naming rules may be prepared in advance by performing the processes shown in steps 103 to 106 in advance for each document type such as an estimate, purchase order, contract, and the like. When the document type is recognized in step 102 from item name candidates and naming rules prepared in advance, item name candidates and naming rules corresponding to the recognized document type are extracted. good too.

続いて、フォルダ名決定部14は、次のようにして格納対象文書を格納先となるフォルダのフォルダ名を決定する。 Subsequently, the folder name determining unit 14 determines the folder name of the folder in which the document to be stored is to be stored as follows.

まず、フォルダ名決定部14は、格納対象文書を解析することで項目名の候補と合致する文字列を探し出す。図3に示す見積書の例によると、項目名の候補である“見積番号:”及び“御見積書”の双方の文字列を抽出できる(ステップ107)。 First, the folder name determining unit 14 searches for a character string that matches the item name candidate by analyzing the document to be stored. According to the example of the quotation shown in FIG. 3, the character strings of both "Quotation Number:" and "Quotation", which are candidates for item names, can be extracted (step 107).

続いて、フォルダ名決定部14は、項目名の候補毎に近傍に位置する文字列を抽出する。例えば、“見積番号:”に対しては、右方に位置する“180007”及び上方に位置する“Z株式会社”という各文字列を抽出するが、位置規則性を参照して“180007”をフォルダ名の候補として抽出する(ステップ108)。一方、“御見積書”に対しては、下方に位置する“Z株式会社”という各文字列を抽出するが、位置規則性を参照するとフォルダ名の候補は抽出できない。なお、本実施の形態の場合、項目値である見積番号がそのままフォルダ名となるので、ここでいうフォルダ名の候補というのは、項目名に対する項目値の候補と等しい。 Subsequently, the folder name determination unit 14 extracts a character string positioned near each item name candidate. For example, for "Quotation number:", the character strings "180007" located on the right side and "Z Co., Ltd." located on the upper side are extracted. It is extracted as a folder name candidate (step 108). On the other hand, for "quote", each character string "Z Co., Ltd." located below is extracted, but if the positional regularity is referred to, the folder name candidates cannot be extracted. In the case of this embodiment, the estimate number, which is the item value, becomes the folder name as it is, so the folder name candidate here is the same as the item value candidate for the item name.

なお、位置規則性を参照しても1つに特定できない場合、一般常識を参照してもよい。例えば、横書きのフォームの場合、項目値は、項目名の右側か下側に位置することが一般的である。従って、このような一般常識から導出される位置関係の判断指標を高く評価して項目名を決定するようにしてもよい。また、項目名の候補が1つしか抽出されていない場合、フォルダ名決定部14は、その候補を項目名として決定する。 If one cannot be identified even by referring to positional regularity, general common sense may be referred to. For example, in horizontally written forms, item values are generally located to the right or below the item name. Therefore, the item name may be determined by highly evaluating the positional relationship judgment index derived from such common sense. If only one item name candidate is extracted, the folder name determination unit 14 determines the candidate as the item name.

続いて、フォルダ名決定部14は、各フォルダ名の候補をフォルダ名の命名規則を照合することで、フォルダ名の候補の中から命名規則に合致するフォルダ名の候補を、格納対象文書のフォルダ名として決定する(ステップ109)。図3に示す見積書によると、項目名は“見積番号:”に特定され、これに伴い、項目名“見積番号:”に対応する項目値として、文字列“180005”が選定される。つまり、“見積番号:”に対応する文字列“180005”がフォルダ名として決定される。 Subsequently, the folder name determining unit 14 compares each folder name candidate with the naming rule of the folder name, and selects the folder name candidate matching the naming rule from among the folder name candidates as the folder of the document to be stored. The name is determined (step 109). According to the quotation shown in FIG. 3, the item name is specified as "quotation number:", and accordingly, the character string "180005" is selected as the item value corresponding to the item name "quotation number:". That is, the character string "180005" corresponding to "quotation number:" is determined as the folder name.

このようにして、本実施の形態では、格納済み文書がそれぞれ格納されているフォルダのフォルダ名を参照して、格納対象文書の格納先を決定する。 In this manner, in the present embodiment, the storage destination of the document to be stored is determined by referring to the folder name of the folder in which each stored document is stored.

上記例では、フォルダ名の候補はただ1つなので、命名規則との照合を実施しないようにしてよいし、確認のために照合するようにしてもよい。なお、命名規則に従うと、図3に示す見積書の金額は、全ての命名規則に合致する文字列“188000”が含まれている。しかしながら、項目名と項目値との位置規則性を考慮すると、項目値として選ばれない。このように、項目名と項目値との位置規則性及びフォルダの命名規則の双方を考慮することで、見積番号を正しく抽出することが可能となる。 In the above example, since there is only one folder name candidate, matching with the naming rule may not be performed, or the matching may be performed for confirmation. According to the naming rules, the amount of money in the quotation shown in FIG. 3 includes the character string "188000" that matches all the naming rules. However, considering the positional regularity between item names and item values, they are not selected as item values. In this way, it is possible to correctly extract the quotation number by considering both the positional regularity of the item names and item values and the folder naming rule.

以上のようにして、格納対象文書のフォルダ名を決定すると、格納先特定依頼元に前述した処理結果、すなわちフォルダ名を通知する。この結果、文書管理システムでは、“180005”という名称でフォルダを作成し、このフォルダに図3に示す見積書を格納する。このようにして格納対象文書がフォルダに格納された後の文書データベースにおいて見積書の格納領域の構造を図6に示す。 When the folder name of the document to be stored is determined as described above, the above-described process result, that is, the folder name, is notified to the storage destination identification requester. As a result, the document management system creates a folder with the name "180005" and stores the quotation shown in FIG. 3 in this folder. FIG. 6 shows the structure of the quotation storage area in the document database after the documents to be stored are stored in the folders in this manner.

なお、複数のフォルダ名の候補が抽出された場合、フォルダ名決定部14は、各命名規則の確度を提示して、ユーザに選択させるようにしてもよい。例えば、フォルダ名決定部14は、図3に示す格納対象文書である見積書のレイアウトと、各フォルダ名の候補における命名規則の確度とを表示させる。命名規則が複数存在する場合、フォルダ名決定部14は、次のようにして確度を算出してもよい。 When a plurality of folder name candidates are extracted, the folder name determination unit 14 may present the accuracy of each naming rule and allow the user to select one. For example, the folder name determining unit 14 displays the layout of the quotation, which is the document to be stored, shown in FIG. 3, and the accuracy of the naming rule for each folder name candidate. When there are a plurality of naming rules, the folder name determination unit 14 may calculate accuracy as follows.

例えば、項目名“見積番号:”に対応する項目値として“2500”及び“150”が抽出されたとする。ここで、第1規則「4桁の数字で、その確度は90%」及び第2規則「1で始まり、その確度は60%」という2つの命名規則があった場合、“2500”は、第1規則に合致し、第2規則に合致しないので、フォルダ名である確率は、0.9×(1-0.6)=0.36と算出できる。一方、“150”は、第1規則に合致せず、第2規則と合致するので、フォルダ名である確率は、(1-0.9)×0.6=0.06と算出できる。よって、フォルダ名の候補として“2500”及び“150”が抽出され、それぞれの確度は36%と6%であることをユーザに提示し、最終的にユーザに選択させるようにしてもよい。 For example, assume that "2500" and "150" are extracted as item values corresponding to the item name "Quotation number:". Here, if there are two naming conventions, the first rule is "a four-digit number with an accuracy of 90%" and the second rule is "begins with 1 and has an accuracy of 60%", then "2500" Since rule 1 is matched and rule 2 is not matched, the probability of being a folder name can be calculated as 0.9×(1−0.6)=0.36. On the other hand, "150" does not match the first rule but matches the second rule, so the probability of being a folder name can be calculated as (1−0.9)×0.6=0.06. Therefore, "2500" and "150" are extracted as folder name candidates, and the user may be presented with the respective accuracies of 36% and 6%, and finally selected by the user.

ところで、項目名と項目値との位置関係において、項目名の右側若しくは下側に項目値があるのが一般的である。従って、項目名の候補と項目値との位置規則性の確度に差が生じない場合、位置規則性の確度が項目名の候補に対応する項目値を特定するのに有効な指標とならない可能性が生じてくる。この場合、他の指標を参照するのが有効となる可能性がある。例えば、ある会社から見積書以外にも発注書や契約書等他の種類の文書を受け取っているとする。また、会社は、文書の種類に関係なく、共通の位置規則性に従い各文書を作成する場合がある。例えば、見積書における項目名“見積番号:”に対応する項目値(つまり、見積書の識別情報である見積番号)を項目名の右側に記載する企業においては、発注書における項目名“発注番号:”に対応する項目値(つまり、発注書の識別情報である発注番号)を項目名の右側に記載することが推測できる。契約書においても同様の規則に従い、項目値(つまり、契約書の識別情報である契約番号)を項目名“契約番号:”の右側に記載すると推測できる。このように、企業というくくりにおいて他の文書種別における項目名と項目値との位置関係を参照して、項目名の候補に対応する項目値を特定するようにしてもよい。これは、文書データベースにおいて、企業毎に文書をまとめて格納している場合に好適である。 By the way, regarding the positional relationship between the item name and the item value, it is common that the item value is on the right side or below the item name. Therefore, if there is no difference in the accuracy of location regularity between item name candidates and item values, the accuracy of location regularity may not be an effective index for identifying item values corresponding to item name candidates. occurs. In this case, it may be effective to refer to other indicators. For example, assume that you have received other types of documents such as purchase orders and contracts from a company in addition to quotations. Also, a company may create each document according to a common location regularity, regardless of the type of document. For example, in a company that describes the item value corresponding to the item name "Quotation Number:" in the quotation (that is, the quotation number that is the identification information of the quotation) on the right side of the item name, the item name "Purchase Order Number" in the purchase order It can be assumed that the item value corresponding to :” (that is, the order number, which is the identification information of the purchase order) is written on the right side of the item name. It can be assumed that the contract also follows the same rule, and the item value (that is, the contract number, which is the identification information of the contract) is written on the right side of the item name "contract number:". In this manner, the positional relationship between item names and item values in other document types may be referred to in the grouping of companies to specify item values corresponding to item name candidates. This is suitable when documents are collectively stored for each company in the document database.

図7は、本実施の形態において文書の格納領域の構造を示す図である。図4では、見積書(ファイル名は、“見積回答書.pdf”)の格納領域を示したが、図7では、“見積関連フォルダ”をルートフォルダとする、見積に関連する文書を格納するフォルダの構造が示されている。具体的には、見積書の他に発注依頼書が同じフォルダに格納される例が示されている。 FIG. 7 is a diagram showing the structure of a document storage area in this embodiment. FIG. 4 shows the storage area for the quotation (the file name is “Quotation Reply.pdf”). Folder structure is shown. Specifically, an example is shown in which an order request form is stored in the same folder as well as an estimate form.

この場合、図2を用いて説明したステップ103の処理では、発注依頼書も合わせて取得してしまうことになる。そこで、本実施の形態においては、文書種別が指定されると、その指定された文書種別に該当する文書のみを抽出できるように、例えば、関連文書情報取得部12は、所定の検索語を指定して文書をフォルダから抽出するように処理する。例えば、格納対象文書が見積書の場合、関連文書情報取得部12は、“*見積*”というワイルドカードを含む検索語によって見積関連フォルダから、所望の見積書のみを抽出する。 In this case, in the process of step 103 described with reference to FIG. 2, the order request form is also obtained. Therefore, in the present embodiment, when a document type is designated, the related document information acquisition unit 12, for example, designates a predetermined search term so that only documents corresponding to the designated document type can be extracted. to extract the document from the folder. For example, if the document to be stored is an estimate, the related document information acquisition unit 12 extracts only the desired estimate from the estimate-related folder using a search term including a wildcard "*estimate*".

図8は、本実施の形態において見積書の格納領域の他の構造を示す図である。文書を格納する場合、フォルダを事前に作成しておく場合がある。例えば、ある企業に見積依頼をする際、見積番号を付与するが、これと合わせて見積回答を受け取る前に文書データベースにフォルダを作成して準備しておく場合がある。図8には、見積番号が“180005”及び“180009”というフォルダが事前に作成された場合の例が示されている。この2つのフォルダには、“見積回答書.pdf”が格納されていない空のフォルダであることから、事前準備により作成されていると判断できる。 FIG. 8 is a diagram showing another structure of the quotation storage area in this embodiment. When storing documents, folders may be created in advance. For example, when requesting an estimate from a company, an estimate number is given, and a folder may be created and prepared in the document database before receiving an estimate response. FIG. 8 shows an example in which folders with quotation numbers "180005" and "180009" are created in advance. Since these two folders are empty folders in which "Quotation Reply.pdf" is not stored, it can be determined that they have been prepared in advance.

ここで、格納先特定依頼受付部11が見積書を取得した場合、フォルダ名決定部14は、前述したように処理することで見積書の格納先となるフォルダのフォルダ名を決定してもよいが、見積回答書フォルダ以下のフォルダを参照し、その中から“見積回答書.pdf”が格納されていない空のフォルダのフォルダ名(つまり、“180005”及び“180009”)を項目値(つまり、見積番号)の候補として事前に取得しておく。これにより、格納対象文書となる見積書から項目名に近傍する文字列が複数抽出されたとしても、フォルダ名決定部14は、“180005”又は“180009”に該当する文字列を見積番号、すなわち格納対象文書となる見積書を格納するフォルダのフォルダ名の候補として事前に絞り込んでおくことができ、この中からフォルダ名を決定することができる。 Here, when the storage destination identification request reception unit 11 acquires the quotation, the folder name determination unit 14 may determine the folder name of the folder that will be the storage destination of the quotation by performing the processing as described above. refers to the folders under the quotation reply form folder, and among them, the folder names of empty folders that do not contain "quotation reply form.pdf" (i.e., "180005" and "180009") , estimate number) in advance. As a result, even if a plurality of character strings close to the item name are extracted from the quotation as the document to be stored, the folder name determining unit 14 assigns the character string corresponding to "180005" or "180009" to the quotation number, that is, Candidates for the folder name of the folder that stores the quotation that is the document to be stored can be narrowed down in advance, and the folder name can be determined from among them.

以上説明したように、本実施の形態によれば、見積番号と同一名称のフォルダに見積書を格納する場合において、格納対象文書と同じ文書種別である見積書であって格納済み文書となる見積書と、当該格納済み文書となる見積書のフォルダのフォルダ名との関係から、格納対象文書となる見積書の格納先となるフォルダのフォルダ名を特定することができる。 As described above, according to the present embodiment, when a quotation is stored in a folder with the same name as the quotation number, the quotation has the same document type as the document to be stored and is a stored document. Based on the relationship between the document and the folder name of the folder of the quotation that is the stored document, it is possible to specify the folder name of the folder that will be the storage destination of the quotation that will be the storage target document.

なお、上記説明では、文書の種別として見積書を例にして説明したが、他の種別の文書にも適用できることは言うまでもない。 In the above description, an estimate is used as an example of the type of document, but it goes without saying that this can be applied to other types of documents as well.

10 情報処理装置、11 格納先特定依頼受付部、12 関連文書情報取得部、13 解析部、14 フォルダ名決定部、15 項目名候補情報記憶部、16 命名規則記憶部、131 項目名候補抽出部、132 命名規則抽出部。 10 information processing device 11 storage destination identification request receiving unit 12 related document information acquisition unit 13 analysis unit 14 folder name determination unit 15 item name candidate information storage unit 16 naming rule storage unit 131 item name candidate extraction unit , 132 nomenclature extractor.

Claims (8)

格納先への格納対象とする文書を取得する取得手段と、
前記格納対象とする文書と同じ種別の複数の格納済みの文書それぞれに記述されている当該格納済みの文書の識別情報であって当該格納済みの文書の格納先の格納先名称と合致する識別情報の近傍に、前記複数の格納済みの文書に共通して記述されている文字列を当該識別情報の項目名として抽出する項目名抽出手段と、
前記複数の格納済みの文書がそれぞれ格納されている格納先の格納先名称に共通している命名規則を抽出する命名規則抽出手段と、
前記取得手段が取得した文書に記述されている前記項目名の近傍に記述されている文字列であって前記命名規則に合致する文字列を、前記格納対象とする文書の格納先の格納先名称として決定する決定手段と、
を有することを特徴とする情報処理装置。
Acquisition means for acquiring a document to be stored in a storage destination;
Identification information of a stored document described in each of a plurality of stored documents of the same type as the document to be stored, and identification information that matches the storage destination name of the storage destination of the stored document. item name extracting means for extracting, as an item name of the identification information, a character string commonly described in the plurality of stored documents near the
a naming rule extracting means for extracting a naming rule common to names of storage destinations in which the plurality of stored documents are respectively stored;
A storage destination name of the storage destination of the document to be stored, which is a character string described near the item name described in the document acquired by the acquisition means and which matches the naming rule. a determining means for determining as
An information processing device comprising:
前記項目名抽出手段は、複数の文字列を前記識別情報の項目名の候補として抽出する場合、文字列毎に前記識別情報の項目名としての確度を算出することを特徴とする請求項1に記載の情報処理装置。 2. The method according to claim 1, wherein, when extracting a plurality of character strings as candidates for the item name of the identification information, the item name extracting means calculates accuracy as the item name of the identification information for each character string. The information processing device described. 前記決定手段は、前記複数の格納済みの文書がそれぞれ格納されている格納先の格納先名称を参照して前記文書の識別情報に対応する項目名を決定することを特徴とする請求項1又は2に記載の情報処理装置。 2. The determining means determines an item name corresponding to the identification information of the document by referring to a storage location name of a storage location in which each of the plurality of stored documents is stored. 3. The information processing device according to 2. 前記命名規則抽出手段は、複数の命名規則を抽出する場合、命名規則毎に規則としての確度を算出することを特徴とする請求項1に記載の情報処理装置。 2. The information processing apparatus according to claim 1, wherein said naming rule extracting means, when extracting a plurality of naming rules, calculates accuracy as a rule for each naming rule. 前記決定手段は、前記命名規則抽出手段が算出した前記各命名規則の確度をユーザに提示することを特徴とする請求項4に記載の情報処理装置。 5. An information processing apparatus according to claim 4, wherein said determining means presents the accuracy of each of said naming rules calculated by said naming rule extracting means to a user. 前記項目名抽出手段は、前記複数の格納済みの文書がそれぞれ格納されている格納先に前記格納対象とする文書と異なる種別の文書が合わせて格納されている場合、当該格納先に格納されている文書に記述されている文書種別名が、前記格納対象とする文書の文書種別を表している文書を、前記複数の格納済みの文書として抽出することを特徴とする請求項1に記載の情報処理装置。 When a document of a type different from the document to be stored is also stored in the storage location where the plurality of stored documents are stored, the item name extraction means stores the document in the storage location. 2. The information according to claim 1, wherein a document whose document type name described in the stored document indicates the document type of the document to be stored is extracted as the plurality of stored documents. processing equipment. 前記決定手段は、前記複数の格納済みの文書がそれぞれ格納されている格納先を格納する格納先の中に、前記格納対象とする文書と同じ種別の文書が登録されていない格納先がある場合、当該格納先の格納先名称を、前記格納対象とする文書の格納先の格納先名称の候補とすることを特徴とする請求項1に記載の情報処理装置。 The determination means determines if there is a storage destination in which a document of the same type as the document to be stored is not registered among the storage destinations in which the plurality of stored documents are respectively stored. 2. The information processing apparatus according to claim 1, wherein the storage location name of the storage location is used as a candidate for the storage location name of the storage location of the document to be stored. コンピュータを、
格納先への格納対象とする文書を取得する取得手段、
前記格納対象とする文書と同じ種別の複数の格納済みの文書それぞれに記述されている当該格納済みの文書の識別情報であって当該格納済みの文書の格納先の格納先名称と合致する識別情報の近傍に、前記複数の格納済みの文書に共通して記述されている文字列を当該識別情報の項目名として抽出する項目名抽出手段、
前記複数の格納済みの文書がそれぞれ格納されている格納先の格納先名称に共通している命名規則を抽出する命名規則抽出手段、
前記取得手段が取得した文書に記述されている前記項目名の近傍に記述されている文字列であって前記命名規則に合致する文字列を、前記格納対象とする文書の格納先の格納先名称として決定する決定手段、
として機能させるためのプログラム。
the computer,
acquisition means for acquiring a document to be stored in a storage destination;
Identification information of a stored document described in each of a plurality of stored documents of the same type as the document to be stored, and identification information that matches the storage destination name of the storage destination of the stored document. Item name extracting means for extracting, as an item name of the identification information, a character string commonly described in the plurality of stored documents near the
naming rule extracting means for extracting a naming rule common to names of storage locations in which the plurality of stored documents are respectively stored;
A storage destination name of the storage destination of the document to be stored, which is a character string described near the item name described in the document acquired by the acquisition means and which matches the naming rule. Determining means for determining as
A program to function as
JP2019054542A 2019-03-22 2019-03-22 Information processing device and program Active JP7272037B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019054542A JP7272037B2 (en) 2019-03-22 2019-03-22 Information processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019054542A JP7272037B2 (en) 2019-03-22 2019-03-22 Information processing device and program

Publications (2)

Publication Number Publication Date
JP2020154962A JP2020154962A (en) 2020-09-24
JP7272037B2 true JP7272037B2 (en) 2023-05-12

Family

ID=72559331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019054542A Active JP7272037B2 (en) 2019-03-22 2019-03-22 Information processing device and program

Country Status (1)

Country Link
JP (1) JP7272037B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7489361B2 (en) 2021-09-30 2024-05-23 ウイングアーク1st株式会社 Information processing system and information processing device
JP7373821B1 (en) 2023-04-05 2023-11-06 株式会社Tokium Programs, computers and information processing methods

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234708A (en) 2004-02-17 2005-09-02 Ricoh Co Ltd Image forming apparatus, image data storing method and program
JP2008131189A (en) 2006-11-17 2008-06-05 Ricoh Co Ltd Document management system, document management method, and document management program
JP2018128996A (en) 2017-02-10 2018-08-16 キヤノン株式会社 Information processing device, control method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234708A (en) 2004-02-17 2005-09-02 Ricoh Co Ltd Image forming apparatus, image data storing method and program
JP2008131189A (en) 2006-11-17 2008-06-05 Ricoh Co Ltd Document management system, document management method, and document management program
JP2018128996A (en) 2017-02-10 2018-08-16 キヤノン株式会社 Information processing device, control method, and program

Also Published As

Publication number Publication date
JP2020154962A (en) 2020-09-24

Similar Documents

Publication Publication Date Title
US11450125B2 (en) Methods and systems for automated table detection within documents
US11816571B2 (en) Named entity recognition with convolutional networks
US9025890B2 (en) Information classification device, information classification method, and information classification program
JP5670787B2 (en) Information processing apparatus, form type estimation method, and form type estimation program
US8418050B2 (en) Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
JP6357621B1 (en) Accounting processing apparatus, accounting processing system, accounting processing method and program
US20190362143A1 (en) Information processing apparatus and non-transitory computer readable medium
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US11615244B2 (en) Data extraction and ordering based on document layout analysis
JP7272037B2 (en) Information processing device and program
US11880435B2 (en) Determination of intermediate representations of discovered document structures
US20150278747A1 (en) Methods and systems for crowdsourcing a task
CN111651552A (en) Structured information determination method and device and electronic equipment
US8010564B2 (en) Logical structure analyzing apparatus, method, and computer product
US11010393B2 (en) Library search apparatus, library search system, and library search method
JP2021033325A (en) Image processing device, control method thereof and program
JP7312646B2 (en) Information processing device, document identification method, and information processing system
CN117813601A (en) System and method for enabling relevant data to be extracted from multiple documents
JP7377565B2 (en) Drawing search device, drawing database construction device, drawing search system, drawing search method, and program
JP6623547B2 (en) Information processing apparatus and information processing program
CN117556078B (en) Visual vehicle registration certificate file management method and device and electronic equipment
JP2009223391A (en) Image processor and image processing program
JP7378939B2 (en) Information processing device, information processing method, and program
US20220019835A1 (en) Image processing system, apparatus, method, and storage medium
JP6663329B2 (en) Character recognition device and character recognition method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230410

R150 Certificate of patent or registration of utility model

Ref document number: 7272037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150