JP2006092193A - Document processor and program - Google Patents

Document processor and program Download PDF

Info

Publication number
JP2006092193A
JP2006092193A JP2004275895A JP2004275895A JP2006092193A JP 2006092193 A JP2006092193 A JP 2006092193A JP 2004275895 A JP2004275895 A JP 2004275895A JP 2004275895 A JP2004275895 A JP 2004275895A JP 2006092193 A JP2006092193 A JP 2006092193A
Authority
JP
Japan
Prior art keywords
category
data
sentence
document
represented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004275895A
Other languages
Japanese (ja)
Inventor
Hiroshi Masuichi
博 増市
Tsuguaki Ryu
紹明 劉
Michihiro Tamune
道弘 田宗
Masatoshi Tagawa
昌俊 田川
Kiyoshi Tashiro
潔 田代
Atsushi Ito
篤 伊藤
Kyosuke Ishikawa
恭輔 石川
Naoko Sato
直子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004275895A priority Critical patent/JP2006092193A/en
Publication of JP2006092193A publication Critical patent/JP2006092193A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To specify, in detail, a category of a quantity expressed by numerical value expression described in a document to be digitized. <P>SOLUTION: This document processor associating one or more nouns and category data expressing the category of the quantity that is a numerical value imparted with a unit and stores them analyzes inputted document data, and extracts sentence data expressing a sentence including the numerical value expression that is a character string expressing the numerical value imparted with the unit. The document processor analyzes the sentence data, generates a set of the nouns included in the sentence data, and specifies the category expressed by the category data stored in association with the one or more nouns each having a highest degree of similarity with the set as the category of the quantity expressed by the numerical value expression included in the sentence expressed by the sentence data extracted by an extraction means. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

紙文書を電子化して蓄積する技術に関し、特に、紙文書に記載されている情報から特定の種類の情報を抽出する技術に関する。   More particularly, the present invention relates to a technique for extracting a specific type of information from information described in a paper document.

紙文書(以下、単に「文書」ともいう)は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するために書庫などのスペースが必要になる、といった問題点がある。また、情報を紙文書に記録して保存している場合、後にその紙文書に記録された情報が必要になったときには、書庫などに収納されている多くの紙文書のなかから目的とする情報が記録された紙文書を探し出さなければならない。つまり、情報を紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。   Paper documents (hereinafter simply referred to as “documents”) are excellent media for transmitting and recording information, but the problem is that a space such as a library is required to store them. There is. In addition, when information is recorded on a paper document and saved, if the information recorded on the paper document is needed later, the target information can be selected from many paper documents stored in the archive. I have to find a paper document in which I was recorded. That is, the form of recording and storing information on a paper document is not preferable from the viewpoint of improving the efficiency of business.

このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、スキャナ装置などによって紙文書の各ページに対応する画像を読み取り、その画像に対応する画像データ(以下、「文書画像データ」と呼ぶ)を紙文書毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われるようになってきている。   Under such circumstances, paper documents are digitized and stored. Specifically, an image corresponding to each page of a paper document is read by a scanner device or the like, and image data corresponding to the image (hereinafter referred to as “document image data”) is filed for each paper document and stored on a hard disk or the like. Storage in a storage device has been performed.

ところで、紙文書を電子化して保存する際に、単にその紙文書に対応する文書画像データをファイル化して保存するのではなく、その紙文書に記載されている情報をその種類(以下、「カテゴリ」ともいう)毎に分類してデータベース化しておくと、情報の検索や各種統計処理を行う上で便利である。このようなことを可能にする技術の一例としては、電子化対象の紙文書から人名や地名、組織名などの固有名詞を抽出する技術が挙げられる(特許文献1)。
特開平07−021169号公報
By the way, when a paper document is digitized and stored, the document image data corresponding to the paper document is not simply stored as a file, but the information (hereinafter referred to as “category”) described in the paper document is stored. It is convenient to search for information and perform various statistical processes by classifying them into databases. As an example of a technique that enables this, there is a technique for extracting proper nouns such as a person name, a place name, and an organization name from a paper document to be digitized (Patent Document 1).
Japanese Patent Application Laid-Open No. 07-021169

ところで、紙文書の中には、上述した固有名詞の他に、何らかの金額や長さ、温度など単位が付与された数値(以下、「数量」と呼ぶ)を表す文字列(以下、「数値表現」と呼ぶ)が多数記載されたものがあり、その一例としては、決済書類や売上伝票などのビジネス文書が挙げられる。このようなビジネス文書を電子化する際には、上述した固有名詞の他に、これら数値表現を抽出しその数値表現の表す数量をそのカテゴリ毎に分類することが必要不可欠である。電子化対象の紙文書が日本語で記載されている場合には、数値表現をその紙文書に対応する文書画像データから抽出することは一般に容易である。何故ならば、このような数値表現は、数字や漢数字或いは「,」や「.」など位取りを表す記号が連続した数値部分を有し、かつ、その数値部分に単位を表す接頭辞(例えば、「¥」や「$」など)や接尾辞(例えば、「円」や「m」、「℃」など)が付与されているといった際だった特徴を有しているからである。更に、このような数値表現を上記接頭辞や上記接尾辞に基づいて、その数値表現の表す数値の大まかなカテゴリ(例えば、「金額」や「長さ」など)を特定することも容易である。   By the way, in a paper document, in addition to the proper nouns described above, a character string (hereinafter referred to as “numerical expression”) representing a numerical value (hereinafter referred to as “quantity”) to which a unit such as an amount of money, length, or temperature is given. ”), And business documents such as payment documents and sales slips are examples. When digitizing such a business document, it is indispensable to extract these numerical expressions in addition to the proper nouns described above and classify the quantities represented by the numerical expressions into categories. When a paper document to be digitized is written in Japanese, it is generally easy to extract a numerical expression from document image data corresponding to the paper document. This is because such a numerical expression has a numerical part in which symbols representing scales such as numbers, Chinese numerals, and “,” and “.” Are consecutive, and a prefix indicating the unit in the numerical part (for example, , “$”, “$”, Etc.) and suffixes (for example, “Yen”, “m”, “° C.”, etc.) are added. Furthermore, it is easy to specify a general category (for example, “amount”, “length”, etc.) of the numerical value represented by the numerical expression based on the prefix or the suffix. .

しかしながら、上述の如きビジネス文書を電子化してデータベースを作成する場合には、そのビジネス文書に記載されている数値表現を抽出したり、その数値表現の表す数量の大まかなカテゴリを特定するだけでは不充分である。何故ならば、例えば金額を表す数値表現について、その数値表現が「旅費」の金額を表しているのか、それとも、「売上金」の金額を表しているのかを特定せずにデータベース化したとしても、そのようなデータベースは経理処理などに利用できず、まったく役にたたないからである。   However, when creating a database by digitizing a business document as described above, it is not possible to extract a numerical expression described in the business document or specify a rough category of the quantity represented by the numerical expression. It is enough. Because, for example, for a numerical expression that represents money amount, even if it is databased without specifying whether the numerical expression represents the amount of "travel expenses" or the amount of "sales money" This is because such a database cannot be used for accounting, etc., and is useless at all.

本発明は、上記課題に鑑みて為されたものであり、電子化対象の文書に記載されている数値表現の表す数量のカテゴリを詳細に特定することを可能にする技術を提供することを目的としている。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a technique that makes it possible to specify in detail a category of a quantity represented by a numerical expression described in a document to be digitized. It is said.

上記課題を解決するために、本発明は、1または複数の名詞と、単位が付与された数値である数量のカテゴリを表すカテゴリデータと、を対応付けて複数記憶した記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、前記生成手段により生成された集合との類似の度合いが最も高い前記1または複数の名詞に対応付けて前記記憶手段に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段と、を有する文書処理装置を提供する。このような文書処理装置によれば、数値表現を含む文に含まれている名詞の集合との類似の度合いが最も高い1または複数の名詞に対応づけて上記記憶手段に記憶されているカテゴリデータの表すカテゴリが、その数値表現の表す数量のカテゴリとして特定される。   In order to solve the above problems, the present invention relates to a storage unit that stores one or more nouns and category data that represents a category of a quantity that is a numerical value to which a unit is assigned in association with each other, and an electronic document. An input means for inputting converted document data, and extracting the sentence data representing a sentence including a numerical expression which is a character string representing a numerical value to which a unit is assigned by analyzing the document data inputted to the input means Means for analyzing the sentence data extracted by the extracting means, extracting nouns included in the sentence represented by the sentence data, and generating the set; and the set generated by the generating means; The category represented by the category data stored in the storage unit in association with the one or more nouns having the highest degree of similarity is included in the sentence represented by the sentence data extracted by the extraction unit. To provide a document processing apparatus having a specifying means for specifying a category of the quantity represented by the numeric representation being. According to such a document processing device, category data stored in the storage means in association with one or more nouns having the highest degree of similarity to a set of nouns included in a sentence including numerical expressions. Is identified as the category of the quantity represented by the numerical expression.

より好ましい態様においては、前記カテゴリデータに対応付けて前記記憶手段に記憶されている前記1または複数の名詞は、数値表現とともに文を構成した場合にその数値表現の表す数量のカテゴリを定める名詞であることを特徴とする。   In a more preferred aspect, the one or more nouns stored in the storage means in association with the category data are nouns that define a category of a quantity represented by the numerical expression when a sentence is formed together with the numerical expression. It is characterized by being.

より好ましい態様においては、前記生成手段によって生成された集合に、前記特定手段によって特定されたカテゴリデータに対応付けて前記記憶手段に記憶されている前記1または複数の名詞以外の名詞が含まれいる場合には、その名詞をそのカテゴリデータに対応付けて前記記憶手段へ書き込む書き込み手段を有することを特徴とする。このような態様にあっては、前記特定手段によってカテゴリが特定された数量を表す数値表現とともに用いられていた名詞の集合に、上記カテゴリデータに対応付けて上記記憶手段に記憶されていた1または複数の名詞以外の名詞が含まれていた場合に、そのカテゴリデータに対応付けてその名詞が上記記憶手段へ書き込まれる。   In a more preferred aspect, the set generated by the generating means includes a noun other than the one or more nouns stored in the storage means in association with the category data specified by the specifying means. In this case, the information processing apparatus includes a writing unit that writes the noun in the storage unit in association with the category data. In such an aspect, the set of nouns used together with the numerical expression representing the quantity for which the category is specified by the specifying means is stored in the storage means in association with the category data or 1 When a noun other than a plurality of nouns is included, the noun is written to the storage means in association with the category data.

より好ましい態様においては、前記記憶手段には、単位が付与された数値である数量のカテゴリについての階層構造を表すとともに、各階層に含まれている1または複数のカテゴリを表す階層構造データが書き込まれており、前記特定手段は、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリを特定する際に、前記階層構造データの表す階層構造にしたがってその最上位の階層から順にカテゴリを特定するとともに、カテゴリを特定する階層に属する全てのカテゴリの各々を表すカテゴリデータに対応付けて前記記憶手段に記憶されている1または複数の名詞を参照して、その階層のカテゴリを特定することを特徴とする。このような態様にあっては、下位の階層に属するカテゴリを特定する際に、その階層に属する各カテゴリに対応付けて上記記憶手段に記憶されている名詞のみが参照され、不要なデータの参照が排除されるため、その特定精度が向上するといった効果を奏する。   In a more preferred aspect, the storage means represents a hierarchical structure for a quantity category, which is a numerical value to which a unit is assigned, and hierarchical structure data representing one or more categories included in each hierarchy is written. And the specifying means determines the category of the quantity represented by the numerical expression included in the sentence represented by the sentence data extracted by the extracting means according to the hierarchical structure represented by the hierarchical structure data. Specify the category in order from the highest hierarchy, and refer to one or more nouns stored in the storage means in association with the category data representing each of all categories belonging to the hierarchy specifying the category, The category of the hierarchy is specified. In such an aspect, when specifying a category belonging to a lower hierarchy, only the noun stored in the storage means in association with each category belonging to the hierarchy is referred to, and unnecessary data is referred to. Therefore, there is an effect that the identification accuracy is improved.

また、上記課題を解決するために、本発明は、コンピュータ装置を、文書を電子化した文書データが入力された場合に、その文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、単位が付与された数値である数量のカテゴリを表すカテゴリデータ毎に当該コンピュータ装置に記憶されている名詞の集合のうち、前記生成手段により生成された集合との類似の度合いが最も高い集合に対応付けて当該コンピュータ装置に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段として機能させるプログラムを提供する。このようなプログラムによれば、数値表現の属するカテゴリ毎にコンピュータ装置に記憶された名詞と、数値表現を含む文に含まれている名詞とに基づいてその文に含まれている数値表現の属するカテゴリが特定される。なお、本発明の別の態様にあっては、コンピュータ装置読み取り可能な記録媒体に上記プログラムを書き込んで提供するとしても良い。   Further, in order to solve the above-described problem, the present invention is a computer device that analyzes document data when document data obtained by digitizing a document is input, and uses a character string representing a numerical value to which a unit is assigned. Extraction means for extracting sentence data representing a sentence including a numerical expression, and analyzing the sentence data extracted by the extraction means, extracting nouns contained in the sentence represented by the sentence data and generating a set thereof The degree of similarity between the generating means to be generated and the set generated by the generating means among a set of nouns stored in the computer device for each category data representing a category of a quantity that is a numerical value assigned with a unit. The number included in the sentence represented by the sentence data extracted by the extracting means, the category represented by the category data stored in the computer device in association with the highest set Providing a program to function as a specifying means for specifying a category of the quantity represented by the expression. According to such a program, the numerical expression included in the sentence belongs based on the noun stored in the computer device for each category to which the numerical expression belongs and the noun included in the sentence including the numerical expression. A category is identified. In another aspect of the present invention, the program may be written and provided in a computer-readable recording medium.

本発明によれば、電子化対象の文書に記載されている数値表現を抽出することやその数値表現の単位に応じた大まかカテゴリを特定するのみならず、その数値表現の表す数量のカテゴリを詳細に特定することが可能になる。   According to the present invention, not only the numerical expression described in the document to be digitized is extracted and the rough category according to the unit of the numerical expression is specified, but the quantity category represented by the numerical expression is detailed. It becomes possible to specify.

以下、図面を参照しつつ本発明を実施する際の最良の形態について説明する。
(A:構成)
図1は、本発明の1実施形態に係る文書処理装置110を有する文書電子化システム10の構成例を示すブロック図である。図1の画像読取装置120は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ読み取り、読み取った画像に対応する文書画像データをLAN(Local Area Network)などの通信線130を介して文書処理装置110へ引渡すものである。なお、本実施形態では、通信線130がLANである場合について説明するが、WAN(Wide Area Network)やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置110と画像読取装置120とを夫々個別のハードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線130は、係るハードウェア内で文書処理装置110と画像読取装置120とを接続する内部バスである。
The best mode for carrying out the present invention will be described below with reference to the drawings.
(A: Configuration)
FIG. 1 is a block diagram showing a configuration example of a document digitizing system 10 having a document processing apparatus 110 according to an embodiment of the present invention. An image reading device 120 in FIG. 1 is a scanner device having an automatic paper feeding mechanism such as an ADF (Auto Document Feeder), for example, reads a paper document set in the ADF page by page, and a document corresponding to the read image. The image data is delivered to the document processing apparatus 110 via a communication line 130 such as a LAN (Local Area Network). In the present embodiment, the case where the communication line 130 is a LAN will be described, but it is needless to say that a WAN (Wide Area Network), the Internet, or the like may be included. In the present embodiment, the document processing apparatus 110 and the image reading apparatus 120 are described as separate hardware, but it is needless to say that both may be configured as integral hardware. In such an aspect, the communication line 130 is an internal bus that connects the document processing apparatus 110 and the image reading apparatus 120 within the hardware.

図1の文書処理装置110は、画像読取装置120から引渡された文書画像データをファイル化して記憶し蓄積するものであり、図2に示す構成を有している。図2に示されているように、文書処理装置110は、制御部200と、通信インターフェイス(以下、IF)部210と、記憶部220と、これら各構成要素間のデータ授受を仲介するバス230と、を備えている。   The document processing apparatus 110 in FIG. 1 stores and accumulates document image data delivered from the image reading apparatus 120 as a file, and has the configuration shown in FIG. As shown in FIG. 2, the document processing apparatus 110 includes a control unit 200, a communication interface (hereinafter referred to as IF) unit 210, a storage unit 220, and a bus 230 that mediates data exchange between these components. And.

制御部200は、例えばCPU(Central Processing Unit)であり、後述する記憶部220に記憶されている各種ソフトウェアを実行することによって、文書処理装置110の各部を制御するものである。通信IF部210は、通信線130を介して画像読取装置120に接続されており、この通信線130を介して画像読取装置120から送られてくる文書画像データを受取り、制御部200へ引渡すものである。つまり、この通信IF部210は、画像読取装置120から送られてくる文書画像データが入力される入力手段として機能する。   The control unit 200 is a CPU (Central Processing Unit), for example, and controls each unit of the document processing apparatus 110 by executing various kinds of software stored in a storage unit 220 described later. The communication IF unit 210 is connected to the image reading device 120 via the communication line 130, receives the document image data sent from the image reading device 120 via the communication line 130, and delivers it to the control unit 200. It is. That is, the communication IF unit 210 functions as an input unit to which document image data sent from the image reading device 120 is input.

記憶部220は、図2に示されているように、揮発性記憶部220aと不揮発性記憶部220bとを含んでいる。揮発性記憶部220aは、例えばRAM(Random Access Memory)であり、後述する各種ソフトウェアにしたがって作動している制御部200によってワークエリアとして利用される。一方、不揮発性記憶部220bは、例えば、ハードディスクであり、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのデータや各種ソフトウェアが格納されている。また、この不揮発性記憶部220bには、上記文書画像データがファイル化されて書き込まれる。   As shown in FIG. 2, the storage unit 220 includes a volatile storage unit 220a and a nonvolatile storage unit 220b. The volatile storage unit 220a is, for example, a RAM (Random Access Memory), and is used as a work area by the control unit 200 operating according to various software described below. On the other hand, the non-volatile storage unit 220b is, for example, a hard disk, and stores data and various software for causing the control unit 200 to realize functions unique to the document processing apparatus according to the present invention. The document image data is filed and written in the nonvolatile storage unit 220b.

不揮発性記憶部220bに格納されているデータの一例としては、数値表現の表す数量のカテゴリの階層構造を表す階層構造データと、数値表現の表す数量のカテゴリとその数値表現を含む文に含まれている1または複数の名詞との対応関係を表す対応関係データとが挙げられる。これら階層構造データと対応関係データとは、通信IF部210を介して入力された文書画像データに対応する文書(すなわち、電子化対象の紙文書)に記載されている数値表現の表す数量のカテゴリを、その数値表現を含む文に含まれている名詞に基づいて特定する際に用いられる分類辞書としての役割を担っている。なお、以下では、上記階層構造データと対応関係データとの組を分類辞書とも呼ぶ。   Examples of data stored in the non-volatile storage unit 220b include hierarchical structure data representing the hierarchical structure of the quantity category represented by the numerical expression, and a sentence including the quantity category represented by the numerical expression and the numerical expression thereof. And correspondence data representing the correspondence with one or more nouns. These hierarchical structure data and correspondence data are categories of quantities represented by numerical expressions described in a document (that is, a paper document to be digitized) corresponding to document image data input via the communication IF unit 210. Plays a role as a classification dictionary that is used when specifying a word based on a noun included in a sentence including the numerical expression. Hereinafter, a set of the hierarchical structure data and the correspondence data is also referred to as a classification dictionary.

例えば、金額についての数値表現(以下、「金額表現」ともいう)の表す数量のカテゴリについての階層構造の一例としては、図3に示す階層構造が挙げられる。図3に例示されている階層構造は、金額表現の表す数量(すなわち、金額)が「旅費」、「購買費」、「ロイヤルティ」、「光熱費」、「学会費」および「採用活動費」の6つのカテゴリに分類されること、「旅費」が更に「宿泊費」と「交通費」とに細分されること、「購買費」が更に「市販ソフトウェア購入費」と「雑誌・資料購入費」とに細分されること、を表している。   For example, an example of a hierarchical structure for a quantity category represented by a numerical expression for money (hereinafter also referred to as “money expression”) is the hierarchical structure shown in FIG. In the hierarchical structure illustrated in FIG. 3, the quantity represented by the monetary expression (that is, the monetary amount) is “travel expenses”, “purchasing expenses”, “loyalty”, “utility expenses”, “conference expenses”, and “recruitment activity expenses”. "Travel expenses" is further subdivided into "accommodation expenses" and "transportation expenses", "purchasing expenses" are further divided into "commercial software purchase expenses" and "magazine / material purchases" It is subdivided into “cost”.

一方、対応関係データの一例としては、図4(a)、図4(b)および図4(c)に示すデータが挙げられる。図4に示す対応関係データの各々には、金額表現の表す数量のカテゴリを表すカテゴリデータ(例えば、カテゴリを表す文字列データ)と1または複数の名詞(素性ともいう)とが含まれている。例えば、図4(a)に示す対応関係データは、「東京、名古屋、新幹線、特急、料金、請求」を含む文に含まれている金額表現の表す数量のカテゴリは「交通費」であることを表しており、この対応関係データに含まれている各名詞は、「東京から名古屋までの新幹線の特急料金として7890円を請求いたします」という文から抽出されたものである。なお、本実施形態では、金額表現を含んでいる文に含まれている1または複数の名詞と、その金額表現の表す数量のカテゴリを表すカテゴリデータとを対応付けて対応関係データを生成する場合について説明した。しかしながら、係る対応関係データに含まれている1または複数の名詞は、金額表現とともに必ず文を構成しなければならないものではないことは勿論である。要は、あるカテゴリの数量を表す金額表現とともに文を構成する可能性が高い名詞であれば十分であり、金額表現とともに文を構成した場合にその金額表現の表す数量(すなわち、金額)のカテゴリを定める名詞であれば良い。   On the other hand, examples of the correspondence data include data shown in FIGS. 4A, 4B, and 4C. Each of the correspondence relationship data shown in FIG. 4 includes category data representing a quantity category represented by monetary expression (for example, character string data representing a category) and one or more nouns (also referred to as features). . For example, in the correspondence data shown in FIG. 4A, the category of the quantity represented by the monetary expression included in the sentence including “Tokyo, Nagoya, Shinkansen, limited express, fee, billing” is “transportation expense”. Each noun contained in the correspondence data is extracted from the sentence “I will charge 7890 yen as an express fare for the Shinkansen from Tokyo to Nagoya”. In the present embodiment, the correspondence data is generated by associating one or more nouns included in the sentence including the monetary expression with the category data representing the quantity category represented by the monetary expression. Explained. However, it is needless to say that one or more nouns included in the correspondence data do not necessarily constitute a sentence together with a monetary expression. In short, a noun that suffices to compose a sentence with a monetary expression that represents the quantity of a certain category is sufficient, and when composing a sentence with a monetary expression, the category of the quantity represented by that monetary expression (ie, monetary amount) Any noun that defines

また、図4(b)に示す対応関係データは、「ホテル、3泊、費用」を含む文に含まれている金額表現の表す数量のカテゴリは「宿泊費」であることを表している。なお、図4(b)に示す対応関係データに含まれている各名詞は、「ホテルでの3泊の宿泊費用は4万5千円になりました」という文から抽出されたものである。   Also, the correspondence relationship data shown in FIG. 4B indicates that the category of the quantity represented by the monetary expression included in the sentence including “hotel, 3 nights, expense” is “accommodation expense”. Each noun included in the correspondence data shown in FIG. 4 (b) is extracted from the sentence “The hotel cost for 3 nights at a hotel is 45,000 yen”. .

また、図4(c)に示す対応関係データは、「雑誌、購入、費用」を含む文に含まれている金額表現の表す数量のカテゴリは「書籍―資料購入費」であることを表している。なお、図4(c)に示す対応関係データに含まれている各名詞は、「雑誌の購入費用は6,000円でした」という文から抽出されたものである。   Further, the correspondence data shown in FIG. 4C indicates that the category of the quantity represented by the monetary expression included in the sentence including “magazine, purchase, expense” is “book-material purchase expense”. Yes. Each noun included in the correspondence data shown in FIG. 4C is extracted from the sentence “The purchase cost of the magazine was 6,000 yen”.

上述したことから明らかなように、対応関係データに含まれている各名詞は、金額表現とともに文を構成した場合にその金額表現の表す数量(すなわち、金額)のカテゴリを定めるといった特徴を有している。このため、本実施形態に係る文書処理装置110によれば、図3に示す階層構造を表す階層構造データと、図4(a)、図4(b)および図4(C)に示す対応関係データとが不揮発性記憶部220bに格納されている状況下で、「東京から名古屋までの新幹線の特急料金として5000円を請求いたします」という文が記載された文書に対応する文書画像データが入力されると、その文に含まれている名詞は図4(a)に示す対応関係データに含まれている名詞と一致するため、その文に含まれている金額表現(すなわち、“5000円”)の表す数量のカテゴリは “交通費”であると特定される。   As is clear from the above, each noun included in the correspondence data has a feature that, when a sentence is constructed with a monetary expression, the category of the quantity (that is, monetary) represented by the monetary expression is determined. ing. Therefore, according to the document processing apparatus 110 according to the present embodiment, the hierarchical structure data representing the hierarchical structure shown in FIG. 3 and the correspondence relationships shown in FIGS. 4 (a), 4 (b), and 4 (C). The document image data corresponding to the document in which the sentence “5000 yen is charged as an express charge for the Shinkansen from Tokyo to Nagoya” is input under the condition that the data is stored in the nonvolatile storage unit 220b. Then, since the noun included in the sentence matches the noun included in the correspondence data shown in FIG. 4A, the monetary expression included in the sentence (ie, “5000 yen”). The category of quantity represented by) is specified as “transportation expenses”.

一方、不揮発性記憶部220bに格納されているソフトウェアの一例としては、オペレーティングシステム(Operating System 以下、「OS」)を制御部200に実現させるためのOSソフトウェアや、紙文書電子化ソフトウェアが挙げられる。ここで、紙文書電子化ソフトウェアとは、画像読取装置120から送られた文書画像データに対応する文書に記載されている数値表現を抽出し、その数値表現の表す数量のカテゴリを上記分類辞書に基づいて特定する処理を制御部200に実行させるためのソフトウェアである。以下、これらソフトウェアを実行することによって制御部200に付与される機能について説明する。   On the other hand, examples of software stored in the non-volatile storage unit 220b include OS software for causing the control unit 200 to implement an operating system (hereinafter referred to as “OS”) and paper document digitization software. . Here, the paper document digitization software extracts the numerical expression described in the document corresponding to the document image data sent from the image reading device 120, and the category of the quantity represented by the numerical expression is stored in the classification dictionary. This is software for causing the control unit 200 to execute processing specified based on the above. Hereinafter, functions provided to the control unit 200 by executing these software will be described.

文書処理装置110の電源(図示省略)が投入されると、制御部200は、まず、OSソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。OSソフトウェアにしたがって作動しOSを実現している状態の制御部200には、文書処理装置110の各部を制御する機能や、他のソフトウェアを不揮発性記憶部220bから読み出して実行する機能などが付与される。本実施形態では、上記OSソフトウェアの実行を完了し、OSを実現している状態の制御部200は、即座に、上記紙文書電子化ソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。図5は、紙文書電子化ソフトウェアにしたがって作動している制御部200が行うカテゴリ特定処理の流れを示すフローチャートである。図5に示されているように、上記紙文書電子化ソフトウェアにしたがって作動している制御部200には、以下に述べる3つの機能が付与される。   When the power (not shown) of the document processing apparatus 110 is turned on, the control unit 200 first reads the OS software from the nonvolatile storage unit 220b and executes it. The control unit 200 operating according to the OS software and realizing the OS is provided with a function for controlling each unit of the document processing apparatus 110 and a function for reading out and executing other software from the nonvolatile storage unit 220b. Is done. In the present embodiment, the control unit 200 that completes the execution of the OS software and realizes the OS immediately reads the paper document digitizing software from the nonvolatile storage unit 220b and executes it. FIG. 5 is a flowchart showing the flow of the category specifying process performed by the control unit 200 operating according to the paper document digitizing software. As shown in FIG. 5, the control unit 200 operating according to the paper document digitizing software is given the following three functions.

第1に、通信IF部210を介して文書画像データが入力された場合に、その文書画像データをOCR(Optical Character Recognition )などによって解析し、その文書画像データに対応する紙文書に記載されている文を表す文データを抽出する抽出機能である。本実施形態では、上記紙文書に記載されている文のうち、金額表現を含む文についての文データのみを上記抽出機能によって抽出する。なお、このように金額表現を含む文を表す文データのみを選択的に抽出するには、金額の単位を表す文字(例えば、円)や記号(例えば、¥)を含んでいる数値表現を含む文についてのみ、その文を表す文データを抽出するようにすれば良い。   First, when document image data is input via the communication IF unit 210, the document image data is analyzed by OCR (Optical Character Recognition) or the like, and is described in a paper document corresponding to the document image data. This is an extraction function that extracts sentence data representing a sentence. In the present embodiment, only the sentence data for a sentence including a monetary expression among the sentences described in the paper document is extracted by the extraction function. In order to selectively extract only sentence data representing a sentence including a monetary expression in this way, a numerical expression including a character (for example, yen) or a symbol (for example, \) representing a monetary unit is included. Only for the sentence, sentence data representing the sentence may be extracted.

第2に、上記抽出機能によって抽出された文データに形態素解析を施し、該文データの表す文に含まれている名詞を全て抽出してその集合を生成する生成機能である。そして、第3に、上記生成機能によって生成された集合と、上記分類辞書(すなわち、不揮発性記憶部220bに格納されている階層構造データと対応関係データ)とに基づいて、上記文データの表す文に含まれている金額表現の表す数量のカテゴリを特定する特定機能である。より詳細に説明すると、本実施形態では、上記生成機能によって生成された集合との類似の度合いが最も高い1または複数の名詞(すなわち、名詞の集合)を含んでいる対応関係データに含まれているカテゴリデータの表すカテゴリを上記金額表現の表す数量のカテゴリとして上記特定機能によって特定する。なお、集合同士の類非を判定する手法としては、例えば、ベクトル空間法などの周知技術を用いるようにすれば良い。   Second, a generation function that performs morphological analysis on the sentence data extracted by the extraction function, extracts all nouns included in the sentence represented by the sentence data, and generates a set thereof. Third, the sentence data is represented based on the set generated by the generation function and the classification dictionary (that is, the hierarchical structure data and the correspondence data stored in the nonvolatile storage unit 220b). This is a specific function that specifies the category of the quantity represented by the monetary expression included in the sentence. More specifically, in the present embodiment, it is included in the correspondence data including one or more nouns (that is, a set of nouns) having the highest degree of similarity to the set generated by the generation function. The category represented by the category data is identified by the identifying function as the category of the quantity represented by the monetary expression. In addition, as a method for determining the similarity between sets, for example, a known technique such as a vector space method may be used.

以上に説明したように、本実施形態に係る文書処理装置110のハードウェア構成は一般的なコンピュータ装置と同一であり、不揮発性記憶部220bに格納されている各種ソフトウェアにしたがって制御部200を作動させることによって、本発明に係る文書処理装置に特有な機能が実現される。このように、本実施形態では、本発明に係る文書処理装置に特有な機能をソフトウェアモジュールで実現する場合について説明したが、これらの機能を担っているハードウェアモジュールで本発明に係る文書処理装置を構成するとしても良いことは勿論である。具体的には、画像読取装置120から文書画像データが入力される入力手段と、上記分類辞書が格納された記憶手段と、上記抽出機能を担っている抽出手段と、上記生成機能を担っている生成手段と、上記特定機能を担っている特定手段とを夫々ハードウェアモジュールで実現し、これらハードウェアモジュールを図5に示すフローチャートにしたがって連携作動させるように組み合わせて、本発明に係る文書処理装置を構成するとしても良い。   As described above, the hardware configuration of the document processing apparatus 110 according to the present embodiment is the same as that of a general computer apparatus, and the control unit 200 operates according to various software stored in the nonvolatile storage unit 220b. By doing so, functions specific to the document processing apparatus according to the present invention are realized. As described above, in the present embodiment, the case where the functions specific to the document processing apparatus according to the present invention are realized by the software module has been described. However, the document processing apparatus according to the present invention is realized by the hardware module having these functions. Of course, it may be configured. Specifically, the input means for inputting document image data from the image reading device 120, the storage means for storing the classification dictionary, the extraction means for performing the extraction function, and the generation function. The document processing apparatus according to the present invention is realized by combining the generating means and the specifying means having the specific function with hardware modules, and combining these hardware modules to operate in accordance with the flowchart shown in FIG. May be configured.

(B:動作)
次いで、文書処理装置110が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。
(B: Operation)
Next, of the operations performed by the document processing apparatus 110, operations that significantly show the features will be described with reference to the drawings.

まず、ユーザが画像読取装置120のADFに紙文書をセットし、所定の操作(例えば、画像読取装置120の操作部に設けられている起動ボタンの押下など)を行うと、その紙文書の各ページに対応する画像が画像読取装置120によって読み取られ、各ページの画像に対応する文書画像データが通信線130を介して画像読取装置120から文書処理装置110へ送られる。   First, when a user sets a paper document in the ADF of the image reading apparatus 120 and performs a predetermined operation (for example, pressing a start button provided in the operation unit of the image reading apparatus 120), each of the paper documents An image corresponding to the page is read by the image reading device 120, and document image data corresponding to the image of each page is sent from the image reading device 120 to the document processing device 110 via the communication line 130.

一方、文書処理装置110の制御部200は、通信IF部210を介して上記文書画像データが入力されると、その文書画像データを揮発性記憶部220aへ書き込み蓄積する。そして、制御部200は、揮発性記憶部220aに蓄積された文書画像データに対して図5に示すフローチャートにしたがったカテゴリ特定処理を施してその文書画像データに対応する紙文書に記載されている文に含まれている金額表現の表す数量のカテゴリを特定し、その紙文書を電子化する。以下、制御部200が行う動作について、図5を参照しつつ説明する。   On the other hand, when the document image data is input via the communication IF unit 210, the control unit 200 of the document processing apparatus 110 writes and stores the document image data in the volatile storage unit 220a. Then, the control unit 200 applies the category specifying process according to the flowchart shown in FIG. 5 to the document image data stored in the volatile storage unit 220a, and is described in the paper document corresponding to the document image data. The category of the quantity represented by the monetary expression included in the sentence is specified, and the paper document is digitized. Hereinafter, the operation performed by the control unit 200 will be described with reference to FIG.

図5は、制御部200が行うカテゴリ特定処理の流れを示すフローチャートである。図5に示されているように、制御部200は、まず、通信IF部210を介して入力され揮発性記憶部220aに蓄積された文書画像データを解析し、その文書画像データに対応する文書(すなわち、分類対象の文書)に記載されている文のうち、金額表現を含む文を表す文データを抽出する(ステップSA1)。   FIG. 5 is a flowchart showing the flow of the category specifying process performed by the control unit 200. As shown in FIG. 5, the control unit 200 first analyzes document image data input via the communication IF unit 210 and accumulated in the volatile storage unit 220a, and a document corresponding to the document image data. Among the sentences described in (that is, the document to be classified), sentence data representing a sentence including a monetary expression is extracted (step SA1).

次いで、制御部200は、上記ステップSA1にて抽出した文データに形態素解析を施し、その文データの表す文に含まれている名詞を全て抽出しその集合を生成する(ステップSA2)。そして、制御部200は、上記ステップSA2にて生成した名詞集合と上述した分類辞書とに基づいて、その文に含まれている金額表現の表す数量のカテゴリを特定する(ステップSA3)。具体的には、制御部200は、ステップSA2にて生成した名詞集合との類似の度合いが最も高い名詞の集合を含んでいる対応関係データを特定し、その対応関係データに含まれているカテゴリデータの表すカテゴリを上記金額表現の表す数量のカテゴリとして特定する。   Next, the control unit 200 performs morphological analysis on the sentence data extracted in step SA1, extracts all nouns included in the sentence represented by the sentence data, and generates a set (step SA2). Then, based on the noun set generated in step SA2 and the classification dictionary described above, the control unit 200 identifies the quantity category represented by the monetary expression included in the sentence (step SA3). Specifically, the control unit 200 identifies correspondence data including a set of nouns having the highest degree of similarity to the noun set generated in step SA2, and the category included in the correspondence data. The category represented by the data is specified as the category of the quantity represented by the monetary expression.

より詳細に説明すると、制御部200は、まず、不揮発性記憶部220bに格納されている階層構造データにしたがって、その最上位の階層から順に上記金額表現の表す数量のカテゴリを特定する。上記階層構造データが、図3に示す階層構造を表している場合には、制御部200は、まず、不揮発性記憶部220bに格納されている全ての対応関係データを用いて、上記金額表現の表す数量のカテゴリが“旅費”、“購買費”、“ロイヤルティ”、“光熱費”、“学会費”および“採用活動費”の何れであるのかを特定する。なお、本実施形態にて説明したように、最上位の階層から順にカテゴリを特定する際には、例えば、図4(a)に示す対応関係データのように、特定対象の階層よりも下位の階層のカテゴリについての対応関係データに関しては、制御部200は、その対応関係データに含まれているカテゴリデータを上記階層構造データにしたがってその上位の階層のカテゴリデータに置き換えてから、カテゴリの特定に用いるようにする。例えば、図4(a)に示す対応関係データに含まれているカテゴリデータは「交通費」であるから、そのカテゴリデータは、その上位のカテゴリである「旅費」に置き換えられる。   More specifically, the control unit 200 first identifies the category of the quantity represented by the monetary expression in order from the highest layer according to the hierarchical structure data stored in the non-volatile storage unit 220b. When the hierarchical structure data represents the hierarchical structure shown in FIG. 3, the control unit 200 first uses all the correspondence data stored in the non-volatile storage unit 220b to express the monetary expression. It is specified whether the category of the quantity to be represented is “travel expense”, “purchasing expense”, “loyalty”, “utility expense”, “conference fee”, or “recruitment activity expense”. Note that, as described in the present embodiment, when specifying categories in order from the highest layer, for example, the correspondence data shown in FIG. 4A is lower than the target layer. For the correspondence data for the category of the hierarchy, the control unit 200 replaces the category data included in the correspondence data with the category data of the higher hierarchy according to the hierarchical structure data, and then specifies the category. Use it. For example, since the category data included in the correspondence relationship data shown in FIG. 4A is “transportation expenses”, the category data is replaced with “travel expenses” which is a higher category.

そして、その金額表現の表す数量のカテゴリが“旅費”であると特定された場合には、制御部200は、上記対応関係データのうちで、“宿泊費”に関する対応関係データと“交通費”に関する対応関係データとを用いて、その金額表現の表す数量のカテゴリが“宿泊費”であるのか、それとも、“交通費”であるのかを特定する。このように、金額表現の表す数量のカテゴリをその最上位の階層から順に特定するとともに、特定対象の階層に属するカテゴリについての対応関係データのみを参照するようにすることによって、不要な対応関係データを参照してしまうことが排除され、特定精度が向上する。   When the category of the quantity represented by the monetary expression is specified as “travel expenses”, the control unit 200 selects the correspondence data regarding “accommodation expenses” and the “transportation expenses” among the correspondence data. Is used to specify whether the category of the quantity represented by the monetary expression is “accommodation expenses” or “transportation expenses”. In this way, by identifying the quantity category represented by the monetary expression in order from the highest hierarchy, and only referring to the correspondence data for the category belonging to the specified hierarchy, unnecessary correspondence data is obtained. The reference accuracy is eliminated, and the specific accuracy is improved.

以降、制御部200は、上記カテゴリ特定動作により特定されたカテゴリを表すカテゴリデータと上記文書画像データとを対応付けて不揮発性記憶部220bへ書き込み、その文書画像データに対応する紙文書の電子化を終了する。このようにして文書画像データに対応付けられたカテゴリデータは、その文書画像データを検索する際の検索タグなどとして用いられる。なお、電子化対象の紙文書に金額表現を含む文が複数記載されている場合には、各文に含まれている金額表現の各々についてその金額表現の表すカテゴリを特定しその特定結果を全て上記文書画像データに対応付けて不揮発性記憶部220bへ書き込むとしても良いことは勿論である。   Thereafter, the control unit 200 writes the category data representing the category specified by the category specifying operation and the document image data in association with each other and writes them in the nonvolatile storage unit 220b, and digitizes the paper document corresponding to the document image data Exit. The category data associated with the document image data in this way is used as a search tag when searching for the document image data. If there are multiple sentences including monetary expressions in the paper document to be digitized, specify the category represented by the monetary expression for each monetary expression included in each sentence, and specify all the identification results. Of course, it may be written in the nonvolatile storage unit 220b in association with the document image data.

以上、本実施形態に係る文書処理装置110によれば、電子化対象の紙文書に記載されている金額表現の表す数量のカテゴリを詳細に特定することが可能になる。なお、本実施形態では、上記金額表現の表す数量のカテゴリをその最上位の階層から順に特定する場合について説明したが、不揮発性記憶部220bに格納されている全ての対応関係データを用いてその最下層のカテゴリのみを特定するようにしても勿論良い。   As described above, according to the document processing apparatus 110 according to the present embodiment, it is possible to specify in detail the category of the quantity represented by the monetary expression described in the paper document to be digitized. In the present embodiment, the case has been described in which the category of the quantity represented by the monetary expression is specified in order from the highest hierarchy, but the correspondence data stored in the nonvolatile storage unit 220b is used to Of course, only the lowest category may be specified.

(C.変形)
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
(C−1:変形例1)
上述した実施形態では、紙文書の画像に対応する文書画像データに基づいて分類を行う場合について説明した。しかしながら、ワードプロセッサなどにより作成されたデータ(文書に記載されている文字の文字コードや改行コードなどがその記載順に配列されているとともに、枠線や罫線、図形を表す制御コードが配列されているデータ:以下、コードデータという)に基づいて、電子化対象の文書の分類を行うとしても良いことは勿論である。要は、紙文書に対応する文書データであれば、画像データであるかコードデータであるかは問わない。
(C. deformation)
Although the best mode for carrying out the present invention has been described above, it goes without saying that the following modifications may be made.
(C-1: Modification 1)
In the above-described embodiment, the case where the classification is performed based on the document image data corresponding to the image of the paper document has been described. However, data created by a word processor or the like (data in which character codes and line feed codes of characters described in a document are arranged in the order of description, and control codes representing frame lines, ruled lines, and figures are arranged. Of course, the document to be digitized may be classified based on the code data). In short, any document data corresponding to a paper document may be image data or code data.

(C−2:変形例2)
上述した実施形態では、電子化対象の文書に記載されている金額表現の表す数量のカテゴリを詳細に特定する場合について説明した。しかしながら、長さや温度などの数値表現についても、それら数値表現に応じた分類辞書を用意しておけば、その数値表現の表す数量のカテゴリを詳細に特定できることは言うまでもない。
(C-2: Modification 2)
In the embodiment described above, the case has been described in which the quantity category represented by the monetary expression described in the document to be digitized is specified in detail. However, for numerical expressions such as length and temperature, it goes without saying that if a classification dictionary corresponding to the numerical expressions is prepared, the category of the quantity represented by the numerical expressions can be specified in detail.

(C−3:変形例3)
上述した実施形態では、電子化対象の文書に記載されている金額表現の表す数量のカテゴリを1意に特定する場合について説明した。しかしながら、全ての数値表現についてその数値表現の表す数量のカテゴリを1意に特定することができるとは限らない。例えば、数値表現の表す数量のカテゴリの候補として複数のカテゴリが特定される場合が起こり得る。このような場合には、それら複数の候補をユーザへ提示し、ユーザによって選択されたカテゴリをその数値表現の表す数量のカテゴリとして特定するようにしても良い。
(C-3: Modification 3)
In the embodiment described above, the case has been described in which the quantity category represented by the monetary expression described in the document to be digitized is uniquely specified. However, it is not always possible to uniquely specify the quantity category represented by the numerical expression for all numerical expressions. For example, there may occur a case where a plurality of categories are specified as candidates for the quantity category represented by the numerical expression. In such a case, the plurality of candidates may be presented to the user, and the category selected by the user may be specified as the quantity category represented by the numerical expression.

(C−4:変形例4)
上述した実施形態では、電子化対象の文書に記載されている金額表現の表す数量のカテゴリを、予め用意された分類辞書に基づいて特定する場合について説明した。しかしながら、数値表現の表す数量のカテゴリが特定される度に、その数値表現を含む文について上記生成機能によって生成された名詞の集合と、その特定結果とを対応づけて新たな対応関係データを生成したり、その名詞の集合と特定結果とに基づいて既存の対応関係データを更新するなどして分類辞書を更新するようにしても良い。
(C-4: Modification 4)
In the above-described embodiment, the case where the category of the quantity represented by the monetary expression described in the document to be digitized is specified based on the classification dictionary prepared in advance has been described. However, each time a quantity category represented by a numerical expression is specified, a new correspondence data is generated by associating a set of nouns generated by the above generation function for the sentence including the numerical expression with the specified result. The classification dictionary may be updated by updating existing correspondence data based on the set of nouns and the specific result.

具体的には、上記生成機能によって生成された名詞の集合に、上記特定機能によって特定されたカテゴリデータを含んでいる対応関係データに含まれている名詞以外の名詞、が含まれていた場合には、その名詞を上記対応関係データへ書き込んで更新するようにすれば良い。このようにすると、数値表現の表す数量のカテゴリを新たに特定する度に、分類辞書の内容が拡充され、その分類辞書に基づくカテゴリの特定精度が向上してゆくといった効果を奏する。   Specifically, when a noun other than the noun included in the correspondence data including the category data specified by the specific function is included in the set of nouns generated by the generation function. The noun may be updated by writing the noun into the correspondence data. In this way, each time a quantity category represented by a numerical expression is newly specified, the contents of the classification dictionary are expanded, and the category specifying accuracy based on the classification dictionary is improved.

(C−5:変形例5)
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのソフトウェアを不揮発性記憶部220bに予め記憶させておく場合について説明した。しかしながら、例えばCD−ROM(Compact Disk- Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。
(C-5: Modification 5)
In the above-described embodiment, a case has been described in which software for causing the control unit 200 to realize functions unique to the document processing apparatus according to the present invention is stored in advance in the nonvolatile storage unit 220b. However, for example, the software is recorded on a computer-readable recording medium such as a CD-ROM (Compact Disk-Read Only Memory) or a DVD (Digital Versatile Disk), and is generally used with such a recording medium. Of course, the software may be installed in a simple computer device. This produces an effect that a general computer device can function as the document processing device according to the present invention.

本発明の1実施形態に係る文書処理装置110を有する文書電子化システムの全体構成の一例を示す図である。1 is a diagram illustrating an example of an overall configuration of a document digitization system having a document processing apparatus 110 according to an embodiment of the present invention. 同文書処理装置110のハードウェア構成の一例を示す図である。2 is a diagram illustrating an example of a hardware configuration of the document processing apparatus 110. FIG. 金額表現の表す数量のカテゴリについての階層構造の一例を示す図である。It is a figure which shows an example of the hierarchical structure about the category of the quantity which money amount expression represents. 金額表現についての対応関係データの一例を示す図である。It is a figure which shows an example of the correspondence data about money amount expression. 同文書処理装置110の制御部200が紙文書電子化ソフトウェアにしたがって行うカテゴリ特定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the category specification process which the control part 200 of the document processing apparatus 110 performs according to paper document digitization software.

符号の説明Explanation of symbols

10…文書電子化システム、110…文書処理装置、120…画像読取装置、130…通信線、200…制御部、210…通信IF部、220…記憶部、220a…揮発性記憶部、220b…不揮発性記憶部。   DESCRIPTION OF SYMBOLS 10 ... Document digitization system, 110 ... Document processing apparatus, 120 ... Image reading apparatus, 130 ... Communication line, 200 ... Control part, 210 ... Communication IF part, 220 ... Memory | storage part, 220a ... Volatile memory part, 220b ... Nonvolatile Sex memory part.

Claims (5)

1または複数の名詞と、単位が付与された数値である数量のカテゴリを表すカテゴリデータと、を対応付けて複数記憶した記憶手段と、
文書を電子化した文書データが入力される入力手段と、
前記入力手段へ入力された文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、
前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、
前記生成手段により生成された集合との類似の度合いが最も高い前記1または複数の名詞に対応付けて前記記憶手段に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段と、
を有する文書処理装置。
Storage means for storing one or a plurality of nouns and category data representing a category of a quantity, which is a numerical value to which a unit is assigned, in association with each other;
An input means for inputting document data obtained by digitizing a document;
Extracting means for analyzing document data input to the input means and extracting sentence data representing a sentence including a numerical expression that is a character string representing a numerical value assigned with a unit;
Generating means for analyzing the sentence data extracted by the extracting means, extracting nouns included in the sentence represented by the sentence data, and generating a set thereof;
Sentence data extracted by the extraction means for the category represented by the category data stored in the storage means in association with the one or more nouns having the highest degree of similarity with the set generated by the generation means A means for identifying the quantity category represented by the numerical expression included in the sentence represented by
A document processing apparatus.
前記カテゴリデータに対応付けて前記記憶手段に記憶されている前記1または複数の名詞は、数値表現とともに文を構成した場合にその数値表現の表す数量のカテゴリを定める名詞である
ことを特徴とする請求項1に記載の文書処理装置。
The one or more nouns stored in the storage means in association with the category data are nouns that determine a category of a quantity represented by the numerical expression when a sentence is formed together with the numerical expression. The document processing apparatus according to claim 1.
前記生成手段によって生成された集合に、前記特定手段によって特定されたカテゴリデータに対応付けて前記記憶手段に記憶されている前記1または複数の名詞以外の名詞が含まれいる場合には、その名詞をそのカテゴリデータに対応付けて前記記憶手段へ書き込む書き込み手段
を有することを特徴とする請求項1に記載の文書処理装置。
If the set generated by the generating unit includes a noun other than the one or more nouns stored in the storage unit in association with the category data specified by the specifying unit, the noun The document processing apparatus according to claim 1, further comprising a writing unit that writes the information to the storage unit in association with the category data.
前記記憶手段には、単位が付与された数値である数量のカテゴリについての階層構造を表すとともに、各階層に含まれている1または複数のカテゴリを表す階層構造データが書き込まれており、
前記特定手段は、
前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリを特定する際に、前記階層構造データの表す階層構造にしたがってその最上位の階層から順に特定するとともに、カテゴリを特定する階層に属する全てのカテゴリの各々を表すカテゴリデータに対応付けて前記記憶手段に記憶されている1または複数の名詞を参照して、その階層のカテゴリを特定する
ことを特徴とする請求項1に記載の文書処理装置。
The storage means represents a hierarchical structure for a quantity category that is a numerical value to which a unit is assigned, and also has written hierarchical structure data that represents one or more categories included in each hierarchy,
The specifying means is:
When specifying the category of the quantity represented by the numerical expression included in the sentence represented by the sentence data extracted by the extraction means, the order is specified in order from the highest hierarchy according to the hierarchy structure represented by the hierarchy structure data. The category of the hierarchy is specified by referring to one or more nouns stored in the storage means in association with the category data representing each of the categories belonging to the hierarchy specifying the category. The document processing apparatus according to claim 1.
コンピュータ装置を、
文書を電子化した文書データが入力された場合に、その文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、
前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、
単位が付与された数値である数量のカテゴリを表すカテゴリデータ毎に当該コンピュータ装置に記憶されている名詞の集合のうち、前記生成手段により生成された集合との類似の度合いが最も高い集合に対応付けて当該コンピュータ装置に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段
として機能させるプログラム。
Computer equipment,
When document data obtained by digitizing a document is input, an extraction unit that analyzes the document data and extracts sentence data representing a sentence including a numerical expression that is a character string representing a numerical value to which a unit is assigned;
Generating means for analyzing the sentence data extracted by the extracting means, extracting nouns included in the sentence represented by the sentence data, and generating a set thereof;
Corresponds to the set having the highest degree of similarity to the set generated by the generating means among the set of nouns stored in the computer device for each category data representing the quantity category that is a numerical value to which the unit is assigned. A program for functioning as a specifying means for specifying the category represented by the category data stored in the computer device as the category of the quantity represented by the numerical expression included in the sentence represented by the sentence data extracted by the extracting means .
JP2004275895A 2004-09-22 2004-09-22 Document processor and program Pending JP2006092193A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004275895A JP2006092193A (en) 2004-09-22 2004-09-22 Document processor and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004275895A JP2006092193A (en) 2004-09-22 2004-09-22 Document processor and program

Publications (1)

Publication Number Publication Date
JP2006092193A true JP2006092193A (en) 2006-04-06

Family

ID=36233103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004275895A Pending JP2006092193A (en) 2004-09-22 2004-09-22 Document processor and program

Country Status (1)

Country Link
JP (1) JP2006092193A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182165A (en) * 2009-02-06 2010-08-19 Hitachi Ltd Analysis system and information analysis method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182165A (en) * 2009-02-06 2010-08-19 Hitachi Ltd Analysis system and information analysis method

Similar Documents

Publication Publication Date Title
US8139870B2 (en) Image processing apparatus, recording medium, computer data signal, and image processing method
JP5083669B2 (en) Information extraction system, information extraction method, information extraction program, and information service system
RU2613846C2 (en) Method and system for extracting data from images of semistructured documents
JP6107513B2 (en) Information processing system, information processing method, and information processing program
US20080288309A1 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
JP2004348591A (en) Document search method and device thereof
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP2006059075A (en) Document processor and program
JP5141560B2 (en) Information search program, recording medium storing the program, information search device, and information search method
Ugale et al. Document management system: A notion towards paperless office
JP2014182477A (en) Program and document processing device
Ha et al. Recognition of OCR invoice metadata block types
JP6529254B2 (en) INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM
US20230067069A1 (en) Document digitization, transformation and validation
JP6856916B1 (en) Information processing equipment, information processing methods and information processing programs
JP2006085582A (en) Document processing apparatus and program
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JP2006092193A (en) Document processor and program
CN106250354B (en) Information processing apparatus, information processing method, and program for processing document
JP2007128224A (en) Document indexing device, document indexing method and document indexing program
JP7312646B2 (en) Information processing device, document identification method, and information processing system
JP7271987B2 (en) Information processing device and program
US10990338B2 (en) Information processing system and non-transitory computer readable medium
Szegedi et al. Context-based Information Classification on Hungarian Invoices.
WO2023047570A1 (en) Information processing device, information processing method, and information processing program