JP2006092193A - Document processor and program - Google Patents
Document processor and program Download PDFInfo
- Publication number
- JP2006092193A JP2006092193A JP2004275895A JP2004275895A JP2006092193A JP 2006092193 A JP2006092193 A JP 2006092193A JP 2004275895 A JP2004275895 A JP 2004275895A JP 2004275895 A JP2004275895 A JP 2004275895A JP 2006092193 A JP2006092193 A JP 2006092193A
- Authority
- JP
- Japan
- Prior art keywords
- category
- data
- sentence
- document
- represented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
Description
紙文書を電子化して蓄積する技術に関し、特に、紙文書に記載されている情報から特定の種類の情報を抽出する技術に関する。 More particularly, the present invention relates to a technique for extracting a specific type of information from information described in a paper document.
紙文書(以下、単に「文書」ともいう)は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するために書庫などのスペースが必要になる、といった問題点がある。また、情報を紙文書に記録して保存している場合、後にその紙文書に記録された情報が必要になったときには、書庫などに収納されている多くの紙文書のなかから目的とする情報が記録された紙文書を探し出さなければならない。つまり、情報を紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。 Paper documents (hereinafter simply referred to as “documents”) are excellent media for transmitting and recording information, but the problem is that a space such as a library is required to store them. There is. In addition, when information is recorded on a paper document and saved, if the information recorded on the paper document is needed later, the target information can be selected from many paper documents stored in the archive. I have to find a paper document in which I was recorded. That is, the form of recording and storing information on a paper document is not preferable from the viewpoint of improving the efficiency of business.
このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、スキャナ装置などによって紙文書の各ページに対応する画像を読み取り、その画像に対応する画像データ(以下、「文書画像データ」と呼ぶ)を紙文書毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われるようになってきている。 Under such circumstances, paper documents are digitized and stored. Specifically, an image corresponding to each page of a paper document is read by a scanner device or the like, and image data corresponding to the image (hereinafter referred to as “document image data”) is filed for each paper document and stored on a hard disk or the like. Storage in a storage device has been performed.
ところで、紙文書を電子化して保存する際に、単にその紙文書に対応する文書画像データをファイル化して保存するのではなく、その紙文書に記載されている情報をその種類(以下、「カテゴリ」ともいう)毎に分類してデータベース化しておくと、情報の検索や各種統計処理を行う上で便利である。このようなことを可能にする技術の一例としては、電子化対象の紙文書から人名や地名、組織名などの固有名詞を抽出する技術が挙げられる(特許文献1)。
ところで、紙文書の中には、上述した固有名詞の他に、何らかの金額や長さ、温度など単位が付与された数値(以下、「数量」と呼ぶ)を表す文字列(以下、「数値表現」と呼ぶ)が多数記載されたものがあり、その一例としては、決済書類や売上伝票などのビジネス文書が挙げられる。このようなビジネス文書を電子化する際には、上述した固有名詞の他に、これら数値表現を抽出しその数値表現の表す数量をそのカテゴリ毎に分類することが必要不可欠である。電子化対象の紙文書が日本語で記載されている場合には、数値表現をその紙文書に対応する文書画像データから抽出することは一般に容易である。何故ならば、このような数値表現は、数字や漢数字或いは「,」や「.」など位取りを表す記号が連続した数値部分を有し、かつ、その数値部分に単位を表す接頭辞(例えば、「¥」や「$」など)や接尾辞(例えば、「円」や「m」、「℃」など)が付与されているといった際だった特徴を有しているからである。更に、このような数値表現を上記接頭辞や上記接尾辞に基づいて、その数値表現の表す数値の大まかなカテゴリ(例えば、「金額」や「長さ」など)を特定することも容易である。 By the way, in a paper document, in addition to the proper nouns described above, a character string (hereinafter referred to as “numerical expression”) representing a numerical value (hereinafter referred to as “quantity”) to which a unit such as an amount of money, length, or temperature is given. ”), And business documents such as payment documents and sales slips are examples. When digitizing such a business document, it is indispensable to extract these numerical expressions in addition to the proper nouns described above and classify the quantities represented by the numerical expressions into categories. When a paper document to be digitized is written in Japanese, it is generally easy to extract a numerical expression from document image data corresponding to the paper document. This is because such a numerical expression has a numerical part in which symbols representing scales such as numbers, Chinese numerals, and “,” and “.” Are consecutive, and a prefix indicating the unit in the numerical part (for example, , “$”, “$”, Etc.) and suffixes (for example, “Yen”, “m”, “° C.”, etc.) are added. Furthermore, it is easy to specify a general category (for example, “amount”, “length”, etc.) of the numerical value represented by the numerical expression based on the prefix or the suffix. .
しかしながら、上述の如きビジネス文書を電子化してデータベースを作成する場合には、そのビジネス文書に記載されている数値表現を抽出したり、その数値表現の表す数量の大まかなカテゴリを特定するだけでは不充分である。何故ならば、例えば金額を表す数値表現について、その数値表現が「旅費」の金額を表しているのか、それとも、「売上金」の金額を表しているのかを特定せずにデータベース化したとしても、そのようなデータベースは経理処理などに利用できず、まったく役にたたないからである。 However, when creating a database by digitizing a business document as described above, it is not possible to extract a numerical expression described in the business document or specify a rough category of the quantity represented by the numerical expression. It is enough. Because, for example, for a numerical expression that represents money amount, even if it is databased without specifying whether the numerical expression represents the amount of "travel expenses" or the amount of "sales money" This is because such a database cannot be used for accounting, etc., and is useless at all.
本発明は、上記課題に鑑みて為されたものであり、電子化対象の文書に記載されている数値表現の表す数量のカテゴリを詳細に特定することを可能にする技術を提供することを目的としている。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a technique that makes it possible to specify in detail a category of a quantity represented by a numerical expression described in a document to be digitized. It is said.
上記課題を解決するために、本発明は、1または複数の名詞と、単位が付与された数値である数量のカテゴリを表すカテゴリデータと、を対応付けて複数記憶した記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、前記生成手段により生成された集合との類似の度合いが最も高い前記1または複数の名詞に対応付けて前記記憶手段に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段と、を有する文書処理装置を提供する。このような文書処理装置によれば、数値表現を含む文に含まれている名詞の集合との類似の度合いが最も高い1または複数の名詞に対応づけて上記記憶手段に記憶されているカテゴリデータの表すカテゴリが、その数値表現の表す数量のカテゴリとして特定される。 In order to solve the above problems, the present invention relates to a storage unit that stores one or more nouns and category data that represents a category of a quantity that is a numerical value to which a unit is assigned in association with each other, and an electronic document. An input means for inputting converted document data, and extracting the sentence data representing a sentence including a numerical expression which is a character string representing a numerical value to which a unit is assigned by analyzing the document data inputted to the input means Means for analyzing the sentence data extracted by the extracting means, extracting nouns included in the sentence represented by the sentence data, and generating the set; and the set generated by the generating means; The category represented by the category data stored in the storage unit in association with the one or more nouns having the highest degree of similarity is included in the sentence represented by the sentence data extracted by the extraction unit. To provide a document processing apparatus having a specifying means for specifying a category of the quantity represented by the numeric representation being. According to such a document processing device, category data stored in the storage means in association with one or more nouns having the highest degree of similarity to a set of nouns included in a sentence including numerical expressions. Is identified as the category of the quantity represented by the numerical expression.
より好ましい態様においては、前記カテゴリデータに対応付けて前記記憶手段に記憶されている前記1または複数の名詞は、数値表現とともに文を構成した場合にその数値表現の表す数量のカテゴリを定める名詞であることを特徴とする。 In a more preferred aspect, the one or more nouns stored in the storage means in association with the category data are nouns that define a category of a quantity represented by the numerical expression when a sentence is formed together with the numerical expression. It is characterized by being.
より好ましい態様においては、前記生成手段によって生成された集合に、前記特定手段によって特定されたカテゴリデータに対応付けて前記記憶手段に記憶されている前記1または複数の名詞以外の名詞が含まれいる場合には、その名詞をそのカテゴリデータに対応付けて前記記憶手段へ書き込む書き込み手段を有することを特徴とする。このような態様にあっては、前記特定手段によってカテゴリが特定された数量を表す数値表現とともに用いられていた名詞の集合に、上記カテゴリデータに対応付けて上記記憶手段に記憶されていた1または複数の名詞以外の名詞が含まれていた場合に、そのカテゴリデータに対応付けてその名詞が上記記憶手段へ書き込まれる。 In a more preferred aspect, the set generated by the generating means includes a noun other than the one or more nouns stored in the storage means in association with the category data specified by the specifying means. In this case, the information processing apparatus includes a writing unit that writes the noun in the storage unit in association with the category data. In such an aspect, the set of nouns used together with the numerical expression representing the quantity for which the category is specified by the specifying means is stored in the storage means in association with the category data or 1 When a noun other than a plurality of nouns is included, the noun is written to the storage means in association with the category data.
より好ましい態様においては、前記記憶手段には、単位が付与された数値である数量のカテゴリについての階層構造を表すとともに、各階層に含まれている1または複数のカテゴリを表す階層構造データが書き込まれており、前記特定手段は、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリを特定する際に、前記階層構造データの表す階層構造にしたがってその最上位の階層から順にカテゴリを特定するとともに、カテゴリを特定する階層に属する全てのカテゴリの各々を表すカテゴリデータに対応付けて前記記憶手段に記憶されている1または複数の名詞を参照して、その階層のカテゴリを特定することを特徴とする。このような態様にあっては、下位の階層に属するカテゴリを特定する際に、その階層に属する各カテゴリに対応付けて上記記憶手段に記憶されている名詞のみが参照され、不要なデータの参照が排除されるため、その特定精度が向上するといった効果を奏する。 In a more preferred aspect, the storage means represents a hierarchical structure for a quantity category, which is a numerical value to which a unit is assigned, and hierarchical structure data representing one or more categories included in each hierarchy is written. And the specifying means determines the category of the quantity represented by the numerical expression included in the sentence represented by the sentence data extracted by the extracting means according to the hierarchical structure represented by the hierarchical structure data. Specify the category in order from the highest hierarchy, and refer to one or more nouns stored in the storage means in association with the category data representing each of all categories belonging to the hierarchy specifying the category, The category of the hierarchy is specified. In such an aspect, when specifying a category belonging to a lower hierarchy, only the noun stored in the storage means in association with each category belonging to the hierarchy is referred to, and unnecessary data is referred to. Therefore, there is an effect that the identification accuracy is improved.
また、上記課題を解決するために、本発明は、コンピュータ装置を、文書を電子化した文書データが入力された場合に、その文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、単位が付与された数値である数量のカテゴリを表すカテゴリデータ毎に当該コンピュータ装置に記憶されている名詞の集合のうち、前記生成手段により生成された集合との類似の度合いが最も高い集合に対応付けて当該コンピュータ装置に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段として機能させるプログラムを提供する。このようなプログラムによれば、数値表現の属するカテゴリ毎にコンピュータ装置に記憶された名詞と、数値表現を含む文に含まれている名詞とに基づいてその文に含まれている数値表現の属するカテゴリが特定される。なお、本発明の別の態様にあっては、コンピュータ装置読み取り可能な記録媒体に上記プログラムを書き込んで提供するとしても良い。 Further, in order to solve the above-described problem, the present invention is a computer device that analyzes document data when document data obtained by digitizing a document is input, and uses a character string representing a numerical value to which a unit is assigned. Extraction means for extracting sentence data representing a sentence including a numerical expression, and analyzing the sentence data extracted by the extraction means, extracting nouns contained in the sentence represented by the sentence data and generating a set thereof The degree of similarity between the generating means to be generated and the set generated by the generating means among a set of nouns stored in the computer device for each category data representing a category of a quantity that is a numerical value assigned with a unit. The number included in the sentence represented by the sentence data extracted by the extracting means, the category represented by the category data stored in the computer device in association with the highest set Providing a program to function as a specifying means for specifying a category of the quantity represented by the expression. According to such a program, the numerical expression included in the sentence belongs based on the noun stored in the computer device for each category to which the numerical expression belongs and the noun included in the sentence including the numerical expression. A category is identified. In another aspect of the present invention, the program may be written and provided in a computer-readable recording medium.
本発明によれば、電子化対象の文書に記載されている数値表現を抽出することやその数値表現の単位に応じた大まかカテゴリを特定するのみならず、その数値表現の表す数量のカテゴリを詳細に特定することが可能になる。 According to the present invention, not only the numerical expression described in the document to be digitized is extracted and the rough category according to the unit of the numerical expression is specified, but the quantity category represented by the numerical expression is detailed. It becomes possible to specify.
以下、図面を参照しつつ本発明を実施する際の最良の形態について説明する。
(A:構成)
図1は、本発明の1実施形態に係る文書処理装置110を有する文書電子化システム10の構成例を示すブロック図である。図1の画像読取装置120は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ読み取り、読み取った画像に対応する文書画像データをLAN(Local Area Network)などの通信線130を介して文書処理装置110へ引渡すものである。なお、本実施形態では、通信線130がLANである場合について説明するが、WAN(Wide Area Network)やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置110と画像読取装置120とを夫々個別のハードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線130は、係るハードウェア内で文書処理装置110と画像読取装置120とを接続する内部バスである。
The best mode for carrying out the present invention will be described below with reference to the drawings.
(A: Configuration)
FIG. 1 is a block diagram showing a configuration example of a document digitizing
図1の文書処理装置110は、画像読取装置120から引渡された文書画像データをファイル化して記憶し蓄積するものであり、図2に示す構成を有している。図2に示されているように、文書処理装置110は、制御部200と、通信インターフェイス(以下、IF)部210と、記憶部220と、これら各構成要素間のデータ授受を仲介するバス230と、を備えている。
The
制御部200は、例えばCPU(Central Processing Unit)であり、後述する記憶部220に記憶されている各種ソフトウェアを実行することによって、文書処理装置110の各部を制御するものである。通信IF部210は、通信線130を介して画像読取装置120に接続されており、この通信線130を介して画像読取装置120から送られてくる文書画像データを受取り、制御部200へ引渡すものである。つまり、この通信IF部210は、画像読取装置120から送られてくる文書画像データが入力される入力手段として機能する。
The
記憶部220は、図2に示されているように、揮発性記憶部220aと不揮発性記憶部220bとを含んでいる。揮発性記憶部220aは、例えばRAM(Random Access Memory)であり、後述する各種ソフトウェアにしたがって作動している制御部200によってワークエリアとして利用される。一方、不揮発性記憶部220bは、例えば、ハードディスクであり、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのデータや各種ソフトウェアが格納されている。また、この不揮発性記憶部220bには、上記文書画像データがファイル化されて書き込まれる。
As shown in FIG. 2, the
不揮発性記憶部220bに格納されているデータの一例としては、数値表現の表す数量のカテゴリの階層構造を表す階層構造データと、数値表現の表す数量のカテゴリとその数値表現を含む文に含まれている1または複数の名詞との対応関係を表す対応関係データとが挙げられる。これら階層構造データと対応関係データとは、通信IF部210を介して入力された文書画像データに対応する文書(すなわち、電子化対象の紙文書)に記載されている数値表現の表す数量のカテゴリを、その数値表現を含む文に含まれている名詞に基づいて特定する際に用いられる分類辞書としての役割を担っている。なお、以下では、上記階層構造データと対応関係データとの組を分類辞書とも呼ぶ。
Examples of data stored in the
例えば、金額についての数値表現(以下、「金額表現」ともいう)の表す数量のカテゴリについての階層構造の一例としては、図3に示す階層構造が挙げられる。図3に例示されている階層構造は、金額表現の表す数量(すなわち、金額)が「旅費」、「購買費」、「ロイヤルティ」、「光熱費」、「学会費」および「採用活動費」の6つのカテゴリに分類されること、「旅費」が更に「宿泊費」と「交通費」とに細分されること、「購買費」が更に「市販ソフトウェア購入費」と「雑誌・資料購入費」とに細分されること、を表している。 For example, an example of a hierarchical structure for a quantity category represented by a numerical expression for money (hereinafter also referred to as “money expression”) is the hierarchical structure shown in FIG. In the hierarchical structure illustrated in FIG. 3, the quantity represented by the monetary expression (that is, the monetary amount) is “travel expenses”, “purchasing expenses”, “loyalty”, “utility expenses”, “conference expenses”, and “recruitment activity expenses”. "Travel expenses" is further subdivided into "accommodation expenses" and "transportation expenses", "purchasing expenses" are further divided into "commercial software purchase expenses" and "magazine / material purchases" It is subdivided into “cost”.
一方、対応関係データの一例としては、図4(a)、図4(b)および図4(c)に示すデータが挙げられる。図4に示す対応関係データの各々には、金額表現の表す数量のカテゴリを表すカテゴリデータ(例えば、カテゴリを表す文字列データ)と1または複数の名詞(素性ともいう)とが含まれている。例えば、図4(a)に示す対応関係データは、「東京、名古屋、新幹線、特急、料金、請求」を含む文に含まれている金額表現の表す数量のカテゴリは「交通費」であることを表しており、この対応関係データに含まれている各名詞は、「東京から名古屋までの新幹線の特急料金として7890円を請求いたします」という文から抽出されたものである。なお、本実施形態では、金額表現を含んでいる文に含まれている1または複数の名詞と、その金額表現の表す数量のカテゴリを表すカテゴリデータとを対応付けて対応関係データを生成する場合について説明した。しかしながら、係る対応関係データに含まれている1または複数の名詞は、金額表現とともに必ず文を構成しなければならないものではないことは勿論である。要は、あるカテゴリの数量を表す金額表現とともに文を構成する可能性が高い名詞であれば十分であり、金額表現とともに文を構成した場合にその金額表現の表す数量(すなわち、金額)のカテゴリを定める名詞であれば良い。 On the other hand, examples of the correspondence data include data shown in FIGS. 4A, 4B, and 4C. Each of the correspondence relationship data shown in FIG. 4 includes category data representing a quantity category represented by monetary expression (for example, character string data representing a category) and one or more nouns (also referred to as features). . For example, in the correspondence data shown in FIG. 4A, the category of the quantity represented by the monetary expression included in the sentence including “Tokyo, Nagoya, Shinkansen, limited express, fee, billing” is “transportation expense”. Each noun contained in the correspondence data is extracted from the sentence “I will charge 7890 yen as an express fare for the Shinkansen from Tokyo to Nagoya”. In the present embodiment, the correspondence data is generated by associating one or more nouns included in the sentence including the monetary expression with the category data representing the quantity category represented by the monetary expression. Explained. However, it is needless to say that one or more nouns included in the correspondence data do not necessarily constitute a sentence together with a monetary expression. In short, a noun that suffices to compose a sentence with a monetary expression that represents the quantity of a certain category is sufficient, and when composing a sentence with a monetary expression, the category of the quantity represented by that monetary expression (ie, monetary amount) Any noun that defines
また、図4(b)に示す対応関係データは、「ホテル、3泊、費用」を含む文に含まれている金額表現の表す数量のカテゴリは「宿泊費」であることを表している。なお、図4(b)に示す対応関係データに含まれている各名詞は、「ホテルでの3泊の宿泊費用は4万5千円になりました」という文から抽出されたものである。 Also, the correspondence relationship data shown in FIG. 4B indicates that the category of the quantity represented by the monetary expression included in the sentence including “hotel, 3 nights, expense” is “accommodation expense”. Each noun included in the correspondence data shown in FIG. 4 (b) is extracted from the sentence “The hotel cost for 3 nights at a hotel is 45,000 yen”. .
また、図4(c)に示す対応関係データは、「雑誌、購入、費用」を含む文に含まれている金額表現の表す数量のカテゴリは「書籍―資料購入費」であることを表している。なお、図4(c)に示す対応関係データに含まれている各名詞は、「雑誌の購入費用は6,000円でした」という文から抽出されたものである。 Further, the correspondence data shown in FIG. 4C indicates that the category of the quantity represented by the monetary expression included in the sentence including “magazine, purchase, expense” is “book-material purchase expense”. Yes. Each noun included in the correspondence data shown in FIG. 4C is extracted from the sentence “The purchase cost of the magazine was 6,000 yen”.
上述したことから明らかなように、対応関係データに含まれている各名詞は、金額表現とともに文を構成した場合にその金額表現の表す数量(すなわち、金額)のカテゴリを定めるといった特徴を有している。このため、本実施形態に係る文書処理装置110によれば、図3に示す階層構造を表す階層構造データと、図4(a)、図4(b)および図4(C)に示す対応関係データとが不揮発性記憶部220bに格納されている状況下で、「東京から名古屋までの新幹線の特急料金として5000円を請求いたします」という文が記載された文書に対応する文書画像データが入力されると、その文に含まれている名詞は図4(a)に示す対応関係データに含まれている名詞と一致するため、その文に含まれている金額表現(すなわち、“5000円”)の表す数量のカテゴリは “交通費”であると特定される。
As is clear from the above, each noun included in the correspondence data has a feature that, when a sentence is constructed with a monetary expression, the category of the quantity (that is, monetary) represented by the monetary expression is determined. ing. Therefore, according to the
一方、不揮発性記憶部220bに格納されているソフトウェアの一例としては、オペレーティングシステム(Operating System 以下、「OS」)を制御部200に実現させるためのOSソフトウェアや、紙文書電子化ソフトウェアが挙げられる。ここで、紙文書電子化ソフトウェアとは、画像読取装置120から送られた文書画像データに対応する文書に記載されている数値表現を抽出し、その数値表現の表す数量のカテゴリを上記分類辞書に基づいて特定する処理を制御部200に実行させるためのソフトウェアである。以下、これらソフトウェアを実行することによって制御部200に付与される機能について説明する。
On the other hand, examples of software stored in the
文書処理装置110の電源(図示省略)が投入されると、制御部200は、まず、OSソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。OSソフトウェアにしたがって作動しOSを実現している状態の制御部200には、文書処理装置110の各部を制御する機能や、他のソフトウェアを不揮発性記憶部220bから読み出して実行する機能などが付与される。本実施形態では、上記OSソフトウェアの実行を完了し、OSを実現している状態の制御部200は、即座に、上記紙文書電子化ソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。図5は、紙文書電子化ソフトウェアにしたがって作動している制御部200が行うカテゴリ特定処理の流れを示すフローチャートである。図5に示されているように、上記紙文書電子化ソフトウェアにしたがって作動している制御部200には、以下に述べる3つの機能が付与される。
When the power (not shown) of the
第1に、通信IF部210を介して文書画像データが入力された場合に、その文書画像データをOCR(Optical Character Recognition )などによって解析し、その文書画像データに対応する紙文書に記載されている文を表す文データを抽出する抽出機能である。本実施形態では、上記紙文書に記載されている文のうち、金額表現を含む文についての文データのみを上記抽出機能によって抽出する。なお、このように金額表現を含む文を表す文データのみを選択的に抽出するには、金額の単位を表す文字(例えば、円)や記号(例えば、¥)を含んでいる数値表現を含む文についてのみ、その文を表す文データを抽出するようにすれば良い。
First, when document image data is input via the communication IF
第2に、上記抽出機能によって抽出された文データに形態素解析を施し、該文データの表す文に含まれている名詞を全て抽出してその集合を生成する生成機能である。そして、第3に、上記生成機能によって生成された集合と、上記分類辞書(すなわち、不揮発性記憶部220bに格納されている階層構造データと対応関係データ)とに基づいて、上記文データの表す文に含まれている金額表現の表す数量のカテゴリを特定する特定機能である。より詳細に説明すると、本実施形態では、上記生成機能によって生成された集合との類似の度合いが最も高い1または複数の名詞(すなわち、名詞の集合)を含んでいる対応関係データに含まれているカテゴリデータの表すカテゴリを上記金額表現の表す数量のカテゴリとして上記特定機能によって特定する。なお、集合同士の類非を判定する手法としては、例えば、ベクトル空間法などの周知技術を用いるようにすれば良い。
Second, a generation function that performs morphological analysis on the sentence data extracted by the extraction function, extracts all nouns included in the sentence represented by the sentence data, and generates a set thereof. Third, the sentence data is represented based on the set generated by the generation function and the classification dictionary (that is, the hierarchical structure data and the correspondence data stored in the
以上に説明したように、本実施形態に係る文書処理装置110のハードウェア構成は一般的なコンピュータ装置と同一であり、不揮発性記憶部220bに格納されている各種ソフトウェアにしたがって制御部200を作動させることによって、本発明に係る文書処理装置に特有な機能が実現される。このように、本実施形態では、本発明に係る文書処理装置に特有な機能をソフトウェアモジュールで実現する場合について説明したが、これらの機能を担っているハードウェアモジュールで本発明に係る文書処理装置を構成するとしても良いことは勿論である。具体的には、画像読取装置120から文書画像データが入力される入力手段と、上記分類辞書が格納された記憶手段と、上記抽出機能を担っている抽出手段と、上記生成機能を担っている生成手段と、上記特定機能を担っている特定手段とを夫々ハードウェアモジュールで実現し、これらハードウェアモジュールを図5に示すフローチャートにしたがって連携作動させるように組み合わせて、本発明に係る文書処理装置を構成するとしても良い。
As described above, the hardware configuration of the
(B:動作)
次いで、文書処理装置110が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。
(B: Operation)
Next, of the operations performed by the
まず、ユーザが画像読取装置120のADFに紙文書をセットし、所定の操作(例えば、画像読取装置120の操作部に設けられている起動ボタンの押下など)を行うと、その紙文書の各ページに対応する画像が画像読取装置120によって読み取られ、各ページの画像に対応する文書画像データが通信線130を介して画像読取装置120から文書処理装置110へ送られる。
First, when a user sets a paper document in the ADF of the
一方、文書処理装置110の制御部200は、通信IF部210を介して上記文書画像データが入力されると、その文書画像データを揮発性記憶部220aへ書き込み蓄積する。そして、制御部200は、揮発性記憶部220aに蓄積された文書画像データに対して図5に示すフローチャートにしたがったカテゴリ特定処理を施してその文書画像データに対応する紙文書に記載されている文に含まれている金額表現の表す数量のカテゴリを特定し、その紙文書を電子化する。以下、制御部200が行う動作について、図5を参照しつつ説明する。
On the other hand, when the document image data is input via the communication IF
図5は、制御部200が行うカテゴリ特定処理の流れを示すフローチャートである。図5に示されているように、制御部200は、まず、通信IF部210を介して入力され揮発性記憶部220aに蓄積された文書画像データを解析し、その文書画像データに対応する文書(すなわち、分類対象の文書)に記載されている文のうち、金額表現を含む文を表す文データを抽出する(ステップSA1)。
FIG. 5 is a flowchart showing the flow of the category specifying process performed by the
次いで、制御部200は、上記ステップSA1にて抽出した文データに形態素解析を施し、その文データの表す文に含まれている名詞を全て抽出しその集合を生成する(ステップSA2)。そして、制御部200は、上記ステップSA2にて生成した名詞集合と上述した分類辞書とに基づいて、その文に含まれている金額表現の表す数量のカテゴリを特定する(ステップSA3)。具体的には、制御部200は、ステップSA2にて生成した名詞集合との類似の度合いが最も高い名詞の集合を含んでいる対応関係データを特定し、その対応関係データに含まれているカテゴリデータの表すカテゴリを上記金額表現の表す数量のカテゴリとして特定する。
Next, the
より詳細に説明すると、制御部200は、まず、不揮発性記憶部220bに格納されている階層構造データにしたがって、その最上位の階層から順に上記金額表現の表す数量のカテゴリを特定する。上記階層構造データが、図3に示す階層構造を表している場合には、制御部200は、まず、不揮発性記憶部220bに格納されている全ての対応関係データを用いて、上記金額表現の表す数量のカテゴリが“旅費”、“購買費”、“ロイヤルティ”、“光熱費”、“学会費”および“採用活動費”の何れであるのかを特定する。なお、本実施形態にて説明したように、最上位の階層から順にカテゴリを特定する際には、例えば、図4(a)に示す対応関係データのように、特定対象の階層よりも下位の階層のカテゴリについての対応関係データに関しては、制御部200は、その対応関係データに含まれているカテゴリデータを上記階層構造データにしたがってその上位の階層のカテゴリデータに置き換えてから、カテゴリの特定に用いるようにする。例えば、図4(a)に示す対応関係データに含まれているカテゴリデータは「交通費」であるから、そのカテゴリデータは、その上位のカテゴリである「旅費」に置き換えられる。
More specifically, the
そして、その金額表現の表す数量のカテゴリが“旅費”であると特定された場合には、制御部200は、上記対応関係データのうちで、“宿泊費”に関する対応関係データと“交通費”に関する対応関係データとを用いて、その金額表現の表す数量のカテゴリが“宿泊費”であるのか、それとも、“交通費”であるのかを特定する。このように、金額表現の表す数量のカテゴリをその最上位の階層から順に特定するとともに、特定対象の階層に属するカテゴリについての対応関係データのみを参照するようにすることによって、不要な対応関係データを参照してしまうことが排除され、特定精度が向上する。
When the category of the quantity represented by the monetary expression is specified as “travel expenses”, the
以降、制御部200は、上記カテゴリ特定動作により特定されたカテゴリを表すカテゴリデータと上記文書画像データとを対応付けて不揮発性記憶部220bへ書き込み、その文書画像データに対応する紙文書の電子化を終了する。このようにして文書画像データに対応付けられたカテゴリデータは、その文書画像データを検索する際の検索タグなどとして用いられる。なお、電子化対象の紙文書に金額表現を含む文が複数記載されている場合には、各文に含まれている金額表現の各々についてその金額表現の表すカテゴリを特定しその特定結果を全て上記文書画像データに対応付けて不揮発性記憶部220bへ書き込むとしても良いことは勿論である。
Thereafter, the
以上、本実施形態に係る文書処理装置110によれば、電子化対象の紙文書に記載されている金額表現の表す数量のカテゴリを詳細に特定することが可能になる。なお、本実施形態では、上記金額表現の表す数量のカテゴリをその最上位の階層から順に特定する場合について説明したが、不揮発性記憶部220bに格納されている全ての対応関係データを用いてその最下層のカテゴリのみを特定するようにしても勿論良い。
As described above, according to the
(C.変形)
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
(C−1:変形例1)
上述した実施形態では、紙文書の画像に対応する文書画像データに基づいて分類を行う場合について説明した。しかしながら、ワードプロセッサなどにより作成されたデータ(文書に記載されている文字の文字コードや改行コードなどがその記載順に配列されているとともに、枠線や罫線、図形を表す制御コードが配列されているデータ:以下、コードデータという)に基づいて、電子化対象の文書の分類を行うとしても良いことは勿論である。要は、紙文書に対応する文書データであれば、画像データであるかコードデータであるかは問わない。
(C. deformation)
Although the best mode for carrying out the present invention has been described above, it goes without saying that the following modifications may be made.
(C-1: Modification 1)
In the above-described embodiment, the case where the classification is performed based on the document image data corresponding to the image of the paper document has been described. However, data created by a word processor or the like (data in which character codes and line feed codes of characters described in a document are arranged in the order of description, and control codes representing frame lines, ruled lines, and figures are arranged. Of course, the document to be digitized may be classified based on the code data). In short, any document data corresponding to a paper document may be image data or code data.
(C−2:変形例2)
上述した実施形態では、電子化対象の文書に記載されている金額表現の表す数量のカテゴリを詳細に特定する場合について説明した。しかしながら、長さや温度などの数値表現についても、それら数値表現に応じた分類辞書を用意しておけば、その数値表現の表す数量のカテゴリを詳細に特定できることは言うまでもない。
(C-2: Modification 2)
In the embodiment described above, the case has been described in which the quantity category represented by the monetary expression described in the document to be digitized is specified in detail. However, for numerical expressions such as length and temperature, it goes without saying that if a classification dictionary corresponding to the numerical expressions is prepared, the category of the quantity represented by the numerical expressions can be specified in detail.
(C−3:変形例3)
上述した実施形態では、電子化対象の文書に記載されている金額表現の表す数量のカテゴリを1意に特定する場合について説明した。しかしながら、全ての数値表現についてその数値表現の表す数量のカテゴリを1意に特定することができるとは限らない。例えば、数値表現の表す数量のカテゴリの候補として複数のカテゴリが特定される場合が起こり得る。このような場合には、それら複数の候補をユーザへ提示し、ユーザによって選択されたカテゴリをその数値表現の表す数量のカテゴリとして特定するようにしても良い。
(C-3: Modification 3)
In the embodiment described above, the case has been described in which the quantity category represented by the monetary expression described in the document to be digitized is uniquely specified. However, it is not always possible to uniquely specify the quantity category represented by the numerical expression for all numerical expressions. For example, there may occur a case where a plurality of categories are specified as candidates for the quantity category represented by the numerical expression. In such a case, the plurality of candidates may be presented to the user, and the category selected by the user may be specified as the quantity category represented by the numerical expression.
(C−4:変形例4)
上述した実施形態では、電子化対象の文書に記載されている金額表現の表す数量のカテゴリを、予め用意された分類辞書に基づいて特定する場合について説明した。しかしながら、数値表現の表す数量のカテゴリが特定される度に、その数値表現を含む文について上記生成機能によって生成された名詞の集合と、その特定結果とを対応づけて新たな対応関係データを生成したり、その名詞の集合と特定結果とに基づいて既存の対応関係データを更新するなどして分類辞書を更新するようにしても良い。
(C-4: Modification 4)
In the above-described embodiment, the case where the category of the quantity represented by the monetary expression described in the document to be digitized is specified based on the classification dictionary prepared in advance has been described. However, each time a quantity category represented by a numerical expression is specified, a new correspondence data is generated by associating a set of nouns generated by the above generation function for the sentence including the numerical expression with the specified result. The classification dictionary may be updated by updating existing correspondence data based on the set of nouns and the specific result.
具体的には、上記生成機能によって生成された名詞の集合に、上記特定機能によって特定されたカテゴリデータを含んでいる対応関係データに含まれている名詞以外の名詞、が含まれていた場合には、その名詞を上記対応関係データへ書き込んで更新するようにすれば良い。このようにすると、数値表現の表す数量のカテゴリを新たに特定する度に、分類辞書の内容が拡充され、その分類辞書に基づくカテゴリの特定精度が向上してゆくといった効果を奏する。 Specifically, when a noun other than the noun included in the correspondence data including the category data specified by the specific function is included in the set of nouns generated by the generation function. The noun may be updated by writing the noun into the correspondence data. In this way, each time a quantity category represented by a numerical expression is newly specified, the contents of the classification dictionary are expanded, and the category specifying accuracy based on the classification dictionary is improved.
(C−5:変形例5)
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのソフトウェアを不揮発性記憶部220bに予め記憶させておく場合について説明した。しかしながら、例えばCD−ROM(Compact Disk- Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。
(C-5: Modification 5)
In the above-described embodiment, a case has been described in which software for causing the
10…文書電子化システム、110…文書処理装置、120…画像読取装置、130…通信線、200…制御部、210…通信IF部、220…記憶部、220a…揮発性記憶部、220b…不揮発性記憶部。
DESCRIPTION OF
Claims (5)
文書を電子化した文書データが入力される入力手段と、
前記入力手段へ入力された文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、
前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、
前記生成手段により生成された集合との類似の度合いが最も高い前記1または複数の名詞に対応付けて前記記憶手段に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段と、
を有する文書処理装置。 Storage means for storing one or a plurality of nouns and category data representing a category of a quantity, which is a numerical value to which a unit is assigned, in association with each other;
An input means for inputting document data obtained by digitizing a document;
Extracting means for analyzing document data input to the input means and extracting sentence data representing a sentence including a numerical expression that is a character string representing a numerical value assigned with a unit;
Generating means for analyzing the sentence data extracted by the extracting means, extracting nouns included in the sentence represented by the sentence data, and generating a set thereof;
Sentence data extracted by the extraction means for the category represented by the category data stored in the storage means in association with the one or more nouns having the highest degree of similarity with the set generated by the generation means A means for identifying the quantity category represented by the numerical expression included in the sentence represented by
A document processing apparatus.
ことを特徴とする請求項1に記載の文書処理装置。 The one or more nouns stored in the storage means in association with the category data are nouns that determine a category of a quantity represented by the numerical expression when a sentence is formed together with the numerical expression. The document processing apparatus according to claim 1.
を有することを特徴とする請求項1に記載の文書処理装置。 If the set generated by the generating unit includes a noun other than the one or more nouns stored in the storage unit in association with the category data specified by the specifying unit, the noun The document processing apparatus according to claim 1, further comprising a writing unit that writes the information to the storage unit in association with the category data.
前記特定手段は、
前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリを特定する際に、前記階層構造データの表す階層構造にしたがってその最上位の階層から順に特定するとともに、カテゴリを特定する階層に属する全てのカテゴリの各々を表すカテゴリデータに対応付けて前記記憶手段に記憶されている1または複数の名詞を参照して、その階層のカテゴリを特定する
ことを特徴とする請求項1に記載の文書処理装置。 The storage means represents a hierarchical structure for a quantity category that is a numerical value to which a unit is assigned, and also has written hierarchical structure data that represents one or more categories included in each hierarchy,
The specifying means is:
When specifying the category of the quantity represented by the numerical expression included in the sentence represented by the sentence data extracted by the extraction means, the order is specified in order from the highest hierarchy according to the hierarchy structure represented by the hierarchy structure data. The category of the hierarchy is specified by referring to one or more nouns stored in the storage means in association with the category data representing each of the categories belonging to the hierarchy specifying the category. The document processing apparatus according to claim 1.
文書を電子化した文書データが入力された場合に、その文書データを解析し、単位が付与された数値を表す文字列である数値表現を含む文を表す文データを抽出する抽出手段と、
前記抽出手段により抽出された文データを解析し、該文データの表す文に含まれている名詞を抽出してその集合を生成する生成手段と、
単位が付与された数値である数量のカテゴリを表すカテゴリデータ毎に当該コンピュータ装置に記憶されている名詞の集合のうち、前記生成手段により生成された集合との類似の度合いが最も高い集合に対応付けて当該コンピュータ装置に記憶されているカテゴリデータの表すカテゴリを、前記抽出手段によって抽出された文データの表す文に含まれている数値表現の表す数量のカテゴリと特定する特定手段
として機能させるプログラム。 Computer equipment,
When document data obtained by digitizing a document is input, an extraction unit that analyzes the document data and extracts sentence data representing a sentence including a numerical expression that is a character string representing a numerical value to which a unit is assigned;
Generating means for analyzing the sentence data extracted by the extracting means, extracting nouns included in the sentence represented by the sentence data, and generating a set thereof;
Corresponds to the set having the highest degree of similarity to the set generated by the generating means among the set of nouns stored in the computer device for each category data representing the quantity category that is a numerical value to which the unit is assigned. A program for functioning as a specifying means for specifying the category represented by the category data stored in the computer device as the category of the quantity represented by the numerical expression included in the sentence represented by the sentence data extracted by the extracting means .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004275895A JP2006092193A (en) | 2004-09-22 | 2004-09-22 | Document processor and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004275895A JP2006092193A (en) | 2004-09-22 | 2004-09-22 | Document processor and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006092193A true JP2006092193A (en) | 2006-04-06 |
Family
ID=36233103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004275895A Pending JP2006092193A (en) | 2004-09-22 | 2004-09-22 | Document processor and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006092193A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182165A (en) * | 2009-02-06 | 2010-08-19 | Hitachi Ltd | Analysis system and information analysis method |
-
2004
- 2004-09-22 JP JP2004275895A patent/JP2006092193A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182165A (en) * | 2009-02-06 | 2010-08-19 | Hitachi Ltd | Analysis system and information analysis method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8139870B2 (en) | Image processing apparatus, recording medium, computer data signal, and image processing method | |
JP5083669B2 (en) | Information extraction system, information extraction method, information extraction program, and information service system | |
RU2613846C2 (en) | Method and system for extracting data from images of semistructured documents | |
JP6107513B2 (en) | Information processing system, information processing method, and information processing program | |
US20080288309A1 (en) | Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service | |
JP2004348591A (en) | Document search method and device thereof | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
JP2006059075A (en) | Document processor and program | |
JP5141560B2 (en) | Information search program, recording medium storing the program, information search device, and information search method | |
Ugale et al. | Document management system: A notion towards paperless office | |
JP2014182477A (en) | Program and document processing device | |
Ha et al. | Recognition of OCR invoice metadata block types | |
JP6529254B2 (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM | |
US20230067069A1 (en) | Document digitization, transformation and validation | |
JP6856916B1 (en) | Information processing equipment, information processing methods and information processing programs | |
JP2006085582A (en) | Document processing apparatus and program | |
US11657367B2 (en) | Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program | |
JP2006092193A (en) | Document processor and program | |
CN106250354B (en) | Information processing apparatus, information processing method, and program for processing document | |
JP2007128224A (en) | Document indexing device, document indexing method and document indexing program | |
JP7312646B2 (en) | Information processing device, document identification method, and information processing system | |
JP7271987B2 (en) | Information processing device and program | |
US10990338B2 (en) | Information processing system and non-transitory computer readable medium | |
Szegedi et al. | Context-based Information Classification on Hungarian Invoices. | |
WO2023047570A1 (en) | Information processing device, information processing method, and information processing program |