JP2006133933A

JP2006133933A - コンピュータ処理方法

Info

Publication number: JP2006133933A
Application number: JP2004320175A
Authority: JP
Inventors: Hiroaki Kondo; 宏昭近藤; Daisuke Okamoto; 大輔岡本
Original assignee: NJK Corp
Current assignee: NJK Corp
Priority date: 2004-11-04
Filing date: 2004-11-04
Publication date: 2006-05-25

Abstract

【課題】ＯＣＲ処理により出力されたテキストデータの全文検索による目的部分の照会だけでなく、予め登録されたキーワードによる、直接的かつ簡単、迅速な照会をも行うことができるようにする。
【解決手段】見出しを有する書類を元に予め作成したテーブル形式のタクソノミテーブルをコンピュータ記憶装置に保存しておき、コンピュータで処理可能なファイル形式で入力された書類をＯＣＲ処理してテキストデータと画像データを生成し、前記タクソノミテーブルのタクソノミを検索キーとして、テキストデータの先頭から行単位に１文字ずつを該検索キーの各文字と比較してテキストデータの該タクソノミが含まれている行を検出し、前記タクソノミが含まれている行全体の文字数に対する前記タクソノミの文字数の占める割合から見出しを自動的に抽出する。
【選択図】図３

Description

本発明は、コンピュータ処理方法に係り、特に議案や営業報告書項目などの複数の見出しを有し、コンピュータで処理可能なファイル形式で入力された書類をＯＣＲ（文字認識）処理して、必要なデータを簡単かつ迅速に検索し照会できるようにしたコンピュータ処理方法に関する。

例えば、金融機関や機関投資家ユーザが膨大な量の株主総会招集通知書冊子の内容精査や照会作業等を行う時には、一般に、人的資源を短期間に集中的に投入して、手作業で行うようにしていた。しかしながら、このように、膨大な量の株主総会招集通知書冊子の内容精査や照会作業等を手作業で行うことは、多大の時間を要し、作業効率が非常に悪いばかりでなく、内容精査や照会作業等を、複数の照会者、複数の拠点において、迅速、的確かつ簡単に実現することは困難である。

このため、スキャナとＯＣＲ処理の組合せにより、スキャナより読み込んだ画像データをＯＣＲ処理し、文字認識結果として生成されたテキストデータを画像データに添加して全文検索等に用いるようにデータ加工することが知られている。
特開２００４−７８６７２号公報特開２００１−１２６０２６号公報

しかし、ＯＣＲ処理により、全文検索用として画像データにテキストデータを添付できたとしても、内容を精査したり照会したりする場合には、その都度、検索キーワードを入力してテキストデータの全文検索を行い、全文検索結果から、必要としている内容か否かを確認しながら作業する必要がある。このため、特に、量が一般に膨大で、短時間で行う必要のある、例えば株主総会招集通知書冊子の内容精査や照会作業等にこの技術を当てはめた場合、検索キーワードを、その都度、手作業で入力して全文検索を行いながら内容を確認する必要があって、作業効率が悪く、限られた期間内で株主総会招集通知書冊子等の内容精査や照会作業を行いたいという要請に応えることができない。

このような現状から、特に、株主総会招集通知書冊子の内容精査や照会作業等、膨大な量のデータを短時間で処理する場合にあっては、検索の毎に検索キーワードを入力する全文検索による検索ではなく、例えば予め操作ボタン等を用意しておき、この操作ボタン等を操作することによって、必要としている内容を直接的に検索し照会できるようにすることが求められている。

また、例えばユーザが株主総会招集通知書冊子で内容照会する場合、ユーザに送付される冊子数が限られているため、複数の担当者が同時に内容照会したり、複数拠点で内容照会したりすることは困難であるという問題もあった。

本発明は上記事情に鑑みて為されたもので、ＯＣＲ処理により出力されたテキストデータの全文検索による目的部分の照会だけでなく、予め登録されたキーワードによる、直接的、かつ簡単・迅速な照会をも行うことができるようにしたコンピュータ処理方法を提供することを目的とする。

請求項１に記載の発明は、見出しを有する書類を元に予め作成したテーブル形式のタクソノミテーブルをコンピュータ記憶装置に保存しておき、コンピュータで処理可能なファイル形式で入力された書類をＯＣＲ処理してテキストデータと画像データを生成し、前記タクソノミテーブルのタクソノミを検索キーとして、テキストデータの先頭から行単位に１文字ずつを該検索キーの各文字と比較してテキストデータの該タクソノミが含まれている行を検出し、前記タクソノミが含まれている行全体の文字数に対する前記タクソノミの文字数の占める割合から見出しを自動的に抽出することを特徴とするコンピュータ処理方法である。

これにより、ユーザは、見出しを有する書類を元にテーブル形式のタクソノミテーブルを予め作成してコンピュータ記憶装置に保存しておき、例えば株主総会招集通知書等の、見出しを有し目的とする書類を、例えば画像形式またはＰＤＦ形式等のコンピュータで処理可能な任意のファイル形式でコンピュータに入力するだけで、目的とする書類に含まれている見出しを自動的に抽出することができる。

請求項２に記載の発明は、前記自動的に抽出された見出しに対する操作ボタンを自動的に生成することを特徴とする請求項１記載のコンピュータ処理方法である。
これにより、ＯＣＲ処理した書類から自動的に抽出した見出しに対する操作ボタンを自動的に生成して、コンピュータ表示装置に表示することができる。

請求項３に記載の発明は、前記自動的に抽出された見出しと、前記画像データの前記見出しを有する該当ページをリンクし、前記見出しに対して自動的に生成された前記操作ボタンを操作することで、前記見出しを有する該当ページの画像データを表示することを特徴とする請求項２記載のコンピュータ処理方法である。

これにより、検索の毎に検索キーワードを入力する全文検索による検索ではなく、自動的に生成された操作ボタンを操作することによって、必要としている内容を直接的に検索し照会することができる。しかも、インターネットやＬＡＮ等のネットワークで結び、情報を共有することで、複数の担当者、複数の拠点での同時照会が可能となる。
なお、ＯＣＲ処理によって生成したテキストデータの全文検索による検索によって、単語による文書本文の記載内容を照会することもできる。

本発明によれば、自動的に生成される操作ボタンを操作することで、例えばユーザが保有する、量が一般に膨大な株主総会招集通知書の内容精査や照会作業等を簡単かつ短時間で行って、限られた期間内でこれらの作業を行いたいという要請に応えることができる。また、ユーザが行うのは、タクソノミテーブルの作成及びメンテナンスのみで、ＯＣＲ処理に関しても、特に面倒なパラメータを設定する必要はなく、一括処理でテキストデータおよび画像データが自動的に生成されて保存される。このため、ユーザは、例えば画像形式またはＰＤＦ形式の株主総会招集通知書等の、入力となる目的とする書類のみを用意するだけでよい。しかも、他年度、他業種・同業種間での横並び等の任意の照会も可能となり、従来の既存サービスと比較し、格段に向上したソリューションをユーザに提供することができる。

以下、本発明の実施の形態について、図面を参照して説明する。なお、この例では、見出しを有し目的とする書類として、画像処理が可能な冊子またはＰＤＦ形式の株主総会招集通知書を使用し、またタクソノミテーブルとして、株主総会招集通知書の議案（見出し）及び営業報告書見出しを元に作成されて、これらの見出しを自動的に抽出する「議案及び営業報告書見出し辞書」を使用した例を示している。
なお、目的とする書類として、株主総会招集通知書以外の複数の見出しを有する任意のものを使用しても良く、また、コンピュータで処理可能なファイル形式は、画像形式やＰＤＦ形式ファイルに限定されないことは勿論である。

図１は、本発明を実施するためのコンピュータ・システムを示す。図１に示すように、このコンピュータ・システムは、サーバコンピュータ１０と、このサーバコンピュータ１０とインターネット１２で結ばれる、照会用の複数のユーザコンピュータ（クライアント）１４を有している。サーバコンピュータ１０は、図２に示すように、中央処理装置１６、記憶装置１８、表示装置２０及び入力装置２２を有し、画像処理用のスキャナ２４に接続されている。
なお、この例では、サーバコンピュータ１０とユーザコンピュータ１４とをインターネット１２で結ぶようにした例を示しているが、インターネットの代わりにイントラネットを使用し、サーバコンピュータ１０とユーザコンピュータ１４とをイントラネットで結ぶようにしてもよい。

これにより、冊子またはＰＤＦ形式の株主総会招集通知書等の、見出しを有し目的となる書類は、冊子にあっては、スキャナ２４で画像形式に変換されて、ＰＤＦ形式にあっては、そのままの形式でサーバコンピュータ１０に入力される。そして、サーバコンピュータ１０の記憶装置１８には、予め作成された議案及び営業報告書見出し辞書（タクソノミテーブル）と、入力された株主総会招集通知書（書類）をＯＣＲ処理して生成されたテキストデータ及び画像データが保存される。

図３は、本発明のコンピュータ処理方法のフローチャートを示す。図３に示すように、先ず、例えば過去または既存の株主総会招集通知書の見出しを元に、予めテーブル形式の議案及び営業報告書見出し辞書（タクソノミテーブル）を作成し（ステップ１）、サーバコンピュータ１０の記憶装置１８に保存しておく。この議案及び営業報告書見出し辞書（タクソノミテーブル）は、下記のように、株主総会招集通知書をＯＣＲ処理して生成されたテキストデータと比較して、見出しを自動的に抽出するためのものである。

図４は、議案及び営業報告書見出し辞書（タクソノミテーブル）の構造の一例を示す。タクソノミテーブルは、図４（ａ）に示すタクソノミマスタテーブルと、図４（ｂ）に示すタクソノミキーワードテーブルから構成される。タクソノミマスタテーブルは、タクソノミ項目通番（Tax_ID）毎に、見出しに対応したタクソノミ項目（Taxonomy）を順次登録するためのもので、この例では、先頭から７１番目のタクソノミ項目（見出し）に「営業の経過及び成果」のタクソノミを登録した例を示している。タクソノミキーワードテーブルは、タクソノミ項目通番に対応するタクソノミ毎に、必要に応じて、複数のキーワード通番（Tax_Sub_ID）を設けて、タクソノミと同義語となるキーワード（Keyword）を登録するためのもので、この例では、「営業の経過及び成果」と「営業の経過および成果」の２つのキーワード（同義語）を登録した例を示している。

１つのタクソノミに対して、「営業の経過及び成果」と「営業の経過および成果」の２つのキーワード（同義語）を登録した場合は、図５に示すように、ＯＣＲ処理結果であるテキストデータを検索するための検索キーとなるタクソノミは、「営業の経過及び成果」と「営業の経過および成果」の２つのタクソノミキーワードから構成される。そして、テキストデータからタクソノミと一致しているか否かを判断する見出しの抽出処理は、タクソノミに関連する複数のキーワードを検索キーとしたマッチング処理を行い、登録されている全てのタクソノミを元にした抽出処理が完了した段階で、下記のように、抽出文字数やその行全体の文字数に占める検索キー（タクソノミ）の文字数の割合から、当該タクソノミを見出しとしている行の有無を決定する。

このように、１つのタクソノミに対して、複数のキーワード（同義語）、例えばこの例のように、「漢字」と「ひらがな」の他に、日本語と外国語（例えば、貸借対照表とbalance sheet）を登録し同時に検索できるようにすることで、同義語を見出しとして抽出することが可能となる。

次に、図３に示すように、目的とする書類のデータ入力を行う（ステップ２）。つまり、冊子またはＰＤＦ形式の株主総会招集通知書等の、見出しを有し目的となる書類を、冊子にあってはスキャナ２４で画像形式に変換して、ＰＤＦ形式にあっては、そのままの形式でサーバコンピュータ１０に入力する。

サーバコンピュータ１０の中央処理装置１６は、入力された株主総会招集通知書（見出しを有する書類）を元にデータ自動抽出処理（ＯＣＲ処理）を行う（ステップ３）。つまり、画像形式またはＰＤＦ形式の株主総会招集通知書を入力とし、ＯＣＲ処理のパラメータ操作をその都度行うことなく一括的にＯＣＲ処理を行ってテキストデータと画像データを生成して、記憶装置１８に保存する。

このようにして生成されたテキストデータの例を、図６及び図７に示す。図６は、株主総会招集通知書の「株主各位」または「株主総会招集」を含むテキストデータを表紙と判断して生成した（議案）テキストデータの構成を示している。図７は、表紙以外を営業報告書として判断して生成した（営業報告書）テキストデータの構成を示している。この（議案）テキストデータと（営業報告書）テキストデータは、別々のファイルに保存しても、同じファイルに保存しても良いことは勿論である。

次に、図３に示すように、議案及び営業報告書見出し辞書（タクソノミテーブル）を元にして、データ自動抽出処理（ＯＣＲ処理）で生成されたテキストデータから、議案および営業報告書見出しを自動的に抽出する見出し抽出処理を行う（ステップ４）。つまり、この見出し抽出処理では、タクソノミテーブルに保存された最初のタクソノミ（見出し）を検索キーとし、テキストデータの先頭から行単位に１文字ずつを該検索キーの各文字と比較して、テキストデータの該検索キー（タクソノミ）が含まれている行を検出する。そして、１つのタクソノミを検索キーとした操作が終了した時、次のタクソノミを検索キーとした操作を行って、タクソノミテーブルに保存された先頭のタクソノミから最後のタクソノミまでを検索キーとした操作を順次行う。そして、行全体の文字数に対するタクソノミの占める割合から、割合が高いものを見出し、低いものを本文中のワードと判断し、自動的に見出しを抽出してコンピュータ記憶装置に保存する。

なお、この例のように、１つのタクソノミに対して、２つのキーワード（同義語）が設定されている場合は、各キーワードがタクソノミの検索キーとなる。タクソノミに対してキーワードが設定されていない場合には、タクソノミがそのまま検索キーとなり、３つ以上のキーワードが設定されている場合は、それぞれがタクソノミの検索キーとなる。

図８は、テキストデータとタクソノミ（キーワード）の具体的なマッチング処理方法を示す。検索キーとなるタクソノミを１文字単位に分割し、テキストデータと行単位に先頭から１文字ずつマッチング処理を行う。つまり、検索キーとなるタクソノミが「営業の経過及び成果」である場合には、先ず「営」の文字、次に「業」の文字というように、行単位に、先頭から１文字ずつマッチングを行って、テキストデータの各行毎にこれらの文字、すなわち「営」や「業」といった文字が含まれているかを検出し、マッチング（検出）した各行毎の文字数をカウントしながら記憶する。例えば、テキストデータの一つの行に、図８（ａ）に示すように、「（１）△営業の経過及び成果」の文字列がある場合には、図８（ｂ）に示すように、その行の５文字目に「営」の文字があり、６文字目に「業」の文字がある、というように順次検出する。この時、文字を検出した行にあっては、それ以降の同じ文字の検索は行わない。つまり、この例にあっては、一つの行の５文字目で「営」を検出した場合、同一行での６文字以降「営」の検索は行わず、次の「業」の検索処理に移る。これにより、同じ文字が二重にカウントされることを防止することができる。この例では、検出された文字数は、９文字となる。

そして、この検出された文字数が予め設定された判定基準を上回った場合、例えば検出文字数のうち２／３以上が互いに一致した場合に検索キーと一致し、この行にタクソノミと同じ文字列が存在すると判断する。この例では、全ての文字が一致した例を示しているが、例えば６文字目の「業」が一致しない場合にあっても、９文字中の８文字（約９割）が互いに一致するため、この行に検索キー（タクソノミ）と同じ文字列が存在すると判断する。これにより、テキストデータがＯＣＲ処理により誤変換された文字を含み、意味のある単語として認識できない場合等においても、文字の検出順位から検索キー（タクソノミ）と一致したという判断が可能となる。

図９は、タクソノミのマッチング処理におけるキーワード文字列が、行全体の文字数に占める割合の判定について示す。例えば、図９（ａ）に示すように、検索キーとなるタクソノミ（キーワード文字列）が「営業の経過及び成果」で、図９（ｂ）に示すように、テキストデータの一つの行（以下、第Ｘ行という）に「（１）△営業の経過及び成果」の文字列が、他の行（同じく、第Ｙ行）に「営業の経過及び成果については参考資料を」の文字列がある場合、前述と同様にして、この第Ｘ行及び第Ｙ行には、検索キー（タクソノミ）と同じ文字列が存在すると判断される。

この時、テキストデータの第Ｘ行全体の文字数は１２文字であり、第Ｙ行全体の文字数は１９文字である。検索キーとしてタクソノミ（キーワード）の文字数は９文字であるので、テキストデータの第Ｘ行及び第Ｙ行の文字数全体に対すタクソノミ（キーワード）の文字数に占める割合は、
第Ｘ行：「９」÷「１２」＝０．７５
第Ｙ行：「９」÷「１９」＝０．４７
となる。そこで、割合率の高い第Ｘ行を、このタクソノミ「営業の経過及び成果」に対する見出しと判断する。

そして、見出しが抽出されたタクソノミ毎に、抽出された見出しとデータ自動抽出処理で生成された画像データとをリンクさせた画像リンクテーブルを作成して（ステップ５）、記憶装置１８に記憶する。図１０は、この画像リンクテーブルの構造の一例を示す。画像リンクテーブルは、タクソノミ項目通番（Tax_ID）に対応させ、検索の対象となるテキストファイルを、年度（対象年度）及び銘柄コード（対象銘柄コード）で特定し、上記のマッチング処理に基づいて自動的に抽出された見出しを有する画像データのページ番号（招集通知書内記載ページ番号）を登録する。この例では、前記「営業の経過及び成果」の文字列（タクソノミ）を有する第Ｘ行が、年度：２００４年、銘柄コード：１２３４の株主総会招集通知書の５ページにあることを表している。

そして、図３に示すように、見出しを有する当該ページを表示させる照会処理を行う（ステップ６）。この照会処理は、サーバコンピュータ１０の記憶装置１８に保存された画像データと、見出し抽出処理で抽出された見出しとを自動生成した操作ボタンでリンクさせた、前記画像リンクテーブルを介して、照会要求に応じて結果を返却する機能で、例えばユーザコンピュータ１４からサーバコンピュータ１０に入力された年度、業種、企業名により、検索し抽出した結果データをユーザコンピュータ１４に返却する。

これにより、図３に示すように、招集通知書を照会する場合に必要となる操作ボタンを自動的に抽出した見出しから自動的に生成する（ステップ７）。この例では、テキストデータに検索キーとしてのタクソノミと一致する「営業の経過及び成果」が存在し、テキストデータの第Ｘ行が見出しとして抽出されたので、図１１に示すように、「営業の経過および成果」という操作ボタン３０が自動的に生成される。

図１１は、前述のようにして生成された操作ボタンを表示した、招集通知書照会の画面イメージを示す。この例では、図６に示す、表紙と判断した（議案）テキストデータから議案検索用の複数の操作ボタン３２を、図７に示す、営業報告書と判断した（営業報告書）テキストデータから、前述の操作ボタン３０を含む営業報告書用の複数の操作ボタン群３４をそれぞれ生成するようにしている。

つまり、表紙にあっては、テキストデータを先頭から行単位に読み込み、議案名を取得する。議案名の判断基準は、「第ｎ号議案」、「〜の件」または「〜について」が記載されているものとし、記載ページ以降のテキストデータから、前述と同様なマッチング処理を行って議案を判定・抽出し、一致したタクソノミ項目および照会処理用に当該議案掲載画像データとのリンク情報を画像リンクテーブルに登録する。営業報告書見出しの抽出処理については、タクソノミテーブルのタクソノミを先頭から読み込み、テキストデータの営業報告書記載部分全てを検索対象とし、前述と同様なマッチング処理を行って営業報告書見出しを判定・抽出し、一致したタクソノミ項目および照会処理用に当該見出し掲載画像データとのリンク情報を画像リンクテーブルに登録する。

そして、例えばユーザコンピュータ１４から要求された企業の株主総会招集通知書の情報を検索し、タクソノミテーブルに示す当該企業の画像リンクテーブルの情報をもとに、表示情報および当該企業の招集通知書議案用の操作ボタン３２、及び営業報告書見出し用の操作ボタン３４を生成し付与した照会画面情報をユーザコンピュータ１４に返却する。

これにより、当該企業の株主総会招集通知書に記載されている議案および営業報告書見出しが、操作ボタン３２，３４として画面上に配置されており、各操作ボタン３２，３４にはそれぞれの議案および営業報告書見出しに対応した株主総会招集通知書の画像データがリンクされている。従って、ユーザは、照会したい議案および営業報告書見出しの操作ボタンを押下することにより、希望する企業の株主装架招集通知書の内容について、先頭ページ（招集通知書表紙）から目的ページまで画面をスクロールすることなく、議案および営業報告書見出しに対応した画像イメージを直接、照会することができる。

つまり、この例にあっては、前述のタクソノミ「営業の経過及び成果」から自動的に抽出された見出しに対して、自動的に生成された操作ボタン３０を選択すると、図１１に示すように、年度：２００４年、銘柄コード：１２３４の株主総会招集通知書の第５ページが画面に表示される。

以上説明したように、この例によれば、操作ボタンを操作することで、必要としている内容を直接的に検索し照会することができ、これによって、量が一般に膨大な、例えば株主総会招集通知書冊子の内容精査や照会作業等を限られた期間内で行いたいという要請に応えることができる。しかも、複数の担当者が同時に内容照会したり、複数拠点で内容照会したりすることも可能となる。

本発明を実施するためのコンピュータ・システムを示す図である。サーバコンピュータの概要を示す図である。本発明のコンピュータ処理方法の流れを示すフローチャートである。議案及び営業報告書見出し辞書（タクソノミテーブル）の構造を示す図である。タクソノミとタクソノミキーワードの関係を示す図である。ＯＣＲ処理後の（議案）テキストデータの構成を示す図である。ＯＣＲ処理後の（営業報告書）テキストデータの構成を示す図である。テキストデータとタクソノミ（キーワード）のマッチング処理方法の説明に付する図である。マッチング処理におけるキーワード文字列が行全体の文字数に占める割合の判定方法の説明に付する図である。画像リンクテーブルの構造を示す図である。招集通知書照会の画面イメージを示す図である。

符号の説明

１０サーバコンピュータ
１２インターネット
１４ユーザコンピュータ
１６中央処理装置
１８記憶装置
２０表示装置
２２入力装置
２４スキャナ
３０，３２，３４各操作ボタン

Claims

見出しを有する書類を元に予め作成したテーブル形式のタクソノミテーブルをコンピュータ記憶装置に保存しておき、
コンピュータで処理可能なファイル形式で入力された書類をＯＣＲ処理してテキストデータと画像データを生成し、
前記タクソノミテーブルのタクソノミを検索キーとして、テキストデータの先頭から行単位に１文字ずつを該検索キーの各文字と比較してテキストデータの該タクソノミが含まれている行を検出し、
前記タクソノミが含まれている行全体の文字数に対する前記タクソノミの文字数の占める割合から見出しを自動的に抽出することを特徴とするコンピュータ処理方法。
前記自動的に抽出された見出しに対する操作ボタンを自動的に生成することを特徴とする請求項１記載のコンピュータ処理方法。
前記自動的に抽出された見出しと、前記画像データの前記見出しを有する該当ページをリンクし、前記見出しに対して自動的に生成された前記操作ボタンを操作することで、前記見出しを有する該当ページの画像データを表示することを特徴とする請求項２記載のコンピュータ処理方法。