JP4787955B2

JP4787955B2 - 対象文書からキーワードを抽出する方法、システムおよびプログラム

Info

Publication number: JP4787955B2
Application number: JP2005128532A
Authority: JP
Inventors: 康平新井
Original assignee: NATIONAL UNIVERSITY CORPORATION SAGA UNIVERSITY
Current assignee: NATIONAL UNIVERSITY CORPORATION SAGA UNIVERSITY
Priority date: 2005-04-26
Filing date: 2005-04-26
Publication date: 2011-10-05
Anticipated expiration: 2025-04-26
Also published as: JP2006309347A

Description

本発明は、対象文書からキーワードを抽出する方法に関し、キーワードを抽出するための評価項目の状態を条件としたプロダクションシステムにより対象文書の特徴を示す適切なキーワードを抽出する方法に関する。

現在、紙媒体として大量に存在する印刷、手書き等の文書、図面等をデータベース管理し、検索して電子媒体等で公開できるようにするiDC(internet Data Center)の開発が進行している。一般的に、紙媒体文書等は、オペレータにより検索用キーワードを手書きページとして挿入し、このページも含めてスキャナ等で電子媒体に変換し、登録している。

紙媒体文書等からのキーワードの自動生成に関して、文書をビジネス文書に限定し、レイアウト中のタイトル文字列の位置に関する知識を用いて検索用キーワードを抽出し、また、必要に応じてオペレータが手作業にて入力する方法が提案されている。

また、キーワード自動抽出装置として、特開平７−２３０４６８号公報に開示されるものがある。この背景技術となるキーワード自動抽出装置は、まず、文字列を、連続した同一の文字種からなる文字列要素（漢字文字列、カタカナ文字列、数字文字列など）に分割して文字列要素リストを作成し、この中で数字文字列やカタカナ文字列などのように形態素解析が行われない部分を、これに対応する文法情報を持った代替文字＊などで置き換えたかたちの形態素解析用テキストを作成し、この形態素解析用テキストに形態素解析を実行して文字列要素の中の少なくとも漢字文字列を形態素に再分割した形態素解析リストを作成する。次に、この形態素解析リストの文法情報にもとづいて、文字列要素および形態素の中の名詞などと、もともと名詞同士などの所定の文法関係により隣接していたこれらの連語とからなるキーワードリストを作成する。

このように、背景技術となるキーワード自動抽出装置によれば、テキスト中の、形態素解析により不適切なキーワードが抽出される程度の高い文字列要素（数字文字列、カタカナ文字列や英字文字列など）については形態素解析しないでそのままとし、且つこのときの文字列要素や、形態素解析される漢字文字列などの形態素から特定のもの（名詞や特定のルールに合致した連語）をキーワードとして抽出するようにしているため、キーワードの品質および情報検索システムの検索精度を高めることができる。
特開平７−２３０４６８号公報

背景技術となる一つの方法は、まず、オペレータが知識と経験に基づき検索用キーワードを抽出し、当該キーワードを別用紙に記入し、これを対象紙媒体文書等に添付して、スキャナ等により画像ファイルに変換する。その後、文字認識を行う。対象紙媒体文書等は画像ファイルのまま、または、認識後のテキストファイル形式にてデータベースに登録される。その際、キーワード用紙に記入した手書き文字を認識した結果としてのキーワードを付与する。また、検索用の属性情報をメタデータとしてデータベース化する。この方法は、オペレータ作業を伴い、非効率的であり、オペレータの主観に基づくキーワードの妥当性および一環性が保持できない等の課題を有する。

また、公報に開示されたキーワード自動抽出装置は、テキストデータを形態素解析を行って、形態素それぞれの文法情報に基づき、名詞、名詞の連語等をキーワードとして選択するので、文書中の名詞、名詞の連語に該当すればキーワードとして選択され、文書当たりのキーワードが大量に抽出される。したがって、文書中に複数存在する名詞、名詞の連語等からさらに文書の特徴を示す適切なキーワードを抽出することができないという課題を有する。

そこで、本発明は前記課題を解決するためになされたもので、単に文書中に存在する名詞等を抽出するだけでなく、他の文字列の評価項目を適切に用い、より対象文書の特徴を示すキーワードを精度良く抽出するキーワード抽出装置を提供することを目的とする。

本発明は、紙媒体文書等をレター、フォームおよび図面形式に分類し、それらを対象にした検索用キーワードの抽出法を提案する。すなわち、スキャナにより得られる画像情報をHTML形式のデータに変換してレイアウト情報を抽出し、文字列中の単語を品詞に分解し、位置、フォントサイズ、出現頻度を知識として用いて検索用キーワードを抽出する方法を提案する。その際、これら知識の重要度は文書形式により異なるため、これを考慮するため、階層的分析法（Analytic Hierarchy Process: AHP）を用いている。知識ベースシステムとしてのプロダクションシステムにAHPによる数多くの知識の全体把握を伴う意思決定法を導入し、紙媒体文書等から検索キーワードを抽出するシステムを構築し、現実の文書、図面を用いる。

提案方法は、オペレータの介在を極力抑えたものであり、紙媒体で存在する文書、図面等から自動的又は半自動的に検索用のキーワードを抽出し、データベースを構築し、検索が可能なように工夫したものである。具体的には、スキャナ等によって紙媒体文書等を画像ファイルに変換し、当該文書をレター、フォームおよび図面の形式に分類し、レイアウト情報およびフォントサイズ情報を抽出し、また、文字認識を実施した結果(テキスト形式)を用いてHTML形式に変換する。その後、テキスト形式文章を形態素解析し、「分かち書き」文章に変換し、単語に品詞を与える。次に、HTML変換後のファイルから、文字列の位置、フォントサイズ、単語の出現頻度を調べ、プロダクションシステムにて当該文書等に最も適したキーワードを抽出する。その際、知識ベースシステムではこれらの知識の重要度が文書形式によって異なることを考慮するため、AHPを用いる。

本発明に係る対象文書からキーワードを抽出するコンピュータシステムは、画像データを入力するための入力部と、入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手段と、入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手段と、入力された前記画像データを文字認識してテキストデータとする手段と、当該テキストデータを形態素解析し、形態素解析情報を出力する手段と、前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とＷＷＷブラウザ上での表示態様とが同じになるようにＷＷＷブラウザ上で表示可能なマークアップ言語情報を生成する手段と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手段と、前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする文書形式毎の知識を用い、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手段とを備えるものである。
このように本発明においては、まず対象文書の文書形式を求め、対象文書のレイアウト情報、フォントサイズ情報及び出現頻度情報を用いて正確な推論を実行してキーワードを抽出することができる。
また、決定された文書形式毎の知識に限定して推論を実行するので、他の文書形式の知識を参照することなく推論実行時の演算処理を迅速に行うことができる。
本発明に係る対象文書からキーワードを抽出するコンピュータシステムは、予め被験者から得られた知識に基づく前記各評価項目における要素の重要度について、前記文書形式毎に、各要素間の重要度を一対一で比較して当該要素間の相対重要度を算出し、予め被験者から得られた知識に基づいて、前記評価項目の重要度が設定された代替案について、前記文書形式毎に、各代替案間の重要度を一対一で比較して当該代替案間の相対重要度を算出し、前記算出された各相対重要度の積算及び乗算により確信度を算出し、前記推論を実行する手段が用いる知識の各後件部に前記算出した確信度を対応させており、前記対象文書中の任意の文字列についての確信度が予め設定された閾値を超えている場合に、当該文字列をキーワードと推論するものである。
このように本発明においては、知識の各後件部に確信度を対応させているので確信度に基づいて適切にキーワードを出力することができる。

本発明に係る対象文書からキーワードを抽出するコンピュータプログラムは、プロセッサに、画像データを入力する手順と、入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手順と、入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手順と、入力された前記画像データを文字認識してテキストデータとする手順と、当該テキストデータを形態素解析し、形態素解析情報を出力する手順と、前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とＷＷＷブラウザ上での表示態様とが同じになるようにＷＷＷブラウザ上で表示可能なマークアップ言語情報を生成する手順と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手順と、前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手順とを実行させるものである。

本発明に係る対象文書からキーワードを抽出する方法は、プロセッサが、画像データを入力する工程と、入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する工程と、入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する工程と、入力された前記画像データを文字認識してテキストデータとする工程と、当該テキストデータを形態素解析し、形態素解析情報を出力する工程と、前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とＷＷＷブラウザ上での表示態様とが同じになるようにＷＷＷブラウザ上で表示可能なマークアップ言語情報を生成する工程と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する工程と、前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する工程とを含むものである。

（１３）
本発明に係る対象文書の画像データからマークアップ言語ファイルを生成するコンピュータシステムは、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力するための入力部と、入力された画像データをレイアウト解析し、対象文書中での文字の位置、文字の大きさを求め、当該求めた対象文書中での文字の位置及び文字の大きさに基づきマークアップ言語で記述されたマークアップ言語ファイルを閲覧装置で閲覧した場合に対象文書内の文字の位置、文字の大きさと略同様となるようにマークアップ言語ファイルを生成する制御部とを備えるものである。このように本発明においては、対象文書の画像データから文字に関して位置、大きさの情報を取得し、マークアップ言語ファイルを生成するので、マークアップ言語ファイルの閲覧装置で閲覧した場合に元となる対象文書から文字のみを抜粋した形での表示を行うことができる。文字以外の図等のデータサイズの大きなものがマークアップ言語ファイルには存在せずに、閲覧装置で迅速に表示を行うことができると共に、小さなメモリ容量で動作することができる。

（１４）
本発明に係る対象文書の画像データからマークアップ言語ファイルを生成するコンピュータシステムは必要に応じて、前記マークアップ言語がHTMLであって、マークアップ言語ファイルがHTMLファイルであり、前記制御部が、対象文書中の文字の位置に基づき、改行タグで縦位置を定め、スペースの文字実態参照で横位置を定め、HTMLファイルを生成するものである。
これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。

本発明は多くの異なる形態で実施可能である。したがって、下記の各実施形態の記載内容のみで解釈すべきではない。また、各実施形態の全体を通して同じ要素には同じ符号を付けている。
各実施形態では、主にシステムについて説明するが、所謂当業者であれば明らかな通り、本発明はコンピュータで使用可能なプログラム及び方法としても実施できる。また、本発明は、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。

（本発明の第１の実施形態）
本発明の第１の実施形態に係るキーワードを抽出するコンピュータシステムについて、図に基づき説明する。
コンピュータシステムのブロック構成図を示す図１のように、本実施形態に係るキーワード抽出装置は、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力するための入力部１０と、入力された画像データから対象文書中の構成要素に基づき文書形式を決定する文書形式決定手段２１と、入力された画像データをレイアウト解析し対象文書のレイアウト情報および対象文書中の文字のフォントサイズ情報を生成するレイアウト解析手段２２と、入力された画像データを文字認識してテキストデータを生成するテキストデータ変換手段２３と、このテキストデータを形態素解析し、形態素解析情報を出力する形態素解析手段２４と、前記レイアウト情報及びフォントサイズ情報をHTMLファイルに変換するHTML変換手段２５と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する出現頻度演算手段２６と、対象文書の文書形式毎にプロダクションシステムのプロダクションメモリに、条件部が対象文書の形態素の位置、フォントサイズ及び出現頻度の評価項目要素の評価項目状態であり、後件部がキーワードであるか否かである知識が格納されたプロダクションシステムのワーキングメモリにレイアウト情報、フォントサイズ情報及び出現頻度情報を入力し、推論を実行する推論手段２７と、記録部４０に画像データ、HTMLファイル及びキーワードを対応付けて記録する記録手段２８と、推論結果の形態素を表示する表示部３０とを備える構成である。

入力部１０は、イメージスキャナーで対象文書を読み込むことで、イメージスキャナーから出力される画像データをシステムに取り込む。予め、イメージスキャナーで対象文書を読み込んでファイルにした画像データをシステムに取り込むこともできる。

レイアウト解析手段２２は、画像データを特定のアルゴリズムに従ってレイアウト解析し、レイアウト解析結果のレイアウト情報及びフォントサイズ情報をHTML変換手段２５及び推論手段２７に引き渡す。レイアウト解析のアルゴリズムは、本発明の本質的部分でなく、かつ、様々なアルゴリズムが周知技術として存在し当業者は適宜実現することができるので、ここでの詳細な説明は省略する。手書き文字や印字された文字を光学的に読み取り、パターンとの照合により文字を特定し、文字データを入力する光学式文字読取装置の分野等で周知となっている。テキストデータ変換手段２３によるテキストへの画像データの変換も同様である。
レイアウト情報は、文字、文字列が文書中のどの位置にあるかを示した情報である。フォントサイズ情報は、文字の大きさの情報である。

形態素解析手段２４が、テキストデータを形態素解析している。形態素解析(Morphological Analysis)は、自然言語で書かれた文を形態素（Morpheme:言語で意味を持つ最小単位）に分割し、品詞を見分けることである。参照するものとして対象言語の文法の知識と辞書(品詞等と対応付いた単語リスト)とがある。形態素解析のアルゴリズムは、本発明の本質的部分でなく、かつ、様々なアルゴリズムが周知技術として存在し当業者は適宜実現することができるので、ここでの詳細な説明は省略する。形態素解析ソフトとして、ChaSen（URL：http://chasen.aist-nara.ac.jp/）というものがあり、広く用いられている。

形態素解析手段２４により形態素毎に分割、統合された文字、文字列毎のレイアウト情報、フォントサイズ情報から、形態素の位置、形態素の大きさも把握することができる。より好ましくは、オブジェクト指向言語により実装した場合には、各形態素毎にクラスを用意し、メンバ変数として、形態素の文字、文字列の変数、形態素の品詞の変数、形態素の位置の変数、形態素のフォントサイズの変数を用意し、それぞれのメンバ変数に値を、形態素解析手段２４がまず形態素の文字、文字列の変数に形態素を求めた後に値を格納し、同様に形態素の品詞の変数に格納し、レイアウト情報及びフォントサイズ情報よりそれぞれ形態素の位置の変数、形態素のフォントサイズの変数に値を格納する構成とする方がよい。そうすることで、後記する推論手段２７が適宜該当する形態素のオブジェクトのメンバ変数を参照することで、プロダクションルールとの照合を実行することができる。

HTML変換手段２５は、レイアウト情報及びフォントサイズ情報を用いて対象文書の表示とＷＷＷブラウザ上での表示とが同様になるようにHTMLファイルを生成する。レイアウト情報には、図２（ａ）に示すように、文字列「私は学校へ」が４行目４文字目から始まり、文字列「行きました。」が５行目４文字目から始まり、文字列「僕は学校を」が１２行目４文字目から始まり、文字列「休みました。」が１３行目４文字目から始まるという情報が格納されている。また、フォントサイズ情報には、文字列「私は学校へ」「行きました。」「僕は学校を」「休みました。」の全てが１２ポイントであるという情報が格納されてる。HTML変換手段２５は、レイアウト情報から、３行目までには文字列がなく改行タグを挿入し、４行目の先頭から３文字相当のスペースの文字実態参照（&nbsp）を挿入し、「私は学校へ」を挿入する。この挿入後、改行タグを挿入し５行目の先頭から３文字相当のスペースの文字実態参照を挿入し、「行きました。」を挿入する。１２行目から「僕は学校を」が始まるので、１１行目まで改行タグを挿入し、１２行目の先頭から３文字相当のスペースの文字実態参照を挿入し、「僕は学校を」を挿入する。この挿入後、改行タグを挿入し１３行目の先頭から３文字相当のスペースの文字実態参照を挿入し、「休みました。」を挿入する。さらに、全ての文字列の大きさが同じであるために、フォントタグで３を指定し、図３（ａ）に示すHTMLファイルを生成する。フォントサイズのポイント数とフォントタグで指定できる数字とを予め対応させておく。改行タグやスペースの文字実態参照を使用する他、Preタグを使用することもできる。

ＷＷＷブラウザ上で表示させると、使用しているＷＷＷブラウザの文字の大きさの設定によっては対象文書と同一には表示することができない場合もあるが、文字同士の相対的な位置関係及び文字の相対的な大きさを把握することができ、キーワードを選択する場合の支障にはならない。図２（ｂ）には画像データのレイアウト認識の一例を示す。何行目にあるか、先頭から何文字目にあるかは所定間隔毎、所定文字間隔毎のパターン認識で求めることができる。他に、画像データを小さい矩形領域に分けレイアウト解析を行う方法もある。

生成したHTMLファイルをＷＷＷブラウザで表示した場合には、例えば、図３（ｂ）に示すようになる。ディスプレイの大きさ、ＷＷＷブラウザの大きさ、文字の大きさの設定等で、すなわち、各コンピュータの環境により表示が左右されるが、図３（ｂ）の点線に示す枠線を表示することにより、より対象文書のアウトラインを把握することができる。

以上のようにHTML変換手段２５が生成するHTMLファイル中には、図面であれば図を構成するライン等、フォームであればフォームの罫線等の情報は格納されておらず、生成したHTMLファイルを表示させた場合には図等は表示されず、文字のみが表示される。そうすることで、HTMLファイルの容量はリンクファイルを含めると大幅に小さくなり、記録部４０での記録容量が少なくて済む。また、画像データを画像表示装置で表示させるよりも、生成したHTMLファイルをＷＷＷブラウザで表示させた方が高速にディスプレイに表示させることができる。

出現頻度演算手段２６は、形態素解析情報から形態素毎の出現頻度を演算し、出現頻度情報を生成する。形態素解析情報中で、形態素と品詞とが対応づいているので、それぞれの形態素の対象文書中での個数をカウントすることで出現頻度を演算することができる。ここで、出現頻度演算手段２６は、形態素の品詞を見ることなく同じ形態素は品詞が異なっても同じものとして扱うこともできるし、品詞が異なれば別の形態素として取り扱うこともできる。さらに、形態素が略同じで品詞が異なる場合に、同一のものとしてカウントすることもでき、キーワード抽出の精度を向上させることができる。

［文書の形式］
文字数を指標に図面は識別でき、また、表を多く含むフォーム形式は、罫線等線分数が多く、文字数も多く、レター形式は、線分数が少なく文字数が多いことを利用して文書形式決定手段２１が対象文書を3種類のいずれかに分類することができる。すなわち、文書の構成要素である文字、線分等で分類することができる。

レター形式文書は、文書タイトルが検索用キーワードとなる場合が多く、その現れる位置、フォントサイズが重要である。それらに次いで当該キーワードの出現頻度が重要である。
フォーム形式文書は、表中にタイトルが現れる場合が多く、文書タイトルの現れる位置、次いで、その出現頻度が重要であり、フォントサイズはさほど重要ではない。
図面は、文書タイトルの位置が最も重要であり、フォントサイズもさほど重要ではなく、文字数が少ないことから出現頻度は殆ど重要ではない。すなわち、上記のように文書形式によって検索用キーワードを抽出する際の知識の重要度は異なる。

［文書形式に最適な知識重要度の設定］
AHPに基づき、事前に知識重要度の考慮方法を検討する。対象文書の文書形式による知識キーワードの重要度の設定を最適化し、これに必要な評価項目を事前に推定する。AHPは、問題分析において主観的判断とシステムアプローチを上手く利用した問題解決型意思決定手法である。複雑に絡み合った要素の中から一つの答えを取り出されなければならない時に、あまり単純に割り切ってしまうと大事な要素を見落としてしまう危険があり、あまりに複雑な手法では臨機応変に使いこなすことが難しくなる。そこで、多くの要素をバランスよく取り込み、意思決定できる方法としてAHPを採用する。

次に、意思決定に関する評価項目の要素の抽出および知識の階層化について説明する。AHPは、決定に関連した要素を階層構造で表現する。ある基準に基づき、選択肢の評価を階層的に判断し、最終的には全階層を統合化して意思決定する。この手順を次に示す。
意思決定の目的の要素を１つ、目的評価のための評価項目の要素を複数個、目的に対する代替案を複数個用意する。本実施形態では、目的に知識の重要度(重み係数)、評価項目要素にフォントサイズ、文字列の位置、出現頻度、さらに、代替案にそれら評価項目要素の大きさを設定した。
最上層を目的要素とし、評価層を意思決定のための評価項目要素、さらに、最下層を代替案とする。

次に、評価層の要素の影響度の評価について説明する。予め、被験者（例えば10名）に対して対象文書を提示し、検索用キーワードとして最適な単語を選定してもらい、かつ、当該キーワードを選定する際に用いた知識、すなわち、評価項目要素の影響度(重要度)を0から1の範囲で採点してもらう。

次に、各階層の要素間の一対一比較について説明する。階層毎にペアを選択し、一対一比較を行う。階層にn個の比較要素がある場合、n(n−1)/2回の一対一比較を行うことになる。同じ階層の各要素を一対一比較表によって比較し、表1に示す一対一比較行列を作成する。その後、評価項目階層の一対一比較を実施し、要素間の相対重要度を算出する。

次に、各階層の要素間の重要度の計算について説明する。各階層の要素間の重み係数を求めるためのアルゴリズムを以下に示す。各階層の要素A₁,A₂,…,A_nの一対一比較行列をA＝［a_ij］とする。また、求める重み係数wが既知の時にw₁，w₂,…,w_nで与えられた場合、Aは式(1)のようになる。

この時、a_ijは理想的には、

とする。この時、i, j, k についてa_ij×a_jk=a_ikが成立するならば、意思決定者の判断が完全に整合しているといえる。
次に、式(1)にwを右から掛けると、式(3)のようになる。

従って、

となる。式(4)は固有値問題、

に変形できる。この時、w≠0となるには、nがAの固有値になる必要がある。nがAの固有値になる時、wはAの固有ベクトルとなる。また、rank(A) = 1より、固有値λ_i(i=1,2,・・・,n)は0を除く、最大固有値λ_maxが与えられ、他の固有値=0となる。Aの主対角要素の和はnであるので、λ_maxはλ_max=nを満たしている。よって、wはAのλ_maxに対する正規化した固有ベクトルとなる。すなわち、完全に整合性がとれているといえる。しかし、現実には意思決定者がwと同じ重み係数を与えるような行列Aを決定することは極めて困難である。そのため、意思決定者から得られる一対一比較行列をA'、その一対一比較行列から得られる重み係数をW'した時、式(4)を式(6)のように置き換える。

したがって、W'はA'の最大固有値λ´_maxに対する正規化した固有ベクトルとなる。一対一比較の際、要素数が増加するほど結果の不整合性が発生する。n行n列の一対一比較行列において、不整合性が発生すると、最大固有値λ´_maxはnより大きくなる。これをSattyの定理と呼び、式(7)で表される。

式(7)より、λ´_maxは常にλ´_max≧nを満たすことがわかる。そこで、一対一比較の整合性チェックの指標としてC.I(Consistency Index)が定義されている。C.I.は式(8)で表される。

C.I=0に近づくにつれて整合性が高まり、逆に0から遠ざかるにつれて整合性が低くなる。
目的の評価項目と各代替案の一対一比較を行う。そして、各階層で求めた重み係数を用いて、代替案の中から最適な案を求める。

［検索キーワード抽出のための知識ベースの構築］
検索キーワード抽出のためのプロダクションシステムをAHPに基づき、あらかじめ構築する。ここでは、特に、あまり試みられていない「図面形式」の対象文書を例に取り上げ、AHPに基づく知識の重要度、確信度の決定方法を示す。図４に対象文書の一例を示す。例示するように、線分数は多く文字が少ないことが図面形式の文書の特徴である。AHPの最上層は目的であり、重要度(重み係数)であり、中間層の評価項目の要素は、フォントサイズ、縦横位置、出現頻度である。また、最下層の代替案は重要度の大小である。

次に、評価項目（キーワード候補に関する知識）について説明する。抽出した複数の文字領域からキーワード候補を抽出するため、以下の知識が有効である。(1)キーワードは、他の文字（Fontsize）に比べ大きい。(2)キーワードのある位置は、図面の左中右(X#Position)上下(Y#Position)の場合が多い。(3)キーワードは、図面中に頻度高く(Frequency)出現する。これら知識の評価項目値（Fontsize、Y#Position、X#Position、Frecuency）は、以下のように抽出した。

(1)フォントサイズ（Fontsize）、位置情報（Y#Position、X#Position）に関しては対象文書をスキャナで読み込み、上記各手段により、レイアウト情報としてHTML言語に変換して抽出した。
(2)頻度（Frequency）は、文字認識し、テキストに変換した後に、前出の形態素解析ソフトChaSenを利用し、「分かち書き」単語の頻度を調べることにより抽出した。

例示として、図面形式の対象文書を10名の被験者に提示し、前記した評価項目をどの程度重要視したかの影響度を0から1の範囲で10段階評価にて指定してもらったところ、フォントサイズ:0.98、出現頻度:0.98、縦位置：0.694、横位置：0.23が平均影響度であることが分かった。

次に、知識ベース設計について説明する。提案方法の知識はプロダクションルール「IF〜ならばTHEN〜である」という形式で表現されている。提案方法の知識は、条件部に「Fontsizeの大小」等の評価項目の評価項目状態、後件部にはキーワードか否かを記述した。すなわち、「IF Fontsize is Big THEN 確信度CFにおいてキーワードである」となる。また、提案方法の知識においては、等しくない条件部をもつ複数の知識が同一の後件部を導出する論理和の形式のみを利用した。

次に、確信度（Certainty factor）について説明する。プロダクションシステムの特徴として、各知識に確信度という重み係数を課すことで不確実な知識の扱いを可能にする点が上げられる。本実施形態では、確信度を、ある知識ルールにおいて、その条件部により後件部がどの程度導出できるかという度合いを表現した指標と定義する。この値の範囲は、±1であり、0の場合は後件部を導出するのに条件部は考慮されないことを意味している。負の場合、後件部導出に否定的である度合いを意味し、正の場合、後件部導出を支持する度合いを意味している。この時、AHPで得られた相対重要度に基づき、確信度を求めた。図５に知識表現および対象文書入力から確信度決定に至るプロセス手順を示す。

(1)確信度決定のため、AHPの階層構造の最上層の目的は知識の重要度算出として、評価項目はFontsize、X#Position、Y#Position、Frequencyとした。また、最下層の代替案層は各評価項目においてFontsizeが大きい場合、Y#Position、X#Positionが重要と思われる場所に近い場合、Frequencyが多い場合をBigとし、その逆をSmallとした。

(2)X#Position、Y#Positionについて、文字列のレイアウトがどの位置にあるときが重要であるかという判断には、文書を縦、横それぞれ5分割し、その位置をA(最端)、B(やや端)、C(中間)、D(やや端)、E(最端)としたファジィ集合で表した。図６にメンバーシップ関数を示す。また、対象文書のキーワードのある位置は図面の左中右上下の場合が多いという知識を用いて、位置の重要度の評価項目、X#Position、Y#Positionのそれぞれに対し、A or C or E > B or Dとした。

表1は、前出の影響度を用いて、AHPに基づいて一対一比較を行い、算出した評価項目の重み係数(相対重要度)である。また、それぞれの評価項目(Fontsize、Y#Position、X#Position、Frequency)に対する各代替案の一対一比較結果を、表2から5に示す。表1の評価項目の重み係数に各代替案を乗算し、それらの値を加算し、統合化すると表6になる。これをみると、全評価項目が最もBigの場合の相対重要度は0.85、また、全評価項目が最もSmallの場合の相対重要度は0.15となっている。表1から5に基づき、全知識の確信度を図７のように決定する。これは、フォントサイズ:大、横位置:大、縦位置:小、出現頻度：大の場合の確信度の計算例である。

(3)確信度の合成法確信度の合成は、２つの知識の論理和により行った。同一の後件部導出時のCF1、CF2を合成したCFは、

とする。

図８において、知識ベースで適合する知識ルールが複数個存在していた場合、最も知識の条件部が詳細なものを選択し実行することにより、知識の競合をさける。そして、推論手段２７がキーワードの確信度とキーワード候補を出力する。この確信度がある閾値(本論文では0.96とした。)を超えているならば、自動的にキーワード候補を採用し、対象文書の画像データ、HTMLファイル及びキーワードを対応付けて記録部４０に記録手段２８が記録する。閾値を超えていない場合は、確信度とキーワード候補を表示部３０に表示し、オペレータにキーワードを提示して選択を促し、決定されたキーワードを記録手段２８が画像データ及びHTMLファイルと共に記録部４０（データベース）へ登録する。

次に、本実施形態に係るコンピュータシステムの動作について図に基づき説明する。まず、図９に示すように、イメージスキャナで対象文書が読み込まれ、出力された画像データを入力部１０が取り込む（ステップ１０１）。文書形式決定手段２１が、画像データから文書の文字、線分を認識し、文字数、線分数を演算し、かかる文字数、線分数から図面、フォーム、レターから対象文書の文書形式を決定する（ステップ１０２）。レイアウト解析手段２２が、画像データをレイアウト解析し、レイアウト情報及びフォントサイズ情報を生成する（ステップ１０３）。テキストデータ変換手段２３が、画像データをテキストデータに変換する（ステップ１０４）。このステップ１０４で変換されたテキストデータを、形態素解析手段２４が形態素解析し形態素解析情報を生成する（ステップ１０５）。出現頻度演算手段２６が形態素解析情報から形態素の出現頻度を演算し、出現頻度情報を生成する（ステップ１０６）。HTML変換手段２５が、レイアウト情報及びフォントサイズ情報からHTMLファイルを生成する（ステップ１０７）。次に、定義済み処理である推論処理（ステップ２００）、キーワード処理（ステップ３００）を順次実行する。

ステップ２００の推論処理は、図１０（ａ）に示すように、インタフェース２７ａがレイアウト情報、フォントサイズ情報及び出現頻度情報を取り込み、ワーキングメモリ２７ｃ上に配置する（ステップ２０１）。ここで、プロダクションシステムの構成は図１１に示す通りである。インタフェース２７ａは入出力を担っている。プロダクションメモリ２７ｂ上のプロダクションルールが対象文書の文書形式に対応するもののみに限定される（ステップ２０２）。この限定によりプロダクションインタープリタ２７ｄの照合処理を迅速に行うことができる。プロダクションインタープリタ２７ｄがワーキングメモリ２７ｃに配置された要素と、限定されたプロダクションルールとを照合し、条件部を満たしているプロダクションルールを探し出す（ステップ２０３）。該当プロダクションルールが複数ある場合には、前記した競合解消により最適なプロダクションルールを選択する（ステップ２０４）。プロダクションルールの後件部には確信度が対応付けられており、インタフェース２７ａは確信度を出力する（ステップ２０７）。このステップ２０７の前に対象文書に関して確信度が複数あるか否かを判断し（ステップ２０５）、複数でない場合にはステップ２０７にそのまま移行する。確信度が複数存在する場合には、前記合成方法により確信度を合成する（ステップ２０６）。なお、この合成はプロダクションシステム本来の処理とは異なるため、システム内の他のモジュールが合成処理を担うこともできる。

キーワード処理は、図１０（ｂ）に示すように、まず、推論結果であるキーワードの確信度のうち、最も高い確信度が閾値を超えているか否かを判断する（ステップ３０１）。確信度が閾値を超えていると判断した場合には、キーワードを出力し（ステップ３０４）、ステップ１０８に移行する。ステップ３０１で確信度が閾値を超えていないと判断した場合には、キーワード候補を表示部３０に表示し、オペレータにキーワードを選択するように促す（ステップ３０２）。オペレータがキーワードを選択する（ステップ３０３）。その後、ステップ３０４に移行する。
ステップ３００のキーワード処理の後、記録手段２８が、入力部１０の画像データ及びHTML変換手段のHTMLファイルを、キーワードと対応させて記録部４０に記録する。

（その他の実施形態）
［オペレータによる閾値の設定］
前記閾値は、オペレータがキーボード及びマウスを用いて自由に設定することができるようにすることもできる。そうすることで、精度良くキーワードを抽出している場合には閾値を落とし自動的に記録部４０に登録される処理（トランザクション）を多くしオペレータの労力を省き、精度が悪い場合には閾値を挙げて精度良くキーワードを抽出できる。

［オペレータに対するキーワードの提示］
前記オペレータに対してキーワード候補を提示する場合には、対象文書の画像データ又はHTMLファイルを共に表示し、さらに、オペレータにより選択されているキーワードに対応する文字、文字列を他の文字、文字列に比し明示した表示をもって提示することもできる。そうすることで、オペレータはキーワード候補と実際の対象文書を見比べる必要もなく、表示部の参照だけで適切にキーワードを選択することができる。

また、キーワード候補を確信度順に並べてオペレータに提示することもできる。
また、キーワード候補を確信度と共に対応付けてオペレータに提示することもできる。そうすることで、オペレータのキーワード候補を選択する場合に、確信度を選択の一基準とすることができる。この場合において、表示部１０に画像データ又はHTMLファイルを表示することがさらに好ましい。

［オペレータのキーワード選択に基づく重要度の変更］
オペレータがキーワード候補からキーワードを選択した場合に、確信度が一番高いキーワードが選択されたとき、かかるキーワード選択に基づいて該当するプロダクションルールに対応する評価項目要素の重要度を変更することもできる。そうすることで、本システムにおいて次回から精度良くキーワードを抽出することができる。重要度を変更する場合には、所定数増減させることもできるし、選択したキーワードの確信度または一番高い確信度と選択したキーワードの確信度との差に基づいて重要度を増減することもできる。複数のプロダクションルールが該当する場合には、オペレータにどの重要度を変更するかを選択させることもできる。ここでは、キーワード候補から選択した場合について説明したが、対象文書の画像データ及びHTMLファイルを、文字、文字列を選択可能に表示し、選択した文字、文字列に対応するプロダクションルールの評価項目要素の重要度を変更するようにもできる。この場合に選択可能に表示とは、例えば、HTMLファイル中、文字、文字列をリンク表示させ、該当リンクを選択した場合に、該当する文字列を特定する情報を入力部１０に取り込むことで該当する文字列を特定することができる。このようにした場合には、デフォルトの重要度で設定されていたシステムが使用される度にオペレータの環境に合致したシステムになり、オペレータによる設定がなくともより精度高くキーワードを抽出することができる。

［レイアウト情報の転用］
レイアウト解析には、文字、文字列の位置以外に、文字、文字列自体の情報も包含されており、この文字、文字列自体の情報を形態素解析手段２４に出力し、テキストデータ変換手段２３を設けない構成とすることもできる。そうすることで、より単純な構成となり、コンピュータシステムの処理も軽減され、ターンアラウンドタイムを向上できる。

［レイアウト解析の画像データ以外の適用］
本実施形態では、レイアウト解析では画像データを対象としたが、ワープロソフトのデータ、表計算ソフトのデータ等の他のデータ形式を解析し、レイアウト情報を得ることもでき、この場合には紙の文書だけでなく電子文書もキーワード抽出の対象とすることができる。例えば、ワープロソフトのデータ形式では、ある文字列が何ページの何行目にあるかを認識することは容易に行うことができ、これによりレイアウト情報を出力することができる。詳細には、データの形式によってはファイルの状態で文字列の位置を特定することができる場合もあり、また、ワープロソフトを起動させた状態でないと文字列の位置を特定することができない場合もある。いずれの場合にしろ、ワープロソフトで特定の場所にジャンプして編集を続けることができるということは、逆に特定の文字列の位置を求めることも容易に行うことができることを意味する。表計算ソフトのデータ形式の電子文書についても同様である。

［レイアウト情報、フォントサイズ情報及び形態素解析情報の融合］
レイアウト情報、フォントサイズ情報及び形態素解析情報は、該当する文字、文字列に関して関連付いていることが好ましい。この関連付けを行う場合に、文字、文字列の識別子を設けることもできる。コンピュータシステムの起動状態においては、レイアウト情報、フォントサイズ情報及び形態素解析情報は、構造体の変数、クラスのメンバ、確保されたメモリ領域の該当箇所に格納されていることを利用することで、文字、文字列毎に関連付けることができる。

また、レイアウト解析により文字、文字列と認識されたものと、形態素解析により形態素として認識されたものとは当然異なる場合があり、前記第１の実施形態においては推論実行時に形態素毎に行うことで適切に推論を実行することができる。ここで、この融合の場合には、文字、文字列のレイアウト情報及びフォントサイズ情報に形態素を対応をさせることもできるし、形態素に文字、文字列のレイアウト情報及びフォントサイズ情報を対応させることもできる。

［文書形式決定手段の認識の統合］
文書形式決定手段２１は、文字、線分を認識する処理を行っているが、レイアウト解析手段２２で得られたレイアウト情報に基づいて文書形式を決定することもできる。ただし、この場合において、レイアウト解析手段２２にて線分の認識を行う必要があるが、モジュールの構成として重複機能部分が少なくなり、実装が容易となるだけでなく、起動させた場合のメモリ使用領域を縮小することができる。

［レイアウト解析手段とHTML変換手段との統合］
前記第１の実施形態に係るコンピュータシステムにおいては、HTML変換手段２５がレイアウト情報、フォントサイズ情報及び形態素解析情報をHTMLファイルに変換していることを説明した。ここでは、入力部１０が、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力し、制御部が、入力された画像データをレイアウト解析し、対象文書中での文字の位置、文字の大きさを求め、当該求めた対象文書中での文字の位置及び文字の大きさに基づきマークアップ言語で記述されたマークアップ言語ファイルをWWWブラウザ等の閲覧装置で閲覧した場合に対象文書内の文字の位置、文字の大きさと略同様となるようにマークアップ言語ファイルを生成する構成を、単独のコンピュータシステムとして取ることもできる。このコンピュータシステムは、前記第１の実施形態で使用することができるだけでなく、単独でも画像データの文字列のみをHTMLファイルに変換することができる装置として用いることができる。マークアップ言語とは、文書の一部を「タグ」という特別な文字列で囲うことにより、文章の構造や、修飾情報を、文章中に記述していく記述言語のことである。マークアップ言語としては、SGML(Standard Generalized Markup Language)、SGMLから発展したHTML(HyperText Markup Language)、TeXなどがある。

［画像データからHTML形式への変換の別例］
スキャナ等で取得した対象文書の画像データ（画像ファイル、ファイルとなっていないメモリ上のデータも含む）に基づき文字列部分に線太らせ処理を施し、文字間を埋めるように文字線分を太らせる。埋めるのに要した太らせ画素数分、太らせた線分文字列を細線化することにより、文字列の輪郭を抽出する。これにより、画像データ中の文字列の位置、大きさを求めることができる。次に、抽出した文字列を文字認識装置（文字認識ソフトを読み込んだコンピュータ）で文字認識し、前記求めた文字列の位置及び大きさからＷＷＷブラウザにて表示可能なデータ形式（例えばHTMLファイル、XMLファイル、これらファイルとなっていないメモリ上のデータも含む）に変換することができる。

以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決するための手段からも明らかなことである。

以下、前記第１の実施形態に係る対象文書からキーワードを抽出するシステムについての実施例について説明する。
［システム評価］
まず、評価方法について説明する。システムの評価は主観評価との比較により行った。評価は100種類の対象文書を用い、被験者10名に対して以下の手順に従って行った。
(1)被験者に対象文書を提示し、キーワードと思われるものを選択してもらう。また、すべてのキーワード候補に対し、その重要度(選択率)を0から1までの間を1/8刻みにて評価してもらった。
(2)提案方法に基づきキーワードを選択する。また、キーワード候補のすべてに対し、重要度(選択率)を評価した。
(3)手順(1)、(2)により抽出されたキーワードを比較し、キーワードの一致率を求める。
同様に100の対象文書からすべての知識(評価項目)の重要度が同じと考えてキーワードを選択し、10名の被験者の主観に基づいて選択したキーワードと比較し、一致率を評価した。

［評価結果］
キーワード一致率の一例を表7に示す。提案システムがキーワード候補として選択した結果を左欄に、また、被験者が選出した結果を右欄にそれぞれ示す。さらに、この時、評価項目(パラメータ)に選んだフォントサイズ、縦位置、横位置および出現頻度をそれぞれ基準に選んだキーワード候補の重要度およびAHPに基づき求められたキーワード候補と確信度、最終重要度を図１２に示す。単語、「重軽油系統」は、提案システム、被験者ともにキーワードとして最重要であるとの一致を見ている。

100種類の対象文書の98％の場合、被験者が最も重要だと考えたキーワードは、提案方法によって選択されたキーワード群に含まれていることを確認した。例示した図面形式対象文書の場合は、確信度100％のキーワード候補が一つしかなかったため、当該キーワードが自動的に検索キーワードとして抽出できた。しかし、用いる知識の重要度をすべて等しいと考える従来方法によると、確信度が同程度のキーワード候補が複数存在するような場合、被験者の主観と異なるキーワードを選択する場合があり、この点、提案方法は、用いる知識の重要度の決定の際に、事前学習としての教師セットによる学習結果が反映されているため、より一致率が高くなった。

［考察］
100種類の対象文書のうち、フォントサイズ、キーワード候補の文書内の位置、出現頻度がまったく同じであるキーワード候補が複数存在するような文書(2％)の場合は、オペレータにキーワード候補と重要度(確信度)を提示して判断を仰がなければならなかったが、残る大半(98％)の対象文書のキーワードは自動的に抽出することができることを確認した。

本発明にて提案したAHPによる確信度の推定を行わず、知識評価項目(Fontsize、Y#Position、X#Position、Frequency)の重要度をすべて等しいと考えた場合、特定のキーワード候補のフォントサイズ、出現頻度が他の候補に比し、異なる場合は正しくキーワードを抽出できるが、特に、キーワードの出現位置に関する知識については有効に作用せずに、結果として、75％しか自動的にキーワードが抽出できないことが判った。結局、AHPによる確信度の評価の効果は約1.5倍の成功率の向上に結びつくことが分かった。これは、対象文書をレター形式、フォーム形式、図面形式に事前に自動的に識別し、それぞれの形式に適合したキーワード候補選択に係る知識の重要度を用いることの効果が大きく、また、知識の全体把握ができ、総合的判断が行えることに起因している。

本発明の第１の実施形態におけるシステム構成ブロック図である。本発明の第１の実施形態におけるHTML変換の説明図である。本発明の第１の実施形態におけるHTML変換の説明図である。本発明の第１の実施形態における対象文書の一例である。本発明の第１の実施形態における処理の流れ、知識表現及び確信度推定との関係の説明図である。本発明の第１の実施形態におけるキーワード候補の位置に関するファジー表現とメンバーシップ関数である。本発明の第１の実施形態における確信度の決定説明図である。本発明の第１の実施形態における確信度の合成説明図である。本発明の第１の実施形態におけるコンピュータシステムによるキーワード抽出の処理の流れを示したフローチャートである。図９の詳細フローチャートである。本発明の第１の実施形態におけるプロダクションシステムのブロック構成図である。本発明の実施例におけるキーワード候補の提示の画面例である。

符号の説明

１０入力部
２１文書形式決定手段
２２レイアウト解析手段
２３テキストデータ変換手段
２４形態素解析手段
２５ HTML変換手段
２６出現頻度演算手段
２７推論手段
２８記録手段
３０表示部
４０記録部

Claims

画像データを入力するための入力部と、
入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いフォーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手段と、
入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手段と、
入力された前記画像データを文字認識してテキストデータとする手段と、
当該テキストデータを形態素解析し、形態素解析情報を出力する手段と、
前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とＷＷＷブラウザ上での表示態様とが同じになるようにＷＷＷブラウザ上で表示可能なマークアップ言語情報を生成する手段と、
前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手段と、
前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする文書形式毎の知識を用い、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手段とを備えるコンピュータシステム。
予め被験者から得られた知識に基づく前記各評価項目における要素の重要度について、前記文書形式毎に、各要素間の重要度を一対一で比較して当該要素間の相対重要度を算出し、
予め被験者から得られた知識に基づいて、前記評価項目の重要度が設定された代替案について、前記文書形式毎に、各代替案間の重要度を一対一で比較して当該代替案間の相対重要度を算出し、
前記算出された各相対重要度の積算及び乗算により確信度を算出し、前記推論を実行する手段が用いる知識の各後件部に前記算出した確信度を対応させており、前記対象文書中の任意の文字列についての確信度が予め設定された閾値を超えている場合に、当該文字列をキーワードと推論する
前記請求項１に記載のコンピュータシステム。
プロセッサに、
画像データを入力する手順と、
入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手順と、
入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手順と、
入力された前記画像データを文字認識してテキストデータとする手順と、
当該テキストデータを形態素解析し、形態素解析情報を出力する手順と、
前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とＷＷＷブラウザ上での表示態様とが同じになるようにＷＷＷブラウザ上で表示可能なマークアップ言語情報を生成する手順と、
前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手順と、
前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手順とを実行させるコンピュータプログラム。
プロセッサが、
画像データを入力する工程と、
入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する工程と、
入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する工程と、
入力された前記画像データを文字認識してテキストデータとする工程と、
当該テキストデータを形態素解析し、形態素解析情報を出力する工程と、
前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とＷＷＷブラウザ上での表示態様とが同じになるようにＷＷＷブラウザ上で表示可能なマークアップ言語情報を生成する工程と、
前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する工程と、
前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する工程とを含む方法。