JP4787955B2 - 対象文書からキーワードを抽出する方法、システムおよびプログラム - Google Patents

対象文書からキーワードを抽出する方法、システムおよびプログラム Download PDF

Info

Publication number
JP4787955B2
JP4787955B2 JP2005128532A JP2005128532A JP4787955B2 JP 4787955 B2 JP4787955 B2 JP 4787955B2 JP 2005128532 A JP2005128532 A JP 2005128532A JP 2005128532 A JP2005128532 A JP 2005128532A JP 4787955 B2 JP4787955 B2 JP 4787955B2
Authority
JP
Japan
Prior art keywords
character string
information
characters
image data
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005128532A
Other languages
English (en)
Other versions
JP2006309347A (ja
Inventor
康平 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL UNIVERSITY CORPORATION SAGA UNIVERSITY
Original Assignee
NATIONAL UNIVERSITY CORPORATION SAGA UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL UNIVERSITY CORPORATION SAGA UNIVERSITY filed Critical NATIONAL UNIVERSITY CORPORATION SAGA UNIVERSITY
Priority to JP2005128532A priority Critical patent/JP4787955B2/ja
Publication of JP2006309347A publication Critical patent/JP2006309347A/ja
Application granted granted Critical
Publication of JP4787955B2 publication Critical patent/JP4787955B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対象文書からキーワードを抽出する方法に関し、キーワードを抽出するための評価項目の状態を条件としたプロダクションシステムにより対象文書の特徴を示す適切なキーワードを抽出する方法に関する。
現在、紙媒体として大量に存在する印刷、手書き等の文書、図面等をデータベース管理し、検索して電子媒体等で公開できるようにするiDC(internet Data Center)の開発が進行している。一般的に、紙媒体文書等は、オペレータにより検索用キーワードを手書きページとして挿入し、このページも含めてスキャナ等で電子媒体に変換し、登録している。
紙媒体文書等からのキーワードの自動生成に関して、文書をビジネス文書に限定し、レイアウト中のタイトル文字列の位置に関する知識を用いて検索用キーワードを抽出し、また、必要に応じてオペレータが手作業にて入力する方法が提案されている。
また、キーワード自動抽出装置として、特開平7−230468号公報に開示されるものがある。この背景技術となるキーワード自動抽出装置は、まず、文字列を、連続した同一の文字種からなる文字列要素(漢字文字列、カタカナ文字列、数字文字列など)に分割して文字列要素リストを作成し、この中で数字文字列やカタカナ文字列などのように形態素解析が行われない部分を、これに対応する文法情報を持った代替文字*などで置き換えたかたちの形態素解析用テキストを作成し、この形態素解析用テキストに形態素解析を実行して文字列要素の中の少なくとも漢字文字列を形態素に再分割した形態素解析リストを作成する。次に、この形態素解析リストの文法情報にもとづいて、文字列要素および形態素の中の名詞などと、もともと名詞同士などの所定の文法関係により隣接していたこれらの連語とからなるキーワードリストを作成する。
このように、背景技術となるキーワード自動抽出装置によれば、テキスト中の、形態素解析により不適切なキーワードが抽出される程度の高い文字列要素(数字文字列、カタカナ文字列や英字文字列など)については形態素解析しないでそのままとし、且つこのときの文字列要素や、形態素解析される漢字文字列などの形態素から特定のもの(名詞や特定のルールに合致した連語)をキーワードとして抽出するようにしているため、キーワードの品質および情報検索システムの検索精度を高めることができる。
特開平7−230468号公報
背景技術となる一つの方法は、まず、オペレータが知識と経験に基づき検索用キーワードを抽出し、当該キーワードを別用紙に記入し、これを対象紙媒体文書等に添付して、スキャナ等により画像ファイルに変換する。その後、文字認識を行う。対象紙媒体文書等は画像ファイルのまま、または、認識後のテキストファイル形式にてデータベースに登録される。その際、キーワード用紙に記入した手書き文字を認識した結果としてのキーワードを付与する。また、検索用の属性情報をメタデータとしてデータベース化する。この方法は、オペレータ作業を伴い、非効率的であり、オペレータの主観に基づくキーワードの妥当性および一環性が保持できない等の課題を有する。
また、公報に開示されたキーワード自動抽出装置は、テキストデータを形態素解析を行って、形態素それぞれの文法情報に基づき、名詞、名詞の連語等をキーワードとして選択するので、文書中の名詞、名詞の連語に該当すればキーワードとして選択され、文書当たりのキーワードが大量に抽出される。したがって、文書中に複数存在する名詞、名詞の連語等からさらに文書の特徴を示す適切なキーワードを抽出することができないという課題を有する。
そこで、本発明は前記課題を解決するためになされたもので、単に文書中に存在する名詞等を抽出するだけでなく、他の文字列の評価項目を適切に用い、より対象文書の特徴を示すキーワードを精度良く抽出するキーワード抽出装置を提供することを目的とする。
本発明は、紙媒体文書等をレター、フォームおよび図面形式に分類し、それらを対象にした検索用キーワードの抽出法を提案する。すなわち、スキャナにより得られる画像情報をHTML形式のデータに変換してレイアウト情報を抽出し、文字列中の単語を品詞に分解し、位置、フォントサイズ、出現頻度を知識として用いて検索用キーワードを抽出する方法を提案する。その際、これら知識の重要度は文書形式により異なるため、これを考慮するため、階層的分析法(Analytic Hierarchy Process: AHP)を用いている。知識ベースシステムとしてのプロダクションシステムにAHPによる数多くの知識の全体把握を伴う意思決定法を導入し、紙媒体文書等から検索キーワードを抽出するシステムを構築し、現実の文書、図面を用いる。
提案方法は、オペレータの介在を極力抑えたものであり、紙媒体で存在する文書、図面等から自動的又は半自動的に検索用のキーワードを抽出し、データベースを構築し、検索が可能なように工夫したものである。具体的には、スキャナ等によって紙媒体文書等を画像ファイルに変換し、当該文書をレター、フォームおよび図面の形式に分類し、レイアウト情報およびフォントサイズ情報を抽出し、また、文字認識を実施した結果(テキスト形式)を用いてHTML形式に変換する。その後、テキスト形式文章を形態素解析し、「分かち書き」文章に変換し、単語に品詞を与える。次に、HTML変換後のファイルから、文字列の位置、フォントサイズ、単語の出現頻度を調べ、プロダクションシステムにて当該文書等に最も適したキーワードを抽出する。その際、知識ベースシステムではこれらの知識の重要度が文書形式によって異なることを考慮するため、AHPを用いる。
本発明に係る対象文書からキーワードを抽出するコンピュータシステムは、画像データを入力するための入力部と、入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手段と、入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手段と、入力された前記画像データを文字認識してテキストデータとする手段と、当該テキストデータを形態素解析し、形態素解析情報を出力する手段と、前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する手段と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手段と、前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする文書形式毎の知識を用い、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手段とを備えるものである。
このように本発明においては、まず対象文書の文書形式を求め、対象文書のレイアウト情報、フォントサイズ情報及び出現頻度情報を用いて正確な推論を実行してキーワードを抽出することができる。
また、決定された文書形式毎の知識に限定して推論を実行するので、他の文書形式の知識を参照することなく推論実行時の演算処理を迅速に行うことができる。
本発明に係る対象文書からキーワードを抽出するコンピュータシステムは、予め被験者から得られた知識に基づく前記各評価項目における要素の重要度について、前記文書形式毎に、各要素間の重要度を一対一で比較して当該要素間の相対重要度を算出し、予め被験者から得られた知識に基づいて、前記評価項目の重要度が設定された代替案について、前記文書形式毎に、各代替案間の重要度を一対一で比較して当該代替案間の相対重要度を算出し、前記算出された各相対重要度の積算及び乗算により確信度を算出し、前記推論を実行する手段が用いる知識の各後件部に前記算出した確信度を対応させており、前記対象文書中の任意の文字列についての確信度が予め設定された閾値を超えている場合に、当該文字列をキーワードと推論するものである。
このように本発明においては、知識の各後件部に確信度を対応させているので確信度に基づいて適切にキーワードを出力することができる。
本発明に係る対象文書からキーワードを抽出するコンピュータプログラムは、プロセッサ、画像データを入力する手順と、入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手順と、入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手順と、入力された前記画像データを文字認識してテキストデータとする手順と、当該テキストデータを形態素解析し、形態素解析情報を出力する手順と、前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する手順と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手順と、前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手順とを実行させるものである。
本発明に係る対象文書からキーワードを抽出する方法は、プロセッサが、画像データを入力する工程と、入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する工程と、入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する工程と、入力された前記画像データを文字認識してテキストデータとする工程と、当該テキストデータを形態素解析し、形態素解析情報を出力する工程と、前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する工程と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する工程と、前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する工程とを含むものである。
(13)
本発明に係る対象文書の画像データからマークアップ言語ファイルを生成するコンピュータシステムは、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力するための入力部と、入力された画像データをレイアウト解析し、対象文書中での文字の位置、文字の大きさを求め、当該求めた対象文書中での文字の位置及び文字の大きさに基づきマークアップ言語で記述されたマークアップ言語ファイルを閲覧装置で閲覧した場合に対象文書内の文字の位置、文字の大きさと略同様となるようにマークアップ言語ファイルを生成する制御部とを備えるものである。このように本発明においては、対象文書の画像データから文字に関して位置、大きさの情報を取得し、マークアップ言語ファイルを生成するので、マークアップ言語ファイルの閲覧装置で閲覧した場合に元となる対象文書から文字のみを抜粋した形での表示を行うことができる。文字以外の図等のデータサイズの大きなものがマークアップ言語ファイルには存在せずに、閲覧装置で迅速に表示を行うことができると共に、小さなメモリ容量で動作することができる。
(14)
本発明に係る対象文書の画像データからマークアップ言語ファイルを生成するコンピュータシステムは必要に応じて、前記マークアップ言語がHTMLであって、マークアップ言語ファイルがHTMLファイルであり、前記制御部が、対象文書中の文字の位置に基づき、改行タグで縦位置を定め、スペースの文字実態参照で横位置を定め、HTMLファイルを生成するものである。
これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。
本発明は多くの異なる形態で実施可能である。したがって、下記の各実施形態の記載内容のみで解釈すべきではない。また、各実施形態の全体を通して同じ要素には同じ符号を付けている。
各実施形態では、主にシステムについて説明するが、所謂当業者であれば明らかな通り、本発明はコンピュータで使用可能なプログラム及び方法としても実施できる。また、本発明は、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、CD−ROM、DVD−ROM、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。
(本発明の第1の実施形態)
本発明の第1の実施形態に係るキーワードを抽出するコンピュータシステムについて、図に基づき説明する。
コンピュータシステムのブロック構成図を示す図1のように、本実施形態に係るキーワード抽出装置は、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力するための入力部10と、入力された画像データから対象文書中の構成要素に基づき文書形式を決定する文書形式決定手段21と、入力された画像データをレイアウト解析し対象文書のレイアウト情報および対象文書中の文字のフォントサイズ情報を生成するレイアウト解析手段22と、入力された画像データを文字認識してテキストデータを生成するテキストデータ変換手段23と、このテキストデータを形態素解析し、形態素解析情報を出力する形態素解析手段24と、前記レイアウト情報及びフォントサイズ情報をHTMLファイルに変換するHTML変換手段25と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する出現頻度演算手段26と、対象文書の文書形式毎にプロダクションシステムのプロダクションメモリに、条件部が対象文書の形態素の位置、フォントサイズ及び出現頻度の評価項目要素の評価項目状態であり、後件部がキーワードであるか否かである知識が格納されたプロダクションシステムのワーキングメモリにレイアウト情報、フォントサイズ情報及び出現頻度情報を入力し、推論を実行する推論手段27と、記録部40に画像データ、HTMLファイル及びキーワードを対応付けて記録する記録手段28と、推論結果の形態素を表示する表示部30とを備える構成である。
入力部10は、イメージスキャナーで対象文書を読み込むことで、イメージスキャナーから出力される画像データをシステムに取り込む。予め、イメージスキャナーで対象文書を読み込んでファイルにした画像データをシステムに取り込むこともできる。
レイアウト解析手段22は、画像データを特定のアルゴリズムに従ってレイアウト解析し、レイアウト解析結果のレイアウト情報及びフォントサイズ情報をHTML変換手段25及び推論手段27に引き渡す。レイアウト解析のアルゴリズムは、本発明の本質的部分でなく、かつ、様々なアルゴリズムが周知技術として存在し当業者は適宜実現することができるので、ここでの詳細な説明は省略する。手書き文字や印字された文字を光学的に読み取り、パターンとの照合により文字を特定し、文字データを入力する光学式文字読取装置の分野等で周知となっている。テキストデータ変換手段23によるテキストへの画像データの変換も同様である。
レイアウト情報は、文字、文字列が文書中のどの位置にあるかを示した情報である。フォントサイズ情報は、文字の大きさの情報である。
形態素解析手段24が、テキストデータを形態素解析している。形態素解析(Morphological Analysis)は、自然言語で書かれた文を形態素(Morpheme:言語で意味を持つ最小単位)に分割し、品詞を見分けることである。参照するものとして対象言語の文法の知識と辞書(品詞等と対応付いた単語リスト)とがある。形態素解析のアルゴリズムは、本発明の本質的部分でなく、かつ、様々なアルゴリズムが周知技術として存在し当業者は適宜実現することができるので、ここでの詳細な説明は省略する。形態素解析ソフトとして、ChaSen(URL:http://chasen.aist-nara.ac.jp/)というものがあり、広く用いられている。
形態素解析手段24により形態素毎に分割、統合された文字、文字列毎のレイアウト情報、フォントサイズ情報から、形態素の位置、形態素の大きさも把握することができる。より好ましくは、オブジェクト指向言語により実装した場合には、各形態素毎にクラスを用意し、メンバ変数として、形態素の文字、文字列の変数、形態素の品詞の変数、形態素の位置の変数、形態素のフォントサイズの変数を用意し、それぞれのメンバ変数に値を、形態素解析手段24がまず形態素の文字、文字列の変数に形態素を求めた後に値を格納し、同様に形態素の品詞の変数に格納し、レイアウト情報及びフォントサイズ情報よりそれぞれ形態素の位置の変数、形態素のフォントサイズの変数に値を格納する構成とする方がよい。そうすることで、後記する推論手段27が適宜該当する形態素のオブジェクトのメンバ変数を参照することで、プロダクションルールとの照合を実行することができる。
HTML変換手段25は、レイアウト情報及びフォントサイズ情報を用いて対象文書の表示とWWWブラウザ上での表示とが同様になるようにHTMLファイルを生成する。レイアウト情報には、図2(a)に示すように、文字列「私は学校へ」が4行目4文字目から始まり、文字列「行きました。」が5行目4文字目から始まり、文字列「僕は学校を」が12行目4文字目から始まり、文字列「休みました。」が13行目4文字目から始まるという情報が格納されている。また、フォントサイズ情報には、文字列「私は学校へ」「行きました。」「僕は学校を」「休みました。」の全てが12ポイントであるという情報が格納されてる。HTML変換手段25は、レイアウト情報から、3行目までには文字列がなく改行タグを挿入し、4行目の先頭から3文字相当のスペースの文字実態参照(&nbsp)を挿入し、「私は学校へ」を挿入する。この挿入後、改行タグを挿入し5行目の先頭から3文字相当のスペースの文字実態参照を挿入し、「行きました。」を挿入する。12行目から「僕は学校を」が始まるので、11行目まで改行タグを挿入し、12行目の先頭から3文字相当のスペースの文字実態参照を挿入し、「僕は学校を」を挿入する。この挿入後、改行タグを挿入し13行目の先頭から3文字相当のスペースの文字実態参照を挿入し、「休みました。」を挿入する。さらに、全ての文字列の大きさが同じであるために、フォントタグで3を指定し、図3(a)に示すHTMLファイルを生成する。フォントサイズのポイント数とフォントタグで指定できる数字とを予め対応させておく。改行タグやスペースの文字実態参照を使用する他、Preタグを使用することもできる。
WWWブラウザ上で表示させると、使用しているWWWブラウザの文字の大きさの設定によっては対象文書と同一には表示することができない場合もあるが、文字同士の相対的な位置関係及び文字の相対的な大きさを把握することができ、キーワードを選択する場合の支障にはならない。図2(b)には画像データのレイアウト認識の一例を示す。何行目にあるか、先頭から何文字目にあるかは所定間隔毎、所定文字間隔毎のパターン認識で求めることができる。他に、画像データを小さい矩形領域に分けレイアウト解析を行う方法もある。
生成したHTMLファイルをWWWブラウザで表示した場合には、例えば、図3(b)に示すようになる。ディスプレイの大きさ、WWWブラウザの大きさ、文字の大きさの設定等で、すなわち、各コンピュータの環境により表示が左右されるが、図3(b)の点線に示す枠線を表示することにより、より対象文書のアウトラインを把握することができる。
以上のようにHTML変換手段25が生成するHTMLファイル中には、図面であれば図を構成するライン等、フォームであればフォームの罫線等の情報は格納されておらず、生成したHTMLファイルを表示させた場合には図等は表示されず、文字のみが表示される。そうすることで、HTMLファイルの容量はリンクファイルを含めると大幅に小さくなり、記録部40での記録容量が少なくて済む。また、画像データを画像表示装置で表示させるよりも、生成したHTMLファイルをWWWブラウザで表示させた方が高速にディスプレイに表示させることができる。
出現頻度演算手段26は、形態素解析情報から形態素毎の出現頻度を演算し、出現頻度情報を生成する。形態素解析情報中で、形態素と品詞とが対応づいているので、それぞれの形態素の対象文書中での個数をカウントすることで出現頻度を演算することができる。ここで、出現頻度演算手段26は、形態素の品詞を見ることなく同じ形態素は品詞が異なっても同じものとして扱うこともできるし、品詞が異なれば別の形態素として取り扱うこともできる。さらに、形態素が略同じで品詞が異なる場合に、同一のものとしてカウントすることもでき、キーワード抽出の精度を向上させることができる。
[文書の形式]
文字数を指標に図面は識別でき、また、表を多く含むフォーム形式は、罫線等線分数が多く、文字数も多く、レター形式は、線分数が少なく文字数が多いことを利用して文書形式決定手段21が対象文書を3種類のいずれかに分類することができる。すなわち、文書の構成要素である文字、線分等で分類することができる。
レター形式文書は、文書タイトルが検索用キーワードとなる場合が多く、その現れる位置、フォントサイズが重要である。それらに次いで当該キーワードの出現頻度が重要である。
フォーム形式文書は、表中にタイトルが現れる場合が多く、文書タイトルの現れる位置、次いで、その出現頻度が重要であり、フォントサイズはさほど重要ではない。
図面は、文書タイトルの位置が最も重要であり、フォントサイズもさほど重要ではなく、文字数が少ないことから出現頻度は殆ど重要ではない。すなわち、上記のように文書形式によって検索用キーワードを抽出する際の知識の重要度は異なる。
[文書形式に最適な知識重要度の設定]
AHPに基づき、事前に知識重要度の考慮方法を検討する。対象文書の文書形式による知識キーワードの重要度の設定を最適化し、これに必要な評価項目を事前に推定する。AHPは、問題分析において主観的判断とシステムアプローチを上手く利用した問題解決型意思決定手法である。複雑に絡み合った要素の中から一つの答えを取り出されなければならない時に、あまり単純に割り切ってしまうと大事な要素を見落としてしまう危険があり、あまりに複雑な手法では臨機応変に使いこなすことが難しくなる。そこで、多くの要素をバランスよく取り込み、意思決定できる方法としてAHPを採用する。
次に、意思決定に関する評価項目の要素の抽出および知識の階層化について説明する。AHPは、決定に関連した要素を階層構造で表現する。ある基準に基づき、選択肢の評価を階層的に判断し、最終的には全階層を統合化して意思決定する。この手順を次に示す。
意思決定の目的の要素を1つ、目的評価のための評価項目の要素を複数個、目的に対する代替案を複数個用意する。本実施形態では、目的に知識の重要度(重み係数)、評価項目要素にフォントサイズ、文字列の位置、出現頻度、さらに、代替案にそれら評価項目要素の大きさを設定した。
最上層を目的要素とし、評価層を意思決定のための評価項目要素、さらに、最下層を代替案とする。
次に、評価層の要素の影響度の評価について説明する。予め、被験者(例えば10名)に対して対象文書を提示し、検索用キーワードとして最適な単語を選定してもらい、かつ、当該キーワードを選定する際に用いた知識、すなわち、評価項目要素の影響度(重要度)を0から1の範囲で採点してもらう。
次に、各階層の要素間の一対一比較について説明する。階層毎にペアを選択し、一対一比較を行う。階層にn個の比較要素がある場合、n(n−1)/2回の一対一比較を行うことになる。同じ階層の各要素を一対一比較表によって比較し、表1に示す一対一比較行列を作成する。その後、評価項目階層の一対一比較を実施し、要素間の相対重要度を算出する。
Figure 0004787955
次に、各階層の要素間の重要度の計算について説明する。各階層の要素間の重み係数を求めるためのアルゴリズムを以下に示す。各階層の要素A1,A2,…,Anの一対一比較行列をA=[aij]とする。また、求める重み係数wが既知の時にw1,w2,…,wnで与えられた場合、Aは式(1)のようになる。
Figure 0004787955
この時、aijは理想的には、
Figure 0004787955
とする。この時、i, j, k についてaij×ajk=aikが成立するならば、意思決定者の判断が完全に整合しているといえる。
次に、式(1)にwを右から掛けると、式(3)のようになる。
Figure 0004787955
従って、
Figure 0004787955
となる。式(4)は固有値問題、
Figure 0004787955
に変形できる。この時、w≠0となるには、nがAの固有値になる必要がある。nがAの固有値になる時、wはAの固有ベクトルとなる。また、rank(A) = 1より、固有値λi(i=1,2,・・・,n)は0を除く、最大固有値λmaxが与えられ、他の固有値=0となる。Aの主対角要素の和はnであるので、λmaxはλmax=nを満たしている。よって、wはAのλmaxに対する正規化した固有ベクトルとなる。すなわち、完全に整合性がとれているといえる。しかし、現実には意思決定者がwと同じ重み係数を与えるような行列Aを決定することは極めて困難である。そのため、意思決定者から得られる一対一比較行列をA'、その一対一比較行列から得られる重み係数をW'した時、式(4)を式(6)のように置き換える。
Figure 0004787955
したがって、W'はA'の最大固有値λ´maxに対する正規化した固有ベクトルとなる。一対一比較の際、要素数が増加するほど結果の不整合性が発生する。n行n列の一対一比較行列において、不整合性が発生すると、最大固有値λ´maxはnより大きくなる。これをSattyの定理と呼び、式(7)で表される。
Figure 0004787955
式(7)より、λ´maxは常にλ´max≧nを満たすことがわかる。そこで、一対一比較の整合性チェックの指標としてC.I(Consistency Index)が定義されている。C.I.は式(8)で表される。
Figure 0004787955
C.I=0に近づくにつれて整合性が高まり、逆に0から遠ざかるにつれて整合性が低くなる。
目的の評価項目と各代替案の一対一比較を行う。そして、各階層で求めた重み係数を用いて、代替案の中から最適な案を求める。
[検索キーワード抽出のための知識ベースの構築]
検索キーワード抽出のためのプロダクションシステムをAHPに基づき、あらかじめ構築する。ここでは、特に、あまり試みられていない「図面形式」の対象文書を例に取り上げ、AHPに基づく知識の重要度、確信度の決定方法を示す。図4に対象文書の一例を示す。例示するように、線分数は多く文字が少ないことが図面形式の文書の特徴である。AHPの最上層は目的であり、重要度(重み係数)であり、中間層の評価項目の要素は、フォントサイズ、縦横位置、出現頻度である。また、最下層の代替案は重要度の大小である。
次に、評価項目(キーワード候補に関する知識)について説明する。抽出した複数の文字領域からキーワード候補を抽出するため、以下の知識が有効である。(1)キーワードは、他の文字(Fontsize)に比べ大きい。(2)キーワードのある位置は、図面の左中右(X#Position)上下(Y#Position)の場合が多い。(3)キーワードは、図面中に頻度高く(Frequency)出現する。これら知識の評価項目値(Fontsize、Y#Position、X#Position、Frecuency)は、以下のように抽出した。
(1)フォントサイズ(Fontsize)、位置情報(Y#Position、X#Position)に関しては対象文書をスキャナで読み込み、上記各手段により、レイアウト情報としてHTML言語に変換して抽出した。
(2)頻度(Frequency)は、文字認識し、テキストに変換した後に、前出の形態素解析ソフトChaSenを利用し、「分かち書き」単語の頻度を調べることにより抽出した。
例示として、図面形式の対象文書を10名の被験者に提示し、前記した評価項目をどの程度重要視したかの影響度を0から1の範囲で10段階評価にて指定してもらったところ、フォントサイズ:0.98、出現頻度:0.98、縦位置:0.694、横位置:0.23が平均影響度であることが分かった。
次に、知識ベース設計について説明する。提案方法の知識はプロダクションルール「IF〜ならばTHEN〜である」という形式で表現されている。提案方法の知識は、条件部に「Fontsizeの大小」等の評価項目の評価項目状態、後件部にはキーワードか否かを記述した。すなわち、「IF Fontsize is Big THEN 確信度CFにおいてキーワードである」となる。また、提案方法の知識においては、等しくない条件部をもつ複数の知識が同一の後件部を導出する論理和の形式のみを利用した。
次に、確信度(Certainty factor)について説明する。プロダクションシステムの特徴として、各知識に確信度という重み係数を課すことで不確実な知識の扱いを可能にする点が上げられる。本実施形態では、確信度を、ある知識ルールにおいて、その条件部により後件部がどの程度導出できるかという度合いを表現した指標と定義する。この値の範囲は、±1であり、0の場合は後件部を導出するのに条件部は考慮されないことを意味している。負の場合、後件部導出に否定的である度合いを意味し、正の場合、後件部導出を支持する度合いを意味している。この時、AHPで得られた相対重要度に基づき、確信度を求めた。図5に知識表現および対象文書入力から確信度決定に至るプロセス手順を示す。
(1)確信度決定のため、AHPの階層構造の最上層の目的は知識の重要度算出として、評価項目はFontsize、X#Position、Y#Position、Frequencyとした。また、最下層の代替案層は各評価項目においてFontsizeが大きい場合、Y#Position、X#Positionが重要と思われる場所に近い場合、Frequencyが多い場合をBigとし、その逆をSmallとした。
(2)X#Position、Y#Positionについて、文字列のレイアウトがどの位置にあるときが重要であるかという判断には、文書を縦、横それぞれ5分割し、その位置をA(最端)、B(やや端)、C(中間)、D(やや端)、E(最端)としたファジィ集合で表した。図6にメンバーシップ関数を示す。また、対象文書のキーワードのある位置は図面の左中右上下の場合が多いという知識を用いて、位置の重要度の評価項目、X#Position、Y#Positionのそれぞれに対し、A or C or E > B or Dとした。
表1は、前出の影響度を用いて、AHPに基づいて一対一比較を行い、算出した評価項目の重み係数(相対重要度)である。また、それぞれの評価項目(Fontsize、Y#Position、X#Position、Frequency)に対する各代替案の一対一比較結果を、表2から5に示す。表1の評価項目の重み係数に各代替案を乗算し、それらの値を加算し、統合化すると表6になる。これをみると、全評価項目が最もBigの場合の相対重要度は0.85、また、全評価項目が最もSmallの場合の相対重要度は0.15となっている。表1から5に基づき、全知識の確信度を図7のように決定する。これは、フォントサイズ:大、横位置:大、縦位置:小、出現頻度:大の場合の確信度の計算例である。
Figure 0004787955
Figure 0004787955
Figure 0004787955
Figure 0004787955
Figure 0004787955
(3)確信度の合成法 確信度の合成は、2つの知識の論理和により行った。同一の後件部導出時のCF1、CF2を合成したCFは、
Figure 0004787955
Figure 0004787955
Figure 0004787955
とする。
図8において、知識ベースで適合する知識ルールが複数個存在していた場合、最も知識の条件部が詳細なものを選択し実行することにより、知識の競合をさける。そして、推論手段27がキーワードの確信度とキーワード候補を出力する。この確信度がある閾値(本論文では0.96とした。)を超えているならば、自動的にキーワード候補を採用し、対象文書の画像データ、HTMLファイル及びキーワードを対応付けて記録部40に記録手段28が記録する。閾値を超えていない場合は、確信度とキーワード候補を表示部30に表示し、オペレータにキーワードを提示して選択を促し、決定されたキーワードを記録手段28が画像データ及びHTMLファイルと共に記録部40(データベース)へ登録する。
次に、本実施形態に係るコンピュータシステムの動作について図に基づき説明する。まず、図9に示すように、イメージスキャナで対象文書が読み込まれ、出力された画像データを入力部10が取り込む(ステップ101)。文書形式決定手段21が、画像データから文書の文字、線分を認識し、文字数、線分数を演算し、かかる文字数、線分数から図面、フォーム、レターから対象文書の文書形式を決定する(ステップ102)。レイアウト解析手段22が、画像データをレイアウト解析し、レイアウト情報及びフォントサイズ情報を生成する(ステップ103)。テキストデータ変換手段23が、画像データをテキストデータに変換する(ステップ104)。このステップ104で変換されたテキストデータを、形態素解析手段24が形態素解析し形態素解析情報を生成する(ステップ105)。出現頻度演算手段26が形態素解析情報から形態素の出現頻度を演算し、出現頻度情報を生成する(ステップ106)。HTML変換手段25が、レイアウト情報及びフォントサイズ情報からHTMLファイルを生成する(ステップ107)。次に、定義済み処理である推論処理(ステップ200)、キーワード処理(ステップ300)を順次実行する。
ステップ200の推論処理は、図10(a)に示すように、インタフェース27aがレイアウト情報、フォントサイズ情報及び出現頻度情報を取り込み、ワーキングメモリ27c上に配置する(ステップ201)。ここで、プロダクションシステムの構成は図11に示す通りである。インタフェース27aは入出力を担っている。プロダクションメモリ27b上のプロダクションルールが対象文書の文書形式に対応するもののみに限定される(ステップ202)。この限定によりプロダクションインタープリタ27dの照合処理を迅速に行うことができる。プロダクションインタープリタ27dがワーキングメモリ27cに配置された要素と、限定されたプロダクションルールとを照合し、条件部を満たしているプロダクションルールを探し出す(ステップ203)。該当プロダクションルールが複数ある場合には、前記した競合解消により最適なプロダクションルールを選択する(ステップ204)。プロダクションルールの後件部には確信度が対応付けられており、インタフェース27aは確信度を出力する(ステップ207)。このステップ207の前に対象文書に関して確信度が複数あるか否かを判断し(ステップ205)、複数でない場合にはステップ207にそのまま移行する。確信度が複数存在する場合には、前記合成方法により確信度を合成する(ステップ206)。なお、この合成はプロダクションシステム本来の処理とは異なるため、システム内の他のモジュールが合成処理を担うこともできる。
キーワード処理は、図10(b)に示すように、まず、推論結果であるキーワードの確信度のうち、最も高い確信度が閾値を超えているか否かを判断する(ステップ301)。確信度が閾値を超えていると判断した場合には、キーワードを出力し(ステップ304)、ステップ108に移行する。ステップ301で確信度が閾値を超えていないと判断した場合には、キーワード候補を表示部30に表示し、オペレータにキーワードを選択するように促す(ステップ302)。オペレータがキーワードを選択する(ステップ303)。その後、ステップ304に移行する。
ステップ300のキーワード処理の後、記録手段28が、入力部10の画像データ及びHTML変換手段のHTMLファイルを、キーワードと対応させて記録部40に記録する。
(その他の実施形態)
[オペレータによる閾値の設定]
前記閾値は、オペレータがキーボード及びマウスを用いて自由に設定することができるようにすることもできる。そうすることで、精度良くキーワードを抽出している場合には閾値を落とし自動的に記録部40に登録される処理(トランザクション)を多くしオペレータの労力を省き、精度が悪い場合には閾値を挙げて精度良くキーワードを抽出できる。
[オペレータに対するキーワードの提示]
前記オペレータに対してキーワード候補を提示する場合には、対象文書の画像データ又はHTMLファイルを共に表示し、さらに、オペレータにより選択されているキーワードに対応する文字、文字列を他の文字、文字列に比し明示した表示をもって提示することもできる。そうすることで、オペレータはキーワード候補と実際の対象文書を見比べる必要もなく、表示部の参照だけで適切にキーワードを選択することができる。
また、キーワード候補を確信度順に並べてオペレータに提示することもできる。
また、キーワード候補を確信度と共に対応付けてオペレータに提示することもできる。そうすることで、オペレータのキーワード候補を選択する場合に、確信度を選択の一基準とすることができる。この場合において、表示部10に画像データ又はHTMLファイルを表示することがさらに好ましい。
[オペレータのキーワード選択に基づく重要度の変更]
オペレータがキーワード候補からキーワードを選択した場合に、確信度が一番高いキーワードが選択されたとき、かかるキーワード選択に基づいて該当するプロダクションルールに対応する評価項目要素の重要度を変更することもできる。そうすることで、本システムにおいて次回から精度良くキーワードを抽出することができる。重要度を変更する場合には、所定数増減させることもできるし、選択したキーワードの確信度または一番高い確信度と選択したキーワードの確信度との差に基づいて重要度を増減することもできる。複数のプロダクションルールが該当する場合には、オペレータにどの重要度を変更するかを選択させることもできる。ここでは、キーワード候補から選択した場合について説明したが、対象文書の画像データ及びHTMLファイルを、文字、文字列を選択可能に表示し、選択した文字、文字列に対応するプロダクションルールの評価項目要素の重要度を変更するようにもできる。この場合に選択可能に表示とは、例えば、HTMLファイル中、文字、文字列をリンク表示させ、該当リンクを選択した場合に、該当する文字列を特定する情報を入力部10に取り込むことで該当する文字列を特定することができる。このようにした場合には、デフォルトの重要度で設定されていたシステムが使用される度にオペレータの環境に合致したシステムになり、オペレータによる設定がなくともより精度高くキーワードを抽出することができる。
[レイアウト情報の転用]
レイアウト解析には、文字、文字列の位置以外に、文字、文字列自体の情報も包含されており、この文字、文字列自体の情報を形態素解析手段24に出力し、テキストデータ変換手段23を設けない構成とすることもできる。そうすることで、より単純な構成となり、コンピュータシステムの処理も軽減され、ターンアラウンドタイムを向上できる。
[レイアウト解析の画像データ以外の適用]
本実施形態では、レイアウト解析では画像データを対象としたが、ワープロソフトのデータ、表計算ソフトのデータ等の他のデータ形式を解析し、レイアウト情報を得ることもでき、この場合には紙の文書だけでなく電子文書もキーワード抽出の対象とすることができる。例えば、ワープロソフトのデータ形式では、ある文字列が何ページの何行目にあるかを認識することは容易に行うことができ、これによりレイアウト情報を出力することができる。詳細には、データの形式によってはファイルの状態で文字列の位置を特定することができる場合もあり、また、ワープロソフトを起動させた状態でないと文字列の位置を特定することができない場合もある。いずれの場合にしろ、ワープロソフトで特定の場所にジャンプして編集を続けることができるということは、逆に特定の文字列の位置を求めることも容易に行うことができることを意味する。表計算ソフトのデータ形式の電子文書についても同様である。
[レイアウト情報、フォントサイズ情報及び形態素解析情報の融合]
レイアウト情報、フォントサイズ情報及び形態素解析情報は、該当する文字、文字列に関して関連付いていることが好ましい。この関連付けを行う場合に、文字、文字列の識別子を設けることもできる。コンピュータシステムの起動状態においては、レイアウト情報、フォントサイズ情報及び形態素解析情報は、構造体の変数、クラスのメンバ、確保されたメモリ領域の該当箇所に格納されていることを利用することで、文字、文字列毎に関連付けることができる。
また、レイアウト解析により文字、文字列と認識されたものと、形態素解析により形態素として認識されたものとは当然異なる場合があり、前記第1の実施形態においては推論実行時に形態素毎に行うことで適切に推論を実行することができる。ここで、この融合の場合には、文字、文字列のレイアウト情報及びフォントサイズ情報に形態素を対応をさせることもできるし、形態素に文字、文字列のレイアウト情報及びフォントサイズ情報を対応させることもできる。
[文書形式決定手段の認識の統合]
文書形式決定手段21は、文字、線分を認識する処理を行っているが、レイアウト解析手段22で得られたレイアウト情報に基づいて文書形式を決定することもできる。ただし、この場合において、レイアウト解析手段22にて線分の認識を行う必要があるが、モジュールの構成として重複機能部分が少なくなり、実装が容易となるだけでなく、起動させた場合のメモリ使用領域を縮小することができる。
[レイアウト解析手段とHTML変換手段との統合]
前記第1の実施形態に係るコンピュータシステムにおいては、HTML変換手段25がレイアウト情報、フォントサイズ情報及び形態素解析情報をHTMLファイルに変換していることを説明した。ここでは、入力部10が、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力し、制御部が、入力された画像データをレイアウト解析し、対象文書中での文字の位置、文字の大きさを求め、当該求めた対象文書中での文字の位置及び文字の大きさに基づきマークアップ言語で記述されたマークアップ言語ファイルをWWWブラウザ等の閲覧装置で閲覧した場合に対象文書内の文字の位置、文字の大きさと略同様となるようにマークアップ言語ファイルを生成する構成を、単独のコンピュータシステムとして取ることもできる。このコンピュータシステムは、前記第1の実施形態で使用することができるだけでなく、単独でも画像データの文字列のみをHTMLファイルに変換することができる装置として用いることができる。マークアップ言語とは、文書の一部を「タグ」という特別な文字列で囲うことにより、文章の構造や、修飾情報を、文章中に記述していく記述言語のことである。マークアップ言語としては、SGML(Standard Generalized Markup Language)、SGMLから発展したHTML(HyperText Markup Language)、TeXなどがある。
[画像データからHTML形式への変換の別例]
スキャナ等で取得した対象文書の画像データ(画像ファイル、ファイルとなっていないメモリ上のデータも含む)に基づき文字列部分に線太らせ処理を施し、文字間を埋めるように文字線分を太らせる。埋めるのに要した太らせ画素数分、太らせた線分文字列を細線化することにより、文字列の輪郭を抽出する。これにより、画像データ中の文字列の位置、大きさを求めることができる。次に、抽出した文字列を文字認識装置(文字認識ソフトを読み込んだコンピュータ)で文字認識し、前記求めた文字列の位置及び大きさからWWWブラウザにて表示可能なデータ形式(例えばHTMLファイル、XMLファイル、これらファイルとなっていないメモリ上のデータも含む)に変換することができる。
以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決するための手段からも明らかなことである。
以下、前記第1の実施形態に係る対象文書からキーワードを抽出するシステムについての実施例について説明する。
[システム評価]
まず、評価方法について説明する。システムの評価は主観評価との比較により行った。評価は100種類の対象文書を用い、被験者10名に対して以下の手順に従って行った。
(1)被験者に対象文書を提示し、キーワードと思われるものを選択してもらう。また、すべてのキーワード候補に対し、その重要度(選択率)を0から1までの間を1/8刻みにて評価してもらった。
(2)提案方法に基づきキーワードを選択する。また、キーワード候補のすべてに対し、重要度(選択率)を評価した。
(3)手順(1)、(2)により抽出されたキーワードを比較し、キーワードの一致率を求める。
同様に100の対象文書からすべての知識(評価項目)の重要度が同じと考えてキーワードを選択し、10名の被験者の主観に基づいて選択したキーワードと比較し、一致率を評価した。
[評価結果]
キーワード一致率の一例を表7に示す。提案システムがキーワード候補として選択した結果を左欄に、また、被験者が選出した結果を右欄にそれぞれ示す。さらに、この時、評価項目(パラメータ)に選んだフォントサイズ、縦位置、横位置および出現頻度をそれぞれ基準に選んだキーワード候補の重要度およびAHPに基づき求められたキーワード候補と確信度、最終重要度を図12に示す。単語、「重軽油系統」は、提案システム、被験者ともにキーワードとして最重要であるとの一致を見ている。
Figure 0004787955
100種類の対象文書の98%の場合、被験者が最も重要だと考えたキーワードは、提案方法によって選択されたキーワード群に含まれていることを確認した。例示した図面形式対象文書の場合は、確信度100%のキーワード候補が一つしかなかったため、当該キーワードが自動的に検索キーワードとして抽出できた。しかし、用いる知識の重要度をすべて等しいと考える従来方法によると、確信度が同程度のキーワード候補が複数存在するような場合、被験者の主観と異なるキーワードを選択する場合があり、この点、提案方法は、用いる知識の重要度の決定の際に、事前学習としての教師セットによる学習結果が反映されているため、より一致率が高くなった。
[考察]
100種類の対象文書のうち、フォントサイズ、キーワード候補の文書内の位置、出現頻度がまったく同じであるキーワード候補が複数存在するような文書(2%)の場合は、オペレータにキーワード候補と重要度(確信度)を提示して判断を仰がなければならなかったが、残る大半(98%)の対象文書のキーワードは自動的に抽出することができることを確認した。
本発明にて提案したAHPによる確信度の推定を行わず、知識評価項目(Fontsize、Y#Position、X#Position、Frequency)の重要度をすべて等しいと考えた場合、特定のキーワード候補のフォントサイズ、出現頻度が他の候補に比し、異なる場合は正しくキーワードを抽出できるが、特に、キーワードの出現位置に関する知識については有効に作用せずに、結果として、75%しか自動的にキーワードが抽出できないことが判った。結局、AHPによる確信度の評価の効果は約1.5倍の成功率の向上に結びつくことが分かった。これは、対象文書をレター形式、フォーム形式、図面形式に事前に自動的に識別し、それぞれの形式に適合したキーワード候補選択に係る知識の重要度を用いることの効果が大きく、また、知識の全体把握ができ、総合的判断が行えることに起因している。
本発明の第1の実施形態におけるシステム構成ブロック図である。 本発明の第1の実施形態におけるHTML変換の説明図である。 本発明の第1の実施形態におけるHTML変換の説明図である。 本発明の第1の実施形態における対象文書の一例である。 本発明の第1の実施形態における処理の流れ、知識表現及び確信度推定との関係の説明図である。 本発明の第1の実施形態におけるキーワード候補の位置に関するファジー表現とメンバーシップ関数である。 本発明の第1の実施形態における確信度の決定説明図である。 本発明の第1の実施形態における確信度の合成説明図である。 本発明の第1の実施形態におけるコンピュータシステムによるキーワード抽出の処理の流れを示したフローチャートである。 図9の詳細フローチャートである。 本発明の第1の実施形態におけるプロダクションシステムのブロック構成図である。 本発明の実施例におけるキーワード候補の提示の画面例である。
符号の説明
10 入力部
21 文書形式決定手段
22 レイアウト解析手段
23 テキストデータ変換手段
24 形態素解析手段
25 HTML変換手段
26 出現頻度演算手段
27 推論手段
28 記録手段
30 表示部
40 記録部

Claims (4)

  1. 画像データを入力するための入力部と、
    入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いフォーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手段と、
    入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手段と、
    入力された前記画像データを文字認識してテキストデータとする手段と、
    当該テキストデータを形態素解析し、形態素解析情報を出力する手段と、
    前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する手段と、
    前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手段と、
    前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする文書形式毎の知識を用い、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手段とを備えるコンピュータシステム。
  2. 予め被験者から得られた知識に基づく前記各評価項目における要素の重要度について、前記文書形式毎に、各要素間の重要度を一対一で比較して当該要素間の相対重要度を算出し、
    予め被験者から得られた知識に基づいて、前記評価項目の重要度が設定された代替案について、前記文書形式毎に、各代替案間の重要度を一対一で比較して当該代替案間の相対重要度を算出し、
    前記算出された各相対重要度の積算及び乗算により確信度を算出し、前記推論を実行する手段が用いる知識の各後件部に前記算出した確信度を対応させており、前記対象文書中の任意の文字列についての確信度が予め設定された閾値を超えている場合に、当該文字列をキーワードと推論する
    前記請求項1に記載のコンピュータシステム。

  3. プロセッサ
    画像データを入力する手順と、
    入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手順と、
    入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手順と、
    入力された前記画像データを文字認識してテキストデータとする手順と、
    当該テキストデータを形態素解析し、形態素解析情報を出力する手順と、
    前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する手順と、
    前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手順と、
    前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手順とを実行させるコンピュータプログラム。
  4. プロセッサが、
    画像データを入力する工程と、
    入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する工程と、
    入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する工程と、
    入力された前記画像データを文字認識してテキストデータとする工程と、
    当該テキストデータを形態素解析し、形態素解析情報を出力する工程と、
    前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する工程と、
    前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する工程と、
    前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する工程とを含む方法。
JP2005128532A 2005-04-26 2005-04-26 対象文書からキーワードを抽出する方法、システムおよびプログラム Active JP4787955B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005128532A JP4787955B2 (ja) 2005-04-26 2005-04-26 対象文書からキーワードを抽出する方法、システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005128532A JP4787955B2 (ja) 2005-04-26 2005-04-26 対象文書からキーワードを抽出する方法、システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2006309347A JP2006309347A (ja) 2006-11-09
JP4787955B2 true JP4787955B2 (ja) 2011-10-05

Family

ID=37476186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005128532A Active JP4787955B2 (ja) 2005-04-26 2005-04-26 対象文書からキーワードを抽出する方法、システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP4787955B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011511366A (ja) * 2008-02-01 2011-04-07 ジ・オリバー・グループ・リミテッド・ライアビリティ・カンパニー データの検索および索引付けの方法およびそれを実施するシステム
JP6996190B2 (ja) * 2017-09-26 2022-01-17 大日本印刷株式会社 複合語生成装置、プログラム及び複合語生成方法
CN109670183B (zh) * 2018-12-21 2023-03-24 北京锐安科技有限公司 一种文本重要性的计算方法、装置、设备和存储介质
CN113111864A (zh) * 2021-05-13 2021-07-13 上海巽联信息科技有限公司 基于多模态下的智能表格抽取算法
CN116501862B (zh) * 2023-06-25 2023-09-12 桂林电子科技大学 一种基于动态分布式汇集的文本自动摘录系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3623998B2 (ja) * 1995-01-27 2005-02-23 キヤノン株式会社 画像処理方法および画像処理装置
JPH08166959A (ja) * 1994-12-12 1996-06-25 Canon Inc 画像処理方法
US6442555B1 (en) * 1999-10-26 2002-08-27 Hewlett-Packard Company Automatic categorization of documents using document signatures
JP2003030220A (ja) * 2001-07-13 2003-01-31 Murata Mach Ltd 構造化文書生成装置とそのプログラム
JP2004206468A (ja) * 2002-12-25 2004-07-22 Ricoh Co Ltd 文書管理システム及び文書管理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP2006309347A (ja) 2006-11-09

Similar Documents

Publication Publication Date Title
US11551567B2 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
JP3856778B2 (ja) 複数言語を対象とした文書分類装置及び文書分類方法
US7698627B2 (en) Method, program, and device for analyzing document structure
US8577887B2 (en) Content grouping systems and methods
Al-Zaidy et al. A machine learning approach for semantic structuring of scientific charts in scholarly documents
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
US20070255553A1 (en) Information Extraction System
CN107590219A (zh) 网页人物主题相关信息提取方法
JP2007226792A (ja) 目次抽出におけるロバスト性向上
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US20220375246A1 (en) Document display assistance system, document display assistance method, and program for executing said method
Al-Zaidy et al. Automatic summary generation for scientific data charts
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
CN114239588A (zh) 文章处理方法、装置、电子设备及介质
Doush et al. Detecting and recognizing tables in spreadsheets
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
CN113673294A (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
WO2007070010A1 (en) Improvements in electronic document analysis
JP2013016036A (ja) 文書部品生成方法及び計算機システム
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
JP2007279978A (ja) 文書検索装置及び文書検索方法
US11900060B2 (en) Information processing device, information processing method, and computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110621

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150