JP2007286961A - 文書属性抽出装置及び文書属性抽出プログラム - Google Patents

文書属性抽出装置及び文書属性抽出プログラム Download PDF

Info

Publication number
JP2007286961A
JP2007286961A JP2006114552A JP2006114552A JP2007286961A JP 2007286961 A JP2007286961 A JP 2007286961A JP 2006114552 A JP2006114552 A JP 2006114552A JP 2006114552 A JP2006114552 A JP 2006114552A JP 2007286961 A JP2007286961 A JP 2007286961A
Authority
JP
Japan
Prior art keywords
document
attribute
relevance
extracted
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006114552A
Other languages
English (en)
Inventor
Taizou Kameshiro
泰三 亀代
Takashi Hirano
敬 平野
Fumiko Takahashi
史子 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006114552A priority Critical patent/JP2007286961A/ja
Publication of JP2007286961A publication Critical patent/JP2007286961A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文書との関連度に基づいて、文書属性を抽出する文書属性抽出装置及び文書属性抽出プログラムを得る。
【解決手段】 文字が記述された文書を解析して文字が記述されている文字記述領域を決定するレイアウト解析手段と、属性定義情報が格納された属性定義DBと、上記属性定義DBに格納された属性定義情報を用いて、上記レイアウト解析手段で決定された文字記述領域内から文書属性を抽出する文書属性抽出手段と、文書属性が抽出された文字記述領域に応じて、上記文書属性抽出手段で抽出された文書属性と上記文書との関連度を判定する属性関連度判定手段と、上記属性関連度判定手段で判定された関連度に基づいて、上記文書属性抽出手段で抽出された文書属性から所定の文書属性のみを出力する出力手段とを備えるようにした。
【選択図】 図1

Description

この発明は、コンピュータで読取可能な文書・イメージ中に記述された固有表現や日時・組織名等の特定文字列を文書属性として自動抽出する文書属性抽出技術に関するものである。
インターネットを通じて発信される文書数は膨張の一途であり、世界各地のニュースから掲示板・個人のブログまで多種多様である。企業においては、社内に存在する多量の文書を電子化して一元管理・共有化するファイリングシステムが活用されている。このような膨大かつ多様な情報の中からユーザが特定情報を調査するには、キーワード入力により全文検索を実行し、ヒットした文書のタイトル、ヒット位置周辺文字列等を数十件ずつ表示する汎用的な検索エンジン・検索サイトの利用が主であった。そのため、ユーザは各ヒット文書をリスト上位から順に閲覧して内容を確認する必要があった。このような調査方法では、例えば、ある地域における事象や、特定期間の製品情報の調査などを目的として、地名・製品名等をキーワードに指定して検索した場合、関連性の低い文書でも該当地名・製品名が記述されているとヒットするために、内容確認のための閲覧文書数が膨大となり、効率的に調査できない課題があった。そこで、これを改善して文書を効率的に管理するために、地名・作成者・会社名等の固有表現や日付・製品名等の文字列を文書属性(メタ情報)として自動抽出し、各文書に付与するための手法が従来提案されてきた。
例えば、従来、文書イメージ中の決められた領域内に記載された文字列を属性として自動抽出する方法がある。例えば、特開2002−55985公報(特許文献1)に開示された従来技術1では、文書属性抽出の際、入力文書イメージに加えて予めユーザが作成した文書属性抽出シートを使用する。文書属性入力シートには抽出する属性(文書のタイトル、作成者、企業・組織名等)の記載頁、記載領域、フォント、文字サイズ等を記入する。紙文書をスキャンするときは、文書属性抽出シートを紙文書の表紙にしてスキャンする。文書管理処理アプリケーションは、スキャンされたシートを識別及び解析し、そのシートに設定された文書属性種類及び各種文書属性の記載位置IDと、エリア情報DB内の情報とを元にして、シートの後にスキャンされた紙文書から文書属性を抽出し、その紙文書のイメージ文書に付与する。
また、例えば、記載位置情報を使用せずに属性抽出する方法としては、例えば「テキストからの情報抽出(情報処理 40巻4号 P370〜373)」(非特許文献1)に開示された従来技術2がある。この従来技術2では、情報抽出の対象となる文書やその文字列をもとに情報抽出パターンを用意しておき、文書とのパターンマッチングにより情報を抽出する。例えば、「@企業」の情報抽出パターンは「(固有名詞)または(カタカナ列)または(アルファベット列)」と文字列「株式会社」の組合せで定義する。本パターンを文書と照合することで、文書中から文字列「XYZ株式会社」を抽出することが可能となる。
特開2002−55985号公報(第3−7頁、第2図) 情報処理学会誌「情報処理」、40巻4号、1999年4月、P.370−373
上記従来技術1は、属性毎の記入領域が不定である文書には無効であり、また属性の記入領域が既知であっても異なる文書毎に文書属性抽出シートを作成する必要があった。また、領域内の文字列の内容を解析せずに属性抽出するため、例えば企業・組織名と作成者の記入位置を誤って記述した文書に対しては作成者属性に企業・組織名の文字列を登録するなど、正しく属性を抽出できないという問題があった。
また、上記従来技術2では、属性抽出時に記載位置情報を使用しないため、同一の情報抽出パターンで異なる記入領域の文書からの属性抽出が可能であるが、文書全体の内容を考慮せず、局所的な文字列パターンのみを考慮して属性を抽出するために、例えば文書中に広告や他の文書・情報の見出しなど、本文と関連のない内容が記述された文書を入力すると、本来は抽出を抑制したい広告や他の文書・情報の見出しからも属性を抽出してしまい、そのために属性検索で該当文書をノイズとして出力してしまうという問題があった。
この発明は上記のような問題を解決するためになされたもので、文書との関連度に基づいて、文書属性を抽出する文書属性抽出装置及び文書属性抽出プログラムを得ることを目的とする。
この発明に係る文書属性抽出装置は、文字が記述された文書を解析して文字が記述されている文字記述領域を決定するレイアウト解析手段と、属性定義情報が格納された属性定義DBと、上記属性定義DBに格納された属性定義情報を用いて、上記レイアウト解析手段で決定された文字記述領域内から文書属性を抽出する文書属性抽出手段と、文書属性が抽出された文字記述領域に応じて、上記文書属性抽出手段で抽出された文書属性と上記文書との関連度を判定する属性関連度判定手段と、上記属性関連度判定手段で判定された関連度に基づいて、上記文書属性抽出手段で抽出された文書属性から所定の文書属性のみを出力する出力手段とを備えるようにしたものである。
また、この発明に係る文書属性抽出プログラムは、文字が記述された文書を解析して文字が記述されている文字記述領域を決定するレイアウト解析手段と、属性定義情報を用いて、上記レイアウト解析手段で決定された文字記述領域内から文書属性を抽出する文書属性抽出手段と、文書属性が抽出された文字記述領域に応じて、上記文書属性抽出手段で抽出された文書属性と上記文書との関連度を判定する属性関連度判定手段と、上記属性関連度判定手段で判定された関連度に基づいて、上記文書属性抽出手段で抽出された文書属性から所定の文書属性のみを出力する出力手段としてコンピュータを機能させるようにしたものである。
この発明によれば、文字記述領域に応じて判定した文書属性と文書との関連度に基づいて、文書属性を出力するようにしたことにより、文書属性は、文字記述領域に応じて判定された関連度に基づいて出力されるので、文書との関連度の低い文書属性の抽出を抑制することができる効果がある。
実施の形態1.
図1は、本発明の実施の形態1における文書属性抽出装置の構成を示す構成図であり、本発明の説明に必要な部分のみを示している。
図1において、文書属性抽出装置は、入力手段1、レイアウト解析手段2、文書属性抽出手段3、属性関連度判定手段4、出力手段5、属性定義DB6および属性関連度定義DB7で構成されている。
入力手段1は、コンピュータ読取可能な文書を取得して所定領域に格納する。このコンピュータ読取可能な文書は、少なくとも文字が記述され、文字列、図面、イメージ等で構成された文書である。例えばコンピュータで動作するワープロソフトを用いて作成した文書ファイル、CADソフトを用いて作成した図面ファイル、仕様・形式が公開されておりビューアを用いて閲覧することができるHTML(HyperText Markup Language)、XML(eXtensible Markup Language)、PDF(Portable Document Format)形式のファイル、ビットマップ等のイメージファイルなどがある。また、入力手段1の実現は、電子化されていない紙文書からビットマップ等の電子文書に変換するスキャナのほか、電子化された文書をコンピュータのハードディスクあるいは不揮発性記憶装置から文書を取得し、所定領域として、例えば、本発明を構成するコンピュータの指定フォルダに格納するソフトウエアで実現できる。
レイアウト解析手段2は、上記入力手段1で取得された文書を解析し、文字が記述されている1又は複数の文字記述領域を決定する。この文字記述領域が文書属性抽出の対象となる領域であり、ここでは、文書中に存在する文字の文字コードとその位置座標、および線分位置座標を解析して、各位置座標を用いて文書を複数の領域に領域分割して文字記述領域を決定すると共に、各文字記述領域に対応する文字を抽出する。
属性定義DB6は、属性定義情報が格納されている。ここでは、上記入力手段1で取得された文書から文書属性を抽出するための属性定義情報として、文字列の品詞を用いて属性を定義した属性抽出ルールが格納されている。属性抽出ルールは、ユーザが用途に応じて作成、変更可能に構成されている。
文書属性抽出手段3は、上記属性定義DB6に格納された属性定義情報を用いて、上記レイアウト解析手段2で決定された文字記述領域内から文書属性を抽出する。ここでは、上記入力手段1で取得された文書の文字列に形態素解析処理を実行し、その結果に対して上記属性定義DB6に格納された属性抽出ルールを用いた照合処理を行い、上記レイアウト解析手段2で決定された文字記述領域内から文書属性を抽出して出力する。
属性関連度定義DB7は、文字記述領域と文書との関連度とを定義する属性関連度定義情報が格納されている。ここでは、文字記述領域の条件と、当該条件に合致する場合にその文字記述領域と文書との関連度とを定義する属性関連度定義情報が格納されている。
属性関連度判定手段4は、文書属性が抽出された文字記述領域に応じて、上記文書属性抽出手段3で抽出された文書属性と上記文書との関連度を判定する。ここでは、上記属性関連度定義DB7に格納された属性関連度定義情報を用いて、上記文書属性抽出手段3で抽出された文書属性と上記文書との関連度を判定する。
出力手段5は、上記属性関連度判定手段4で判定された関連度に基づいて、上記文書属性抽出手段3で抽出された文書属性から所定の文書属性のみを出力する。ここでは、上記属性関連度判定手段4で判定された関連度に基づいて、上記文書属性抽出手段3で抽出された文書属性から上記入力手段1で取得された文書と関連のある文書属性のみを出力する。
上記入力手段1、レイアウト解析手段2、文書属性抽出手段3、属性関連度判定手段4及び出力手段5は、専用の電子回路を構成することで実現できる他、予め、上記入力手段1、レイアウト解析手段2、文書属性抽出手段3、属性関連度判定手段4及び出力手段5の処理内容を記述したプログラムをコンピュータシステムのメモリに格納し、当該コンピュータシステムにおける中央演算装置(以下CPU)が上記プログラムを実行することによっても実現できる。さらに、属性定義DB6、属性関連度定義DB7はコンピュータで読取可能なファイル形式で実現でき、本体システムに内部バスあるいはネットワークにより接続された不揮発性記憶装置あるいはハードディスクに記憶される。
図2は、文書属性抽出装置の文書属性抽出処理の流れを表すフローチャートである。以下、図2を用いて処理の流れを説明する。
はじめに、入力手段1がコンピュータ読取可能な文書を取得する(S100)。図3は、入力手段1が取得した文書の一例を示す説明図である。ここでは、文書としてPDFファイルを用いる。図3では、エアコン発売のニュースリリースを文書の上部に、テレビ他の最新ニュースリリース一覧を下部に記述する。
続いて、レイアウト解析手段2が上記入力手段1で取得された文書のレイアウトを解析し、文字が記述されている文字記述領域を決定する(S200)。まず、入力手段1が取得した文書から文字の文字コードとその位置座標を抽出する。抽出方法は、PDFのように仕様が公開されているファイルは、仕様に従い解析することで可能である。一方、仕様が公開されていないワープロソフト等で作成された文書は、文書を作成したアプリケーションからの印刷処理によってPDFファイルを作成し、PDFを用いた文書解析により文字コード及び位置座標を抽出する。ビットマップ等のイメージファイルでは、公知である文字認識技術を用いることでイメージ内に記述された文字コードを抽出する。文書中に文字が記載されていても文字コードが埋め込まれていない、画像イメージのみのPDFファイルに対しては、文書を画像処理可能なビットマップファイル等に変換した後、文字認識技術を用いて抽出する。
図4は、図3に示した文書から抽出された文字コードと位置座標の一例を示す説明図である。図4では、抽出した各文字と、その頁番号、および各文字座標(文字の位置座標)をsx、sy、w、hで記述する。sxは各文字の外接矩形の左上点のX座標を示し、syは外接矩形左上点のY座標を、wは左上点からの横方向の幅を、hは左上点からの高さを示す。
次に、レイアウト解析手段2は文書中の線分の位置座標を抽出する。線分抽出も文字抽出と同様に、PDFを解析することで可能である。また、文書を画像処理可能なビットマップファイル等に変換した後、公知の処理である画像2値化処理を行い、画像内の黒画素の縦方向および横方向の連結成分を抽出し、各連結成分の縦横比を求め、縦横比が予め既定する閾値より大きな連結成分を線分と判定して抽出することでも可能である。図5は、図3に示した文書から抽出された線分の抽出結果の一例を示す説明図である。図5では、抽出した線分に番号(線番号)を付与し、線分座標(線分の位置座標)を図4と同様に頁番号および矩形座標sx、sy、w、hを用いて記述する。
次に、レイアウト解析手段2は、抽出した文字座標と線分座標を用いて文書を頁毎に領域分割し、文字が記述されている文字記述領域を決定すると共に、各文字記述領域に対応する文字(文字列)を決定する。文字記述領域の決定方法は、(1)文書内の近接する文字同士を同一領域に統合していき、(2)線分で囲まれる領域を単一領域として抽出し、(3)他のどの線分とも交差しない線分を領域の境界線と位置付けて領域分割を行う。処理(1)から(3)の優先度を(2)>(3)>(1)として、抽出領域が重複する場合は優先度の高い結果に決定する。(1)では近接する文字外接矩形座標のシティブロック距離をそれぞれ算出して、距離の近い文字同士から次々に統合する。統合後の領域の外接矩形は、領域内の各文字の外接矩形を延長した際の最外矩形で囲まれる領域とする。
図6は、図4に示す文字座標から(1)の処理で抽出した領域の一例を示す説明図である。(1)の処理では、41、42、43、44、45の5つの領域を抽出し、当該領域内の文字(文字列)を抽出する。
図7は、図4に示す文字座標と図5に示す線分座標から(2)の処理で抽出した領域の一例を示す説明図である。(2)の処理では図5に示す線分座標で囲まれる領域を算出し、46の領域を抽出し、当該領域内の文字(文字列)を抽出する。
(3)の処理では図5に示す線分座標から交差しない線分を抽出して、その線分を領域の境界線と決定するが、図5に示す線分は全て交差するために、(3)の処理で領域は抽出しない。図6、図7に示す領域抽出結果と、各処理の優先度とから、レイアウト解析手段2は最終的に41,42,43,46を文字記述領域として決定する。また、各文字記述領域に対応する文字を抽出する。
次に、文書属性抽出手段3が属性抽出処理を行う(S300)。図8は、属性定義DB6に格納された属性抽出ルールの一例を示す説明図である。図8に示した属性抽出ルールには、「日付」、「所在地」、「組織名」、「社長」の属性に関する抽出ルールが記述されている。例えば、属性「日付」21は、2〜4桁の数字22と、記号23と、1〜2桁の数字24と、記号25と、1〜2桁の数字26の組合せで定義される。また、属性「日付」27は、2〜4桁の数字28と、文字「年」29と、1〜2桁の数字30と、文字「月」31と、1〜2桁の数字32と、文字「日」33の組合せで定義される。属性「社長」は、構成文字の品詞および付加情報が[名詞−固有名詞−人名]からなり、かつ文字列「社長」の近くにある文字列であると定義される。
図9は、文書属性抽出手段3の処理の流れを示すフローチャートである。図9を用いて文書属性抽出手段3の具体的な処理動作について説明する。
文書属性抽出手段3は、レイアウト解析手段2が抽出した文字記述領域内の文字の文字コードを用いて形態素解析処理を行う(S310)。形態素解析処理は日本文解析の公知の技術であるので詳細な動作の説明は省略するが、自然文を意味のある最小の単位に分解する処理である。文書属性抽出手段3は形態素解析処理によって文章を意味のある最小の単位の文字列(以下、最小文字列と呼ぶ)に分け、各文字列に対して品詞を割り当てる。
図10および図11は、図3に示す文書に対する文書属性抽出手段3の形態素解析処理の結果の一例を示す説明図である。図10は領域41、42、43の、図11は領域46の形態素解析結果を示す。図10、11に示すように、形態素解析処理の結果、各最小文字列に品詞および必要に応じた付加情報1〜3が付加される。付加情報1は、文字列の品詞が名詞である場合には、一般名詞、固有名詞等の名詞の種類を示す。付加情報2は文字列の品詞が名詞で、かつ付加情報1が固有名詞である場合には、固有名詞の種類を示す。例えば、組織、地域、人名等である。さらに必要な場合は付加情報3が付加される。付加情報3は例えば、付加情報2が「人名」のとき「姓」または「名」が付加される。
続いて、文書属性抽出手段3は属性抽出ルール照合処理を行う(S320)。具体的には、図10、図11に示した形態素解析結果に対して、図8に示した属性抽出ルールとの照合を行い、属性抽出ルールと一致する文字、品詞および付加情報1〜3を有する文字列にその属性を割り当てる。
例えば、「日付」の属性を割り当てる場合、図8の「日付」21、27に表す組合せと一致する組合せからなる文字列を図10、図11に示した形態素解析結果から抽出する。まず、「数字2〜4桁」(22または28)となる文字列を検索する。図10の文頭1〜4文字「2005」が「数字2〜4桁」(22または28)の文字列に当てはまるため、「2005」を抽出する。続いて、「2005」に続く文字が「記号」23または「年」29であるかを判定する。図10では、「2005」に続いて「年」が出現するので、ここまで「日付」27の照合に成功して「年」を抽出する。以下、文書属性抽出手段3は「日付」27との照合を行い、「日」33まで抽出したところで全ての照合に成功し、文字列「2005年12月16日」を属性「日付」27に割り当てる。
同様に他の属性についても、図8の属性抽出ルールに従って文字列に属性を割り当てる。例えば、「組織名」の属性を割り当てる場合は、品詞−付加情報1−付加情報2が[名詞−固有名詞−組織]となる文字列を抽出して割り当てる。図12は、図10に示した形態素解析結果に対して属性を割り当てた属性抽出結果の一例を示す説明図である。図12に示すように、文書属性抽出手段3は、属性「日付」を文字列「2005年12月16日」に、属性「組織名」を文字列「○×電機」に、属性「所在地」を文字列「東京都千代田区○○○1−1−1」に、属性「社長」を文字列「○田×男」に割り当てる。
同様に図13は、図11に示した形態素解析結果に対して属性を割り当てた属性抽出結果の一例を示す説明図である。図13に示すように、文書属性抽出手段3は、属性「日付」を文字列「2005−12−10」、「2005−12−1」、「2005−11−20」、「2005−11−1」に割り当てる。以降、属性を割り当てた文字列を属性値と称する。
その後、文書属性抽出手段3は、属性を割り当てた結果を出力する(S330)。
次に、属性関連度判定手段4が、図2に示す関連度判定処理を実施する(S400)。属性関連度判定手段4は、属性関連度定義DB7に格納された属性関連度定義情報を用いて、抽出された文書属性の属性値と文書との関連度を算出する。
図14は、属性関連度定義DB7に格納された属性関連度定義情報の一例を示す説明図である。図14では、文字記述領域の条件と、当該条件に合致する場合にその文字記述領域と文書との関連度とを定義する属性関連度定義情報が格納されている。文字記述領域の条件として、登録文字列に「広告」「最新ニュース」「関連ニュース」を、領域をそれぞれ(100,30)と登録している。(100,30)とは、各領域の原点から領域の幅100%以内、領域の高さ30%以内に存在する条件(指定位置)を示す。また、文字記述領域と文書との関連度として、20を登録している。ここでは、この関連度を文字記述領域から抽出した文書属性の属性値に割り当てる関連度の値として用いる。関連度は値が大きいほど関連性が高く、値はユーザが適宜変更可能である。
即ち、図14では、文字記述領域の条件として、登録文字列が文字記述領域内の指定位置に存在する場合に、この文字記述領域から抽出された文書属性の属性値と文書との関連度を20に設定することが定義されている。
まず、属性関連度判定手段4は、レイアウト解析手段2で決定した文字記述領域について、図14に示す領域(指定位置)内に図14に示す登録文字列が存在するか否かを判定し、存在する場合は、図14に示す文字記述領域と文書との関連度に基づいて、その文字記述領域から抽出された文書属性の属性値に、上記関連度を割り当てる。
例えば、図6、図7に示す各領域41、42、43、46について、図10、図11に示す領域41、42、43、46について、図14に示す登録文字列が図14に示す領域(指定位置)に存在するか否かを判定する。登録文字列が存在しない場合には、その文字記述領域(領域41、42、43、46)から抽出された文書属性の属性値に関連度100を割り当てる。領域41には図14に示す登録文字列が存在しないので、領域41から抽出した文書属性の属性値に関連度100を対応付ける。同様に領域42、43、46を調査すると、領域46に文字列「最新ニュース」が存在する。そこで領域46から抽出した属性値(図13に示す属性値全て)に関連度20を割り当てる。その結果、属性関連度判定手段4は図12に示す属性値に対しては関連度100を割り当て、図13に示す属性値には関連度20を割り当て、属性値の関連度判定結果として出力する。
次に、出力手段5が、上記属性関連度判定手段4で判定された関連度に基づいて、上記文書属性抽出手段3で抽出された文書属性から所定の文書属性のみを出力する(S500)。出力手段5は、所定の文書属性として、例えば、属性関連度判定手段4の属性値の関連度判定結果から関連度の高い文書属性を出力する。ここで、出力する関連度の閾値を50とすると、出力手段5は、図12に示す文書属性のみを出力し、図13に示す文書属性を出力しない。
以上のように、実施の形態1の文書属性抽出装置によれば、文書を解析して文字記述領域を決定し、当該文字記述領域に応じて、上記文書から抽出された文書属性と上記文書との関連度を判定し、当該判定された関連度に基づいて、文書属性を出力するようにしたことにより、文書属性は、文字記述領域に応じて判定された関連度に基づいて出力されるので、文書との関連性の高い文字記述領域から抽出された文書属性のみが出力され、文書との関連性の低い文字記述領域から抽出された文書属性が出力されないようにすることができる。例えば、広告掲載領域等の、文書と直接関連の低い領域から文書属性が出力されることを抑えることができる。
また、実施の形態1の文書属性抽出装置によれば、文字記述領域内の文字列に形態素解析処理を実行し、当該形態素解析処理結果と、品詞を用いて属性を定義した属性定義情報とを照合して文書属性を抽出するようにしたことにより、位置座標を用いずに文書属性が抽出されるので、文書属性の記入位置が異なる文書からも文書属性を抽出することができる。
また、実施の形態1の文書属性抽出装置によれば、文字記述領域と文書との関連度とを定義する属性関連度定義情報が格納された属性関連度定義DB6を備え、当該属性関連度定義DB6に格納された属性関連度定義情報を用いて、文書属性と文書との関連度を判定するようにしたことにより、ユーザが属性関連度定義の作成、変更等を容易に行うことができる。
なお、実施の形態1においては、図14に示すように、属性関連度定義情報に文字記述領域と文書との関連度を登録し、この関連度を文字記述領域から抽出した文書属性の属性値に割り当てる関連度の値として用いる場合について説明したが、文書属性の属性値に割り当てる関連度は、文書属性が抽出された文字記述領域に応じて判定されればよく、例えば、文字記述領域と文書との関連度を用いた関数によって算出された値であっても良い。
実施の形態2.
実施の形態1では、属性関連度判定手段が、属性関連度定義DBに格納された文字記述領域と文書との関連度とを定義する属性関連度定義情報を用いて、文書属性と文書との関連度を判定する場合について説明したが、属性関連度判定手段の他の実施の形態について説明する。
本実施の形態において、属性関連度判定手段は、属性関連度定義情報を用いずに文書属性と文書との関連度を判定することが可能であり、本実施の形態における文書属性抽出装置の構成は、例えば、図1に示した文書属性抽出装置の構成から属性定義DB6を除いた構成であっても良い。
本実施の形態において、属性関連度判定手段4は、文字記述領域内の文字数、上記文書属性抽出手段で抽出された文書属性の文字数及び個数を用いて、文書属性抽出手段3で抽出された文書属性と文書との関連度を判定するように構成されている。
次に、本実施の形態の動作を説明する。
本実施の形態における文書属性抽出装置の文書属性抽出処理の流れを表すフローチャートは、前述の実施の形態1と共通であり、図2に示したフローチャートにおいて、S100、S200、S300は、前述の実施の形態1と同様に処理する。
S400で、関連度判定処理を実施する際に、本実施の形態において、属性関連度判定手段4は、文字記述領域内の文字数、当該文字記述領域内から抽出された文書属性の文字数及び個数を用いて、文書属性と文書との関連度を判定する。例えば、下記式(1)により、文書属性の文書との関連度αを算出する。
Figure 2007286961
上記式(1)において、αは関連度、Linは、文書属性i(i=1は日付、i=2は地名など種類を表す)のn番目に出現する文書属性の属性値の文字数、Nは文字記述領域内に出現する文書属性iの属性値数、Mは文字記述領域内全文字数である。αはNが一定の場合は、ΣLinが大きいほど小さく、ΣLinが一定の場合はNが大きいほど小さな値をとる。これにより、属性値となった文字数が同一の場合は、属性値の個数が多いほど関連度が小さくなる。
いま、図12および図13で抽出した属性値に対して、上記式(1)を用いて、関連度αを算出する。
はじめに、領域41に対して日付属性の関連度αを算出すると、M=34、N=1、ΣL=11よりα=3.1、組織名はN=1、L=15であるのでα=8.5、所在地はN=1、L=15よりα=2.3、領域42は文書属性が存在せず、領域43は組織名がM=44、N=1、ΣL=4よりα=11、社長もN=1、ΣL=4よりα=11、領域46では日付がM=93、N=4、ΣL=38よりα=0.61となる。
例えば、上記式(1)のように、文書属性と文書との関連度を判定する数式として、属性値となった文字数が同一の場合は、属性値の個数が多いほど関連度αが小さくなる関数を用いることにより、属性関連度判定手段4にて、特定領域に同一の文書属性が多数存在する場合に、それを排除することができる。例えば、文字記述領域が広告であって領域内に地名が多く存在する場合や、文字記述領域が関連情報の見出しであって人名・日付が多く存在する場合などに、これら文書属性の関連度を低下させ、排除することができる。
次に、S500で、出力手段5が、上記属性関連度判定手段4で判定された関連度に基づいて、上記文書属性抽出手段3で抽出された文書属性から所定の文書属性のみを出力する。例えば、出力手段5は、α=1.0を閾値として、これ以下の文書属性を切り捨てる。その結果、出力手段5は、図12の属性値を全て出力し、図13の属性値の出力を抑制する。
以上のように、実施の形態2の文書属性抽出装置によれば、文字記述領域に応じて、上記文書から抽出された文書属性と上記文書との関連度を判定するものとして、文字記述領域内の文字数、文書属性の文字数及び個数を用いて、文書属性と文書との関連度を判定するようにしたことにより、特定領域に多く存在する同一の文書属性の抽出を抑制することができるので、文書と直接関連の低い広告等の文字記述領域から文書属性が出力されることを抑えることができる。
本発明の実施の形態1による文書属性抽出装置の構成を示す説明図である 本発明の実施の形態1による文書属性抽出処理の流れを表すフローチャートである。 文書の一例を示す説明図である。 文書から抽出された文字コードと位置座標の一例を示す説明図である。 文書から抽出された線分の抽出結果の一例を示す説明図である。 抽出した領域の一例を示す説明図である。 抽出した領域の一例を示す説明図である。 属性抽出ルールの一例を示す説明図である。 文書属性抽出手段3の処理の流れを示すフローチャートである。 形態素解析処理の結果の一例を示す説明図である。 形態素解析処理の結果の一例を示す説明図である。 属性抽出結果の一例を示す説明図である。 属性抽出結果の一例を示す説明図である。 属性関連度定義情報の一例を示す説明図である。
符号の説明
1 入力手段、 2 レイアウト解析手段、 3 文書属性抽出手段、 4 属性関連度判定手段、 5 出力手段、 6 属性定義DB、 7 属性関連度定義DB。

Claims (5)

  1. 文字が記述された文書を解析して文字が記述されている文字記述領域を決定するレイアウト解析手段と、
    属性定義情報が格納された属性定義DBと、
    上記属性定義DBに格納された属性定義情報を用いて、上記レイアウト解析手段で決定された文字記述領域内から文書属性を抽出する文書属性抽出手段と、
    文書属性が抽出された文字記述領域に応じて、上記文書属性抽出手段で抽出された文書属性と上記文書との関連度を判定する属性関連度判定手段と、
    上記属性関連度判定手段で判定された関連度に基づいて、上記文書属性抽出手段で抽出された文書属性から所定の文書属性のみを出力する出力手段と
    を備えたことを特徴とする文書属性抽出装置。
  2. 上記属性定義DBは、文字列の品詞を用いて属性を定義した属性定義情報が格納され、
    上記文書属性抽出手段は、上記レイアウト解析手段で決定された文字記述領域内の文字列に形態素解析処理を実行し、当該形態素解析処理結果と上記属性関連度定義DBに格納された属性関連度定義情報とを照合して文書属性を抽出する
    ことを特徴とする請求項1に記載の文書属性抽出装置。
  3. 文字記述領域と文書との関連度とを定義する属性関連度定義情報が格納された属性関連度定義DBを備え、
    上記属性関連度判定手段は、上記属性関連度定義DBに格納された属性関連度定義情報を用いて、上記文書属性抽出手段で抽出された文書属性と上記文書との関連度を判定することを特徴とする請求項1に記載の文書属性抽出装置。
  4. 上記属性関連度判定手段は、文字記述領域内の文字数、上記文書属性抽出手段で抽出された文書属性の文字数及び個数を用いて、上記文書属性抽出手段で抽出された文書属性と上記文書との関連度を判定することを特徴とする請求項1に記載の文書属性抽出装置。
  5. 文字が記述された文書を解析して文字が記述されている文字記述領域を決定するレイアウト解析手段と、
    属性定義情報を用いて、上記レイアウト解析手段で決定された文字記述領域内から文書属性を抽出する文書属性抽出手段と、
    文書属性が抽出された文字記述領域に応じて、上記文書属性抽出手段で抽出された文書属性と上記文書との関連度を判定する属性関連度判定手段と、
    上記属性関連度判定手段で判定された関連度に基づいて、上記文書属性抽出手段で抽出された文書属性から所定の文書属性のみを出力する出力手段と
    してコンピュータを機能させるための文書属性抽出プログラム。
JP2006114552A 2006-04-18 2006-04-18 文書属性抽出装置及び文書属性抽出プログラム Pending JP2007286961A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006114552A JP2007286961A (ja) 2006-04-18 2006-04-18 文書属性抽出装置及び文書属性抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006114552A JP2007286961A (ja) 2006-04-18 2006-04-18 文書属性抽出装置及び文書属性抽出プログラム

Publications (1)

Publication Number Publication Date
JP2007286961A true JP2007286961A (ja) 2007-11-01

Family

ID=38758667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006114552A Pending JP2007286961A (ja) 2006-04-18 2006-04-18 文書属性抽出装置及び文書属性抽出プログラム

Country Status (1)

Country Link
JP (1) JP2007286961A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118340A (ja) * 2007-11-08 2009-05-28 Canon Inc 画像処理装置、画像処理方法、プログラム、および記憶媒体
JP2009122760A (ja) * 2007-11-12 2009-06-04 Ricoh Co Ltd 文書処理装置、文書処理方法及び文書処理プログラム
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118340A (ja) * 2007-11-08 2009-05-28 Canon Inc 画像処理装置、画像処理方法、プログラム、および記憶媒体
US8179558B2 (en) 2007-11-08 2012-05-15 Canon Kabushiki Kaisha Image processing apparatus, image processing method, program and storage medium constructed to generate print data including a bitmap image and attribute data of each pixel of the bitmap image
JP2009122760A (ja) * 2007-11-12 2009-06-04 Ricoh Co Ltd 文書処理装置、文書処理方法及び文書処理プログラム
US8107727B2 (en) 2007-11-12 2012-01-31 Ricoh Company, Limited Document processing apparatus, document processing method, and computer program product
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置

Similar Documents

Publication Publication Date Title
US7783472B2 (en) Document translation method and document translation device
US10572725B1 (en) Form image field extraction
US7705848B2 (en) Method of identifying semantic units in an electronic document
US20030229857A1 (en) Apparatus, method, and computer program product for document manipulation which embeds information in document data
US7643687B2 (en) Analysis hints
WO2021084702A1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
US20050235202A1 (en) Automatic graphical layout printing system utilizing parsing and merging of data
US20020118379A1 (en) System and user interface supporting user navigation of multimedia data file content
JP4945813B2 (ja) 印刷構造化文書
WO2008088938A1 (en) Converting text
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
EA001689B1 (ru) Система автоматической идентификации языка для многоязычного оптического распознавания символов
JP5664174B2 (ja) 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
US20150310269A1 (en) System and Method of Using Dynamic Variance Networks
CN105302626B (zh) Xps结构化数据的解析方法
JP2007286961A (ja) 文書属性抽出装置及び文書属性抽出プログラム
JP2008077634A (ja) モバイル機器におけるフォーム自動記入方法および装置
US20140177951A1 (en) Method, apparatus, and storage medium having computer executable instructions for processing of an electronic document
CN110888894A (zh) 专利搜索的方法、服务器及计算机可读介质
JP7430219B2 (ja) 文書情報構造化装置、文書情報構造化方法およびプログラム
US20230215207A1 (en) Geographic management of document content
JP2004178044A (ja) 属性抽出方法及びその装置及び属性抽出プログラム
JP7504674B2 (ja) 情報処理装置、情報処理方法、およびプログラム