JP2010217972A - 構造化文書生成装置及び構造化文書生成プログラム - Google Patents

構造化文書生成装置及び構造化文書生成プログラム Download PDF

Info

Publication number
JP2010217972A
JP2010217972A JP2009060866A JP2009060866A JP2010217972A JP 2010217972 A JP2010217972 A JP 2010217972A JP 2009060866 A JP2009060866 A JP 2009060866A JP 2009060866 A JP2009060866 A JP 2009060866A JP 2010217972 A JP2010217972 A JP 2010217972A
Authority
JP
Japan
Prior art keywords
document
structured document
type definition
structured
logical structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009060866A
Other languages
English (en)
Inventor
Ai Noshiro
愛 能代
Rei Yano
令 矢野
Kazuyoshi Nishi
一嘉 西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009060866A priority Critical patent/JP2010217972A/ja
Publication of JP2010217972A publication Critical patent/JP2010217972A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】大量のテキスト文書からユーザが必要とする情報を効率的に抽出する。
【解決手段】構造化文書生成装置10は、テキスト文書の各文章から論理構造要素を生成し、この論理構造要素に含まれる各文章の単語毎に品詞情報を設定し、テキスト文書に対する出力条件が品詞情報により定義された文書型定義ファイルに基づいて、品詞情報が設定された論理構造要素から新たな構造化文書を生成する。
【選択図】図1

Description

本発明は、大量のテキスト文書からユーザが必要とする情報を効率的に抽出し得る構造化文書生成装置及び構造化文書生成プログラムに関する。
近年、情報処理技術の進展に伴い、大量のテキスト文書から有用な情報を抽出して活用したいというニーズが生じている。このようなニーズに応えるために、テキスト文書のような平文から、データを抽出し構造化データを生成する方法が検討されている(例えば特許文献1・2参照)。
特許文献1には、テキスト文書やソースプログラムから、あらかじめ抽出したいデータの記述位置を定義し、そのデータを指定したDTD(document type definition)に基づいてXML(extensible markup language)の要素に格納して出力する方法が記述されている。
また、特許文献2には、形態素解析を行ったテキスト文書から抽出されたデータをXML形式で出力する方法が記述されている。
特開2001−290801号公報 特開2005−235099号公報
しかしながら、上述した従来の技術では、テキスト文書からユーザの指定する条件に適合する情報を精度よく抽出し、その抽出結果を指定した形式の構造化文書として出力することができない。
例えば、特許文献1に係る技術では、形態素解析など意味情報による抽出ができない。また、特許文献1に係る技術では、抽出条件となる記述位置の指定を文書ごとに手動で行なう必要がある。
また、特許文献2に係る技術では、抽出に用いる位置座標情報では文書内容による抽出ができず、同じ内容でも文書内の位置座標が異なれば抽出できない。さらに、特許文献2に係る技術では、DTDやXMLスキーマのような文書型定義が用いられておらず、同様の内容を有する週報や報告書などから出力される構造化データの構造が異なるものになる。
本発明は、上記実情に鑑みてなされたものであり、大量のテキスト文書からユーザが必要とする情報を効率的に抽出し得る構造化文書生成装置及び構造化文書生成プログラムを提供することを目的とする。
本発明は上記課題を解決するために、複数の文章が記述されたテキスト文書を入力するためのテキスト文書入力手段と、前記テキスト文書の各文章から論理構造要素を生成する論理構造要素生成手段と、形態素解析される文章を構成する単語と品詞情報とを関連付けて記憶する形態素解析情報記憶手段と、前記論理構造要素を形態素解析し、該論理構造要素に含まれる各文章の単語毎に前記品詞情報を設定する形態素解析手段と、前記形態素解析手段により品詞情報が設定された論理構造要素を中間ファイルとして記憶する中間ファイル記憶手段と、前記テキスト文書に対する出力条件が前記品詞情報に基づいて定義された文書型定義ファイルを入力するための文書型定義ファイル入力手段と、前記文書型定義ファイルにより定義された出力条件を前記品詞情報に基づいて解析する文書型定義解析手段と、前記文書型定義解析手段により解析された出力条件に基づいて、前記中間ファイル記憶手段に記憶された中間ファイルから新たな構造化文書を生成する構造化文書生成手段とを備えた構造化文書生成装置を提供する。
<作用>
従って、本発明は以上のような手段を講じたことにより、テキスト文書の各文章から論理構造要素を生成し、この論理構造要素に含まれる各文章の単語毎に品詞情報を設定し、テキスト文書に対する出力条件が品詞情報により定義された文書型定義ファイルに基づいて、品詞情報が設定された論理構造要素から新たな構造化文書を生成するので、文書型定義ファイルの出力条件に応じて、大量のテキスト文書からユーザが必要とする情報を効率的に抽出することができる。
本発明によれば、大量のテキスト文書からユーザが必要とする情報を効率的に抽出できる。
本発明の第1の実施形態に係る構造化文書生成装置10の構成を示す模式図である。 同実施形態に係る「テキスト文書」の一例を示す模式図である。 同実施形態に係る論理構造要素のデータの一例を示す模式図である。 同実施形態に係る形態素解析されたデータの一例を示す模式図である。 同実施形態に係る形態素解析後に補正されたデータの一例を示す模式図である。 同実施形態に係る「文書型定義ファイル」の一例を示す模式図である。 同実施形態に係る要素内容定義情報の一例を示す模式図である。 同実施形態に係る文書型定義解析部18を説明するための模式図である。 同実施形態に係る「構造化文書」の一例を示す模式図である。 同実施形態に係る構造化文書生成装置10の動作を説明するためのフローチャートである。 本発明の第2の実施形態に係る構造化文書生成装置10Sの構成を示す模式図である。 同実施形態に係る「サンプル文書」の一例を示す模式図である。 同実施形態に係る「構造化文書の雛形」の一例を示す模式図である。 同実施形態に係る文書型定義ファイル雛形修正部37が表示するGUI画面の一例を示す模式図である。 同実施形態に係る「文書型定義ファイルの雛形」の一例を示す模式図である。
以下、図面を参照して本発明の実施形態を説明する。
<第1の実施形態>
(構造化文書生成装置の構成)
図1は本発明の第1の実施形態に係る構造化文書生成装置10の構成を示す模式図である。
構造化文書生成装置10は、テキスト文書入力部11・論理構造要素生成部12・形態素解析辞書13・形態素解析部14・形態素解析補正部15・中間ファイル記憶部16・文書型定義ファイル入力部17・文書型定義ファイル解析部18・構造化文書生成部19・構造化文書出力部20を備えており、構造化文書としてXML文書を生成する。
なお、構造化文書生成装置10は、ハードウェア構成とソフトウェア構成との組合せにより実現可能である。ソフトウェア構成は、予めコンピュータ読み取り可能な記憶媒体またはネットワークから得られた「構造化文書生成プログラム」がコンピュータにインストールされることにより、構造化文書生成装置10としての各機能を実現する。
テキスト文書入力部11は、図2に示すような、複数の文章が記述された「テキスト文書」を入力するためのインタフェース装置である。このテキスト文書入力部11は、入力されたテキスト文書を論理構造要素生成部12に送出する。
論理構造要素生成部12は、テキスト文書入力部11により入力されたテキスト文書の各文章から「論理構造要素」を生成するものである。具体的には、論理構造要素生成部12では、文の改行情報を基に段落や章などを抽出し、それぞれに識別情報(<para ID>,<chapter ID>)を属性値として持つタグを設定する。これにより、図3に示すような論理構造要素のデータが生成される。そして、論理構造要素生成部12は、論理構造要素のデータを形態素解析部14に送出する。
形態素解析辞書13は、形態素解析される文章を構成する単語と「品詞情報」とを関連付けて記憶するメモリである。
形態素解析部14は、形態素解析辞書13を参照して論理構造要素を形態素解析し、論理構造要素に含まれる各文章の単語毎に品詞情報を設定するものである。ここでは、形態素解析部14は、論理構造要素のタグで囲まれた部分の文章に対して、それぞれ形態素解析辞書13を参照して、品詞の種類を表わす品詞IDを属性値とするタグを設定する。これにより、図4に示すような、品詞情報が設定された論理構造要素のデータが得られる。また、形態素解析部14は、このデータを形態素解析補正部15に送出する。
形態素解析補正部15は、形態素解析部14による形態素解析結果の補正を行なうものである。形態素解析補正部15では、補正ルール情報を記憶するメモリを内蔵しており(もちろん外部メモリに記憶していても良い)、この補正ルールに基づいて形態素解析の処理結果の補正を行なう。これにより、図5に示すような、データが得られる。ここでは、下線L1・L2の箇所に補正処理が実行されたことが示されている。なお、補正処理されたデータは、「中間ファイル」として、中間ファイル記憶部16に書き込まれる。
補足すると、形態素解析部14による形態素解析によって、品詞情報のタグ付けが行われると、実際に抽出したいデータよりも細かい形態素に分けられてしまう場合がある。そこで、このような細かく分けられてしまった形態素を抽出する際に指定され得るデータにするための補正が行なわれる。具体的には、“全体会議”のような複数の名詞を組み合わせた複合名詞などは、“全体”と“会議”のように最小の名詞に分割されてしまうため、本来抽出したい複合名詞の形に補正される。
なお、補正ルール情報としては、“http”から始まり英字、数字、記号を含む連続する品詞列は、1つのURL情報として結合するといったルールや、複合名詞として登録されている場合、名詞に分類される、連続する品詞列を1つの要素として結合するといったルールが記述されている。
中間ファイル記憶部16は、形態素解析補正部15から送出されたデータを「中間ファイル」として記憶するメモリである。すなわち、品詞情報が設定された論理構造要素が中間ファイルとして記憶されている。
文書型定義ファイル入力部17は、「文書型定義ファイル」を入力するためのインタフェース装置である。文書型定義ファイルには、テキスト文書に対する出力形式が品詞情報に基づいて定義されている。
詳しくは、文書型定義ファイルは、図6に示すように、XMLスキーマの仕様の他に独自定義の仕様で記述された抽出ルール及び出力フォーマットにより、テキスト文書に対する出力条件が記述されている。XMLスキーマの仕様により、正規表現、文字列の長さ、列挙値などによる要素の制約ファセットが抽出ルールとして定義されている。また、XMLスキーマの仕様により、組込みデータ型、単純型、複合型、要素の出現回数、属性値の指定などが出力フォーマットとして定義されている。これにより、組込みデータ型が指定されている場合には、指定したデータ型に正規化して出力することが可能となる。この場合、出力前に抽出データが正規化できる形であるかどうかを判定し、正規化可能である場合のみ正規化したデータを出力する。一方、独自定義の仕様により、単数や複数で用いられる品詞ID・品詞ID列や、予め品詞ID列に名前をつけて登録した要素内容定義情報が抽出ルールとして定義されている。図3〜図6のXMLスキーマでは、品詞情報が“hid”と記述され、要素内容定義情報が“tag”と記述される。この独自定義の抽出ルールにより、抽出のための品詞IDの指定や、URLや日付、郵便番号、単位付きの数字などを抽出するための要素内容定義情報の指定が可能となる。さらに、テキスト文書中の抽出データの出現位置となる段落や章の識別情報を用いて、抽出したデータをグループ化し、XMLの同じ要素の子要素として出力することも可能となる。例えば、氏名と所属の組み合わせを抽出し、同じXML要素の子要素として出力したい場合は、段落IDが同じとなる氏名と所属を組み合わせるというルールを指定する。また、独自定義の仕様により、組み込みデータ型による出力データの正規化や、段落や章の識別情報による要素の組み合わせなどが出力フォーマットとして定義されている。図3〜図6のXMLスキーマでは、段落の範囲が“pid_scope”、章の範囲が“cid_scope”と記述される。
文書型定義ファイル解析部18は、文書型定義ファイルにより定義された出力条件を品詞情報に基づいて解析するものである。例えば、文書型定義ファイル解析部18は、品詞情報として、品詞ID単独・品詞ID複数・品詞ID列単独・品詞ID列複数のいずれか、又は要素内容定義情報に基づいて出力条件を解析する。品詞ID単独とは、1つのXML要素に対して、1つの品詞IDが指定されているものである。品詞ID複数とは、1つのXML要素に対して、複数の品詞IDが指定されているものである。品詞ID列単独とは、1つのXML要素に対して、1つの品詞ID列が指定されているものである。品詞ID列複数とは、1つのXML要素に対して、複数の品詞ID列が指定されているものである。なお、品詞ID列とは、品詞IDを複数連結したものである。指定した品詞ID列の順番で出現する品詞列を該当データとして抽出することが可能となる。一方、「要素内容定義情報」は、使用頻度が高い品詞ID列に名前をつけて予め定義しておき、品詞ID列を指定する代わりに使用するものである。これにより、指定した名前に対応する品詞列が抽出可能となる。要素内容定義情報は、図7に示すように、XMLで定義することが可能である。図7において、各品詞ID列の数値は、1:数詞、4:記号(空白含む)、33:姓、34:名、65:助数詞をそれぞれ示している。
なお、文書型定義ファイル解析部18は、文書型定義ファイルを解析する際、図8に示すように、文書型定義ファイルに記述されたXMLスキーマを木構造に展開する。
構造化文書生成部19は、文書型定義ファイル解析部18により解析された出力条件に基づいて、中間ファイル記憶部16に記憶された中間ファイルから、図9に示すような新たな構造化文書を生成するものである。例えば、構造化文書生成部19は、品詞情報H1と単語W1とが関連付けられた中間ファイル(図4)から、出力条件J1が品詞情報H1により定義された文書型定義ファイル(図6)に基づいて、出力条件J1と単語W1とが関連付けられた構造化文書(図9)を生成する。
詳しくは、構造化文書生成部19は、文書型定義ファイルに記述された抽出ルールにより、中間ファイルからデータを抽出し、そのデータを文書型定義ファイルの出力フォーマットに従った所定の位置に配置した構造化文書を生成する。抽出ルールに従った構造化文書を生成する際、文書型定義ファイルに、
<xsd:element name="name" type="xsd:string" xsf:hid="33,35"/>
と記述されている場合、構造化文書生成部19は要素“name”の候補として品詞IDが“33”と“35”のデータを抽出する。また、
<xsd:element name="date" type="dateType" xsf:tag="date"/>
と記述されている場合、要素“date”の候補として要素内容定義情報においてdateと定義された品詞ID列のデータを抽出する。なお、要素の型定義が“単純型(simpleType)”のものは、制約ファセットによる抽出も行なう。
また、構造化文書生成部19は、出力フォーマットに従った構造化文書を生成する際、XMLスキーマに定義された要素の出現回数や出現位置による組み合わせ条件を加味して構造化文書を生成する。例えば、構造化文書生成部19は、段落の範囲を示す識別情報“pid_scope”によるスコープ判定を行い、候補値を選定する。“pid_scope”が“1”の場合は同じ段落内に出現する候補値の組み合わせを出力対象とする。また、XMLスキーマの組込みデータ型である「date型」や「time型」のXML要素の内容が日付や時刻を表すものであれば、date型を「1999-05-31」、time型を「13:20:00.000, 13:20:00.000-05:00」のように正規化して出力する。構造化文書生成部19は、正規化可能なものがあれば正規化した構造化文書を生成する。
構造化文書出力部20は、構造化文書生成部19により生成された構造化文書を外部装置等に出力するものである。
(構造化文書生成装置の動作)
次に本実施形態に係る構造化文書生成装置10の動作を図10のフローチャートを用いて説明する。
まず、ユーザによるテキスト文書入力部11の操作によりテキスト文書が入力される(ステップS1)。入力されたテキスト文書は論理構造要素生成部12に送出される。
続いて、論理構造要素生成部12によりテキスト文書から論理構造要素が生成される(ステップS2)。具体的には、論理構造要素生成部12により、テキスト文書中の段落や章が抽出され、それらの文章が段落IDや章IDの属性を有するXMLタグで囲まれる。“段落”は文書中の1つの改行、“章”は2つの改行をもとに抽出される。このようにして、論理構造要素が生成され、形態素解析部14に送出される。
次に、形態素解析部14において、論理構造タグで囲まれた部分の文章に対して、それぞれ形態素解析辞書13を用いて形態素解析が行なわれる(ステップS3)。これにより、品詞ごとに品詞IDのタグが設定される。
形態素解析によって、品詞IDのタグ付けが行われると、実際に抽出したいデータよりも細かい形態素に分けられてしまう場合がある。そこで、形態素解析補正部15により、細かく分けられてしまった形態素を抽出可能なデータにするための補正処理が行なわれる(ステップS4)。これにより、「○×記念会館」や「開発生産性」のような複数の名詞の組み合わせによる複合名詞などが得られることになる。
そして、形態素解析補正部15により補正されたデータは、中間ファイルとして、中間ファイル記憶部16に書き込まれる(ステップS5)。また、補正されなかったデータは、そのまま中間ファイルとして中間ファイル記憶部16に書き込まれる。
この後、ユーザによる文書型定義ファイル入力部17の操作により文書型定義ファイルが入力されると(ステップS6−Yes)、文書型定義ファイル解析部18により品詞情報に基づいて出力条件が解析される(ステップS7)。解析された出力条件は構造化文書生成部19に送出される。
次に、構造化文書生成部19により、中間ファイルが中間ファイル記憶部16から読み出される(ステップS8)。
続いて、構造化文書生成部19により、文書型定義解析部18から受け取った出力条件に基づいて、中間ファイルから該当するデータが抽出される。具体的には、形態素解析による品詞IDの指定や、URL・日付・郵便番号・単位付きの数字などを抽出するための要素内容定義情報による指定、その他の文書型定義ファイルにおいて指定される要素内容の制約条件による指定等により中間ファイルからデータが抽出される。
そして、構造化文書生成部19により、文書型定義ファイルの出力フォーマットに従った所定の位置に抽出結果が格納されて、新たな構造化文書が生成される(ステップS9)。この際、XMLスキーマで要素のデータ型が定義されている場合、そのデータ型に正規化された構造化文書が生成される。
構造化文書生成部19により生成された構造化文書は、構造化文書出力部20を介してディスプレイ等に出力される(ステップS10)。
(構造化文書生成装置の効果)
以上説明したように、本実施形態に係る構造化文書生成装置10によれば、テキスト文書の各文章から論理構造要素を生成し、この論理構造要素に含まれる各文章の単語毎に品詞情報を設定し、テキスト文書に対する出力条件が品詞情報により定義された文書型定義ファイルに基づいて、品詞情報が設定された論理構造要素から新たな構造化文書を生成するので、文書型定義ファイルの出力条件に応じて、大量のテキスト文書からユーザが必要とする情報を効率的に抽出することができる。
補足すると、構造化文書生成装置10によれば、テキスト文書のような平文から、ユーザが文書型定義ファイルに記述した抽出ルールによりデータを抽出し、その文書型定義ファイルの出力フォーマットに準拠したXML文書を得ることができる。例えば、構造化文書生成装置10によれば、報告書やメイル、論文などの文書に対する情報(文書のメタデータ)を、文書中から精度よく抽出し、指定した形式の構造化文書として出力することが可能となる。
また、構造化文書生成装置10によれば、文書型定義ファイルにおいて、論理構造の情報を用いた抽出データの組み合わせ、出現回数(抽出個数)、およびデータ型を指定することにより、機械処理が容易なデータを組み合わせた構造化文書を生成できる。これにより、一連の処理を自動化でき、抽出処理の省力化が可能になる。
また、構造化文書生成装置10は形態素解析補正部15を有しており、形態素解析の処理結果を補正するので、ユーザが必要とする情報を適切に得ることができる。
<第2の実施形態>
図11は本発明の第2の実施形態に係る構造化文書生成装置10Sの構成を示す模式図である。なお、既に説明した部分と同一部分には略同一符号を付し、特に説明がない限りは重複した説明を省略する。
本実施形態に係る構造化文書生成装置10Sは、第1実施形態に係る構造化文書生成装置10が文書型定義ファイルの作成支援機能を有したものである。具体的には、構造化文書生成装置10Sは、サンプル文書入力部30・論理構造要素生成部31・形態素解析部32・形態素解析補正部33・構造化文書雛形入力部34・形態素解析部35・文書型定義ファイル雛形生成部36・文書型定義ファイル雛形修正部37・文書型定義ファイル出力部38をさらに備えている。
サンプル文書入力部30は、例えば図12に示されるような、複数の文章が記述された「サンプル文書」を入力するためのインタフェース装置である。
論理構造要素生成部31は、サンプル文書入力部30により入力されたサンプル文書の各文章から論理構造要素を生成するものである。論理構造要素生成部31は、サンプル文書の論理構造要素を形態素解析部32に送出する。
形態素解析部32は、サンプル文書の論理構造要素を形態素解析するものであり、品詞情報が設定されたサンプル文書の論理構造要素を生成する。この形態素解析部32は、第1の実施形態に係る形態素解析部14と同様の機能を有している。
形態素解析補正部33は、第1の実施形態に係る形態素解析補正部15と同様の機能を有しており、形態素解析部32による処理結果を補正するものである。
構造化文書雛形入力部34は、サンプル文書に対応する構造化文書を、「構造化文書の雛形」として入力するためのインタフェース装置である。ここでの構造化文書の雛形としては、例えば図13に示すようなものが挙げられる。
形態素解析部35は、第1の実施形態に係る形態素解析部14と同様の機能を有しており、形態素解析辞書13を参照して構造化文書の雛形を形態素解析するものである。
文書型定義ファイル雛形生成部36は、品詞情報が設定されたサンプル文書の論理構造要素から、構造化文書の雛形を生成するための出力条件を解析し、文書型定義ファイルの雛形を生成するものである。まず、文書型定義ファイル雛形生成部36は、構造化文書の雛形の構造解析を行い、階層構造や要素の出現回数などの情報を抽出する。次に、文書型定義ファイル雛形生成部36は、構造化文書の雛形に記述された各要素のサンプル文書内の出現位置、構造化文書の構造、構造化文書の要素の品詞情報を取得し、要素の型定義がない文書型定義ファイルの雛形を生成する。
文書型定義ファイル雛形修正部37は、文書型定義ファイル雛形生成部36により生成された文書型定義ファイルの雛形を修正するためのものである。例えば図14に示すように、文書型定義ファイル雛形修正部37は、文書型定義ファイルの雛形をディスプレイ等に出力する。そして、GUI(graphical user interface)で要素の型等の追加定義を可能にする。GUI画面では、要素の型定義と出現回数の定義を支援するリストボックスとテキストボックス、ボタンの操作等が可能となっている。これにより、ユーザは、属性選択リストボックスや属性値選択リストボックスから該当するものを選択し、属性選択リストボックスの場合はその値を属性入力テキストボックスに入力することが可能となる。また、属性を追加したい場合には属性追加ボタンをクリックすることで、新たなリストボックスやテキストボックスを追加することができる。ここでは、“type”属性の値として、“simpleType”または“complexType”が選択された場合、リストボックスの編集が可能となり、ユーザは型名を入力できるようになる。また、文書型定義ファイルの文末に“simpleType”または“complexType”の定義が追加される。さらに、その内部の属性値や、要素の定義などをリストボックスやテキストボックスの表示に従い行なうことも可能である。そして、“出力”ボタンB1が押下されると、図15に示されるような、修正された文書型定義ファイルの雛形が生成される。
文書型定義ファイル出力部38は、文書型定義ファイル雛形修正部37により修正された文書型定義ファイル、または文書型定義ファイル雛形生成部36により生成された文書型定義ファイルを外部装置等に出力するものである。
上述した構成により、本実施形態に係る構造化文書生成装置10Sによれば、サンプル文書の論理構造要素を形態素解析し、品詞情報が設定されたサンプル文書の論理構造要素を生成し、この品詞情報が設定されたサンプル文書の論理構造要素から、構造化文書の雛形を生成するための出力条件を解析し、文書型定義ファイルの雛形を生成するので、ユーザが必要とする情報を簡易に得ることができる。
補足すると、出力条件等を記述した文書型定義ファイルを生成するには専門的知識が必要とされる。これに対し、サンプル文書や、そこから生成される目標となる構造化文書の雛形は容易に作成することが可能である。そこで、本実施形態に係る構造化文書生成装置10Sでは、文書型定義ファイルを直接生成せずに、サンプル文書と構造化文書の雛形とを元に文書型定義ファイルを生成することで、文書型定義ファイルを容易に生成できるようにしている。結果として、ユーザは、必要とする情報を簡易に得ることができる。
また、本実施形態に係る構造化文書生成装置10Sは、GUIにより文書型定義ファイルを修正できるので、文書型定義ファイルの出力条件として、ユーザの意図に合った直観的な情報の組み合わせを得るように設定できる。
<その他>
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
10・10S・・・構造化文書生成装置、11・・・テキスト文書入力部、12・・・論理構造要素生成部、13・・・形態素解析辞書、14・・・形態素解析部、15・・・形態素解析補正部、16・・・中間ファイル記憶部、17・・・文書型定義ファイル入力部、18・・・文書型定義ファイル解析部、19・・・構造化文書生成部、20・・・構造化文書出力部、30・・・サンプル文書入力部、31・・・論理構造要素生成部、32・・・形態素解析部、33・・・形態素解析補正部、34・・・構造化文書雛形入力部、35・・・形態素解析部、36・・・文書型定義ファイル雛形生成部、37・・・文書型定義ファイル雛形修正部、38・・・文書型定義ファイル出力部。

Claims (6)

  1. 複数の文章が記述されたテキスト文書を入力するためのテキスト文書入力手段と、
    前記テキスト文書の各文章から論理構造要素を生成する論理構造要素生成手段と、
    形態素解析される文章を構成する単語と品詞情報とを関連付けて記憶する形態素解析情報記憶手段と、
    前記論理構造要素を形態素解析し、該論理構造要素に含まれる各文章の単語毎に前記品詞情報を設定する形態素解析手段と、
    前記形態素解析手段により品詞情報が設定された論理構造要素を中間ファイルとして記憶する中間ファイル記憶手段と、
    前記テキスト文書に対する出力条件が前記品詞情報に基づいて定義された文書型定義ファイルを入力するための文書型定義ファイル入力手段と、
    前記文書型定義ファイルにより定義された出力条件を前記品詞情報に基づいて解析する文書型定義解析手段と、
    前記文書型定義解析手段により解析された出力条件に基づいて、前記中間ファイル記憶手段に記憶された中間ファイルから新たな構造化文書を生成する構造化文書生成手段と、
    を備えたことを特徴とする構造化文書生成装置。
  2. 請求項1に記載の構造化文書生成装置において、
    前記形態素解析手段による処理結果の補正を行なう形態素解析補正手段
    を更に備えたことを特徴とする構造化文書生成装置。
  3. 請求項1又は請求項2に記載の構造化文書生成装置において、
    複数の文章が記述されたサンプル文書を入力するためのサンプル文書入力手段と、
    前記サンプル文書に対応する構造化文書を、構造化文書の雛形として入力するための構造化文書雛形入力手段と、
    前記サンプル文書の各文章から論理構造要素を生成する手段と、
    前記サンプル文書の論理構造要素を形態素解析し、前記品詞情報が設定されたサンプル文書の論理構造要素を生成する手段と、
    前記品詞情報が設定されたサンプル文書の論理構造要素から、前記構造化文書の雛形を生成するための出力条件を解析し、前記文書型定義ファイルの雛形を生成する手段と、
    を備えたことを特徴とする構造化文書生成装置。
  4. コンピュータを、
    複数の文章が記述されたテキスト文書を入力するためのテキスト文書入力手段、
    前記テキスト文書の各文章から論理構造要素を生成する論理構造要素生成手段、
    形態素解析される文章を構成する単語と品詞情報とを関連付けて記憶する形態素解析情報記憶手段、
    前記論理構造要素を形態素解析し、該論理構造要素に含まれる各文章の単語毎に前記品詞情報を設定する形態素解析手段、
    前記形態素解析手段により品詞情報が設定された論理構造要素を中間ファイルとして記憶する中間ファイル記憶手段、
    前記テキスト文書に対する出力条件が前記品詞情報に基づいて定義された文書型定義ファイルを入力するための文書型定義ファイル入力手段、
    前記文書型定義ファイルにより定義された出力条件を前記品詞情報に基づいて解析する文書型定義解析手段、
    前記文書型定義解析手段により解析された出力条件に基づいて、前記中間ファイル記憶手段に記憶された中間ファイルから新たな構造化文書を生成する構造化文書生成手段、
    として実現させる構造化文書生成プログラム。
  5. 請求項4に記載の構造化文書生成プログラムにおいて、
    前記コンピュータを、
    前記形態素解析手段による処理結果の補正を行なう形態素解析補正手段、
    として実現させる構造化文書生成プログラム。
  6. 請求項4又は請求項5に記載の構造化文書生成プログラムにおいて、
    前記コンピュータを、
    複数の文章が記述されたサンプル文書を入力するためのサンプル文書入力手段、
    前記サンプル文書に対応する構造化文書を、構造化文書の雛形として入力するための構造化文書雛形入力手段、
    前記サンプル文書の各文章から論理構造要素を生成する手段、
    前記サンプル文書の論理構造要素を形態素解析し、前記品詞情報が設定されたサンプル文書の論理構造要素を生成する手段、
    前記品詞情報が設定されたサンプル文書の論理構造要素から、前記構造化文書の雛形を生成するための出力条件を解析し、前記文書型定義ファイルの雛形を生成する手段、
    として実現させる構造化文書生成プログラム。
JP2009060866A 2009-03-13 2009-03-13 構造化文書生成装置及び構造化文書生成プログラム Pending JP2010217972A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009060866A JP2010217972A (ja) 2009-03-13 2009-03-13 構造化文書生成装置及び構造化文書生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009060866A JP2010217972A (ja) 2009-03-13 2009-03-13 構造化文書生成装置及び構造化文書生成プログラム

Publications (1)

Publication Number Publication Date
JP2010217972A true JP2010217972A (ja) 2010-09-30

Family

ID=42976802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009060866A Pending JP2010217972A (ja) 2009-03-13 2009-03-13 構造化文書生成装置及び構造化文書生成プログラム

Country Status (1)

Country Link
JP (1) JP2010217972A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449492A (zh) * 2021-06-02 2021-09-28 杨旗 将后处理生成的word数据转换成结构化数据的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
JPH09146931A (ja) * 1995-11-24 1997-06-06 Dainippon Screen Mfg Co Ltd 文書型定義生成装置
JPH11272695A (ja) * 1998-03-20 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置及びその方法並びに情報記憶媒体
JP2001290801A (ja) * 2000-02-04 2001-10-19 Fujitsu Ltd 構造文書化システム,構造文書化プログラム,及び、コンピュータ可読格納媒体
JP2002269083A (ja) * 2001-03-09 2002-09-20 Ricoh Co Ltd 形態素解析システム
JP2002297603A (ja) * 2001-03-30 2002-10-11 Toshiba Corp 情報抽出方法および構造化文書管理装置およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
JPH09146931A (ja) * 1995-11-24 1997-06-06 Dainippon Screen Mfg Co Ltd 文書型定義生成装置
JPH11272695A (ja) * 1998-03-20 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置及びその方法並びに情報記憶媒体
JP2001290801A (ja) * 2000-02-04 2001-10-19 Fujitsu Ltd 構造文書化システム,構造文書化プログラム,及び、コンピュータ可読格納媒体
JP2002269083A (ja) * 2001-03-09 2002-09-20 Ricoh Co Ltd 形態素解析システム
JP2002297603A (ja) * 2001-03-30 2002-10-11 Toshiba Corp 情報抽出方法および構造化文書管理装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449492A (zh) * 2021-06-02 2021-09-28 杨旗 将后处理生成的word数据转换成结构化数据的方法及系统
CN113449492B (zh) * 2021-06-02 2024-04-19 杨旗 将后处理生成的word数据转换成结构化数据的方法及系统

Similar Documents

Publication Publication Date Title
JP5209235B2 (ja) ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること
Ide et al. The manually annotated sub-corpus: A community resource for and by the people
US8381095B1 (en) Automated document revision markup and change control
US20060236228A1 (en) Extensible markup language schemas for bibliographies and citations
US7143026B2 (en) Generating rules to convert HTML tables to prose
JP4775974B2 (ja) ウェブページを編集するプログラム、装置、及びシステム
Schmidt The role of markup in the digital humanities
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US20070150494A1 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
US20090083300A1 (en) Document processing device and document processing method
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
US20100169333A1 (en) Document processor
Xia et al. Enriching a massively multilingual database of interlinear glossed text
EP1830274A1 (en) Server device and name space issuing method
US20090287994A1 (en) Document processing device and document processing method
JP2010282327A (ja) フォーマット変換システムおよびフォーマット変換方法並びにプログラム
JPWO2006001392A1 (ja) 文書処理方法および装置
US20080005085A1 (en) Server Device and Search Method
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
JP2007257369A (ja) 情報検索装置
KR101251686B1 (ko) 표시 가능 파일의 필드 및 참조 문헌 및 인용문에 대한확장형 마크업 언어 스키마의 결정
JP2010217972A (ja) 構造化文書生成装置及び構造化文書生成プログラム
US20090083620A1 (en) Document processing device and document processing method
JP3898615B2 (ja) 短縮語作成支援装置および短縮語作成支援プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130319