JP2013206261A - 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム - Google Patents

構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム Download PDF

Info

Publication number
JP2013206261A
JP2013206261A JP2012076100A JP2012076100A JP2013206261A JP 2013206261 A JP2013206261 A JP 2013206261A JP 2012076100 A JP2012076100 A JP 2012076100A JP 2012076100 A JP2012076100 A JP 2012076100A JP 2013206261 A JP2013206261 A JP 2013206261A
Authority
JP
Japan
Prior art keywords
information
document
logical
unit
structured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012076100A
Other languages
English (en)
Inventor
Katsuhiko Nonomura
克彦 野々村
Masakazu Hattori
雅一 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012076100A priority Critical patent/JP2013206261A/ja
Publication of JP2013206261A publication Critical patent/JP2013206261A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】文書データを階層構造を有する構造化データへと、論理構造にエラーを生じさせることなく自動的に変換させることができる構造化データ生成装置を提供する。
【解決手段】構造化データ生成装置は、抽出部と、定義記憶部と、親子関係記憶部と、取得部と、検索部と、決定部と、生成部とを備える。抽出部は、文書データを解析して、文書情報と、文書情報に対応する体裁情報とを抽出する。取得部は、抽出された体裁情報に対応する論理情報を定義記憶部から取得する。検索部は、抽出された文書情報に対して文書データ内で1つ前に位置する文書情報が構造化データとして出力される際の論理構造を規定する出力論理情報を基準に、予め定められた親子関係の範囲内に含まれる1の論理情報を検索する。決定部は、検索部により検索された1の論理情報を出力論理情報として決定する。生成部は、文書情報と、決定された出力論理情報とを用いて構造化データを生成する。
【選択図】図1

Description

本発明の実施形態は、構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラムに関する。
従来、文書編集を行うソフトウェアには、文書情報の体裁を変更することができる体裁情報編集機能が設けられている。例えば、文書を見出しやリストなどの体裁へと変更することが可能である。また、こうした文書情報ごとに設定された体裁情報を、XMLなどの構造化データを記述する論理タグと対応付け、文書データを体裁の形式にしたがって、構造化データへと変化する技術が知られている。こうした技術の一例としては、体裁情報と論理タグとの対応関係を定義しておき、この定義に従って、体裁情報の変換が行われている。
特開平10−240723号公報
しかしながら、上述のように自動的に体裁情報を論理タグへと変換する方法を、文書データを階層化された構造化データへと変換する場合に適用すると、必ずしも体裁が同じだからといって、同じ論理タグを割り当てられるわけではない場合が存在する。例えば、「標準」のように、通常の文書情報を記述する体裁であって、「章」に続く文書情報なのか、「節」に続く文書情報なのかによって、体裁情報に対応する論理タグも異なってくる。こうした場合に、これらの異なる論理タグを区別して文書データを変換しないと、構造化データの論理構造にエラーが発生してしまうという問題が生じる可能性があった。
本発明は、上記に鑑みてなされたものであって、文書データを階層構造を有する構造化データへと、論理構造にエラーを生じさせることなく自動的に変換させることができる構造化データ生成装置を提供することにある。
上述した課題を解決し、目的を達成するために、本発明の実施形態の構造化データ生成装置は、抽出部と、定義記憶部と、親子関係記憶部と、取得部と、検索部と、決定部と、生成部とを備える。抽出部は、前記文書データを解析して、前記文書情報と、前記文書情報に対応する前記体裁情報とを抽出する。定期記憶部は、前記体裁情報と、前記文書情報の前記論理構造を規定する1以上の論理情報とを対応付けて記憶する。親子関係記憶部は、前記論理情報同士の親子関係を記憶する。取得部は、抽出された前記体裁情報に対応する前記論理情報を前記定義記憶部から取得する。検索部は、抽出された前記文書情報に対して前記文書データ内で1つ前に位置する前記文書情報が前記構造化データとして出力される際の論理構造を規定する出力論理情報として決定された前記論理情報を基準に、前記親子関係記憶部において予め定められた前記親子関係の範囲内に含まれる1の前記論理情報を検索する。決定部は、前記検索部により検索された1の前記論理情報を前記出力論理情報として決定する。生成部は、前記文書情報と、決定された前記出力論理情報とを用いて前記構造化データを生成する。
図1は、第1の実施形態の構造化データ生成装置の機能ブロック図である。 図2は、第1の実施形態の構造化データ生成装置のハードウェア構成図である。 図3は、第1の実施形態の文書編集装置のユーザインタフェースの一例である。 図4は、第1の実施形態の構造化データ生成にかかる処理の流れを示すフロー図である。 図5は、第1の実施形態の論理情報検索処理にかかる処理の流れを示すフロー図である。 図6は、第1の実施形態の出力論理情報補完処理にかかる処理の流れを示すフロー図である。 図7は、第1の実施形態の親子関係記憶部のデータ構造を示す図である。 図8は、第1の実施形態の親子関係記憶部のデータ構造をツリー状に示す図である。 図9は、第1の実施形態の定義記憶部のデータ構造を示す図である。 図10は、第1の実施形態において処理される文書データの一例を示す図である。 図11は、第1の実施形態において文書データから生成された構造化データの一例を示す図である。 図12は、第1の実施形態の親子関係記憶部における現在出力論理情報の位置を示す図である。 図13は、第1の実施形態において処理される文書データの一例を示す図である。 図14は、第1の実施形態の親子関係記憶部における現在出力論理情報の位置を示す図である。 図15は、第1の実施形態において処理される文書データの一例を示す図である。 図16は、第1の実施形態において文書データから生成された構造化データの一例を示す図である。 図17は、第1の実施形態において処理される文書データの一例を示す図である。 図18は、第1の実施形態において処理される文書データの一例を示す図である。 図19は、第1の実施形態において文書データから生成された構造化データの一例を示す図である。 図20は、第1の実施形態において処理される文書データの一例を示す図である。 図21は、第1の実施形態において処理される文書データの一例を示す図である。 図22は、第1の実施形態において文書データから生成された構造化データの一例を示す図である。 図23は、第1の実施形態の親子関係記憶部のデータ構造をツリー状に示す図である。 図24は、第1の実施形態の定義記憶部のデータ構造を示す図である。 図25は、第1の実施形態において処理される文書データの一例を示す図である。 図26は、第1の実施形態において処理される文書データの一例を示す図である。 図27は、第1の実施形態において文書データから生成された構造化データの一例を示す図である。 図28は、第2の実施形態の構造化データ生成装置、及び文書データ生成装置の機能ブロック図である。
以下に、本発明の実施形態にかかる構造化データ生成装置1の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
(第1の実施形態)
図1は、本発明の実施形態にかかる構造化データ生成装置1の機能ブロック図である。構造化データ生成装置1は、文書編集装置10によって作成、及び編集された文書データ20を入力データとし、XMLなどの論理タグによって記述された構造化データを生成して出力する。文書編集装置10は、例えばWord(登録商標)などの、文書編集用のプログラムにより実現される。なお、以下の説明において、文書情報とは、文書データを構成する段落単位の文書のまとまりを意味する。また、体裁情報とは、文書情報に対して設定された「見出し」や「標準」などの体裁を示す情報である。また、論理情報とは、「/book/chapter」などのように、階層構造で示すことができる論理タグを意味しており、この論理情報からは、<book>、及び<chpter>の開始論理タグと、</chapter>、及び</book>の終了論理タグとが、構造化データの生成時には生成される。
構造化データ生成装置1は、抽出部41、取得部42、検索部43、体裁変更部44、決定部45、生成部46、判定部48、及び補完部49を備えている。また、構造化データ生成装置1は、ROMである記憶装置50を備えており、記憶装置50には、定義記憶部51、親子関係記憶部52、及び設定記憶部53が設けられている。
図2は、構造化データ生成装置1のハードウェア構成を示している。図2に示されるように、構造化データ生成装置1はCPU101、ROM50、RAM61、及び通信I/F62がそれぞれバス61によって接続された構成をなっている。図1における、抽出部41、取得部42、検索部43、体裁変更部44、決定部45、生成部46、判定部48、及び補完部49はROM50にプログラムとして記憶されており、CPU101がRAM60上でプログラムを実行することでその機能が実現される。
抽出部41は、入力された文書データ20から文書情報と、体裁情報とを抽出する。抽出部41は、本実施形態においては、文書データの先頭から順に、段落単位で文書情報と体裁情報とを抽出する。図3は、文書編集装置10によって編集中の文書データ20の一例を示しており、図3においては、21a〜21lで示された文書情報がそれぞれ、抽出部41によって抽出される1単位の文書情報である。また、文書編集装置10においては、右側に表示される体裁情報22を選択して、文書情報21a〜21lごとに体裁情報を設定することができる。例えば、文書情報21cにおいては、「章タイトル」が選択されており、文書情報21gにおいては「節タイトル」が選択されている。
続いて、図1に戻り、取得部42は、抽出された体裁情報と対応する論理情報を定義記憶部51から取得する。定義記憶部51は、体裁情報毎に、対応する論理情報を記憶している。なお、それぞれの体裁情報に対応する論理情報は一つとは限らず複数存在する場合もある。例えば、体裁「標準」は、文書の通常の段落を示す体裁であるが、「章」における本文と、「節」における本文は、体裁としては同じ「標準」が設定される一方、論理情報としてはそれぞれ異なる論理情報のパスが割当られている。
検索部43は、取得部42が取得した論理情報を親子関係記憶部52の親子関係に基づき検索する。親子関係記憶部52は、論理情報同士の親子関係を記憶する。検索の方法としては、検索対象とする論理情報に対応した文書情報に対して、文書データ20内において1つ前に位置する文書情報の構造化データ30として出力される際の論理構造を規定する出力論理情報として選ばれた論理情報(以下、「現在出力論理情報」と示す)を基準として、予め定めた親子関係の範囲内を検索する。例えば、図3において、文書情報21dに対応する論理情報を検索する場合は、文書情報21cの出力論理情報として決定された論理情報を基準として検索が実行される。
また、検索部43は、予め設定された検索範囲の中で、検索を行う。例えば、検索範囲が1と設定されている場合は、現在出力論理情報を基準に、親子構造における兄弟関係にある論理情報を起点として下位側の論理情報までが検索範囲となる。また、検索範囲が2と設定されている場合は、現在出力論理情報を基準に、親に該当する論理情報と兄弟関係にある論理情報を起点として下位側の論理情報までが検索範囲となる。
また、検索部43は、現在出力論理情報に対応する体裁のタイプに応じて、検索範囲を変更することもできる。例えば、本実施形態においては、体裁が「リスト」のものと、「リスト」以外のものとで、検索範囲を変更する。「リスト」以外のものの場合は、上述のように現在出力論理情報を基準とした検索範囲となる。一方、「リスト」の場合は、リストの階層の深さであるリストレベルの値の差から検索対象範囲を決定する。
具体的には、現在出力論理情報に対応する体裁が「リスト」であって、リストレベルが1である場合、文書データ20において次に位置する文書情報が、1つ深い階層のリストの体裁であれば、この文書情報のリストレベルは2となる。この場合、現在出力論理情報と、検索対象となる体裁に対応した論理情報とのリストレベルの差は+1であるため、親子関係記憶部52において現在出力論理情報より一層分深い位置に対応するリスト形式の論理情報があるか否かが検索されることとなる。検索部43は、取得部42により取得した論理情報が検索できた場合は、検索結果を決定部45へと出力する。一方、検索部43は、取得した論理情報が検索しても見つからなかった場合は、その旨を体裁変更部44へと通知する。
体裁変更部44は、取得部42によって体裁情報に対応する論理情報が定義記憶部51から取得できなかった場合、又は検索部43によって取得された論理情報が検索できなかった場合に、該当する文書情報の体裁を変更する。どのような体裁に変更するかについては、後述する。
決定部45は、文書情報を構造化データとして出力する際に利用する出力論理情報にどの論理情報を用いるかを決定する。決定部45は、検索部43が検索した論理情報を出力論理情報として決定する。
判定部48は、出力論理情報として決定されたそれぞれの論理情報の間で予め定めた論理エラー基準に基づき、論理構造のエラーがないかを判定する。論理構造のエラーとは、例えば「章見出し」と「副節見出し」との間に「節見出し」がない等のように、論理構造としてあってはいけない態様を示している。論理エラー基準は、予め自由に設定することができる。本実施形態においては、論理エラー基準の一例として、前後の論理情報間の見出しレベルやリストレベルの差が+2以上、又は−2以下であるか否か、検索範囲が2以上の範囲で論理情報が検索されたか否かがあげられる。これらの場合、論理タグが不完全となり論理エラーを起こすため、判定部48が論理エラーと判定するようにする。
判定部48によって論理構造にエラーが存在すると判定された場合は、補完部49によって、正しい論理構造になるために必要な出力論理情報が補完される。この際、補完部49は論理情報だけではなく、仮の文書情報も補完して生成するようにすることもできる。
生成部46は、出力論理情報と、文書情報とから、論理タグによって記述された構造化データを生成する。例えば、上述した論理情報「/book/chapter」からは、<book>、及び<chpter>の開始論理タグと、</chapter>、及び</book>の終了論理タグとで文書情報を挟んだ構造化データが最終的には生成される。
設定記憶部53は、文書データを構造化データへ変換する際に用いられるデータを予め記憶している。例えば、上述した検索部43がどこまでの範囲を検索するかを示した最大検索範囲や、体裁変更部44がどの体裁に変更するかを決める設定、補完部49が仮の文書情報として補完する内容を決める設定などが設定記憶部53に記憶されている。
次に、図4を用い構造化データの生成にかかる処理の流れを説明する。処理は、例えば文書データを選択した状態で、利用者が構造化データへの変換を指示した場合などに開始される。まず始めに、初期化処理が実行される(ステップS101)。初期化処理では、現在出力論理情報Nrを未定義の状態に設定する。続いて、抽出部41は、文書データから文書情報と、体裁情報とをそれぞれ1つずつ抽出する(ステップS102)。続いて、取得部42は、抽出した体裁情報と対応する論理情報を取得するべく定義記憶部51へ問い合わせる(ステップS103)。次いで、対応する論理情報が定義記憶部51に存在するか否かの判定が行われる(ステップS104)。
論理情報が存在すると判定された場合(ステップS104:Yes)、次いで抽出された文書情報が文書データにおいて、1つ目の文書情報であるか否かの判定が行われる(ステップS105)。1つ目の文書情報でないと判定された場合(ステップS105:No)、論理情報検索処理が実行される(ステップS106)。1つ目の文書情報であると判定された場合(ステップS105:Yes)、決定部45は、取得された論理情報を出力論理情報として決定する(ステップS110)。
ステップS106の論理情報検索処理について、図5を用いて説明する。図5に示されるように、取得した論理情報のうち、j番目であることを示すパラメータjを初期化して1とする(ステップS201)。次いで、検索部43は取得された論理情報のうちj番目の値Ijを選択する(ステップS202)。次いで、検索部43は検索範囲iを初期化して1とする(ステップS203)。検索範囲iは出力論理情報Nrを基準として、親子関係記憶部52に記憶された親子関係のうち距離iの範囲が検索されることを示す値である。
次いで、検索部43は取得した論理情報Ijが、親子関係記憶部52の検索範囲iの範囲にあるか否かを判定する(ステップS204)。論理情報Ijが、親子関係記憶部52の検索範囲iの範囲にあると判定された場合(ステップS204:Yes)、決定部45は、その論理情報Ijを出力論理情報として決定し、ステップ107へと戻る(ステップS205)。一方、論理情報Ijが、親子関係記憶部52の検索範囲iの範囲にないと判定された場合(ステップS204:No)、検索範囲iが最大検索範囲であるか否かが判定される(ステップS206)。最大検索範囲とは、現在出力論理情報Nrを基準としてどこまでの範囲を検索するかを定めた最大の範囲である。
検索範囲iが最大検索範囲でないと判定された場合(ステップS206:No)、検索範囲iに1加算され、もう一つ広い検索範囲において、ステップS204から再度論理情報Ijが検索される(ステップS207)。一方、検索範囲iが最大検索範囲であると判定された場合(ステップS206:Yes)、取得部42によって取得された全ての論理情報について、検索が完了したかの判定が実行される(ステップS208)。
全ての論理情報について、検索が完了していないと判定された場合(ステップS208:No)、検索部43はjに1加算し、取得した論理情報のうち次の論理情報に対してステップS202からの処理を繰り返す(ステップS209)。一方、全ての論理情報について、検索が完了したと判定された場合(ステップS208:Yes)、すなわち取得した全ての論理情報が検索しても見つからなかった場合、検索対象の論理情報に対応する体裁を変更する旨設定し、ステップS107へと戻る(ステップS210)。
次いで、図4に戻り、体裁の変更が必要か否かが判定される(ステップS107)。体裁変更が必要か否かは、ステップS210における設定がなされたか否か、あるいは取得部42により論理情報が定義記憶部51から取得できたか否かによる。体裁の変更が必要でないと判定された場合(ステップS107:No)、判定部48は、出力する論理情報に論理エラーが存在し、補完が必要か否かを判定する(ステップS108)。補完が必要と判定された場合(ステップS108:Yes)、補完部49は出力論理情報補完処理を実施する(ステップS109)。一方、補完が必要ではないと判定された場合(ステップS108:No)、ステップS109の出力論理情報補完処理はスキップされ、ステップS111に移行する。
次いで、図6を用いて、出力論理情報補完処理の流れについて説明する。図6に示されるように、まず補完部49は新たに決定された出力論理情報と、文書データ20においてその前に位置する現在出力論理情報Nrとの間に挿入する開始論理タグ、および終了論理タグを生成する(ステップS301)。次いで、補完部49は、挿入する開始論理タグ、及び終了論理タグの間に仮の文書情報を生成し、ステップS111へと戻る(ステップS302)。仮の文書情報とは、利用者に対して新たに論理情報が挿入されたことを認知させるために予め設定された文書情報である。例えば、論理情報の種類ごとに予め設定しておくことができる。
次いで、生成部46は、一つ前に位置する出力論理情報の終了論理タグと、今回の処理で処理対象となっている文書情報と、決定された出力論理情報から導かれる開始論理タグと、をこの順番で生成する。(ステップS111)。次いで、現在出力論理情報Nrが今回決定された出力論理情報に変更される(ステップS112)。そして、全ての文書情報に対して、構造化データの出力が完了したか否かの判定が行われる(ステップS113)。全ての文書情報に対して、構造化データへの出力が完了したと判定された場合(ステップS113:Yes)、文書データの終了を示す終了論理タグが出力されて、処理は終了する。この時点で文書データの構造化データへの変換が完了する。一方、構造化データの出力が完了していないと判定された場合(ステップS113:No)、ステップS102から、次の文書情報と体裁情報との抽出が開始される。
また、体裁の変更が必要と判定された場合(ステップS107:Yes)、又は論理情報が存在しないと判定された場合(ステップS104:No)、体裁変更部44は体裁変更処理を実施する(ステップS115)。体裁変更処理においては、文書情報の体裁が予め設定された定義記憶部51に記憶済みの体裁へと変更される。
以上に示した構造化データ生成装置1において、実際の文書データを用いて変換の態様について説明する。図7は、論理情報の親子関係を記憶する親子関係記憶部52の一例を示している。例えば、「/book」という論理情報は、子として「/Chapter」を有することが定義されている。図8はこの親子関係の構造をツリーとして表示したものである。
図9は、定義記憶部51のデータ構造の一例を示した図である。図9に示されるように、定義記憶部51は、データとして、体裁名、体裁タイプ、見出しレベル、及び論理情報パスを備えている。体裁名とは、体裁の名称であり、文書編集装置10にて選択される体裁と同一の名称がつかわれており、「章タイトル」、「節タイトル」、「副節タイトル」、「標準」、「箇条書き」、及び「番号付きリスト」が図9の例では示されている。
体裁タイプとは、体裁の分類情報であり、「見出し」、「標準段落」、及び「リスト」の3種類に分類されている。見出しレベルとは、見出しの階層の深さを示すパラメータであり、論理構造のエラー判定の際に用いられる。すなわち、見出しレベルは構造化データ中では連続している必要があり、見出しレベルが「1」と「3」の見出しが連続することはできない。
論理情報パスは、それぞれの体裁に対応する論理情報の親子関係記憶部52におけるパスの位置が記されている。論理情報パスによって、体裁情報は、対応する論理情報が特定される。なお、1つの体裁情報に対して、複数の論理情報が対応付けられている場合もあり、例えば「標準」に対しては、「/book/chapter/para」、「/book/chapter/section/subsection/para」、及び「/book/chapter/section/para」の3つの論理情報のパスが設定されている。
図10は、ある文書データの一例を示した図であり、図11はこの文書データを構造化データへと変換した後の状態を示している。図10では、体裁「章タイトル」によって記述された「XMLについて」という文書情報60aと、体裁「標準」によって記述された「本節ではXMLについて説明する」という文書情報60bとからなる。この文書データから構造化データを生成する場合について説明する。
まず、文書情報60aは、取得部42により論理情報は「/book/chapter/title」の論理情報パスが1つのみ取得され、1つ目の文章情報であるため(ステップS105:Yes)、また前の文書情報との補完の必要性もない(ステップS108:No)。したがって、「/book/chapter/title」が出力論理情報として決定され(ステップS110)、図11に示されるように、</book>、<chapter>、及び<title>3つの開始論理タグが生成された後に、文書情報「XMLについて」が生成された状態となる。また、現在出力論理情報Nrに「/book/chapter/title」が設定される。
次いで、次の文書情報60bが抽出部41により抽出され、「/book/chapter/para」、「「/book/chapter/section/subsection/para」」、及び「「/book/chapter/section/para」の3つの論理情報パスが取得部42により取得される(ステップS102〜S104)。文書情報60bは、1つ目の文書情報ではないため(ステップS105:No)、検索部43は、現在出力論理情報Nrである「/book/chapter/title」を起点にそれぞれの取得した論理情報について検索を実施する(ステップS106)。
図12は、論理情報の親子関係において現在出力論理情報Nrを起点としたツリーを示している。そして、検索がされると、「/book/chapter/para」がヒットするため(ステップS204:Yes)、「/book/chapter/para」が文書情報60bの出力論理情報として決定される(ステップS205)。「/book/chapter/title」と、「/book/chapter/para」との間には論理エラーはないため(ステップS108:No)、図11に示されるように、1つ前の文書情報60aの終了論理タグ</title>、及び文書情報60bの開始論理タグ<para>と、文書情報60bの「本節はXMLにいついて説明する」が出力される。そして、全ての文書情報60a、及び60bについて出力が完了したため(ステップS113:Yes)、「/book/chapter/para」の出力論理情報から、文書の終了を示す終了タグとして、</para>、</chapter>、及び<//book>が順に出力されて処理が終了する(ステップS114)。
次いで別の文書データから構造化データを生成する例について図13〜図16を用いて説明する。この例においては、検索部43による検索の結果、該当する論理情報が見つからず、体裁が変更される処理が実施される場合について説明する。図13は、別の文書データの一例を示している。なお、この例においては、定義記憶部51、及び親子関係記憶部52の構成は、図7〜図9において示したものと同様のものである。
なお、文書情報の体裁を変更する方法としては、現在出力論理情報Nrに対応する体裁情報の体裁タイプがリストである場合は、検索対象の論理情報に対応する体裁はこの現在出力論理情報Nrに対応する別のリスト形式の体裁に変更される。また、現在出力論理情報Nrに対応する体裁情報の体裁タイプがリスト以外である場合は、検索対象の論理情報に対応する体裁は「標準」へと変更される。なお、変更の方法は、このような例でなくともよく、例えば全て「標準」に変更することもでき、構造化データの論理構造上エラーにならない態様であれば、変更の方法は適宜変更することができる。
図13に示されるように、この文書データは、体裁が「章タイトル」である「XMLについて」という文書情報70a、体裁が「箇条書き」の「箇条書き1」という文書情報70b、体裁が「番号付リスト」の「入れ子のリスト」という文書情報70c、及び体裁が「箇条書き」の「箇条書き2」という文書情報70dの4つの文書情報を含んでいる。文書情報70b、及び文書情報70dはリストレベルが1、番号付リストはリストレベルが2である。
検索部43による検索の結果、該当する論理情報が見つからないのは、文書情報70cに対する処理の部分であるため、この部分を中心に説明する。まず、文書情報70bに対する出力論理情報を決定する処理が完了した時点で、現在出力論理情報Nrは図14に示されるように、「/book/chapter/itemized list/ilitem/para」となっている。次の文書情報70cが抽出部41により抽出され、「/book/chapter/orderedlist/olitem/para」、「/book/chapter/orderedlist/olitem/orderedlist/olitem/para」の2つの論理情報パスが取得部42により取得される(ステップS102〜S104)。1つ目の文書情報ではないため(ステップS105:No)、検索部43は、現在出力論理情報Nrである「book/chapter/itemized list/ilitem/para」を起点にそれぞれの取得した論理情報について検索を実施する(ステップS106)。
そして、検索がされると、文書情報70bと、文書情報70cそれぞれの体裁におけるリストレベルの差である+1の範囲、すなわち現在出力論理情報のパスである「/book/chapter/itemized list/ilitem/para」より一つ深い階層である「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」と、取得された2つの論理情報パスが一致しないため(ステップS204:No)、体裁変更がされる旨設定される(ステップS210)。そして、体裁変更が必要と判定されて(ステップS107:Yes)、体裁変更処理が実施される(ステップS115)。図15に示されるように、体裁変更は上述したとおり、現在出力論理情報Nrに対応する体裁の体裁タイプが「リスト」であることから、体裁は「箇条書き」の体裁に変更される。
次いで、変更された体裁に対して論理情報を取得する処理が繰り返され、「/book/chapter/itemized list/ilitem/para」、及び「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」の2つの論理情報パスが取得部42により取得される(ステップS102〜S104)。1つ目の文書情報ではないため(ステップS105:No)、検索部43は、現在出力論理情報Nrである「/book/chapter/itemized list/ilitem/para」を起点にそれぞれの取得した論理情報について検索を実施する(ステップS106)。
この場合、取得された「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」の論理情報パスが、現在出力論理情報Nrに比べて1つ深い階層のパスであることから、検索部43による検索の結果、「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」がヒットするため(ステップS204:Yes)、「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」が文書情報70cの出力論理情報として決定される(ステップS205)。
次いで、現在出力論理情報Nrと、決定された論理情報「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」との間で論理エラーはないため(ステップS108:No)、構造化データ出力に必要となる終了論理タグと開始論理タグとが出力される(ステップS111)。終了論理タグは、図16に示されるように、「箇条書き1」に続く</para>であり、開始タグ列は<itemized list><ilitem><para>の3つである。そして、文書情報「入れ子のリスト」が出力される。
次いで、現在出力論理情報Nrが「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」に変更される(ステップS112)。まだ、全ての文書情報について構造化データへの変換へと出力完了していないため(ステップS113:No)、次の文書情報である70cの「箇条書き2」についての処理がステップS102から繰り返される。
次の文書情報70dが抽出部41により抽出され、体裁が「箇条書き」に該当する「/book/chapter/itemized list/ilitem/para」、「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」の2つの論理情報パスが取得部42により取得される(ステップS102〜S104)。1つ目の文書情報ではないため(ステップS105:No)、検索部43は、現在出力論理情報Nrである/book/chapter/itemized list/ilitem/itemized list/ilitem/para」を起点にそれぞれの取得した論理情報について検索を実施する(ステップS106)。
文書情報70dのリストレベルは1であり、文書情報70cのリストレベルは2であることから、文書情報70dにおけるリストレベルの差は−1である。したがって、現在出力論理情報Nrである「/book/chapter/itemized list/ilitem/itemized list/ilitem/para」を基準に、一つ浅い階層の検索を行うと、「/book/chapter/itemized list/ilitem/para」がヒットするため、(ステップS204:Yes)、「/book/chapter/itemized list/ilitem/para」が文書情報70dの出力論理情報として決定される(ステップS205)。
次いで、現在出力論理情報Nrと、決定された論理情報「/book/chapter/itemized list/ilitem/para」との間で論理エラーはないため(ステップS108:No)、構造化データ出力に必要となる終了論理タグと開始論理タグとが出力される(ステップS111)。終了論理タグは、図16に示されるように、「入れ子のリスト」に続く</para>、</ilitem>、</itemized list>、及び</ilitem>であり、開始タグ列は<ilitem>、及び<para>の2つである。そして、文書情報「箇条書き2」が出力される。そして、全ての文書情報70a〜70dについて出力が完了したため(ステップS113:Yes)、「/book/chapter/itemized list/ilitem/para」の現在出力論理情報Nrから、文書の終了を示す終了タグとして、</para>、</ilitem>、</itemized list>、</chapter>、及び<//book>が順に出力されて処理が終了する(ステップS114)。
次いで、別の文書データから構造化データを生成する例について図17〜図19を用いて説明する。この例においては、図17に示されるように、「章タイトル」の見出しと、「副節タイトル」との間に「節タイトル」がないため、論理構造上のエラーが存在している。本例では、「章タイトル」の見出しと、「副節タイトル」との間に「節タイトル」を補完することで、論理構造として正しい状態に修正する処理の流れについて説明する。なお、詳細な説明は省略するが、上述の方法で「副節タイトル」の体裁を「節タイトル」に変更するようにして論理エラーを解消することも可能である。
図17に示されるように、この文書データは、体裁が「章タイトル」である「XMLについて」という文書情報80a、体裁が「標準」の「本節ではXMLについて説明する」という文書情報80b、体裁が「副節タイトル」の「これまでの経緯」という文書情報80c、及び体裁が「標準」の「これまでの経緯について説明する」という文書情報80dの4つの文書情報を含んでいる。文書情報80aの見出しレベルは1、文書情報80cの見出しレベルは3である。
まず、文書情報80bに対する出力論理情報を決定する処理が完了した時点で、現在出力論理情報Nrは「/book/chapter/para」となっている。次の文書情報80cが抽出部41により抽出され、「/book/chapter/section/subsection/title」の論理情報パスが取得部42により取得される(ステップS102〜S104)。1つ目の文書情報ではないため(ステップS105:Yes)、論理情報検索処理が実施される(ステップS106)。論理情報パス「/book/chapter/section/subsection/title」は、現在出力論理情報Nrは「/book/chapter/para」を基準とすると、兄弟の階層に位置する現在出力論理情報Nrの下位に位置するため、検索の結果ヒットする(ステップS204:Yes)。したがって、この論理情報パス「/book/chapter/section/subsection/title」は、出力論理情報として決定される(ステップS205)。ここで、文書情報80aと文書情報80cとの見出しレベルの差が+2であり、論理エラーとなり、補完が必要と判定される(ステップS108:Yes)。
現在出力論理情報Nrのパスは「/book/chapter/para」であり、対象となっている論理情報のパスは、「/book/chapter/section/subsection/title」であるため、共通するパスである「/book/chapter/」がこの2つのパスの分岐点となる。そして、分岐点から現在対象となっている「/book/chapter/section」が親子関係記憶部52に存在しているが、このパスに更に一つの論理タグを追加したパス「/book/chapter/section/title」が、「節タイトル」の体裁情報に対応する論理情報として存在しているため、この論理情報が補完される。
そして、図18に示されるように、この「節タイトル」の論理情報に該当する論理タグとして、終了論理タグの</para>と、開始論理タグの<section>、<title>が挿入される(ステップS301)。次いで、この「節タイトル」に対応する仮の文書として予め設定された「節タイトルを入力してください」という文章が挿入される(ステップS302)。
そして、ステップS111へと戻り、文書情報80cの論理情報として、終了論理タグの</title>と、開始論理タグの<subsection>、及び<title>と、文書情報として「これまでの経緯について説明する。」を順に出力する。
次いで別の文書データから構造化データを生成する例について図20〜図22を用いて説明する。この例においては、図20に示されるように、この文書データは、体裁が「章タイトル」である「XMLについて」という文書情報90a、体裁が「段落」の「本節ではXMLについて説明する」という文書情報90bの2つの文書情報を含んでいる。この場合、定義記憶部51に記憶されていない、「段落」という体裁が含まれている。
まず、文書情報90aに対する出力論理情報を決定する処理が完了した時点で、現在出力論理情報Nrは「/book/chapter/title」となっている。次の文書情報90bが抽出部41により抽出され、「段落」に対応する論理情報が取得部42により参照されるが、定義記憶部51には存在しないため(ステップS104:No)、体裁情報変更処理が行われる(ステップS115)。
この例の場合、図21に示されるように「段落」の体裁は「標準」の体裁に変更される。以降は、図10〜図12の例で示した場合と同じ処理の流れとなり、最終的には図22で示した構造化データが得られる。
次に、図23〜図27の例を用い、検索範囲として2つ以上先祖まで検索範囲を拡大した例について説明する。この例においては、定義記憶部51、及び親子関係記憶部52に記憶されたデータ構造もこれまで説明した例とは異なっている。図23は、親子関係記憶部52に記憶された論理情報の親子関係を示している。また、図24は、定義記憶部51に記憶された体裁情報のデータ構造を示している。図24に示されるように、新たに体裁情報として「参考文献タイトル」、「付録タイトル」、「タスクタイトル」、「参考文献」、及び「操作」が定義されている。
図25に示されるように、この文書データは、体裁が「章タイトル」である「XMLについて」という文書情報100a、体裁が「標準」の「本節ではXMLについて説明する」という文書情報100b、体裁が「参考文献」の「参考文献1」という文書情報100c、及び体裁が「参考文献」の「参考文献2」という文書情報100dの4つの文書情報を含んでいる。
この例において、3番目の文書情報100cである「参考文献1」と、体裁情報「参考文献」が抽出部41により抽出されたところから説明する。なお、文書情報100bに対する出力論理情報を決定する処理が完了した時点で、現在出力論理情報Nrは「/book/chapter/para」となっている。まず、取得部42により「/book/reference/refentrylist/refentry/para」の論理情報パスが取得される(ステップS102〜S104)。この論理情報「/book/reference/refentrylist/refentry/para」について、論理情報検索処理が実施されると、検索範囲i=1として設定された場合、「/book/chapter/titie」、及び「/book/chapter/itemized list」以下の範囲が検索範囲となることから、検索にはヒットしない(ステップS204:No)。そして、最大検索範囲が2として設定されているため(ステップS206:No)、iが1加算され(ステップS207)、新たに検索が実施される。
検索範囲が2の場合においては、「/book/reference」以下の範囲が検索範囲となることから、論理情報「/book/reference/refentrylist/refentry/para」もヒットする(ステップS204:Yes)。そして、論理情報「/book/reference/refentrylist/refentry/para」が出力論理情報として決定される(ステップS205)。
次いで、論理エラー基準に基づき、補完が必要か否かの判定においては、検索範囲が2以上の領域で検索されたものであるため、このままでは論理エラーが発生することから(ステップS108:Yes)、出力論理情報補完処理が実施される。
挿入する終了論理タグ、及び開始論理タグを決定する方法は、図17で示した方法と同様であるため、説明は省略する。結果としては、図26に示されるように、体裁が「参考文献タイトル」である「参考文献一覧」という文書情報が補完部49により、生成される。図27は最終的に出力される構造化データを示している。
なお、検索範囲を拡大するか否かを、検索対象の論理情報によって決めることもできる。具体的には、定義記憶部51に記憶されるデータとして、新たに「拡大フラグ」を設定し、拡大フラグで検索範囲を許可しないフラグを設定した論理情報パスの場合は、ステップS206の判定でiが最大検索範囲となっていなくとも、強制的に判定結果をNoとするような処理を行うことにより、この構成は実現することができる。
以上に示した本実施形態の構造化データ生成装置1においては、体裁情報に対応する論理情報が複数存在する場合であっても、現在出力論理情報を基準として、検索可能な論理情報を、実際に構造化データとして出力する出力論理情報として決定することとしたため、利用者の手を煩わすことなく、文書データを構造化データへと自動的に変換することができるようになる。
また、文書データから抽出される文書情報と、体裁情報とに対応する論理情報が、論理構造として好ましくないものの場合に、体裁情報を適切なものに変換したり、新たな論理情報を挿入したりすることにより、自動的に正しい構造化データが生成されるようになる。
また、体裁情報を変更する際に、体裁情報のタイプによって、その変更の態様を変更できるようにすることで、よりフレキシブルで、精度の高い体裁の変更をすることができるようになる。
(第2の実施形態)
次に第2の実施形態にかかるデータ処理装置について説明する。図28は、第2の実施形態におけるデータ処理装置1000を示している。データ処理装置1000は、第1の実施形態で示した構造化データ生成装置1に加え、文書データ生成装置200が新たに設けられている。文書データ生成装置200は、構造化データ30から文書データ20を生成する装置である。
文書データ生成装置200は、文書抽出部201、体裁選択部202、及び文書生成部203を備えている。文書抽出部201は、構造化データ30から論理情報と、文書情報とを抽出する。体裁選択部202は、抽出された論理情報と文書情報との組み合わせごとに、定義記憶部51を参照して、論理情報から文書情報に対応する体裁情報を選択する。文書生成部203は、体裁情報に基づき、文書情報の表示態様を決定して、文書データを生成する。
このような文書データ生成装置200を設けることで、構造化データ30から文書データ20への変換もできるようになる。文書データ生成装置200と構造化データ生成装置1とを両方備えることで、構造化データから文書データへと再変換した内容をチェックしつつ、より望むべく構造化データの形式へと近づけることができるようになる。
以上の各実施形態において述べた構成は以下のように変更することもできる。
例えば、体裁情報の変更や、論理情報の保管があった場合には、利用者にその旨を通知して、どういう変更があったかの確認を促すような通知部を備えた構成をとることもできる。その場合、文書編集装置10上の表示画面にその旨を表示するといった構成で実現可能である。
また、記憶装置50は構造化データ生成装置1と同じハードウェア上に設ける構成を示したが、別のハードウェアに設け、文書データ生成装置200とデータを共有するようにしてもよい。また、構造化データ生成装置1、及び文書データ生成装置200のそれぞれの別の記憶装置を設けるようにしてもよい。
また、論理エラーの基準は適宜変更することができ、またエラー判定は構造化データの生成時には実施せず、生成後の構造化データを手動で論理エラーのチェックをするようにしてもよい。
また、体裁変更部や補完部は設けなくてもよく、文書データの体裁情報を論理エラーが発生しないように記載していれば、この場合でも文書データを適切に構造化データへと変換することができる。
また、本実施形態にかかる構造化データ生成装置1で実行される各プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供されてもよい。
また、本実施形態にかかる構造化データ生成装置1で実行される各プログラを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる構造化データ生成装置1で実行される各プログラをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、本実施形態にかかる構造化データ生成装置1で実行される各プログラを、ROM等に予め組み込んで提供するように構成してもよい。
本発明の実施形態を説明したが、実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 構造化データ生成装置
10 文書編集装置
20 文書データ
30 構造化データ
41 抽出部
42 取得部
43 検索部
44 体裁変更部
45 決定部
46 生成部
48 判定部
49 補完部
50 記憶装置
51 定義記憶部
52 親子関係記憶部
53 設定記憶部
61 バス
62 通信I/F
200 文書データ生成装置
201 文書抽出部
202 体裁選択部
203 文書生成部
1000 データ処理装置

Claims (9)

  1. 文書情報と、及び前記文書情報の体裁を規定する体裁情報と、を含む文書データから親子関係に階層化された論理構造をもつ構造化データを生成する構造化データ生成装置にあって、
    前記文書データを解析して、前記文書情報と、前記文書情報に対応する前記体裁情報とを抽出する抽出部と、
    前記体裁情報と、前記文書情報の前記論理構造を規定する1以上の論理情報とを対応付けて記憶する定義記憶部と、
    前記論理情報同士の親子関係を記憶する親子関係記憶部と、
    抽出された前記体裁情報に対応する前記論理情報を前記定義記憶部から取得する取得部と、
    抽出された前記文書情報に対して前記文書データ内で1つ前に位置する前記文書情報が前記構造化データとして出力される際の論理構造を規定する出力論理情報として決定された前記論理情報を基準に、前記親子関係記憶部において予め定められた前記親子関係の範囲内に含まれる1の前記論理情報を検索する検索部と、
    前記検索部により検索された1の前記論理情報を前記出力論理情報として決定する決定部と、
    前記文書情報と、決定された前記出力論理情報とを用いて前記構造化データを生成する生成部と、
    を備えることを特徴とする構造化データ生成装置。
  2. 前記取得部によって、前記体裁情報と対応する前記論理情報が取得できなかった場合、または前記検索部によって、前記論理情報が検索できなかった場合に、前記体裁情報を、前記定義記憶部において対応する前記論理情報が定義された別の前記体裁情報へと変更する変更部と、
    を更に備え、
    前記取得部は、変更後の前記体裁情報に基づき、前記定義記憶部から対応する前記論理情報を取得する
    ことを特徴とする請求項1に記載の構造化データ生成装置。
  3. 前記定義記憶部には、前記体裁情報と対応付けられて前記体裁情報の分類情報が記憶されており、
    前記変更部は、前記体裁情報を同一の前記分類情報と対応付けられた別の前記体裁情報に変更する、
    ことを特徴とする請求項2に記載の構造化データ生成装置。
  4. 前記検索部は、抽出された前記文書情報に対して前記文書データ内で1つ前に位置する前記文書情報が前記構造化データとして出力される際の論理構造を規定する出力論理情報として決定された前記論理情報と、前記親子関係記憶部において同じ親を有する前記論理情報を起点にその子の階層の範囲を検索する
    ことを特徴とする請求項1に記載の構造化データ生成装置。
  5. 検索された前記論理情報の論理構造が正しいか否かを、予め定めた論理エラー判定基準に基づき判定する判定部と、
    前記論理構造が正しくないと判定された場合、前記親子関係記憶部に従い、前記検索部により検索された前記論理情報と、抽出された前記文書情報に対して前記文書データ内で1つ前に位置する前記文書情報の前記出力論理情報と、の間に必要な他の前記論理情報を、前記論理情報毎に予め定められた仮文書情報とともに前記構造化データとして生成する補完部と、
    を更に備えることを特徴とする請求項1に記載の構造化データ生成装置。
  6. 前記体裁変更部が前記体裁を変更した場合に、利用者に対して変更通知を行なう通知部を、
    更に備えることを特徴とする請求項2に記載の構造化データ生成装置。
  7. 構造化データ生成装置、及び文書データ生成装置からなるデータ処理装置にあって、
    前記構造化データ生成装置は、
    文書情報と、及び前記文書情報の体裁を規定する体裁情報と、を含む文書データから親子関係に階層化された論理構造をもつ構造化データを生成する構造化データ生成装置であり、
    前記文書データを解析して、前記文書情報と、前記文書情報に対応する前記体裁情報とを抽出する抽出部と、
    前記体裁情報と、前記文書情報の前記論理構造を規定する1以上の論理情報とを対応付けて記憶する定義記憶部と、
    前記論理情報同士の親子関係を記憶する親子関係記憶部と、
    抽出された前記体裁情報に対応する前記論理情報を前記定義記憶部から取得する取得部と、
    抽出された前記文書情報に対して前記文書データ内で1つ前に位置する前記文書情報が前記構造化データとして出力される際の論理構造を規定する出力論理情報として決定された前記論理情報を基準に、前記親子関係記憶部において予め定められた前記親子関係の範囲内に含まれる1の前記論理情報を検索する検索部と、
    前記検索部により検索された1の前記論理情報を前記出力論理情報として決定する決定部と、
    前記文書情報と、決定された前記出力論理情報とを用いて前記構造化データを生成する生成部と、
    を備え、
    前記文書データ生成装置は、
    前記構造化データを解析して、前記論理情報と前記文書情報との組み合わせを抽出する文書抽出部と、
    抽出された前記論理情報と対応する前記体裁情報を前記定義記憶部から選択する体裁選択部と、
    選択された前記体裁情報に基づいて前記文書情報を出力する文書生成部と、
    を備えることを特徴とするデータ処理装置。
  8. 文書情報と、及び前記文書情報の体裁を規定する体裁情報と、を含む文書データから親子関係に階層化された論理構造をもつ構造化データを生成する構造化データ生成方法にあって、
    前記文書データを解析して、前記文書情報と、前記文書情報に対応する前記体裁情報とを抽出する抽出ステップと、
    抽出された前記体裁情報に対応する前記論理情報を前記体裁情報と、前記文書情報の前記論理構造を規定する1以上の論理情報とを対応付けて記憶する定義記憶部から取得する取得ステップと、
    抽出された前記文書情報に対して前記文書データ内で1つ前に位置する前記文書情報が前記構造化データとして出力される際の論理構造を規定する出力論理情報として決定された前記論理情報を基準に、前記論理情報同士の親子関係を記憶する親子関係記憶部において予め定められた前記親子関係の範囲内に含まれる1の前記論理情報を検索する検索ステップと、
    前記検索部により検索された1の前記論理情報を前記出力論理情報として決定する決定ステップと、
    前記文書情報と、決定された前記出力論理情報とを用いて前記構造化データを生成する生成ステップと、
    を含むことを特徴とする構造化データ生成方法。
  9. 文書情報、及び前記文書情報の体裁を規定する体裁情報を含む文書データから親子関係に階層化された論理構造をもつ構造化データを生成する構造化データ生成プログラムにあって、
    コンピュータに、
    前記文書データを解析して、前記文書情報と、前記文書情報に対応する前記体裁情報とを抽出する抽出ステップと、
    抽出された前記体裁情報に対応する前記論理情報を前記体裁情報と、前記文書情報の前記論理構造を規定する1以上の論理情報とを対応付けて記憶する定義記憶部から取得する取得ステップと、
    抽出された前記文書情報に対して前記文書データ内で1つ前に位置する前記文書情報が前記構造化データとして出力される際の論理構造を規定する出力論理情報として決定された前記論理情報を基準に、前記論理情報同士の親子関係を記憶する親子関係記憶部において予め定められた前記親子関係の範囲内に含まれる1の前記論理情報を検索する検索ステップと、
    前記検索部により検索された1の前記論理情報を前記出力論理情報として決定する決定ステップと、
    前記文書情報と、決定された前記出力論理情報とを用いて前記構造化データを生成する生成ステップと、
    を実行させるための構造化データ生成プログラム。
JP2012076100A 2012-03-29 2012-03-29 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム Pending JP2013206261A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012076100A JP2013206261A (ja) 2012-03-29 2012-03-29 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012076100A JP2013206261A (ja) 2012-03-29 2012-03-29 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム

Publications (1)

Publication Number Publication Date
JP2013206261A true JP2013206261A (ja) 2013-10-07

Family

ID=49525244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012076100A Pending JP2013206261A (ja) 2012-03-29 2012-03-29 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム

Country Status (1)

Country Link
JP (1) JP2013206261A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092280A (ja) * 2016-11-30 2018-06-14 ソフトバンク株式会社 制御プログラム、制御方法及びコンピュータ
JP2018092277A (ja) * 2016-11-30 2018-06-14 ソフトバンク株式会社 制御プログラム、制御方法及びコンピュータ

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793329A (ja) * 1993-09-27 1995-04-07 Toshiba Corp 文書作成装置及び文書の割り付け方法
JPH10240723A (ja) * 1997-02-28 1998-09-11 Hitachi Ltd ワードプロセッサにおけるsgml文書変換方法
JP2001243219A (ja) * 1999-12-22 2001-09-07 Canon Inc 不完全な形式のhtml文書の記述構造
JP2004038496A (ja) * 2002-07-02 2004-02-05 Hitachi Software Eng Co Ltd Xml文書作成システム
JP2007164705A (ja) * 2005-12-16 2007-06-28 S Ten Nine Kyoto:Kk 電子化文書の変換方法及びプログラム
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793329A (ja) * 1993-09-27 1995-04-07 Toshiba Corp 文書作成装置及び文書の割り付け方法
JPH10240723A (ja) * 1997-02-28 1998-09-11 Hitachi Ltd ワードプロセッサにおけるsgml文書変換方法
JP2001243219A (ja) * 1999-12-22 2001-09-07 Canon Inc 不完全な形式のhtml文書の記述構造
JP2004038496A (ja) * 2002-07-02 2004-02-05 Hitachi Software Eng Co Ltd Xml文書作成システム
JP2007164705A (ja) * 2005-12-16 2007-06-28 S Ten Nine Kyoto:Kk 電子化文書の変換方法及びプログラム
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092280A (ja) * 2016-11-30 2018-06-14 ソフトバンク株式会社 制御プログラム、制御方法及びコンピュータ
JP2018092277A (ja) * 2016-11-30 2018-06-14 ソフトバンク株式会社 制御プログラム、制御方法及びコンピュータ

Similar Documents

Publication Publication Date Title
US8977606B2 (en) Method and apparatus for generating extended page snippet of search result
US20150067476A1 (en) Title and body extraction from web page
JP5820320B2 (ja) 情報処理端末及び方法、並びに、情報管理装置及び方法
US20160041951A1 (en) Corpus generation device, corpus generation method and corpus generation program
JP5426710B2 (ja) 検索支援装置、検索支援方法およびプログラム
JP2016099741A (ja) 情報抽出支援装置、方法およびプログラム
CN111144070B (zh) 一种文档解析翻译方法和装置
JP2013206261A (ja) 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム
US10929446B2 (en) Document search apparatus and method
JP2010250449A (ja) 情報処理装置、情報処理方法
CN109923538B (zh) 文本检索装置、文本检索方法以及计算机程序
CN107145947B (zh) 一种信息处理方法、装置及电子设备
CN106648618B (zh) 虚拟应用的文本信息生成方法和装置
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
CN111401005B (zh) 文本转换方法、装置及可读存储介质
JP6753190B2 (ja) 文書検索装置及びプログラム
JP5803481B2 (ja) 情報処理装置及び情報処理プログラム
JP5379416B2 (ja) 言語処理装置および言語処理方法
JP2010140262A (ja) 語句入力支援装置及びプログラム
JP5578623B2 (ja) 文書添削装置、文書添削方法及び文書添削プログラム
JP6523998B2 (ja) 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法
JP2007179505A (ja) 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体
JP5413990B2 (ja) マニュアル作成情報管理装置、方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140909