JP4656868B2 - 構造化文書作成装置 - Google Patents

構造化文書作成装置 Download PDF

Info

Publication number
JP4656868B2
JP4656868B2 JP2004185900A JP2004185900A JP4656868B2 JP 4656868 B2 JP4656868 B2 JP 4656868B2 JP 2004185900 A JP2004185900 A JP 2004185900A JP 2004185900 A JP2004185900 A JP 2004185900A JP 4656868 B2 JP4656868 B2 JP 4656868B2
Authority
JP
Japan
Prior art keywords
tag
document
pattern
candidate
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004185900A
Other languages
English (en)
Other versions
JP2005018780A (ja
Inventor
チドロフスキー ボリス
ドゥジャン エルヴェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2005018780A publication Critical patent/JP2005018780A/ja
Application granted granted Critical
Publication of JP4656868B2 publication Critical patent/JP4656868B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書を生成するシステム及び方法に関し、より具体的には、基準文書を構造化文書に変換するためのシステム及び方法に関する。また、本発明は、構造化文書のオーサリング中において、構造及びコンテンツを予想するためのシステム及び方法にも関する。
多くのシステムやデータベースには、データが互換性のない形式で保存されている。開発者が最も多くの時間を費やす課題のひとつに、インターネット上で行う互換性のないシステム間でのデータのやりとりがある。XMLが、互換性のないシステム間でのデータの交換を可能にしている。データをXML形式に変換することにより、この複雑性が大幅に緩和し、多数の異なるアプリケーションで読み込めるデータを作成することができる。このため、XMLは、ITアプリケーション及びシステムにおいて情報交換をするための標準的な形式となっている。しかし、XML形式で利用可能な又はXML形式で生成された文書の数は、他の形式の文書と比べると、依然としてかなり少ない。第1に、大抵の場合、文書を他の形式からXML形式に変換することは難しく、時間もかかる。第2に、XML文書がとりわけ冗長的で非常に長いために、新たなXML文書の作成処理には時間を要する。XML文書を作成するには、文書型定義、すなわち、DTD(DTDはXML文書の法的要素及び構造を定義する)に基づき、文書内容(テキスト・データ)を意味タグや意味属性によって永続的に綴じ込んで置く必要があり、多くの場合その生成作業は退屈でエラーを起こしやすいものである。
便利な様々なXML編集ソフトの出現は、支援要素/属性のメニュー方式選択を有する新型グラフィック・インターフェースと、全ファイル又はその断片を有効にして文書生成を対応するDTDに一致させる可能性とを提供することにより、設計者が文書生成の間接費を部分的に減少させるのを支援する。DTDは文書の有効性確認には非常に役立つものであるが、文書の編集中又は作成中にはほとんど役立たない。その主な理由は、妥当なXML文書が作成される前に、人間によりほとんどのDTDが設計されるからである。その結果、多数のDTDはエラーを含むか又は範囲が広すぎてしまうことになる。つまり、DTDはあいまい性を、実際の文書において見られるものよりも遙かに高いものとしている。その上、DTDでツリー状パターンを提案することは、単純に不可能である。それは、ほとんどの要素定義が無限数のセットの可能要素内容を表す正規表現である一方で、文書オーサリングは要素定義に関する一連の実証であるからである。必要なのは、ある形式の文書をXML文書等の構造化文書に簡単に変換する方法である。
なお、関連する文献を下記に示す。
ハーブ デジーン 「XMLを用いた統語論構造の学習」(CoNLL-200会報、リスボン、ポルトガル、2000年第133-135頁)(HERVE DEJEAN, "learning Syntactic Structures with XML", in Proceedings of CoNLL-2000, Lisbon, Portugal, 2000,p.133-135) ハーブ デジーン 「ルールとルールの例外の学習」(マシーン・ラーニング・リサーチ ジャーナル2002年2(Mar)第669-6935頁)(HERVE DEJEAN, "learning Rules and their Exceptions", Journal of Machine Learning Research, 20002, 2(Mar):p.133-135)
しっかりと構造化された文書の必要性は、新たなソフトウェア・アプリケーション(意味ウェブ等)や新たな規格SGML,XML等の開発に伴って高まる。二つのコンポーネント、つまり、内容部分と(ツリー状)構造部分との二つで構成されたものとして、構造化文書を見ることができる。オーサリング・アシスタントが進展し、特に作者の文書への構造的マーク付けを支援するために、XML文書検査用DTD又はXMLスキーマ・チェッカが最も広く使用されている。また、タグ付け/構文解析技法を用いて半自動的にテキスト・コンポーネントのタグ付けを可能にするツールもある。多くの構造化文書では、文書全体にわたっていろいろな箇所で同じ内容コンポーネントが繰り返される。必要なのは、文書オーサリングの間、繰り返される構造コンポーネント及び内容コンポーネントの両方を予測する方法である。
本発明の実施の形態による、対の階層入れ子タグでくるまれた(かこまれた)複数の内容要素を含む構造化文書を作成する方法は、特定のタイプの内容を含む文書を複数の内容要素に構文解析するステップと、選択した内容要素に対して、タグ提案手順にしたがって最適タグを提案するステップとから構成される。このタグ提案手順は、構造化されたサンプル文書の形態でサンプルデータを提供するステップと、このタグ提案の1セットを抽出するためにサンプルデータ内のパターンを分析するステップと、タグ提案のセットから、選択した内容要素のための候補タグのセットを抽出するステップと、タグ提案基準に基づいて候補タグの1セットを評価し、選択した内容要素のための最適タグを判断するステップとから構成される。この最適タグは単一のタグ又は複数のタグのパターンでよく、サンプルデータ内に見つかったパターンで類似関数を最大にする。
上記方法は、XML文書をオーサリングするための構造アドバイザ・コンポーネントとして用いることもできる。タグ提案手順は、既存の構造化文書の形態でサンプルデータを使うことができる。即ち、このタグ提案手順は、オーサリング中の文書の先行部分を使うことができる。上記方法は利用可能なサンプルデータを分析することにより、ユーザが次に利用する最も可能性の高いタグとツリーパターンとを提案する。サンプルデータを分析し、提案候補を判定し、オーサリング中の文書内の任意の位置の最適提案を評価するアーキテクチャと方法とを提供する。
XML形式は事実上構造化文書の業界標準化して以来、IT研究やIT産業は、多数の商業用XMLエディタ(XML Spy、Xeena,ElfData,Morphone等)及び個人向けXMLエディタを開発し、XML形式で構造化文書を作成するユーザを支援してきた。構造化文書生成のためのシステムと方法は、文書編集/オーサリングプロセスの間介入して、ユーザが次に一番使いそうなひとつのタグ又はツリー状XMLパターン全体を提案する。アドバイザ提案は、現在編集中のフラグメントとサンプルデータとの類似点の発見に基づいており、サンプルデータとは以前に生成した文書の集まり又は編集している現在の文書の歴史のいずれかである。構造アドバイザが有益となるのは、例えば、XML文書のためのDTDがない場合、文書に対応付けしたDTDがあいまい又は一般的過ぎるかする場合、及び、サンプルデータがDTDに取り込まれていない特別なパターンを含んでいる場合である。最適な提案を探す方法は、新しい構造化文書を生成するプロセス、又は、非構造化形式の文書を構造化文書に変換するプロセスの任意のステップで用いてよい。
本発明の別の特徴によれば、構造化文書をオーサリングする方法において、この構造化文書は対の階層入れ子タグでくるまれた(かこまれた)複数の内容要素からなり、この方法は、対のタグでくるまれた内容要素を生成するステップと、選択したタグに対して、内容提案手順にしたがって最適内容フラグメントを提案するステップとを含む。内容提案手順は、サンプルの構造化文書を提供するステップと、サンプル構造化文書から内容フラグメントの1セットを抽出するステップと、内容フラグメント提案基準に基づいて内容フラグメントのセットを評価しタグのために最適内容フラグメント提案を判断するステップとを備え、最適内容フラグメント提案は前記選択したタグに最も可能性のある内容フラグメントである。
構造化文書をオーサリングする方法は機械学習技法を利用して、トレーニングデータとして、既存の構造化文書及び現在の文書の少なくとも一方を用いてテキスト提案を生成する。これら提案は類似文書の集積で発生する規則性に基づく。オーサリング・ステップで、新しいタグが文書に挿入される毎に、内容提案(もしあれば)が作者に対して提案され、作者はそのうちひとつを承認するか、またはすべてを拒否する。この方法では類別化問題として内容のアドバイスをみなす。即ち、この方法は、機械学習アルゴリズムと文書構造とを一体化することにより、オーサリング・ステップでのテキストの塊を予測する。この方法は、提案を計算するために文脈上(構造と内容)の情報を使う。適切な文脈が検出されると、計算された提案は作者に自動的に提案される。
本発明は、文書オーサリングの間、繰り返される構造コンポーネント及び内容コンポーネントの両方を予測することができる。
本発明の方法は、XML文書等のような構造化文書の生成及びオーサリング時に用いることができる。便宜上、本発明の方法は、XML文書の生成及びオーサリングに関して述べる。
全てのXML文書は、要素、タグ、属性、エンティティ、PCDATA及びCDATAの構成要素で構成される。要素とは、XML文書及びHTML文書の双方の主要構成要素である。XML要素の例としては、「メモ」や「メッセージ」がある。要素はテキストやその他の要素を含むこともできるが、空でもよい。タグは、要素にマーク付けするために用いる。<要素 名称>のような開始タグは、要素の冒頭に書き込まれ、</要素 名称>のような終了タグは、要素の末尾に書き込まれる。属性は、要素の別の情報を示す。属性は、常に、要素の開始タグ内に置かれる。常時、属性は名/値対という形で表される。エンティティは、共通テキストを定義するための変数である。エンティティ参照とは、エンティティを参照することである。PCDATAは、XML要素の開始タグと終了タグとの間にある解析文字データ、つまり、テキストを意味する。PCDATAは、構文解析系が解析するテキストである。テキスト内のタグはマーク付けとして扱われ、エンティティは拡張されることになる。CDATAも文字データつまりテキストを意味するが、構文解析系によって解析されることはない。テキスト内のタグはマーク付けとして扱われず、エンティティも拡張されない。
XML文書は、その文書に対応付けされた1つ以上のDTDを有してもよい。DTDは、XML文書の法的構成群、すなわち、文書構造を法的要素のリストによって定義する。XML文書がDTDを含んでいる場合、そのXML文書はその文書自体の形式の記述を伴うことができる。アプリケーション・プログラムは、標準DTDを用いて、受信したデータが有効か確認することができる。DTDを、XML文書に書き込まれたデータを確認するために用いてもよい。しかし、本発明の方法は、XML文書がDTDを備えていない場合、文書に対応付けされたDTDが不正確過ぎたり概略的過ぎたりする場合、及びサンプルデータがDTDに取り込まれていない特定パターンを含んでいる場合にも利用できる。
本発明の方法を用いて構造アドバイザを実現するシステムを図1に示す。本発明の本実施の形態において、内容を含む基準文書(構造化文書の形式になっていない文書)が、XML文書に変換される。このプロセスには、元の文書から内容情報を取り出し開タグと閉タグとの間に埋め込む過程を含む。図1において、作者100は文書10の編集を始める。つまり、作者100は文書10を様々な内容要素に構文解析するようにし、内容要素毎に開閉タグの選択を始める。編集プロセスの間、作者100が特定の内容要素を選択すると、アドバイザ12は最適タグを提案する。提案されたタグは、開タグ、閉タグ又は他のタグパターンでよい。作者はこの提案を受け入れても無視してもよい。
アドバイザ12は、タグ提案プロセス(手順)を使って最適タグを選択し作者に示す。タグ提案プロセスではサンプルデータ16を取得する。この例では、サンプルデータ16はDTDを有するXML文書である。これらXML文書は、同様な基準文書から作成されたという点において、変換される文書10と似ている。サンプルデータ16を、ブロック14において分析し評価することにより、一組のタグ提案とタグ提案ルールを作成する。サンプルデータ16は既にDTDを有しているので、一組のタグ提案はDTDに追加されたことになる。サンプル文書がDTDを有していない場合も、タグ提案はやはり生成される。アドバイザ12は、構文解析系18で文書を解析した結果とタグ提案ルールとを用い、この一組のタグ提案から、上記選択した内容要素のための一組の候補タグを抽出する。次いでアドバイザ12は、作者に表示するために、この一組の候補タグから最適タグを選択するためのタグ提案条件を使う。作者100は文書10の編集を続行しながら、作者が選択したタグを使ってアドバイザ12を修正変更及び更新することができる。
文書構造の編集を行う場合、つまり作者がタグを開閉する度に、アドバイザは介在する。なお、文書の任意の位置においてユーザは任意のタグを追加することはできないが、対応付けしたDTD(少なくとも、または基本XMLルール)により容認されたタグだけは追加することができる。例えば、要素定義<!要素A(B|C)*>は、要素(タグ)B、Cのいずれにも優先順位を付けることなく、要素A内の任意の位置で要素(タグ)B又はCを容認する。通例、文書と対応付けたDTDは厳密だったり柔軟だったりするかもしれない。厳密なDTDは、非常に融通性なく規則正しい構造を定義するもので、文書のほとんどの位置で1つのタグだけを容認する。これらのDTDはデータベースのような文書収集でよく見受けられる。しかし、厳密なDTDはむしろ例外である。より頻繁に使われるのは柔軟なDTDのものであり、文書のほとんどの位置において多数のタグが使用可能である。
アドバイザは、一組の提案ルールを中核にして構成される。このルールの学習は、利用可能なサンプルデータからの学習コンポーネントによって行われる。サンプルデータからの学習は、オンライン又はオフラインで行うことができる。オフラインで学習するのは、サンプルデータがユーザにより予め入力又は以前に生成された文書の集まりである場合である。サンプル収集が新しい文書によって拡張し、システムが更新した収集から提案ルールを再度学習できるまで、文書を編集する全プロセスの間、システムがオフラインで学習した提案ルールは変更されることはない。
あるいは、その時の構造化文書を編集するプロセスの間、ルールをオンラインで学習することができる。学習に利用可能なサンプルデータは、最初は空だが、ユーザが文書を編集している間中増え続ける。提案ルールは段階的に増えるように学習され、各基本版は複数の提案ルールを(即座に又は多少遅れて)変更することができる。これは、新しいタグの追加がタグ/パターンの回数を変え、アドバイザによる提案を出来る限り変更できるからである。
例1
対応付けされたDTDを有するXML文書の集まりはオフライン学習のために備えられ、学習コンポーネントがこの文書の集まりを分析し、新しい文書をオーサリング(編集等)するためのパターンを推論したと仮定する。次に、ユーザが同じDTDで新しい文書の編集を行い、タグ<A>の開/閉をある時点で行うものとする。下記において、DTDが課す要素Aの構造の4つの異なる例について考察し、アドバイザが最も可能性のあるタグ又はパターンを提案してユーザを支援できる方法を示す。下記の表1に、タグパターン及びサンプルデータにおけるタグパターンの出現回数を詳細に示す。
ケース1
DTDはAの要素定義<!要素A(B+)>を含む。すなわち、要素Aは副要素Bだけを含むことができる。あいまいさはなく、システムは唯一の選択としてタグBを提案するか、又は自動的に拡大する。一方、システムは最も可能性のあるものとしてパターンBBを提案することもできる。(なお、X=A(BB)は、XMLフラグメント<X><A><B>…</B><B>…</B></A></X>の省略形である。)
ケース2
DTDは定義<!要素A(B+|C+|PCDATA)>を含むので、A又はPCDATAの第1副要素としてB又はCのいずれかを容認する。サンプルデータの分析から、見込み確率Pr=0.8(Pr〜0.8は、所定提案の見込み確率がほぼ0.8であるということを意味する)で、アドバイザは最も可能性のある最初の要素Cを提案することができる。つまり、アドバイザは、サンプルデータから、<A>の後に<C>がくることが8回発生し、<A><B>というのが2回発生し、<A>の後ろにPCDATAがくることはなかったと判断する。また、システムはパターンA=CCを提案してもよい。
ケース3
DTDが含む定義は、<!要素A(PCDATA)>及び<!要素X(A*)>の2つであり、ここで一度タグAが開けば、ユーザはDTDが一意的に容認したものとしてPCDATAだけをタイプ入力できるが、X内において第2タグAを閉じると、アドバイザはタグXも閉じることを提案する。
ケース4
提案用サンプルデータの分析は、要素の相互発生に関する単純な統計値にととまらず、それ以上のものである。DTDが<!要素X(A+)>、<!要素Y(A+)>、<要素A(B+|C+)>を含み、ユーザが要素<A>を開くとする。すると、学習コンポーネントは、要素Bと要素Cとが同じ確率で要素Aの後に続くものの、XがAに(構造的に)先行する時にはBがAの後ろに続き、一方YがAに先行する時にはCがAの後に続くということを、発見する。したがって、システムのアドバイスは、タグAの文脈、すなわち、タグAの前にくるタグによって違ってくることになる。
全体的に、文書構造に開タグ又は閉タグのいずれか等を追加するために、構造アドバイザは最も可能性のある変形を提案する。これらの変形及びその見込み確率はサンプルデータから導き出す。アドバイザの成果は好提案の割合で判断でき、文書生成の過負担を減らす。好提案ルールの導入はサンプルデータの構造的パターンの深い分析を必要とする。以下に、サンプルデータと、パターン表現及び検索のためのデータ構造とから最適パターンを判断する方法を述べる。
文書生成の任意のステップで、構造アドバイザは、1タグ及びパターン提案(すなわち、タグのパターンであり、通常はツリーパターンの形で)の両方のための一組の候補を検討し、どちらの場合でも最適なものを検出する。最適候補とは、次の文書の編集段階に最も有望なものである。これが、サンプルデータ内で見つかったパターンとのある一定の類似性(この類似関数は後述する)を最大化させる。ツリーパターンの提案は、1つのタグを提案するよりも難しいことである。これは、パターン提案が、大きさの異なる候補の中からの選択という困難な問題の処理を必要とするからである。確かに、サンプルデータにおいて出現する回数はサイズが小さいパターンの方が大きいパターンよりも多い。一方、大きいサイズのパターンを提案する方が有利かもしれない。なぜなら、もし容認されれば、大きいパターンは編集の間接費(overhead)をより減らすことになるからである。この方法の意図は、大きさや出現回数の異なる候補のいずれを採るかの最適な調整を見つけることである。以下では、主に留意したことは、1タグの提案はパターンのサイズが1に限定されている特別の場合としてみなされるので、最適パターンを見つけることである。
ツリーパターンtは、構造化文書の連結フラグメント(連結された小部分)である。tの深さはd(t)で示す(ツリーの葉の深さはゼロ)。tのサイズは|t|で示し、ツリーのノード数として測定する。ゼロ又はそれ以上のノードを語尾に追加することにより、パターンツリーt1がツリーパターンtから得ることができる場合、ツリーパターンtはパターンツリーt1の接頭辞である。
文書生成の次の段階のための最適な提案を検出するために、提案のための一組の候補を検討し、所定の文脈で容認されたツリーパターンのセットTと候補パターンcとの間の類似性を測定する。良好な類似関数が満たすべき3つの要件を以下に記す。他の必要条件を満たす他の類似関数を用いてもよい。
1. 候補cとパターンセットとの類似度は、候補のサイズと出現頻度との間の調整を良好なものとする。
2. 類似度は、簡単に算出されるべきである。
3. 類似性の評価について、文書生成の新しいステップ毎に、計算しなおすことはない。(編集の進展により)文脈が変わることは、候補セットを変更又は減らすかもしれないが、類似値を変えることがあってはならない。
文脈自由提案。開タグXの深さdのパターンに関する考察。まず、タグXが開きつつある文脈は無視する。文脈依存ケースについては後述するように考察される。パターンセットT(X)={ti}は、サンプルデータより得られると仮定する。ここで、各パターンtiは、Σpri=1のとき、確率(正規化頻度)priで深さdのXで根付く構造化サブツリーである。ユーザが文書Dをオーサリングしている時、編集プロセスは文書構造に対する一連の初期アクション、つまりD0、D1=D0+action0...として見られる。オーサリングプロセスのステップjでは、ユーザはタグXの開閉を行い、アドバイザは深さdの最も可能性があるタグ又は最も可能性あるパターンを持つDjの現在の状態を拡張する方法を提案すべきである。
次に、上述した3つの要件を満たす類似性の測定を定義する。まず、所定パターンセットTについて、すべてに接頭辞の付くTに、候補のセットCを全パターンのセットとして構築する。つまり、
Figure 0004656868
次に、候補
Figure 0004656868
とツリーパターン
Figure 0004656868
との類似関数は以下のようになる。
1.cがtiのツリー接頭辞である場合、sim(c,ti)=|c|/|ti
2.それ以外では、sim(c,ti)=0
ただし、c=tiの場合には、sim(c,ti)=1である。最適候補は、総計類似度SIM(c、T)を最大にする候補
Figure 0004656868
である。総計類似度SIM(c、T)は以下のように求める。
Figure 0004656868
例2
要素XをDTDに<!要素 X (AB*|C*)>として定義し、以下の表がサンプルデータ(ただし、すべてDTD定義に適合する)内の要素Xの全内容の出現を示すものと仮定する。
Figure 0004656868
タグXを開くためのパターン候補のセットは、パターンセットT(X)と合致する。すなわち、C=T(X)={C,A,AB,ABB,ABBB}。候補Aに対して、sim(A,C)=0,sim(A,A)=1,sim(A,AB)=0.5,sim(A,ABB)=0.33,sim(A,ABBB)=0.25がある。また、候補Aの総計類似関数値を、SIM(A,T)=0.425として得る。同様に、Cにおける他の候補として、SIM(C,T)=0.2,SIM(AB,T)=0.45,SIM(ABB,T)=0,375,SIM=(ABBB,T)=0.1がある。したがって、パターンABがタグXを開くための最適(文脈自由)提案である。
1タグの提案を考えると、候補セットCを1タグのパターンのみに限定する。つまり、
Figure 0004656868
そして、同じ方法で最適候補を判定する。上記の例では、C1はふたつの1タグの候補を含む。つまり、C1={A,C}。Aは最適な1タグの提案である。
文脈認識提案。例2では、タグを開くケースの文脈自由提案を説明した。次にタグを閉じるケース、及び、タグを開くケースとの違いを考察する。この違いは、閉じたタグと多分先行するいくつかのタグとがこの次の提案のための文脈を表すこと、及び、文脈を考慮にいれると提案がさらに正確になるということである。
例2を再び考察し、ユーザがパターンABBを選択し、要素A,B及びBを埋めて、閉じたと仮定する。アドバイザは次に何を提案すべきか?文脈を考慮にいれることにより、最適候補の計算を変更しないままで候補のセットを限定できる。文脈tcxtの候補セットは、
Figure 0004656868
と定義される。同様に、
Figure 0004656868
は、1タグの候補のセットである。例えば、tcxt=ABB、C(tctx)={ABB,ABBB}、及び、C1(tctx)={ABBB}がある。候補の評価は、候補セットを縮小するために、再度重み付けされるパターンの確率を除いて、変更されないままである。しかし、パターンの確率の正規化は、総計関数の絶対値を増やすだろうが、その相関順位を変えない。これにより、最適提案の評価を変更しないままにすることが可能となる。ABBが最適なパターン候補であるので、アドバイザは、文脈ABBにおいてタグXを閉じるように提案するであろう。同様に、タグBは1タグ(だけ)の提案である。
タグを閉じるための文脈認識提案は、タグを開くための文脈自由提案を修正することを可能にしてくれる。実際、例2では、先に考察したタグBを閉じるための文脈ABBと同じ方法でタグXを開く文脈について考察することができた。次に、タグAを開く最適提案がAの直前のタグに非常に依存する表1のケース4を考察する。この文書のひとつ高いレベルから始まるタグAのため候補セットを作成する。すなわち、T+1(A)={X(A(BB)),X(A(BBB)),Y(A(CC))}。ひとたび要素Aの文脈を拡張してしまえば、候補セットの構築と、前のように各文脈の最適提案の判定とを続けて行える。
この文脈認識提案の適用範囲を任意の深さの文脈までにも広げることができる。タグAのd文脈は、文書構造(e1,e2,…ed)内のAの一連の先祖である。ここで、要素eiは、ei+1の直接の先祖であり、要素edはAの直接の先祖である。サンプルデータにおける要素Anのためのd文脈パターンセットT+d(A)は、Aの全内容で構成されており、各パターンはAの先頭のd文脈に連結される。ひとたびd文脈パターンセットが作成されると、候補セット及び最適提案は上述したように判断される。アドバイザが開タグAのパターンを提案しようとする時、アドバイザは編集する文書からAのd文脈を用いて、最適候補を識別する。
効率的データ構造。アドバイザの仕事は、すべての候補が素早く効率よく識別されることを想定する。つまり、いずれかの編集ステップにおいて、アドバイザは最適候補を迅速に検索できる。ここで、文脈自由提案及び文脈認識提案の両方のための最適候補の表示及び検索のための効率的なデータ構造を提案する。所定の候補セットTのために、接頭辞オートマトン(automaton)PAの形で、(対応付けした総計関数値と共に)候補セットCを表す。このオートマトンには複数の状態があり、実線と点線の円弧で示す2つのタイプの遷移を含む。オートマトンにはサイクルはなく、どの状態も実線円弧を介する初期状態からの一意的な一連の遷移に対応し、またCの候補cに対応する。この状態には、cの総計関数値SIM(c,T)のタグが付けられ、オートマタ(automata)の最後の状態はTのパターンに対応する。さらに、各状態cは、その時点での文脈である限り、最適パターンを含む。図2,3は、例2と表1のケース4の接頭辞オートマタを示す。オートマタの最後の状態を二重丸で示す。全最適提案はオートマタの再度の状態であるので、状態cのための最適提案は対応する状態に対して(点線円弧の)識別リンク付け状態cとして示される。
文脈tctxの最適な候補は以下のようにして探す。ただし、文脈自由評価は空の文脈
Figure 0004656868
に相当する。文脈tctxはCの候補cと一致すれば、文脈tctxはPAの状態である。文脈tcxtにおける候補セット、つまり、C(tctx)は、状態tctxからの到達可能の状態のセットであり、文脈tctx用の最適候補は状態c=tctxからの点線円弧を追跡して行くと見つかる。例えば、図2に示すPAの初期状態
Figure 0004656868
は、状態ABを最適パターンとし、状態tctx=ABBは、「このタグを閉じる」提案を意味するそのものを指す。
ここで提案する構造アドバイザのアーキテクチャ及び方法は、編集するXML文書内の要素の最も可能性のある構造的パターンを探すことに対処している。明らかに、その時に編集している文書とサンプルデータとの類似性を探すという考えは、要素だけに限るものではなく、XML文書の他のコンポーネント、例えば、要素属性、キー従属性等にまでおよぶことができる。
上述した方法は、オフライン学習用の効率的なデータ構造及び最適パターンを探す処理をする。(接頭辞オートマタの形態で)これら構造をサンプルデータからいったん作成すると、文書を編集するプロセスの間、これら構造は変わることがない。もしオフライン学習がオンライン学習で拡張されると、オフライン学習はさらに必要条件をデータ構造に課すことになろう。これは、オートマタの状態、変遷及び対応した総計値の更新が、どの編集ステップの後でも可能だからである。これは最適提案の表示及び検索用データ構造の増分ダイナミック・バージョンの設計を必要とする。
このシステムと方法は、構造化文書をオーサリングしている間の急な(on-the-fly)タグ付けの退屈なプロセスでユーザを助ける。アドバイザは、学習プロセスにおいて統計分析を行い、その動作を使用文書に合うように適応させる。このシステム及び方法は、様々なやり方で実現してもよい。例えば、このシステム及び方法はソフトウェア製品にパッケージされてもよく、あるいは、利用可能なXMLエディタ用のソフトウェア・コンポーネントやプラグインとしてパッケージされてもよく、又は、顧客用に大量のタグを付けて作成する等と同じようなサービスで生産性を高める内部ツールとしてパッケージされてもよい。
本発明の他の特徴によれば、本発明の方法を、構造化文書をオーサリングしている時に、テキスト等のような内容を提案するために用いてよい(つまり、内容アドバイザ)。例えば、一組の文書を導入する際に発生する一覧が、タグ“ヘッド(head)”の下にある所定のひとつの内容(「ツールリスト(List of tools:」)(図4参照)を常時用いると想定する。すると、内容アドバイザは、作者にタグ「head」の後ろに内容部分「ツールリスト(List of tools):」を挿入することを提案する。作者はこの提案を有効にも無効にもできる。1文書のすべての内容部分を予測できるわけではないが、所定位置に頻繁に出現し、多くの場合(項目タイトル、リストの見出し、表題等のような)文書を構成する部分を非常に高い精度で予測できる。内容アドバイザは、二面的な利点を用いて、構造化文書、特に、技術文書のオーサリングを容易にしている。その利点とは、オーサリング時間の短縮(少ないタイピング)と、内容に対する増大した制御(既存文書から得られるために提案内容が適切にフォーマットされる)である。
内容アドバイザは、既に構造化された文書の一組を用いることにより、文書のオーサリングの間にテキスト提案を自動的に生成する。構造化文書(例えば、XML文書)はツリーとして表すことができる(図4参照)。文書のルートからその文書にまでの部分的経路を用いて(例えば、XPATH形式を用いて)、ひとつの内容を文書に資料として載せてもよい。例えば、ドック/導入/リスト/ヘッド/内容(doc/introduction/list/head/CONTENT)(全経路)及び リスト/ヘッド/内容(list/head/CONTENT)(部分経路)の経路は、文書内の数カ所で発生する内容を示す。
本発明の方法を用いて内容アドバイザを実現するためのシステムを図5に示す。本発明の本実施の形態では、作者はXML文書20等のような新しい構造化文書を作成する。作者はドック(doc),導入(introduction),リスト(list),ヘッド(head)等のような様々なXMLタグを選択する。作者が「ヘッド(head)」のタグを開くと、テキスト・アドバイザ22は、「ツールリスト(List of Tools):」のテキスト・フラグメントを提案する。ユーザがこのテキスト・フラグメントの有効とすると、文書20に挿入される。ユーザがこのテキスト・フラグメントを有効としなければ、アクションは起きない。できる限り、テキスト・アドバイザは、他の内容フラグメント、つまり、作者が選択又は無視できるテキスト・フラグメントの選択を提案する。
一組のトレーニング文書26を分析することにより、機械学習技法を用いて、内容提案を生成しテキスト・アドバイザ22に送る。トレーニング文書26は、作者がこの時草稿中のタイプと似ているフォーマットされたXML文書である。トレーニング文書は特定のタグと対応付けした共通内容フラグメントのために分析される。例えば、図5において、内容フラグメント「ツールリスト(List of Tools):」は、タグ「ヘッド(head)」の使用のたびに出現する。内容フラグメントの一覧が生成され、内容フラグメントはその関連性及び重要性に基づき評価される。内容フラグメントに関連性を割り当てるいくつかの方法を使ってもよい。この問題を処置する手段のひとつに、スコア(例えば、確率)を、テキストが生じるタグに基づいて、ひとつの内容に割り当てるという手段がある。つまり、スコア(テキスト、タグ)。このようなスコアを計算する最も簡単な方法は、このタグ下にある内容の発生数と、トレーニング文書内の同じタグの発生数との比率を計算することである。他のさらに高度な関数を用いることもできる(ラプラス精度等)。最適内容提案はそのタグの最高スコアを有するテキストである。
このスコアが、通常、テキスト・フラグメント提案の良い指標となる一方で、たびたび追加される情報を、内容フラグメントをさらに評価するために必要としてもよい。文脈情報等のような追加情報は、さらに高品質の予測を生成するためでも、必要であることもある。もしシステムが低い確率のものを提案すると、作者の拒絶する割合は高くなり、システムは支援するどころか、弊害となることの方が多くなるかもしれない。
作者が内容フラグメント提案を承認する可能性を高くするために、学習技法は、内容をひとつ含むタグの文脈を考慮にいれるように変更してもよい。タグの構造的文脈は、通常、タグを中核にした構造的ツリーで構成される。同じ内容フラグメントが、タグの同じツリーパターンの後に発生した場合には、作者はこの提案された内容フラグメントを承認する可能性はさらに高い。他の方法を用いて文脈を推定してもよい。所定の内容ひとつ(内容フラグメント)を含むタグ毎に、内容アドバイザは、このタグの構造的文脈に鑑みて、この所定の内容がタグの下に出現する確率を予測する。もしこの確率が十分に高いものならば、内容フラグメントを提案することができる。その上、システムの構成を、システムが、所定のタグに割り当てる所定の内容のスコアが所定閾値よりも高くなるように文脈を作成するようにしてもよい。これにより、学習済み提案の品質はシステムを有用にするに十分な高さであることが確実となる。
タグの構造的文脈は内容情報で拡充され得る。例えば、doc/(区分名/“章の概要”,区分/内容)のツリーは、タグ「区分」用混合内容(構造と内容)と呼ばれる(図6参照)。この文脈は、内容「TEXT」で拡充された構造doc/(区分名/“章の概要”,区分)を含む。通常、問題は類別化問題(カテゴリとして表すことができるひとつのテキストを所定タグに割り当てる)として様式化されるので、この問題を解決するために開発された既存の機械学習技法のすべてを、内容フラグメント提案を生成するために使うことができる。
申し分ないスコアが特定の内容フラグメントに対して計算することができない場合、複数の精密な選択がなされてもよい。例えば、ひとつの内容全部ではなく、単語、節又は文等のような小さな言語単位でスコアを付けるようにシステムを変更することもできる。スコアを小さい言語単位に割り当てる。このとき、スコアは、例えば、選択したタグの下にある言語単位の発生数と、トレーニング文書内の選択したタグの発生数との割合である。学習の出力形式は、文脈ツリー内の内容にスコアを対応付けした3つ組み<ツリー,内容,スコア>の一覧に相当する。複数の内容を同じ環境の候補とすることもできる。3つ組の例を挙げる。
*/区分/(区分名/“章の概要”,リスト,リスト/ヘッド/,“区分のリスト”,0.8>
ツリーコンポーネントは可能な内容要素を有する文書のサブツリーに相当する。要素内容を挿入すべきタグが、既に何らかの内容を有している場合には、要素内容をこの既存の内容に連結する。
このような一覧を文書に添付するために、標準の構文解析技法を適用することもできる(ルール・エンジン、有限状態オートマトン等)。
本発明の実施の形態によるアドバイザ・システムのブロック図である。 例2の接頭辞ツリー図である。 接頭辞ツリー・オートマトンを示す図である。 構造化文書の一部を示す図である。 本発明の他の実施の形態によるテキスト・アドバイザ・システムのブロック図である。 区分(Section):ドック(doc)/(区分名/“章の概要”,区分/テキスト)のタグのためのひとつの混合内容を示す図である。
符号の説明
10 作者
12 アドバイザ
14 提案ルール
16 アンプル・データ
18 構文解析系

Claims (1)

  1. 対の階層入れ子タグでくるまれた複数の内容要素を含む構造化文書を作成する構造化文書作成装置であって、
    内容を含む特定のタイプの文書を記憶する記憶手段と、
    対応付けされたDTDを有するXML文書からなる構造化されたサンプル文書の形態で、タグのツリーパターンtiを含むサンプルデータを入力する入力手段と、
    を備え、
    前記記憶手段に記憶された前記文書を複数の内容要素に構文解析し、
    選択した内容要素に対して、タグ提案手順にしたがって最適タグを提案すると共に、
    前記タグ提案手順が、
    (1)記入力手段により入力されたサンプルデータから、前記選択された内容要素に対応するタグの複数のツリーパターンtiを抽出し、抽出した複数のツリーパターンtiをタグ提案の1セットTとし
    (2)前記タグ提案の1セットTの前記複数のツリーパターンtiから、ツリー接頭辞を複数抽出し、複数抽出したツリー接頭辞を、前記選択した内容要素に対して提案される前記最適タグの複数の候補のタグcである候補タグの1セットCとし、
    (3)前記候補タグの1セットCの複数の候補のタグc各々のノード数、複数のツリーパターンti各々のノード数、及び複数のツリーパターンti各々の前記選択された内容要素に対する見込み確率に基づいて、前記複数の候補のタグc各々について、当該候補タグcの該ノード数とツリーパターンtiの該ノード数との比と、当該ツリーパターンtiの当該見込み確率との乗算値をツリーパターンti毎に求め、求めた乗算値を合計し、
    (4)前記複数の候補のタグc各々について求められた前記乗算値の合計の値の最大値に対応する候補のタグcを、前記最適タグとして決定する、
    構造化文書作成装置。
JP2004185900A 2003-06-27 2004-06-24 構造化文書作成装置 Expired - Fee Related JP4656868B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/607,667 US7296223B2 (en) 2003-06-27 2003-06-27 System and method for structured document authoring

Publications (2)

Publication Number Publication Date
JP2005018780A JP2005018780A (ja) 2005-01-20
JP4656868B2 true JP4656868B2 (ja) 2011-03-23

Family

ID=33540333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004185900A Expired - Fee Related JP4656868B2 (ja) 2003-06-27 2004-06-24 構造化文書作成装置

Country Status (2)

Country Link
US (1) US7296223B2 (ja)
JP (1) JP4656868B2 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363378B2 (en) * 2003-07-01 2008-04-22 Microsoft Corporation Transport system for instant messaging
US7539727B2 (en) * 2003-07-01 2009-05-26 Microsoft Corporation Instant messaging object store
US7464331B2 (en) * 2003-08-18 2008-12-09 Microsoft Corporation System and method for validating hierarchically-organized messages
US8171084B2 (en) * 2004-01-20 2012-05-01 Microsoft Corporation Custom emoticons
US8037102B2 (en) 2004-02-09 2011-10-11 Robert T. and Virginia T. Jenkins Manipulating sets of hierarchical data
JP2005284522A (ja) * 2004-03-29 2005-10-13 Nec Corp 構造化文書派生システム、構造化文書派生方法及び構造化文書派生用プログラム
US9646107B2 (en) 2004-05-28 2017-05-09 Robert T. and Virginia T. Jenkins as Trustee of the Jenkins Family Trust Method and/or system for simplifying tree expressions such as for query reduction
US7620632B2 (en) 2004-06-30 2009-11-17 Skyler Technology, Inc. Method and/or system for performing tree matching
US9171100B2 (en) 2004-09-22 2015-10-27 Primo M. Pettovello MTree an XPath multi-axis structure threaded index
US7801923B2 (en) * 2004-10-29 2010-09-21 Robert T. and Virginia T. Jenkins as Trustees of the Jenkins Family Trust Method and/or system for tagging trees
US7627591B2 (en) 2004-10-29 2009-12-01 Skyler Technology, Inc. Method and/or system for manipulating tree expressions
JP4868733B2 (ja) * 2004-11-25 2012-02-01 キヤノン株式会社 構造化文書処理装置及び構造化文書処理方法、プログラム
US7630995B2 (en) 2004-11-30 2009-12-08 Skyler Technology, Inc. Method and/or system for transmitting and/or receiving data
US7636727B2 (en) 2004-12-06 2009-12-22 Skyler Technology, Inc. Enumeration of trees from finite number of nodes
US8316059B1 (en) 2004-12-30 2012-11-20 Robert T. and Virginia T. Jenkins Enumeration of rooted partial subtrees
US7693848B2 (en) 2005-01-10 2010-04-06 Xerox Corporation Method and apparatus for structuring documents based on layout, content and collection
US7584200B2 (en) * 2005-01-31 2009-09-01 International Business Machines Corporation Graphical database navigator with relation level control
US8615530B1 (en) 2005-01-31 2013-12-24 Robert T. and Virginia T. Jenkins as Trustees for the Jenkins Family Trust Method and/or system for tree transformation
US7681177B2 (en) 2005-02-28 2010-03-16 Skyler Technology, Inc. Method and/or system for transforming between trees and strings
US20060195532A1 (en) * 2005-02-28 2006-08-31 Microsoft Corporation Client-side presence documentation
US8356040B2 (en) 2005-03-31 2013-01-15 Robert T. and Virginia T. Jenkins Method and/or system for transforming between trees and arrays
US7529255B2 (en) * 2005-04-21 2009-05-05 Microsoft Corporation Peer-to-peer multicasting using multiple transport protocols
US7899821B1 (en) 2005-04-29 2011-03-01 Karl Schiffmann Manipulation and/or analysis of hierarchical data
US7895219B2 (en) * 2005-05-23 2011-02-22 International Business Machines Corporation System and method for guided and assisted structuring of unstructured information
US7587395B2 (en) * 2005-07-27 2009-09-08 John Harney System and method for providing profile matching with an unstructured document
US7536369B2 (en) * 2005-09-23 2009-05-19 Xerox Corporation XML-based architecture for rule induction system
US7664742B2 (en) 2005-11-14 2010-02-16 Pettovello Primo M Index data structure for a peer-to-peer network
US20070157073A1 (en) * 2005-12-29 2007-07-05 International Business Machines Corporation Software weaving and merging
US20070198516A1 (en) * 2006-01-31 2007-08-23 Ganapathy Palamadai R Method of and system for organizing unstructured information utilizing parameterized templates and a technology presentation layer
US9495356B2 (en) * 2006-03-30 2016-11-15 International Business Machines Corporation Automated interactive visual mapping utility and method for validation and storage of XML data
JP2007272390A (ja) * 2006-03-30 2007-10-18 Sony Corp リソース管理装置、タグ候補選定方法及びタグ候補選定プログラム
FR2901037B1 (fr) * 2006-05-11 2008-11-07 Canon Kk Procede et dispositif de generation de motifs structurels de reference aptes a representer des donnees hierarchisees
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
CN101681263B (zh) * 2007-05-16 2013-12-04 国际商业机器公司 用于开发基于软件资产的解决方案的一致方法和系统
US8656391B2 (en) * 2007-06-22 2014-02-18 International Business Machines Corporation System and method for initiating the execution of a process
US9224041B2 (en) * 2007-10-25 2015-12-29 Xerox Corporation Table of contents extraction based on textual similarity and formal aspects
US8676806B2 (en) * 2007-11-01 2014-03-18 Microsoft Corporation Intelligent and paperless office
US7996418B2 (en) * 2008-04-30 2011-08-09 Microsoft Corporation Suggesting long-tail tags
US9892103B2 (en) * 2008-08-18 2018-02-13 Microsoft Technology Licensing, Llc Social media guided authoring
JP5268787B2 (ja) * 2009-06-04 2013-08-21 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
US9430566B2 (en) * 2009-07-11 2016-08-30 International Business Machines Corporation Control of web content tagging
US8631028B1 (en) 2009-10-29 2014-01-14 Primo M. Pettovello XPath query processing improvements
US8386457B2 (en) * 2011-06-22 2013-02-26 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations
US8850310B2 (en) * 2011-10-11 2014-09-30 Microsoft Corporation Data entry suggestion lists for designated document data entry areas based on data from other document data entry areas
GB2520265A (en) * 2013-11-13 2015-05-20 Ibm Ranking Textual Candidates of controlled natural languages
US10333696B2 (en) 2015-01-12 2019-06-25 X-Prime, Inc. Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency
US10275430B2 (en) * 2015-06-29 2019-04-30 Microsoft Technology Licensing, Llc Multimodal sharing of content between documents
US11314807B2 (en) 2018-05-18 2022-04-26 Xcential Corporation Methods and systems for comparison of structured documents
US10878005B2 (en) * 2018-10-15 2020-12-29 International Business Machines Corporation Context aware document advising
US20220164520A1 (en) * 2020-11-23 2022-05-26 Microsoft Technology Licensing, Llc Automatic document sketching
US20220391429A1 (en) * 2021-06-08 2022-12-08 InCloud, LLC System and method for constructing digital documents
US20220391576A1 (en) * 2021-06-08 2022-12-08 InCloud, LLC System and method for constructing digital documents
US11886803B1 (en) * 2023-01-12 2024-01-30 Adobe Inc. Assistive digital form authoring

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155017A (ja) * 1999-11-29 2001-06-08 Hitachi Ltd タグ付き文書作成装置およびそのプログラムを記録した記録媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003048A (en) * 1995-04-27 1999-12-14 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
US5706364A (en) * 1995-04-28 1998-01-06 Xerox Corporation Method of producing character templates using unsegmented samples
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
JPH10307816A (ja) * 1997-05-08 1998-11-17 Just Syst Corp 構造化文書処理装置、構造化文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6083276A (en) * 1998-06-11 2000-07-04 Corel, Inc. Creating and configuring component-based applications using a text-based descriptive attribute grammar
US6360215B1 (en) * 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US6981212B1 (en) * 1999-09-30 2005-12-27 International Business Machines Corporation Extensible markup language (XML) server pages having custom document object model (DOM) tags
US6718516B1 (en) * 1999-09-30 2004-04-06 International Business Machines Corporation Method for verifying context between multiple related XML tags in document object model (DOM)
US6721727B2 (en) * 1999-12-02 2004-04-13 International Business Machines Corporation XML documents stored as column data
US6941510B1 (en) * 2000-06-06 2005-09-06 Groove Networks, Inc. Method and apparatus for efficient management of XML documents
US6714939B2 (en) * 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
AU2003236514A1 (en) * 2002-06-13 2003-12-31 Mark Logic Corporation Xml database mixed structural-textual classification system
US7502779B2 (en) * 2003-06-05 2009-03-10 International Business Machines Corporation Semantics-based searching for information in a distributed data processing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155017A (ja) * 1999-11-29 2001-06-08 Hitachi Ltd タグ付き文書作成装置およびそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
US20040268236A1 (en) 2004-12-30
US7296223B2 (en) 2007-11-13
JP2005018780A (ja) 2005-01-20

Similar Documents

Publication Publication Date Title
JP4656868B2 (ja) 構造化文書作成装置
US7730396B2 (en) Systems and methods for converting legacy and proprietary documents into extended mark-up language format
JP3692764B2 (ja) 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US6105022A (en) Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
US7251777B1 (en) Method and system for automated structuring of textual documents
JP4365162B2 (ja) 構造化文書のデータを検索する装置および方法
JPH1078959A (ja) エッジデータ構造を統一する方法
AU2004294094A1 (en) Extraction of facts from text
JPWO2009087996A1 (ja) 情報抽出装置及び情報抽出システム
Kosala et al. Information extraction from structured documents using k-testable tree automaton inference
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JPH10105551A (ja) プロセッサを用いて第1グラフの単一化の一部として第1節と第2節を結合する方法
Amavi et al. On correcting XML documents with respect to a schema
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP3709890B2 (ja) 文字列検索装置
Zhang et al. Odaies: ontology-driven adaptive Web information extraction system
Nguyen Statistical Models and Machine Learning to Advance Code Completion: Are We There Yet?
JP3239845B2 (ja) 全文検索装置および方法
JP3843574B2 (ja) 文書変換規則生成装置、文書変換規則生成方法及び文書変換規則生成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006053907A (ja) 情報抽出方法、情報抽出装置、情報抽出プログラム及び情報抽出プログラムが記載された記録媒体
JPS6366665A (ja) 文書解析整形装置
EP2306334A1 (en) Method for creating an analysis data-structure for a document
Yeates Text Augmentation: Inserting markup into natural language text with PPM Models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4656868

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees