JP2009521029A

JP2009521029A - 非構造的データから多言語電子コンテンツを自動的に生成する方法およびシステム

Info

Publication number: JP2009521029A
Application number: JP2008546347A
Authority: JP
Inventors: ハッサン、ハニ; エマム、オッサマ; ヤッシン、アムル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-12-22
Filing date: 2006-12-04
Publication date: 2009-05-28
Also published as: US20070156748A1; EP1963998A1; WO2007071548A1; CN101341486A

Abstract

【課題】本発明は、電子コンテンツ管理の分野に関し、より詳細には、ユーザがデザインした目次および所望の最終コンテンツ形式に基づいて電子コンテンツを自動的に生成する方法、システム、およびコンピュータ・プログラムに関する。
【解決手段】言語識別技術および自動機械翻訳技術は、情報源を広げるために使用されている。該方法は、非構造的データから、事前に選択された１以上のトピックに関係する情報を抽出するステップと、抽出された情報を構造的形式に統合するステップと、統合された情報を選択された環境に従ってローカライズするステップと、指定された形式に従ってコンテンツを生成するステップとを含む。
【選択図】図１

Description

本発明は、情報管理システムに関し、特に、多言語電子コンテンツを非構造的データから自動的に生成するシステム、方法、およびコンピュータ・プログラムに関する。

問題
現在、学習において、電子コンテンツ（ｅ−コンテンツ）の包含は避けられないものである。ｅ−コンテンツは、新しいチャレンジに満ちた新しい領域である。ｅ−コンテンツの開発は、創作、デザイン、コンテンツ展開、ならびにテキスト、イメージ、およびアニメーションを含む関係資産である。目的指向で多言語のコンテンツを管理することは、今日の世界的企業の高い期待にこたえるために必要な条件である。

問題は、コンテンツを従来の手作業で開発すると、莫大な時間（数ヶ月）がかかることがあることである。さらに、コンテンツの“ローカライゼーション”（コンテンツの局所環境への適合）には、追加的な時間が必要である。

従来技術
“モジュラ電子出版および電子教育資料のコンパイルおよび配布（Ｃｏｍｐｉｌｉｎｇａｎｄｄｉｓｔｒｉｂｕｔｉｎｇｍｏｄｕｌａｒｅｌｅｃｔｒｏｎｉｃｐｕｂｌｉｓｈｉｎｇａｎｄｅｌｅｃｔｒｏｎｉｃｉｎｓｔｒｕｃｔｉｏｎｍａｔｅｒｉａｌｓ）”と題された米国特許出願第２００３／０１６３７８４号には、講座コンテンツおよび出版コンテンツの開発、維持、および修正を容易にするためのシステムおよび方法が開示されている。講座コンテンツと出版コンテンツとは、電子講座および電子出版の基礎単位として働く独立的電子学習および電子コンテンツ・オブジェクトの巨大なライブラリの真ん中に位置していることがあるからである。モジュラ・コンピュータ支援教育（ＣｏｍｐｕｔｅｒＡｉｄｅｄＩｎｓｔｒｕｃｔｉｏｎ：ＣＡＩ）システムおよび方法は、試験を管理すること、および特定の生徒がどのコンテンツにアクセスしたか、または検討したか、あるいはその両方を追跡することによって、生徒の進捗を監督することに使われ得る。好ましい実施形態においては、この発明は、インターネット接続ツールおよびテンプレートを用いて教育的および情報的コンテンツをコンパイルする著作者と、それに続いて、ウェブ・ベースの教育的または情報的コンテンツを、このようなコンテンツを標準的なウェブ・ブラウザ・アプリケーションを実行するコンピュータ・デバイスを用いて、エンド・ユーザが受信および検討可能なように、エンド・ユーザへ受け渡すこととを含む。

この特許出願は、電子講座および電子出版を作る（コンパイルする）ための、独立的電子学習および電子コンテンツのオブジェクト（構造的材料）の巨大なライブラリがあることを想定している。これに対して、本発明は、非構造的入力を用いて最初から開始するものである。本発明は、入力および出力の中の多言語材料を扱い、トピック間の関係を構築する能力をも有する。

“メッセージ使用可能デジタル・コンテンツのための注釈プロセス（Ａｎｎｏｔａｔｉｏｎｐｒｏｃｅｓｓｆｏｒｍｅｓｓａｇｅｅｎａｂｌｅｄｄｉｇｉｔａｌｃｏｎｔｅｎｔ）”と題された米国特許出願第２００４／２０５５４７号には、指導者と生徒との間のやり取りを提供するための電子メッセージ注釈方法が開示されている。この方法は、注釈と、視覚的表示上の選ばれたトピック項目に対する注釈の関係とを表示することを伴う。この方法は、
（ａ）数式、科学的表現、およびデータ・視覚化の動画シーケンスを介して抽象概念を伝える、
（ｂ）教育的講演の間、読者によって取り交わされるメッセージに包含するような方法で、そのような表現および視覚化をエンコードする、
（ｃ）そのような表現、視覚化、および注釈を、他のユーザに対して、デジタル方式で転送された表示ページの形式で、転送およびレンダリングするプロセスおよびテクニックを含む。この方法は、テキスト・メッセージを創作することと、テキストおよび非テキストの両形式のメディア要素を参照するために、注釈を適当に包含することとを可能にするやり方で、デジタル・コンテンツをエンコードするテクニックを含む。この方法の主たる目的は、コンテンツ開発の間に、ｅ−コンテンツを表示することである。

本発明は、ｅ−コンテンツを自動的に生成する方法を提供することにより、上述にて開示されたシステムをしのぐものである。

“複数のプラットフォーム上におけるｅ−コンテンツを生産、出版、管理、および該ｅ−コンテンツと対話するシステムおよび方法（Ｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒｐｒｏｄｕｃｉｎｇ，ｐｕｂｌｉｓｈｉｎｇ，ｍａｎａｇｉｎｇａｎｄｉｎｔｅｒａｃｔｉｎｇｗｉｔｈｅ−ｃｏｎｔｅｎｔｏｎｍｕｌｔｉｐｌｅｐｌａｔｆｏｒｍｓ）”と題された米国特許出願２００２／０１５６７０２号には、ＸＭＬプロトコルとオブジェクト指向方法とを組み合わせ、競合し得る効果的な表示を可能にするコンテンツ創造ツールが開示されている。請求の範囲に記載されている方法およびシステムは、高品質で簡単に使用できるツールの１つのセットに基づいて、すべてのコンテンツ・プラットフォームのためのコンテンツの生産、受け渡し、および表示を単一化する。このツールは、プログラミングの深い知識が無くとも、プラットフォームから独立したコンテンツの分かりやすい生産を可能にしている。

本発明は、非構造的データからｅ−コンテンツを自動的に生成する方法を提供することにより、上述にて開示されたシステムをしのぐものである。しかしながら、上述にて開示されたツールは、本発明の最終段階において使用されてもよい。

関連技術
書かれたテキストに関する自動言語識別
書かれたテキスト中の言語を自動的に識別するテクニックには、短い単語に関する情報；文字の独立可能性および様々な文字の組み合わせの結合可能性；単語Ｎグラム；文字Ｎグラム；付加記号および特殊文字；音節の特徴、形態論、および構文を使用するものもある。

“トリグラムを用いた言語識別方法（Ｔｒｉｇｒａｍ−ｂａｓｅｄｍｅｔｈｏｄｏｆｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎ）” と題された米国特許第５，０６２，１４３号には、テキストの本体を調べ、その言語を識別する仕組みが開示されている。この仕組みは、テキスト本体が連続したトリグラムにパースされている連続したトリグラムと、トリグラムのセットのライブラリとを比較する。それぞれのトリグラムの言語固有鍵セットについて、鍵セット中に一致するものが見つかっているものに関するテキスト中トリグラム数の、テキスト中トリグラム総数に対する割合が、少なくとも規定された値と同じ場合、そのテキストは、それぞれの鍵セットに関する言語で書かれている可能性があると、識別される。それぞれのトリグラム鍵セットは、それぞれ異なる言語に関連付けられており、それぞれの言語に関して規定されたトリグラムの発生頻度と少なくとも同じ頻度で発生することになっているこれらのトリグラムを含む。他の言語に関する連続した鍵セットは上述のように処理され、一致するものの割合が一番大きく、上述の規定された値を超える言語が、テキスト本体が書かれる言語として選ばれる。

機械翻訳
“機械翻訳”は、コンピュータ制御されたシステムによる、１つの自然言語から別の自然言語への翻訳である。多くの異なるアプローチが、機械翻訳の研究者たちによって採用され、異なる言語に関する多数のシステムが、市場にて入手可能である。これらのシステムは、主に２つのカテゴリに入る。それは、ルール・ベース機械翻訳システムと、統計的機械翻訳システムとである。

テキスト検索／自動情報検索：
自然言語テキスト・コーパスからの情報の自動検索は、主に、ユーザ・クエリ中に与えられた１つ以上のキーワードと一致するドキュメントの検索を用いるものである。例えば、インターネット上の最も一般的な検索エンジンは、ユーザによって与えられたキーワードを用いるブール検索を使用する。

クエリの語義的な意味に関して自然言語クエリと一致する自然言語テキスト・コーパス中のドキュメントを見つけ出せる情報検索システムを創造することに基づく提案がある。

これらの提案には、与えられたドメイン範囲内において、特定の世界に関する知識により広げられているシステムに関係するものがある。このようなシステムは、１つの領域内における世界に関する知識の広範囲におよぶデータベースに基づく。

他の提案は、語義的表現の言語レベルの基礎になることを用いる。これらの提案においては、１つ以上のキーワードの逐語的な一致を用いるかわりに自然言語テキスト・コーパスおよび自然言語クエリの語義的分析が実行され、クエリの語義的コンテンツの意味が一致するドキュメントが、戻される。

情報抽出
“情報抽出”は、本来、テキスト・ドキュメント、実体、およびこれら実体間の関係からの抽出にある。実体の例としては、“人々”、“組織”および“場所”があげられる。関係の例としては、“人々の所属”および“組織の場所”があげられる。人々の所属関係は、特定の個人が一定の組織に加入していることを意味する。例えば、“ジョン・スミスはハードコム・コーポレーションの主任研究員である”という文は、個人“ジョン・スミス”と組織“ハードコム・コーポレーション”との間の人々の所属関係を含む。

“情報抽出”が、ドキュメントから事実（ユーザが該事実を分析する）を取得するのに対して、“情報検索”は、関係ドキュメント（ユーザが該ドキュメントを分析する）を取得する。

現在、自然言語から情報を抽出するために用いられるいくつかのアプローチ（例えば、品詞タグ付けおよび表現抽出など）がある。隠れマルコフ・モデル（ＨＭＭ）は、適応情報抽出に関するおそらく一番人気のあるアプローチだったろう。ＨＭＭは、固有抽出に関して優れた実績を示す［参考文献１］（バイケル（Ｂｉｋｅｌ）ら、１９９９年）。ＨＭＭは、普通、局所の問題および平調な問題をモデリングするのに、適している。関係の抽出は、長距離依存性のモデリングを含むことがよくある。そしてそれは、ＨＭＭ方法論がそのまま適用できるものではない。

最近、順次データをモデリングするためのいくつかの確率論的枠組みが、ＨＭＭの制限を限定するために紹介されている。最大エントロピー・マルコフ・モデル（ＭＥＭＭｓ）［参考文献２］（マッカルム（ＭｃＣａｌｌｕｍ）ら、２０００年）は、より複雑な推移確率およびエミッション確率の分配をモデル化でき、様々なテキスト機能を考慮に入れることができる。条件付確率場（ＣＲＦｓ）［参考文献３］（ラファティ（Ｌａｆｆｅｒｔｙ）ら、２００１年）は、指数モデルの一例である。このように、これら両方は、魅力的な特性（例えば、包括的最尤）を持っており、順次データのモデリングに関して、他の条件付モデルに比べて、より適している。

線形モデル（例えば、パーセプトロン（Ｐｅｒｃｅｐｔｒｏｎ）およびウィノウ（Ｗｉｎｎｏｗ））を学ぶためのオンライン学習アルゴリズムは、自然言語処理（ＮＬＰ）の問題［参考文献４］（ロス（Ｒｏｔｈ）、１９９９年）に関して、その人気が高まっている。このアルゴリズムは、例えば漸次的学習および非常に多数の例に対する拡張性などのたくさんの魅力的機能を示している。これらは、浅いパーシング［参考文献５］（ムノズ（Ｍｕｎｏｚ）ら、１９９９年）および情報抽出［参考文献６］（ロス（Ｒｏｔｈ）およびイー（Ｙｉｈ）、２００１年）へ最近適合されて、最高技術水準の性能を示す。

つい最近の研究は、非構造的テキストから実体間の関係を抽出するための、監視されていない方法に焦点をあてている。例えば、“パターンと関係とをインターネットから抽出すること” （サージー・ブリン（ＳｅｒｇｙＢｒｉｎ）著−スタンフォード大学、コンピュータ・サイエンス部門）と題され、“ウェブおよびデータベースに関する１９９８年の国際ワークショップの会議報告書”中に公表された研究は、インターネット上の著書記述に見られる著者情報の抽出を対称にされたものである。この公表は、関係およびパターンのセットが反復的に作られる、二元的な反復パターン−関係抽出に基づくものである。

“スノーボール：広範なプレーン・テキスト収集から関係を抽出すること”（ユージン・アギクテイン（ＥｕｇｅｎｅＡｇｉｃｈｔｅｉｎ）およびルイス・グラバノ（ＬｕｉｓＧｒａｖａｎｏ）著−コロンビア大学、コンピュータ・サイエンス部門）と題され、“デジタル・ライブラリに関する第５回ＡＣＭ国際会議の会議報告書”中に２０００年に公表された記事に示された研究によると、前の研究と同様の考え方が開示されている。元となる例は、初期パターンを生成すること、および、さらなるパターンを反復的に得ることに使用される。そして、新たに取得されているパターンとの関連性を判断するために、特別な基準が展開される。

“統一構造的データおよびフリー・テキストから抽出された関係事実の可視化（Ｖｉｓｕａｌｉｚａｔｉｏｎｏｆｉｎｔｅｇｒａｔｅｄｓｔｒｕｃｔｕｒｅｄｄａｔａａｎｄｅｘｔｒａｃｔｅｄｒｅｌａｔｉｏｎａｌｆａｃｔｓｆｒｏｍｆｒｅｅｔｅｘｔ）”と題された米国特許出願第２００４／０１６７９０７号（ウェイクフィールド（Ｗａｋｅｆｉｅｌｄ）ら）には、非構造的フリー・テキストから単純な関係を抽出する仕組みが開示されている。“関係および出現パターンを通して、自動的および反復的に、ドキュメント中の関係用語をマイニングするシステムおよび方法（Ｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒａｕｔｏｍａｔｉｃａｌｌｙａｎｄｉｔｅｒａｔｉｖｅｌｙｍｉｎｉｎｇｒｅｌａｔｅｄｔｅｒｍｓｉｎａｄｏｃｕｍｅｎｔｔｈｒｏｕｇｈｒｅｌａｔｉｏｎｓａｎｄｐａｔｔｅｒｎｓｏｆｏｃｃｕｒｒｅｎｃｅｓ）”と題された米国特許第６，５０５，１９７号（サンダレサン（Ｓｕｎｄａｒｅｓａｎ）ら）には、関係を規定するインターネット上の関係情報のセットを識別するための自動的および反復的なデータ・マイニング・システムが開示されている。より詳細には、該マイニング・システムは、特有の形で関係している用語のペアとそれらのウェブ・ページ中の発生パターンとを反復的に絞り込む。自動マイニング・システムは、継続的およびインクリメンタルに関係とそれらに対応するパターンとを絞り込むため、反復的に作動する。一実施形態において、自動マイニング・システムは、ウェブ・ページ中におけるこれらの発生パターンの観点から関係を識別する。自動マイニング・システムは、新たな関係を得る関係識別子と、新たなパターンを得るパターン識別子とを含む。新たに得られた関係およびパターンは、データベース中に格納される。データベースは、初期的には、自動マイニング・システムにより継続的および反復的に広げられる関係およびパターンの小さなシード・セットから始まる。

“階層データ分析によるラッパー帰納（Ｗｒａｐｐｅｒｉｎｄｕｃｔｉｏｎｂｙｈｉｅｒａｒｃｈｉｃａｌｄａｔａａｎａｌｙｓｉｓ）”と題された米国特許第６，６０６，６２５号（ムスレア（Ｍｕｓｌｅａ）ら）には、ユーザ・ラベルしたトレーニング例に基づいて抽出ルールを生成する帰納的アルゴリズムが、開示されている。

［１］ディー・エム・バイケル（Ｄ．Ｍ．Ｂｉｋｅｌ）、アール・スチュワーツ（Ｒ．Ｓｃｈｗａｒｔｚ）、アール・エム・ウェイスチェデル（Ｒ．Ｍ．Ｗｅｉｓｃｈｅｄｅｌ）著、“名前を学習するアルゴリズム（ＡｎＡｌｇｏｒｉｔｈｍｔｈａｔＬｅａｒｎｓＷｈａｔ’ｓａｎａｍｅ）”、マシン・ラーニング（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）３４（１−３）：２１１−２３１，１９９９年

［２］ディー・フレイタグ（Ｄ．Ｆｒｅｉｔａｇ）、エイ・マッカルム（Ａ．ＭａＣａｌｌｕｍ）著、“確率的最適化により得たＨＭＭ構造の情報抽出（ＩｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎｗｉｔｈＨＭＭｓｔｒｕｃｔｕｒｅｓｌｅａｒｎｅｄｂｙｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ）”、人工知能に関する第１７回会議および、人工知能の革新的用途に関する第１２回会議報告書（ＩｎｔｈｅＰｒｏｃ．Ｏｆｔｈｅ１７ｔｈＣｏｎｆ．ＯｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＡＡＡＩ−００）ａｎｄｏｆｔｈｅ１２ｔｈＣｏｎｆ．ＯｎＩｎｎｏｖａｔｉｖｅＡｐｐｌｉｃａｔｉｏｎｓｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＡＡＩ−００）），５８４−５８９頁、メンロ・パーク（ＭｅｎｌｏＰａｒｋ）、カルフォルニア（ＣＡ）、２０００年７月３０日−８月３日、エイエイエイアイ・プレス（ＡＡＡＩＰｒｅｓｓ）

［３］ジェイ・ラファティ（Ｊ．Ｌａｆｆｅｒｔｙ）、エイ・マッカルム（Ａ．ＭａＣａｌｌｕｍ）、エフ・ペレイラ（Ｆ．Ｐｅｒｅｉｒａ）著、“条件付ランダム・フィールド：連続データをセグメント化しラベル化する確率的モデル（Ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ：Ｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌｓｆｏｒｓｅｇｍｅｎｔｉｎｇａｎｄｌａｂｅｌｉｎｇｓｅｑｕｅｎｃｅｄａｔａ）”マシン・ラーニングに関する第１８回国際会議報告書（Ｉｎｐｒｏｃ．１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆ．ｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）２８２−２８９頁、モーガン・カウフマン（ＭｏｒｇａｎＫａｕｆｍａｎｎ）、サンフランシスコ、カルフォルニア、２００１年

［４］ディー・ロス（Ｄ．Ｒｏｔｈ）著、“自然言語における学習（Ｌｅａｒｎｉｎｉｎｎａｔｕｒａｌｌａｎｇｕａｇｅ）”人工知能に関する第１６回国際連合会議ディーン・トーマス編集者の報告書（ＩｎＤｅａｎＴｈｏｍａｓ，ｅｄｉｔｏｒ，Ｐｒｏｃ．Ｏｆｔｈｅ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆ．ＯｎＡｒｔｉｆｉｃｉｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＪＣＡＩ−９９−Ｖｏｌ２））、８９８−９０４頁、サンフランシスコ（Ｓ．Ｆ．）、７月３１日−８月６日、１９９９年、モーガン・カウフマン・出版社（ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｌｉｓｈｅｒｓ）

［５］エム・ムノズ（Ｍ．Ｍｕｎｏｚ）、ヴィー・ピュニャカノク（Ｖ．Ｐｕｎｙａｋａｎｏｋ）、ディー・ロス（Ｄ．Ｒｏｔｈ）およびディー・ジマク（Ｄ．Ｚｉｍａｋ）著、“浅いパーシングへの学習アプローチ（Ａｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｔｏｓｈａｌｌｏｗｐａｒｓｉｎｇ）”、技術報告書（ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ）２０８７、イリノイ大学アーナナシャンペーン校（Ｕｒｎａｎａ−Ｃｈａｍｐａｉｇｎ）、アーバナ（Ｕｒｂａｎａ）、イリノイ（Ｉｌｌｉｎｏｉｓ）、１９９９年

［６］ディー・ロス（Ｄ．Ｒｏｔｈ）およびダブリュ・イー（Ｗ．Ｙｈｉ）著、“命題アルゴリズムを解した関係型学習：情報抽出の事例研究（Ｒｅｌａｔｉｏｎａｌｌｅａｒｎｉｎｇｖｉａｐｒｏｐｏｓｉｔｉｏｎａｌａｌｇｏｒｉｔｈｍｓ：Ａｎｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎｃａｓｅｓｔｕｄｙ）”、人工知能に関する第１７回国際会議ベルンハルト・ネベル編集者の報告書（ＢｅｒｎｈａｒｄＮｅｂｅｌ，ｅｄｉｔｏｒ，Ｐｒｏｃ．Ｏｆｔｈｅ１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆ．ｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＪＣＡＬ−０１））、１２５７−１２６３頁、サンフランシスコ、カルフォルニア、８月４日−１０日、２００１年、モーガン・カウフマン出版社（ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ，Ｉｎｃ．）

本発明の目的は、選択されたトピックに基づき、所望の最終コンテンツの形で、自動的に電子コンテンツを生成することである。

本発明の目的は、多言語電子コンテンツを自動的に開発およびローカライズすることである。

本発明の他の目的は、非構造的多言語情報を単一の処理用言語に自動的に変換することである。

本発明のさらなる目的は、ユーザが、彼または彼女あるいはその両方が選択した形式および言語で電子コンテンツを生成するために、自動デジタル・コンテンツ・ジェネレータを構成することができるようにすることである。

本発明は、電子コンテンツ管理の分野に関する。さらに詳細には、ユーザがデザインした目次および所望の最終コンテンツ形式に基づいて自動的に電子コンテンツを生成する方法、システム、およびコンピュータ・プログラムの分野に関する。言語識別技術および自動機械翻訳技術は、情報源を広げるためにも使用される。

非構造的データから、ユーザの好みに基づいて、電子コンテンツを自動的に生成およびローカライズする方法であって、以下のステップを含む。

非構造的データから、事前に選択された１つ以上のトピックに関係する情報を抽出するステップと；
抽出された情報を構造的形に統合するステップと；
統合された情報を選択された環境に従ってローカライズするステップと；
指定された形式に従ってコンテンツを生成するステップ。

さらに詳細には、本発明による方法は、さらに以下のステップを含む。

事前に選択された１つ以上のトピックを受信するステップと；
ユーザが選択した環境を受信するステップと；
ユーザが指定した形式を受信するステップと；
任意に、非構造的データ中で使用されている言語を識別するステップと；
任意に、非構造的データを単一の言語に変換するステップと；
非構造的データから、事前に選択された１つ以上のトピックに関係する情報を抽出するステップであって、事前に選択された各トピックに関して：
トピックに関係したコンテンツを非構造的データから取得するステップと；
トピックに関して取り出されたコンテンツの関連性を測るステップと；
取り出されたコンテンツから、トピックに最も関連するとみなされたコンテンツを選択するステップと；
選択されたコンテンツを、事前に定義された１つ以上のカテゴリに従ってタグ付けするステップと；
タグ付けされたコンテンツから、関係した名前付きエンティティおよび前記名前付きエンティティ間の関係を識別するステップと；
非構造的データから、各識別された名前付きエンティティおよび関係に関して、特徴ベクトルを抽出するステップと；
前記エンティティおよび関係をトピック・グラフ中に表すステップであって、ノードがエンティティを表し、エッジが前記エンティティ間の関係を表す、ステップとをさらに含むステップと；
抽出された情報を構造的形式に統合するステップであって、異なるトピックに関係したすべてのトピック・グラフをマージし、同じサブトピックが２つ以上のトピック・グラフ中に表される場合に：
トピック・グラフ中のサブトピック・データの１つのみのインスタンスをトピック・グラフ中に保存するステップと；
他のいずれかのトピック・グラフ中のサブトピック・データを参照するために参照を使用するステップとをさらに含むステップと；
統合された情報を選択された環境に従ってローカライズするステップであって：
統合された情報を選択された環境に適合させるステップと；
任意に、統合された情報をユーザが選択した言語に従って翻訳するステップとを含むステップ。

本発明の効果は、ユーザが、選択した形式および言語に基づいて電子コンテンツを生成するために、自動デジタル・コンテンツ・ジェネレータを構成できることである。

前述のことは、本発明の他の目的、特徴、および効果とともに、後述の明細書、請求の範囲、図面を参照することによって、さらに良く理解され得る。

本発明における特色と考えられている新規かつ進歩性のある特徴が、添付の請求の範囲に記載されている。しかしながら、本発明は、それ自体で好ましい使用様式であるだけでなく、そのさらなる目的および効果が、後述の具体的な実施形態の詳細な説明を参照することによって添付の図面と共に読まれるとき、最もよく理解されるだろう。

後述の記載は、個人または当業者が発明を構成し使用できるようにするために提示され、特許出願およびその規定に従って提供されている。本明細書に記載された好ましい実施形態ならびに一般的な原則および特徴に対する種々の変更は、当業者にとって容易に理解できるものである。したがって、本発明は、示された実施形態に限られることを意図せず、本明細書に記載された一般的な原則および特徴から外れることのない最も広い範囲で与えられるものである。

定義
コンテンツ：音声、テキスト、画像、ビデオなどのヒトの興味を示す情報。コンテンツは、デジタル・コンテキスト中の情報を描写するために使われる一般的な用語である。それは、ファイル（ドキュメント）中に含まれる音声、テキスト、イメージ、ビデオのみならず、ウェブ・ページの形式も取ることができる。
情報：それを受取る個人にいくらかの知識を与えるために作られた意味を有するデータ。
データ：そこから結論が引き出されてもよい事実の収集である（例えば：“統計データ”）。
ドキュメント：情報を含む書き込み。
メタデータ：他のデータを表現するために使用されるデータ。メタデータの例は、スキーマ、テーブル、インデックス、表示、列定義を含む。
テキスト：左から右へと読まれる文字と、右から左へと読まれる文字との混合。
ハイパーテキスト：他のテキストへのリンクを持つテキスト。

本発明において、用語：“情報”、“データ”、“ドキュメント”は、同じ目的で使用されるだろう。

一般的な原則
本発明は、非構造的情報（本、ウェブ・コンテンツ等）から自動的にｅ−ラーニングに関するデジタル・コンテンツを自動的に生成するために、自動テキスト分析テクニック、情報検索テクニック、および情報抽出テクニックを組み合わせている。本発明によると、多言語ｅ−コンテンツを自動的に開発およびローカライズ（局所環境に適応させること）するシステムおよび方法が提案される。本発明によると、いくつかの既知技術の統合と、ｅ−ラーニング市場のｅ−コンテンツ開発に貢献するいくつかの新規技術とが、提案される。

たくさんの出版物が、世界中で、自動テキスト分析テクニック、情報検索テクニック、および情報抽出テクニックの態様を開示している。同様に、いくつかの参考文献が、上述の技術を使用するシステムおよびテクニックを開示している。しかしながら、これら参考文献の何れも、本発明において請求されたステップと手段との組み合わせを開示していない。

発明の一般的概念
図１は、本発明による“自動デジタル・コンテンツ・ジェネレータ（ＡｕｔｏｍａｔｉｃＤｉｇｉｔａｌＣｏｎｔｅｎｔＧｅｎｅｒａｔｏｒ（ＡＤＣＧ））”の基本的な適用範囲を示す。

ＡＤＣＧ（１００）は、オンライン書籍、ウェブ等からの非構造的情報（１０１）、ならびに、所望の目次（ＴＯＣ）（１０２）、環境選択（１０４）（言語、ターゲット・オーディエンス、場所、リージョン等）および出力におけるｅ−コンテンツの所望の最終形式（１０５）をはじめとするユーザからの入力を受信する。

ＡＤＣＧは、事前にユーザによって指定された最終形式のｅ−コンテンツ（１０３）（テキスト、イメージ、ビデオ等）を出力する。

自動デジタル・コンテンツ・ジェネレータ
図２は、自動デジタル・コンテンツ・ジェネレータ（ＡＤＣＧ）とともに利用される種々のシステムおよび情報を説明する。図中、ＡＤＣＧの構成要素が点線（１００）によって囲まれている。ＡＤＣＧは、目次中で特定された各トピックに関係する適切な情報を抽出する情報エクストラクタ（２０１）と、抽出された情報を構造的形式に統合し、仮のｅ−コンテンツ出力を作成する構造的情報ジェネレータ（２０２）と、環境選択入力（言語、ターゲット・オーディエンス、場所、リージョン等）を用いて、仮のｅ−コンテンツ出力をローカライズするローカライゼーション・プロセッサ（２０３）と、所望の最終形式（コース、試験、概要、ＲＤＦ、プレゼンテーション等）でｅ−コンテンツを作成する表示コンポーザ（２０４）とを含む。

情報エクストラクタ（２０１）、構造的情報ジェネレータ（２０２）、およびＡＤＣＧシステム全体（１００）がどのように働くのかを、後述の例を用いて示す。この例において、ユーザは、後述のトピックリストを有する目次（ＴＯＣ）に関するｅ−コンテンツの開発を望んでいる。

−トピック１（Ｔ１）
−トピック２（Ｔ２）
−
−
−トピックＮ（ＴＮ）

目次（ＴＯＣ）のデザインは、ユーザによってなされる（１０２）。このＴＯＣは、ＡＤＣＧシステム（１００）をフィードするために使用される。

情報エクストラクタ
図３は、情報エクストラクタ（２０１）を示す。情報の抽出は、以下のように行われる。

目次（ＴＯＣ）中の各トピック（Ｔｉ）に関して：

（３０１）：検索エンジン（３０１）が、非構造的情報（１０１）から、現在のトピック（Ｔｉ）に関係するすべてのコンテンツＴｉ＿ＡＬＬを取り出す。このような検索エンジン・システム（例えば、グーグル（Ｇｏｏｇｌｅ）、ヤフー（Ｙａｈｏｏ）、アルタビスタ（ＡｌｔａＶｉｓｔａ）、ライコス（Ｌｙｃｏｓ）等）は、よく知られており、最先端技術の一部である。しかしながら、検索エンジンは、莫大な量の関係コンテンツを取り出す傾向にあり、そのため、取り出されたコンテンツの関連性を確認する必要がある。

（３０２）：関連性検出器は、非構造的情報から取り出されたコンテンツＴｉ＿ＡＬＬの関連性を確認する。関連性スコア（一般の検索エンジンで使われるスコアと似ている）が、コンテンツＴｉ＿ＡＬＬの関連性をはかるために用いられる。閾値が、コンテンツが関連するか否かを決定するために用いられる。適合しないコンテンツは、フィルタ・アウトされる。トピック（Ｔｉ）に関して最も関連するコンテンツＴｉ＿ＲＥＬのみが選択される。閾値は、ユーザの判断に基づいて調節可能である。

（３０３）：選択されたコンテンツＴｉ＿ＲＥＬは、名前付きエンティティ（ＮＥ）識別子（３０３）により使用される。この名前付きエンティティ識別子は、事前に定義されたカテゴリに従って、選択されたコンテンツＴｉ＿ＲＥＬにタグを付ける。これらのカテゴリは、例えば：個人名、場所名、国名、動物名、製品、組織、乗物名などがある。

（３０４）：名前付きエンティティ識別子（３０３）によりタグ付けされたデータＴｉ＿ＴＡＧは、関係エクストラクタ（３０４）により、関係する名前付きエンティティを識別し、これら名前付きエンティティ間の関係を抽出するために用いられる。関係および関係するエンティティを抽出するために、関連技術の中に記載された方法のうちの１つが、関係エクストラクタ３０４によって利用されてもよい。関係および関係するエンティティを抽出する１つの方法は、個別信頼性測定のパターンを使用する。この場合、パターンを誘導する（自動的に得る）過程は、システム構築の際に、一度、オフラインで、実行される。どのようなエンティティおよび関係のタイプにも使える一般的なフレームワークを用いて、パターンが誘導される。実行時において、誘導されたパターンは、エンティティおよびそれらに対応する関係を抽出するため、非構造的テキストに適用される。

（３０５）：関係する名前付きエンティティおよびそれらに対応する関係を表す関係エクストラクタ（３０４）の出力は、特徴エクストラクタ（３０５）への入力として使われる。特徴エクストラクタ（３０５）は、非構造的データから、各名前付きエンティティおよび関係に関する特徴ベクトルを抽出する。各エンティティおよび関係に対応する特徴は、多くのタイプのデータを含む。例えば：関係するエンティティおよびそれらエンティティ間の関係を含むテキスト、さらなる情報へのハイパーリンク、考慮中のエンティティに最も関係のあるエンティティ、異なるエンティティ間の関係、異なるエンティティおよび関係の特徴などである。

なお、提案されたシステムは、どのようなタイプの特徴にも適することに言及しておく。関係エクストラクタ（３０４）の出力は、名前付きエンティティおよび前記の名前付きエンティティ間の関係を表す。特徴ベクトルは、各名前付きエンティティおよび関係に対応する。この特徴ベクトルは、対応するエンティティまたは関係に関するたくさんの情報を含む。

エンティティおよび関係は、ノードがエンティティを示しエッジが異なるエンティティ間の関係を示す有向グラフにおいて表される。トピック（Ｔｉ）もグラフ中のノードで表され、他のすべてのノードはサブトピックの候補である。

したがって、特徴エクストラクタ（３０５）の出力は、グラフ・ベース階層トピック表示Ｔｉ＿Ｇである。

ステップ３０１からステップ３０５が繰り返されて、目次（ＴＯＣ）に含まれている各トピックに関するグラフが生成される。図５は、トピック（Ｔｉ）のグラフ・ベース階層トピック表示を示す。グラフ・ベース階層トピック表示は、トピック（Ｔｉ）がノード５００によって表示され、このトピックと他のサブトピック候補５０２（ＳＴｉ１、ＳＴｉ２、・・・Ｓｔｉｎであって、ｎはサブトピックの数を示す）との間の関係がエッジ５０１によって表示される、構造的情報ジェネレータの出力である。

構造的情報ジェネレータ
図４は、構造的情報ジェネレータ（２０２）を示す。

各グラフ・ベース・トピック表示Ｔｉ＿Ｇは、後述のステップを実行する構造的情報ジェネレータ（２０２）に受け渡される。

（４０１）：サブトピック関連性チェッカー（４０１）がグラフＴｉ＿Ｇをパースし、異なるノードのメイン・トピック（Ｔｉ）への関連性に基づき、スコア機能に従って、異なるノードをランク付ける。スコア機能は、サブトピックを表すノードが、メイン・トピック（Ｔｉ）に関連するか否かを決定するための異なる要因を測る。ＴｉとノードＳＴｊ間の関連性スコアは下のように表される。

スコア＝−ｌｏｇ（Ｄｉｓｔ（Ｔｉ＿特徴，ＳＴｊ＿特徴））

低スコアのノードは削除されるが、高スコアのノードは、サブトピックに関連すると考えられ、保持される。

そして、サブトピック関連性チェッカー（４０１）の出力中のすべてのグラフ・ベース・トピック表示Ｔｉ＿Ｇに基づき、構造的情報ジェネレータ（２０２）は、以下のステップを実行する。

（４０２）：相互トピック参照チェッカー（４０２）は、トピックの重複を検出し、２以上のトピック・グラフに現れるサブトピックを識別する。これは、異なるトピックに基づくすべてのトピック・グラフをマージすることによってなされる。このステップへの入力は、異なるトピックに関するすべてのグラフを含む。言い換えれば、もし、同じサブトピックが２以上のトピック・グラフで表されるならば、１つのみのサブトピック・データ・インスタンスがグラフ中に保存される。その他グラフ中のこのサブトピック・データについて照会するため参照が使われる。したがって、どんな重複も排除される。

ローカライゼーション・プロセッサ
図２において、前述したように、ユーザが選択した環境（言語、ターゲット・オーディエンス、場所、リージョン等）に基づいて、構造的情報ジェネレータ（２０２）により生成された出力を、ローカライゼーション・プロセッサ（２０３）は、ローカライズする。出力は、コンテンツが翻訳される、関連イメージが選択されるなど、ユーザ環境に適合するようになっている。

表示コンポーザ
生成された構造的コンテンツは、ユーザが選んだ必要な材料のタイプ（コース、試験、概要、プレゼンテーション、ＲＤＦ等）を使用する表示コンポーザ（２０４）へと渡されて、最終的なｅ−コンテンツが構成される。

言語識別子およびテキスト・プロセッサ
ＡＤＣＧシステムは、２以上の言語である可能性がある非構造的情報によりフィードされることに注意されたい。情報を、例えば英語（コンテンツに関して最も用いられる言語であるので）の単一の言語に変換するために、言語識別子（１０６）は、テキスト・プロセッサ（１０７）と（図１に示すように任意で）ともに使われ、後に、ターゲット言語に変換するためのローカライゼーション・プロセッサ（２０３）に依存する。例えば、テキスト・プロセッサ（１０７）は、英語のテキストをフランス語に変換する。この場合、テキスト・プロセッサ（１０７）は、一般的な、市販されている自動機械翻訳（ＡＭＴ）システムである。

特定の実施形態
特定の実施形態においては、本発明は、サーバ中のコンテンツ・プロバイダにより実行される。サーバは、クライアントからの要求および好み（トピックのリスト、選択された環境、指定された形式）を受信し、該クライアントに要求されたコンテンツを指定された形式で送り返す。

本発明は、特に、好ましい実施形態を参照して説明および記述されているが、当然ながら、形式および詳細において、本発明の精神および範囲から離れない程度において、様々な変更が加えられる。

本発明による自動デジタル・コンテンツ・ジェネレータ（ＡＤＣＧ）の基本的なアプリケーションを示す。本発明による自動デジタル・コンテンツ・ジェネレータ（ＡＤＣＧ）の詳細図である。本発明による自動デジタル・コンテンツ・ジェネレータ（ＡＤＣＧ）中に含まれる情報エクストラクタの詳細図である。本発明による自動デジタル・コンテンツ・ジェネレータ（ＡＤＣＧ）の構造的情報ジェネレータ部の詳細図である。本発明による情報エクストラクタのグラフ・ベース階層トピック表示出力を示す。

Claims

ユーザの好みに基づいて、非構造的データから電子コンテンツを自動的に生成およびローカライズする方法であって、
非構造的データから、事前に選択された１以上のトピックに関係する情報を抽出するステップと、
前記抽出された情報を構造的形式に統合するステップと、
選択された環境に従って前記統合された情報をローカライズするステップと、
指定された形式に従ってコンテンツを生成するステップと
を備える方法。
前記抽出された情報が関係する前記トピックと、前記環境であり前記情報がそれに従ってローカライズされる環境と、前記形式であり前記コンテンツがそれに従って生成される形式とが、ユーザの好みに基づいている、請求項１に記載の方法。
事前に選択された１つ以上のトピックを受信する予備のステップ
を備える請求項１または２のいずれか１つに記載の方法。
ユーザにより選択された環境を受信する予備のステップ
を備える請求項１〜３のいずれか１つに記載の方法。
ユーザにより指定された形式を受信する予備のステップ
を備える請求項１〜４のいずれか１つに記載の方法。
前記非構造的データから事前に選択された１つ以上のトピックに関係する情報を抽出する前記ステップが、
事前に選択された各トピックに対して、
前記トピックに関係したコンテンツを非構造的データから取り出すステップと、
前記トピックに対する前記取り出されたコンテンツの関連性を測るステップと、
前記取り出されたコンテンツから、前記トピックに最も関連するとみなされた前記コンテンツを選択するステップと、
前記選択されたコンテンツを、既定の１つ以上のカテゴリに従ってタグ付けするステップと、
前記タグ付けされたコンテンツから、関係した名前付きエンティティおよび前記名前付きエンティティ間の関係を識別するステップと、
前記非構造的データから、各識別された名前付きエンティティおよび関係に関して、特徴ベクトルを抽出するステップと
前記エンティティおよび関係をトピック・グラフ中に表すステップであって、ノードが前記エンティティを表し、エッジが前記エンティティ間の前記関係を表す、ステップと、
を更に備える、請求項１〜５のいずれか１つに記載の方法。
トピック・グラフ中において、事前に選択されたトピックがノードによって表され、サブトピックが他のノードによって表され、前記事前に選択されたトピックおよび前記サブトピック間の前記関係がエッジによって表される、請求項６に記載の方法。
前記抽出された情報を構造的形式に統合する前記ステップが、
事前に選択された各トピックに関係している各トピック・グラフに対して、
前記事前に選択されたトピックに関連するとみなされたサブトピックを選択するステップと、
前記事前に選択されたトピックに関連しないとみなされたサブトピックを削除するステップと
を更に備える、請求項１〜７のいずれか１つに記載の方法。
前記抽出された情報を構造的形式に統合する前記ステップが、
前記異なるトピックに関するすべての前記トピック・グラフをマージし、２つ以上のトピック・グラフ中に表されたサブトピックを検出するステップと、
２つ以上のトピック・グラフ中に表された各サブトピックに対して、
トピック・グラフ中の前記サブトピックのデータの１つのみのインスタンスをトピック・グラフ中に保存するステップと、
他のいずれかのトピック・グラフ中の前記サブトピックのデータを参照するために参照を使用するステップと
を更に備える、請求項１〜８のいずれか１つに記載の方法。
前記統合された情報をローカライズする前記ステップが、
前記統合された情報を選択された環境に適合させるステップ
を更に備える、請求項１〜９のいずれか１つに記載の方法。
前記統合された情報を選択された環境に適合させる前記ステップが、
前記統合された情報をユーザが選択した言語に従って翻訳するステップ
を備える、請求項１０に記載の方法。
前記非構造的データを単一の言語に変換する予備のステップ
を備える請求項１〜１１のいずれか１つに記載の方法。
前記非構造的データを単一の言語に変換する前記ステップが、
前記非構造的データ中において使用される前記言語を識別するステップ
を備える、請求項１２に記載の方法。
前記方法がサーバにおいて実行され、
ユーザの好みを含む要求を１つ以上のクライアントから受信するステップと、
ユーザの好みに従ったコンテンツを、前記要求に応じてクライアントに送り返すステップと
を備える請求項１〜１３のいずれか１つに記載の方法。
請求項１〜１４のいずれか１つに記載の方法を行うのに適している手段を備えるシステム。
前記システムがサーバである、請求項１５に記載のシステム。
コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータシステム上で実行されるとき、請求項１〜１４に記載のいずれか１つのステップに従った方法のステップを行うための指示を備えるコンピュータ・プログラム。