JP2008522332A

JP2008522332A - 自動的に文書を拡充するシステムおよび方法

Info

Publication number: JP2008522332A
Application number: JP2007544606A
Authority: JP
Inventors: ブレナー，リラン
Original assignee: ホワイトスモーク，インク．
Priority date: 2004-12-01
Filing date: 2005-12-01
Publication date: 2008-06-26
Also published as: EP1817691A2; WO2006086053A3; CA2589942A1; WO2006086053A2; AU2005327096A1; CN101065746A; EP1817691A4; US20060247914A1; KR20070088687A

Abstract

【課題】
【解決手段】特定の形式によって文書を拡充することができるシステムおよび方法である。拡充は特定の形式を有する文書の分析に基づいており、これにより文が修正される。
【選択図】図１

Description

本発明は一般に文書の修正に関し、特に、限定するものではないが、文字の種類や書類形式に基づいて文書を拡充するシステムおよび方法を提供する。

文書の機械翻訳は、しばしば理解できないことがある。この原因の一つは、翻訳が元の文書の形式を考慮していないことである。例えば、法律文書は、文学的な文書（例えば、詩）とは異なるように翻訳しなければならない。さらに、文書の著者は特定の形式に合うように文書を拡充したいと思う場合がある。例えば、法律家でない者が法律家のような文書を書くことを望んでいることである。

したがって、文書を拡充することができる新しいシステムおよび方法が必要である。

本発明の実施例は、利用者が介入することなく、与えられた文書を自動的に改良あるいは拡充することができるシステムおよび方法を具える（限定しないが、テキストからテキストと、スピーチからテキスト、テキストからスピーチ、スピーチからスピーチによる方法を含む）。システムへの入力は、文書とプロフィールで構成される。システムは、利用者のプロフィール（例えば、総合、一般、個人、専門、商業、ビジネス、法律、医学、科学、および文学）に基づいて、より質の高い文書を生成する。異なるプロフィールごとに、個別の最適な文書が生成される。

本発明の実施例は、以下のアプリケーションとして使用することができる。
１．概略から逸脱することなく、文字および／または文書を好適に置換および／または付加する提案階層を含む、言語の質の向上および言語の拡充。
２．（独自に開発された、あるいは従来の）文法チェック
３．（独自に開発された、あるいは従来の）スペルチェック
４．翻訳（例えば、限定ではなく、英語から英語や、英語から英語以外の言語を含む、同一の言語内や、一の言語と別の言語との間で質を高め、拡充することができる）。例えば、本システムは、利用者が、ある言語を用いて、同一または異なる言語間で質を向上や拡充を受けることにより、その特徴を活かすことができる。
５．前置詞−置換や訂正に適した前置詞を提案する（“in Monday”を“on Monday”に）。
６．熟語およびことわざ
７．シソーラス（正しい時制の適切な言葉の提案や、複数または単一の形式および文脈を含む）
８．これに限らないが、総合、一般、個人、専門、商業、ビジネス、法律、医学、科学、および文学を含む様々なプロフィールによりテキストを拡充し質を向上させる。
９．韻、物語
１０．専門用語、俗語
１１．視覚特性（例えば、エモーティコン、図、アニメーション、絵、および動画）
１２．オーディオ（例えば、映画）
１３．オーディオビジュアル（音声認識）
１４．引用句
１５．（例えば、感情）の記述
１６．総ての分野（例えば、科学、伝記、および歴史）の専門辞典
１７．走り書き
１８．語源
１９．頭字語
２０．エポニム
２１．派生語
２２．ストーリー
２３．発音
２４．詩、歌
２５．名前（氏および名）
２６．写真および画像
２７．家系

さらに、翻訳システムを設計するのに、２つ以上の可能性（あいまいな言葉）から単語の特定の意味を決定することが最も困難である。翻訳の従来技術には、統計モデル、文脈依存性（context sensitive）等が含まれる。本発明の実施例は、所定の翻訳エンジンが、読み手から得た知識を活用することにより、各単語の置き換える選択肢を最小限にできるフィードバックフェーズを導入する。

本システムは、様々なデータベースを利用して任意の言語のプラットフォームに実装でき、すなわち、データベースおよび／または辞書の作成および／または修正を必要としない。

本システムの重要性は、利用者が介入することなく、ワンクリックで言語の専門家（任意の言語、例えば、英語等）として機能する専門的なシステムを作ることである。最適化された文章により、関連する言語の最低限の知識を有するネイティブスピーカでない人が、非常におよび／またはより洗練された著者である印象を与えることができる。また、本システムはコンピュータ等で文書を書いたり作成する作業を容易にする時間節約装置を提供する。

本発明の実施例は、様々なデータベースを利用して様々な言語のプラットフォームに実装でき、すなわち、独自のデータベースおよび／または辞書を必要としない。実施例は、従来のデータベースまたは辞書を利用して、自動的に言語および言葉の拡充処理を実装できる。

本発明の実施例は、選択された利用者のプロフィールに基づいて、関連する内容や文脈を認識し、自動的に文章を置き換えて拡充する。この処理は利用者によって選択されたプロフィールに依存し、このプロフィールは所定の形式を示し、これにより、異なるおよび／または良質および／またはさらに洗練されたおよび／またはより最適化された文章の訳文を生成する。

本発明の実施例は、システムが、選択されたプロフィールに合う最適な使用および／または単語の組合せおよび／または表現および／または熟語および／または文および／またはテキストについて学ぶことができるオートマチックラーニングおよびセルフインプルービングプロセス（ＡＬＳＩＰ）に依存する。プロフィールは、総合、一般、個人、専門、商業、ビジネス、法律、医学、科学、および文学などの内容を記載し、例えば、利用者が“確かな証拠（solid evidence）”と記載し、法律のプロフィールを選択すると、システムは、代替的な熟語“有力な証拠（compelling evidence）”を提案する。利用者が、同一の表現に別のプロフィールを選択した場合、システムの提案は異なり、例えば、科学のプロフィールの場合は、“確かな証明（solid proof）”を提案する。

本発明の実施例は、（単語のみでなく）文および／またはテキスト全体に基づいて単語を変更することにより、文書を拡充し、例えば、“I ran out of doors”という文を“I ran out of the doors”に変更する。実施例は、文および／またはテキストの総ての部分を考慮する。プロフィールごとに、異なる最適な文を作成することができる。利用者がプロフィールを変更すると、システムの提案は変更される。

本発明の実施例は、文および／またはテキスト全体に基づいて、文の各単語を分析し、置き換え可能な単語および／または表現および／または熟語および／または文および／またはテキストから、最も適切なものを選択する。文が最適化されると、最適化された文は、文法、綴りが正しい文脈および文になる。例えば、システムは代名詞を付加あるいは代名詞を変更でき、文が文法的に変わらずに意味が同じであることを保証し、すなわち、入力文が“this is a test”である場合、利用者が本発明の提案を利用して構成要素“a test”を構成要素“examination”に置き換えると、システムは自動的に代名詞“a”を代名詞“an”に変更する。出力文は、“this is an examination”になる。

本システムはさらに、提案された各単語を元の文の関連する時制に変更できる。

従来技術とは違って利用者の能力は無関係であり、システムを動作して提案に対する個人的なフィードバックや知識を提供するために、利用者がシステムから尋ねられることはなく、その代わりに自動的に“受け入れ、放棄、変更、および改良”する高度な手段がある。本システムは、利用者の関与が最小限となる状態を作り出し、システムを動作してその出力を利用する。

本発明は、統計学的、数学的、および／またはその他の手段（例えば、分析、文脈依存、および確率）を利用して、拡充処理を実現する。しかしながら、以下に説明するように、本発明は、手動のマッチング処理または分類処理を必要としない技術によりこの処理を実現する。したがって、利用者がデータベースを作成および／または保守する必要がないため、労力と資源を削減できる。

本発明の実施例では、システムが、パーサと、マッチングエンジンと、最適化部とを具える。パーサは文を分析できる。パーサと通信接続されるマッチングエンジンは、文の少なくとも一つの単語のために、置換用の単語のリストを検索する。マッチングエンジンに通信接続される最適化部は、文の少なくとも一つの単語のために、文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、置換用の単語をリストから選択し、少なくとも一つの単語を選択された置換用の単語に置き換える。

本発明の実施例では、手段が、文を分析するステップと、文の少なくとも一つの単語のために、置換用の単語のリストを検索するステップと、少なくとも一つの単語のために、文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、置換用の単語をリストから選択するステップと、少なくとも一つの単語を選択された置換用の単語に置き換えるステップとを含む。

限定的および包括的でない本発明の実施例は以下の図面を参照して説明され、同じ参照番号は、明記しない限り様々な図面を通して同じ部分を示す。

以下の説明は、当業者が本発明を製造および利用できるように提供され、特定の応用例とそれが要求する状態で提供される。本発明の様々な変更は当業者にとっては明らかであり、ここで規定する原理は、本発明の意図および目的を逸脱しない限り、他の実施例や応用例に適用してもよい。したがって本発明は、説明する実施例に限定されることを意図するものではなく、ここで開示する原理、特徴、および技術と一致する広範な目的と合致すべきである。

図１は、本発明の一実施例にかかるネットワーク１００を示すブロック図である。ネットワーク１００は、自動拡充（ＡＥ）システム１３０に通信接続されたインターネットなどのネットワーク１２０に通信接続されたドキュメントウェブサイト１１０を具える。以下にさらに詳細に説明するＡＥシステムは、文書のトレーニングおよび拡充に用いられる。トレーニング中は、ドキュメントウェブサイト１１０に蓄積された文書などの文書をレビューし、特定の形式によってどのように文が構成されているかを学習する。拡充するときには、ＡＥシステム１３０はトレーニング中に獲得した情報を利用して、利用者が選択した形式によって文書を分析し拡充する。

図２は、ＡＥシステム１３０を示すブロック図である。ＡＥシステム１３０は、中央処理装置（ＣＰＵ）２０５と、ワーキングメモリ２１０と、永続メモリ２２０と、入力／出力（Ｉ／Ｏ）インタフェース２３０と、ディスプレイ２４０と、入力装置２５０とを具え、これら総てがバス２６０を介して相互に通信接続されている。ＣＰＵ２０５は、Intel Pentiumマイクロプロセッサまたは永続メモリ２２０に記憶されたソフトウェアを実行可能な他のプロセッサを含んでもよい。ワーキングメモリ２１０は、ランダムアクセスメモリ（ＲＡＭ）または他の種類のリード／ライト記憶装置あるいは記憶装置の組合せを含んでもよい。永続メモリ２２０は、ハードドライブ、リードオンリーメモリ（ＲＯＭ）、またはＡＥシステム１３０が停止した後もデータを保持可能な他の記憶装置あるいは記憶装置の組合せを含んでもよい。Ｉ／Ｏインタフェース２３０は、ワイヤあるいは無線技術を利用して、直接あるいは間接的にネットワーク１２０に通信接続できる。ディスプレイ２４０は、フラットパネルディスプレイ、ブラウン管ディスプレイ、または他のディスプレイ装置を含んでもよい。本発明の他の構成要素と同様に任意である入力装置２５０は、キーボード、マウス、またはデータを入力する他の装置あるいはデータを入力する装置の組合せを含んでもよい。

本発明の実施例では、ＡＥシステム１３０はまた、ネットワーク接続装置、付加的なメモリ、付加的なプロセッサ、ＬＡＮ、情報をハードウェアチャネルに送る入力／出力ライン、インターネットあるいはイントラネット等の付加的な装置を具えてもよい。また、当業者であれば、ＡＥシステム１３０が、代替的な方法によりプログラムやデータを受信し、記憶できることは理解できるであろう。

図３は、図１の拡充システムの永続メモリ２２０を示すブロック図である。メモリ２２０は、辞書３１０と、パーサ３２０と、データベース３３０と、マッチングエンジン３４０と、最適化部３５０と、ランキングエンジン３６０とを具える。辞書３１０は、例えば、“test”が動詞および名詞であるように、文の構成要素としての単語の役割により識別される関連する言語(例えば英語)の語彙を含む。提案する発明は、任意の辞書を利用できる。また、辞書３１０には置換可能な単語（例えばシソーラス）が含まれ、代わりの単語を提案できる。置換可能な単語は、辞書３１０または別のファイルに記憶できる。

パーサ３２０は、与えられた文を分析し、文中の単語にタグを付ける。パーサ３２０は、文の構成要素を識別する。例えば、“I am going home”という文の場合、パーサ３２０は、文を分析して各単語が担う役割を決定する。
［I］−＞人称
［am］−＞助動詞
［going］−＞動詞、現在進行形
［home］−＞名詞

パーサ３２０は、シフト軽減（shift reduce）パーサ、文脈依存パーサ、可能性パーサ等の異なる技術を利用して文を分析できる。

データベース３３０は、以下に説明するトレーニングプロセスにより生じる情報を記憶する。データベース３３０は、主にマッチングエンジン３４０により利用される。マッチングエンジン３４０は、データベース３３０に記録されたデータに基づいて、文中の各単語の代替語のリスト作成する。最適化部３５０は、各単語の代わりになる最適な単語を決定し、置換するのに最も適した選択肢を列挙する。

トレーニングプロセスにおいて、システム１３０は、特定の文脈を示す一組の文書（例えば、ドキュメントウェブサイト１１０や文書データなどのドキュメントウェブサイト）に導入される。

例えば、システム１３０が法律形式の書き方を学習するために、システム１３０は、法律の文書や原稿を記憶するウェブサイトが与えられる。システム１３０は、ウェブサイトに“入り”、法律に関連する総ての文書を確認する。このようにして、システムは“読み取り”処理のように動作する。

遭遇する文書ごとに、パーサ３２０は総ての文を分析（“読み取りおよび検索”）し、データベース３３０に情報を記憶する。この情報は、元の時制のままデータベース３３０に記憶され、また、文中の単語の役割に関する総ての情報を含み、文中の単語の実際の使用についての手掛かりとなる。
以下の情報がデータベース３３０に記憶される。
１．各言語の構成要素（名詞、動詞、形容詞、および副詞）
２．単語の組合せ（例えば、“有力な証拠（compelling evidence）”）
３．文の残りの構成要素との相互関係
４．とり得る“意味“

ランキングエンジン３６０は、以下のようなパラメータリストにしたがって、ドキュメントウェブサイト１１０または他のウェブサイトからページを記録する。
１．リンクの数
２．ｈｔｍｌのタグの数
３．文の数
４．文の平均の長さ

ランキングエンジン３６０は、システム１３０が遭遇するページごとのページの格付けを算出する。ページの格付けが利用者の設定した最低限の格付けよりも低い場合、ランキングエンジン３６０はページを無視し、このページは分析されない。

実施例では、システム１３０はまた、データベースに書き込まれる総ての情報にページの格付けを付加する。これによりシステムは、ページの格付けが高い、すなわち質の高いテキストにて遭遇する組合せや単語を選択することができる。

最適化部３５０は、文書内のいずれの単語を置換すべきか、またいずれの単語の組合せを付加あるいは置換すべきか決定する処理を行う。最適化部３５０は、初めに文書を分析し、これは文を下位の文に分割することを含み、次いで、パーサ３２０を利用して文を分析し、文中の各単語の役割を決定する。処理の最後に、文中の各単語は役割（名詞、動詞、副詞、形容詞、前置詞、代名詞）が付される。

次に、最適化部３５０は、文中の単語（名詞、動詞、形容詞、および副詞）ごとに、データベース３３０の総ての選択肢のリストを検索する。さらに、最適化部は、文中の名詞または動詞それぞれの組み合わせを検索する（例えば、各名詞の形容詞、各動詞の副詞を検索する）。

最適化部２５０は、数学的な原理を利用して、データベース３３０に記録されたデータおよび検索されたデータに基づいて最適な置換を行う。置換する候補になっている単語ごとに、最適化部３５０は、元の単語のスコアを算出し、いくつの単語がより大きなスコアを有するか判定する。スコアに応じて置換用の単語のリストから置換するのに最も適した単語を見つけ出す。既に組み合わされている単語（形容詞を有する名詞か副詞を有する動詞）ごとに、最適化部３５０は、データベース３３０から検索した組合せが高いスコアを有しているか判定し、スコアが高い場合には、組合せをスコアの高い組合せと置き換える。単語（名詞または動詞）が、組合せ（形容詞および副詞）を伴わないならば、最適化部３５０は、データベース３３０から、スコアの高いマッチングする組合せまたは単語を検索する。

単語が変更される前に、最適化部３５０は、文法的な構造が変更されないことを保証するために時制の一貫性を確認する。形容詞または副詞を付加することは、文法的な構造を変更しない。

図４は、データベース３３０のセクション（またはテーブル）４００を示す図である。ワードは、トレーニング中に遭遇した単語である。グループＩＤは、単語の役割（５−名
詞、６−動詞、７−形容詞、８−副詞）を表わす。プロフィールは、文脈（例えば、文学、医学、法律等の形式）を表わすプロフィールである。連結：名詞の連結は代名詞を表わし、動詞の連結は前置詞を表わす。ウィーク（weak）：この項目は、単語が名詞のときにのみ使用され、名詞に連結する動詞を表わす。スコア：指定した役割の単語が発生した回数。シソーラスインデックス：特定の行のインデックスのポインタを表わす。

図５は、データベース３３０の別のセクション（またはテーブル）５００を示す図である。項目を以下に説明する。タイプ：３は名詞と形容詞の連結を意味し、２は副詞と動詞の連結を意味する。キータイプ：グループＩＤと同様に単語の役割（５−名詞、６−動詞、７−形容詞、８−副詞）である。キーワード：組合せを有する単語である。ワードタイプ：キータイプと同様であるが、単語の組合せの役割を示す。ワード：単語の組合せである。スコア：登場した組合せの回数である。プロフィール：文脈（例えば、形式）を意味する。追加情報：組合せが動詞と副詞である場合、追加情報は、副詞が動詞の前あるいは後にあるかを示す（例えば、greatly admireとreport properly）。連結：組合せが名詞と形容詞である場合、連結は組合せに使用される代名詞を意味し、連結が副詞と動詞の場合、連結は前置詞を意味する。ウィーク：組合せが名詞と形容詞の場合、ウィークは組合せに接続される動詞を意味する。

テーブル４００、５００はそれぞれ、トレーニングプロセス中にシステム１３０が遭遇する文書を異なる観点で示している。解読は、総ての文の構成要素とともに文中の単語を、総ての文の構成要素を記録したデータベース内の総ての単語とマッチングすることにより実現され、これにより、システム１３０が既に読み取った文への完全一致を試みる。したがって、システム１３０の成功は、処理した文書の数に関連する。

図６は、文書の拡充を示す図である。拡充中は、ダイアログ表示６００は利用者に提示可能である。初めに、利用者の文を単語処理プログラムまたはサービスに入力し、システム１３０を動作させる。このシステム１３０は、ダイアログ表示６００をオープンし、利用者の文を選択肢とともに表示して、単語を変更し、または単語の組合せを指定した単語に付加する。各分析は、利用者が選択した法律、医学等のプロフィールに依存する。

例えば、システム１３０は、単語“clouded”の代わりの単語を提案し、単語“fogged”に置換する。この提案は、トレーニングフェーズでシステム１３０が得た知識ベースに基づく。システム１３０はまた、総ての変更を自動的に行い、リストボックスにその変更を列挙し、これにより、利用者が変化を確認して、許可を選択したりあるいは総ての推奨を無視できる。別の実施例では、利用者の入力や許可無しで、自動的に総ての変更を実施できる。

本発明の一実施例では、システム１３０は、利用者によってカスタマイズされた特別のパラメータセットにより、異なる結果を得ることができる。これらのパラメータは、拡充処理でハイライトすべき単語の数（パーセンテージまたは絶対数）を含む。別の変更可能なパラメータは、拡充する単語の種類である。例えば、拡充は、遭遇する頻度の低い単語および単語の組合せが、一般的で慣用的な単語および単語の組合せのために設定できる。

図７−図１０はそれぞれ、シソーラステーブル７００、シソーラススコア８００、シソーラステーブルの例９００、およびシソーラススコアの例１０００を示している。トレーニングフェーズでは、システム１３０が名詞、動詞、形容詞、副詞に遭遇するごとに、システム１３０が、特定の文の分析により集めた総ての情報を示すシソーラススコアテーブルに情報（line）をライトする。

図１１は、拡充システム１３０のトレーニング方法１１００を示すフローチャートである。初めに、前述したようにページが格付けされる（１１１０）。ページが最低限の格付けを満たさず（１１２０）、格付けされるページが無い場合は（１１３）、方法１１００は終了する。そうでない場合には、方法１１００が次のページに移動し（１１４０）、格付けされる（１１００）。ページが最低限の格付けを満たす場合は（１１２０）、前述したようにページが分析され（１１５０）、データがデータベース３３０に格納される（１１６０）。格付けされるページがある場合は（１１３０）、方法１１００は繰り返される。そうでない場合には、方法１１００が終了する。

図１２は、文書の拡充する方法１２００を示すフローチャートである。初めに、文書が読み取られる（１２００）。次いで、各文が分析される（１２２０）。次いで、単語または単語の組合せごとの選択肢のリストが検索される（１２３０）。代替的に、利用者の選択に基づいて、いくつかの単語の選択肢だけを提供することができる。名詞、動詞、形容詞、副詞ごとに、システムは、利用者の文の文脈を最も説明するシソーラス内のマッチングラインを見つけようとする。シソーラス内のラインごとに、テーブルがアルゴリズム機能に基づいて適切なスコアを算定する。実施例では、アルゴリズム機能の引数には、ａ．query_word−類義語を示す必要がある単語と、ｂ．lang_type−query_wordの文法的な種類が含まれる。アルゴリズムは、query_wordのために合致する類義語のリストを戻す。
１．Ｌ＝空のリスト
２．stem word＝文法的な種類が同じである問い合わせる単語の語幹（基本的な活用形）
３．stem word（単語の語源（基本的な時制））を含むデータベース内のレコードごとに：
ａ．レコードのスコアを算出する。
４．スコアが最大のレコードを選択する。
５．選択された類義語ごとに：
ａ．問い合わせる単語に応じた適切な活用形を見つける。
ｂ．語尾変化した単語をリストに追加する。
６．リストＬを戻す。

次に、文書の変更が、戻されたリストＬ内でスコアが最も高い選択肢を利用してリストと形式に基づいて（例えば、文学形式は医学形式と異なる選択肢を提供する）決定される（１２４０）。次いで、文書が変更される（１２５０）。変更（１２５０）は、利用者がさらに入力することなく完全に自動的に行うことができ、または利用者が変更ごとの許可をすることができる。これで方法１２００が終了する。

本発明の図示した実施例の前述の説明は例示であり、前述の説明を考慮して、前述の実施例および方法のその他の変更および修正が可能である。例えば、ＡＥシステム１３０は、一般に用いられる単語を選択することにより文書の簡素化に利用できる。ネットワークサイトは個別および別個のサイトとして説明しているが、当業者であれば、これらのサイトを統合されたサイトの一部とし、それぞれ複数のサイトの一部を含み、または単一および複数のサイトの組合せを含んでもよい。さらに、本発明の構成要素は、プログラミングされた汎用的なデジタルコンピュータを利用して、特定の集積回路の応用例を利用して、または従来の構成要素と回路を接続するネットワークを利用して実現してもよい。接続は、ワイヤ、無線、モデム等でもよい。ここで説明した実施例は、包括的または限定的であることを意図するものではない。本発明は請求項によってのみ限定される。

図１は、本発明の実施例にかるネットワークを示すブロック図である。図２は、図１のネットワークの拡充システムを示すブロック図である。図３は、図１の拡充システムのメモリを示すブロック図である。図４は、メモリのデータベースのセクションを示す図である。図５は、データベースの別のセクションを示す図である。図６は、文書の拡充を示す図である。図７は、シソーラステーブルを示す図である。図８は、シソーラススコアを示す図である。図９は、シソーラステーブルの一例を示す図である。図１０は、シソーラススコアテーブルの一例を示す図である。図１１は、拡充システムのトレーニング方法を示すフローチャートである。図１２は、文書の拡充する方法を示すフローチャートである。

Claims

文を分析するステップと、
前記文の少なくとも一つの単語のために、置換用の単語のリストを検索するステップと、
前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択するステップと、
前記少なくとも一つの単語を選択された置換用の単語に置き換えるステップとを含む方法。
請求項１に記載の方法において、前記形式が、医学、文学、法律、または商業を含むこと特徴とする方法。
請求項１に記載の方法において、前記トレーニングする文書は、当該トレーニングする文書を有するウェブページが最低限の格付けを満たすときに、置換用の単語のスコアを作成するのに利用されることを特徴とする方法。
請求項３に記載の方法において、前記格付けが、前記ウェブページへのリンクの数、前記ウェブページのＨＴＭＬのタグの数、前記トレーニングする文書の文の数、および前記トレーニングする文書の文の平均の長さに基づくことを特徴とする方法。
請求項１に記載の方法がさらに、前記置き換えの前に、利用者に置き換えの許可を促すステップを含むことを特徴とする方法。
請求項１に記載の方法において、前記分析するステップは、前記少なくとも一つの単語の役割を決定するステップを含み、前記検索するステップは、同じ役割を有する置換用の単語を検索するステップを含むことを特徴とする方法。
請求項１に記載の方法がさらに、
前記少なくとも一つの単語のために組合せのリストを検索し、
前記文の形式と、単語の組合せが前記形式のトレーニングする文書内で発生する頻度を示すスコアであって組合せごとのスコアとに基づいて、前記少なくとも一つの単語のために、前記組合せのリストから組合せを選択するステップと、
選択された組合せを前記文に付加するステップとを含むことを特徴とする方法。
請求項７に記載の方法において、前記組合せは、前記少なくとも一つの単語が動詞を含む場合に副詞を含み、前記組合せは、前記少なくとも一つの単語が名詞を含む場合に形容詞を含むことを特徴とする方法。
コンピュータに方法を実行させる命令が記憶されたコンピュータで読み取り可能な媒体であって、前記方法が、
文を分析するステップと、
前記文の少なくとも一つの単語のために、置換用の単語のリストを検索するステップと、
前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択するステップと、
前記少なくとも一つの単語を選択された置換用の単語に置き換えるステップとを含むことを特徴とするコンピュータで読み取り可能な媒体。
文を分析する手段と、
前記文の少なくとも一つの単語のために、置換用の単語のリストを検索する手段と、
前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択する手段と、
前記少なくとも一つの単語を選択された置換用の単語に置き換える手段とを具えるシステム。
文を分析可能なパーサと、
前記パーサに通信接続され、前記文の少なくとも一つの単語のために、置換用の単語のリストを検索可能なマッチングエンジンと、
前記マッチングエンジンに通信接続され、前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択し、前記少なくとも一つの単語を選択された置換用の単語に置き換えることができる最適化部とを具えることを特徴とするシステム。
請求項１１に記載のシステムにおいて、前記形式が、医学、文学、法律、または商業を含むことを特徴とするシステム。
請求項１１に記載のシステムにおいて、前記トレーニングする文書は、当該トレーニングする文書を有するウェブページが最低限の格付けを満たすときに、置換用の単語のスコアを作成するのに使われることを特徴とするシステム。
請求項１３に記載のシステムにおいて、前記格付けが、前記ウェブページへのリンクの数、前記ウェブページのＨＴＭＬのタグの数、前記トレーニングする文書の文の数、および前記トレーニングする文書の文の平均の長さに基づくことを特徴とするシステム。
請求項１１に記載のシステムにおいて、前記最適化部がさらに、前記置き換えの前に、利用者に置き換えの許可を促すことができることを特徴とするシステム。
請求項１１に記載のシステムにおいて、前記パーサがさらに、前記少なくとも一つの単語の役割を決定し、前記検索は、同じ役割を有する置換用の単語を検索することを含むことを特徴とするシステム。
請求項１１に記載のシステムにおいて、前記マッチングエンジンがさらに、前記少なくとも一つの単語のために、組合せのリストを検索可能であり、
前記最適部がさらに、前記文の形式と、単語の組合が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって組合せごとのスコアとに基づいて、前記少なくとも一つの単語のために、組合せを前記組合せのリストから選択でき、選択された組合せを前記文に付加できることを特徴とするシステム。
請求項１７に記載のシステムにおいて、前記組合せは、前記少なくとも一つの単語が動詞を含む場合に副詞を含み、前記組合せは、前記少なくとも一つの単語が名詞を含む場合に形容詞を含むことを特徴とするシステム。