JP2008522332A - 自動的に文書を拡充するシステムおよび方法 - Google Patents

自動的に文書を拡充するシステムおよび方法 Download PDF

Info

Publication number
JP2008522332A
JP2008522332A JP2007544606A JP2007544606A JP2008522332A JP 2008522332 A JP2008522332 A JP 2008522332A JP 2007544606 A JP2007544606 A JP 2007544606A JP 2007544606 A JP2007544606 A JP 2007544606A JP 2008522332 A JP2008522332 A JP 2008522332A
Authority
JP
Japan
Prior art keywords
word
replacement
sentence
list
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007544606A
Other languages
English (en)
Inventor
ブレナー,リラン
Original Assignee
ホワイトスモーク,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホワイトスモーク,インク. filed Critical ホワイトスモーク,インク.
Publication of JP2008522332A publication Critical patent/JP2008522332A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

【課題】
【解決手段】特定の形式によって文書を拡充することができるシステムおよび方法である。拡充は特定の形式を有する文書の分析に基づいており、これにより文が修正される。
【選択図】図1

Description

本発明は一般に文書の修正に関し、特に、限定するものではないが、文字の種類や書類形式に基づいて文書を拡充するシステムおよび方法を提供する。
文書の機械翻訳は、しばしば理解できないことがある。この原因の一つは、翻訳が元の文書の形式を考慮していないことである。例えば、法律文書は、文学的な文書(例えば、詩)とは異なるように翻訳しなければならない。さらに、文書の著者は特定の形式に合うように文書を拡充したいと思う場合がある。例えば、法律家でない者が法律家のような文書を書くことを望んでいることである。
したがって、文書を拡充することができる新しいシステムおよび方法が必要である。
本発明の実施例は、利用者が介入することなく、与えられた文書を自動的に改良あるいは拡充することができるシステムおよび方法を具える(限定しないが、テキストからテキストと、スピーチからテキスト、テキストからスピーチ、スピーチからスピーチによる方法を含む)。システムへの入力は、文書とプロフィールで構成される。システムは、利用者のプロフィール(例えば、総合、一般、個人、専門、商業、ビジネス、法律、医学、科学、および文学)に基づいて、より質の高い文書を生成する。異なるプロフィールごとに、個別の最適な文書が生成される。
本発明の実施例は、以下のアプリケーションとして使用することができる。
1.概略から逸脱することなく、文字および/または文書を好適に置換および/または付加する提案階層を含む、言語の質の向上および言語の拡充。
2.(独自に開発された、あるいは従来の)文法チェック
3.(独自に開発された、あるいは従来の)スペルチェック
4.翻訳(例えば、限定ではなく、英語から英語や、英語から英語以外の言語を含む、同一の言語内や、一の言語と別の言語との間で質を高め、拡充することができる)。例えば、本システムは、利用者が、ある言語を用いて、同一または異なる言語間で質を向上や拡充を受けることにより、その特徴を活かすことができる。
5.前置詞−置換や訂正に適した前置詞を提案する(“in Monday”を“on Monday”に)。
6.熟語およびことわざ
7.シソーラス(正しい時制の適切な言葉の提案や、複数または単一の形式および文脈を含む)
8.これに限らないが、総合、一般、個人、専門、商業、ビジネス、法律、医学、科学、および文学を含む様々なプロフィールによりテキストを拡充し質を向上させる。
9.韻、物語
10.専門用語、俗語
11.視覚特性(例えば、エモーティコン、図、アニメーション、絵、および動画)
12.オーディオ(例えば、映画)
13.オーディオビジュアル(音声認識)
14.引用句
15.(例えば、感情)の記述
16.総ての分野(例えば、科学、伝記、および歴史)の専門辞典
17.走り書き
18.語源
19.頭字語
20.エポニム
21.派生語
22.ストーリー
23.発音
24.詩、歌
25.名前(氏および名)
26.写真および画像
27.家系
さらに、翻訳システムを設計するのに、2つ以上の可能性(あいまいな言葉)から単語の特定の意味を決定することが最も困難である。翻訳の従来技術には、統計モデル、文脈依存性(context sensitive)等が含まれる。本発明の実施例は、所定の翻訳エンジンが、読み手から得た知識を活用することにより、各単語の置き換える選択肢を最小限にできるフィードバックフェーズを導入する。
本システムは、様々なデータベースを利用して任意の言語のプラットフォームに実装でき、すなわち、データベースおよび/または辞書の作成および/または修正を必要としない。
本システムの重要性は、利用者が介入することなく、ワンクリックで言語の専門家(任意の言語、例えば、英語等)として機能する専門的なシステムを作ることである。最適化された文章により、関連する言語の最低限の知識を有するネイティブスピーカでない人が、非常におよび/またはより洗練された著者である印象を与えることができる。また、本システムはコンピュータ等で文書を書いたり作成する作業を容易にする時間節約装置を提供する。
本発明の実施例は、様々なデータベースを利用して様々な言語のプラットフォームに実装でき、すなわち、独自のデータベースおよび/または辞書を必要としない。実施例は、従来のデータベースまたは辞書を利用して、自動的に言語および言葉の拡充処理を実装できる。
本発明の実施例は、選択された利用者のプロフィールに基づいて、関連する内容や文脈を認識し、自動的に文章を置き換えて拡充する。この処理は利用者によって選択されたプロフィールに依存し、このプロフィールは所定の形式を示し、これにより、異なるおよび/または良質および/またはさらに洗練されたおよび/またはより最適化された文章の訳文を生成する。
本発明の実施例は、システムが、選択されたプロフィールに合う最適な使用および/または単語の組合せおよび/または表現および/または熟語および/または文および/またはテキストについて学ぶことができるオートマチックラーニングおよびセルフインプルービングプロセス(ALSIP)に依存する。プロフィールは、総合、一般、個人、専門、商業、ビジネス、法律、医学、科学、および文学などの内容を記載し、例えば、利用者が“確かな証拠(solid evidence)”と記載し、法律のプロフィールを選択すると、システムは、代替的な熟語“有力な証拠(compelling evidence)”を提案する。利用者が、同一の表現に別のプロフィールを選択した場合、システムの提案は異なり、例えば、科学のプロフィールの場合は、“確かな証明(solid proof)”を提案する。
本発明の実施例は、(単語のみでなく)文および/またはテキスト全体に基づいて単語を変更することにより、文書を拡充し、例えば、“I ran out of doors”という文を“I ran out of the doors”に変更する。実施例は、文および/またはテキストの総ての部分を考慮する。プロフィールごとに、異なる最適な文を作成することができる。利用者がプロフィールを変更すると、システムの提案は変更される。
本発明の実施例は、文および/またはテキスト全体に基づいて、文の各単語を分析し、置き換え可能な単語および/または表現および/または熟語および/または文および/またはテキストから、最も適切なものを選択する。文が最適化されると、最適化された文は、文法、綴りが正しい文脈および文になる。例えば、システムは代名詞を付加あるいは代名詞を変更でき、文が文法的に変わらずに意味が同じであることを保証し、すなわち、入力文が“this is a test”である場合、利用者が本発明の提案を利用して構成要素“a test”を構成要素“examination”に置き換えると、システムは自動的に代名詞“a”を代名詞“an”に変更する。出力文は、“this is an examination”になる。
本システムはさらに、提案された各単語を元の文の関連する時制に変更できる。
従来技術とは違って利用者の能力は無関係であり、システムを動作して提案に対する個人的なフィードバックや知識を提供するために、利用者がシステムから尋ねられることはなく、その代わりに自動的に“受け入れ、放棄、変更、および改良”する高度な手段がある。本システムは、利用者の関与が最小限となる状態を作り出し、システムを動作してその出力を利用する。
本発明は、統計学的、数学的、および/またはその他の手段(例えば、分析、文脈依存、および確率)を利用して、拡充処理を実現する。しかしながら、以下に説明するように、本発明は、手動のマッチング処理または分類処理を必要としない技術によりこの処理を実現する。したがって、利用者がデータベースを作成および/または保守する必要がないため、労力と資源を削減できる。
本発明の実施例では、システムが、パーサと、マッチングエンジンと、最適化部とを具える。パーサは文を分析できる。パーサと通信接続されるマッチングエンジンは、文の少なくとも一つの単語のために、置換用の単語のリストを検索する。マッチングエンジンに通信接続される最適化部は、文の少なくとも一つの単語のために、文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、置換用の単語をリストから選択し、少なくとも一つの単語を選択された置換用の単語に置き換える。
本発明の実施例では、手段が、文を分析するステップと、文の少なくとも一つの単語のために、置換用の単語のリストを検索するステップと、少なくとも一つの単語のために、文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、置換用の単語をリストから選択するステップと、少なくとも一つの単語を選択された置換用の単語に置き換えるステップとを含む。
限定的および包括的でない本発明の実施例は以下の図面を参照して説明され、同じ参照番号は、明記しない限り様々な図面を通して同じ部分を示す。
以下の説明は、当業者が本発明を製造および利用できるように提供され、特定の応用例とそれが要求する状態で提供される。本発明の様々な変更は当業者にとっては明らかであり、ここで規定する原理は、本発明の意図および目的を逸脱しない限り、他の実施例や応用例に適用してもよい。したがって本発明は、説明する実施例に限定されることを意図するものではなく、ここで開示する原理、特徴、および技術と一致する広範な目的と合致すべきである。
図1は、本発明の一実施例にかかるネットワーク100を示すブロック図である。ネットワーク100は、自動拡充(AE)システム130に通信接続されたインターネットなどのネットワーク120に通信接続されたドキュメントウェブサイト110を具える。以下にさらに詳細に説明するAEシステムは、文書のトレーニングおよび拡充に用いられる。トレーニング中は、ドキュメントウェブサイト110に蓄積された文書などの文書をレビューし、特定の形式によってどのように文が構成されているかを学習する。拡充するときには、AEシステム130はトレーニング中に獲得した情報を利用して、利用者が選択した形式によって文書を分析し拡充する。
図2は、AEシステム130を示すブロック図である。AEシステム130は、中央処理装置(CPU)205と、ワーキングメモリ210と、永続メモリ220と、入力/出力(I/O)インタフェース230と、ディスプレイ240と、入力装置250とを具え、これら総てがバス260を介して相互に通信接続されている。CPU205は、Intel Pentiumマイクロプロセッサまたは永続メモリ220に記憶されたソフトウェアを実行可能な他のプロセッサを含んでもよい。ワーキングメモリ210は、ランダムアクセスメモリ(RAM)または他の種類のリード/ライト記憶装置あるいは記憶装置の組合せを含んでもよい。永続メモリ220は、ハードドライブ、リードオンリーメモリ(ROM)、またはAEシステム130が停止した後もデータを保持可能な他の記憶装置あるいは記憶装置の組合せを含んでもよい。I/Oインタフェース230は、ワイヤあるいは無線技術を利用して、直接あるいは間接的にネットワーク120に通信接続できる。ディスプレイ240は、フラットパネルディスプレイ、ブラウン管ディスプレイ、または他のディスプレイ装置を含んでもよい。本発明の他の構成要素と同様に任意である入力装置250は、キーボード、マウス、またはデータを入力する他の装置あるいはデータを入力する装置の組合せを含んでもよい。
本発明の実施例では、AEシステム130はまた、ネットワーク接続装置、付加的なメモリ、付加的なプロセッサ、LAN、情報をハードウェアチャネルに送る入力/出力ライン、インターネットあるいはイントラネット等の付加的な装置を具えてもよい。また、当業者であれば、AEシステム130が、代替的な方法によりプログラムやデータを受信し、記憶できることは理解できるであろう。
図3は、図1の拡充システムの永続メモリ220を示すブロック図である。メモリ220は、辞書310と、パーサ320と、データベース330と、マッチングエンジン340と、最適化部350と、ランキングエンジン360とを具える。辞書310は、例えば、“test”が動詞および名詞であるように、文の構成要素としての単語の役割により識別される関連する言語(例えば英語)の語彙を含む。提案する発明は、任意の辞書を利用できる。また、辞書310には置換可能な単語(例えばシソーラス)が含まれ、代わりの単語を提案できる。置換可能な単語は、辞書310または別のファイルに記憶できる。
パーサ320は、与えられた文を分析し、文中の単語にタグを付ける。パーサ320は、文の構成要素を識別する。例えば、“I am going home”という文の場合、パーサ320は、文を分析して各単語が担う役割を決定する。
[I]−>人称
[am]−>助動詞
[going]−>動詞、現在進行形
[home]−>名詞
パーサ320は、シフト軽減(shift reduce)パーサ、文脈依存パーサ、可能性パーサ等の異なる技術を利用して文を分析できる。
データベース330は、以下に説明するトレーニングプロセスにより生じる情報を記憶する。データベース330は、主にマッチングエンジン340により利用される。マッチングエンジン340は、データベース330に記録されたデータに基づいて、文中の各単語の代替語のリスト作成する。最適化部350は、各単語の代わりになる最適な単語を決定し、置換するのに最も適した選択肢を列挙する。
トレーニングプロセスにおいて、システム130は、特定の文脈を示す一組の文書(例えば、ドキュメントウェブサイト110や文書データなどのドキュメントウェブサイト)に導入される。
例えば、システム130が法律形式の書き方を学習するために、システム130は、法律の文書や原稿を記憶するウェブサイトが与えられる。システム130は、ウェブサイトに“入り”、法律に関連する総ての文書を確認する。このようにして、システムは“読み取り”処理のように動作する。
遭遇する文書ごとに、パーサ320は総ての文を分析(“読み取りおよび検索”)し、データベース330に情報を記憶する。この情報は、元の時制のままデータベース330に記憶され、また、文中の単語の役割に関する総ての情報を含み、文中の単語の実際の使用についての手掛かりとなる。
以下の情報がデータベース330に記憶される。
1.各言語の構成要素(名詞、動詞、形容詞、および副詞)
2.単語の組合せ(例えば、“有力な証拠(compelling evidence)”)
3.文の残りの構成要素との相互関係
4.とり得る“意味“
ランキングエンジン360は、以下のようなパラメータリストにしたがって、ドキュメントウェブサイト110または他のウェブサイトからページを記録する。
1.リンクの数
2.htmlのタグの数
3.文の数
4.文の平均の長さ
ランキングエンジン360は、システム130が遭遇するページごとのページの格付けを算出する。ページの格付けが利用者の設定した最低限の格付けよりも低い場合、ランキングエンジン360はページを無視し、このページは分析されない。
実施例では、システム130はまた、データベースに書き込まれる総ての情報にページの格付けを付加する。これによりシステムは、ページの格付けが高い、すなわち質の高いテキストにて遭遇する組合せや単語を選択することができる。
最適化部350は、文書内のいずれの単語を置換すべきか、またいずれの単語の組合せを付加あるいは置換すべきか決定する処理を行う。最適化部350は、初めに文書を分析し、これは文を下位の文に分割することを含み、次いで、パーサ320を利用して文を分析し、文中の各単語の役割を決定する。処理の最後に、文中の各単語は役割(名詞、動詞、副詞、形容詞、前置詞、代名詞)が付される。
次に、最適化部350は、文中の単語(名詞、動詞、形容詞、および副詞)ごとに、データベース330の総ての選択肢のリストを検索する。さらに、最適化部は、文中の名詞または動詞それぞれの組み合わせを検索する(例えば、各名詞の形容詞、各動詞の副詞を検索する)。
最適化部250は、数学的な原理を利用して、データベース330に記録されたデータおよび検索されたデータに基づいて最適な置換を行う。置換する候補になっている単語ごとに、最適化部350は、元の単語のスコアを算出し、いくつの単語がより大きなスコアを有するか判定する。スコアに応じて置換用の単語のリストから置換するのに最も適した単語を見つけ出す。既に組み合わされている単語(形容詞を有する名詞か副詞を有する動詞)ごとに、最適化部350は、データベース330から検索した組合せが高いスコアを有しているか判定し、スコアが高い場合には、組合せをスコアの高い組合せと置き換える。単語(名詞または動詞)が、組合せ(形容詞および副詞)を伴わないならば、最適化部350は、データベース330から、スコアの高いマッチングする組合せまたは単語を検索する。
単語が変更される前に、最適化部350は、文法的な構造が変更されないことを保証するために時制の一貫性を確認する。形容詞または副詞を付加することは、文法的な構造を変更しない。
図4は、データベース330のセクション(またはテーブル)400を示す図である。ワードは、トレーニング中に遭遇した単語である。グループIDは、単語の役割(5−名
詞、6−動詞、7−形容詞、8−副詞)を表わす。プロフィールは、文脈(例えば、文学、医学、法律等の形式)を表わすプロフィールである。連結:名詞の連結は代名詞を表わし、動詞の連結は前置詞を表わす。ウィーク(weak):この項目は、単語が名詞のときにのみ使用され、名詞に連結する動詞を表わす。スコア:指定した役割の単語が発生した回数。シソーラスインデックス:特定の行のインデックスのポインタを表わす。
図5は、データベース330の別のセクション(またはテーブル)500を示す図である。項目を以下に説明する。タイプ:3は名詞と形容詞の連結を意味し、2は副詞と動詞の連結を意味する。キータイプ:グループIDと同様に単語の役割(5−名詞、6−動詞、7−形容詞、8−副詞)である。キーワード:組合せを有する単語である。ワードタイプ:キータイプと同様であるが、単語の組合せの役割を示す。ワード:単語の組合せである。スコア:登場した組合せの回数である。プロフィール:文脈(例えば、形式)を意味する。追加情報:組合せが動詞と副詞である場合、追加情報は、副詞が動詞の前あるいは後にあるかを示す(例えば、greatly admireとreport properly)。連結:組合せが名詞と形容詞である場合、連結は組合せに使用される代名詞を意味し、連結が副詞と動詞の場合、連結は前置詞を意味する。ウィーク:組合せが名詞と形容詞の場合、ウィークは組合せに接続される動詞を意味する。
テーブル400、500はそれぞれ、トレーニングプロセス中にシステム130が遭遇する文書を異なる観点で示している。解読は、総ての文の構成要素とともに文中の単語を、総ての文の構成要素を記録したデータベース内の総ての単語とマッチングすることにより実現され、これにより、システム130が既に読み取った文への完全一致を試みる。したがって、システム130の成功は、処理した文書の数に関連する。
図6は、文書の拡充を示す図である。拡充中は、ダイアログ表示600は利用者に提示可能である。初めに、利用者の文を単語処理プログラムまたはサービスに入力し、システム130を動作させる。このシステム130は、ダイアログ表示600をオープンし、利用者の文を選択肢とともに表示して、単語を変更し、または単語の組合せを指定した単語に付加する。各分析は、利用者が選択した法律、医学等のプロフィールに依存する。
例えば、システム130は、単語“clouded”の代わりの単語を提案し、単語“fogged”に置換する。この提案は、トレーニングフェーズでシステム130が得た知識ベースに基づく。システム130はまた、総ての変更を自動的に行い、リストボックスにその変更を列挙し、これにより、利用者が変化を確認して、許可を選択したりあるいは総ての推奨を無視できる。別の実施例では、利用者の入力や許可無しで、自動的に総ての変更を実施できる。
本発明の一実施例では、システム130は、利用者によってカスタマイズされた特別のパラメータセットにより、異なる結果を得ることができる。これらのパラメータは、拡充処理でハイライトすべき単語の数(パーセンテージまたは絶対数)を含む。別の変更可能なパラメータは、拡充する単語の種類である。例えば、拡充は、遭遇する頻度の低い単語および単語の組合せが、一般的で慣用的な単語および単語の組合せのために設定できる。
図7−図10はそれぞれ、シソーラステーブル700、シソーラススコア800、シソーラステーブルの例900、およびシソーラススコアの例1000を示している。トレーニングフェーズでは、システム130が名詞、動詞、形容詞、副詞に遭遇するごとに、システム130が、特定の文の分析により集めた総ての情報を示すシソーラススコアテーブルに情報(line)をライトする。
図11は、拡充システム130のトレーニング方法1100を示すフローチャートである。初めに、前述したようにページが格付けされる(1110)。ページが最低限の格付けを満たさず(1120)、格付けされるページが無い場合は(113)、方法1100は終了する。そうでない場合には、方法1100が次のページに移動し(1140)、格付けされる(1100)。ページが最低限の格付けを満たす場合は(1120)、前述したようにページが分析され(1150)、データがデータベース330に格納される(1160)。格付けされるページがある場合は(1130)、方法1100は繰り返される。そうでない場合には、方法1100が終了する。
図12は、文書の拡充する方法1200を示すフローチャートである。初めに、文書が読み取られる(1200)。次いで、各文が分析される(1220)。次いで、単語または単語の組合せごとの選択肢のリストが検索される(1230)。代替的に、利用者の選択に基づいて、いくつかの単語の選択肢だけを提供することができる。名詞、動詞、形容詞、副詞ごとに、システムは、利用者の文の文脈を最も説明するシソーラス内のマッチングラインを見つけようとする。シソーラス内のラインごとに、テーブルがアルゴリズム機能に基づいて適切なスコアを算定する。実施例では、アルゴリズム機能の引数には、a.query_word−類義語を示す必要がある単語と、b.lang_type−query_wordの文法的な種類が含まれる。アルゴリズムは、query_wordのために合致する類義語のリストを戻す。
1.L=空のリスト
2.stem word=文法的な種類が同じである問い合わせる単語の語幹(基本的な活用形)
3.stem word(単語の語源(基本的な時制))を含むデータベース内のレコードごとに:
a.レコードのスコアを算出する。
4.スコアが最大のレコードを選択する。
5.選択された類義語ごとに:
a.問い合わせる単語に応じた適切な活用形を見つける。
b.語尾変化した単語をリストに追加する。
6.リストLを戻す。
次に、文書の変更が、戻されたリストL内でスコアが最も高い選択肢を利用してリストと形式に基づいて(例えば、文学形式は医学形式と異なる選択肢を提供する)決定される(1240)。次いで、文書が変更される(1250)。変更(1250)は、利用者がさらに入力することなく完全に自動的に行うことができ、または利用者が変更ごとの許可をすることができる。これで方法1200が終了する。
本発明の図示した実施例の前述の説明は例示であり、前述の説明を考慮して、前述の実施例および方法のその他の変更および修正が可能である。例えば、AEシステム130は、一般に用いられる単語を選択することにより文書の簡素化に利用できる。ネットワークサイトは個別および別個のサイトとして説明しているが、当業者であれば、これらのサイトを統合されたサイトの一部とし、それぞれ複数のサイトの一部を含み、または単一および複数のサイトの組合せを含んでもよい。さらに、本発明の構成要素は、プログラミングされた汎用的なデジタルコンピュータを利用して、特定の集積回路の応用例を利用して、または従来の構成要素と回路を接続するネットワークを利用して実現してもよい。接続は、ワイヤ、無線、モデム等でもよい。ここで説明した実施例は、包括的または限定的であることを意図するものではない。本発明は請求項によってのみ限定される。
図1は、本発明の実施例にかるネットワークを示すブロック図である。 図2は、図1のネットワークの拡充システムを示すブロック図である。 図3は、図1の拡充システムのメモリを示すブロック図である。 図4は、メモリのデータベースのセクションを示す図である。 図5は、データベースの別のセクションを示す図である。 図6は、文書の拡充を示す図である。 図7は、シソーラステーブルを示す図である。 図8は、シソーラススコアを示す図である。 図9は、シソーラステーブルの一例を示す図である。 図10は、シソーラススコアテーブルの一例を示す図である。 図11は、拡充システムのトレーニング方法を示すフローチャートである。 図12は、文書の拡充する方法を示すフローチャートである。

Claims (18)

  1. 文を分析するステップと、
    前記文の少なくとも一つの単語のために、置換用の単語のリストを検索するステップと、
    前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択するステップと、
    前記少なくとも一つの単語を選択された置換用の単語に置き換えるステップとを含む方法。
  2. 請求項1に記載の方法において、前記形式が、医学、文学、法律、または商業を含むこと特徴とする方法。
  3. 請求項1に記載の方法において、前記トレーニングする文書は、当該トレーニングする文書を有するウェブページが最低限の格付けを満たすときに、置換用の単語のスコアを作成するのに利用されることを特徴とする方法。
  4. 請求項3に記載の方法において、前記格付けが、前記ウェブページへのリンクの数、前記ウェブページのHTMLのタグの数、前記トレーニングする文書の文の数、および前記トレーニングする文書の文の平均の長さに基づくことを特徴とする方法。
  5. 請求項1に記載の方法がさらに、前記置き換えの前に、利用者に置き換えの許可を促すステップを含むことを特徴とする方法。
  6. 請求項1に記載の方法において、前記分析するステップは、前記少なくとも一つの単語の役割を決定するステップを含み、前記検索するステップは、同じ役割を有する置換用の単語を検索するステップを含むことを特徴とする方法。
  7. 請求項1に記載の方法がさらに、
    前記少なくとも一つの単語のために組合せのリストを検索し、
    前記文の形式と、単語の組合せが前記形式のトレーニングする文書内で発生する頻度を示すスコアであって組合せごとのスコアとに基づいて、前記少なくとも一つの単語のために、前記組合せのリストから組合せを選択するステップと、
    選択された組合せを前記文に付加するステップとを含むことを特徴とする方法。
  8. 請求項7に記載の方法において、前記組合せは、前記少なくとも一つの単語が動詞を含む場合に副詞を含み、前記組合せは、前記少なくとも一つの単語が名詞を含む場合に形容詞を含むことを特徴とする方法。
  9. コンピュータに方法を実行させる命令が記憶されたコンピュータで読み取り可能な媒体であって、前記方法が、
    文を分析するステップと、
    前記文の少なくとも一つの単語のために、置換用の単語のリストを検索するステップと、
    前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択するステップと、
    前記少なくとも一つの単語を選択された置換用の単語に置き換えるステップとを含むことを特徴とするコンピュータで読み取り可能な媒体。
  10. 文を分析する手段と、
    前記文の少なくとも一つの単語のために、置換用の単語のリストを検索する手段と、
    前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択する手段と、
    前記少なくとも一つの単語を選択された置換用の単語に置き換える手段とを具えるシステム。
  11. 文を分析可能なパーサと、
    前記パーサに通信接続され、前記文の少なくとも一つの単語のために、置換用の単語のリストを検索可能なマッチングエンジンと、
    前記マッチングエンジンに通信接続され、前記文の形式と、置換用の単語が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって置換用の単語ごとのスコアとに基づいて、前記少なくとも一つの単語のために、置換用の単語を前記リストから選択し、前記少なくとも一つの単語を選択された置換用の単語に置き換えることができる最適化部とを具えることを特徴とするシステム。
  12. 請求項11に記載のシステムにおいて、前記形式が、医学、文学、法律、または商業を含むことを特徴とするシステム。
  13. 請求項11に記載のシステムにおいて、前記トレーニングする文書は、当該トレーニングする文書を有するウェブページが最低限の格付けを満たすときに、置換用の単語のスコアを作成するのに使われることを特徴とするシステム。
  14. 請求項13に記載のシステムにおいて、前記格付けが、前記ウェブページへのリンクの数、前記ウェブページのHTMLのタグの数、前記トレーニングする文書の文の数、および前記トレーニングする文書の文の平均の長さに基づくことを特徴とするシステム。
  15. 請求項11に記載のシステムにおいて、前記最適化部がさらに、前記置き換えの前に、利用者に置き換えの許可を促すことができることを特徴とするシステム。
  16. 請求項11に記載のシステムにおいて、前記パーサがさらに、前記少なくとも一つの単語の役割を決定し、前記検索は、同じ役割を有する置換用の単語を検索することを含むことを特徴とするシステム。
  17. 請求項11に記載のシステムにおいて、前記マッチングエンジンがさらに、前記少なくとも一つの単語のために、組合せのリストを検索可能であり、
    前記最適部がさらに、前記文の形式と、単語の組合が前記形式のトレーニングする文書内で発生する頻度を示すスコアであって組合せごとのスコアとに基づいて、前記少なくとも一つの単語のために、組合せを前記組合せのリストから選択でき、選択された組合せを前記文に付加できることを特徴とするシステム。
  18. 請求項17に記載のシステムにおいて、前記組合せは、前記少なくとも一つの単語が動詞を含む場合に副詞を含み、前記組合せは、前記少なくとも一つの単語が名詞を含む場合に形容詞を含むことを特徴とするシステム。
JP2007544606A 2004-12-01 2005-12-01 自動的に文書を拡充するシステムおよび方法 Pending JP2008522332A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US63272804P 2004-12-01 2004-12-01
PCT/US2005/043996 WO2006086053A2 (en) 2004-12-01 2005-12-01 System and method for automatic enrichment of documents

Publications (1)

Publication Number Publication Date
JP2008522332A true JP2008522332A (ja) 2008-06-26

Family

ID=36793536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007544606A Pending JP2008522332A (ja) 2004-12-01 2005-12-01 自動的に文書を拡充するシステムおよび方法

Country Status (8)

Country Link
US (1) US20060247914A1 (ja)
EP (1) EP1817691A4 (ja)
JP (1) JP2008522332A (ja)
KR (1) KR20070088687A (ja)
CN (1) CN101065746A (ja)
AU (1) AU2005327096A1 (ja)
CA (1) CA2589942A1 (ja)
WO (1) WO2006086053A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4956532B2 (ja) * 2006-05-02 2012-06-20 日本曹達株式会社 液状組成物、液状組成物の製造方法、並びに哺乳動物及び鳥類の外部寄生虫防除剤
JP2013530437A (ja) * 2010-04-27 2013-07-25 アルカテル−ルーセント テキストコンテンツをオンライン・コミュニティの言語行動に適合させるための方法およびシステム
JP2014238855A (ja) * 2008-07-31 2014-12-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
JP2019021285A (ja) * 2017-03-17 2019-02-07 国立大学法人電気通信大学 情報処理システム、情報処理方法及びプログラム

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451188B2 (en) * 2005-01-07 2008-11-11 At&T Corp System and method for text translations and annotation in an instant messaging session
WO2007129316A2 (en) 2006-05-07 2007-11-15 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US20080052272A1 (en) * 2006-08-28 2008-02-28 International Business Machines Corporation Method, System and Computer Program Product for Profile-Based Document Checking
US20080167876A1 (en) * 2007-01-04 2008-07-10 International Business Machines Corporation Methods and computer program products for providing paraphrasing in a text-to-speech system
US8977631B2 (en) * 2007-04-16 2015-03-10 Ebay Inc. Visualization of reputation ratings
US8528808B2 (en) 2007-05-06 2013-09-10 Varcode Ltd. System and method for quality management utilizing barcode indicators
CN105045777A (zh) * 2007-08-01 2015-11-11 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US20090089057A1 (en) * 2007-10-02 2009-04-02 International Business Machines Corporation Spoken language grammar improvement tool and method of use
EP2218055B1 (en) 2007-11-14 2014-07-16 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US20090198488A1 (en) * 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
EP2277157A4 (en) * 2008-04-16 2014-06-18 Ginger Software Inc SYSTEM FOR WRITING INSTRUCTIONS ON THE BASIS OF PRIOR WRITING EXPERIENCES FOR A USER
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US20090319927A1 (en) * 2008-06-21 2009-12-24 Microsoft Corporation Checking document rules and presenting contextual results
US8473443B2 (en) * 2009-04-20 2013-06-25 International Business Machines Corporation Inappropriate content detection method for senders
JP5471065B2 (ja) * 2009-06-24 2014-04-16 富士ゼロックス株式会社 文書情報生成装置、文書登録システム、及びプログラム
CA2787390A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US8782037B1 (en) 2010-06-20 2014-07-15 Remeztech Ltd. System and method for mark-up language document rank analysis
US8650023B2 (en) * 2011-03-21 2014-02-11 Xerox Corporation Customer review authoring assistant
US9727748B1 (en) * 2011-05-03 2017-08-08 Open Invention Network Llc Apparatus, method, and computer program for providing document security
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
US9442909B2 (en) * 2012-10-11 2016-09-13 International Business Machines Corporation Real time term suggestion using text analytics
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9940307B2 (en) 2012-12-31 2018-04-10 Adobe Systems Incorporated Augmenting text with multimedia assets
US20140337009A1 (en) * 2013-05-07 2014-11-13 International Business Machines Corporation Enhancing text-based electronic communications using psycho-linguistics
US20150033178A1 (en) * 2013-07-27 2015-01-29 Zeta Projects Swiss GmbH User Interface With Pictograms for Multimodal Communication Framework
KR101482430B1 (ko) * 2013-08-13 2015-01-15 포항공과대학교 산학협력단 전치사 교정 방법 및 이를 수행하는 장치
JP6291872B2 (ja) * 2014-01-31 2018-03-14 コニカミノルタ株式会社 情報処理システム、およびプログラム
CN104133854A (zh) * 2014-07-09 2014-11-05 新乡学院 一种MySQL多语言混合文本全文检索的实现方法
US9754051B2 (en) * 2015-02-25 2017-09-05 International Business Machines Corporation Suggesting a message to user to post on a social network based on prior posts directed to same topic in a different tense
US10157169B2 (en) * 2015-04-20 2018-12-18 International Business Machines Corporation Smarter electronic reader
US20160335245A1 (en) * 2015-05-15 2016-11-17 Cox Communications, Inc. Systems and Methods of Enhanced Check in Technical Documents
JP6649472B2 (ja) 2015-05-18 2020-02-19 バーコード リミティド 活性化可能な品質表示ラベルのための熱変色性インク証印
CN107709946B (zh) 2015-07-07 2022-05-10 发可有限公司 电子质量标志
US10540431B2 (en) 2015-11-23 2020-01-21 Microsoft Technology Licensing, Llc Emoji reactions for file content and associated activities
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
CN108780439A (zh) * 2016-03-08 2018-11-09 威兹瑞德有限责任公司 用于内容丰富且用于教导阅读并实现理解的系统和方法
US10318554B2 (en) 2016-06-20 2019-06-11 Wipro Limited System and method for data cleansing
CN109388765A (zh) * 2017-08-03 2019-02-26 Tcl集团股份有限公司 一种基于社交网络的图片标题生成方法、装置及设备
US11151323B2 (en) 2018-12-03 2021-10-19 International Business Machines Corporation Embedding natural language context in structured documents using document anatomy
US11636338B2 (en) 2020-03-20 2023-04-25 International Business Machines Corporation Data augmentation by dynamic word replacement
KR102551949B1 (ko) * 2020-09-24 2023-07-06 이후록 법령체계도 조항간 관계 네트워크 구축과 멀티뷰어 구축 시스템

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5775375A (en) * 1980-10-28 1982-05-11 Sharp Corp Electronic interpreter
US4456973A (en) * 1982-04-30 1984-06-26 International Business Machines Corporation Automatic text grade level analyzer for a text processing system
GB2208448A (en) * 1987-07-22 1989-03-30 Sharp Kk Word processor
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5761689A (en) * 1994-09-01 1998-06-02 Microsoft Corporation Autocorrecting text typed into a word processing document
US5678053A (en) * 1994-09-29 1997-10-14 Mitsubishi Electric Information Technology Center America, Inc. Grammar checker interface
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5781879A (en) * 1996-01-26 1998-07-14 Qpl Llc Semantic analysis and modification methodology
US6012075A (en) * 1996-11-14 2000-01-04 Microsoft Corporation Method and system for background grammar checking an electronic document
US6047300A (en) * 1997-05-15 2000-04-04 Microsoft Corporation System and method for automatically correcting a misspelled word
US6751606B1 (en) * 1998-12-23 2004-06-15 Microsoft Corporation System for enhancing a query interface
US6591261B1 (en) * 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
US6347296B1 (en) * 1999-06-23 2002-02-12 International Business Machines Corp. Correcting speech recognition without first presenting alternatives
CA2398608C (en) * 1999-12-21 2009-07-14 Yanon Volcani System and method for determining and controlling the impact of text
US6983320B1 (en) * 2000-05-23 2006-01-03 Cyveillance, Inc. System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
US6583798B1 (en) * 2000-07-21 2003-06-24 Microsoft Corporation On-object user interface
US7058624B2 (en) * 2001-06-20 2006-06-06 Hewlett-Packard Development Company, L.P. System and method for optimizing search results
US7269548B2 (en) * 2002-07-03 2007-09-11 Research In Motion Ltd System and method of creating and using compact linguistic data
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4956532B2 (ja) * 2006-05-02 2012-06-20 日本曹達株式会社 液状組成物、液状組成物の製造方法、並びに哺乳動物及び鳥類の外部寄生虫防除剤
JP2014238855A (ja) * 2008-07-31 2014-12-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
JP2013530437A (ja) * 2010-04-27 2013-07-25 アルカテル−ルーセント テキストコンテンツをオンライン・コミュニティの言語行動に適合させるための方法およびシステム
KR101415634B1 (ko) 2010-04-27 2014-07-09 알까뗄 루슨트 온라인 커뮤니티의 언어 거동에 텍스트 컨텐트를 적응시키기 위한 방법 및 시스템
JP2019021285A (ja) * 2017-03-17 2019-02-07 国立大学法人電気通信大学 情報処理システム、情報処理方法及びプログラム
JP7170299B2 (ja) 2017-03-17 2022-11-14 国立大学法人電気通信大学 情報処理システム、情報処理方法及びプログラム

Also Published As

Publication number Publication date
EP1817691A2 (en) 2007-08-15
WO2006086053A3 (en) 2007-01-25
CA2589942A1 (en) 2006-08-17
WO2006086053A2 (en) 2006-08-17
AU2005327096A1 (en) 2006-08-17
CN101065746A (zh) 2007-10-31
EP1817691A4 (en) 2009-08-19
US20060247914A1 (en) 2006-11-02
KR20070088687A (ko) 2007-08-29

Similar Documents

Publication Publication Date Title
JP2008522332A (ja) 自動的に文書を拡充するシステムおよび方法
US7574348B2 (en) Processing collocation mistakes in documents
US8250074B2 (en) Document processing system and method thereof
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
US20080133444A1 (en) Web-based collocation error proofing
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
WO2001096980A2 (en) Method and system for text analysis
JP2004110835A (ja) 確認文を検索するための方法およびシステム
Kammoun et al. The MORPH2 new version: A robust morphological analyzer for Arabic texts
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
JP2016164724A (ja) 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
Erjavec et al. A web corpus and word sketches for Japanese
JP2004133564A (ja) 文書検索装置
KR100916645B1 (ko) 공기 정보, 주요 문법 요소 및 제목 정보를 이용한 문장요약 방법
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
KR950013129B1 (ko) 기계번역장치 및 방법
Nys et al. A semantic retrieval system in remote sensing web platforms
Srdanovic et al. A web corpus and word sketches for Japanese
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
Min et al. Integrated control of chart items for error repair
JP4087829B2 (ja) 結合価辞書拡張装置、方法、およびプログラム
POřÍZKA A Corpus of Czech Essays from the Turn of the 1900s
Alansary et al. IAN: An Automatic tool for Natural Language Analysis
García et al. Deriv@: A linguistic database for Spanish word formation