JPH0736896A - 文書を要約する方法および装置 - Google Patents
文書を要約する方法および装置Info
- Publication number
- JPH0736896A JPH0736896A JP6142717A JP14271794A JPH0736896A JP H0736896 A JPH0736896 A JP H0736896A JP 6142717 A JP6142717 A JP 6142717A JP 14271794 A JP14271794 A JP 14271794A JP H0736896 A JPH0736896 A JP H0736896A
- Authority
- JP
- Japan
- Prior art keywords
- document
- stoplist
- characters
- seedlist
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Abstract
る。 【構成】 本発明の方法は、文書の領域を選択すること
によって要約を自動的に作成する。選択した各領域はシ
ードリストの少なくとも2つのメンバーを含んでいる。
シードリストは、ストップリスト上に含まれていない、
文書内の所定の数の最もひんぱんに出現する複雑な表現
から作られる。要約が長過ぎる場合には、その要約に対
し領域選択処理が行われ、より短い要約が作られる。こ
の領域選択処理は所望の長さを有する要約が生じるまで
繰り返される。領域選択処理が繰り返されるたびに、シ
ードリストのメンバーがストップリストに加えられ、ひ
んぱんに出現する表現を識別するのに使用した複雑性レ
ベルが減じられる。
Description
作成する方法および装置、より詳細には簡単な自然言語
処理を用いて、テキストの統計的性質に頼って文書の要
約を作成する方法および装置に関するものである。
いので、文書の点検に役立つ。さらに、1つまたはそれ
以上の外国語の文書を点検するとき、文書全体でなく、
文書の要約のみを翻訳すればよいので、翻訳費用を節減
することができる。翻訳された要約を点検した後、文書
全体を翻訳すべきかどうかを決めることができる。
の利点があるので、要約を作成する必要がある。要約を
作成するため文書全体を読む必要がないように、要約を
自動的に作成することが望ましい。文書全体を読むか、
または翻訳するか、またはその両方を行うかどうかを人
々が正しく決定できるように、そのような自動要約は文
書の主題を正確に反映していなければならない。
の基本的な数理的手法がある。第1の手法は自然言語処
理と意味ネットワーク創成を集中的に使用する。第2の
手法は簡単な自然言語処理を使用し、そのあとテキスト
の統計的性質に頼る。
加えて、意味論的に正しい要約の作成は難しく、しかも
誤りを犯し易い。一般に、適切な意味論的モデル化を行
うには、事前に定義域を知っていなければならない。内
容に制限のない通常のテキストにそのような手法を用い
ることはできない。
Salton,Addison-Wesley,1989は、第2タイプの要約作
成手法を開示している。最初に文書の言語資料からテキ
スト語を分離する。タイトル、図、見出し、および脚注
に使用されている語はタイトル語としてフラグを立て
る。文書の言語資料内に残ったテキスト語の出現度数を
決定する。個々の文書および文書の言語資料内の語の場
所と出現度数に基づいて、語のウェイトを決定する。文
書の文の中の共起語(語句)について、語句のウェイト
を決定する。各文中の語および語句のウェイトに基づい
て、各文書内の文に得点を与える。そのあと、文書から
多くの最高得点の文を選択して、所定の長さを有する要
約を作成する。
用いて語および語句のウェイトを対応させる。したがっ
て、項目「ウェイト」は個々の文書に合うように個別化
されない。この結果、文書の主題を記述するのに役立た
ない文が要約中に含まれる可能性がある。さらに、 Sal
ton の手法は、文書を1パススルーで要約を作成するの
で、あまりにも短い文書の断面が抽出されることがあ
る。また、最高得点の文のみの選択は、適切な主題を伝
えていない支離滅裂な要約を生じさせることがある。
は、文書の領域を選択することによって要約を作成す
る。選択した各領域に、シードリストの少なくとも2つ
のメンバーが含まれている。シードリストは、ストップ
リスト上にない、文書内の所定数の最もひんぱんに出現
する複雑な表現から構成される。要約が長過ぎる場合に
は、その要約に対し領域選択処理を行って、より短い要
約を作る。所望の長さを有する要約ができるまで、この
領域選択処理を繰り返す。領域選択処理を繰り返すたび
に、シードリストのメンバーがストップリストに加えら
れ、ひんぱんに出現する表現を識別するのに使用した複
雑性レベルが減じられる。
されている場合、選択した各領域はシードリストの少な
くとも2つのメンバーを含んでいる文と、同じ段落内に
含まれる直前および直後の文に該当していることが好ま
しい。
初および(または)最後の段落内にある領域は一般に文
書の主題に関係しているので、最終的な要約の中に保持
することができる。語幹化(word stemming)も結果を改
善することができる。
冠詞、および動詞の意味を修正する法助動詞など、一般
的に使用される機能語は、効率を良くするため最初にス
トップリストに含めることができる。代わりに、領域選
択処理の最初の繰り返しのときストップリストを空にす
ることができる。
帳、スプレッドシート、辞書などの退化テキストとは対
照的に、散文の形で書かれた文書に特に有益である。
ストに適用できる。英語などローマ字を使用するテキス
トの場合、表現は語に該当しており、シードリストは最
もひんぱんに出現する非常に長い語を含んでいる。中国
文字(たとえば、北京官語)を使用する言語の場合、表
現は文字および文字列に該当しており、シードリストは
最もひんぱんに出現する複雑な文字および文字列を含ん
でいる。ここで、複雑性は文字または文字列のストロー
ク数によって定義される。日本語文書の複雑な表現は、
長い平仮名/片仮名/ローマ字の文字列と、あらかじめ
決められた最小数のストロークを有する中国(漢字)の
文字および文字列に該当する。領域選択処理を行うたび
に、語すなわち文字列の長さと、複雑な文字または文字
列のストローク数が減じられる。
にかなった文から成る(原文書はそのような文を含んで
いたと仮定して)。自然言語構文解析または意味ネット
ワークは不要である。従って、計算コストは低い。
る。本発明は、概念的に支配的な文書の主題を伝える文
書内の領域(たとえば、文)を自動的に捜し出し、それ
らの領域から要約を作成する。本発明は、ひんぱんに使
用される複雑な表現を含んでいる文書の領域は文書の主
題に関係があり、従って文書の要約を作成するのに役立
つという理論に立っている。
通例は主題を伝えない電話帳、スプレッドシート、およ
び辞書などの退化テキストとは対照的に、散文の形で書
かれた文書に特に有益である。
含む多数の言語で書かれた文書に有益である。英語文書
の場合は、表現は語に該当しており、複雑性は語長で定
量化される。中国文字(たとえば、北京官語)を使用す
る言語の場合は、表現は文字および文字列に該当してお
り、複雑性は文字または文字列のストローク数で定量化
される。日本語文書の場合は、表現は平仮名/片仮名/
ローマ字の文字列、漢字の文字および文字列に該当す
る。日本語文書の場合は、複雑性は平仮名/片仮名/ロ
ーマ字の文字列の長さと、漢字の文字および文字列に含
まれるストローク数で定量化される。
置を示す。本発明の方法は、原文書の電子的(ビットマ
ップ)イメージに対し、または文字コード(たとえば、
ASCIIデータ)として保存された文書に対し実施さ
れる。本発明の方法は、メモリ110に保存された手続
きを使用する専用または汎用ディジタルコンピュータ1
00によって実施される。電子文書(ビットマップイメ
ージデータまたは文字コードデータ)は入力装置80で
コンピュータ100へ入力される。入力装置80は、た
とえばワード処理ステーション、ディスク駆動装置、モ
デム、光学文字認識装置(OCR)を備えた、または備
えていないスキャナでもよい。文書の要約はコンピュー
タ100から出力装置90へ出力することができる。出
力装置90は出力表示装置92、印刷装置98、または
メモリまたは他の形式の記憶装置でもよい。出力表示装
置92はユーザーがコンピュータ100と対話できるよ
うにタッチスクリーン94を含むことができる。コンピ
ュータ100へ命令または他の情報を供給するため、タ
ッチスクリーン94のほかに、別の手段を準備すること
ができる。たとえば、キーボード96および(または)
マウス115を使用してコンピュータ100と対話する
ことができる。
ャートである。
初期化ステップS10において、複雑性レベルとシード
リストのサイズを事前に決定する。それらのパラメータ
はユーザーが入力してもよいし、省略時値を使用しても
よい。またS10において、ストップリストの初期メン
バーを定めることができる。次にS20において、1つ
または複数の文書を入力する。複数の文書を入力するこ
とができるが、本方法は、なるべく、他の文書に関する
どんな情報も使用せずに( Salton の手法と異なる)、
文書の要約を作成する。文書は、たとえばワードプロセ
ッサから文字コードとして、あるいはOCRを備えてい
ないスキャナからビットマップイメージとして入力して
もよい。
処理ステップS30は少なくともS32において文書を
トークン化する(tokenizing)ことを含む。トークン化
は文書を複数の表現に細分することである。たとえば、
英語文書の場合は、トークン化ステップは文書内のすべ
ての語を識別することに該当する。もし初めにストップ
リストにどれかの表現が載っていれば、S34におい
て、それらの表現を文書から除去するか、さもなけば残
っているテキストについてフラグを立てる。ストップリ
ストの初期メンバーは、たとえば、語または語句を結ぶ
接続詞、名詞句を導く冠詞、および動詞の意味を修正す
る法助動詞など、文章構成上の接着剤の役目を果たす頻
繁に使用される表現でもよい。さらに、語幹化(stemmi
ng) ステップS36を実行することができる。
めることができる。ステップS40において、文書内に
あるが、ストップリストに含まれていない複雑な表現の
出現度数を決定する。ステップS50において、ステッ
プS40において決定した最も高い出現度数をもつ所定
数Sの表現からシードリストを作る。次に、そのシード
リストを用いて、文書の主題に関係していると思われる
文書の領域を識別する。ステップS60において、これ
らの領域における2以上のシードリストメンバーの出現
に基づいて、文書の領域を選択する。好ましい実施例の
場合は、文書が複数の段落を構成する複数の文の形であ
れば、各領域は、シードリストの少なくとも2つのメン
バーを含む文と、同じ段落内にある直前および直後の文
に該当している。直前および直後の文の包含は、文脈を
与え、得られた要約を読み易くする。文書が複数の文を
含んでいなければ(英語以外の言語で書かれたある種の
文書において、そのようなケースがあるかも知れな
い)、領域選択基準は、互いに所定の近接の範囲内にあ
るシードリストの2つのメンバーの位置でもよい。選択
した領域は、シードリストメンバー、介在するテキス
ト、およびシードリストメンバーに先行および後続する
所定量のテキストに該当していることが好ましい。ステ
ップS70において、選択した領域から文書の要約を作
る。この要約は、文書から選択した領域を抜き出すこと
によって、または他の手段によって作ることができる。
返しから作られた要約は、一般に、原文書からテキスト
の約70%が除去されたものになる。原文書の長さによ
っては、ステップS40〜S70の1回の繰り返しで、
最終的な要約になるほどの短い要約が生じることがあ
る。一般に、文書の要約は1ページ以下の長さにするこ
とが要求される。
生じた要約が所望の長さを有するかどうかを決定する。
所望の長さはユーザーが入力してもよいし、事前に定め
た省略時長さでもよい。S80の結果が肯定的であれ
ば、手順はS100へ進む。S100では、その要約を
文書の要約として出力する。文書の要約は表示装置9
2、プリンタ98、またはメモリへ出力することができ
る。探索のとき識別された文書全体をオペレータが読ま
なくてもよいように、文書の要約をテキスト探索処理の
結果として出力してもよい。その代わり、文書の要約の
みを点検する必要がある。探索時にオペレータが文書要
約ボタン(出力全文書ボタンとは対照的に)を選択する
ことによって、文書の要約を自動的に生じさせることが
できる。
90へ進む。S90では、シードリストのメンバーをス
トップリストに加える。次に、S95において、複雑性
レベルを減じる。そのあと手順はステップS40〜S8
0を繰り返すため(2回目)S40へ戻る。この2回目
の繰り返しは、前にS70において作られた要約に対し
実行する。しかし、シードリストの前メンバーは現在ス
トップリスト上にあり、複雑性レベルが減じられている
ので、前にS70において選択した領域のサブセットを
選択する。
ステップS40〜S80Fを連続して繰り返す。ステッ
プS40〜S80を繰り返すたびに、ストップリストの
サイズが増し(シードリストの前メンバーがストップリ
ストに加えられるので)、複雑性レベルが減じられる。
の最初および(または)最後の段落内にある領域にタグ
を付けて、これらの領域を最終的な要約の中に保持する
ことによって、要約処理の出力を修正することができ
る。文書の最初および最後の段落は一般に文書の全般的
な主題に関係しているので、この追加ステップは文書の
要約をより良いものにすることができる。
文書の要約の中に適切な主題が現れる。行がシードリス
トのメンバーである語を過去に有していたか、または現
在有しているかに基づいて連続するステップにおいて文
書内の行の数が徐々に減じられるので、ひんぱんに出現
するストップ語(たとえば、“a”、“the ”、“and
”、等)はシードリストを作ることを許されているか
ら、またはもし原文書内に連続する同音異義語と、それ
らの同音異義語の非常に多くのトークンが存在していた
ならば(たとえば、もし文書が、“bank”(river banks
or finantial institutions)など、非常に多くの種類
の語を有していたならば)、残っている行はそのように
なる。
に適用した本発明の実例を説明する。これらの言語で書
かれた表現の実施例は異なる。したがって、テキストを
複雑な集りとして分類するやり方はこれらの言語の間で
異なる。英語文書の場合は、表現が語の形で伝えられ
る。従って、複雑な表現は非常に長い語に該当する。中
国語は文字を用いて表現を作る。文字は1個の語に該当
することもあるし、複数の語(語句)に該当することも
ある。さらに、中国語では文字を複合することができ
る。したがって、表現は1またはそれ以上の文字に該当
している。複雑性は文字または文字列に含まれるストロ
ーク数によって決まる。日本語は、漢字の文字と他の文
字(ローマ字と、平仮名や片仮名などの音節文字表)を
用いて1つまたはそれ以上の語に相当する表現を作る。
したがって、日本語文書の場合は、漢字の文字および文
字列のストローク複雑性と、平仮名、片仮名、およびロ
ーマ字の文字列の文字長さ複雑性を検討する。
用する特有のステップを示す図2の部分フローチャート
である。英語文書の場合は、文書内の「複雑な語」の出
現の度数に基づいて本方法を実施される。「複雑な語」
は、ある所定の長さに等しいか、それ以上の長さ(すな
わち、文字の数)を有する語と定義する。
語長変数Lに初期値Xを割り当てる。シードリストのメ
ンバーの数を定義するパラメータSに値Yを割り当て
る。好ましい実施例の場合、最初はS=6、L=8であ
る。これらの所定の値はオペレータが入力してもよい
し、省略時値でもよい。図2のステップS20において
文書を入力し、S30において前処理ステップを実施す
る。前処理には、少なくともトークン化ステップS32
が含まれる。さらに、一般的に使用される語(S34に
おいて文書から除去される)を含むようにストップリス
トを初期化することもできる。代わりに、ストップリス
トを初めに空にしてもよい。またS36において、語幹
化(stemming) 操作を実施することもできる。
ともLの長さを有し、ストップリストに含まれていない
語の出現の度数を決定する。ステップS50′におい
て、S40′において決定した最大度数を有するS個の
語をシードリストに入れる。次にステップS60′にお
いて、シードリストの少なくとも2つのメンバーを含む
文と、その直前および直後の文を選択する。そのあとS
70において、これらの選択した文を用いて要約を作
る。通例、文は要約内に置かれるとき元の読取り順序が
維持される。もし複数文の三つ組が原文書の単一段落か
らであれば、それらは要約の単一段落内に置かれる。も
し複数文の三つ組が原文書の異なる段落からであれば、
それらは要約の異なる段落内に置くことができる。
長さを有するかどうかを決定する。もちろん、所定の要
約の長さとして1ページ以外の長さを用いてもよい。S
80′の結果が肯定的であれば、S100において、そ
の要約を文書の要約として出力する。結果が否定的であ
れば、S90においてシードリスト上の6個の語をスト
ップリストに加え、S95′においてLの値を1だけ減
じる。このように、2回目のS40′を実施し、7個ま
たはそれ以上の長さを有する語(ストップリストに含ま
れていない)の度数を決定する。
して表現された文書、あるいは複号されてないビットマ
ップイメージに対し使用することができる。ビットマッ
プイメージを使用する場合には、たとえば複雑な語の出
現の度数を決定する際に、語形論的(morphological)イ
メージ処理手法を用いて語の形状を比較することができ
る。
た図2の方法を示す。日本語は、まるで異なる4つの文
字体系(ラテン・アルファベット、2つの音節文字表
(片仮名、平仮名)、および中国(漢字)文字)を系統
的に使用する点で他の言語とは異なる。また、日本語は
横にも縦にも書かれるし、通例、語間スペースは存在な
い。
ち、垂直か水平か)を決定する。この情報はコンピュー
タ100へ入力することもできるし、既知の自動プロセ
スを用いて決定することもできる。機械読取り可能なテ
キストは一般に基準形である。次に、2種類の複雑な表
現を定義することにより、図2に示した一般的方法を日
本語に使用できるように修正する。第1タイプの表現
は、平仮名、片仮名、またはローマ字の文字列によって
定義される。これらの文字列の複雑性は、上述の英語の
実施例と同様に、それらの長さに基づいて決定される。
漢字の文字は異なる取扱いがなされる。漢字の文字とひ
んぱんに使用される漢字の文字列の複雑性は、漢字の文
字または文字列のストローク数によって定義される。図
7は、漢字の文字をストローク数(15、16、17、
18、等)で分類するストローク表である。日本語文書
は、文字コードから文字の種類(すなわち、平仮名、片
仮名、ローマ字、漢字)を決定するために文字コードと
して記憶することが好ましい。
長さパラメータLに値Xを割り当てる。シードリスト長
さパラメータSに対し値Yを割り当てる。さらにストロ
ーク複雑性パラメータCを初期化しなければならない。
ストローク複雑性パラメータCは長さ複雑性パラメータ
Lに対し正規化することが好ましい。複雑な漢字の文字
または文字列は、複雑な平仮名/片仮名/ローマ字の文
字列が有する文字より多数のストロークを有しているこ
とが好ましい。したがって、ストローク複雑性パラメー
タCは文字列長さ複雑性パラメータLよりも大きい。こ
の結果、Cは、1より大きな値をもつ正規化変数aのL
倍に等しい値に初期化される。たとえば、a=2。した
がって、好ましい一実施例の場合、最初はL=8、C=
16である。L、S、C、aの初期値は、ユーザーが定
義してもよいし、省略時解釈によって決定してもよい。
書を入力する。前処理ステップS30において、少なく
ともトークン化ステップS32を実施する。
列を平仮名の文字列、片仮名の文字列、ローマ字の文字
列、および漢字の文字列として識別する。ステップS3
4において、ストップリストに含まれる文字列を除去す
ることが好ましい。図5に、日本語文書のための典型的
なストップリストを示す。
の度数を決定する。ここで表現は、平仮名、片仮名、お
よびローマ字の文字列と、漢字の文字および文字列に該
当する。最初にS41において、少なくとも長さLを有
し、ストップリストに含まれていない平仮名/片仮名/
ローマ字の文字列の度数を決定する。次にS42におい
て、少なくともCストロークを有し、ストップリストに
含まれていない漢字の文字および文字列の度数を決定す
る。次にS50″において、最も高い度数を有するS個
の平仮名/片仮名/ローマ字の文字列および漢字の文字
および文字列をシードリストに入れ、シードリストを作
る。
している文書の領域を選択する。日本語文書が段落とし
て構成された文を含んでいれば、S61aに示すよう
に、英語文書について上に述べたやり方に似たやり方
で、領域を選択する。代案として、S61bに示すよう
に、所定の量の周囲テキストと共に、互いに一定の近接
範囲内にある少なくとも2個のシードリストメンバーの
出現に基づいてテキストの領域を選択することができ
る。
作成する。残りのステップは、S95″において、Lの
値を1だけ減じ、その新しいLの値に基づいてCの値を
再決定することを除き、図2および図3について上に述
べたステップに似ている。
言語で書かれた文書に使用するため修正した図2の方法
を説明する。文書は文字コードを含むファイルとして作
成することが好ましい。代案として、本発明の方法を実
施する前に、走査した文書を認識し、文字コードへ変換
しなければならない。中国文字を使用する言語の場合、
複雑な表現は所定の最小数のストロークを有する文字お
よび文字列に該当する。上に述べた実施例と同様に、有
益な表現は、文書内に最もひんぱんに使用される表現で
あって、一般的に使用される表現のストップリスト内に
存在しない表現に該当する。図8〜図12は一般的に使
用される表現のストップリストを示す。ストップリスト
は、中国文字で書かれた文書から主題の要約の作成に貢
献しない表現を初めに除去するため使用することができ
る。さらに、中国文字は、複合する性向のため、個々の
文字のほかに、文字列も考えられる表現とみなさなけれ
ばならない。しかし、中国文字には語間スペースが存在
しないので、複数の文字で表された表現がいつ始まる
か、いつ終わるかを決定することが難しい。本発明は、
ひんぱんに出現する複雑な表現の統計に頼るので、比較
的簡単にこれらの難問に取り組める。
列長さパラメータLに値Xを割り当てる。シードリスト
パラメータSに値Yを割り当てる。複雑性パラメータC
に値Zを割り当てる。これらの値はオペレータが入力し
てもよいし、省略時値でもよい。
0′″は次の通りである。S46において、少なくとも
Lの長さを有し、ストップリストに含まれていないすべ
ての文字列の度数を決定する。一般に語間スペースは含
まれないので、理論上、これは文書全体についてすべて
の考えられる部分列を決定することを意味するであろう
が、実際には、句読点と段落構造に従って、純粋に文章
構成上の役割を演じる形態素(意味をもつ最小の言語単
位)を表す一定の共通文字の所でテキストを細分するこ
とによって、これは簡単に行われる。S47において、
C個以下のストロークを有するすべての文字列を除去す
る。S48において、少なくともC個のストロークを有
し、ストップリストに含まれないすべての文字の度数を
決定する。したがって、S40′″は、ストップリスト
に含まれないすべての文字(少なくともCのストローク
を有する)と、すべての複雑な文字列(少なくともC個
のストロークを有する)の度数を決定する。
複雑な文字と、複雑な文字列をシードリストに入れる。
残りのステップは、S95′″において、手続きを繰り
返すたびにCの値を1だけ減じることを除き、図2につ
いて上に述べたステップに似ている。
=17である。
図である。
チャートである。
チャートである。
ーチャートである。
ーチャートである。
ストである。
ップリストの一部である。
ップリストの一部である。
トップリストの一部である。
トップリストの一部である。
トップリストの一部である。
Claims (2)
- 【請求項1】 文字で表現されたテキストを含んでいる
文書を電子的に処理する方法であって、 (a) ストップリストに含まれていなく、少なくとも
第1の所定のレベルの複雑性を有する文書内の表現の出
現度数を決定すること、 (b) ステップ(a)において決定した、第2の所定
の数の最もひんぱんに出現する表現から成るシードリス
トを作ること、 (c) 前記シードリストの少なくとも2つのメンバー
を含んでいる文書内の領域から成る文書の要約を作るこ
と、および (d) 前記要約の長さが所定の長さ以下になるまで、
前記要約に対してステップ(a)〜(c)を繰り返すこ
と、そしてステップ(a)〜(c)を繰り返すたびに、
前記シードリスト上のメンバーを前記ストップリストに
加え、前記第1の所定のレベルの複雑性を減じること、
の諸ステップから成ることを特徴とする方法。 - 【請求項2】 平仮名、片仮名、ローマ字、および漢字
の文字で表現されたテキストを含んでいる日本語文書を
電子的に処理する方法であって、 (a) ストップリストに含まれていなく、前記平仮
名、片仮名、およびローマ字の少なくとも1つを含んで
いて、少なくとも第1の所定の数の文字を有する文書内
の文字列の出現度数を決定すること、 (b) 前記ストップリストに含まれていなく、少なく
とも第2の所定の数のストロークを含んでいる文書内の
漢字の文字および文字列の出現度数を決定すること、 (c) 第3の所定数の最もひんぱんに出現する、少な
くとも前記第1の所定の数の文字を有する文書内の文字
列と、少なくとも前記第2の所定の数のストロークを有
する文書内の漢字の文字および文字列から成るシードリ
ストを作ること、 (d) 前記シードリストの少なくとも2つのメンバー
を含んでいる文書内のすべての文と付近の文とから成る
文書の要約を作ること、および (e) 前記要約の長さが所定の長さ以下になるまで、
前記要約に対してステップ(a)〜(d)を繰り返すこ
と、そしてステップ(a)〜(d)を繰り返すたびに、
前記シードリスト上のメンバーを前記ストップリストに
加え、前記第1および第2の所定数の値を減じること、
の諸ステップから成ることを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/085385 | 1993-07-02 | ||
US08/085,385 US5384703A (en) | 1993-07-02 | 1993-07-02 | Method and apparatus for summarizing documents according to theme |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0736896A true JPH0736896A (ja) | 1995-02-07 |
JP3839069B2 JP3839069B2 (ja) | 2006-11-01 |
Family
ID=22191283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14271794A Expired - Lifetime JP3839069B2 (ja) | 1993-07-02 | 1994-06-24 | 文書を要約する方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5384703A (ja) |
JP (1) | JP3839069B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218872A (ja) * | 1996-02-09 | 1997-08-19 | Sharp Corp | 文書処理装置 |
JPH1139306A (ja) * | 1997-07-16 | 1999-02-12 | Sony Corp | 多言語情報の処理システムおよび処理方法 |
US6638317B2 (en) | 1998-03-20 | 2003-10-28 | Fujitsu Limited | Apparatus and method for generating digest according to hierarchical structure of topic |
JP2006120153A (ja) * | 2004-10-18 | 2006-05-11 | Microsoft Corp | セマンティックサムネイルを提供するためのコンピュータプログラム |
Families Citing this family (164)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2048039A1 (en) * | 1991-07-19 | 1993-01-20 | Steven Derose | Data processing system and method for generating a representation for and random access rendering of electronic documents |
US5537586A (en) * | 1992-04-30 | 1996-07-16 | Individual, Inc. | Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures |
US5642520A (en) * | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
US5826241A (en) | 1994-09-16 | 1998-10-20 | First Virtual Holdings Incorporated | Computerized system for making payments and authenticating transactions over the internet |
JP2809341B2 (ja) * | 1994-11-18 | 1998-10-08 | 松下電器産業株式会社 | 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。 |
JPH11506575A (ja) | 1995-03-07 | 1999-06-08 | インターバル リサーチ コーポレイション | 情報の選択記憶システム及び方法 |
US5689716A (en) * | 1995-04-14 | 1997-11-18 | Xerox Corporation | Automatic method of generating thematic summaries |
US5887120A (en) | 1995-05-31 | 1999-03-23 | Oracle Corporation | Method and apparatus for determining theme for discourse |
US5694523A (en) * | 1995-05-31 | 1997-12-02 | Oracle Corporation | Content processing system for discourse |
US5708822A (en) * | 1995-05-31 | 1998-01-13 | Oracle Corporation | Methods and apparatus for thematic parsing of discourse |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
US6112201A (en) * | 1995-08-29 | 2000-08-29 | Oracle Corporation | Virtual bookshelf |
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
US5838323A (en) * | 1995-09-29 | 1998-11-17 | Apple Computer, Inc. | Document summary computer system user interface |
US5761665A (en) * | 1995-10-31 | 1998-06-02 | Pitney Bowes Inc. | Method of automatic database field identification for postal coding |
US6546406B1 (en) | 1995-11-03 | 2003-04-08 | Enigma Information Systems Ltd. | Client-server computer system for large document retrieval on networked computer system |
JP3254642B2 (ja) * | 1996-01-11 | 2002-02-12 | 株式会社日立製作所 | 索引の表示方法 |
US6167409A (en) * | 1996-03-01 | 2000-12-26 | Enigma Information Systems Ltd. | Computer system and method for customizing context information sent with document fragments across a computer network |
US5893109A (en) * | 1996-03-15 | 1999-04-06 | Inso Providence Corporation | Generation of chunks of a long document for an electronic book system |
US6098034A (en) * | 1996-03-18 | 2000-08-01 | Expert Ease Development, Ltd. | Method for standardizing phrasing in a document |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US6172675B1 (en) | 1996-12-05 | 2001-01-09 | Interval Research Corporation | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data |
US6263507B1 (en) | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
US5893062A (en) | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
JP3270351B2 (ja) | 1997-01-31 | 2002-04-02 | 株式会社東芝 | 電子化文書処理装置 |
US5960383A (en) * | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US5963969A (en) * | 1997-05-08 | 1999-10-05 | William A. Tidwell | Document abstraction system and method thereof |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
US5999925A (en) | 1997-07-25 | 1999-12-07 | Claritech Corporation | Information retrieval based on use of sub-documents |
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
US7263659B2 (en) | 1998-09-09 | 2007-08-28 | Ricoh Company, Ltd. | Paper-based interface for multimedia information |
JP4183311B2 (ja) * | 1997-12-22 | 2008-11-19 | 株式会社リコー | 文書の注釈方法、注釈装置および記録媒体 |
US7954056B2 (en) | 1997-12-22 | 2011-05-31 | Ricoh Company, Ltd. | Television-based visualization and navigation interface |
US7257589B1 (en) * | 1997-12-22 | 2007-08-14 | Ricoh Company, Ltd. | Techniques for targeting information to users |
US20080028292A1 (en) * | 1997-12-22 | 2008-01-31 | Ricoh Company, Ltd. | Techniques to facilitate reading of a document |
US7124093B1 (en) | 1997-12-22 | 2006-10-17 | Ricoh Company, Ltd. | Method, system and computer code for content based web advertising |
US7596755B2 (en) * | 1997-12-22 | 2009-09-29 | Ricoh Company, Ltd. | Multimedia visualization and integration environment |
US6533822B2 (en) * | 1998-01-30 | 2003-03-18 | Xerox Corporation | Creating summaries along with indicators, and automatically positioned tabs |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
JP4214598B2 (ja) | 1998-04-02 | 2009-01-28 | ソニー株式会社 | 文書処理方法および装置ならびに記録媒体 |
US6369811B1 (en) | 1998-09-09 | 2002-04-09 | Ricoh Company Limited | Automatic adaptive document help for paper documents |
US7263671B2 (en) * | 1998-09-09 | 2007-08-28 | Ricoh Company, Ltd. | Techniques for annotating multimedia information |
US7266782B2 (en) * | 1998-09-09 | 2007-09-04 | Ricoh Company, Ltd. | Techniques for generating a coversheet for a paper-based interface for multimedia information |
US7215436B2 (en) * | 1998-09-09 | 2007-05-08 | Ricoh Company, Ltd. | Device for generating a multimedia paper document |
US6582475B2 (en) | 1998-09-09 | 2003-06-24 | Ricoh Company Limited | Automatic adaptive document printing help system |
US7447626B2 (en) * | 1998-09-28 | 2008-11-04 | Udico Holdings | Method and apparatus for generating a language independent document abstract |
US6104990A (en) * | 1998-09-28 | 2000-08-15 | Prompt Software, Inc. | Language independent phrase extraction |
US6317708B1 (en) | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
AU775978B2 (en) * | 1999-02-19 | 2004-08-19 | Trustees Of Columbia University In The City Of New York, The | Multi-document summarization system and method |
US7366711B1 (en) | 1999-02-19 | 2008-04-29 | The Trustees Of Columbia University In The City Of New York | Multi-document summarization system and method |
US6310633B1 (en) * | 1999-03-23 | 2001-10-30 | Ricoh Company Limited | Method and system for organizing document information |
US6418434B1 (en) * | 1999-06-25 | 2002-07-09 | International Business Machines Corporation | Two stage automated electronic messaging system |
US6647534B1 (en) | 1999-06-30 | 2003-11-11 | Ricoh Company Limited | Method and system for organizing document information in a non-directed arrangement of documents |
JP2001014306A (ja) * | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
US7228492B1 (en) | 1999-07-06 | 2007-06-05 | Ricoh Company, Ltd. | 2D graph displaying document locations of user-specified concept of interest |
US7162413B1 (en) | 1999-07-09 | 2007-01-09 | International Business Machines Corporation | Rule induction for summarizing documents in a classified document collection |
JP3791879B2 (ja) * | 1999-07-19 | 2006-06-28 | 富士通株式会社 | 文書要約装置およびその方法 |
JP2001043215A (ja) | 1999-08-02 | 2001-02-16 | Sony Corp | 文書処理装置、文書処理方法、及び記録媒体 |
US8214386B2 (en) * | 1999-08-20 | 2012-07-03 | Newgems Llc | System and method for structured news release generation and distribution |
US6363390B1 (en) * | 1999-08-20 | 2002-03-26 | Newsgems Llc | System and method for structured news release generation and distribution |
US6370535B1 (en) | 1999-08-20 | 2002-04-09 | Newsgems Llc | System and method for structured news release generation and distribution |
US6289350B1 (en) | 1999-08-20 | 2001-09-11 | Newsgems Llc | System and method for structured news release generation and distribution |
US7155735B1 (en) | 1999-10-08 | 2006-12-26 | Vulcan Patents Llc | System and method for the broadcast dissemination of time-ordered data |
US6714944B1 (en) | 1999-11-30 | 2004-03-30 | Verivita Llc | System and method for authenticating and registering personal background data |
US7333967B1 (en) * | 1999-12-23 | 2008-02-19 | International Business Machines Corporation | Method and system for automatic computation creativity and specifically for story generation |
US6757682B1 (en) | 2000-01-28 | 2004-06-29 | Interval Research Corporation | Alerting users to items of current interest |
US7499875B1 (en) | 2000-03-17 | 2009-03-03 | Ebay Inc. | Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments |
US8706618B2 (en) | 2005-09-29 | 2014-04-22 | Ebay Inc. | Release of funds based on criteria |
AU2001245754A1 (en) * | 2000-03-17 | 2001-10-03 | Ebay, Inc. | Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments |
US6581057B1 (en) | 2000-05-09 | 2003-06-17 | Justsystem Corporation | Method and apparatus for rapidly producing document summaries and document browsing aids |
US6941513B2 (en) | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
US20020052783A1 (en) * | 2000-06-26 | 2002-05-02 | Turek David G. | Method and apparatus for establishing a customized electronic site |
US7813915B2 (en) * | 2000-09-25 | 2010-10-12 | Fujitsu Limited | Apparatus for reading a plurality of documents and a method thereof |
US6461166B1 (en) | 2000-10-17 | 2002-10-08 | Dennis Ray Berman | Learning system with learner-constructed response based testing methodology |
US6530235B2 (en) * | 2000-11-01 | 2003-03-11 | Edward Mayer Halimi | Self-chilling portable beverage container assembly, and method |
CA2429676A1 (en) * | 2000-11-23 | 2002-06-13 | Goren Gordon | Method and system for creating meaningful summaries from interrelated sets of information units |
WO2002046960A2 (en) * | 2000-11-23 | 2002-06-13 | Goren Gordon | Method and system for creating meaningful summaries from interrelated sets of information units |
IL146597A0 (en) * | 2001-11-20 | 2002-08-14 | Gordon Goren | Method and system for creating meaningful summaries from interrelated sets of information |
US7010478B2 (en) * | 2001-02-12 | 2006-03-07 | Microsoft Corporation | Compressing messages on a per semantic component basis while maintaining a degree of human readability |
JP2002283301A (ja) * | 2001-03-26 | 2002-10-03 | Makita Corp | 際切りマルノコ |
US7155668B2 (en) * | 2001-04-19 | 2006-12-26 | International Business Machines Corporation | Method and system for identifying relationships between text documents and structured variables pertaining to the text documents |
US6990634B2 (en) * | 2001-04-27 | 2006-01-24 | The United States Of America As Represented By The National Security Agency | Method of summarizing text by sentence extraction |
US20020169872A1 (en) * | 2001-05-14 | 2002-11-14 | Hiroshi Nomiyama | Method for arranging information, information processing apparatus, storage media and program tranmission apparatus |
US7283947B2 (en) * | 2001-05-24 | 2007-10-16 | International Business Machines Corporation | Method and system for translation management of source language text phrases |
US7074128B2 (en) | 2001-08-03 | 2006-07-11 | Drb Lit Ltd. | Method and system for enhancing memorization by using a mnemonic display |
US7712028B2 (en) * | 2001-10-19 | 2010-05-04 | Xerox Corporation | Using annotations for summarizing a document image and itemizing the summary based on similar annotations |
US20040034832A1 (en) * | 2001-10-19 | 2004-02-19 | Xerox Corporation | Method and apparatus for foward annotating documents |
US7197449B2 (en) * | 2001-10-30 | 2007-03-27 | Intel Corporation | Method for extracting name entities and jargon terms using a suffix tree data structure |
US7743347B2 (en) * | 2001-11-19 | 2010-06-22 | Ricoh Company, Ltd. | Paper-based interface for specifying ranges |
US7149957B2 (en) | 2001-11-19 | 2006-12-12 | Ricoh Company, Ltd. | Techniques for retrieving multimedia information using a paper-based interface |
US8635531B2 (en) * | 2002-02-21 | 2014-01-21 | Ricoh Company, Ltd. | Techniques for displaying information stored in multiple multimedia documents |
US7861169B2 (en) | 2001-11-19 | 2010-12-28 | Ricoh Co. Ltd. | Multimedia print driver dialog interfaces |
US8539344B2 (en) | 2001-11-19 | 2013-09-17 | Ricoh Company, Ltd. | Paper-based interface for multimedia information stored by multiple multimedia documents |
US7703044B2 (en) * | 2001-11-19 | 2010-04-20 | Ricoh Company, Ltd. | Techniques for generating a static representation for time-based media information |
US7788080B2 (en) * | 2001-11-19 | 2010-08-31 | Ricoh Company, Ltd. | Paper interface for simulation environments |
US7495795B2 (en) * | 2002-02-21 | 2009-02-24 | Ricoh Company, Ltd. | Interface for printing multimedia information |
US7747655B2 (en) * | 2001-11-19 | 2010-06-29 | Ricoh Co. Ltd. | Printable representations for time-based media |
US6904564B1 (en) | 2002-01-14 | 2005-06-07 | The United States Of America As Represented By The National Security Agency | Method of summarizing text using just the text |
DE10202799C1 (de) * | 2002-01-25 | 2003-08-14 | Oliver Scheib | Massagegerät |
US7228507B2 (en) | 2002-02-21 | 2007-06-05 | Xerox Corporation | Methods and systems for navigating a workspace |
US7487462B2 (en) | 2002-02-21 | 2009-02-03 | Xerox Corporation | Methods and systems for indicating invisible contents of workspace |
US7549114B2 (en) | 2002-02-21 | 2009-06-16 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7650562B2 (en) * | 2002-02-21 | 2010-01-19 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US8370761B2 (en) * | 2002-02-21 | 2013-02-05 | Xerox Corporation | Methods and systems for interactive classification of objects |
JP3624186B2 (ja) * | 2002-03-15 | 2005-03-02 | Tdk株式会社 | スイッチング電源装置用の制御回路及びこれを用いたスイッチング電源装置 |
US7158983B2 (en) | 2002-09-23 | 2007-01-02 | Battelle Memorial Institute | Text analysis technique |
JP3600611B2 (ja) * | 2002-12-12 | 2004-12-15 | 本田技研工業株式会社 | 情報処理装置および情報処理方法、並びに情報処理プログラム |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
US7376893B2 (en) * | 2002-12-16 | 2008-05-20 | Palo Alto Research Center Incorporated | Systems and methods for sentence based interactive topic-based text summarization |
JP3987533B2 (ja) * | 2003-03-14 | 2007-10-10 | 富士通株式会社 | 翻訳支援装置 |
US7509569B2 (en) | 2003-03-31 | 2009-03-24 | Ricoh Co., Ltd. | Action stickers for nested collections |
US7703002B2 (en) | 2003-03-31 | 2010-04-20 | Ricoh Company, Ltd. | Method and apparatus for composing multimedia documents |
US7739583B2 (en) * | 2003-03-31 | 2010-06-15 | Ricoh Company, Ltd. | Multimedia document sharing method and apparatus |
US7552381B2 (en) * | 2003-03-31 | 2009-06-23 | Ricoh Co., Ltd. | Check boxes for identifying and processing stored documents |
US7536638B2 (en) * | 2003-03-31 | 2009-05-19 | Ricoh Co., Ltd. | Action stickers for identifying and processing stored documents |
US20070050696A1 (en) * | 2003-03-31 | 2007-03-01 | Piersol Kurt W | Physical key for accessing a securely stored digital document |
US7757162B2 (en) * | 2003-03-31 | 2010-07-13 | Ricoh Co. Ltd. | Document collection manipulation |
US7357640B2 (en) * | 2003-07-02 | 2008-04-15 | Drb Lit Ltd. | Lock-In Training system |
US7275159B2 (en) * | 2003-08-11 | 2007-09-25 | Ricoh Company, Ltd. | Multimedia output device having embedded encryption functionality |
CN1614585A (zh) * | 2003-11-07 | 2005-05-11 | 摩托罗拉公司 | 文本概括 |
TWM249950U (en) * | 2004-01-02 | 2004-11-11 | Cvc Technologies Inc | Cap tightening machine capable of controlling tightening torque |
US7779355B1 (en) | 2004-03-30 | 2010-08-17 | Ricoh Company, Ltd. | Techniques for using paper documents as media templates |
US7364432B2 (en) * | 2004-03-31 | 2008-04-29 | Drb Lit Ltd. | Methods of selecting Lock-In Training courses and sessions |
US8868670B2 (en) * | 2004-04-27 | 2014-10-21 | Avaya Inc. | Method and apparatus for summarizing one or more text messages using indicative summaries |
US20060031885A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of music-related broadcasted or streamed multimedia content |
US20060031879A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of news-related broadcasted or streamed multimedia content |
US20060031916A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of broadcasted or streamed multimedia content |
JP4424057B2 (ja) * | 2004-05-10 | 2010-03-03 | 富士ゼロックス株式会社 | 学習装置およびプログラム |
US20060247599A1 (en) * | 2005-04-29 | 2006-11-02 | Kimberly-Clark Worldwide, Inc. | Garment having an outer shell that freely moves in relation to an absorbent assembly therein |
US8239358B1 (en) * | 2007-02-06 | 2012-08-07 | Dmitri Soubbotin | System, method, and user interface for a search engine based on multi-document summarization |
US7873640B2 (en) * | 2007-03-27 | 2011-01-18 | Adobe Systems Incorporated | Semantic analysis documents to rank terms |
US20080270119A1 (en) * | 2007-04-30 | 2008-10-30 | Microsoft Corporation | Generating sentence variations for automatic summarization |
US20080281927A1 (en) * | 2007-05-11 | 2008-11-13 | Microsoft Corporation | Summarization tool and method for a dialogue sequence |
US8209617B2 (en) * | 2007-05-11 | 2012-06-26 | Microsoft Corporation | Summarization of attached, linked or related materials |
US20080320384A1 (en) * | 2007-06-25 | 2008-12-25 | Ramesh Nagarajan | Automated addition of images to text |
KR20090089096A (ko) * | 2008-02-18 | 2009-08-21 | 삼성전자주식회사 | 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법 |
US8984398B2 (en) * | 2008-08-28 | 2015-03-17 | Yahoo! Inc. | Generation of search result abstracts |
US8874529B2 (en) * | 2009-03-16 | 2014-10-28 | Bert A. Silich | User-determinable method and system for manipulating and displaying textual and graphical information |
US9904436B2 (en) | 2009-08-11 | 2018-02-27 | Pearl.com LLC | Method and apparatus for creating a personalized question feed platform |
US9646079B2 (en) | 2012-05-04 | 2017-05-09 | Pearl.com LLC | Method and apparatus for identifiying similar questions in a consultation system |
US9400770B2 (en) * | 2010-12-28 | 2016-07-26 | Elwha Llc | Multi-view graphical user interface for editing a base document with highlighting feature |
US8488916B2 (en) * | 2011-07-22 | 2013-07-16 | David S Terman | Knowledge acquisition nexus for facilitating concept capture and promoting time on task |
US8725496B2 (en) * | 2011-07-26 | 2014-05-13 | International Business Machines Corporation | Customization of a natural language processing engine |
US9442930B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9442928B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9092131B2 (en) * | 2011-12-13 | 2015-07-28 | Microsoft Technology Licensing, Llc | Highlighting of tappable web page elements |
US9501580B2 (en) | 2012-05-04 | 2016-11-22 | Pearl.com LLC | Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website |
US9275038B2 (en) | 2012-05-04 | 2016-03-01 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
US8280888B1 (en) | 2012-05-04 | 2012-10-02 | Pearl.com LLC | Method and apparatus for creation of web document titles optimized for search engines |
US10621390B1 (en) * | 2014-12-01 | 2020-04-14 | Massachusetts Institute Of Technology | Method and apparatus for summarization of natural language |
US10176369B2 (en) * | 2016-11-23 | 2019-01-08 | Xerox Corporation | Method and apparatus for generating a summary document |
WO2018170876A1 (en) * | 2017-03-24 | 2018-09-27 | Microsoft Technology Licensing, Llc | A voice-based knowledge sharing application for chatbots |
US10467335B2 (en) | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US11488602B2 (en) | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US11689379B2 (en) | 2019-06-24 | 2023-06-27 | Dropbox, Inc. | Generating customized meeting insights based on user interactions and meeting media |
US11475210B2 (en) * | 2020-08-31 | 2022-10-18 | Twilio Inc. | Language model for abstractive summarization |
US11765267B2 (en) | 2020-12-31 | 2023-09-19 | Twilio Inc. | Tool for annotating and reviewing audio conversations |
US11809804B2 (en) | 2021-05-26 | 2023-11-07 | Twilio Inc. | Text formatter |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5947627A (ja) * | 1982-09-10 | 1984-03-17 | Brother Ind Ltd | テキスト処理装置 |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
JP3691844B2 (ja) * | 1990-05-21 | 2005-09-07 | 株式会社東芝 | 文書処理方法 |
-
1993
- 1993-07-02 US US08/085,385 patent/US5384703A/en not_active Expired - Lifetime
-
1994
- 1994-06-24 JP JP14271794A patent/JP3839069B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218872A (ja) * | 1996-02-09 | 1997-08-19 | Sharp Corp | 文書処理装置 |
JPH1139306A (ja) * | 1997-07-16 | 1999-02-12 | Sony Corp | 多言語情報の処理システムおよび処理方法 |
US6638317B2 (en) | 1998-03-20 | 2003-10-28 | Fujitsu Limited | Apparatus and method for generating digest according to hierarchical structure of topic |
JP2006120153A (ja) * | 2004-10-18 | 2006-05-11 | Microsoft Corp | セマンティックサムネイルを提供するためのコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US5384703A (en) | 1995-01-24 |
JP3839069B2 (ja) | 2006-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3839069B2 (ja) | 文書を要約する方法および装置 | |
Trujillo | Translation engines: techniques for machine translation | |
US6978275B2 (en) | Method and system for mining a document containing dirty text | |
Drobac et al. | Optical character recognition with neural networks and post-correction with finite state methods | |
Pecina | Lexical association measures and collocation extraction | |
Saad et al. | Osac: Open source arabic corpora | |
US7451395B2 (en) | Systems and methods for interactive topic-based text summarization | |
US6278967B1 (en) | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis | |
US7376893B2 (en) | Systems and methods for sentence based interactive topic-based text summarization | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
US6470306B1 (en) | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens | |
Saad et al. | Arabic morphological tools for text mining | |
US5200893A (en) | Computer aided text generation method and system | |
US6678409B1 (en) | Parameterized word segmentation of unsegmented text | |
US10540424B2 (en) | Evaluating documents with embedded mathematical expressions | |
JPS63231674A (ja) | コンピュータによる形態論的テキスト解析方法 | |
JPH08305730A (ja) | 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法 | |
JPH06348696A (ja) | 自動識別方法 | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
JP2006164293A (ja) | 自動自然言語翻訳 | |
WO2002039318A1 (en) | User alterable weighting of translations | |
JPWO2008146583A1 (ja) | 辞書登録システム、辞書登録方法および辞書登録プログラム | |
Buckwalter | Issues in Arabic morphological analysis | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Robinson | New methods of editing, exploring, and reading The Canterbury Tales |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040816 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060802 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090811 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100811 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110811 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110811 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120811 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130811 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |