JPH0736896A - 文書を要約する方法および装置 - Google Patents

文書を要約する方法および装置

Info

Publication number
JPH0736896A
JPH0736896A JP6142717A JP14271794A JPH0736896A JP H0736896 A JPH0736896 A JP H0736896A JP 6142717 A JP6142717 A JP 6142717A JP 14271794 A JP14271794 A JP 14271794A JP H0736896 A JPH0736896 A JP H0736896A
Authority
JP
Japan
Prior art keywords
document
stoplist
characters
seedlist
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6142717A
Other languages
English (en)
Other versions
JP3839069B2 (ja
Inventor
M Margaret Withgott
マーガレット ウィズゴット エム
Douglass R Cutting
アール カッティング ダグラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH0736896A publication Critical patent/JPH0736896A/ja
Application granted granted Critical
Publication of JP3839069B2 publication Critical patent/JP3839069B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Abstract

(57)【要約】 【目的】 文書の要約を自動的に作成する方法を提供す
る。 【構成】 本発明の方法は、文書の領域を選択すること
によって要約を自動的に作成する。選択した各領域はシ
ードリストの少なくとも2つのメンバーを含んでいる。
シードリストは、ストップリスト上に含まれていない、
文書内の所定の数の最もひんぱんに出現する複雑な表現
から作られる。要約が長過ぎる場合には、その要約に対
し領域選択処理が行われ、より短い要約が作られる。こ
の領域選択処理は所望の長さを有する要約が生じるまで
繰り返される。領域選択処理が繰り返されるたびに、シ
ードリストのメンバーがストップリストに加えられ、ひ
んぱんに出現する表現を識別するのに使用した複雑性レ
ベルが減じられる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書の要約を自動的に
作成する方法および装置、より詳細には簡単な自然言語
処理を用いて、テキストの統計的性質に頼って文書の要
約を作成する方法および装置に関するものである。
【0002】
【従来の技術】文書の要約は、文書全体を読む必要がな
いので、文書の点検に役立つ。さらに、1つまたはそれ
以上の外国語の文書を点検するとき、文書全体でなく、
文書の要約のみを翻訳すればよいので、翻訳費用を節減
することができる。翻訳された要約を点検した後、文書
全体を翻訳すべきかどうかを決めることができる。
【0003】文書に要約が付いていない場合には、上述
の利点があるので、要約を作成する必要がある。要約を
作成するため文書全体を読む必要がないように、要約を
自動的に作成することが望ましい。文書全体を読むか、
または翻訳するか、またはその両方を行うかどうかを人
々が正しく決定できるように、そのような自動要約は文
書の主題を正確に反映していなければならない。
【0004】
【発明が解決しようとする課題】自動文書要約には2つ
の基本的な数理的手法がある。第1の手法は自然言語処
理と意味ネットワーク創成を集中的に使用する。第2の
手法は簡単な自然言語処理を使用し、そのあとテキスト
の統計的性質に頼る。
【0005】第1の手法は計算に費用がかかる。それに
加えて、意味論的に正しい要約の作成は難しく、しかも
誤りを犯し易い。一般に、適切な意味論的モデル化を行
うには、事前に定義域を知っていなければならない。内
容に制限のない通常のテキストにそのような手法を用い
ることはできない。
【0006】“Automatic Text Processing ”,Gerald
Salton,Addison-Wesley,1989は、第2タイプの要約作
成手法を開示している。最初に文書の言語資料からテキ
スト語を分離する。タイトル、図、見出し、および脚注
に使用されている語はタイトル語としてフラグを立て
る。文書の言語資料内に残ったテキスト語の出現度数を
決定する。個々の文書および文書の言語資料内の語の場
所と出現度数に基づいて、語のウェイトを決定する。文
書の文の中の共起語(語句)について、語句のウェイト
を決定する。各文中の語および語句のウェイトに基づい
て、各文書内の文に得点を与える。そのあと、文書から
多くの最高得点の文を選択して、所定の長さを有する要
約を作成する。
【0007】Salton の手法は、その文書の言語資料を
用いて語および語句のウェイトを対応させる。したがっ
て、項目「ウェイト」は個々の文書に合うように個別化
されない。この結果、文書の主題を記述するのに役立た
ない文が要約中に含まれる可能性がある。さらに、 Sal
ton の手法は、文書を1パススルーで要約を作成するの
で、あまりにも短い文書の断面が抽出されることがあ
る。また、最高得点の文のみの選択は、適切な主題を伝
えていない支離滅裂な要約を生じさせることがある。
【0008】
【課題を解決するための手段】本発明の方法および装置
は、文書の領域を選択することによって要約を作成す
る。選択した各領域に、シードリストの少なくとも2つ
のメンバーが含まれている。シードリストは、ストップ
リスト上にない、文書内の所定数の最もひんぱんに出現
する複雑な表現から構成される。要約が長過ぎる場合に
は、その要約に対し領域選択処理を行って、より短い要
約を作る。所望の長さを有する要約ができるまで、この
領域選択処理を繰り返す。領域選択処理を繰り返すたび
に、シードリストのメンバーがストップリストに加えら
れ、ひんぱんに出現する表現を識別するのに使用した複
雑性レベルが減じられる。
【0009】テキストが段落内に配列された文から構成
されている場合、選択した各領域はシードリストの少な
くとも2つのメンバーを含んでいる文と、同じ段落内に
含まれる直前および直後の文に該当していることが好ま
しい。
【0010】最初の要約に含まれる文書のタイトル、最
初および(または)最後の段落内にある領域は一般に文
書の主題に関係しているので、最終的な要約の中に保持
することができる。語幹化(word stemming)も結果を改
善することができる。
【0011】語または語句を結ぶ接続詞、名詞句を導く
冠詞、および動詞の意味を修正する法助動詞など、一般
的に使用される機能語は、効率を良くするため最初にス
トップリストに含めることができる。代わりに、領域選
択処理の最初の繰り返しのときストップリストを空にす
ることができる。
【0012】本発明は、通例は主題を伝えていない電話
帳、スプレッドシート、辞書などの退化テキストとは対
照的に、散文の形で書かれた文書に特に有益である。
【0013】本発明は、さまざまな言語で書かれたテキ
ストに適用できる。英語などローマ字を使用するテキス
トの場合、表現は語に該当しており、シードリストは最
もひんぱんに出現する非常に長い語を含んでいる。中国
文字(たとえば、北京官語)を使用する言語の場合、表
現は文字および文字列に該当しており、シードリストは
最もひんぱんに出現する複雑な文字および文字列を含ん
でいる。ここで、複雑性は文字または文字列のストロー
ク数によって定義される。日本語文書の複雑な表現は、
長い平仮名/片仮名/ローマ字の文字列と、あらかじめ
決められた最小数のストロークを有する中国(漢字)の
文字および文字列に該当する。領域選択処理を行うたび
に、語すなわち文字列の長さと、複雑な文字または文字
列のストローク数が減じられる。
【0014】得られた要約は、文書の主題を伝える文法
にかなった文から成る(原文書はそのような文を含んで
いたと仮定して)。自然言語構文解析または意味ネット
ワークは不要である。従って、計算コストは低い。
【0015】
【実施例】本発明は、文書の主題を伝える要約を提供す
る。本発明は、概念的に支配的な文書の主題を伝える文
書内の領域(たとえば、文)を自動的に捜し出し、それ
らの領域から要約を作成する。本発明は、ひんぱんに使
用される複雑な表現を含んでいる文書の領域は文書の主
題に関係があり、従って文書の要約を作成するのに役立
つという理論に立っている。
【0016】本発明は、ほとんどの種類の文書、特に、
通例は主題を伝えない電話帳、スプレッドシート、およ
び辞書などの退化テキストとは対照的に、散文の形で書
かれた文書に特に有益である。
【0017】本発明は、英語、日本語、および中国語を
含む多数の言語で書かれた文書に有益である。英語文書
の場合は、表現は語に該当しており、複雑性は語長で定
量化される。中国文字(たとえば、北京官語)を使用す
る言語の場合は、表現は文字および文字列に該当してお
り、複雑性は文字または文字列のストローク数で定量化
される。日本語文書の場合は、表現は平仮名/片仮名/
ローマ字の文字列、漢字の文字および文字列に該当す
る。日本語文書の場合は、複雑性は平仮名/片仮名/ロ
ーマ字の文字列の長さと、漢字の文字および文字列に含
まれるストローク数で定量化される。
【0018】図1に、本発明に従って文書を要約する装
置を示す。本発明の方法は、原文書の電子的(ビットマ
ップ)イメージに対し、または文字コード(たとえば、
ASCIIデータ)として保存された文書に対し実施さ
れる。本発明の方法は、メモリ110に保存された手続
きを使用する専用または汎用ディジタルコンピュータ1
00によって実施される。電子文書(ビットマップイメ
ージデータまたは文字コードデータ)は入力装置80で
コンピュータ100へ入力される。入力装置80は、た
とえばワード処理ステーション、ディスク駆動装置、モ
デム、光学文字認識装置(OCR)を備えた、または備
えていないスキャナでもよい。文書の要約はコンピュー
タ100から出力装置90へ出力することができる。出
力装置90は出力表示装置92、印刷装置98、または
メモリまたは他の形式の記憶装置でもよい。出力表示装
置92はユーザーがコンピュータ100と対話できるよ
うにタッチスクリーン94を含むことができる。コンピ
ュータ100へ命令または他の情報を供給するため、タ
ッチスクリーン94のほかに、別の手段を準備すること
ができる。たとえば、キーボード96および(または)
マウス115を使用してコンピュータ100と対話する
ことができる。
【0019】図2は、要約処理の実施例を示すフローチ
ャートである。
【0020】多くの予備ステップが実行される。最初に
初期化ステップS10において、複雑性レベルとシード
リストのサイズを事前に決定する。それらのパラメータ
はユーザーが入力してもよいし、省略時値を使用しても
よい。またS10において、ストップリストの初期メン
バーを定めることができる。次にS20において、1つ
または複数の文書を入力する。複数の文書を入力するこ
とができるが、本方法は、なるべく、他の文書に関する
どんな情報も使用せずに( Salton の手法と異なる)、
文書の要約を作成する。文書は、たとえばワードプロセ
ッサから文字コードとして、あるいはOCRを備えてい
ないスキャナからビットマップイメージとして入力して
もよい。
【0021】次に前処理ステップS30を実行する。前
処理ステップS30は少なくともS32において文書を
トークン化する(tokenizing)ことを含む。トークン化
は文書を複数の表現に細分することである。たとえば、
英語文書の場合は、トークン化ステップは文書内のすべ
ての語を識別することに該当する。もし初めにストップ
リストにどれかの表現が載っていれば、S34におい
て、それらの表現を文書から除去するか、さもなけば残
っているテキストについてフラグを立てる。ストップリ
ストの初期メンバーは、たとえば、語または語句を結ぶ
接続詞、名詞句を導く冠詞、および動詞の意味を修正す
る法助動詞など、文章構成上の接着剤の役目を果たす頻
繁に使用される表現でもよい。さらに、語幹化(stemmi
ng) ステップS36を実行することができる。
【0022】文書を前処理した後、主題の要約処理を始
めることができる。ステップS40において、文書内に
あるが、ストップリストに含まれていない複雑な表現の
出現度数を決定する。ステップS50において、ステッ
プS40において決定した最も高い出現度数をもつ所定
数Sの表現からシードリストを作る。次に、そのシード
リストを用いて、文書の主題に関係していると思われる
文書の領域を識別する。ステップS60において、これ
らの領域における2以上のシードリストメンバーの出現
に基づいて、文書の領域を選択する。好ましい実施例の
場合は、文書が複数の段落を構成する複数の文の形であ
れば、各領域は、シードリストの少なくとも2つのメン
バーを含む文と、同じ段落内にある直前および直後の文
に該当している。直前および直後の文の包含は、文脈を
与え、得られた要約を読み易くする。文書が複数の文を
含んでいなければ(英語以外の言語で書かれたある種の
文書において、そのようなケースがあるかも知れな
い)、領域選択基準は、互いに所定の近接の範囲内にあ
るシードリストの2つのメンバーの位置でもよい。選択
した領域は、シードリストメンバー、介在するテキス
ト、およびシードリストメンバーに先行および後続する
所定量のテキストに該当していることが好ましい。ステ
ップS70において、選択した領域から文書の要約を作
る。この要約は、文書から選択した領域を抜き出すこと
によって、または他の手段によって作ることができる。
【0023】このステップS40〜S70の最初の繰り
返しから作られた要約は、一般に、原文書からテキスト
の約70%が除去されたものになる。原文書の長さによ
っては、ステップS40〜S70の1回の繰り返しで、
最終的な要約になるほどの短い要約が生じることがあ
る。一般に、文書の要約は1ページ以下の長さにするこ
とが要求される。
【0024】ステップS80において、S70において
生じた要約が所望の長さを有するかどうかを決定する。
所望の長さはユーザーが入力してもよいし、事前に定め
た省略時長さでもよい。S80の結果が肯定的であれ
ば、手順はS100へ進む。S100では、その要約を
文書の要約として出力する。文書の要約は表示装置9
2、プリンタ98、またはメモリへ出力することができ
る。探索のとき識別された文書全体をオペレータが読ま
なくてもよいように、文書の要約をテキスト探索処理の
結果として出力してもよい。その代わり、文書の要約の
みを点検する必要がある。探索時にオペレータが文書要
約ボタン(出力全文書ボタンとは対照的に)を選択する
ことによって、文書の要約を自動的に生じさせることが
できる。
【0025】S80の結果が否定的なあれば、手順はS
90へ進む。S90では、シードリストのメンバーをス
トップリストに加える。次に、S95において、複雑性
レベルを減じる。そのあと手順はステップS40〜S8
0を繰り返すため(2回目)S40へ戻る。この2回目
の繰り返しは、前にS70において作られた要約に対し
実行する。しかし、シードリストの前メンバーは現在ス
トップリスト上にあり、複雑性レベルが減じられている
ので、前にS70において選択した領域のサブセットを
選択する。
【0026】所望の長さを有する要約が作られるまで、
ステップS40〜S80Fを連続して繰り返す。ステッ
プS40〜S80を繰り返すたびに、ストップリストの
サイズが増し(シードリストの前メンバーがストップリ
ストに加えられるので)、複雑性レベルが減じられる。
【0027】最初にS60を実施したとき選択した文書
の最初および(または)最後の段落内にある領域にタグ
を付けて、これらの領域を最終的な要約の中に保持する
ことによって、要約処理の出力を修正することができ
る。文書の最初および最後の段落は一般に文書の全般的
な主題に関係しているので、この追加ステップは文書の
要約をより良いものにすることができる。
【0028】本発明の繰り返し特質のせいで、得られた
文書の要約の中に適切な主題が現れる。行がシードリス
トのメンバーである語を過去に有していたか、または現
在有しているかに基づいて連続するステップにおいて文
書内の行の数が徐々に減じられるので、ひんぱんに出現
するストップ語(たとえば、“a”、“the ”、“and
”、等)はシードリストを作ることを許されているか
ら、またはもし原文書内に連続する同音異義語と、それ
らの同音異義語の非常に多くのトークンが存在していた
ならば(たとえば、もし文書が、“bank”(river banks
or finantial institutions)など、非常に多くの種類
の語を有していたならば)、残っている行はそのように
なる。
【0029】次に、英語、日本語、および中国語の文書
に適用した本発明の実例を説明する。これらの言語で書
かれた表現の実施例は異なる。したがって、テキストを
複雑な集りとして分類するやり方はこれらの言語の間で
異なる。英語文書の場合は、表現が語の形で伝えられ
る。従って、複雑な表現は非常に長い語に該当する。中
国語は文字を用いて表現を作る。文字は1個の語に該当
することもあるし、複数の語(語句)に該当することも
ある。さらに、中国語では文字を複合することができ
る。したがって、表現は1またはそれ以上の文字に該当
している。複雑性は文字または文字列に含まれるストロ
ーク数によって決まる。日本語は、漢字の文字と他の文
字(ローマ字と、平仮名や片仮名などの音節文字表)を
用いて1つまたはそれ以上の語に相当する表現を作る。
したがって、日本語文書の場合は、漢字の文字および文
字列のストローク複雑性と、平仮名、片仮名、およびロ
ーマ字の文字列の文字長さ複雑性を検討する。
【0030】図3は、英語文書の要約を作成する際に使
用する特有のステップを示す図2の部分フローチャート
である。英語文書の場合は、文書内の「複雑な語」の出
現の度数に基づいて本方法を実施される。「複雑な語」
は、ある所定の長さに等しいか、それ以上の長さ(すな
わち、文字の数)を有する語と定義する。
【0031】初期化ステップS10′において、所定の
語長変数Lに初期値Xを割り当てる。シードリストのメ
ンバーの数を定義するパラメータSに値Yを割り当て
る。好ましい実施例の場合、最初はS=6、L=8であ
る。これらの所定の値はオペレータが入力してもよい
し、省略時値でもよい。図2のステップS20において
文書を入力し、S30において前処理ステップを実施す
る。前処理には、少なくともトークン化ステップS32
が含まれる。さらに、一般的に使用される語(S34に
おいて文書から除去される)を含むようにストップリス
トを初期化することもできる。代わりに、ストップリス
トを初めに空にしてもよい。またS36において、語幹
化(stemming) 操作を実施することもできる。
【0032】図3に戻って、S40′において、少なく
ともLの長さを有し、ストップリストに含まれていない
語の出現の度数を決定する。ステップS50′におい
て、S40′において決定した最大度数を有するS個の
語をシードリストに入れる。次にステップS60′にお
いて、シードリストの少なくとも2つのメンバーを含む
文と、その直前および直後の文を選択する。そのあとS
70において、これらの選択した文を用いて要約を作
る。通例、文は要約内に置かれるとき元の読取り順序が
維持される。もし複数文の三つ組が原文書の単一段落か
らであれば、それらは要約の単一段落内に置かれる。も
し複数文の三つ組が原文書の異なる段落からであれば、
それらは要約の異なる段落内に置くことができる。
【0033】S80′において、要約が1ページ以下の
長さを有するかどうかを決定する。もちろん、所定の要
約の長さとして1ページ以外の長さを用いてもよい。S
80′の結果が肯定的であれば、S100において、そ
の要約を文書の要約として出力する。結果が否定的であ
れば、S90においてシードリスト上の6個の語をスト
ップリストに加え、S95′においてLの値を1だけ減
じる。このように、2回目のS40′を実施し、7個ま
たはそれ以上の長さを有する語(ストップリストに含ま
れていない)の度数を決定する。
【0034】図3の方法は、コード化 ASCII データと
して表現された文書、あるいは複号されてないビットマ
ップイメージに対し使用することができる。ビットマッ
プイメージを使用する場合には、たとえば複雑な語の出
現の度数を決定する際に、語形論的(morphological)イ
メージ処理手法を用いて語の形状を比較することができ
る。
【0035】図4は、日本語文書に使用するため修正し
た図2の方法を示す。日本語は、まるで異なる4つの文
字体系(ラテン・アルファベット、2つの音節文字表
(片仮名、平仮名)、および中国(漢字)文字)を系統
的に使用する点で他の言語とは異なる。また、日本語は
横にも縦にも書かれるし、通例、語間スペースは存在な
い。
【0036】最初に、テキストの読取り順序(すなわ
ち、垂直か水平か)を決定する。この情報はコンピュー
タ100へ入力することもできるし、既知の自動プロセ
スを用いて決定することもできる。機械読取り可能なテ
キストは一般に基準形である。次に、2種類の複雑な表
現を定義することにより、図2に示した一般的方法を日
本語に使用できるように修正する。第1タイプの表現
は、平仮名、片仮名、またはローマ字の文字列によって
定義される。これらの文字列の複雑性は、上述の英語の
実施例と同様に、それらの長さに基づいて決定される。
漢字の文字は異なる取扱いがなされる。漢字の文字とひ
んぱんに使用される漢字の文字列の複雑性は、漢字の文
字または文字列のストローク数によって定義される。図
7は、漢字の文字をストローク数(15、16、17、
18、等)で分類するストローク表である。日本語文書
は、文字コードから文字の種類(すなわち、平仮名、片
仮名、ローマ字、漢字)を決定するために文字コードと
して記憶することが好ましい。
【0037】初期化ステップS10″において、文字列
長さパラメータLに値Xを割り当てる。シードリスト長
さパラメータSに対し値Yを割り当てる。さらにストロ
ーク複雑性パラメータCを初期化しなければならない。
ストローク複雑性パラメータCは長さ複雑性パラメータ
Lに対し正規化することが好ましい。複雑な漢字の文字
または文字列は、複雑な平仮名/片仮名/ローマ字の文
字列が有する文字より多数のストロークを有しているこ
とが好ましい。したがって、ストローク複雑性パラメー
タCは文字列長さ複雑性パラメータLよりも大きい。こ
の結果、Cは、1より大きな値をもつ正規化変数aのL
倍に等しい値に初期化される。たとえば、a=2。した
がって、好ましい一実施例の場合、最初はL=8、C=
16である。L、S、C、aの初期値は、ユーザーが定
義してもよいし、省略時解釈によって決定してもよい。
【0038】図2のステップS20において、日本語文
書を入力する。前処理ステップS30において、少なく
ともトークン化ステップS32を実施する。
【0039】トークン化ステップS32において、文字
列を平仮名の文字列、片仮名の文字列、ローマ字の文字
列、および漢字の文字列として識別する。ステップS3
4において、ストップリストに含まれる文字列を除去す
ることが好ましい。図5に、日本語文書のための典型的
なストップリストを示す。
【0040】次に図4のS40″において、複雑な表現
の度数を決定する。ここで表現は、平仮名、片仮名、お
よびローマ字の文字列と、漢字の文字および文字列に該
当する。最初にS41において、少なくとも長さLを有
し、ストップリストに含まれていない平仮名/片仮名/
ローマ字の文字列の度数を決定する。次にS42におい
て、少なくともCストロークを有し、ストップリストに
含まれていない漢字の文字および文字列の度数を決定す
る。次にS50″において、最も高い度数を有するS個
の平仮名/片仮名/ローマ字の文字列および漢字の文字
および文字列をシードリストに入れ、シードリストを作
る。
【0041】次にS60″において、文書の主題に関係
している文書の領域を選択する。日本語文書が段落とし
て構成された文を含んでいれば、S61aに示すよう
に、英語文書について上に述べたやり方に似たやり方
で、領域を選択する。代案として、S61bに示すよう
に、所定の量の周囲テキストと共に、互いに一定の近接
範囲内にある少なくとも2個のシードリストメンバーの
出現に基づいてテキストの領域を選択することができ
る。
【0042】次に、手順はS70へ進み、文書の要約を
作成する。残りのステップは、S95″において、Lの
値を1だけ減じ、その新しいLの値に基づいてCの値を
再決定することを除き、図2および図3について上に述
べたステップに似ている。
【0043】次に図6を参照して、中国文字を使用する
言語で書かれた文書に使用するため修正した図2の方法
を説明する。文書は文字コードを含むファイルとして作
成することが好ましい。代案として、本発明の方法を実
施する前に、走査した文書を認識し、文字コードへ変換
しなければならない。中国文字を使用する言語の場合、
複雑な表現は所定の最小数のストロークを有する文字お
よび文字列に該当する。上に述べた実施例と同様に、有
益な表現は、文書内に最もひんぱんに使用される表現で
あって、一般的に使用される表現のストップリスト内に
存在しない表現に該当する。図8〜図12は一般的に使
用される表現のストップリストを示す。ストップリスト
は、中国文字で書かれた文書から主題の要約の作成に貢
献しない表現を初めに除去するため使用することができ
る。さらに、中国文字は、複合する性向のため、個々の
文字のほかに、文字列も考えられる表現とみなさなけれ
ばならない。しかし、中国文字には語間スペースが存在
しないので、複数の文字で表された表現がいつ始まる
か、いつ終わるかを決定することが難しい。本発明は、
ひんぱんに出現する複雑な表現の統計に頼るので、比較
的簡単にこれらの難問に取り組める。
【0044】初期化ステップS10′″において、文字
列長さパラメータLに値Xを割り当てる。シードリスト
パラメータSに値Yを割り当てる。複雑性パラメータC
に値Zを割り当てる。これらの値はオペレータが入力し
てもよいし、省略時値でもよい。
【0045】複雑な表現の度数を決定するステップS4
0′″は次の通りである。S46において、少なくとも
Lの長さを有し、ストップリストに含まれていないすべ
ての文字列の度数を決定する。一般に語間スペースは含
まれないので、理論上、これは文書全体についてすべて
の考えられる部分列を決定することを意味するであろう
が、実際には、句読点と段落構造に従って、純粋に文章
構成上の役割を演じる形態素(意味をもつ最小の言語単
位)を表す一定の共通文字の所でテキストを細分するこ
とによって、これは簡単に行われる。S47において、
C個以下のストロークを有するすべての文字列を除去す
る。S48において、少なくともC個のストロークを有
し、ストップリストに含まれないすべての文字の度数を
決定する。したがって、S40′″は、ストップリスト
に含まれないすべての文字(少なくともCのストローク
を有する)と、すべての複雑な文字列(少なくともC個
のストロークを有する)の度数を決定する。
【0046】S50′″において、Sの最も高い度数の
複雑な文字と、複雑な文字列をシードリストに入れる。
残りのステップは、S95′″において、手続きを繰り
返すたびにCの値を1だけ減じることを除き、図2につ
いて上に述べたステップに似ている。
【0047】好ましい実施例の場合、最初はS=6、C
=17である。
【図面の簡単な説明】
【図1】本発明に従って文書を要約する装置のブロック
図である。
【図2】本発明の文書を要約する一般的な方法のフロー
チャートである。
【図3】英語文書用に修正した図2の方法の部分フロー
チャートである。
【図4】日本語文書用に修正した図2の方法の部分フロ
ーチャートである。
【図5】典型的な日本語ストップリストである。
【図6】中国語文書用に修正した図2の方法の部分フロ
ーチャートである。
【図7】ストローク数に従って分類した漢字の文字のリ
ストである。
【図8】一般的に使用される漢字の文字と文字列のスト
ップリストの一部である。
【図9】一般的に使用される漢字の文字と文字列のスト
ップリストの一部である。
【図10】一般的に使用される漢字の文字と文字列のス
トップリストの一部である。
【図11】一般的に使用される漢字の文字と文字列のス
トップリストの一部である。
【図12】一般的に使用される漢字の文字と文字列のス
トップリストの一部である。
【符号の説明】
80 入力装置 90 出力装置 92 出力表示装置 94 タッチスクリーン 96 キーボート 98 印刷装置 100 専用または汎用ディジタルコンピュータ 110 メモリ 115 マウス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ダグラス アール カッティング アメリカ合衆国 カリフォルニア州 94025 メンロ パーク 3 オーク グ ローヴ アベニュー 726

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文字で表現されたテキストを含んでいる
    文書を電子的に処理する方法であって、 (a) ストップリストに含まれていなく、少なくとも
    第1の所定のレベルの複雑性を有する文書内の表現の出
    現度数を決定すること、 (b) ステップ(a)において決定した、第2の所定
    の数の最もひんぱんに出現する表現から成るシードリス
    トを作ること、 (c) 前記シードリストの少なくとも2つのメンバー
    を含んでいる文書内の領域から成る文書の要約を作るこ
    と、および (d) 前記要約の長さが所定の長さ以下になるまで、
    前記要約に対してステップ(a)〜(c)を繰り返すこ
    と、そしてステップ(a)〜(c)を繰り返すたびに、
    前記シードリスト上のメンバーを前記ストップリストに
    加え、前記第1の所定のレベルの複雑性を減じること、
    の諸ステップから成ることを特徴とする方法。
  2. 【請求項2】 平仮名、片仮名、ローマ字、および漢字
    の文字で表現されたテキストを含んでいる日本語文書を
    電子的に処理する方法であって、 (a) ストップリストに含まれていなく、前記平仮
    名、片仮名、およびローマ字の少なくとも1つを含んで
    いて、少なくとも第1の所定の数の文字を有する文書内
    の文字列の出現度数を決定すること、 (b) 前記ストップリストに含まれていなく、少なく
    とも第2の所定の数のストロークを含んでいる文書内の
    漢字の文字および文字列の出現度数を決定すること、 (c) 第3の所定数の最もひんぱんに出現する、少な
    くとも前記第1の所定の数の文字を有する文書内の文字
    列と、少なくとも前記第2の所定の数のストロークを有
    する文書内の漢字の文字および文字列から成るシードリ
    ストを作ること、 (d) 前記シードリストの少なくとも2つのメンバー
    を含んでいる文書内のすべての文と付近の文とから成る
    文書の要約を作ること、および (e) 前記要約の長さが所定の長さ以下になるまで、
    前記要約に対してステップ(a)〜(d)を繰り返すこ
    と、そしてステップ(a)〜(d)を繰り返すたびに、
    前記シードリスト上のメンバーを前記ストップリストに
    加え、前記第1および第2の所定数の値を減じること、
    の諸ステップから成ることを特徴とする方法。
JP14271794A 1993-07-02 1994-06-24 文書を要約する方法および装置 Expired - Lifetime JP3839069B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/085385 1993-07-02
US08/085,385 US5384703A (en) 1993-07-02 1993-07-02 Method and apparatus for summarizing documents according to theme

Publications (2)

Publication Number Publication Date
JPH0736896A true JPH0736896A (ja) 1995-02-07
JP3839069B2 JP3839069B2 (ja) 2006-11-01

Family

ID=22191283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14271794A Expired - Lifetime JP3839069B2 (ja) 1993-07-02 1994-06-24 文書を要約する方法および装置

Country Status (2)

Country Link
US (1) US5384703A (ja)
JP (1) JP3839069B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218872A (ja) * 1996-02-09 1997-08-19 Sharp Corp 文書処理装置
JPH1139306A (ja) * 1997-07-16 1999-02-12 Sony Corp 多言語情報の処理システムおよび処理方法
US6638317B2 (en) 1998-03-20 2003-10-28 Fujitsu Limited Apparatus and method for generating digest according to hierarchical structure of topic
JP2006120153A (ja) * 2004-10-18 2006-05-11 Microsoft Corp セマンティックサムネイルを提供するためのコンピュータプログラム

Families Citing this family (164)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
US5537586A (en) * 1992-04-30 1996-07-16 Individual, Inc. Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures
US5642520A (en) * 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
US5826241A (en) 1994-09-16 1998-10-20 First Virtual Holdings Incorporated Computerized system for making payments and authenticating transactions over the internet
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
JPH11506575A (ja) 1995-03-07 1999-06-08 インターバル リサーチ コーポレイション 情報の選択記憶システム及び方法
US5689716A (en) * 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
US5887120A (en) 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US5694523A (en) * 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US6112201A (en) * 1995-08-29 2000-08-29 Oracle Corporation Virtual bookshelf
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US5838323A (en) * 1995-09-29 1998-11-17 Apple Computer, Inc. Document summary computer system user interface
US5761665A (en) * 1995-10-31 1998-06-02 Pitney Bowes Inc. Method of automatic database field identification for postal coding
US6546406B1 (en) 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
JP3254642B2 (ja) * 1996-01-11 2002-02-12 株式会社日立製作所 索引の表示方法
US6167409A (en) * 1996-03-01 2000-12-26 Enigma Information Systems Ltd. Computer system and method for customizing context information sent with document fragments across a computer network
US5893109A (en) * 1996-03-15 1999-04-06 Inso Providence Corporation Generation of chunks of a long document for an electronic book system
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US5963969A (en) * 1997-05-08 1999-10-05 William A. Tidwell Document abstraction system and method thereof
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5999925A (en) 1997-07-25 1999-12-07 Claritech Corporation Information retrieval based on use of sub-documents
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US7263659B2 (en) 1998-09-09 2007-08-28 Ricoh Company, Ltd. Paper-based interface for multimedia information
JP4183311B2 (ja) * 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US7954056B2 (en) 1997-12-22 2011-05-31 Ricoh Company, Ltd. Television-based visualization and navigation interface
US7257589B1 (en) * 1997-12-22 2007-08-14 Ricoh Company, Ltd. Techniques for targeting information to users
US20080028292A1 (en) * 1997-12-22 2008-01-31 Ricoh Company, Ltd. Techniques to facilitate reading of a document
US7124093B1 (en) 1997-12-22 2006-10-17 Ricoh Company, Ltd. Method, system and computer code for content based web advertising
US7596755B2 (en) * 1997-12-22 2009-09-29 Ricoh Company, Ltd. Multimedia visualization and integration environment
US6533822B2 (en) * 1998-01-30 2003-03-18 Xerox Corporation Creating summaries along with indicators, and automatically positioned tabs
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
JP4214598B2 (ja) 1998-04-02 2009-01-28 ソニー株式会社 文書処理方法および装置ならびに記録媒体
US6369811B1 (en) 1998-09-09 2002-04-09 Ricoh Company Limited Automatic adaptive document help for paper documents
US7263671B2 (en) * 1998-09-09 2007-08-28 Ricoh Company, Ltd. Techniques for annotating multimedia information
US7266782B2 (en) * 1998-09-09 2007-09-04 Ricoh Company, Ltd. Techniques for generating a coversheet for a paper-based interface for multimedia information
US7215436B2 (en) * 1998-09-09 2007-05-08 Ricoh Company, Ltd. Device for generating a multimedia paper document
US6582475B2 (en) 1998-09-09 2003-06-24 Ricoh Company Limited Automatic adaptive document printing help system
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US6104990A (en) * 1998-09-28 2000-08-15 Prompt Software, Inc. Language independent phrase extraction
US6317708B1 (en) 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
AU775978B2 (en) * 1999-02-19 2004-08-19 Trustees Of Columbia University In The City Of New York, The Multi-document summarization system and method
US7366711B1 (en) 1999-02-19 2008-04-29 The Trustees Of Columbia University In The City Of New York Multi-document summarization system and method
US6310633B1 (en) * 1999-03-23 2001-10-30 Ricoh Company Limited Method and system for organizing document information
US6418434B1 (en) * 1999-06-25 2002-07-09 International Business Machines Corporation Two stage automated electronic messaging system
US6647534B1 (en) 1999-06-30 2003-11-11 Ricoh Company Limited Method and system for organizing document information in a non-directed arrangement of documents
JP2001014306A (ja) * 1999-06-30 2001-01-19 Sony Corp 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
US7228492B1 (en) 1999-07-06 2007-06-05 Ricoh Company, Ltd. 2D graph displaying document locations of user-specified concept of interest
US7162413B1 (en) 1999-07-09 2007-01-09 International Business Machines Corporation Rule induction for summarizing documents in a classified document collection
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
JP2001043215A (ja) 1999-08-02 2001-02-16 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
US8214386B2 (en) * 1999-08-20 2012-07-03 Newgems Llc System and method for structured news release generation and distribution
US6363390B1 (en) * 1999-08-20 2002-03-26 Newsgems Llc System and method for structured news release generation and distribution
US6370535B1 (en) 1999-08-20 2002-04-09 Newsgems Llc System and method for structured news release generation and distribution
US6289350B1 (en) 1999-08-20 2001-09-11 Newsgems Llc System and method for structured news release generation and distribution
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6714944B1 (en) 1999-11-30 2004-03-30 Verivita Llc System and method for authenticating and registering personal background data
US7333967B1 (en) * 1999-12-23 2008-02-19 International Business Machines Corporation Method and system for automatic computation creativity and specifically for story generation
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
US7499875B1 (en) 2000-03-17 2009-03-03 Ebay Inc. Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments
US8706618B2 (en) 2005-09-29 2014-04-22 Ebay Inc. Release of funds based on criteria
AU2001245754A1 (en) * 2000-03-17 2001-10-03 Ebay, Inc. Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments
US6581057B1 (en) 2000-05-09 2003-06-17 Justsystem Corporation Method and apparatus for rapidly producing document summaries and document browsing aids
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US20020052783A1 (en) * 2000-06-26 2002-05-02 Turek David G. Method and apparatus for establishing a customized electronic site
US7813915B2 (en) * 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
US6461166B1 (en) 2000-10-17 2002-10-08 Dennis Ray Berman Learning system with learner-constructed response based testing methodology
US6530235B2 (en) * 2000-11-01 2003-03-11 Edward Mayer Halimi Self-chilling portable beverage container assembly, and method
CA2429676A1 (en) * 2000-11-23 2002-06-13 Goren Gordon Method and system for creating meaningful summaries from interrelated sets of information units
WO2002046960A2 (en) * 2000-11-23 2002-06-13 Goren Gordon Method and system for creating meaningful summaries from interrelated sets of information units
IL146597A0 (en) * 2001-11-20 2002-08-14 Gordon Goren Method and system for creating meaningful summaries from interrelated sets of information
US7010478B2 (en) * 2001-02-12 2006-03-07 Microsoft Corporation Compressing messages on a per semantic component basis while maintaining a degree of human readability
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
US7155668B2 (en) * 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US6990634B2 (en) * 2001-04-27 2006-01-24 The United States Of America As Represented By The National Security Agency Method of summarizing text by sentence extraction
US20020169872A1 (en) * 2001-05-14 2002-11-14 Hiroshi Nomiyama Method for arranging information, information processing apparatus, storage media and program tranmission apparatus
US7283947B2 (en) * 2001-05-24 2007-10-16 International Business Machines Corporation Method and system for translation management of source language text phrases
US7074128B2 (en) 2001-08-03 2006-07-11 Drb Lit Ltd. Method and system for enhancing memorization by using a mnemonic display
US7712028B2 (en) * 2001-10-19 2010-05-04 Xerox Corporation Using annotations for summarizing a document image and itemizing the summary based on similar annotations
US20040034832A1 (en) * 2001-10-19 2004-02-19 Xerox Corporation Method and apparatus for foward annotating documents
US7197449B2 (en) * 2001-10-30 2007-03-27 Intel Corporation Method for extracting name entities and jargon terms using a suffix tree data structure
US7743347B2 (en) * 2001-11-19 2010-06-22 Ricoh Company, Ltd. Paper-based interface for specifying ranges
US7149957B2 (en) 2001-11-19 2006-12-12 Ricoh Company, Ltd. Techniques for retrieving multimedia information using a paper-based interface
US8635531B2 (en) * 2002-02-21 2014-01-21 Ricoh Company, Ltd. Techniques for displaying information stored in multiple multimedia documents
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US8539344B2 (en) 2001-11-19 2013-09-17 Ricoh Company, Ltd. Paper-based interface for multimedia information stored by multiple multimedia documents
US7703044B2 (en) * 2001-11-19 2010-04-20 Ricoh Company, Ltd. Techniques for generating a static representation for time-based media information
US7788080B2 (en) * 2001-11-19 2010-08-31 Ricoh Company, Ltd. Paper interface for simulation environments
US7495795B2 (en) * 2002-02-21 2009-02-24 Ricoh Company, Ltd. Interface for printing multimedia information
US7747655B2 (en) * 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US6904564B1 (en) 2002-01-14 2005-06-07 The United States Of America As Represented By The National Security Agency Method of summarizing text using just the text
DE10202799C1 (de) * 2002-01-25 2003-08-14 Oliver Scheib Massagegerät
US7228507B2 (en) 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US7487462B2 (en) 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
US7549114B2 (en) 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
JP3624186B2 (ja) * 2002-03-15 2005-03-02 Tdk株式会社 スイッチング電源装置用の制御回路及びこれを用いたスイッチング電源装置
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
JP3600611B2 (ja) * 2002-12-12 2004-12-15 本田技研工業株式会社 情報処理装置および情報処理方法、並びに情報処理プログラム
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
JP3987533B2 (ja) * 2003-03-14 2007-10-10 富士通株式会社 翻訳支援装置
US7509569B2 (en) 2003-03-31 2009-03-24 Ricoh Co., Ltd. Action stickers for nested collections
US7703002B2 (en) 2003-03-31 2010-04-20 Ricoh Company, Ltd. Method and apparatus for composing multimedia documents
US7739583B2 (en) * 2003-03-31 2010-06-15 Ricoh Company, Ltd. Multimedia document sharing method and apparatus
US7552381B2 (en) * 2003-03-31 2009-06-23 Ricoh Co., Ltd. Check boxes for identifying and processing stored documents
US7536638B2 (en) * 2003-03-31 2009-05-19 Ricoh Co., Ltd. Action stickers for identifying and processing stored documents
US20070050696A1 (en) * 2003-03-31 2007-03-01 Piersol Kurt W Physical key for accessing a securely stored digital document
US7757162B2 (en) * 2003-03-31 2010-07-13 Ricoh Co. Ltd. Document collection manipulation
US7357640B2 (en) * 2003-07-02 2008-04-15 Drb Lit Ltd. Lock-In Training system
US7275159B2 (en) * 2003-08-11 2007-09-25 Ricoh Company, Ltd. Multimedia output device having embedded encryption functionality
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
TWM249950U (en) * 2004-01-02 2004-11-11 Cvc Technologies Inc Cap tightening machine capable of controlling tightening torque
US7779355B1 (en) 2004-03-30 2010-08-17 Ricoh Company, Ltd. Techniques for using paper documents as media templates
US7364432B2 (en) * 2004-03-31 2008-04-29 Drb Lit Ltd. Methods of selecting Lock-In Training courses and sessions
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US20060031885A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of music-related broadcasted or streamed multimedia content
US20060031879A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of news-related broadcasted or streamed multimedia content
US20060031916A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of broadcasted or streamed multimedia content
JP4424057B2 (ja) * 2004-05-10 2010-03-03 富士ゼロックス株式会社 学習装置およびプログラム
US20060247599A1 (en) * 2005-04-29 2006-11-02 Kimberly-Clark Worldwide, Inc. Garment having an outer shell that freely moves in relation to an absorbent assembly therein
US8239358B1 (en) * 2007-02-06 2012-08-07 Dmitri Soubbotin System, method, and user interface for a search engine based on multi-document summarization
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US20080270119A1 (en) * 2007-04-30 2008-10-30 Microsoft Corporation Generating sentence variations for automatic summarization
US20080281927A1 (en) * 2007-05-11 2008-11-13 Microsoft Corporation Summarization tool and method for a dialogue sequence
US8209617B2 (en) * 2007-05-11 2012-06-26 Microsoft Corporation Summarization of attached, linked or related materials
US20080320384A1 (en) * 2007-06-25 2008-12-25 Ramesh Nagarajan Automated addition of images to text
KR20090089096A (ko) * 2008-02-18 2009-08-21 삼성전자주식회사 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US8874529B2 (en) * 2009-03-16 2014-10-28 Bert A. Silich User-determinable method and system for manipulating and displaying textual and graphical information
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US9400770B2 (en) * 2010-12-28 2016-07-26 Elwha Llc Multi-view graphical user interface for editing a base document with highlighting feature
US8488916B2 (en) * 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task
US8725496B2 (en) * 2011-07-26 2014-05-13 International Business Machines Corporation Customization of a natural language processing engine
US9442930B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US9442928B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US9092131B2 (en) * 2011-12-13 2015-07-28 Microsoft Technology Licensing, Llc Highlighting of tappable web page elements
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US8280888B1 (en) 2012-05-04 2012-10-02 Pearl.com LLC Method and apparatus for creation of web document titles optimized for search engines
US10621390B1 (en) * 2014-12-01 2020-04-14 Massachusetts Institute Of Technology Method and apparatus for summarization of natural language
US10176369B2 (en) * 2016-11-23 2019-01-08 Xerox Corporation Method and apparatus for generating a summary document
WO2018170876A1 (en) * 2017-03-24 2018-09-27 Microsoft Technology Licensing, Llc A voice-based knowledge sharing application for chatbots
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
US11475210B2 (en) * 2020-08-31 2022-10-18 Twilio Inc. Language model for abstractive summarization
US11765267B2 (en) 2020-12-31 2023-09-19 Twilio Inc. Tool for annotating and reviewing audio conversations
US11809804B2 (en) 2021-05-26 2023-11-07 Twilio Inc. Text formatter

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5947627A (ja) * 1982-09-10 1984-03-17 Brother Ind Ltd テキスト処理装置
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218872A (ja) * 1996-02-09 1997-08-19 Sharp Corp 文書処理装置
JPH1139306A (ja) * 1997-07-16 1999-02-12 Sony Corp 多言語情報の処理システムおよび処理方法
US6638317B2 (en) 1998-03-20 2003-10-28 Fujitsu Limited Apparatus and method for generating digest according to hierarchical structure of topic
JP2006120153A (ja) * 2004-10-18 2006-05-11 Microsoft Corp セマンティックサムネイルを提供するためのコンピュータプログラム

Also Published As

Publication number Publication date
US5384703A (en) 1995-01-24
JP3839069B2 (ja) 2006-11-01

Similar Documents

Publication Publication Date Title
JP3839069B2 (ja) 文書を要約する方法および装置
Trujillo Translation engines: techniques for machine translation
US6978275B2 (en) Method and system for mining a document containing dirty text
Drobac et al. Optical character recognition with neural networks and post-correction with finite state methods
Pecina Lexical association measures and collocation extraction
Saad et al. Osac: Open source arabic corpora
US7451395B2 (en) Systems and methods for interactive topic-based text summarization
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US7376893B2 (en) Systems and methods for sentence based interactive topic-based text summarization
TWI536181B (zh) 在多語文本中的語言識別
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
Saad et al. Arabic morphological tools for text mining
US5200893A (en) Computer aided text generation method and system
US6678409B1 (en) Parameterized word segmentation of unsegmented text
US10540424B2 (en) Evaluating documents with embedded mathematical expressions
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JPH06348696A (ja) 自動識別方法
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2006164293A (ja) 自動自然言語翻訳
WO2002039318A1 (en) User alterable weighting of translations
JPWO2008146583A1 (ja) 辞書登録システム、辞書登録方法および辞書登録プログラム
Buckwalter Issues in Arabic morphological analysis
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Robinson New methods of editing, exploring, and reading The Canterbury Tales

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060802

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090811

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100811

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110811

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110811

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120811

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130811

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term