JPH10207891A - 文書要約装置およびその方法 - Google Patents

文書要約装置およびその方法

Info

Publication number
JPH10207891A
JPH10207891A JP9006777A JP677797A JPH10207891A JP H10207891 A JPH10207891 A JP H10207891A JP 9006777 A JP9006777 A JP 9006777A JP 677797 A JP677797 A JP 677797A JP H10207891 A JPH10207891 A JP H10207891A
Authority
JP
Japan
Prior art keywords
document
information
user
sentence
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9006777A
Other languages
English (en)
Other versions
JP3579204B2 (ja
Inventor
Yoshio Nakao
由雄 仲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP00677797A priority Critical patent/JP3579204B2/ja
Priority to US09/006,201 priority patent/US6205456B1/en
Priority to EP98300322A priority patent/EP0855660B1/en
Priority to EP03008037A priority patent/EP1338983A3/en
Priority to DE69822687T priority patent/DE69822687T2/de
Publication of JPH10207891A publication Critical patent/JPH10207891A/ja
Application granted granted Critical
Publication of JP3579204B2 publication Critical patent/JP3579204B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

(57)【要約】 【課題】 自然言語による、電子化された文書の要約を
行う装置に関し、利用者の注目していることと、利用者
が既に持っている知識に応じた要約作成を可能とする。 【解決手段】 要約対象文書の中で、要約の利用者が注
目している情報としての利用者注目情報と、文書の作成
者が注目を促している情報としての作成者注目情報とに
基づいて、これら2つの注目情報に関連する部分を抽出
する手段1を備え、その抽出結果に応じて要約を作成す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化された自然
言語による文書の要約を行う装置に関するものであり、
主として、検索された大量の文書の選別や閲覧、あるい
は、蓄積された大量の文書の閲覧、再構成(再利用)や
管理のプロセスを支援するために、使われることを意図
したものである。
【0002】近年、文書の電子化が進み、大量の文書を
蓄積して再利用することで文書作成のコストを大幅に引
き下げることが可能になってきた。また、一方で、技術
の高度化に伴うマニュアル類のボリュームの増加と多様
化、インターネットに代表される新たな文書流通メディ
アの出現もあいまって、計算機上で閲覧や再利用のため
の再構成操作を行える文書の量が爆発的に増加してい
る。
【0003】このような大量の文書を利用するために
は、まず、個々の文書の有用性を素早く判定し、利用目
的にあった文書を選別することが重要である。そのため
には、文書一覧に文書内容をイメージできるような情報
を合わせて提示することが求められる。このような目的
にあった情報としては、文書の見出しや抄録などがある
が、見出しが十分に文書内容を表現していない場合や、
抄録がない場合も多い。また、特にオンラインで文書を
閲覧する場合には、表示可能な文字数が限られるため、
例え抄録が作成されていても長過ぎて一覧表示に適さな
いこともある。そこで、適切な要約を自動的に生成する
技術が強く求められることになる。
【0004】また、文書の再利用を効率的に行うために
は、大量の文書を分類・整理して蓄積することが求めら
れる。この場合にも、新たな文書を分類するために当該
文書の内容を素早く把握したり、蓄積文書の管理者が分
類体系を改良するために分類状況を概観したり、分類体
系に通じていない利用者がどのような分類がなされてい
るのかを把握したりすることなどを支援する意味で、や
はり適切な要約が望まれる。
【0005】本発明は、このような用途をもつ文書要約
装置において、利用者が何に注目しているのか、また、
利用者がどのような知識を既にもっているのかに応じ
て、要約結果を調整する点に特徴をもつものである。
【0006】
【従来の技術】従来の文書の要約作成の技術には、大き
く分けて2つの方法がある。第1の方法は、文書におい
て重要な部分(通常は、文、段落、節などの文書の論理
要素。以下「文」で代表させる。)を認定し、それを抽
出することで要約を作成するものである。第2の方法
は、要約として抽出すべき情報の型紙を用意して、その
型紙の条件にあった文書中の語句を抽出して要約とした
り、その型紙によくあてはまる文を抽出して要約とする
方法である。第2の方法は本発明との関連性は低いの
で、ここでは第1の方法を説明する。
【0007】第1の方法は、さらに、何を手がかりに文
の重要性を評価するかによっていくつかの方法に分類さ
れる。代表的な方法としては、文書中に出現する単語
の頻度と分布を手がかりとするもの、文と文とのつな
がり方や文の出現位置を手がかりとするものの2つがあ
る(その他、文の構文的パターンによって重要性を評価
するものなどもあるが、本発明との関連性が低いので省
略する)。
【0008】の方法、すなわち、文書中に出現する単
語の頻度と分布を手がかりとするものは、通常、まず文
書中に含まれる単語(語句)の重要度を決定し、次に重
要な単語をどれ位含んでいるかで文の重要度を評価し、
重要な文を選択するという手順で要約を作成する。単語
の重要度を決定する手法としては、ある文書内の出現度
数そのままを用いたり、あるいは、一般的な文書集合に
おける単語の出現度数とのずれなどを加味して重みをつ
けたり、あるいは単語の出現位置に応じて重みをつけた
り(見出しに出現する語を重要とみなすなど)する方法
が知られている。なお、対象とする単語は、日本語であ
れば自立語(特に名詞)、英語であれば内容語のみに限
るのが通例である。ここで自立語・内容語とは実質的な
意味を持つ名詞、形容詞、動詞などの語であり、助詞や
前置詞、形式名詞など、専ら構文的役割を示すために使
われる語と区別されるものである。なお、日本語の自立
語の形式的定義は、独立した文節を構成できる語という
もので、前記の説明とは若干のずれがあるが、対象とす
る単語を自立語に限ることの趣旨は前記の説明中の区別
による。
【0009】このようなものには、例えば以下のような
ものがある。特開平6−259424「文書表示装置及
び文書要約装置並びにディジタル複写装置」およびその
発明者による次の文献1では、見出しに含まれる単語を
多く含む部分を(見出しに関連の深い)重要な部分とし
て抽出することで要約を作成している。
【0010】文献1:亀田雅之、擬似キーワード相関法
による重要キーワードと重要文の抽出.第2回年次大
会、pp.97 〜100 、言語処理学会1996年3月. 特開平7−36896「文書を要約する方法および装
置」では、文書中に現れる表現(単語など)の複雑さ
(語の長さなど)から重要な表現の候補(シード)を選
び、重要性の高いシードをより多く含む文を抽出するこ
とで要約を作成している。
【0011】特開平成8−297677「主題の要約を
生成する自動的な方法」では、文書内の単語の出現頻度
が大きい順に「主題の用語」を認定し、重要な「主題の
用語」をより多く含む文を抽出することで要約を作成し
ている。
【0012】特開平成6−215049「文書要約装
置」では、検索結果と質問文との関連性判定などによく
用いられるベクトル空間モデルを適用して、文書全体の
特徴ベクトルと最も類似した特徴ベクトルを持つ文や段
落から文を選択していくことで要約を作成している。こ
こで、ベクトル空間モデルとは、キーとなる単語ごと
に、あるいは単語の意味成分ごとに、次元(軸)をわり
あて、文書や質問文におけるそれらの単語の出現の有無
あるいは出現頻度の値の列(特徴ベクトル)で、文書や
質問文の特徴を表現するものである。
【0013】の方法、すなわち、文と文とのつながり
方や文の出現位置を手がかりとするものとは、順接・逆
接、展開などの文の接続関係(結束関係と呼ぶ場合もあ
る)や、文が出現している文書中の位置などをもとに、
文の(相対的)重要性を判定し、重要な文を選択するも
のである。例えば、特開平7−182373「文書情報
検索装置及び文書検索結果表示方法」およびその発明者
らによる次の文献2、別の著者による文献3がある。
【0014】文献2:住田一男、知野哲朗、小野顕司、
三池誠司、文書構造解析に基づく自動抄録生成と検索提
示機能としての評価・電子情報通信学会論文誌、Vol.J7
8-D-II,No.3,pp.511〜519,1995年3月. 文献3:山本和英、増山繁、内藤昭三、文書内構造を複
合的に利用した論説文要約システムGREEN.情処研
報NL−99−3,情報処理学会1994年1月. 以上のように文書全体の要約を作成する技術の他に、個
々の文書の有用性の判定を支援するための技術として、
利用者の注目している部分を提示する技術もある。周知
の技術として、KWIC(Keyword In Context)と呼ば
れる検索語の周囲を表示する方法や、それに類似した検
索語の近傍表示の方法が広く使われている。
【0015】また、論文において研究の背景となる事情
を述べた部分だけを提示したり、新聞の第一パラグラフ
だけを提示するなど、利用者の目的に応じて特定の部分
だけを提示する方法もある。例えば、前掲の特開平成7
−182373や文献3、別の著者による次の文献4,
5がある。ただし、これらは、分野に特有な文書構成の
類型や言い回しなどを手がかりとして、文書の論理構造
上で特別な機能を持つ部分を選択するものであり、利用
者が注目している内容に着目して、その内容と関連性の
高い部分を提示しているわけではない。
【0016】文献4:神門典子.複数領域における日本
語原著論文の機能構造分析:構成要素カテゴリの自動付
与.Library and Information Science, No.31, pp.25
〜38, 1993年. 文献5:神門典子、原著論文の機能構造の分析とその応
用.図書館学会年報,Vol.40,No.2,pp.49 〜61, 199
4年6月. 要約の可読性を低下させる要因としては、冗長な表現、
利用者の知らない用語(未知の用語)の出現、解消され
ていない照応表現(anaphoric expression:日本語なら
いわゆるコソアド語など)の出現などがある。
【0017】このうち、冗長な表現については、修飾要
素と被修飾要素の語彙的な性質や関係、修飾要素と被修
飾要素の距離などによるヒューリスティックにより、余
分な修飾要素を削除する手法が知られている。例えば、
前掲の文献3では、日本語の新聞記事中の文において同
じ名詞に対して2つ以上の修飾要素があった場合、前の
修飾要素を削除するというヒューリスティックが示さ
れ、また、同じ著者らによる次の文献6では、同一事件
に関する一連の記事で、特有の言い回しから導入部と認
定された部分で出現する名詞の7割以上が以前の記事で
既出の場合にその導入部を削除するというヒューリステ
ィックが示されている。
【0018】文献6:船坂貴浩,山本和英,増山繁.冗
長度削減による関連記事の要約.情処研報NL−114
−7,情報処理学会,1996年7月. 未知の用語の出現については、用語の定義や説明をして
いる部分が文書中にあれば、それを要約に含めればよい
ことは自明である。このような部分を探すには、初出の
部分あるいは用語の定義を示すマーク(日本語なら「と
は」など)の付いた当該用語が出現する箇所を探せばよ
いことも、学校教育レベルの知識である。
【0019】照応表現についても、その先行詞(antece
dent)を探し、照応表現を先行詞で置き換えたり、先行
詞を含む部分を要約に含めれば、要約が理解しやすいも
のとなることは自明である。照応表現の先行詞の同定に
関しては、センタリング(centering )と呼ばれる手法
などが知られている。これは、後続の文で照応表現にな
りやすい要素(センタ)を構文的役割などに応じて優先
度つきで認定しておき、後続の照応表現の現れ方による
制約を加味して、先行詞をセンタの中から選択するとい
うものである。なお、類似の手法で、センタと同様な概
念を焦点(focus )と呼ぶものもある。ただし、いずれ
にしても完全な結果を得ることができる技術ではない。
センタリングの手法については次の文献7,8がある。
【0020】文献7:Megumi Kameyama. A property-sh
aring constraint in centering. In Proceedings of t
he 24th Annual Meeting of Association for Computat
ional Linguistics, pp. 200〜206,1986年. 文献8:Susan E.Brennan, Marilyn W. Friedman, and
Carl J. Pollard. A centering approach to pronouns.
In Proceedings of the 25th Annual Meetingof Assoc
iation for Computational Linguistics, pp. 155〜16
2,1987年. 前傾の特開平7−182373や、同一発明者らによる
特開平7−44566「抄録作成装置」では、このよう
な手法を実装して用語の定義箇所や照応表現の先行詞を
推定し、元の用語や照応表現からハイパーテクスチュア
ル(hyper-texutual)なリンクを設定するなどして利用
者の便を図っている。
【0021】
【発明が解決しようとする課題】大量の文書から有用な
文書を選別するためには、利用者にとっての文書の有用
性を素早く判定できるよう、利用者の求める情報を文書
の作成者がどのように取り扱っているのかを示すことが
重要である。検索システムでは、利用者が得たいと思っ
ている情報は、質問文やキーワードによる検索式として
表現されることが多い。しかしながら、質問文や検索式
中の単語が検索対象の文書の中に見つかったからといっ
て、そこに利用者の求める情報が書かれているとは限ら
ない。たとえば、特許公報を「翻訳」というキーワード
で検索すると、利用者の得たい情報は「自然言語の文の
翻訳」に関する特許情報なのに、検索結果には「機械語
の翻訳」に関する情報が大量の特許が含まれることがあ
る。この場合、「翻訳」という語がどういう文脈で使わ
れているのかを提示すれば、ある程度、文書の選別を支
援することが可能である。このような目的で、前節に挙
げたKWICを用いることもできるが、物理的な近傍を
表示するだけなので論旨の流れなどを把握することが難
しく、簡潔で要を得た要約を提示することは必ずしもで
きない。
【0022】この観点からみると、前述のように、従来
の要約作成の技術では専ら文書中での文の重要度のみを
要約中に文を含めるかどうかの基準としており、利用者
の注意がいずれに向けられているのかが考慮されていな
い、という問題がある。そのため、例えば検索システム
に入力したキーワードが、言語学の文献の用例の部分で
照合されて取り出されてしまった場合などでは、自動作
成された要約中にはキーワードが含まれず、利用者の入
力とどのような関連がある文献なのかを判定しづらくな
る場合などが考えられる。
【0023】言語学の文献に関連する問題点についてさ
らに説明する。言語学の文献は、言語の形式的な性質を
議論するもので、そこで取り上げられている用例の内容
については言語学と関係している必要はない。例えば、
「象は鼻が長い」や「僕はうなぎだ(料理の注文の
意)」というのは国語学では有名な例文である。動物の
ことを調べようとしている時に、このような例文で出て
いる言語学の文献が検索されてしまう可能性がある。言
語学の文献のために、文献中に含まれる語彙の頻度分布
などをとれば、動物に関する語彙は少なく、例えば
「象」はあまり重要でない語彙であると計算されてしま
う。そうすると、検索結果の表示に語彙の頻度分布など
に基づいて自動生成した要約を用いる場合、このような
例文は要約中に含まれにくくなり、不都合が生じる可能
性がある。つまり、「象」というキーワードを入力した
時に、このような言語学の文献が検索され、それにも関
わらず、検索結果の表示(自動生成した要約)の中には
「象」が含まれず、何でこのようなものが検索されたの
かが理解できなくなる可能性があるということになる。
逆に、キーワードの近傍表示だけしかしない場合には、
用例の部分だけが表示され、どういう趣旨の文献なのか
が理解できなくなることもある。
【0024】もう一つの問題点として、従来の要約作成
の技術には、利用者の知識レベルに合わせて要約を作成
する手段を備えていない、という問題点もある。利用者
の知識レベルは、利用者ごとに大きく異なる可能性があ
り、特に専門的な用語に関する知識がどの程度あるかに
合わせて要約に用語に関する定義や説明の記述部分を含
めるかどうかを切り換えないと、知識レベルの高い利用
者にとっては冗長な要約になったり、知識レベルの低い
利用者にとっては理解し難い要約になってしまったりす
ることになる。
【0025】以上のことから、本発明は要約作成におい
て、利用者の注意の方向が考慮されていない、利用者の
知識レベルが考慮されていない、という2つの問題点を
解決し、それらを統一的に扱う手段を提供することを目
的とする。
【0026】
【課題を解決するための手段】図1、および図2は本発
明の原理説明図である。これらの図は、自然言語による
電子化された文書の選別・閲覧・編集、および管理の支
援のために、文書要約を行う文書要約装置の原理を説明
するものである。
【0027】図1は本発明の第1の原理の説明図であ
る。同図において注目情報関連箇所抽出手段1は、利用
者の注目情報と作成者注目情報とに基づいて、要約対象
文書中でこれら2つの情報に関連する部分を抽出するも
のである。ここで利用者注目情報とは、要約対象文書の
内容の中でその要約を利用する利用者が注目している情
報であり、また作成者注目情報とは要約対象文書の作成
者が利用者に対して注目を促している情報である。
【0028】図2は本発明の第2の原理の説明図であ
る。同図において要約可読性向上手段2は、利用者既知
情報と履歴的既知情報とに基づいて、これら二種類の既
知情報以外の情報と二種の既知情報とを区別して用いて
要約を作成し、要約の可読性を向上させるものである。
ここで利用者既知情報とは、要約対象文書の内容の中
で、その要約を利用する利用者がすでに知っている情報
であり、また履歴的既知情報とは、要約作成時点におい
て、それ以前に利用者に提示された文書に基づいて利用
者がすでに知っていると見なせる情報である。
【0029】後述する本発明の実施例においては、図1
と図2とによって説明される2つの原理を同時に用い
て、要約の作成が行われる。まず図1においては、利用
者注目情報および作成者注目情報という2種類の注目情
報に基づいて、注目情報に関連する部分が要約の中心部
分として抽出されることになる。ここではこれらの注目
情報を多く含む部分ほど重要であると判定する情報の注
目性基準が用いられて、要約の中心部分が決定される。
【0030】2種類の注目情報を考慮することによっ
て、利用者が求める情報と、文書において重要な情報、
すなわち作成者が書こうとしていた内容の双方を取り込
んだ要約を作成することができる。これら2種類の注目
情報のいずれかに重みをつけることによって、利用者注
目情報だけを重視した要約から、文書における重要性だ
けを重視した要約まで、目的に応じた要約を作成するこ
とができる。あるいはこれら2種類の注目情報を同等に
扱うことによって、利用者が求める情報と、作成者が書
こうとしていた内容との双方をバランスよく抽出した要
約を作成することもできる。
【0031】図2においては、利用者既知情報と履歴的
既知情報との2つに基づいて要約が作成される。これは
利用者の知識レベルに合わせて要約を作成することを意
味し、これによって要約の可読性を向上させることがで
きる。この可読性の向上のために情報の既知性基準が用
いられる。情報の既知性基準は、例えば概念の既知性基
準と事柄の既知性基準との2つの基準を意味する。
【0032】概念の既知性基準とは、要約を構成する要
素概念、特に主題に関する要素概念が原則として既知で
なくてはならないという基準である。ここで要素概念と
は、要約に含まれる個々の語句が表す概念のことであ
る。言い換えれば、要約に出力する用語(主として名
詞)は、原則として利用者にとって既知でなくてはなら
ないという基準である。本発明においては、この基準に
基づいて、利用者に理解できない用語に関しては、例え
ば必要な説明を追加して要約が作成される。
【0033】事柄の既知性基準とは、例えば文書の中に
出現する用語の組み合わせに関するものであり、その組
み合わせ全体で述べられている事柄(事実、あるいは命
題)については、既知性の低いものほど優先されて要約
に取り入れられる。
【0034】この事柄の既知性基準によって通常の場
合、すなわち独立した文書1つを要約する場合などは、
要約の中で同じ事柄が何度も出力されるのが抑制される
ことになる。また関連する複数の文書を一括して要約す
る場合、特に同一事件に関する一連の記事や、記載コラ
ムなどをまとめて、要約対象の文書の間の関係を明らか
にして提示できる場合には 同一の事柄に関する記述を
削減するための基準として用いられる。
【0035】この事柄の既知性基準は、前述の情報の注
目性基準によって注目情報の含み方が同程度と判定され
た文が複数あった場合には、事柄の既知性の低い方を選
んでその低い方の文の内容が要約に含められるという意
味で、弱めの制約となるものである。すなわち、概念の
既知性基準が「(原則として)既知でなければらない」
のに対して、事柄の既知性基準は「既知性の低いものが
優先される」だけであるために弱めの制約となる。
【0036】このように本発明においては、情報の注目
性基準と情報の既知性基準という2つの基準を用いて、
要約の作成が行われる。
【0037】
【発明の実施の形態】図3は本発明の文書要約装置の構
成を示すブロック図である。同図において、文書要約装
置は要約プロセス制御部10、文書構造解析部11、文
解析部12、文分割・依存関係設定部13、文選択部1
4、要約整形部15を基本構成要素として備えている。
このうち本発明にとって特徴的な構成要素は、文分割・
依存関係設定部13と、文選択部14である。
【0038】要約プロセス制御部10は、利用者と装置
とのインタフェースとなると共に、文書要約装置の動作
全体を制御するものである。利用者との間のインタフェ
ースとしては、利用者が注目している情報、すなわち利
用者注目情報や、要約作成に関する要望などの入力を受
け取り、文書要約のプロセスを適切に起動し、要約結果
を利用者に出力することになる。利用者注目情報の代表
的な形式は利用者から入力される質問文であるが、求め
る情報に関するキーワードや、読書案内に載っている紹
介文の形式とすることも可能である。
【0039】要約作成に関する要望、すなわち要約作成
に関する制約情報としては、利用者から必須出力要素が
指定されると共に、その他の制御命令が与えられる。こ
こで必須出力要素とは、例えば見出しのように、要約の
中に必ず含めるべき要素である。その他の制御命令とし
ては、注目情報や既知情報としてどのような情報を利用
するか、またそれらの情報をどのように利用するか、望
ましい要約の長さ、要約処理でどのような単位を基本と
して要約を作成するかなどがある。この基本単位として
は、通常は文、あるいは述語句が用いらる。
【0040】また、要約プロセス制御部10では、複数
文書の比較を支援するために本装置を用いる場合に、ま
ず個々の比較対象文書に関する文書構造認識解析および
文解析までの処理を行い、その出力を集計して作成者注
目情報のマージし、マージした注目情報にもとづいてそ
れ以降の要約処理(文分解・依存関係設定処理、文選択
処理、要約成形処理)を行うよう、各処理部の動作の制
御および処理経過の記憶も行う。
【0041】図3において、文書要約装置のメモリに
は、利用者の嗜好特性16、利用者の知識17、および
閲覧履歴18が蓄積されると共に、例えば他のメモリに
入力文書(群)19が格納される。
【0042】利用者の嗜好特性16は、利用者が興味を
持っている事柄を蓄積するものである。ここには利用者
が、例えば自己紹介の際に使うような趣味の説明文や、
利用者が興味を持った文書そのままを蓄積したり、その
ような文書の中から出現頻度の大きいキーワードを抽出
して保存したり、利用者が検索に際してよく使うキーワ
ードや質問文を保存しておいてもよい。
【0043】利用者の知識17は、利用者がよく知って
いる情報を、利用者既知情報として蓄積するものであ
る。ここには例えば利用者が知っている専門用語のリス
トなどが蓄積される。
【0044】閲覧履歴18は、利用者がどのような文書
や要約をいつ頃閲覧したかという履歴を蓄積するもので
ある。入力文書(群)19、基本的には要約対象文書を
格納するものであり、通常はどのような形式の電子化文
書でも用いることができる。具体例としては、電子出版
等で用いられている文書構造記述言語のSGML(スタ
ンダードジェネラライズドマークアップランゲージ。I
SO8879)を用いればよい。要約対象文書に対し
て、例えば作成者あるいは文書の管理者によって、文書
の作成時点以後に指定された作成者注目情報を、文書と
対応させて蓄積することもできる。
【0045】メモリの内容としての利用者の嗜好特性1
6、すなわち利用者注目情報、利用者の知識17、すな
わち利用者既知情報、閲覧履歴18、すなわち履歴的既
知情報、入力文書(群)19すなわち要約対象文書は要
約プロセス制御部10によって管理され、要約の作成に
使用される。
【0046】文書構造解析部11は、要約プロセス制御
部10から要約対象文書や必須出力要素の指定内容など
を受け取り、文書の構造を解析し、文書内容を文解析部
12に出力すると共に、依存関係付文書構造情報を文分
割・依存関係設定部13に与えるものである。
【0047】文書構造解析部11は、まず文書の書式や
マークマップ情報などから、見出しや本文というような
文書の論理的構成要素を認定し、例えば見出しと本文、
あるいはそれと同様の関係を持つ要素として列挙構造の
項目名とその内容などを対応づけて、構成要素間の依存
関係を抽出する。この依存関係では、例えば本文内の要
素が従属ブロック、見出し内の要素が依存先とする。
【0048】文書構造解析部11は、作成者注目情報と
して文書の論理的構成要素、すなわち章、節・図表など
の見出しや、目次、用語や事項の索引などを用いる場合
に、作成者注目情報にあたる部分を認定し、作成者注目
の印をつけて、文解析部12および文分割・依存関係設
定部13を介して文選択部14に与える。要約プロセス
制御部10によって必須出力要素が指定された場合に
は、該当する部分に必須出力の印をつけて、同様に文選
択部14に与える。文解析部12が1つの文を単位とし
てしか処理できない場合には、文の認定も行うことにな
る。
【0049】文書構造解析部11による具体的な処理
は、文書の種類、例えば単なる自然言語の文書か、構造
化された文書(例えばSGML文書)かなどによって異
なり、本発明にとって本質的なものではないので、その
詳細の説明は省略する。
【0050】文解析部12は、文書の内容を文書構造解
析部11から受け取り、それに含まれる単語を認定し、
単語の出現位置や品詞情報をつけた単語列の形で文書内
容を文分割・依存構造解析部13に出力するものであ
る。また、利用者注目情報が質問文などの自然言語の形
で与えられた場合には、自然言語の利用者情報からも同
様に単語列を作成し、文選択部14に出力する。具体的
な処理の方法としては、形態素解析法として各種のもの
が知られており、それを用いればよいので説明は省略す
る。なお、単語列に付与される出現位置とは、文構造解
析部11から出力される依存関係付文書構造と単語列と
を対応付けるものであり、文分割・依存構造解析部13
では文書構造解析部11で設定された文書の構成要素間
の依存関係を述語句間の関係に変換するために使われ、
文選択部14では文構造解析部11で設定された必須出
力の印および作成者注目の印に従い、必須に出力する述
語句や作成者注目情報に対応する注目概念を認識するた
めに使用される。
【0051】文分割・依存関係設定部13は、文書構造
解析部11から出力される依存関係付文書構造情報と、
文解析部12から出力される出現位置や品詞情報がつけ
られた単語列、および要約プロセス制御部10から出力
される既知概念を用いて、後述する文分割処理と依存関
係設定処理を行い、文選択部14に対して依存関係付述
語句列(述語句リスト)を出力するものである。
【0052】文選択部14は、要約プロセス制御部10
や文解析部12から出力される注目情報と、要約プロセ
ス制御部10から出力される既知の事柄を示す情報に従
って、文分割・依存関係設定部13から出力される依存
関係付述語句列に対して後述する文選択処理を実行し、
要約に含めるべき重要な述語句(文)を選択して、後述
する選択結果リストを作成するものである。
【0053】ここで、質問文などの自然言語の注目情報
が文解析部12に与えられ、その他の注目情報が文解析
部12を経由することなく、直接文選択部14に与えら
れる理由を説明する。本実施例においては、後述するよ
うに文の重要度としての注目情報量は、単語、例えば名
詞を単位に計算される。そこで自然言語文として注目情
報が与えられた場合には、その自然言語文を単語に分割
する必要がある。質問文や文書から取り出された見出し
などが、文解析部12を経由して文選択部14に渡され
るのはそのためである。
【0054】一方、例えば利用者の嗜好特性16として
蓄積されている利用者注目情報などは、あらかじめ文解
析を行った後に適切な形式でメモリに格納することが可
能であり、この場合に文解析部12を経由することな
く、文選択部14に直接に与えることができる。なお本
実施例では自然言語と無関係な情報は利用しないが、メ
モリへの格納形式は後述する意味ネットワーク表現であ
ったり、フレーム表現であったりしてもよく、蓄積され
た情報は単なる自然言語に限られない。
【0055】文選択部14で用いられる注目情報として
は、代表的には名詞のリストが与えられる。注目度の高
い名詞には注目度に対応する重みを与えることもでき
る。また名詞以外の自立語(動詞や形容詞など)を注目
情報として与えたり、名詞と用言の組として与えること
も可能である。以下の説明では、重みなしの名詞リスト
が注目情報として与えられる場合を中心に実施例を説明
する。なお述語句の選択においては、文分割・依存関係
設定部13の処理によって設定された概念の既知性基準
に適合した述語句(文)間の依存関係に違反しないよう
に選択処理が行われるため、概念の既知性基準にも適合
した選択結果リストが作成されることになる。
【0056】要約整形部15は、文選択部14によって
選択された文を元の文書における出現順に並べ、必要に
応じて抽出されなかった文の存在を表す印や、段落の境
界などを挿入し、要約を読みやすい形式に整形する。履
歴的既知情報への依存関係が設定されている場合には、
ハイパーテクスチュアルな関係を設定することもでき
る。
【0057】ここで既知概念と既知の事柄について更に
説明する。既知概念は基本的には実質的な意味を持つ単
語としての内容語のリストである。例えば富士通が何を
している会社なのか知っている場合には、既知概念とし
て「富士通」を与える。そうすると要約対象文書が富士
通は日本の計算機メーカである。その富士通で今・・・
が行われようとしている。・・・のように始まっている
時、通常は第2文の先頭の「その富士通」に「その」と
いう照応表現が含まれているため、第1文も要約に含む
ように処理される。しかしながら「富士通」は既知の概
念であることが知らされ、また第1文は後述するような
名詞文であり、富士通の紹介(属性の定義)をしている
だけであると計算機の処理でも簡単に判断可能なので、
本実施例では第1文は抽出されないことになる(第2文
の「その」は削除される。)。
【0058】但し、このような単純な方法をとる場合に
は、次のような文書を対象にするときに不都合がおきる
ことがある。「富士通はもともと交換機をつくる会社だ
った、その富士通が、大型計算機で世界二位の地位をし
めるようになり、今ではパソコンメーカとして知ってい
る人の方が多いくらいだろう。だからNTTと富士通の
組み合わせを不思議に思う人もいるかもしれないが、N
TTと富士通の関係は浅からぬものなのである。・・
・」例えば利用者がパソコンの富士通しか知らない場
合、第3文を要約に含める時には、第1文も共に含めな
いと理解が困難となる。これを回避するためには、利用
者が「富士通」についてどのような事柄を知っているの
かまで指定する必要がある。例えば「富士通は日本の計
算機メーカである」、「富士通はパソコンを作ってい
る」ことまでは知っているというように指定しなければ
ならない。更に一歩進むと、「富士通は交換機を作って
いた」ことは知っていても、「富士通が今でも交換機を
作っている」のか、あるいは「富士通がこれからも交換
機を作り続ける」のかは知らないということがあり得
る。これが本実施例において事柄の既知性を取り扱うこ
との意味である。
【0059】このような意味で、本実施例では既知概念
としては主に専門用語のリストを与える。専門用語は専
門的な概念に名前をつけたものであり、分野を誤らない
限りは、それが既知かどうかは容易に決められる。既知
の事柄に関する知識としては、上の例のような単文の
形、または単文の内容に相当するものを、フレーム表現
など各種の形式で表現したものを与える。
【0060】また既知の概念は、補足的・説明的な記述
が必要であるか否かの判定に用いられるために、既知概
念は文分割・依存関係設定部13に与えられる。すなわ
ちある部分を要約に含める時、それを説明しているよう
な別の部分も含めるか否かの判定が文分割・依存関係設
定部13の役割であって、ある単語が既知の概念である
かどうかは、その判定に強く影響を与えるためである。
【0061】文書要約装置の構成の説明に続いて、この
装置内での本発明に特有の構成要素としての文分割・依
存関係設定部13と、文選択部14の処理について説明
する。図4は、文分割・依存関係設定部13による、文
分割・依存関係設定処理の詳細フローチャートである。
【0062】図4においては、文分割処理と依存関係設
定処理とが行われるが、文分割処理は最終的に依存関係
付述語句リストを作成する文分割・依存関係設定部13
の処理の前半部分である。但し図4においては、文を認
定し文と文の間に依存関係を設定する処理の途中に文の
内部構造を解析し、文内部の述語句間に依存関係を設定
する処理が挟み込まれているので、文分割処理と依存関
係設定処理とを単純に2分することはできない。
【0063】文分割処理とは、文解析部12によって単
語列に変換された文書の内容を、文選択部14による文
選択処理における基本単位(述語句あるいは文)に分割
して、分割された基本単位を要素とするリストとしての
述語句リストを作成する処理である。この文分割処理
は、図4において、ステップS2による先頭の文を取り
出すという処理と、点線で囲まれた述語句への分解処理
の中で実行される。
【0064】図4において処理が開始されると、まずス
テップS1で最終的に作成されるべき述語句リストの内
容がクリアされ、ステップS2で先頭の文が取り出さ
れ、ステップS3で文が取り出せたか否かが判定され
る。文書からの文の取り出しは、例えば見出しをそれだ
けで1つの文と見なすなど、文書の論理構造も考慮しな
がら、ピリオドなどの文の終了マークを手がかりとして
行うことができる。
【0065】文が取り出せたと判定されると、ステップ
S4で文の構文的依存構造の解析が行われる。この構文
的依存構造を求める方法としては、句構造文法によるも
の、係り受け解析によるものなど様々な方法が知られて
いるので、それらのいずれかを用いればよい。
【0066】構文的依存構造の解析結果を基にして、ス
テップS5で取り出された文の述語句(単文)への分解
が行われる。述語句とは、1つの述語とそれに支配され
る名詞(主語を含む)を基本として構成される句であ
り、文に含まれる単文に相当する。日本語なら用言、英
語なら動詞などのような依存構造中の述語が取り出さ
れ、それに依存している要素のうち述語でないものを加
えたものが述語句である。接続詞や助詞、前置詞などの
機能語や、機能語に相当する表現はその前後の自立語
(内容語)とまとめておけばよい。
【0067】なお単独で名詞を修飾する形容詞などの修
飾要素は、被修飾要素と一緒にまとめてもよく、独立し
た述語句としてもよい。但し好ましくは修飾要素の語彙
的性質や、修飾要素と修飾要素の組み合わせの種類など
によって、独立した述語句とするかどうかを決定する。
【0068】依存構造の解析方法としてどのような方法
を用いるとしても、述語句への分解のコストはかなり高
くなるが、述語句を単位として要約することにより、長
い文の場合などでも簡潔な要約が生成可能となり、また
高度な意味処理を行うために既知の事柄を図5に示すよ
うな格フレーム形式(フレームとは、属性名(スロット
名)と属性値(フィラー)の組の列であり、知識表現法
として周知のものである。)で与えたり、図6に示すよ
うな意味ネットワーク表現で与える場合などにおいて、
既知の事柄情報と要約の単位との照合が簡単になるとい
うメリットがある。
【0069】なお図6の意味ネットワークにおいて、ア
ンダーラインは意味を表す単位となるシンボルを示し、
アンダーラインのない矢印付の単語は関係を表す。図6
ではシンボルが日本語で表現されているが、例えば“発
表する”に対して英語の“announce”を対応するシンボ
ルとしてあらかじめ定義しておくことにより、日本語だ
けでなく英語に対する情報としても使用することができ
る。
【0070】以上の理由から、要約の単位としては必要
に応じて述語句、あるいは文のいずれかを使い分けるこ
とが望ましい。文を単位として要約を行う場合には、図
4において点線で囲まれた述語句への分解処理、すなわ
ちステップS4〜S12を省略することができる。この
部分には、前述の述語句への分解の部分と、次に述べる
述語句間の依存関係の設定処理が含まれている。
【0071】次に図4における依存関係設定処理につい
て説明する。依存関係設定処理は、文分割・依存関係設
定部13における処理、すなわち図4の処理の後半部分
である。この処理では、図3において要約プロセス制御
部10から与えれらる既知概念のリスト、および文書構
造解析部11からの出力であり、文書構造の上から推定
される構成要素間の依存関係に基づいて、概念の既知性
基準による制約を、述語句リスト中の要素(述語句ある
いは文)の間の依存関係の形で付与する処理が実行され
る。この処理は、文分割処理によって取り出された文毎
に順次実行される。
【0072】構成要素間の依存関係は、他の文や句(依
存先の文や句)を一緒に抽出した方が要約が読みやすく
なるような文や句(従属文・句)に対して設定されるも
のである。そのような依存関係の設定対象には以下のよ
うなものがある。 (1)文に含まれる従属文 注目要素を含まない従属文を省略し、注目要素を含む従
属文を主文と一緒に要約に含めるようにする場合に、従
属文から主文への依存関係を設定する。長い文の多い特
許公報などを要約する場合に有効である。 (2)前後の文に強く依存している文 逆接の接続詞(「しかし」など)を文頭に含む文などに
ついて、注目要素を含まない場合には省略し、注目要素
を含む場合には前の文も必ず一緒に要約に含めるように
する場合に、従属文(この例では後ろの文)から依存先
の文(この例では前の文)への依存関係を設定する。短
い文を積み重ねて書かれた論文などの場合に有効であ
る。 (3)見出しのついている部分に含まれる文 章節などに分かれている文書で、章節内の文に注目要素
が含まれている時に章節の見出しを必ず一緒に要約に含
めるようにする場合に、章節内の文から章節の見出しへ
の依存関係を設定する。マニュアルなどの構造化された
長めの文書から、知りたい事柄がどこに書いてあるのか
を調べる場合などに有効である。 (4)主題となっている語句が既知でない文 特に動詞(の過去形「〜た」)の文の主題となっている
語(文頭の「〜は」など)が要約中で初出の場合、その
語が初めて出現した文(初出の文)も一緒に要約に含め
るようにする場合に、主題が既知でない語の文から初出
の文への依存関係を設定する。経済関係の雑誌などの長
めの記事の場合に有効である。これは、概念の既知性基
準による処理の一つである。
【0073】要約対象がかなり長い場合には、初出の文
のかわりに、既知でない主題の語が、作成者注目情報と
ともに現れている文で近傍に出現するものを用いたり、
既知でない主題の語が、必須格(「が」「を」「に」)
を伴って出現している文で近傍に出現するものを用いた
方がよい場合もある。なお、語の一致の判定は、同一表
記の語を一致とするだけでなく、略語と正式名称との一
致や同(類)義語動詞の一致などについても行うことが
望ましい。英語でも、固有名詞が主語となっている動詞
文などについて、同様な処置が有効なことがある。 (5)照応表現を含んでいる文 日本語のコソアド語(「これ」「この」「こう」など)
や英語の3人称代名詞などの照応表現が登場する文に注
目情報が含まれていれば、先行表現が含まれている部分
も一緒に要約に含めるようにする場合に、照応表現を含
んでいる文から先行表現を含んでいる部分への依存関係
を設定する。照応表現を含んでいる文にペナルティを与
え、選択されにくくすることの方が有効な場合もある
(特に、日本語の名詞文(「〜は〜だ」)や形容詞文
(「〜は〜い」)など)。英語の場合や翻訳調の日本語
文書の場合に有効である。ここで、照応表現を含んでい
る文にペナルティを与えるということについて、名詞文
・形容詞文に関する例をあげて補足説明する。「名詞
文」「形容詞文」とは、形式的には文の述語が「名詞+
だ/です」、あるいは形容詞・形容動詞の文のことで、
典型的には主題を表す「〜は」の文節(俗にいう主語)
を含むものである。内容的には、主題となっているもの
の性状や、主題に関する話者の判断を表している文であ
り、品定め文などとも呼ばれる(例えば三上章『現代語
法新説』くろしお出版1972年)。本明細書で「名詞
文」「形容詞文」というのは、内容的な観点からの表現
で、必ずしも「名詞+だ」や形容詞を述語としている文
全てを対象としているのではない。逆に述語が動詞であ
っても「彼はよく働く」のように性状を表現する文であ
れば同様に考えることができる。
【0074】名詞文・形容詞文は、文書の中では図7に
示す例(翻訳記事)のように、すぐ後で述べることを導
入するために用いたり、話題のつなぎを示すために使わ
れることがよくある。このようなものは表現が抽象的で
あったりして、前後を見ないと具体的にどういう事柄を
述べようとしているのかを掴めないものが多く見られ
る。そのため、そういう文だけを抜粋しても、表現の意
図の理解が難しく、要約に採りあげるには意味のないこ
とがある。例えば、図7の初めの例(アンダーライン
部)であれば(典型的な形容詞とはいえないが)、後続
の文を採りあげた方が、その記事が何について書いたも
のなのかを把握する助けとなる。次の例では、その直前
の文およびそのさらに前の文を採りあげた方がよい。
【0075】本発明のねらいは、新聞や雑誌の記事やマ
ニュアル類から必要な事柄(知識)を素早く見い出すこ
とにある。そこで、図7の例のような、話題にまとまり
をつけたり、展開のつなぎにするような文の価値は低く
なる。特に照応表現がこのような文に現れた場合には、
前後で述べている事柄にニュアンスを追加するようなも
のが多いので、ペナルティを与えて選択されにくくす
る、というのが照応表現にペナルティを与える趣旨であ
る。
【0076】以上の(1)〜(5)のような文に対応し
て、依存関係またはペナルティを設定することによっ
て、要約の可読性を高めることができるが、実際にはそ
れ相応の計算コストが必要である。特に(4)の主題と
なっている語句が既知でない文、(5)の照応表現を含
んでいる文の依存関係に対しては、その関係を完全に処
理する技術が存在せず、不適当な依存関係が設定される
とかえって可読性を損なう場合が考えられる。そこで本
実施例においては、基本的な処理の流れを示すために、
(1)の従属文、(3)の見出しのついている部分に含
まれる文、(4)の主題となっている語句が既知でない
文について依存関係を設定し、(5)の照応表現を含ん
でいる文についてはペナルティを設定する場合について
処理を説明する。なお、ペナルティについては、後述す
る文選択部14の処理において、文選択の基準となる情
報量を、照応関係を含む文については通常の場合より減
少させることによって、照応関係を含んでいる文が選択
されにくくするような処理が実行される。
【0077】図4のステップS5において文が述語句
(単文)に分解された後に、ステップS6で構文的依存
構造において依存関係にある述語の間に依存関係が設定
され、ステップS7で他の述語句に依存していない述語
句が主述語句として設定され、ステップS8で主述語句
が述語句リストに追加される。なお前述のように文単位
に処理を実行する場合には、これらの処理は省略され、
単に文全体が主述語句とされる。主述語句とは、後続の
処理において文と文の間の依存関係を設定する際に、依
存先となるものである。
【0078】図8は述語句への分割と依存関係設定の例
である。同図(a) において、文1における述語句2は述
語句1に依存しているという依存関係が設定される。ま
た文2に対しても、同様に述語句2が述語句1に依存す
るという依存関係が設定される。いずれの文においても
述語句1が主述語句である。このように、依存関係は、
構文的依存構造における述語間の関係が直接的な場合
(文1)あるいは間接的な場合(文2)のいずれについ
ても同様に設定される。すなわち、文1においては述語
句2の述語「引いた」は接続助詞「ので」を介して直接
的に述語句1の述語「休んだ」と関係しており、一方文
2においては述語句2の述語「送ってくれた」は名詞
「手紙」を介して間接的に述語句1の述語「しまった」
と関係しているが、どちらも同じように依存関係が設定
される。
【0079】図4のステップS8で主述語句が述語句リ
ストに追加された後に、ステップS9〜S12で文の代
表句が決定される。代表句とは、その文に依存先がある
場合に後述のステップS14で設定される依存関係の起
点となる句のことである。文を単位として処理を行う場
合には、ステップS9〜S12の処理も不要であり、文
全体を代表句(かつ主述語句)とすればよい。
【0080】まずステップS9で文に主題句が存在する
か否かが判定される。主題句がある場合には、ステップ
S10で主題句が分離され、主題句と主述語句との間に
依存関係が設定される。主題句とは、日本語の主題マー
カ(「は」など)のついた体言句のことである。
【0081】図8(b) は主題句分離後の依存関係を示し
ている。文1に対しては、主題句は「太郎は」であり、
述語句2は述語句1に依存し、述語句1は主題句に依存
するという関係が設定される。文2に対しては、主題句
は「花子は」であり、同様に述語句2は述語句1に依存
し、述語句1は主題句に依存するという関係が設定され
る。このように分解された述語句・主題句は、後述の文
選択部14で依存関係に従って再構成され、要約に取り
入れる場合には依存先とまとめた形で取り入れる。図8
(b) の文1を例にとると、要約に取り入れられる可能性
のあるのは、「太郎は、学校を休んだ」(主題句+述語
句1)あるいは「太郎は、風邪を引いたので学校を休ん
だ」(主題句+述語句2+述語句1)のいずれかであ
る。
【0082】ここで主題句を分離する理由は、後続の文
の中に主題句に依存する(主題句について述べている)
文が含まれることが多く、そのような文を要約に含める
時に主題句のみを含めて可読性を高めることができるか
らである。例えば、「太郎は学校へ出かけた、途中で犬
に出会った。」の第2文「途中で犬に出会った。」を要
約に含める時に、省略されている主語を補って「太郎
は、…途中で犬に出会った。」(第1文の主題句+第2
文の述語句)として可読性を高めることができる。この
場合、主題句を分離しないと、主題句に続く主述語句も
一緒に、「太郎は学校へ出かけた。途中で犬に出会っ
た。」全体を要約に含めざるを得なくなる。なお、この
処理は、照応表現処理の一貫として後述のステップS1
5で第2文に対応する述語句「途中で犬に出会った。」
から第一文の主題句「太郎は」へ依存関係を設定するこ
とで実現される(説明中の実施例ではこの処理は行って
いない)。
【0083】ステップS10で主題句の分離と依存関係
の設定が行われた後に、ステップS11で主題句が文の
代表句とされ、ステップS13の処理に移行する。ステ
ップS9で文に主題句が存在しない場合には、ステップ
S12で主述語句が文の代表句とされた後に、ステップ
S13の処理に移行する。ここで代表句とは、文に含ま
れる主題句および述語句の中で、他の述語句に依存して
いないものを意味する。すなわち主題句が分離された文
については、主題句が代表句であり、それ以外の文につ
いては主述語句が代表句である。
【0084】ステップS13およびS14では、文書構
造解析処理で設定されている依存関係が述語句の間の関
係に変換される。この処理は文が見出しなどに従属して
いる部分(本文などの依存ブロック)に含まれている場
合にのみ実行される。ステップS13で処理中の文が依
存ブロック内の要素であるか否かが判定され、要素であ
ると判定されると、ステップS14で処理中の文の代表
句と文書構造上の依存先(ブロックの依存先)に対応す
る主述語句との間に依存関係が設定された後に、ステッ
プS15の処理に移行する。ステップS13で依存ブロ
ック内の要素でないと判定されると、ステップS14の
処理を行うことなく、ステップS15の処理に移行す
る。なおここでは典型的な処理のみを記述しているた
め、処理中の文より後にある部分に処理中の文が依存す
るときに依存関係を設定するステップを含んでいない。
そのような処理が必要なときには、依存先を指定する条
件と従属文の代表句とを記憶しておき、その条件に一致
する文を処理する時点で依存関係を設定すればよい。
【0085】図4の最後のステップ、すなわちステップ
S15では概念の既知性に基づいた依存関係やペナルテ
ィの設定処理が実行される。本実施例では、例えば動詞
文の主題語が既知でない場合に、主題語が初めて出現し
た文を依存先とする依存関係の設定処理と、照応表現を
含む文にペナルティを与える処理が実行される。この処
理の後に再びステップS2の処理に戻り、次の文の取り
出しが行われ、ステップS3で文が取り出されたと判定
されると、ステップS4以降の処理が繰り返される。ス
テップS3で文が取り出されなかったと判定された場合
には、文分割・依存関係設定処理を終了する。
【0086】図4の文分割・依存関係設定処理が終了す
ると、図3の文選択部14による処理が行われる。この
文選択処理は、文分割・依存関係設定部13から出力さ
れる依存関係は述語句列を対象として、要約に含めるべ
き重要な述語句を選択し、要約に含まれる述語句の選択
結果リストを作成するものであり、その処理のフローチ
ャートは図9に示される。
【0087】図9において、注目情報は注目概念リスト
として扱われている。注目概念リストは、具体的には前
述のように、注目情報として与えられた重みなしの名詞
のリストである。これを注目概念リストと呼ぶのは次の
理由からである。本実施例では、各文(述語句)を要約
に取り入れるかどうかを判定するのに、文に含まれる注
目情報の量を判定の第一の基準として用いており、注目
情報量としては、注目情報として与えられた名詞が各々
の文にいくつ含まれるかで計算している。注目情報量の
計算においては、注目情報として与えられた名詞のリス
トに含まれる語と字面が一致する文中の語を数えてもよ
いし、あるいは、「百貨店」と「デパート」、「パソコ
ン」と「パーソナルコンピュータ」のように同じ概念を
あらわす語は同一とみなして数えてもよい。この意味
で、図9では、注目語リストではなく注目概念リストと
いう言葉を用いている。
【0088】図9において処理が開始されると、まずス
テップS20で注目概念リストが作成され、ステップS
21で選択結果リストがクリアされる。注目概念リスト
は、要約プロセス制御部10および文解析部12から与
えられる名詞リストに文構造解析部で作成者注目の印が
つけられた部分に含まれる名詞を加えたものである。要
約プロセス制御部10から与えられる注目情報は、基本
的には利用者注目情報であるが、複数の文書の比較のた
めに要約を実行する場合には、比較対象となっている別
の文書の作成者注目情報も含まれている。
【0089】つづいてステップS22で必須出力句リス
トが空であるか否かが判定され、空でない場合にはステ
ップS23〜24必須出力句を選択結果リストへ加える
処理が実行される。ここで、必須出力句とは、利用者が
要約プロセス制御部10を通じて要約に必須で含めるよ
うに指示した文書中の要素(見出しなど)と対応する述
語句のことである。具体的には、文分解・依存関係設定
部13から出力された述語句のうちで、文書構造解析部
11によって必須出力の印がつけられた部分と対応する
もののことである。ステップS23で、先頭の必須出力
句を取り出し、(その先頭の句を必須出力句リストから
除いて、)取り出した句を選択結果リストに追加してか
ら、ステップS24で、選択結果リストに追加した句の
中の事柄を要約プロセス制御部から送られた既知の事柄
のリストに追加し、ステップS22の処理へ戻る。
【0090】この時選択結果リストに加えた述語句の中
に含まれる注目概念を注目概念リストから除くこともで
きる。但し、通常、必須出力要素として指定されるもの
は見出しなどであって、要約の核となる概念を含んでい
ても、完全な文の体裁をとっていないことが多いので、
前述の述語句の中の注目概念を注目概念リストから除か
ない方がよい。述語句が完全な文の体裁をとっている場
合に限って、述語句の中の注目概念を注目概念リストか
ら除くという方法が有効である。
【0091】ステップS22〜S24の処理が繰り返さ
れ、ステップS22で必須出力句リストが空になったと
判定されると、ステップS25で文分割・依存関係設定
部13から出力された述語句列のうちで、必須出力句以
外の全ての述語句が選択候補とされて、選択候補リスト
が作成され、続いてステップS26で選択候補リストの
中の全ての句に対して注目情報量が計算される。
【0092】この情報量の計算処理では、典型的にはそ
れぞれの述語句に含まれる注目概念(名詞)の数が求め
られる。この時注目情報量を計算しようとしている述語
句に依存先があり、依存先がまだ選択結果リストに含ま
れていない場合には、依存先も含めて注目概念の数を数
えることにする。また依存先が複数ある場合には、依存
先の注目情報量を先に計算して、注目情報量が最も大き
い依存先を選ぶことを原則とする。なお述語句に出現す
る注目概念の種類(名詞の異なり数)と、延べ数を記憶
しておくことが好ましく、また注目概念に重みが与えら
れている場合には、その重みを乗算して名詞の数を数え
るものとする。
【0093】このように依存先を含めて注目情報量を計
算する理由は、前述の概念の既知性基準と関連してい
る。すなわち概念の既知性基準に従えば、例えば文書に
固有名詞が繰り返し出現する場合、2番目に出現した部
分を要約に含める時には、初めて出現した部分も要約に
含めるように処理することが必要となるためである。す
なわち文分割・依存関係設定部13によって、2番目の
文から1番目の文に対して依存関係が設定されているこ
とから、文選択部14では2番目の文の重要度、すなわ
ち注目情報量の計算は1番目の文とまとめて行われるこ
とになる。このような処理については具体例を用いて更
に後述する。
【0094】続いてステップS27で注目情報量が0の
述語句が選択候補リストから除かれた後に、ステップS
28で選択候補リストに残っている全ての述語句に対し
て新情報量の計算が行われる。新情報量とは、利用者に
とって既知ではなく、またすでに選択された述語句には
含まれていない事柄に関する情報の量である。この新情
報量の計算について図10の例を用いて説明する。
【0095】図10において述語と名詞の組を新情報と
し、その組の個数として新情報量を計算する。本文には
7個の事柄が含まれるが、そのうち2個は見出しと共通
である。見出しを必須出力要素として、図9のステップ
S23で選択結果リストに追加すれば、本文に含まれる
新情報量は5個となる。この例では、述語と名詞の組み
合わせを認定するというやや複雑な処理を必要とする
が、単純に注目概念(注目語)以外の名詞の数を数える
ような、より簡単な方法を用いることも可能である。
【0096】このように、新情報量の計算としては、概
念の列として事柄の情報をモデル化し、すでに選択され
た述語句には含まれていない事柄の数を数えて新情報量
とすればよい。別の方法としては、いわゆる5W1Hの
ような形式で事柄情報をモデル化し、図5に示したよう
なフレーム表現によって述語句と比較して、既知の事柄
と一致しない述語句の数を新情報量とすることもでき
る。あるいは5W1H形式のモデルを用いた場合の新情
報量を第1新情報量とし、単純な新情報量を第2新情報
量として、組み合わせて用いることもできる。新情報量
の計算も、注目情報量の計算と同様に、依存先があれば
新情報量が最も大きな依存先を選んで、依存先を含めて
計算するものとする。またペナルティが与えられている
述語句に関しては、そのペナルティ分だけ新情報量を減
算するものとする。
【0097】ここでペナルティについて更に説明する。
照応表現などに関してペナルティを与える文としては、
依存先の文であっても、依存元の文であってもよい。単
に新情報量を減算するだけのことである。例えば次の2
つの文についてのペナルティを説明する。
【0098】第1文:昨日1 新宿2 で田中3 さんに会っ
て、こんな話4 を聞きました。 第2文:昨日1 田中2 さんに会って、車3 の話4 を聞き
ました。 この例では上に数字の書かれている名詞の数は同じであ
る。しかしながら第1文の方には「こんな話」という照
応表現があり、この文だけを取り出すと、どんな話であ
るかが不明である。照応表現に対するペナルティとは、
このような場合に第2文が優先的に選択されるように、
第1文に対する新情報量を、例えば名詞の個数で0.5
個分減点するものである。
【0099】簡単な例として、新情報量を文に含まれる
注目概念(注目語)以外の名詞の数として計算する。例
えば「田中(さん)」が注目語であれば、「こんな話」
に対して名詞0.5個分のペナルティを与えると、第1
文の新情報量は2.5となり、第2文(新情報量3.
0)の方が新情報量が多くなり、後述するように第2文
の方が優先的に選択される。しかしこの例で注目語が
「田中(さん)」と「新宿」の2つでれば、第1文の方
が注目情報量が多くなるため、後述するように、ペナル
ティにかかわらず第1文が選択されることになる。
【0100】ステップS28の処理が終了すると、ステ
ップS29で新情報量が0の述語句が選択候補リストか
ら除かれた後に、ステップS30で選択候補リストが空
になったと判定されるまで、ステップS31〜S36の
処理が繰り返される。
【0101】まずステップS31で注目情報量が最大の
述語句を選び、その中で最大の新情報量を持つ述語句が
出力句とされ、ステップS32でその出力句が選択候補
リストから除かれて、選択結果リストに追加される。こ
の時述語句に依存先があり、その依存先がまだ選択結果
リストに加えられていなければ、その依存先も一緒に選
択結果リストに追加する。なお情報量が全く同じ述語句
が存在する場合には、それらの述語句を全て一度に追加
することを原則とするが、別の方法として最も要約対象
文書の先頭に近い述語句を選ぶなど、述語句の出現位置
などによって1つに選択してもよい。
【0102】このように文選択処理において事柄の既知
性に関しては新情報量の差として取り扱われ、注目情報
量が同じ文がある場合、新情報量の多い文が選択され
る。そこで注目情報量が同じ文がなければ、事柄の既知
性基準は使用されないことになる。
【0103】続いて図9のステップS33で出力句、す
なわち選択結果リストに追加された述語句に含まれる注
目概念が注目概念リストから除かれ、その結果を用いて
選択候補リストに残っている全ての述語句に対する注目
情報量の再計算が行われ、ステップS34で再計算され
た注目情報量が0の述語句が選択候補リストから除かれ
る。この注目情報量の再計算は前述と同様に行ってもよ
いが、例えば注目概念と述語句の関係をあらかじめ記憶
しておいて、リストから除かれた注目概念を含む述語句
と、選択結果リストに追加された述語句に依存している
述語句だけを対象に計算を行うこともできる。
【0104】ステップS34の処理に続いて、ステップ
S35で出力句、すなわち選択結果リストに追加された
述語句に含まれる事柄の情報が既知事柄リストに追加さ
れ、選択候補リストに残っている全ての句に対して新情
報量の再計算が行われる。この再計算も前述と同様に行
ってもよいが、例えば事柄と述語句の関係をあらかじめ
記憶しておき、既知事柄リストに加えられた事柄を含む
述語句、選択結果リストに追加された述語句および注目
情報量に変化があった述語句に依存する述語句だけを対
象に計算を行うこともできる。
【0105】図9のステップS36で新情報量が0の述
語句が選択候補リストから除かれた後に、ステップS3
0以降の処理が繰り返され、ステップS30で選択候補
リストが空になったと判定された時点で、文選択処理を
終了する。
【0106】図11は、前述のように新情報量が第1新
情報量と第2新情報量とに区別されている場合の、図9
のステップS31における新情報量比較の詳細フローチ
ャートである。同図において、候補述語句Aと候補述語
句Bの新情報量を比較する場合には、ステップS38で
まず第1新情報量については2つの述語句のうちいずれ
が大きいかが判定され、Aの方がBより大きい時にはA
の新情報量が大きいものと判定され、逆にBの方がAよ
り大きい場合にはBの新情報量が大きいものと判定され
る。これに対して第1新情報量が同じである場合には、
ステップS39で第2新情報量が比較され、第2新情報
量の大きい述語句の方の新情報量が大きいものと判定さ
れ、第2新情報量が等しい場合には2つの述語句AとB
の新情報量は同じと判定される。
【0107】以上においてはペナルティは照応表現に対
してのみ与えられるものとしたが、前述の依存関係が設
定される文(1)〜(5)のうちで、(3)と(4)な
どについてもペナルティを与えておけば、例えば利用者
に理解できない用語などの出力が抑制されることにな
る。その場合の処理は、照応表現についてペナルティを
与える場合と全く同様に実行可能である。
【0108】あるいは図9のステップS31における新
情報量の比較の後で、候補述語句の長さを含めて出力句
とするか否かの評価を行うこともできる。すなわち注目
情報量と新情報量とが共に等しいものについては、短い
述語句を優先的に選択することにすれば、利用者に理解
できない用語などの出力はある程度抑制される。更に新
情報量そのものの比較に代わって、新情報量と選択述語
句の長さとの比(新情報の出現密度)を用いるという方
法も考えられる。
【0109】いずれにしても、このような利用者に理解
できない用語などの出力の抑制の問題については、新情
報量の計算とからめて処理することになる。既知概念は
基本的には依存関係として取り扱われるが、事柄の既知
性基準に基づく新情報量の計算にも関係している。これ
が、概念の既知性基準と事柄の既知性基準とを、情報の
既知性としてまとめた1つの理由である。
【0110】以上において本発明における文書要約方式
を、一般的に、詳細に説明したが、ここで本発明の特徴
について更に説明する。本発明においては、前述のよう
に情報の注目性基準として、利用者注目情報と作成者注
目情報の2つが考慮されているために、利用者の求める
情報と文書において重要な情報の双方をバランスよく取
り込んだ要約を作成することができる。また情報の既知
性基準として、概念の既知性基準と事柄の既知性基準と
を用いることによって、簡潔で分かりやすい要約が作成
されるという特徴がある。
【0111】このような前述の特徴に加えて、本実施例
によればまず文書の重要性に応じて自動的に要約の長さ
を変えることが可能となる。従来の要約作成のアルゴリ
ズムにおいては、要約に含めるべき文の数や文字の数、
あるいは元の文に対する要約の長さの比率などがパラメ
ータとして渡される場合が多い。本実施例においては、
注目情報のうちで文書の中に出現しているものの量に応
じた長さの要約が作成されることになり、特別のパラメ
ータを指定することなく、適切な長さの要約が作成され
る。例えば利用者注目情報を重視すれば、利用者が求め
る情報に関係の深い文書ほど長い要約が生成されること
になる。特に長さにバラつきがある一群の文書をまとめ
て要約するような場合には、一般に要約の比率などのパ
ラメータを適切に設定することが難しく、この特徴は大
きな長所になる。
【0112】次に本実施例においては要約の長さに関す
る制約にも容易に対応できるという特徴がある。本実施
例では基本的には要約の長さに関する特別な処理はなさ
れていないが、要約の長さに対して制約が与えられた時
には、その制約に容易に対処することが可能である。例
えば短い要約を得たい場合には、図9の文選択処理にお
けるステップS30において、選択候補句リストが空に
ならない前に処理を途中で打ち切ればよい。これは文選
択処理において、注目性基準によって重要度の高い部分
から順次文が選択されていることによる。
【0113】逆に長い要約を得たい場合には、一旦図9
のフローチャートに従って文選択処理を行ってから、選
択されなかった部分について図9のフローチャートによ
る処理を繰り返すことによって、適切な長さの要約を作
成することができる。これは図9のステップS31で最
初の処理のフローにおいて、注目情報量が最大の句の中
で新情報量が最大の句だけが選ばれているために、2回
目の処理のフローにおいては次に新情報量が大きい句が
選ばれて、出力句とされることによる。すなわち事柄の
既知性基準によって、冗長な出力が抑制されているとい
う本発明の特徴がある意味では逆に生かされて、適切な
長さの要約の作成に寄与することになる。あるいは、選
択処理を繰り返す際に、前回の選択処理で得られた要約
中の全名詞を次回の注目情報とするなどという方法で
も、効果的に関連性の高い部分を順次取り入れて、要約
を拡大することも可能である。
【0114】更に本実施例によれば、要約に関する様々
な、その他の制約にも容易に対応できるという特徴があ
る。本実施例においては要約の満たすべき要件を、情報
の注目性基準および既知性基準という2つの基準に対応
して整理して用いることができ、いろいろな要求に応じ
て文書要約装置の動作を拡張することが容易である。例
えば図3において、利用者の嗜好特性や利用者の知識の
ようなメモリに格納されている情報を、利用者の要求に
応じて様々な面から再整理して、要約作成の制約として
用いることができる。また、2つの文書の作成者注目情
報を、互いに別の文書を要約するための利用者注目情報
のような形で与えて、要約を作成すれば、それぞれの文
書で共通して述べられている事柄や片方にしか述べられ
ていない事柄のうち、どちらかの文書の作成者が重点を
置いているものが抽出されることになるので、そのよう
な要約を文書の比較情報として用いることも可能であ
る。このように要約装置の基本構成を変えることなく、
各種の要求に対応することが可能である。
【0115】続いて本発明の文書要約方式を用いた要約
作成の具体例について説明する。図12は本明細書の
〔従来の技術〕などで参照した特許公報の抄録を対象と
して、次の検索式と見出し(発明の名称)を注目情報と
して、要約としての抄録抜粋を作成した結果を示す。
【0116】(要約OR抄録OR読解OR閲覧)AND
(文書ORドキュメント) なお最後の特開平7−44566だけに対しては、検索
式は以下のものである。
【0117】(要約OR抄録OR読解OR閲覧)AND
(文章ORテキスト) 図12において、要約としての抄録抜粋の中の〔 〕
でくくって表示されているものは注目語である。また
“特徴語”は要約対象文書の中に含まれていた注目情報
である。ここで特徴語は注目語の部分集合になるが、機
能的には別のものである。特に利用者が注目している語
の中で、ある文書に出現したものは、その文書に対する
キーワードには含まれていなくても、利用者にとっては
意味が深い、その文書の特徴と考えられる。
【0118】図12おける要約作成の条件は利用者注
目情報として検索式に含まれている名詞を用いる。作
成者注目情報として見出し(発明の名称)に含まれてい
る名詞を用いる。概念の既知性基準は用いない。既
知の事柄情報としては選択された要約部分に含まれてい
る名詞を用いる。すなわち候補述語句中に存在し、まだ
要約に含まれていない名詞の数が新情報量(異なり数が
第1新情報量、延べ数が第2新情報量)とされる。見
出し(発明の名称)を必須出力要素とする。の5つであ
る。
【0119】図13は概念の既知性基準を用いた場合の
効果を説明する要約作成の具体例である。これは経済関
係のレポートに対して、見出しを注目情報として、要約
を作成した例である。図13(a) は「Hancock は」とい
う主題句に関する概念の既知性基準を用いない場合の要
約であり、(b) はこの主題句に関する概念の既知性基準
を用いた場合の要約である。概念の既知性基準によって
追加された部分にはアンダーラインがつけられている。
【0120】図13における要約作成の条件は利用者
注目情報は指定しない。作成者注目情報として見出し
に含まれる名詞を用いる。概念の既知性基準は(a) で
は使用せず、(b) では主題句に関して用いる。既知の
事柄情報としては選択された要約に含まれている名詞を
用いる。すなわち候補述語句中に存在しながら、まだ要
約に含まれていない名詞の数が新情報量(異なり数、延
べ数が第1、第2新情報量)とされる。見出しを必須
出力要素とする。の5つである。
【0121】図13の要約作成処理について更に詳細に
説明する。図13における要約対象文書は以下のもので
ある。この文書において、下線の付いた文字で以下の記
号のついた文が、図13で要約として抜粋された文であ
る。
【0122】・図13(a) でも抽出されている文(◇) ・図13(b) で新たに追加された文(☆) ○ Apple ComputerがWindows 乗り入れの強化により再
建中 ◇ G.Amelioは社内の機構を改革し、Macintosh の機種
を半分に減らして開発費を減らし、約3,000 人の社員を
レイオフしつつ、Apple Computerを建て直している。
【0123】☆ AmelioはApple の重要な地位に外部か
ら人を入れているが、研究開発の最高の担当者chief te
chhology officerとして53才のEllen Hancock を任命
した。これはApple 再建に最も重要な地位である。これ
は業界で非常に尊敬されていたD.Nagel がAT&TのBell L
aboratories の所長としてApple を去るまで占めていた
地位である。有意義な新製品開発の経験のある人の代わ
りにIBMに28年間過ごしたHancock が任命されたのは
驚きを持って迎えられている。Hancock はIBMという
巨大な会社で育っているので、直ちに6,000 人の血気盛
んな若いエンジニアやプログラマと管理スタイルの上で
ぶかつり合うのではないかと見られている。また、IB
Mでは5年位の単位で動いているのに対し、Apple は直
ちに動かなければならないから、仕事のテンポが合わな
いのではないかとの懸念もある。Hancock は数学の修士
を持ち、1996年にIBMのプログラマーとして出発
し、管理能力が認められて次第に昇格し、1995年に
はIBM全体の約1/3 を担当したが、L.Gerstnerと意見
が合わず、IBMを去ってNational SemiconductorにC
OOとして迎えられた。Hancock はIBMはLotus Deve
lopment のNotes を買い取るべきだと長いことIBM社
内で説いていたが、それが実現したのはHancock がIB
Mを辞めてからである。National Semiconductorでは今
年2月にAmelioがApple に移った後、後任のchief exec
utive officer になるつもりでいたが、board of direc
torsが後任にLSI LogicからのB.Halla を任命したの
で、National Semiconductorを辞めた。◇しかし、Hanc
ock はソフトウェアをよく知っており、Apple 再建の成
否は開発が遅れ続けているCopland にかかっているの
で、Hancock は妥当な人事と見られている。また、Appl
e では開発管理がいい加減で製品化が不首尾になること
が多かったのを是正し、また今まで大企業のマーケット
に進出できなかったのを是正できるのではないかと期待
されている。
【0124】その他chief operating officer としてTe
xas Instruments からはMarco Landi, chief administr
ative officer としてはMaxtor Corp., Advanced Micro
Devices, Fairchild Semiconductorなどを経たGeorge
H.Scalise、またchief financial officer としてAutom
atic Data Processing Inc.とMAI Systems にいたこと
のあるFred D.Anderson をAmelioは任命している。
【0125】Amelioの前任者Spindlerの時はSpindlerの
無理な開発促進圧力のため、開発の中心人物が多数Appl
e を辞め出した。しかもその多くがMicrosoft に就職し
ている。S.Capps は15年間Apple にいてMacintosh そ
の他のヒット商品を考え出したが、6ケ月前からApple
を去る決心をし、新会社を興すためベンチャー・キャピ
タリストと語ったところアイデアが多過ぎると言われた
ため、諦めてApple の競争相手のMicrosoft に就職し、
Microsoft のInternetのツールと新しいcomputer inter
faceを開発し出している。Microsoft は今年末までにNe
wtonのようなhand hold computer用OSのPegasus を発
表する予定だが、それを使い易くするのに協力する。ま
たCapps と共にNewtonを開発したW.Smith もMicrosoft
に移った。Gates がもっと使い易いインターフェイスを
求めているからその方針に従うが、Windows は二人にと
っては初めての経験である。Windows95 は複雑で同じこ
とをするのに五つもの異なるやり方があり、単純化する
のは困難と見られている。
【0126】AmelioはApple 再建に妥当な手を打ってい
ると見られるが、結果が目に見えてくるまでは少なく共
1年はかかるであろう。しかし、Macintosh の売れ行き
は悪化している。今年の3月に終わる四半期のApple の
売上は1年前に比べ9.7%下がって$2.8billion
になった。Macintosh の出荷は6月に終わる四半期には
20%減ると業界では推定していたが、調査会社Comput
er Intelligence が1,000 のパソコン小売店を調べたと
ころ、アメリカでは4月と5月における出荷台数はそれ
より遙かに悪く、1年前に比べて4月は29%、5月に
は27%減り、売上金額は4月には31%、5月には3
3%減っているという。この減少の一部にはパソコン業
界全体の売れ行き鈍化と、春先に欠陥のあったMacintos
h を多数リコールしなければならなかったのも含まれて
いる。しかし、Merisel Inc.のようにMacintosh は今ま
で通り売れているとい所もある。パソコン業界全体では
4月も5月も売上は10%増え、出荷台数は3%増えて
いる。大きな減少は企業のマーケットであり、社内のパ
ソコンの半分から1/4 までがMacintosh の3,000 のオフ
ィスを対象に調べたところ、新規のパソコンの購入が2
月に33%あったのに4月には14%減っている。アメ
リカ最大のパソコン量販チェーンのCompu USA Inc.で
は、Macintosh の売上は50%も下がったが、ノートブ
ックの売れ行きはいくつかの機種がリコールされたこと
もあってストップしている。小売店ではどこでもMacint
osh のハードウェアもソフトウェアも余り置いていない
が、それは通信販売の会社から安く買えるためである。
そういう通信販売会社の最大がMicro Warehouse であ
り、毎年$1.8billionの売上があるが、その半分がMaci
ntosh のハードウェアとソフトウェアであり、夜10時ま
でに電話やFAX で注文すれば翌日$3の送料で配達する
という優れたサービスで有名である。この会社では1月
におけるMacintosh の売上は1年前に比べ60%増えた
が、5月には増減なしとなった。
【0127】Dataquest によれば、世界のマルチメディ
アのマーケットではMacintosh が最大で、1995年に
は3,950,000 台(1994年には2,400,000 台)、次が
Packard Bell で3,000,000 台(2,950,000 台)、それ
に続いてCompaqが2,900,000台(1,200,000 台)、IB
Mが1,600,000 台(800,000 台)、NECが1,500,000
台(500,000 台)と続く。1995年のマーケット・シ
ェアはApple が最大で、22.9%、これに続いてPack
ard Bellが19.2%、Compaqが11.9%、IBMが
8%、NECが4.3%、Acerが2.7%、Escom が
0.7%、富士通が0.6%、Highscreenが0.6%、
その他が29.1%となっている。
【0128】Apple は5月にdigital cameraやその他の
画像処理用装置に内蔵されるチップ上で動作する新しい
OSを発表した。これはQuick Time IC(image-capture)
技術の一部であり、MotorolaのチップMPC823用の
multitasking OS であり、image-capture 用装置のAP
Iを含んでいる。現在digital cameraの製造会社はそれ
ぞれ独自のASICを設計し、Adobe のPhtoshopやStor
m Software社のEasyPhoto といった画像処理用ソフトウ
ェアのインタフェースを独自に開発しなければならな
い。QuickTime ICを使えばdigital cameraの製造会社は
そういう手間が省けるので、digital camreaの値段を下
げられる。Apple はこれの開発をdigitalcameraや画像
処理関係の会社の大手と共同で開発してきており、すで
に10社以上が支持している。これを使えばパソコンなし
にdigital cameraから直接Internetに画像を送れるし、
カメラの中のscriptにより撮影時間を変えたり、Photos
hopのフィルターを動作さすことができる。
【0129】Apple はMacintosh 互換機戦略を強化しつ
つあるが、そのための製品を夏から出荷する。社内でTa
nzaniaと呼ばれる新しいMacintosh のlogic board はsc
alableで安く、これによってMacintosh 互換機の製造に
興味を持つ会社に呼びかける。MotorolaはすでにTanzan
iaの試作を済ませ、実演をした。Tanzaniaは低位と中位
機種用であり、広範なオプションがある。最高200MHzま
でのPowerPC603e と604eを使用出来、3個から5個まで
のPCIスロットがある。PS/2キーボードかADB
コネクター、またEnhanced IDE (Integrated Drive E1e
ctronic)かSCSI internal hard driveの選択があ
る。またLocalTalk, GeoPort, SCSIなどのコネクタ
の他、Apple としては初めてのATADI(AT attachm
ent packetinterface) CD−ROM driveがある。Tan
zaniaはまたMacintosh の自動ejectingのfloppy drive
の他、Intel のチップ使用のパソコンでは標準の手動ej
ectingのものもある。DIMMスロットが2個とSIM
Mのスロットが二つあり、最大160Mbytes のRAMが使
えるがEDO DRAMを使用する。互換機製造会社は
Tanzaniaを使用したパソコンを来年始めには出荷でき
る。Apple はMacintoshのライセンス戦略をMacintosh
そのものの互換だけからPPCPへの移行を3段階に分
けて推進している。第1段階はMacintosh そのものの互
換機だけであって1995年から1996年にかけてDa
yStar Digital Inc.、 Power Computing Corp.、 Umax
Computer Corp.がPower Macintosh7500 と9500の互換機
を実現した。Umax Computer Corp. は台湾のUmax Data
Systems がRadius Inc. からMacintosh 互換機部門を買
い取って今年1月に生まれた会社であ、その最初の互換
機SuperMacS900は6月始めから出荷されたが、非常な人
気で生産が間に合わず、1カ月以内に$10million の受
注がこなせないでいる。第二段階はPower Macintosh540
0 とTanzaniaボードに基づいて今年夏から来年半ばにか
けて実現する。この二つは共にLow End Reference Plat
form(最近はMacOS Licensing Design, 略してMLDと
いう)に基づいている。どちらも業界で標準になってい
る広範囲の論理回路や周辺機器が使えるようになってお
り、PPCP(以前はCommon HardwareReference Platf
orm 、略してCHRPと呼ばれていた)の狙いに近づ
く。PPCPではMacintosh のOSの他、OS/2, Window
s 3.1, UNIX, Solarisなど広範囲のOSが使えることに
なっている。第三段階はPPCPに1997年半ばから
1998年にかけて完全に移行する。
【0130】Microkernel に基づくCopland が来年半ば
に延びたので、今までApple はCopland が出るまでSyst
em7.5.3 がSystemの改良の最後だと言っていたのを変更
して、つなぎとしてCopland の新しい機能の一部を取り
入れたHarmony と社内で呼んでいるOSを年末に発表す
ることになった。Harmony にはInternetへのサポート、
OpenDoc, Cyberdog, QuickTime2.5, QuickDraw3Dなどの
クラフィックス技術、またCopland に予定されていたイ
ンターフェイスの改良などがある。またラベルの付いた
フォルダーによってファイル多数の検索や管理もでき
る。Lockheed Martin Missiles and Space 社はMacint
osh を9,500 台持っているが、Internetへのサポートや
OpenDoc が完成しているのなら、来年まで待たずに入手
できるのは有難いと大歓迎である。
【0131】ユーザは今までのソフトウェアを変更せず
にHramony を使えるが、Copland の場合はソフトウェア
会社は今までのソフトウェアを変更しなければならな
い。Copland は今はSystem8 と呼ばれている。
【0132】また今年の夏にはSystem7.5.3 のバグを直
し、Duo23005やPowerBook に対する性能を改善し、Bust
erと社内で呼ばれて開発されてきたものを発表する。Co
mputer Intelligence InfoCorp.の最近の調査では、昨
年Macintosh を買った人の中で次もMacintosh を買おう
と答えたのが87%もあり、パソコンの満足度では最高
であった。次いでDell Computer が74%、Hewlett-Pa
ckard が72%、Acerが68%、Gateway2000 が61%
であった。Macintosh に満足している人々はMacintosh
のOSが好きなためであるのに対し、Intel チップ使用
のパソコンを使用している人々はたとえMacintosh のO
Sの方がすきであってもソフトウェアの互換性の立場か
らMacintosh に変えられないとこの調査会社は説明して
いる。
【0133】Amelioの前任者SpindlerはMicrosoft を徹
底的に敵視してGates に会うことはなかったが、Amelio
はGates を訪問して協力を要請するという現実的な行動
をしている。マルチメディアに関する標準と製品をAppl
e とMicrosoft の二社で共通に使用しようとしている。
二社の交渉がまとまればApple のQuickTime の開発環境
がWindows95 やDirectX API のサポートも含めNTでも
使えることになり、またApple のQuickTime Internet E
xplorer がMicrosoft のInternet Explorer でも使え
る。◇交渉がまとまればMicrosoft はQuickTime をInte
rnet Explorer に組み込めるようにし、同時にApple は
Windows のマルチメディア技術のサポートを強化するこ
とになろう。すでにApple はQickTimeがwindows 使用の
環境でも使用出来るようにし、DirectX のAPIの多く
がQuickTime でも使えるようになっている。今まではWi
ndows 用のQuickTime は再生しかできなかった。Web 上
のビデオの60%がOpenDoc で作られ、30%がMPE
Gにより作られるようになりつつあり、MPEGはQuic
kTime でも読めるという事実の前に、Microsoft は現実
的になってきた。
【0134】二社の関係は他の点でもよくなってきてい
る。Apple はMicrosoft のBackOfficeをヨーロッパでは
Advanced Workgroup Solutionsのサーバーにパンドルし
て売り出しており、これが成功すればアメリカでもそう
すると言う。Microsoft もOffice97の次のversion をMa
cintosh 用にも開発すると約束するようにまで二社の関
係は改善された。パソコンの需要が落ち込みつつある現
在は特に他社のソフトウェアやハードウェアへの相互乗
り入れは互いに利益がある。
【0135】Apple はQuickTime Internet技術をMicros
oft にライセンスを与えるばかりでなく、QuickTime VR
(virtual reality) も含めることになろう。これに対抗
するMicrosoft のActiveMovie の技術は非常に遅れてお
り、開発キットをソフトウェア会社に配布さえしていな
い。Microsoft はActiveMovie をInternet Explorerに
取り入れるのを諦めるのではないかとみられている。し
かしApple はDirectXのAPIなどMicrosoft のメディ
ア技術のサポートを改善するためにQuickTimeを貫き直
さなければならない。DirectX のAPIの大部分をAppl
e はサポートしつつある。これらAPIのうちDirect3D
は、Apple のQuickDraw3D と真っ向から対抗する。他方
Intel もInternet上のビデオ技術についてMicrosoft に
働きかけている。Apple のビデオ技術よりIntel のビデ
オ技術の改良されたものの方がよいとMicrosoft に説い
ている。Apple の場合はビデオを再生し始める前に充分
なデータをダウンロードしなければならないのに対し、
Intel の改良した技術では圧縮技術の改良によって早く
ビデオを再生し始められる。Gates はInternetやintran
etの将来性を見誤ったのに気がつき、今は出遅れたInte
rnet Explorer を一刻も早く強力なものにしたいとあせ
っている。 (要約対象文書終わり)この文書を対象とする要約の作
成における注目情報としては、見出しに含まれている名
詞を用いる。すなわち注目語は“Apple Computer”、
“Windows ”、“強化”、および“再建”の4つであ
る。注目情報量についても、第1注目情報量と第2注目
情報量とに区分して取り扱う。第1注目情報量は文に含
まれる注目語の異なり数であり、第2注目情報量は文に
含まれる注目語の延べ数である。第1注目情報量、およ
び第2注目情報量の取り扱いは、図11の新情報量の比
較と同様に行われる。
【0136】説明の単純化のために、新情報量としては
注目語以外の名詞(内容語)の数を用いることとし、第
1新情報量は文に含まれる注目語以外の名詞内容語の異
なり数、第2新情報量は文に含まれる注目語以外の名詞
内容語の延べ数とする。
【0137】図14は注目情報量と新情報量の計算結果
である。上の要約対象文書の先頭から文に番号をつけ、
注目情報量、新情報量が0とならない文についての情報
量を示す。文に対して注目語は太字の〔 〕、新情報と
しての注目語以外の名詞内容語は細字の〔 〕で囲んで
表示されている。情報量の少数点より前の部分が異なり
数であり、少数点より後の部分が延べ数である。例えば
文11においては〔Hancock 〕が2回出現するので、新
情報量の異なり数(第1新情報量)は8、延べ数(第2
新情報量)は9となる。
【0138】図14の計算結果に基づいて、図9のステ
ップS31で文72が選択され、ステップS32で文7
2が選択候補リストから除かれ、選択結果リストに追加
される。そしてステップS33で“Windows ”と“強
化”とが注目語リストから除かれ、注目情報量の再計算
が行われる。
【0139】図15は再計算後の情報量を示す。この図
に対しては、図9のステップS31で文1が選択され、
ステップS32で選択結果リストに追加され、ステップ
S33で“Apple Computer”が注目語リストから除か
れ、注目情報量の再計算が行われる。ここでは文1以外
に“Apple Computer”を含む文は存在せず、他の文の情
報量は変化しない。
【0140】続いて再びステップS31で文11が選択
され、ステップS33で“再建”が注目語リストから除
かれ、注目語リストが空になる。従って、注目情報量を
再計算すると、選択候補リストに残っている述語句に対
する注目情報量は全て0になり、ステップS34で選択
候補リストの内容は空となり、文選択処理が終了する。
この処理によって得られた結果が図13(a) である。
【0141】次に図13(b) の結果を得る処理について
説明する。ここでは図13(a) に対する処理に加えて、
以下の処理が実行される。まず第1に、主題句の中に既
知でない固有名詞が表れた文に対しては、その固有名詞
が要約対象文書中で初めて出現した文を依存先とする依
存関係を設定する。但し固有名詞の場合、最初は正式名
称(ここでは“Ellen Hancock ”,“G.Amelio”)が用
いられても、その後は省略形(ここでは“Hancock ”,
“Amelio”)が用いられることが多いので、そのような
正式名称と省略形は同じとみなす。第2に主題句に指示
詞(例えば「これ」)が出現した時には、その直前の文
を依存先として依存関係を設定する。第3に依存先の文
が、更に第1および第2の処理における依存関係に該当
する場合には、その先の依存先の文についても同様に依
存関係を設定する。
【0142】まず注目語が出現する文に対して第1〜第
3の処理を行って、依存関係を設定する。図16はこの
依存関係を示す。例えば文11の主題句としての「Hanc
ockは」に関して文11から文2に対する依存関係が設
定され、文2の「Amelio」に関して文2ら文1への依存
関係が設定されている。なお文41や文72における
“Apple ”や“Microsoft ”も固有名詞であるが、有名
な企業名であり、利用者既知概念として与えられたもの
として、以下の説明を行う。
【0143】このような依存関係を考慮した情報量の計
算について、文11を例にとって説明する。図16(c)
の依存関係に対応して、文11の情報量は文2と文1の
情報量を含めて計算する。ここで“Apple ”は“Apple
Computer”と同一の語とみなす。
【0144】図17はその計算結果を示す。文11の注
目情報量は文11に“再建”、文1に“Apple Compute
r”が含まれているため、異なり数としての第1注目情
報量は2、延べ数としての第2注目情報量は“Apple ”
の分も含めて4になる。また新情報量は“Apple ”を除
き、“Hancock ”,“Ellen Hancock ”, “G.Ameli
o”, “Amelio”、および“開発”の重複を除いて、異
なり数で24、延べ数で27となる。
【0145】図17の計算結果を用いて、図9のステッ
プS31で文11が選択され、S32で文1および文2
と共に選択候補リストから除かれ、選択結果リストに追
加される。これによって、例えば文3の依存先は選択済
となるので、次に文3が選択される場合には、その情報
量は文3だけに対して計算される。その後ステップS3
3で“Apple Computer”と“再建”が注目語リストから
除かれ、注目情報量の計算が行われ、文3と文21の注
目情報量が0となる。この結果が図18である。
【0146】更に図18の結果によって、ステップS3
1で文72が選択され、選択結果リストに追加され、ス
テップS33で“Windows ”と“強化”とが注目語リス
トから除かれ、注目語リストが空になるために、文選択
処理が終了する。これによって図13(b) の結果が得ら
れる。
【0147】最後に本発明の文選択方式の第2の実施例
について説明する。図19は、この文選択方式としての
文抽出のアルゴリズムを示す。このアルゴリズムは、新
聞記事やレポートなどの見出しに含まれる名詞キーワー
ドを用いて、その名詞キーワードを含む文を抽出して、
記事などのダイジェスト情報を作成するアルゴリズムで
ある。
【0148】図20は、図19のアルゴリズムにおける
用語と、図9の文選択処理のフローチャートにおける用
語との対応の説明図である。なお図9に対しては、図1
4に関する説明と同様に、注目情報量が第1情報量と第
2情報量とに区別されている。
【0149】例えば図12と比較すると、図12におい
ては検索式(質問文)が用いられているのに対し、図1
9では見出しだけが用いられる点が異なっている。見出
しと質問文の違いとしては、まず第1に見出しは必須出
力要素であり、見出しと全く同じ語しか含まない文、す
なわち新情報量が0の文は抽出されないことと、第2に
質問文(検索式)は単なる注目語のリストであり、質問
文と全く同じ語しか含まない文であっても抽出される、
すなわち質問文自体は選択結果リストに含まれず、新情
報量が0にならないということがある。
【0150】図20において、新情報量と見出しキーワ
ードに一致しない名詞の延べ数とを対応させることは、
注目概念(見出しキーワード)と同じ文に出てくる名詞
の組の数によって新しい事柄の量を求めるという考え方
と同じである。すなわち(3)の比較、注目概念(正確
には選択結果リストにまだ含まれていない注目概念)の
数が全く同一の文について行われるため、まだ出現して
いない注目概念とそれ以外の名詞の組み合わせを数える
ことと同じになる。
【0151】図19においては見出しだけを注目概念の
ソースとして用いるために、注目概念同士の組は見出し
にすでに出現していることになり、図9では必須出力要
素としてすでに選択結果リストに含まれていることにな
る。それ以外の注目概念に関する名詞の組の数は、文に
含まれる見出しキーワードの数と見出しキーワード以外
の名詞の数との積で与えられ、見出しキーワードの数が
同じとすれば、見出しキーワード以外の名詞の数だけを
(3)において比較することにより、名詞の組の数の比
較を行うことと同等となる。
【0152】
【発明の効果】以上詳細に説明したように、本発明の文
書要約装置を用いることにより、前述の様々な特徴によ
って各種の効果が生ずるが、最も大きな第1の効果とし
て、文書の有用性(関連度)の判定が容易になるという
効果がある。すなわち本発明の方法によれば、利用者が
注目している情報と、作成者が重点的に記述しようとし
ている情報との両方を要約の中に抽出することができる
ため、利用者が注目している情報が文書の中でどのよう
に扱われているかが、要約を読むだけで容易に把握可能
となる。すなわち、文書が利用者の目的とどの位関係が
あるかということを、要約から容易に判定できるように
なる。
【0153】第2の大きな効果としては、要約の可読性
が向上するという効果がある。概念の既知性基準によっ
て利用者が知らない用語については、例えば追加説明と
共に出力され、また事柄の既知性基準によって冗長な出
力が抑制されるので、簡潔かつ分かりやすい要約が作成
される。また利用者注目情報に基づいて、利用者の注意
の方向を考慮することにより、利用者に不必要な情報が
要約中に含まれる率を減少させることができることも、
利用者にとってより分かりやすくする上で大きな効果が
ある。
【図面の簡単な説明】
【図1】本発明の第1の原理の説明図である。
【図2】本発明の第2の原理の説明図である。
【図3】本発明の文書要約装置の構成を示すブロック図
である。
【図4】文分割・依存関係設定処理の詳細フローチャー
トである。
【図5】格フレームによる事柄情報の表現の例を示す図
である。
【図6】意味ネットワークによる事柄情報の表現の例を
示す図である。
【図7】照応表現にペナルティを与える理由を説明する
ための例を示す図である。
【図8】述語句への分割と依存関係の例を示す図であ
る。
【図9】文選択処理の詳細フローチャートである。
【図10】新情報量の計算方法を説明する図である。
【図11】第1と第2の新情報量を区別する場合の新情
報量の比較処理フローチャートである。
【図12】特許抄録の要約結果の例を示す図である。
【図13】主題句に関する概念の既知性基準の使用の効
果を説明する要約例を示す図である。
【図14】図13(a) を得るための情報量の初回計算結
果を示す図である。
【図15】図14において文72が選択された後の情報
量を示す図である。
【図16】図13(b) の結果を得るための依存関係の設
定を説明する図である。
【図17】図16の依存関係を考慮した情報量の計算結
果を示す図である。
【図18】図17において文11が選択された後の情報
量を示す図である。
【図19】文選択方式の他の実施例としてのダイジェス
ト情報抽出のアルゴリズムを示す図である。
【図20】図19のアルゴリズムと図9のフローチャー
トとにおける用語の対応を示す図である。
【符号の説明】
1 注目情報関連箇所抽出手段 2 要約可読性向上手段 10 要約プロセス制御部 11 文書構造解析部 12 文解析部 13 文分割・依存関係設定部 14 文選択部 15 要約整形部 16 利用者の嗜好特性 17 利用者の知識 18 閲覧履歴 19 入力文書(群)

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 計算機可読の文書の選択・閲覧・編集お
    よび管理の支援のために文書要約を行う装置において、 要約対象文書の内容の中で、要約を利用する利用者が注
    目している情報としての利用者注目情報、および該要約
    対象文書の作成者が注目を促している情報としての作成
    者注目情報に基づいて、該要約対象文書中の該2種類の
    注目情報に関連する部分を抽出する注目情報関連箇所抽
    出手段を備えることを特徴とする文書要約装置。
  2. 【請求項2】 前記利用者注目情報が、前記要約対象文
    書の検索のために利用者から入力される質問文の内容で
    あることを特徴とする請求項1記載の文書要約装置。
  3. 【請求項3】 前記利用者注目情報および/あるいは作
    成者注目情報が単語列あるいは重みづけられた単語列の
    形式であることと、 前記注目情報関連箇所抽出手段が、前記要約対象文書に
    おける該単語列内の単語の出現の程度に応じて、前記2
    種類の注目情報に関連する部分を抽出することを特徴と
    する請求項1記載の文書要約装置。
  4. 【請求項4】 前記文書要約装置において、 前記利用者が興味を有する事柄を利用者嗜好特性として
    あらかじめ蓄積する利用者嗜好特性蓄積手段を更に備
    え、 前記注目情報関連箇所抽出手段が、該利用者嗜好特性蓄
    積手段の蓄積内容を前記利用者注目情報として利用する
    ことを特徴とする請求項1記載の文書要約装置。
  5. 【請求項5】 前記文書要約装置において、 前記利用者嗜好特性蓄積手段が複数の利用者のそれぞれ
    に対して利用者嗜好特性を蓄積すると共に、 あらかじめ定められたアクセス制御方式のもとで、前記
    要約を利用する利用者の利用者注目情報として、異なる
    利用者の利用者嗜好特性を含む情報を前記注目情報関連
    箇所抽出手段に与えて前記2種類の注目情報に関連する
    部分を抽出させる他利用者嗜好特性活用手段を更に備え
    ることを特徴とする請求項4記載の文書要約装置。
  6. 【請求項6】 前記作成者注目情報が、通常の流通文書
    に含まれ、かつ作成者が文書の要点をまとめて提示して
    いる情報であって、文書の表題、文書中の章・節および
    図表の見出し、目次、用語・事項の索引の情報であるこ
    とを特徴とする請求項1記載の文書要約装置。
  7. 【請求項7】 前記文書要約装置において、 複数の要約対象文書に対するそれぞれの作成者注目情報
    をマージする作成者注目情報マージ手段を更に備え、マ
    ージした作成者注目情報に基づいて、前記注目情報関連
    箇所抽出手段が該複数の要約対象文書中の前記2種類の
    注目情報に関連する部分を抽出して、 該複数の要約対象文書間の比較情報とすることを特徴と
    する請求項1記載の文書要約装置。
  8. 【請求項8】 前記文書要約装置において、 文書作成時点以後に該文書の作成者あるいは文書管理者
    によって指定される作成者注目情報を、該作成者注目情
    報に対応する文書と共に格納する文書格納手段を更に備
    え、 前記注目情報関連箇所抽出手段が、該文書格納手段に格
    納されている作成者注目情報を利用することを特徴とす
    る請求項1記載の文書要約装置。
  9. 【請求項9】 計算機可読の文書の選別・閲覧・編集お
    よび管理の支援のために文書要約を行う装置において、 利用者がすでに知っている利用者既知情報、および/あ
    るいは該要約作成時点において、過去に利用者に提示さ
    れた文書に基づいて利用者がすでに知っているとみなせ
    る履歴的既知情報と、該2種類の既知情報以外の情報を
    区別して使用して要約を作成し、要約の可読性を向上さ
    せる要約可読性向上手段を備えることを特徴とする文書
    要約装置。
  10. 【請求項10】 前記利用者既知情報、および/あるい
    は履歴的既知情報が既知概念と既知の事柄とによって構
    成されることと、 前記要約可読性向上手段が、要約内の既知でない概念を
    減少させ、かつ既知でない事柄については既知性の低い
    ものを優先して要約に取り入れることによって要約の可
    読性を向上させることを特徴とする請求項9記載の文書
    要約装置。
  11. 【請求項11】 前記文書要約装置において、 前記概念の既知性が文書内に出現する用語の既知性であ
    ることと、 文書内に出てくる用語を認定する用語認定手段と、 該用語認定手段によって認定された用語の既知性を判定
    する用語既知性判定手段とを更に備えることを特徴とす
    る請求項10記載の文書要約装置。
  12. 【請求項12】 前記文書要約装置において、 前記事柄の既知性が文書内に出現する用語の組み合わせ
    の既知性であることと、 文書内に出てくる用語の組み合わせを認定する用語組合
    わせ認定手段と、 該用語組合わせ認定手段によって認定された用語の組み
    合わせの既知性を判定する用語組合わせ既知性判定手段
    とを更に備えることを特徴とする請求項10記載の文書
    要約装置。
  13. 【請求項13】 前記文書要約装置において、 前記事柄の既知性が文書内に出てくる用語と述語との組
    み合わせの既知性であることと、 文書内に出てくる用語と述語との組み合わせを認定する
    用語と述語の組合わせ認定手段と、 該用語と述語の組合わせ認定手段によって認定された用
    語と述語の組み合わせの既知性を判定する用語と述語の
    組合わせ既知性判定手段とを更に備えることを特徴とす
    る請求項10記載の文書要約装置。
  14. 【請求項14】 前記文書要約装置において、 前記利用者が熟知している事柄を利用者知識としてあら
    かじめ蓄積する利用者知識蓄積手段を更に備え、 前記要約可読性向上手段が、該利用者知識蓄積手段に蓄
    積されている利用者知識を前記利用者既知情報として利
    用することを特徴とする請求項9記載の文書要約装置。
  15. 【請求項15】 前記文書要約装置において、前記利用
    者知識蓄積手段が複数の利用者のそれぞれに対する利用
    者知識を蓄積すると共に、 あらかじめ定められたアクセス制御方式のもとで、前記
    要約を利用する利用者の利用者既知情報として、異なる
    利用者の利用者知識を含む情報を前記要約可読性向上手
    段に用いさせる他利用者知識活用手段を更に備えること
    を特徴とする請求項14記載の文書要約装置。
  16. 【請求項16】 前記文書要約装置において、 該文書要約装置あるいは該文書要約装置を含むシステム
    の稼働期間において利用者に提示された文書や要約を利
    用者の閲覧履歴として保持し、該閲覧履歴を前記履歴的
    既知情報の基として前記要約可読性向上手段に与える閲
    覧履歴保持手段と、 該閲覧履歴保持手段に保持されている文書や要約と要約
    対象文書とを相互参照する文書相互参照手段とを更に備
    えることを特徴とする請求項9記載の文書要約装置。
  17. 【請求項17】 前記閲覧履歴保持手段が、前記稼働期
    間を含む長期間に渡る複数の利用者の閲覧履歴をそれぞ
    れの利用者毎に保持することを特徴とする請求16記載
    の文書要約装置。
  18. 【請求項18】 前記文書要約装置において、 あらかじめ定められたアクセス制御方式のもとで前記要
    約を利用する利用者の履歴的既知情報として、異なる利
    用者の閲覧履歴に基づく履歴的既知情報を含む情報を前
    記要約可読性向上手段に与える他利用者閲覧履歴活用手
    段を更に備えることを特徴とする請求項17記載の文書
    要約装置。
  19. 【請求項19】 前記文書要約装置において、 要約対象文書の中の各文を、文の述語と該述語に支配さ
    れる名詞を基本として構成される述語句に分割し、該述
    語句のうちで他の述語句に依存していない述語句を主述
    語句とし、該述語句が主題句を含むときは該主題句を分
    離し、1つの文内または他の文の間での構文的依存構造
    に従って主題句と主述語句、主述語句と他の述語句との
    間に依存関係の設定を行い、該設定結果をともなう文書
    内容を前記要約可読性向上手段に与える文分割・依存関
    係設定手段を更に備えることを特徴とする請求項9記載
    の文書要約装置。
  20. 【請求項20】 計算機可読の文書の選別・閲覧・編集
    および管理の支援のために文書要約を行う装置におい
    て、 要約対象文書の内容の中で、要約を利用する利用者が注
    目している情報としての利用者注目情報、および該要約
    対象文書の作成者が注目を促している情報としての作成
    者注目情報に基づいて、該要約対象文書中の該2種類の
    注目情報に関連する部分を抽出する注目情報関連箇所抽
    出手段と、 該抽出結果に対して、利用者がすでに知っている利用者
    既知情報、および/おるいは該要約作成時点において、
    過去に利用者に提示された文書に基づいて利用者がすで
    に知っているとみなせる履歴的既知情報と、該2種類の
    既知情報以外の情報を区別して使用して要約を作成し、
    要約の可読性を向上させる要約可読性向上手段とを備え
    ることを特徴とする文書要約装置。
  21. 【請求項21】 計算機可読の文書の選別・閲覧・編集
    および管理の支援のために文書要約を行う方法におい
    て、 要約対象文書の内容の中で、要約を利用する利用者が注
    目している情報としての利用者注目情報、および該要約
    対象文書の作成者が注目を促している情報としての作成
    者注目情報に基づいて、該要約対象文書中の該2種類の
    注目情報に関連する部分を抽出することを特徴とする文
    書要約方法。
  22. 【請求項22】 計算機可読の文書の選別・閲覧・編集
    および管理の支援のために文書要約を行う方法におい
    て、 利用者がすでに知っている利用者既知情報、および/あ
    るいは該要約作成時点において、過去に利用者に提示さ
    れた文書に基づいて利用者がすでに知っているとみなせ
    る履歴的既知情報と、該2種類の既知情報以外の情報を
    区別して使用して要約を作成し、要約の可読性を向上さ
    せることを特徴とする文書要約方法。
  23. 【請求項23】 計算機可読の文書の選択・閲覧・編集
    および管理の支援のために文書要約を行う方法におい
    て、 要約対象文書の内容の中で、要約を利用する利用者が注
    目している情報としての利用者注目情報、および該要約
    対象文書の作成者が注目を促している情報としての作成
    者注目情報に基づいて、該要約対象文書中の該2種類の
    注目情報に関連する部分を抽出し、該抽出結果に対し
    て、利用者がすでに知っている利用者既知情報、および
    /あるいは該要約作成時点において、過去に利用者に提
    示された文書に基づいて利用者がすでに知っているとみ
    なせる履歴的既知情報と、該2種類の既知情報以外の情
    報を区別して使用して要約を作成し、要約の可読性を向
    上させることを特徴とする文書要約方法。
JP00677797A 1997-01-17 1997-01-17 文書要約装置およびその方法 Expired - Fee Related JP3579204B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP00677797A JP3579204B2 (ja) 1997-01-17 1997-01-17 文書要約装置およびその方法
US09/006,201 US6205456B1 (en) 1997-01-17 1998-01-13 Summarization apparatus and method
EP98300322A EP0855660B1 (en) 1997-01-17 1998-01-16 Summarization apparatus and method
EP03008037A EP1338983A3 (en) 1997-01-17 1998-01-16 Summarization apparatus and method
DE69822687T DE69822687T2 (de) 1997-01-17 1998-01-16 Vorrichtung und Verfahren zur Zusammenfassung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00677797A JP3579204B2 (ja) 1997-01-17 1997-01-17 文書要約装置およびその方法

Publications (2)

Publication Number Publication Date
JPH10207891A true JPH10207891A (ja) 1998-08-07
JP3579204B2 JP3579204B2 (ja) 2004-10-20

Family

ID=11647617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00677797A Expired - Fee Related JP3579204B2 (ja) 1997-01-17 1997-01-17 文書要約装置およびその方法

Country Status (4)

Country Link
US (1) US6205456B1 (ja)
EP (2) EP1338983A3 (ja)
JP (1) JP3579204B2 (ja)
DE (1) DE69822687T2 (ja)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175673A (ja) * 1999-12-20 2001-06-29 Sharp Corp 電子書籍表示装置及び電子書籍表示プログラムを記憶した記憶媒体
JP2001275058A (ja) * 2000-01-21 2001-10-05 Jisedai Joho Hoso System Kenkyusho:Kk 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003058529A (ja) * 2001-08-10 2003-02-28 Seiko Epson Corp 文書編集装置、文書速読支援装置、文書編集方法、文書速読支援方法、文書編集プログラム、文書速読支援プログラムおよび記録媒体
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP2004118545A (ja) * 2002-09-26 2004-04-15 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
WO2005096182A1 (ja) * 2004-03-31 2005-10-13 Matsushita Electric Industrial Co., Ltd. 情報抽出システム
US7020668B2 (en) 2000-10-16 2006-03-28 Fujitsu Limited Device for retaining important data on a preferential basis
JP2006155612A (ja) * 2004-11-30 2006-06-15 Palo Alto Research Center Inc ユーザ関心依存型の自動要約作成及び自動ノート作成システム及び方法
JP2006178978A (ja) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc ユーザ関心反映型検索結果指示子使用及び作成システム及び方法
US7137067B2 (en) 2000-03-17 2006-11-14 Fujitsu Limited Device and method for presenting news information
US7181688B1 (en) 1999-09-10 2007-02-20 Fuji Xerox Co., Ltd. Device and method for retrieving documents
JP2009146447A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
JP2009146446A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
JP2009217802A (ja) * 2008-03-06 2009-09-24 Sharp Corp 文書処理装置、文書処理プログラムおよび記録媒体
JP2010020678A (ja) * 2008-07-14 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置、文書要約方法、プログラムおよび記録媒体
WO2012111226A1 (ja) * 2011-02-15 2012-08-23 日本電気株式会社 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体
JP2013015920A (ja) * 2011-06-30 2013-01-24 Fujitsu Ltd 情報処理装置、情報処理方法、および情報処理プログラム
WO2014021074A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム
JP2017010107A (ja) * 2015-06-17 2017-01-12 大日本印刷株式会社 情報処理装置、情報処理システム及びプログラム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2020177373A (ja) * 2019-04-16 2020-10-29 学校法人早稲田大学 情報伝達システムおよびプログラム
JP2021114184A (ja) * 2020-01-20 2021-08-05 シャープ株式会社 要約生成装置、要約生成方法、及びプログラム

Families Citing this family (348)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6515968B1 (en) 1995-03-17 2003-02-04 Worldcom, Inc. Integrated interface for real time web based viewing of telecommunications network call traffic
US6473407B1 (en) 1997-09-05 2002-10-29 Worldcom, Inc. Integrated proxy interface for web based alarm management tools
US7058600B1 (en) * 1997-09-26 2006-06-06 Mci, Inc. Integrated proxy interface for web based data management reports
US6763376B1 (en) * 1997-09-26 2004-07-13 Mci Communications Corporation Integrated customer interface system for communications network management
US6385644B1 (en) 1997-09-26 2002-05-07 Mci Worldcom, Inc. Multi-threaded web based user inbox for report management
US6745229B1 (en) 1997-09-26 2004-06-01 Worldcom, Inc. Web based integrated customer interface for invoice reporting
US6714979B1 (en) 1997-09-26 2004-03-30 Worldcom, Inc. Data warehousing infrastructure for web based reporting tool
US20080028292A1 (en) * 1997-12-22 2008-01-31 Ricoh Company, Ltd. Techniques to facilitate reading of a document
JP3597697B2 (ja) * 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US7197451B1 (en) * 1998-07-02 2007-03-27 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US6582475B2 (en) * 1998-09-09 2003-06-24 Ricoh Company Limited Automatic adaptive document printing help system
US6115709A (en) * 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
ATE268484T1 (de) 1998-10-28 2004-06-15 Verticalone Corp System und verfahren für den automatischen zugriff auf persönliche daten
US8121891B2 (en) 1998-11-12 2012-02-21 Accenture Global Services Gmbh Personalized product report
US6195651B1 (en) * 1998-11-19 2001-02-27 Andersen Consulting Properties Bv System, method and article of manufacture for a tuned user application experience
US7672879B1 (en) 1998-12-08 2010-03-02 Yodlee.Com, Inc. Interactive activity interface for managing personal data and performing transactions over a data packet network
US7085997B1 (en) 1998-12-08 2006-08-01 Yodlee.Com Network-based bookmark management and web-summary system
US8069407B1 (en) 1998-12-08 2011-11-29 Yodlee.Com, Inc. Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
WO2000043911A1 (en) * 1999-01-22 2000-07-27 Wordstream, Inc. Method and apparatus for improved document searching
US7366711B1 (en) * 1999-02-19 2008-04-29 The Trustees Of Columbia University In The City Of New York Multi-document summarization system and method
JP3135235B2 (ja) * 1999-02-26 2001-02-13 株式会社エイ・ティ・アール音声翻訳通信研究所 照応解析装置
US6665681B1 (en) * 1999-04-09 2003-12-16 Entrieva, Inc. System and method for generating a taxonomy from a plurality of documents
US7752535B2 (en) 1999-06-01 2010-07-06 Yodlec.com, Inc. Categorization of summarized information
US20040078423A1 (en) * 2002-03-22 2004-04-22 Ramakrishna Satyavolu Method and apparatus for controlled establishment of a turnkey system providing a centralized data aggregation and summary capability to third party entities
US7844594B1 (en) 1999-06-18 2010-11-30 Surfwax, Inc. Information search, retrieval and distillation into knowledge objects
US7228492B1 (en) 1999-07-06 2007-06-05 Ricoh Company, Ltd. 2D graph displaying document locations of user-specified concept of interest
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
US8311946B1 (en) * 1999-10-15 2012-11-13 Ebrary Method and apparatus for improved information transactions
US7536561B2 (en) 1999-10-15 2009-05-19 Ebrary, Inc. Method and apparatus for improved information transactions
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US7475334B1 (en) * 2000-01-19 2009-01-06 Alcatel-Lucent Usa Inc. Method and system for abstracting electronic documents
US6820237B1 (en) * 2000-01-21 2004-11-16 Amikanow! Corporation Apparatus and method for context-based highlighting of an electronic document
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CA2404337A1 (en) * 2000-03-27 2001-10-04 Documentum, Inc. Method and apparatus for generating metadata for a document
WO2001086491A2 (en) * 2000-05-11 2001-11-15 University Of Southern California Machine translation techniques
US7013259B1 (en) * 2000-06-30 2006-03-14 Fuji Xerox Co., Ltd. System and method for teaching writing using microanalysis of text
US7313588B1 (en) 2000-07-13 2007-12-25 Biap Systems, Inc. Locally executing software agent for retrieving remote content and method for creation and use of the agent
US7613790B2 (en) * 2000-07-13 2009-11-03 Biap Systems, Inc. Apparatus for and method of executing customized interactive computing services in a broadband network environment
US7672952B2 (en) * 2000-07-13 2010-03-02 Novell, Inc. System and method of semantic correlation of rich content
US7389225B1 (en) 2000-10-18 2008-06-17 Novell, Inc. Method and mechanism for superpositioning state vectors in a semantic abstract
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
US7152058B2 (en) 2000-07-13 2006-12-19 Biap Systems, Inc. Apparatus for and method of selectively retrieving information and enabling its subsequent display
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US20090234718A1 (en) * 2000-09-05 2009-09-17 Novell, Inc. Predictive service systems using emotion detection
US20100122312A1 (en) * 2008-11-07 2010-05-13 Novell, Inc. Predictive service systems
US7177922B1 (en) 2000-09-05 2007-02-13 Novell, Inc. Policy enforcement using the semantic characterization of traffic
JP2002157270A (ja) * 2000-11-17 2002-05-31 Mitsubishi Space Software Kk 興味記事配信システム及び興味記事配信方法
DE10057634C2 (de) * 2000-11-21 2003-01-30 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US20040111386A1 (en) * 2001-01-08 2004-06-10 Goldberg Jonathan M. Knowledge neighborhoods
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
JP3916124B2 (ja) * 2001-02-15 2007-05-16 インターナショナル・ビジネス・マシーンズ・コーポレーション デジタル文書閲覧システム、ブラウザ、デジタル文書表示方法、プログラム及び記憶媒体
JP2002304418A (ja) * 2001-04-06 2002-10-18 Fujitsu Ltd 検索装置、検索方法および検索プログラム
US6990634B2 (en) * 2001-04-27 2006-01-24 The United States Of America As Represented By The National Security Agency Method of summarizing text by sentence extraction
WO2002097663A1 (en) * 2001-05-31 2002-12-05 University Of Southern California Integer programming decoder for machine translation
US7409335B1 (en) 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
US20030066033A1 (en) * 2001-09-13 2003-04-03 Direen, Harry George Method of performing set operations on hierarchical objects
US6963878B2 (en) * 2001-09-24 2005-11-08 Microsoft Corporation Generating a focused data set from an original data set
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
US7072881B1 (en) * 2001-11-27 2006-07-04 Bellsouth Intellectual Property Corporation Method and system for managing telecommunications reports
JP2003196270A (ja) * 2001-12-27 2003-07-11 Sharp Corp 文書情報処理方法、文書情報処理装置、通信システム、コンピュータプログラム、及び記録媒体
US20030170597A1 (en) * 2002-02-22 2003-09-11 Rezek Edward Allen Teaching aids and methods for teaching interviewing
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US7305336B2 (en) * 2002-08-30 2007-12-04 Fuji Xerox Co., Ltd. System and method for summarization combining natural language generation with structural analysis
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
WO2004025490A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
US9280603B2 (en) * 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
US9805373B1 (en) 2002-11-19 2017-10-31 Oracle International Corporation Expertise services platform
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
US6768935B1 (en) 2003-04-07 2004-07-27 General Motors Corporation Vehicle diagnostic record mapping
US7092937B2 (en) * 2003-04-07 2006-08-15 General Motors Corporation Vehicle diagnostic knowledge delivery
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7610190B2 (en) * 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
CN100437561C (zh) * 2003-12-17 2008-11-26 国际商业机器公司 电子文档的处理方法和装置及其系统
US8296304B2 (en) * 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7293005B2 (en) * 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7424467B2 (en) * 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US20050278314A1 (en) * 2004-06-09 2005-12-15 Paul Buchheit Variable length snippet generation
US7461064B2 (en) * 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
JP4160548B2 (ja) * 2004-09-29 2008-10-01 株式会社東芝 文書要約作成システム、方法、及びプログラム
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US7840564B2 (en) 2005-02-16 2010-11-23 Ebrary System and method for automatic anthology creation using document aspects
JP2006252047A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 言語処理装置および言語処理プログラム
JP4657773B2 (ja) * 2005-03-22 2011-03-23 株式会社東芝 画像処理装置および画像処理方法
US20060259293A1 (en) * 2005-05-11 2006-11-16 France Telecom Computerized method and apparatus for automatically generating a natural language description of a person's activities
WO2006128238A1 (en) * 2005-06-02 2006-12-07 Newsouth Innovations Pty Limited A method for summarising knowledge from a text
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US7433869B2 (en) 2005-07-01 2008-10-07 Ebrary, Inc. Method and apparatus for document clustering and document sketching
US8117192B1 (en) 2005-07-14 2012-02-14 Pavel Pogodin Computerized information system for creating patent data summaries and method therefor
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
JP4887800B2 (ja) * 2006-01-24 2012-02-29 富士ゼロックス株式会社 文書処理システム
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7814112B2 (en) * 2006-06-09 2010-10-12 Ebay Inc. Determining relevancy and desirability of terms
US20080027926A1 (en) * 2006-07-31 2008-01-31 Qian Diao Document summarization method and apparatus
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US7606752B2 (en) 2006-09-07 2009-10-20 Yodlee Inc. Host exchange in bill paying services
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008050649A1 (fr) * 2006-10-23 2008-05-02 Nec Corporation Système, procédé et programme de récapitulation de contenu
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US9449322B2 (en) * 2007-02-28 2016-09-20 Ebay Inc. Method and system of suggesting information used with items offered for sale in a network-based marketplace
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US9031947B2 (en) * 2007-03-27 2015-05-12 Invention Machine Corporation System and method for model element identification
WO2008120338A1 (ja) * 2007-03-28 2008-10-09 Fujitsu Limited 一覧表示方法、一覧表示装置および一覧表示プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US20080281927A1 (en) * 2007-05-11 2008-11-13 Microsoft Corporation Summarization tool and method for a dialogue sequence
US8209617B2 (en) * 2007-05-11 2012-06-26 Microsoft Corporation Summarization of attached, linked or related materials
US8494944B2 (en) * 2007-06-06 2013-07-23 O2 Media, LLC System, report, and method for generating natural language news-based stories
US8051040B2 (en) 2007-06-08 2011-11-01 Ebay Inc. Electronic publication system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US20090006179A1 (en) 2007-06-26 2009-01-01 Ebay Inc. Economic optimization for product search relevancy
US8108398B2 (en) * 2007-06-29 2012-01-31 Microsoft Corporation Auto-summary generator and filter
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8601393B2 (en) * 2008-01-28 2013-12-03 Fuji Xerox Co., Ltd. System and method for supporting document navigation on mobile devices using segmentation and keyphrase summarization
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8261334B2 (en) 2008-04-25 2012-09-04 Yodlee Inc. System for performing web authentication of a user by proxy
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US9323832B2 (en) * 2008-06-18 2016-04-26 Ebay Inc. Determining desirability value using sale format of item listing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8463794B2 (en) * 2008-10-02 2013-06-11 International Business Machines Corporation Computer system, method, and computer program for extracting terms from document data including text segment
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5423993B2 (ja) * 2008-12-26 2014-02-19 日本電気株式会社 テキスト処理装置、テキスト処理方法、及びプログラム
US8301622B2 (en) * 2008-12-30 2012-10-30 Novell, Inc. Identity analysis and correlation
US8296297B2 (en) * 2008-12-30 2012-10-23 Novell, Inc. Content analysis and correlation
US8386475B2 (en) * 2008-12-30 2013-02-26 Novell, Inc. Attribution analysis and correlation
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8555359B2 (en) 2009-02-26 2013-10-08 Yodlee, Inc. System and methods for automatically accessing a web site on behalf of a client
US8516013B2 (en) 2009-03-03 2013-08-20 Ilya Geller Systems and methods for subtext searching data using synonym-enriched predicative phrases and substituted pronouns
US8447789B2 (en) * 2009-09-15 2013-05-21 Ilya Geller Systems and methods for creating structured data
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
WO2010105218A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for knowledge research
EP2406731A4 (en) * 2009-03-13 2012-08-22 Invention Machine Corp SYSTEM AND METHOD FOR THE AUTOMATIC SEMANTIC MARKING OF NATURAL LANGUAGE TEXTS
US8874529B2 (en) * 2009-03-16 2014-10-28 Bert A. Silich User-determinable method and system for manipulating and displaying textual and graphical information
US20100250479A1 (en) * 2009-03-31 2010-09-30 Novell, Inc. Intellectual property discovery and mapping systems and methods
US9335916B2 (en) * 2009-04-15 2016-05-10 International Business Machines Corporation Presenting and zooming a set of objects within a window
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8370288B2 (en) * 2009-07-20 2013-02-05 Sony Computer Entertainment America Llc Summarizing a body of media by assembling selected summaries
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US20110046944A1 (en) * 2009-08-20 2011-02-24 Kathryn Sparks Plain english document translation method
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
WO2011071174A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
CN102163189B (zh) * 2010-02-24 2014-07-23 富士通株式会社 从评论性文本中提取评价性信息的方法和装置
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417646B2 (en) * 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8346780B2 (en) * 2010-04-16 2013-01-01 Hitachi, Ltd. Integrated search server and integrated search method
CN102207947B (zh) * 2010-06-29 2013-05-15 天津海量信息技术有限公司 一种直接引语素材库的生成方法
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
CN102207948B (zh) * 2010-07-13 2013-07-24 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9317595B2 (en) * 2010-12-06 2016-04-19 Yahoo! Inc. Fast title/summary extraction from long descriptions
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US9223859B2 (en) * 2011-05-11 2015-12-29 Here Global B.V. Method and apparatus for summarizing communications
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US20140325330A1 (en) * 2011-11-25 2014-10-30 Assignment Angels Pty Ltd Pedagogical System and Method
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US9727641B2 (en) 2013-04-25 2017-08-08 Entit Software Llc Generating a summary based on readability
JP6152711B2 (ja) * 2013-06-04 2017-06-28 富士通株式会社 情報検索装置および情報検索方法
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6099046B2 (ja) 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9940099B2 (en) * 2014-01-03 2018-04-10 Oath Inc. Systems and methods for content processing
US10585978B2 (en) * 2014-01-28 2020-03-10 Skimcast Holdings, Llc Method and system for providing a summary of textual content
CN106104520B (zh) * 2014-03-20 2019-04-26 日本电气株式会社 信息处理设备、信息处理方法和存储介质
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
WO2016053314A1 (en) * 2014-09-30 2016-04-07 Hewlett-Packard Development Company, L.P. Specialized language identification
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9965474B2 (en) * 2014-10-02 2018-05-08 Google Llc Dynamic summary generator
US10621390B1 (en) * 2014-12-01 2020-04-14 Massachusetts Institute Of Technology Method and apparatus for summarization of natural language
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
KR20160105215A (ko) * 2015-02-27 2016-09-06 삼성전자주식회사 텍스트 처리 장치 및 방법
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10783179B2 (en) 2015-08-03 2020-09-22 International Business Machines Corporation Automated article summarization, visualization and analysis using cognitive services
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
WO2019027259A1 (en) * 2017-08-01 2019-02-07 Samsung Electronics Co., Ltd. APPARATUS AND METHOD FOR PROVIDING SUMMARY INFORMATION USING ARTIFICIAL INTELLIGENCE MODEL
JP6865183B2 (ja) * 2018-02-26 2021-04-28 日本電信電話株式会社 要約評価装置、方法、プログラム、及び記憶媒体
US10599773B2 (en) * 2018-02-26 2020-03-24 International Business Machines Corporation Reading-device-based social event preparation enhancement
US10990602B2 (en) 2018-06-18 2021-04-27 Wipro Limited Method and system for generating optimized response to user input
JP7363908B2 (ja) * 2019-10-02 2023-10-18 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム
US11328732B2 (en) 2020-09-16 2022-05-10 International Business Machines Corporation Generating summary text compositions
US11574121B2 (en) * 2021-01-25 2023-02-07 Kyndryl, Inc. Effective text parsing using machine learning

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04281566A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04281558A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索方法および装置
JPH06332893A (ja) * 1993-05-21 1994-12-02 Hitachi Ltd 文章加工装置
JPH07182373A (ja) * 1993-03-17 1995-07-21 Toshiba Corp 文書情報検索装置及び文書検索結果表示方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5483650A (en) 1991-11-12 1996-01-09 Xerox Corporation Method of constant interaction-time clustering applied to document browsing
JP3383049B2 (ja) * 1993-09-13 2003-03-04 株式会社東芝 文書検索装置
AU707050B2 (en) 1995-01-23 1999-07-01 British Telecommunications Public Limited Company Methods and/or systems for accessing information
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5838323A (en) * 1995-09-29 1998-11-17 Apple Computer, Inc. Document summary computer system user interface
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6018733A (en) * 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04281566A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04281558A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索方法および装置
JPH07182373A (ja) * 1993-03-17 1995-07-21 Toshiba Corp 文書情報検索装置及び文書検索結果表示方法
JPH06332893A (ja) * 1993-05-21 1994-12-02 Hitachi Ltd 文章加工装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181688B1 (en) 1999-09-10 2007-02-20 Fuji Xerox Co., Ltd. Device and method for retrieving documents
JP2001175673A (ja) * 1999-12-20 2001-06-29 Sharp Corp 電子書籍表示装置及び電子書籍表示プログラムを記憶した記憶媒体
JP2001275058A (ja) * 2000-01-21 2001-10-05 Jisedai Joho Hoso System Kenkyusho:Kk 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US7137067B2 (en) 2000-03-17 2006-11-14 Fujitsu Limited Device and method for presenting news information
US7020668B2 (en) 2000-10-16 2006-03-28 Fujitsu Limited Device for retaining important data on a preferential basis
JP2003058529A (ja) * 2001-08-10 2003-02-28 Seiko Epson Corp 文書編集装置、文書速読支援装置、文書編集方法、文書速読支援方法、文書編集プログラム、文書速読支援プログラムおよび記録媒体
CN100419733C (zh) * 2002-02-22 2008-09-17 独立行政法人情报通信研究机构 解决方案数据编辑处理及自动概括处理装置和方法
US7120613B2 (en) 2002-02-22 2006-10-10 National Institute Of Information And Communications Technology Solution data edit processing apparatus and method, and automatic summarization processing apparatus and method
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP2004118545A (ja) * 2002-09-26 2004-04-15 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
WO2005096182A1 (ja) * 2004-03-31 2005-10-13 Matsushita Electric Industrial Co., Ltd. 情報抽出システム
JP2006155612A (ja) * 2004-11-30 2006-06-15 Palo Alto Research Center Inc ユーザ関心依存型の自動要約作成及び自動ノート作成システム及び方法
JP2006178978A (ja) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc ユーザ関心反映型検索結果指示子使用及び作成システム及び方法
JP2009217802A (ja) * 2008-03-06 2009-09-24 Sharp Corp 文書処理装置、文書処理プログラムおよび記録媒体
JP2010020678A (ja) * 2008-07-14 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置、文書要約方法、プログラムおよび記録媒体
JP2009146446A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
JP2009146447A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
WO2012111226A1 (ja) * 2011-02-15 2012-08-23 日本電気株式会社 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体
JP2013015920A (ja) * 2011-06-30 2013-01-24 Fujitsu Ltd 情報処理装置、情報処理方法、および情報処理プログラム
WO2014021074A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム
JPWO2014021074A1 (ja) * 2012-07-31 2016-07-21 日本電気株式会社 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム
JP2017010107A (ja) * 2015-06-17 2017-01-12 大日本印刷株式会社 情報処理装置、情報処理システム及びプログラム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2018081702A (ja) * 2015-09-09 2018-05-24 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2020177373A (ja) * 2019-04-16 2020-10-29 学校法人早稲田大学 情報伝達システムおよびプログラム
JP2021114184A (ja) * 2020-01-20 2021-08-05 シャープ株式会社 要約生成装置、要約生成方法、及びプログラム

Also Published As

Publication number Publication date
JP3579204B2 (ja) 2004-10-20
DE69822687T2 (de) 2004-09-23
US6205456B1 (en) 2001-03-20
EP0855660B1 (en) 2004-03-31
EP1338983A2 (en) 2003-08-27
EP0855660A3 (en) 1998-08-19
DE69822687D1 (de) 2004-05-06
EP0855660A2 (en) 1998-07-29
EP1338983A3 (en) 2003-12-17

Similar Documents

Publication Publication Date Title
JP3579204B2 (ja) 文書要約装置およびその方法
Najmi et al. CAPRA: a comprehensive approach to product ranking using customer reviews
JP4571404B2 (ja) データ処理方法、データ処理システムおよびプログラム
US9886950B2 (en) Automatic generation of domain models for virtual personal assistants
Baroni et al. Introducing the La Repubblica Corpus: A Large, Annotated, TEI (XML)-compliant Corpus of Newspaper Italian.
US8280903B2 (en) System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7987189B2 (en) Content data indexing and result ranking
US20040243645A1 (en) System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US20040243560A1 (en) System, method and computer program product for performing unstructured information management and automatic text analysis, including an annotation inverted file system facilitating indexing and searching
US20110225155A1 (en) System and method for guiding entity-based searching
US20040243556A1 (en) System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS)
KR20100038378A (ko) 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램
CN101526938B (zh) 文档处理装置
JP2003281183A (ja) 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
Berdyugina et al. Setting up context-sensitive real-time contradiction matrix of a given field using unstructured texts of patent contents and natural language processing
WO2002010985A2 (en) Method of and system for automatic document retrieval, categorization and processing
JPH11272680A (ja) 文書データ提供装置およびそのプログラム記録媒体
JP2020071678A (ja) 情報処理装置、制御方法、プログラム
JPH11120206A (ja) タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JPH11195041A (ja) 文書検索装置、方法及び記録媒体
Chanda et al. The Effect of Stopword Removal on Information Retrieval for Code-Mixed Data Obtained Via Social Media
Xue et al. A Chinese knowledge base question answering system
Ezeani et al. Introducing the Welsh text summarisation dataset and baseline systems
JPH01185724A (ja) 検索装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040329

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040715

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110723

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110723

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120723

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120723

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees