JPH10207891A - 文書要約装置およびその方法 - Google Patents
文書要約装置およびその方法Info
- Publication number
- JPH10207891A JPH10207891A JP9006777A JP677797A JPH10207891A JP H10207891 A JPH10207891 A JP H10207891A JP 9006777 A JP9006777 A JP 9006777A JP 677797 A JP677797 A JP 677797A JP H10207891 A JPH10207891 A JP H10207891A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- user
- sentence
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Abstract
行う装置に関し、利用者の注目していることと、利用者
が既に持っている知識に応じた要約作成を可能とする。 【解決手段】 要約対象文書の中で、要約の利用者が注
目している情報としての利用者注目情報と、文書の作成
者が注目を促している情報としての作成者注目情報とに
基づいて、これら2つの注目情報に関連する部分を抽出
する手段1を備え、その抽出結果に応じて要約を作成す
る。
Description
言語による文書の要約を行う装置に関するものであり、
主として、検索された大量の文書の選別や閲覧、あるい
は、蓄積された大量の文書の閲覧、再構成(再利用)や
管理のプロセスを支援するために、使われることを意図
したものである。
蓄積して再利用することで文書作成のコストを大幅に引
き下げることが可能になってきた。また、一方で、技術
の高度化に伴うマニュアル類のボリュームの増加と多様
化、インターネットに代表される新たな文書流通メディ
アの出現もあいまって、計算機上で閲覧や再利用のため
の再構成操作を行える文書の量が爆発的に増加してい
る。
は、まず、個々の文書の有用性を素早く判定し、利用目
的にあった文書を選別することが重要である。そのため
には、文書一覧に文書内容をイメージできるような情報
を合わせて提示することが求められる。このような目的
にあった情報としては、文書の見出しや抄録などがある
が、見出しが十分に文書内容を表現していない場合や、
抄録がない場合も多い。また、特にオンラインで文書を
閲覧する場合には、表示可能な文字数が限られるため、
例え抄録が作成されていても長過ぎて一覧表示に適さな
いこともある。そこで、適切な要約を自動的に生成する
技術が強く求められることになる。
は、大量の文書を分類・整理して蓄積することが求めら
れる。この場合にも、新たな文書を分類するために当該
文書の内容を素早く把握したり、蓄積文書の管理者が分
類体系を改良するために分類状況を概観したり、分類体
系に通じていない利用者がどのような分類がなされてい
るのかを把握したりすることなどを支援する意味で、や
はり適切な要約が望まれる。
装置において、利用者が何に注目しているのか、また、
利用者がどのような知識を既にもっているのかに応じ
て、要約結果を調整する点に特徴をもつものである。
く分けて2つの方法がある。第1の方法は、文書におい
て重要な部分(通常は、文、段落、節などの文書の論理
要素。以下「文」で代表させる。)を認定し、それを抽
出することで要約を作成するものである。第2の方法
は、要約として抽出すべき情報の型紙を用意して、その
型紙の条件にあった文書中の語句を抽出して要約とした
り、その型紙によくあてはまる文を抽出して要約とする
方法である。第2の方法は本発明との関連性は低いの
で、ここでは第1の方法を説明する。
の重要性を評価するかによっていくつかの方法に分類さ
れる。代表的な方法としては、文書中に出現する単語
の頻度と分布を手がかりとするもの、文と文とのつな
がり方や文の出現位置を手がかりとするものの2つがあ
る(その他、文の構文的パターンによって重要性を評価
するものなどもあるが、本発明との関連性が低いので省
略する)。
語の頻度と分布を手がかりとするものは、通常、まず文
書中に含まれる単語(語句)の重要度を決定し、次に重
要な単語をどれ位含んでいるかで文の重要度を評価し、
重要な文を選択するという手順で要約を作成する。単語
の重要度を決定する手法としては、ある文書内の出現度
数そのままを用いたり、あるいは、一般的な文書集合に
おける単語の出現度数とのずれなどを加味して重みをつ
けたり、あるいは単語の出現位置に応じて重みをつけた
り(見出しに出現する語を重要とみなすなど)する方法
が知られている。なお、対象とする単語は、日本語であ
れば自立語(特に名詞)、英語であれば内容語のみに限
るのが通例である。ここで自立語・内容語とは実質的な
意味を持つ名詞、形容詞、動詞などの語であり、助詞や
前置詞、形式名詞など、専ら構文的役割を示すために使
われる語と区別されるものである。なお、日本語の自立
語の形式的定義は、独立した文節を構成できる語という
もので、前記の説明とは若干のずれがあるが、対象とす
る単語を自立語に限ることの趣旨は前記の説明中の区別
による。
ものがある。特開平6−259424「文書表示装置及
び文書要約装置並びにディジタル複写装置」およびその
発明者による次の文献1では、見出しに含まれる単語を
多く含む部分を(見出しに関連の深い)重要な部分とし
て抽出することで要約を作成している。
による重要キーワードと重要文の抽出.第2回年次大
会、pp.97 〜100 、言語処理学会1996年3月. 特開平7−36896「文書を要約する方法および装
置」では、文書中に現れる表現(単語など)の複雑さ
(語の長さなど)から重要な表現の候補(シード)を選
び、重要性の高いシードをより多く含む文を抽出するこ
とで要約を作成している。
生成する自動的な方法」では、文書内の単語の出現頻度
が大きい順に「主題の用語」を認定し、重要な「主題の
用語」をより多く含む文を抽出することで要約を作成し
ている。
置」では、検索結果と質問文との関連性判定などによく
用いられるベクトル空間モデルを適用して、文書全体の
特徴ベクトルと最も類似した特徴ベクトルを持つ文や段
落から文を選択していくことで要約を作成している。こ
こで、ベクトル空間モデルとは、キーとなる単語ごと
に、あるいは単語の意味成分ごとに、次元(軸)をわり
あて、文書や質問文におけるそれらの単語の出現の有無
あるいは出現頻度の値の列(特徴ベクトル)で、文書や
質問文の特徴を表現するものである。
方や文の出現位置を手がかりとするものとは、順接・逆
接、展開などの文の接続関係(結束関係と呼ぶ場合もあ
る)や、文が出現している文書中の位置などをもとに、
文の(相対的)重要性を判定し、重要な文を選択するも
のである。例えば、特開平7−182373「文書情報
検索装置及び文書検索結果表示方法」およびその発明者
らによる次の文献2、別の著者による文献3がある。
三池誠司、文書構造解析に基づく自動抄録生成と検索提
示機能としての評価・電子情報通信学会論文誌、Vol.J7
8-D-II,No.3,pp.511〜519,1995年3月. 文献3:山本和英、増山繁、内藤昭三、文書内構造を複
合的に利用した論説文要約システムGREEN.情処研
報NL−99−3,情報処理学会1994年1月. 以上のように文書全体の要約を作成する技術の他に、個
々の文書の有用性の判定を支援するための技術として、
利用者の注目している部分を提示する技術もある。周知
の技術として、KWIC(Keyword In Context)と呼ば
れる検索語の周囲を表示する方法や、それに類似した検
索語の近傍表示の方法が広く使われている。
を述べた部分だけを提示したり、新聞の第一パラグラフ
だけを提示するなど、利用者の目的に応じて特定の部分
だけを提示する方法もある。例えば、前掲の特開平成7
−182373や文献3、別の著者による次の文献4,
5がある。ただし、これらは、分野に特有な文書構成の
類型や言い回しなどを手がかりとして、文書の論理構造
上で特別な機能を持つ部分を選択するものであり、利用
者が注目している内容に着目して、その内容と関連性の
高い部分を提示しているわけではない。
語原著論文の機能構造分析:構成要素カテゴリの自動付
与.Library and Information Science, No.31, pp.25
〜38, 1993年. 文献5:神門典子、原著論文の機能構造の分析とその応
用.図書館学会年報,Vol.40,No.2,pp.49 〜61, 199
4年6月. 要約の可読性を低下させる要因としては、冗長な表現、
利用者の知らない用語(未知の用語)の出現、解消され
ていない照応表現(anaphoric expression:日本語なら
いわゆるコソアド語など)の出現などがある。
素と被修飾要素の語彙的な性質や関係、修飾要素と被修
飾要素の距離などによるヒューリスティックにより、余
分な修飾要素を削除する手法が知られている。例えば、
前掲の文献3では、日本語の新聞記事中の文において同
じ名詞に対して2つ以上の修飾要素があった場合、前の
修飾要素を削除するというヒューリスティックが示さ
れ、また、同じ著者らによる次の文献6では、同一事件
に関する一連の記事で、特有の言い回しから導入部と認
定された部分で出現する名詞の7割以上が以前の記事で
既出の場合にその導入部を削除するというヒューリステ
ィックが示されている。
長度削減による関連記事の要約.情処研報NL−114
−7,情報処理学会,1996年7月. 未知の用語の出現については、用語の定義や説明をして
いる部分が文書中にあれば、それを要約に含めればよい
ことは自明である。このような部分を探すには、初出の
部分あるいは用語の定義を示すマーク(日本語なら「と
は」など)の付いた当該用語が出現する箇所を探せばよ
いことも、学校教育レベルの知識である。
dent)を探し、照応表現を先行詞で置き換えたり、先行
詞を含む部分を要約に含めれば、要約が理解しやすいも
のとなることは自明である。照応表現の先行詞の同定に
関しては、センタリング(centering )と呼ばれる手法
などが知られている。これは、後続の文で照応表現にな
りやすい要素(センタ)を構文的役割などに応じて優先
度つきで認定しておき、後続の照応表現の現れ方による
制約を加味して、先行詞をセンタの中から選択するとい
うものである。なお、類似の手法で、センタと同様な概
念を焦点(focus )と呼ぶものもある。ただし、いずれ
にしても完全な結果を得ることができる技術ではない。
センタリングの手法については次の文献7,8がある。
aring constraint in centering. In Proceedings of t
he 24th Annual Meeting of Association for Computat
ional Linguistics, pp. 200〜206,1986年. 文献8:Susan E.Brennan, Marilyn W. Friedman, and
Carl J. Pollard. A centering approach to pronouns.
In Proceedings of the 25th Annual Meetingof Assoc
iation for Computational Linguistics, pp. 155〜16
2,1987年. 前傾の特開平7−182373や、同一発明者らによる
特開平7−44566「抄録作成装置」では、このよう
な手法を実装して用語の定義箇所や照応表現の先行詞を
推定し、元の用語や照応表現からハイパーテクスチュア
ル(hyper-texutual)なリンクを設定するなどして利用
者の便を図っている。
文書を選別するためには、利用者にとっての文書の有用
性を素早く判定できるよう、利用者の求める情報を文書
の作成者がどのように取り扱っているのかを示すことが
重要である。検索システムでは、利用者が得たいと思っ
ている情報は、質問文やキーワードによる検索式として
表現されることが多い。しかしながら、質問文や検索式
中の単語が検索対象の文書の中に見つかったからといっ
て、そこに利用者の求める情報が書かれているとは限ら
ない。たとえば、特許公報を「翻訳」というキーワード
で検索すると、利用者の得たい情報は「自然言語の文の
翻訳」に関する特許情報なのに、検索結果には「機械語
の翻訳」に関する情報が大量の特許が含まれることがあ
る。この場合、「翻訳」という語がどういう文脈で使わ
れているのかを提示すれば、ある程度、文書の選別を支
援することが可能である。このような目的で、前節に挙
げたKWICを用いることもできるが、物理的な近傍を
表示するだけなので論旨の流れなどを把握することが難
しく、簡潔で要を得た要約を提示することは必ずしもで
きない。
の要約作成の技術では専ら文書中での文の重要度のみを
要約中に文を含めるかどうかの基準としており、利用者
の注意がいずれに向けられているのかが考慮されていな
い、という問題がある。そのため、例えば検索システム
に入力したキーワードが、言語学の文献の用例の部分で
照合されて取り出されてしまった場合などでは、自動作
成された要約中にはキーワードが含まれず、利用者の入
力とどのような関連がある文献なのかを判定しづらくな
る場合などが考えられる。
らに説明する。言語学の文献は、言語の形式的な性質を
議論するもので、そこで取り上げられている用例の内容
については言語学と関係している必要はない。例えば、
「象は鼻が長い」や「僕はうなぎだ(料理の注文の
意)」というのは国語学では有名な例文である。動物の
ことを調べようとしている時に、このような例文で出て
いる言語学の文献が検索されてしまう可能性がある。言
語学の文献のために、文献中に含まれる語彙の頻度分布
などをとれば、動物に関する語彙は少なく、例えば
「象」はあまり重要でない語彙であると計算されてしま
う。そうすると、検索結果の表示に語彙の頻度分布など
に基づいて自動生成した要約を用いる場合、このような
例文は要約中に含まれにくくなり、不都合が生じる可能
性がある。つまり、「象」というキーワードを入力した
時に、このような言語学の文献が検索され、それにも関
わらず、検索結果の表示(自動生成した要約)の中には
「象」が含まれず、何でこのようなものが検索されたの
かが理解できなくなる可能性があるということになる。
逆に、キーワードの近傍表示だけしかしない場合には、
用例の部分だけが表示され、どういう趣旨の文献なのか
が理解できなくなることもある。
の技術には、利用者の知識レベルに合わせて要約を作成
する手段を備えていない、という問題点もある。利用者
の知識レベルは、利用者ごとに大きく異なる可能性があ
り、特に専門的な用語に関する知識がどの程度あるかに
合わせて要約に用語に関する定義や説明の記述部分を含
めるかどうかを切り換えないと、知識レベルの高い利用
者にとっては冗長な要約になったり、知識レベルの低い
利用者にとっては理解し難い要約になってしまったりす
ることになる。
て、利用者の注意の方向が考慮されていない、利用者の
知識レベルが考慮されていない、という2つの問題点を
解決し、それらを統一的に扱う手段を提供することを目
的とする。
明の原理説明図である。これらの図は、自然言語による
電子化された文書の選別・閲覧・編集、および管理の支
援のために、文書要約を行う文書要約装置の原理を説明
するものである。
る。同図において注目情報関連箇所抽出手段1は、利用
者の注目情報と作成者注目情報とに基づいて、要約対象
文書中でこれら2つの情報に関連する部分を抽出するも
のである。ここで利用者注目情報とは、要約対象文書の
内容の中でその要約を利用する利用者が注目している情
報であり、また作成者注目情報とは要約対象文書の作成
者が利用者に対して注目を促している情報である。
る。同図において要約可読性向上手段2は、利用者既知
情報と履歴的既知情報とに基づいて、これら二種類の既
知情報以外の情報と二種の既知情報とを区別して用いて
要約を作成し、要約の可読性を向上させるものである。
ここで利用者既知情報とは、要約対象文書の内容の中
で、その要約を利用する利用者がすでに知っている情報
であり、また履歴的既知情報とは、要約作成時点におい
て、それ以前に利用者に提示された文書に基づいて利用
者がすでに知っていると見なせる情報である。
と図2とによって説明される2つの原理を同時に用い
て、要約の作成が行われる。まず図1においては、利用
者注目情報および作成者注目情報という2種類の注目情
報に基づいて、注目情報に関連する部分が要約の中心部
分として抽出されることになる。ここではこれらの注目
情報を多く含む部分ほど重要であると判定する情報の注
目性基準が用いられて、要約の中心部分が決定される。
て、利用者が求める情報と、文書において重要な情報、
すなわち作成者が書こうとしていた内容の双方を取り込
んだ要約を作成することができる。これら2種類の注目
情報のいずれかに重みをつけることによって、利用者注
目情報だけを重視した要約から、文書における重要性だ
けを重視した要約まで、目的に応じた要約を作成するこ
とができる。あるいはこれら2種類の注目情報を同等に
扱うことによって、利用者が求める情報と、作成者が書
こうとしていた内容との双方をバランスよく抽出した要
約を作成することもできる。
既知情報との2つに基づいて要約が作成される。これは
利用者の知識レベルに合わせて要約を作成することを意
味し、これによって要約の可読性を向上させることがで
きる。この可読性の向上のために情報の既知性基準が用
いられる。情報の既知性基準は、例えば概念の既知性基
準と事柄の既知性基準との2つの基準を意味する。
素概念、特に主題に関する要素概念が原則として既知で
なくてはならないという基準である。ここで要素概念と
は、要約に含まれる個々の語句が表す概念のことであ
る。言い換えれば、要約に出力する用語(主として名
詞)は、原則として利用者にとって既知でなくてはなら
ないという基準である。本発明においては、この基準に
基づいて、利用者に理解できない用語に関しては、例え
ば必要な説明を追加して要約が作成される。
出現する用語の組み合わせに関するものであり、その組
み合わせ全体で述べられている事柄(事実、あるいは命
題)については、既知性の低いものほど優先されて要約
に取り入れられる。
合、すなわち独立した文書1つを要約する場合などは、
要約の中で同じ事柄が何度も出力されるのが抑制される
ことになる。また関連する複数の文書を一括して要約す
る場合、特に同一事件に関する一連の記事や、記載コラ
ムなどをまとめて、要約対象の文書の間の関係を明らか
にして提示できる場合には 同一の事柄に関する記述を
削減するための基準として用いられる。
目性基準によって注目情報の含み方が同程度と判定され
た文が複数あった場合には、事柄の既知性の低い方を選
んでその低い方の文の内容が要約に含められるという意
味で、弱めの制約となるものである。すなわち、概念の
既知性基準が「(原則として)既知でなければらない」
のに対して、事柄の既知性基準は「既知性の低いものが
優先される」だけであるために弱めの制約となる。
性基準と情報の既知性基準という2つの基準を用いて、
要約の作成が行われる。
成を示すブロック図である。同図において、文書要約装
置は要約プロセス制御部10、文書構造解析部11、文
解析部12、文分割・依存関係設定部13、文選択部1
4、要約整形部15を基本構成要素として備えている。
このうち本発明にとって特徴的な構成要素は、文分割・
依存関係設定部13と、文選択部14である。
とのインタフェースとなると共に、文書要約装置の動作
全体を制御するものである。利用者との間のインタフェ
ースとしては、利用者が注目している情報、すなわち利
用者注目情報や、要約作成に関する要望などの入力を受
け取り、文書要約のプロセスを適切に起動し、要約結果
を利用者に出力することになる。利用者注目情報の代表
的な形式は利用者から入力される質問文であるが、求め
る情報に関するキーワードや、読書案内に載っている紹
介文の形式とすることも可能である。
に関する制約情報としては、利用者から必須出力要素が
指定されると共に、その他の制御命令が与えられる。こ
こで必須出力要素とは、例えば見出しのように、要約の
中に必ず含めるべき要素である。その他の制御命令とし
ては、注目情報や既知情報としてどのような情報を利用
するか、またそれらの情報をどのように利用するか、望
ましい要約の長さ、要約処理でどのような単位を基本と
して要約を作成するかなどがある。この基本単位として
は、通常は文、あるいは述語句が用いらる。
文書の比較を支援するために本装置を用いる場合に、ま
ず個々の比較対象文書に関する文書構造認識解析および
文解析までの処理を行い、その出力を集計して作成者注
目情報のマージし、マージした注目情報にもとづいてそ
れ以降の要約処理(文分解・依存関係設定処理、文選択
処理、要約成形処理)を行うよう、各処理部の動作の制
御および処理経過の記憶も行う。
は、利用者の嗜好特性16、利用者の知識17、および
閲覧履歴18が蓄積されると共に、例えば他のメモリに
入力文書(群)19が格納される。
持っている事柄を蓄積するものである。ここには利用者
が、例えば自己紹介の際に使うような趣味の説明文や、
利用者が興味を持った文書そのままを蓄積したり、その
ような文書の中から出現頻度の大きいキーワードを抽出
して保存したり、利用者が検索に際してよく使うキーワ
ードや質問文を保存しておいてもよい。
いる情報を、利用者既知情報として蓄積するものであ
る。ここには例えば利用者が知っている専門用語のリス
トなどが蓄積される。
や要約をいつ頃閲覧したかという履歴を蓄積するもので
ある。入力文書(群)19、基本的には要約対象文書を
格納するものであり、通常はどのような形式の電子化文
書でも用いることができる。具体例としては、電子出版
等で用いられている文書構造記述言語のSGML(スタ
ンダードジェネラライズドマークアップランゲージ。I
SO8879)を用いればよい。要約対象文書に対し
て、例えば作成者あるいは文書の管理者によって、文書
の作成時点以後に指定された作成者注目情報を、文書と
対応させて蓄積することもできる。
6、すなわち利用者注目情報、利用者の知識17、すな
わち利用者既知情報、閲覧履歴18、すなわち履歴的既
知情報、入力文書(群)19すなわち要約対象文書は要
約プロセス制御部10によって管理され、要約の作成に
使用される。
部10から要約対象文書や必須出力要素の指定内容など
を受け取り、文書の構造を解析し、文書内容を文解析部
12に出力すると共に、依存関係付文書構造情報を文分
割・依存関係設定部13に与えるものである。
マークマップ情報などから、見出しや本文というような
文書の論理的構成要素を認定し、例えば見出しと本文、
あるいはそれと同様の関係を持つ要素として列挙構造の
項目名とその内容などを対応づけて、構成要素間の依存
関係を抽出する。この依存関係では、例えば本文内の要
素が従属ブロック、見出し内の要素が依存先とする。
して文書の論理的構成要素、すなわち章、節・図表など
の見出しや、目次、用語や事項の索引などを用いる場合
に、作成者注目情報にあたる部分を認定し、作成者注目
の印をつけて、文解析部12および文分割・依存関係設
定部13を介して文選択部14に与える。要約プロセス
制御部10によって必須出力要素が指定された場合に
は、該当する部分に必須出力の印をつけて、同様に文選
択部14に与える。文解析部12が1つの文を単位とし
てしか処理できない場合には、文の認定も行うことにな
る。
は、文書の種類、例えば単なる自然言語の文書か、構造
化された文書(例えばSGML文書)かなどによって異
なり、本発明にとって本質的なものではないので、その
詳細の説明は省略する。
析部11から受け取り、それに含まれる単語を認定し、
単語の出現位置や品詞情報をつけた単語列の形で文書内
容を文分割・依存構造解析部13に出力するものであ
る。また、利用者注目情報が質問文などの自然言語の形
で与えられた場合には、自然言語の利用者情報からも同
様に単語列を作成し、文選択部14に出力する。具体的
な処理の方法としては、形態素解析法として各種のもの
が知られており、それを用いればよいので説明は省略す
る。なお、単語列に付与される出現位置とは、文構造解
析部11から出力される依存関係付文書構造と単語列と
を対応付けるものであり、文分割・依存構造解析部13
では文書構造解析部11で設定された文書の構成要素間
の依存関係を述語句間の関係に変換するために使われ、
文選択部14では文構造解析部11で設定された必須出
力の印および作成者注目の印に従い、必須に出力する述
語句や作成者注目情報に対応する注目概念を認識するた
めに使用される。
解析部11から出力される依存関係付文書構造情報と、
文解析部12から出力される出現位置や品詞情報がつけ
られた単語列、および要約プロセス制御部10から出力
される既知概念を用いて、後述する文分割処理と依存関
係設定処理を行い、文選択部14に対して依存関係付述
語句列(述語句リスト)を出力するものである。
や文解析部12から出力される注目情報と、要約プロセ
ス制御部10から出力される既知の事柄を示す情報に従
って、文分割・依存関係設定部13から出力される依存
関係付述語句列に対して後述する文選択処理を実行し、
要約に含めるべき重要な述語句(文)を選択して、後述
する選択結果リストを作成するものである。
が文解析部12に与えられ、その他の注目情報が文解析
部12を経由することなく、直接文選択部14に与えら
れる理由を説明する。本実施例においては、後述するよ
うに文の重要度としての注目情報量は、単語、例えば名
詞を単位に計算される。そこで自然言語文として注目情
報が与えられた場合には、その自然言語文を単語に分割
する必要がある。質問文や文書から取り出された見出し
などが、文解析部12を経由して文選択部14に渡され
るのはそのためである。
蓄積されている利用者注目情報などは、あらかじめ文解
析を行った後に適切な形式でメモリに格納することが可
能であり、この場合に文解析部12を経由することな
く、文選択部14に直接に与えることができる。なお本
実施例では自然言語と無関係な情報は利用しないが、メ
モリへの格納形式は後述する意味ネットワーク表現であ
ったり、フレーム表現であったりしてもよく、蓄積され
た情報は単なる自然言語に限られない。
は、代表的には名詞のリストが与えられる。注目度の高
い名詞には注目度に対応する重みを与えることもでき
る。また名詞以外の自立語(動詞や形容詞など)を注目
情報として与えたり、名詞と用言の組として与えること
も可能である。以下の説明では、重みなしの名詞リスト
が注目情報として与えられる場合を中心に実施例を説明
する。なお述語句の選択においては、文分割・依存関係
設定部13の処理によって設定された概念の既知性基準
に適合した述語句(文)間の依存関係に違反しないよう
に選択処理が行われるため、概念の既知性基準にも適合
した選択結果リストが作成されることになる。
選択された文を元の文書における出現順に並べ、必要に
応じて抽出されなかった文の存在を表す印や、段落の境
界などを挿入し、要約を読みやすい形式に整形する。履
歴的既知情報への依存関係が設定されている場合には、
ハイパーテクスチュアルな関係を設定することもでき
る。
説明する。既知概念は基本的には実質的な意味を持つ単
語としての内容語のリストである。例えば富士通が何を
している会社なのか知っている場合には、既知概念とし
て「富士通」を与える。そうすると要約対象文書が富士
通は日本の計算機メーカである。その富士通で今・・・
が行われようとしている。・・・のように始まっている
時、通常は第2文の先頭の「その富士通」に「その」と
いう照応表現が含まれているため、第1文も要約に含む
ように処理される。しかしながら「富士通」は既知の概
念であることが知らされ、また第1文は後述するような
名詞文であり、富士通の紹介(属性の定義)をしている
だけであると計算機の処理でも簡単に判断可能なので、
本実施例では第1文は抽出されないことになる(第2文
の「その」は削除される。)。
は、次のような文書を対象にするときに不都合がおきる
ことがある。「富士通はもともと交換機をつくる会社だ
った、その富士通が、大型計算機で世界二位の地位をし
めるようになり、今ではパソコンメーカとして知ってい
る人の方が多いくらいだろう。だからNTTと富士通の
組み合わせを不思議に思う人もいるかもしれないが、N
TTと富士通の関係は浅からぬものなのである。・・
・」例えば利用者がパソコンの富士通しか知らない場
合、第3文を要約に含める時には、第1文も共に含めな
いと理解が困難となる。これを回避するためには、利用
者が「富士通」についてどのような事柄を知っているの
かまで指定する必要がある。例えば「富士通は日本の計
算機メーカである」、「富士通はパソコンを作ってい
る」ことまでは知っているというように指定しなければ
ならない。更に一歩進むと、「富士通は交換機を作って
いた」ことは知っていても、「富士通が今でも交換機を
作っている」のか、あるいは「富士通がこれからも交換
機を作り続ける」のかは知らないということがあり得
る。これが本実施例において事柄の既知性を取り扱うこ
との意味である。
としては主に専門用語のリストを与える。専門用語は専
門的な概念に名前をつけたものであり、分野を誤らない
限りは、それが既知かどうかは容易に決められる。既知
の事柄に関する知識としては、上の例のような単文の
形、または単文の内容に相当するものを、フレーム表現
など各種の形式で表現したものを与える。
が必要であるか否かの判定に用いられるために、既知概
念は文分割・依存関係設定部13に与えられる。すなわ
ちある部分を要約に含める時、それを説明しているよう
な別の部分も含めるか否かの判定が文分割・依存関係設
定部13の役割であって、ある単語が既知の概念である
かどうかは、その判定に強く影響を与えるためである。
装置内での本発明に特有の構成要素としての文分割・依
存関係設定部13と、文選択部14の処理について説明
する。図4は、文分割・依存関係設定部13による、文
分割・依存関係設定処理の詳細フローチャートである。
定処理とが行われるが、文分割処理は最終的に依存関係
付述語句リストを作成する文分割・依存関係設定部13
の処理の前半部分である。但し図4においては、文を認
定し文と文の間に依存関係を設定する処理の途中に文の
内部構造を解析し、文内部の述語句間に依存関係を設定
する処理が挟み込まれているので、文分割処理と依存関
係設定処理とを単純に2分することはできない。
語列に変換された文書の内容を、文選択部14による文
選択処理における基本単位(述語句あるいは文)に分割
して、分割された基本単位を要素とするリストとしての
述語句リストを作成する処理である。この文分割処理
は、図4において、ステップS2による先頭の文を取り
出すという処理と、点線で囲まれた述語句への分解処理
の中で実行される。
テップS1で最終的に作成されるべき述語句リストの内
容がクリアされ、ステップS2で先頭の文が取り出さ
れ、ステップS3で文が取り出せたか否かが判定され
る。文書からの文の取り出しは、例えば見出しをそれだ
けで1つの文と見なすなど、文書の論理構造も考慮しな
がら、ピリオドなどの文の終了マークを手がかりとして
行うことができる。
S4で文の構文的依存構造の解析が行われる。この構文
的依存構造を求める方法としては、句構造文法によるも
の、係り受け解析によるものなど様々な方法が知られて
いるので、それらのいずれかを用いればよい。
テップS5で取り出された文の述語句(単文)への分解
が行われる。述語句とは、1つの述語とそれに支配され
る名詞(主語を含む)を基本として構成される句であ
り、文に含まれる単文に相当する。日本語なら用言、英
語なら動詞などのような依存構造中の述語が取り出さ
れ、それに依存している要素のうち述語でないものを加
えたものが述語句である。接続詞や助詞、前置詞などの
機能語や、機能語に相当する表現はその前後の自立語
(内容語)とまとめておけばよい。
飾要素は、被修飾要素と一緒にまとめてもよく、独立し
た述語句としてもよい。但し好ましくは修飾要素の語彙
的性質や、修飾要素と修飾要素の組み合わせの種類など
によって、独立した述語句とするかどうかを決定する。
を用いるとしても、述語句への分解のコストはかなり高
くなるが、述語句を単位として要約することにより、長
い文の場合などでも簡潔な要約が生成可能となり、また
高度な意味処理を行うために既知の事柄を図5に示すよ
うな格フレーム形式(フレームとは、属性名(スロット
名)と属性値(フィラー)の組の列であり、知識表現法
として周知のものである。)で与えたり、図6に示すよ
うな意味ネットワーク表現で与える場合などにおいて、
既知の事柄情報と要約の単位との照合が簡単になるとい
うメリットがある。
ンダーラインは意味を表す単位となるシンボルを示し、
アンダーラインのない矢印付の単語は関係を表す。図6
ではシンボルが日本語で表現されているが、例えば“発
表する”に対して英語の“announce”を対応するシンボ
ルとしてあらかじめ定義しておくことにより、日本語だ
けでなく英語に対する情報としても使用することができ
る。
に応じて述語句、あるいは文のいずれかを使い分けるこ
とが望ましい。文を単位として要約を行う場合には、図
4において点線で囲まれた述語句への分解処理、すなわ
ちステップS4〜S12を省略することができる。この
部分には、前述の述語句への分解の部分と、次に述べる
述語句間の依存関係の設定処理が含まれている。
て説明する。依存関係設定処理は、文分割・依存関係設
定部13における処理、すなわち図4の処理の後半部分
である。この処理では、図3において要約プロセス制御
部10から与えれらる既知概念のリスト、および文書構
造解析部11からの出力であり、文書構造の上から推定
される構成要素間の依存関係に基づいて、概念の既知性
基準による制約を、述語句リスト中の要素(述語句ある
いは文)の間の依存関係の形で付与する処理が実行され
る。この処理は、文分割処理によって取り出された文毎
に順次実行される。
存先の文や句)を一緒に抽出した方が要約が読みやすく
なるような文や句(従属文・句)に対して設定されるも
のである。そのような依存関係の設定対象には以下のよ
うなものがある。 (1)文に含まれる従属文 注目要素を含まない従属文を省略し、注目要素を含む従
属文を主文と一緒に要約に含めるようにする場合に、従
属文から主文への依存関係を設定する。長い文の多い特
許公報などを要約する場合に有効である。 (2)前後の文に強く依存している文 逆接の接続詞(「しかし」など)を文頭に含む文などに
ついて、注目要素を含まない場合には省略し、注目要素
を含む場合には前の文も必ず一緒に要約に含めるように
する場合に、従属文(この例では後ろの文)から依存先
の文(この例では前の文)への依存関係を設定する。短
い文を積み重ねて書かれた論文などの場合に有効であ
る。 (3)見出しのついている部分に含まれる文 章節などに分かれている文書で、章節内の文に注目要素
が含まれている時に章節の見出しを必ず一緒に要約に含
めるようにする場合に、章節内の文から章節の見出しへ
の依存関係を設定する。マニュアルなどの構造化された
長めの文書から、知りたい事柄がどこに書いてあるのか
を調べる場合などに有効である。 (4)主題となっている語句が既知でない文 特に動詞(の過去形「〜た」)の文の主題となっている
語(文頭の「〜は」など)が要約中で初出の場合、その
語が初めて出現した文(初出の文)も一緒に要約に含め
るようにする場合に、主題が既知でない語の文から初出
の文への依存関係を設定する。経済関係の雑誌などの長
めの記事の場合に有効である。これは、概念の既知性基
準による処理の一つである。
のかわりに、既知でない主題の語が、作成者注目情報と
ともに現れている文で近傍に出現するものを用いたり、
既知でない主題の語が、必須格(「が」「を」「に」)
を伴って出現している文で近傍に出現するものを用いた
方がよい場合もある。なお、語の一致の判定は、同一表
記の語を一致とするだけでなく、略語と正式名称との一
致や同(類)義語動詞の一致などについても行うことが
望ましい。英語でも、固有名詞が主語となっている動詞
文などについて、同様な処置が有効なことがある。 (5)照応表現を含んでいる文 日本語のコソアド語(「これ」「この」「こう」など)
や英語の3人称代名詞などの照応表現が登場する文に注
目情報が含まれていれば、先行表現が含まれている部分
も一緒に要約に含めるようにする場合に、照応表現を含
んでいる文から先行表現を含んでいる部分への依存関係
を設定する。照応表現を含んでいる文にペナルティを与
え、選択されにくくすることの方が有効な場合もある
(特に、日本語の名詞文(「〜は〜だ」)や形容詞文
(「〜は〜い」)など)。英語の場合や翻訳調の日本語
文書の場合に有効である。ここで、照応表現を含んでい
る文にペナルティを与えるということについて、名詞文
・形容詞文に関する例をあげて補足説明する。「名詞
文」「形容詞文」とは、形式的には文の述語が「名詞+
だ/です」、あるいは形容詞・形容動詞の文のことで、
典型的には主題を表す「〜は」の文節(俗にいう主語)
を含むものである。内容的には、主題となっているもの
の性状や、主題に関する話者の判断を表している文であ
り、品定め文などとも呼ばれる(例えば三上章『現代語
法新説』くろしお出版1972年)。本明細書で「名詞
文」「形容詞文」というのは、内容的な観点からの表現
で、必ずしも「名詞+だ」や形容詞を述語としている文
全てを対象としているのではない。逆に述語が動詞であ
っても「彼はよく働く」のように性状を表現する文であ
れば同様に考えることができる。
示す例(翻訳記事)のように、すぐ後で述べることを導
入するために用いたり、話題のつなぎを示すために使わ
れることがよくある。このようなものは表現が抽象的で
あったりして、前後を見ないと具体的にどういう事柄を
述べようとしているのかを掴めないものが多く見られ
る。そのため、そういう文だけを抜粋しても、表現の意
図の理解が難しく、要約に採りあげるには意味のないこ
とがある。例えば、図7の初めの例(アンダーライン
部)であれば(典型的な形容詞とはいえないが)、後続
の文を採りあげた方が、その記事が何について書いたも
のなのかを把握する助けとなる。次の例では、その直前
の文およびそのさらに前の文を採りあげた方がよい。
ニュアル類から必要な事柄(知識)を素早く見い出すこ
とにある。そこで、図7の例のような、話題にまとまり
をつけたり、展開のつなぎにするような文の価値は低く
なる。特に照応表現がこのような文に現れた場合には、
前後で述べている事柄にニュアンスを追加するようなも
のが多いので、ペナルティを与えて選択されにくくす
る、というのが照応表現にペナルティを与える趣旨であ
る。
て、依存関係またはペナルティを設定することによっ
て、要約の可読性を高めることができるが、実際にはそ
れ相応の計算コストが必要である。特に(4)の主題と
なっている語句が既知でない文、(5)の照応表現を含
んでいる文の依存関係に対しては、その関係を完全に処
理する技術が存在せず、不適当な依存関係が設定される
とかえって可読性を損なう場合が考えられる。そこで本
実施例においては、基本的な処理の流れを示すために、
(1)の従属文、(3)の見出しのついている部分に含
まれる文、(4)の主題となっている語句が既知でない
文について依存関係を設定し、(5)の照応表現を含ん
でいる文についてはペナルティを設定する場合について
処理を説明する。なお、ペナルティについては、後述す
る文選択部14の処理において、文選択の基準となる情
報量を、照応関係を含む文については通常の場合より減
少させることによって、照応関係を含んでいる文が選択
されにくくするような処理が実行される。
(単文)に分解された後に、ステップS6で構文的依存
構造において依存関係にある述語の間に依存関係が設定
され、ステップS7で他の述語句に依存していない述語
句が主述語句として設定され、ステップS8で主述語句
が述語句リストに追加される。なお前述のように文単位
に処理を実行する場合には、これらの処理は省略され、
単に文全体が主述語句とされる。主述語句とは、後続の
処理において文と文の間の依存関係を設定する際に、依
存先となるものである。
である。同図(a) において、文1における述語句2は述
語句1に依存しているという依存関係が設定される。ま
た文2に対しても、同様に述語句2が述語句1に依存す
るという依存関係が設定される。いずれの文においても
述語句1が主述語句である。このように、依存関係は、
構文的依存構造における述語間の関係が直接的な場合
(文1)あるいは間接的な場合(文2)のいずれについ
ても同様に設定される。すなわち、文1においては述語
句2の述語「引いた」は接続助詞「ので」を介して直接
的に述語句1の述語「休んだ」と関係しており、一方文
2においては述語句2の述語「送ってくれた」は名詞
「手紙」を介して間接的に述語句1の述語「しまった」
と関係しているが、どちらも同じように依存関係が設定
される。
ストに追加された後に、ステップS9〜S12で文の代
表句が決定される。代表句とは、その文に依存先がある
場合に後述のステップS14で設定される依存関係の起
点となる句のことである。文を単位として処理を行う場
合には、ステップS9〜S12の処理も不要であり、文
全体を代表句(かつ主述語句)とすればよい。
か否かが判定される。主題句がある場合には、ステップ
S10で主題句が分離され、主題句と主述語句との間に
依存関係が設定される。主題句とは、日本語の主題マー
カ(「は」など)のついた体言句のことである。
ている。文1に対しては、主題句は「太郎は」であり、
述語句2は述語句1に依存し、述語句1は主題句に依存
するという関係が設定される。文2に対しては、主題句
は「花子は」であり、同様に述語句2は述語句1に依存
し、述語句1は主題句に依存するという関係が設定され
る。このように分解された述語句・主題句は、後述の文
選択部14で依存関係に従って再構成され、要約に取り
入れる場合には依存先とまとめた形で取り入れる。図8
(b) の文1を例にとると、要約に取り入れられる可能性
のあるのは、「太郎は、学校を休んだ」(主題句+述語
句1)あるいは「太郎は、風邪を引いたので学校を休ん
だ」(主題句+述語句2+述語句1)のいずれかであ
る。
の中に主題句に依存する(主題句について述べている)
文が含まれることが多く、そのような文を要約に含める
時に主題句のみを含めて可読性を高めることができるか
らである。例えば、「太郎は学校へ出かけた、途中で犬
に出会った。」の第2文「途中で犬に出会った。」を要
約に含める時に、省略されている主語を補って「太郎
は、…途中で犬に出会った。」(第1文の主題句+第2
文の述語句)として可読性を高めることができる。この
場合、主題句を分離しないと、主題句に続く主述語句も
一緒に、「太郎は学校へ出かけた。途中で犬に出会っ
た。」全体を要約に含めざるを得なくなる。なお、この
処理は、照応表現処理の一貫として後述のステップS1
5で第2文に対応する述語句「途中で犬に出会った。」
から第一文の主題句「太郎は」へ依存関係を設定するこ
とで実現される(説明中の実施例ではこの処理は行って
いない)。
の設定が行われた後に、ステップS11で主題句が文の
代表句とされ、ステップS13の処理に移行する。ステ
ップS9で文に主題句が存在しない場合には、ステップ
S12で主述語句が文の代表句とされた後に、ステップ
S13の処理に移行する。ここで代表句とは、文に含ま
れる主題句および述語句の中で、他の述語句に依存して
いないものを意味する。すなわち主題句が分離された文
については、主題句が代表句であり、それ以外の文につ
いては主述語句が代表句である。
造解析処理で設定されている依存関係が述語句の間の関
係に変換される。この処理は文が見出しなどに従属して
いる部分(本文などの依存ブロック)に含まれている場
合にのみ実行される。ステップS13で処理中の文が依
存ブロック内の要素であるか否かが判定され、要素であ
ると判定されると、ステップS14で処理中の文の代表
句と文書構造上の依存先(ブロックの依存先)に対応す
る主述語句との間に依存関係が設定された後に、ステッ
プS15の処理に移行する。ステップS13で依存ブロ
ック内の要素でないと判定されると、ステップS14の
処理を行うことなく、ステップS15の処理に移行す
る。なおここでは典型的な処理のみを記述しているた
め、処理中の文より後にある部分に処理中の文が依存す
るときに依存関係を設定するステップを含んでいない。
そのような処理が必要なときには、依存先を指定する条
件と従属文の代表句とを記憶しておき、その条件に一致
する文を処理する時点で依存関係を設定すればよい。
S15では概念の既知性に基づいた依存関係やペナルテ
ィの設定処理が実行される。本実施例では、例えば動詞
文の主題語が既知でない場合に、主題語が初めて出現し
た文を依存先とする依存関係の設定処理と、照応表現を
含む文にペナルティを与える処理が実行される。この処
理の後に再びステップS2の処理に戻り、次の文の取り
出しが行われ、ステップS3で文が取り出されたと判定
されると、ステップS4以降の処理が繰り返される。ス
テップS3で文が取り出されなかったと判定された場合
には、文分割・依存関係設定処理を終了する。
ると、図3の文選択部14による処理が行われる。この
文選択処理は、文分割・依存関係設定部13から出力さ
れる依存関係は述語句列を対象として、要約に含めるべ
き重要な述語句を選択し、要約に含まれる述語句の選択
結果リストを作成するものであり、その処理のフローチ
ャートは図9に示される。
として扱われている。注目概念リストは、具体的には前
述のように、注目情報として与えられた重みなしの名詞
のリストである。これを注目概念リストと呼ぶのは次の
理由からである。本実施例では、各文(述語句)を要約
に取り入れるかどうかを判定するのに、文に含まれる注
目情報の量を判定の第一の基準として用いており、注目
情報量としては、注目情報として与えられた名詞が各々
の文にいくつ含まれるかで計算している。注目情報量の
計算においては、注目情報として与えられた名詞のリス
トに含まれる語と字面が一致する文中の語を数えてもよ
いし、あるいは、「百貨店」と「デパート」、「パソコ
ン」と「パーソナルコンピュータ」のように同じ概念を
あらわす語は同一とみなして数えてもよい。この意味
で、図9では、注目語リストではなく注目概念リストと
いう言葉を用いている。
テップS20で注目概念リストが作成され、ステップS
21で選択結果リストがクリアされる。注目概念リスト
は、要約プロセス制御部10および文解析部12から与
えられる名詞リストに文構造解析部で作成者注目の印が
つけられた部分に含まれる名詞を加えたものである。要
約プロセス制御部10から与えられる注目情報は、基本
的には利用者注目情報であるが、複数の文書の比較のた
めに要約を実行する場合には、比較対象となっている別
の文書の作成者注目情報も含まれている。
トが空であるか否かが判定され、空でない場合にはステ
ップS23〜24必須出力句を選択結果リストへ加える
処理が実行される。ここで、必須出力句とは、利用者が
要約プロセス制御部10を通じて要約に必須で含めるよ
うに指示した文書中の要素(見出しなど)と対応する述
語句のことである。具体的には、文分解・依存関係設定
部13から出力された述語句のうちで、文書構造解析部
11によって必須出力の印がつけられた部分と対応する
もののことである。ステップS23で、先頭の必須出力
句を取り出し、(その先頭の句を必須出力句リストから
除いて、)取り出した句を選択結果リストに追加してか
ら、ステップS24で、選択結果リストに追加した句の
中の事柄を要約プロセス制御部から送られた既知の事柄
のリストに追加し、ステップS22の処理へ戻る。
に含まれる注目概念を注目概念リストから除くこともで
きる。但し、通常、必須出力要素として指定されるもの
は見出しなどであって、要約の核となる概念を含んでい
ても、完全な文の体裁をとっていないことが多いので、
前述の述語句の中の注目概念を注目概念リストから除か
ない方がよい。述語句が完全な文の体裁をとっている場
合に限って、述語句の中の注目概念を注目概念リストか
ら除くという方法が有効である。
れ、ステップS22で必須出力句リストが空になったと
判定されると、ステップS25で文分割・依存関係設定
部13から出力された述語句列のうちで、必須出力句以
外の全ての述語句が選択候補とされて、選択候補リスト
が作成され、続いてステップS26で選択候補リストの
中の全ての句に対して注目情報量が計算される。
れぞれの述語句に含まれる注目概念(名詞)の数が求め
られる。この時注目情報量を計算しようとしている述語
句に依存先があり、依存先がまだ選択結果リストに含ま
れていない場合には、依存先も含めて注目概念の数を数
えることにする。また依存先が複数ある場合には、依存
先の注目情報量を先に計算して、注目情報量が最も大き
い依存先を選ぶことを原則とする。なお述語句に出現す
る注目概念の種類(名詞の異なり数)と、延べ数を記憶
しておくことが好ましく、また注目概念に重みが与えら
れている場合には、その重みを乗算して名詞の数を数え
るものとする。
算する理由は、前述の概念の既知性基準と関連してい
る。すなわち概念の既知性基準に従えば、例えば文書に
固有名詞が繰り返し出現する場合、2番目に出現した部
分を要約に含める時には、初めて出現した部分も要約に
含めるように処理することが必要となるためである。す
なわち文分割・依存関係設定部13によって、2番目の
文から1番目の文に対して依存関係が設定されているこ
とから、文選択部14では2番目の文の重要度、すなわ
ち注目情報量の計算は1番目の文とまとめて行われるこ
とになる。このような処理については具体例を用いて更
に後述する。
述語句が選択候補リストから除かれた後に、ステップS
28で選択候補リストに残っている全ての述語句に対し
て新情報量の計算が行われる。新情報量とは、利用者に
とって既知ではなく、またすでに選択された述語句には
含まれていない事柄に関する情報の量である。この新情
報量の計算について図10の例を用いて説明する。
し、その組の個数として新情報量を計算する。本文には
7個の事柄が含まれるが、そのうち2個は見出しと共通
である。見出しを必須出力要素として、図9のステップ
S23で選択結果リストに追加すれば、本文に含まれる
新情報量は5個となる。この例では、述語と名詞の組み
合わせを認定するというやや複雑な処理を必要とする
が、単純に注目概念(注目語)以外の名詞の数を数える
ような、より簡単な方法を用いることも可能である。
念の列として事柄の情報をモデル化し、すでに選択され
た述語句には含まれていない事柄の数を数えて新情報量
とすればよい。別の方法としては、いわゆる5W1Hの
ような形式で事柄情報をモデル化し、図5に示したよう
なフレーム表現によって述語句と比較して、既知の事柄
と一致しない述語句の数を新情報量とすることもでき
る。あるいは5W1H形式のモデルを用いた場合の新情
報量を第1新情報量とし、単純な新情報量を第2新情報
量として、組み合わせて用いることもできる。新情報量
の計算も、注目情報量の計算と同様に、依存先があれば
新情報量が最も大きな依存先を選んで、依存先を含めて
計算するものとする。またペナルティが与えられている
述語句に関しては、そのペナルティ分だけ新情報量を減
算するものとする。
照応表現などに関してペナルティを与える文としては、
依存先の文であっても、依存元の文であってもよい。単
に新情報量を減算するだけのことである。例えば次の2
つの文についてのペナルティを説明する。
て、こんな話4 を聞きました。 第2文:昨日1 田中2 さんに会って、車3 の話4 を聞き
ました。 この例では上に数字の書かれている名詞の数は同じであ
る。しかしながら第1文の方には「こんな話」という照
応表現があり、この文だけを取り出すと、どんな話であ
るかが不明である。照応表現に対するペナルティとは、
このような場合に第2文が優先的に選択されるように、
第1文に対する新情報量を、例えば名詞の個数で0.5
個分減点するものである。
注目概念(注目語)以外の名詞の数として計算する。例
えば「田中(さん)」が注目語であれば、「こんな話」
に対して名詞0.5個分のペナルティを与えると、第1
文の新情報量は2.5となり、第2文(新情報量3.
0)の方が新情報量が多くなり、後述するように第2文
の方が優先的に選択される。しかしこの例で注目語が
「田中(さん)」と「新宿」の2つでれば、第1文の方
が注目情報量が多くなるため、後述するように、ペナル
ティにかかわらず第1文が選択されることになる。
ップS29で新情報量が0の述語句が選択候補リストか
ら除かれた後に、ステップS30で選択候補リストが空
になったと判定されるまで、ステップS31〜S36の
処理が繰り返される。
述語句を選び、その中で最大の新情報量を持つ述語句が
出力句とされ、ステップS32でその出力句が選択候補
リストから除かれて、選択結果リストに追加される。こ
の時述語句に依存先があり、その依存先がまだ選択結果
リストに加えられていなければ、その依存先も一緒に選
択結果リストに追加する。なお情報量が全く同じ述語句
が存在する場合には、それらの述語句を全て一度に追加
することを原則とするが、別の方法として最も要約対象
文書の先頭に近い述語句を選ぶなど、述語句の出現位置
などによって1つに選択してもよい。
性に関しては新情報量の差として取り扱われ、注目情報
量が同じ文がある場合、新情報量の多い文が選択され
る。そこで注目情報量が同じ文がなければ、事柄の既知
性基準は使用されないことになる。
なわち選択結果リストに追加された述語句に含まれる注
目概念が注目概念リストから除かれ、その結果を用いて
選択候補リストに残っている全ての述語句に対する注目
情報量の再計算が行われ、ステップS34で再計算され
た注目情報量が0の述語句が選択候補リストから除かれ
る。この注目情報量の再計算は前述と同様に行ってもよ
いが、例えば注目概念と述語句の関係をあらかじめ記憶
しておいて、リストから除かれた注目概念を含む述語句
と、選択結果リストに追加された述語句に依存している
述語句だけを対象に計算を行うこともできる。
S35で出力句、すなわち選択結果リストに追加された
述語句に含まれる事柄の情報が既知事柄リストに追加さ
れ、選択候補リストに残っている全ての句に対して新情
報量の再計算が行われる。この再計算も前述と同様に行
ってもよいが、例えば事柄と述語句の関係をあらかじめ
記憶しておき、既知事柄リストに加えられた事柄を含む
述語句、選択結果リストに追加された述語句および注目
情報量に変化があった述語句に依存する述語句だけを対
象に計算を行うこともできる。
語句が選択候補リストから除かれた後に、ステップS3
0以降の処理が繰り返され、ステップS30で選択候補
リストが空になったと判定された時点で、文選択処理を
終了する。
情報量と第2新情報量とに区別されている場合の、図9
のステップS31における新情報量比較の詳細フローチ
ャートである。同図において、候補述語句Aと候補述語
句Bの新情報量を比較する場合には、ステップS38で
まず第1新情報量については2つの述語句のうちいずれ
が大きいかが判定され、Aの方がBより大きい時にはA
の新情報量が大きいものと判定され、逆にBの方がAよ
り大きい場合にはBの新情報量が大きいものと判定され
る。これに対して第1新情報量が同じである場合には、
ステップS39で第2新情報量が比較され、第2新情報
量の大きい述語句の方の新情報量が大きいものと判定さ
れ、第2新情報量が等しい場合には2つの述語句AとB
の新情報量は同じと判定される。
してのみ与えられるものとしたが、前述の依存関係が設
定される文(1)〜(5)のうちで、(3)と(4)な
どについてもペナルティを与えておけば、例えば利用者
に理解できない用語などの出力が抑制されることにな
る。その場合の処理は、照応表現についてペナルティを
与える場合と全く同様に実行可能である。
情報量の比較の後で、候補述語句の長さを含めて出力句
とするか否かの評価を行うこともできる。すなわち注目
情報量と新情報量とが共に等しいものについては、短い
述語句を優先的に選択することにすれば、利用者に理解
できない用語などの出力はある程度抑制される。更に新
情報量そのものの比較に代わって、新情報量と選択述語
句の長さとの比(新情報の出現密度)を用いるという方
法も考えられる。
できない用語などの出力の抑制の問題については、新情
報量の計算とからめて処理することになる。既知概念は
基本的には依存関係として取り扱われるが、事柄の既知
性基準に基づく新情報量の計算にも関係している。これ
が、概念の既知性基準と事柄の既知性基準とを、情報の
既知性としてまとめた1つの理由である。
を、一般的に、詳細に説明したが、ここで本発明の特徴
について更に説明する。本発明においては、前述のよう
に情報の注目性基準として、利用者注目情報と作成者注
目情報の2つが考慮されているために、利用者の求める
情報と文書において重要な情報の双方をバランスよく取
り込んだ要約を作成することができる。また情報の既知
性基準として、概念の既知性基準と事柄の既知性基準と
を用いることによって、簡潔で分かりやすい要約が作成
されるという特徴がある。
によればまず文書の重要性に応じて自動的に要約の長さ
を変えることが可能となる。従来の要約作成のアルゴリ
ズムにおいては、要約に含めるべき文の数や文字の数、
あるいは元の文に対する要約の長さの比率などがパラメ
ータとして渡される場合が多い。本実施例においては、
注目情報のうちで文書の中に出現しているものの量に応
じた長さの要約が作成されることになり、特別のパラメ
ータを指定することなく、適切な長さの要約が作成され
る。例えば利用者注目情報を重視すれば、利用者が求め
る情報に関係の深い文書ほど長い要約が生成されること
になる。特に長さにバラつきがある一群の文書をまとめ
て要約するような場合には、一般に要約の比率などのパ
ラメータを適切に設定することが難しく、この特徴は大
きな長所になる。
る制約にも容易に対応できるという特徴がある。本実施
例では基本的には要約の長さに関する特別な処理はなさ
れていないが、要約の長さに対して制約が与えられた時
には、その制約に容易に対処することが可能である。例
えば短い要約を得たい場合には、図9の文選択処理にお
けるステップS30において、選択候補句リストが空に
ならない前に処理を途中で打ち切ればよい。これは文選
択処理において、注目性基準によって重要度の高い部分
から順次文が選択されていることによる。
のフローチャートに従って文選択処理を行ってから、選
択されなかった部分について図9のフローチャートによ
る処理を繰り返すことによって、適切な長さの要約を作
成することができる。これは図9のステップS31で最
初の処理のフローにおいて、注目情報量が最大の句の中
で新情報量が最大の句だけが選ばれているために、2回
目の処理のフローにおいては次に新情報量が大きい句が
選ばれて、出力句とされることによる。すなわち事柄の
既知性基準によって、冗長な出力が抑制されているとい
う本発明の特徴がある意味では逆に生かされて、適切な
長さの要約の作成に寄与することになる。あるいは、選
択処理を繰り返す際に、前回の選択処理で得られた要約
中の全名詞を次回の注目情報とするなどという方法で
も、効果的に関連性の高い部分を順次取り入れて、要約
を拡大することも可能である。
な、その他の制約にも容易に対応できるという特徴があ
る。本実施例においては要約の満たすべき要件を、情報
の注目性基準および既知性基準という2つの基準に対応
して整理して用いることができ、いろいろな要求に応じ
て文書要約装置の動作を拡張することが容易である。例
えば図3において、利用者の嗜好特性や利用者の知識の
ようなメモリに格納されている情報を、利用者の要求に
応じて様々な面から再整理して、要約作成の制約として
用いることができる。また、2つの文書の作成者注目情
報を、互いに別の文書を要約するための利用者注目情報
のような形で与えて、要約を作成すれば、それぞれの文
書で共通して述べられている事柄や片方にしか述べられ
ていない事柄のうち、どちらかの文書の作成者が重点を
置いているものが抽出されることになるので、そのよう
な要約を文書の比較情報として用いることも可能であ
る。このように要約装置の基本構成を変えることなく、
各種の要求に対応することが可能である。
作成の具体例について説明する。図12は本明細書の
〔従来の技術〕などで参照した特許公報の抄録を対象と
して、次の検索式と見出し(発明の名称)を注目情報と
して、要約としての抄録抜粋を作成した結果を示す。
(文書ORドキュメント) なお最後の特開平7−44566だけに対しては、検索
式は以下のものである。
(文章ORテキスト) 図12において、要約としての抄録抜粋の中の〔 〕
でくくって表示されているものは注目語である。また
“特徴語”は要約対象文書の中に含まれていた注目情報
である。ここで特徴語は注目語の部分集合になるが、機
能的には別のものである。特に利用者が注目している語
の中で、ある文書に出現したものは、その文書に対する
キーワードには含まれていなくても、利用者にとっては
意味が深い、その文書の特徴と考えられる。
目情報として検索式に含まれている名詞を用いる。作
成者注目情報として見出し(発明の名称)に含まれてい
る名詞を用いる。概念の既知性基準は用いない。既
知の事柄情報としては選択された要約部分に含まれてい
る名詞を用いる。すなわち候補述語句中に存在し、まだ
要約に含まれていない名詞の数が新情報量(異なり数が
第1新情報量、延べ数が第2新情報量)とされる。見
出し(発明の名称)を必須出力要素とする。の5つであ
る。
効果を説明する要約作成の具体例である。これは経済関
係のレポートに対して、見出しを注目情報として、要約
を作成した例である。図13(a) は「Hancock は」とい
う主題句に関する概念の既知性基準を用いない場合の要
約であり、(b) はこの主題句に関する概念の既知性基準
を用いた場合の要約である。概念の既知性基準によって
追加された部分にはアンダーラインがつけられている。
注目情報は指定しない。作成者注目情報として見出し
に含まれる名詞を用いる。概念の既知性基準は(a) で
は使用せず、(b) では主題句に関して用いる。既知の
事柄情報としては選択された要約に含まれている名詞を
用いる。すなわち候補述語句中に存在しながら、まだ要
約に含まれていない名詞の数が新情報量(異なり数、延
べ数が第1、第2新情報量)とされる。見出しを必須
出力要素とする。の5つである。
説明する。図13における要約対象文書は以下のもので
ある。この文書において、下線の付いた文字で以下の記
号のついた文が、図13で要約として抜粋された文であ
る。
建中 ◇ G.Amelioは社内の機構を改革し、Macintosh の機種
を半分に減らして開発費を減らし、約3,000 人の社員を
レイオフしつつ、Apple Computerを建て直している。
ら人を入れているが、研究開発の最高の担当者chief te
chhology officerとして53才のEllen Hancock を任命
した。これはApple 再建に最も重要な地位である。これ
は業界で非常に尊敬されていたD.Nagel がAT&TのBell L
aboratories の所長としてApple を去るまで占めていた
地位である。有意義な新製品開発の経験のある人の代わ
りにIBMに28年間過ごしたHancock が任命されたのは
驚きを持って迎えられている。Hancock はIBMという
巨大な会社で育っているので、直ちに6,000 人の血気盛
んな若いエンジニアやプログラマと管理スタイルの上で
ぶかつり合うのではないかと見られている。また、IB
Mでは5年位の単位で動いているのに対し、Apple は直
ちに動かなければならないから、仕事のテンポが合わな
いのではないかとの懸念もある。Hancock は数学の修士
を持ち、1996年にIBMのプログラマーとして出発
し、管理能力が認められて次第に昇格し、1995年に
はIBM全体の約1/3 を担当したが、L.Gerstnerと意見
が合わず、IBMを去ってNational SemiconductorにC
OOとして迎えられた。Hancock はIBMはLotus Deve
lopment のNotes を買い取るべきだと長いことIBM社
内で説いていたが、それが実現したのはHancock がIB
Mを辞めてからである。National Semiconductorでは今
年2月にAmelioがApple に移った後、後任のchief exec
utive officer になるつもりでいたが、board of direc
torsが後任にLSI LogicからのB.Halla を任命したの
で、National Semiconductorを辞めた。◇しかし、Hanc
ock はソフトウェアをよく知っており、Apple 再建の成
否は開発が遅れ続けているCopland にかかっているの
で、Hancock は妥当な人事と見られている。また、Appl
e では開発管理がいい加減で製品化が不首尾になること
が多かったのを是正し、また今まで大企業のマーケット
に進出できなかったのを是正できるのではないかと期待
されている。
xas Instruments からはMarco Landi, chief administr
ative officer としてはMaxtor Corp., Advanced Micro
Devices, Fairchild Semiconductorなどを経たGeorge
H.Scalise、またchief financial officer としてAutom
atic Data Processing Inc.とMAI Systems にいたこと
のあるFred D.Anderson をAmelioは任命している。
無理な開発促進圧力のため、開発の中心人物が多数Appl
e を辞め出した。しかもその多くがMicrosoft に就職し
ている。S.Capps は15年間Apple にいてMacintosh そ
の他のヒット商品を考え出したが、6ケ月前からApple
を去る決心をし、新会社を興すためベンチャー・キャピ
タリストと語ったところアイデアが多過ぎると言われた
ため、諦めてApple の競争相手のMicrosoft に就職し、
Microsoft のInternetのツールと新しいcomputer inter
faceを開発し出している。Microsoft は今年末までにNe
wtonのようなhand hold computer用OSのPegasus を発
表する予定だが、それを使い易くするのに協力する。ま
たCapps と共にNewtonを開発したW.Smith もMicrosoft
に移った。Gates がもっと使い易いインターフェイスを
求めているからその方針に従うが、Windows は二人にと
っては初めての経験である。Windows95 は複雑で同じこ
とをするのに五つもの異なるやり方があり、単純化する
のは困難と見られている。
ると見られるが、結果が目に見えてくるまでは少なく共
1年はかかるであろう。しかし、Macintosh の売れ行き
は悪化している。今年の3月に終わる四半期のApple の
売上は1年前に比べ9.7%下がって$2.8billion
になった。Macintosh の出荷は6月に終わる四半期には
20%減ると業界では推定していたが、調査会社Comput
er Intelligence が1,000 のパソコン小売店を調べたと
ころ、アメリカでは4月と5月における出荷台数はそれ
より遙かに悪く、1年前に比べて4月は29%、5月に
は27%減り、売上金額は4月には31%、5月には3
3%減っているという。この減少の一部にはパソコン業
界全体の売れ行き鈍化と、春先に欠陥のあったMacintos
h を多数リコールしなければならなかったのも含まれて
いる。しかし、Merisel Inc.のようにMacintosh は今ま
で通り売れているとい所もある。パソコン業界全体では
4月も5月も売上は10%増え、出荷台数は3%増えて
いる。大きな減少は企業のマーケットであり、社内のパ
ソコンの半分から1/4 までがMacintosh の3,000 のオフ
ィスを対象に調べたところ、新規のパソコンの購入が2
月に33%あったのに4月には14%減っている。アメ
リカ最大のパソコン量販チェーンのCompu USA Inc.で
は、Macintosh の売上は50%も下がったが、ノートブ
ックの売れ行きはいくつかの機種がリコールされたこと
もあってストップしている。小売店ではどこでもMacint
osh のハードウェアもソフトウェアも余り置いていない
が、それは通信販売の会社から安く買えるためである。
そういう通信販売会社の最大がMicro Warehouse であ
り、毎年$1.8billionの売上があるが、その半分がMaci
ntosh のハードウェアとソフトウェアであり、夜10時ま
でに電話やFAX で注文すれば翌日$3の送料で配達する
という優れたサービスで有名である。この会社では1月
におけるMacintosh の売上は1年前に比べ60%増えた
が、5月には増減なしとなった。
アのマーケットではMacintosh が最大で、1995年に
は3,950,000 台(1994年には2,400,000 台)、次が
Packard Bell で3,000,000 台(2,950,000 台)、それ
に続いてCompaqが2,900,000台(1,200,000 台)、IB
Mが1,600,000 台(800,000 台)、NECが1,500,000
台(500,000 台)と続く。1995年のマーケット・シ
ェアはApple が最大で、22.9%、これに続いてPack
ard Bellが19.2%、Compaqが11.9%、IBMが
8%、NECが4.3%、Acerが2.7%、Escom が
0.7%、富士通が0.6%、Highscreenが0.6%、
その他が29.1%となっている。
画像処理用装置に内蔵されるチップ上で動作する新しい
OSを発表した。これはQuick Time IC(image-capture)
技術の一部であり、MotorolaのチップMPC823用の
multitasking OS であり、image-capture 用装置のAP
Iを含んでいる。現在digital cameraの製造会社はそれ
ぞれ独自のASICを設計し、Adobe のPhtoshopやStor
m Software社のEasyPhoto といった画像処理用ソフトウ
ェアのインタフェースを独自に開発しなければならな
い。QuickTime ICを使えばdigital cameraの製造会社は
そういう手間が省けるので、digital camreaの値段を下
げられる。Apple はこれの開発をdigitalcameraや画像
処理関係の会社の大手と共同で開発してきており、すで
に10社以上が支持している。これを使えばパソコンなし
にdigital cameraから直接Internetに画像を送れるし、
カメラの中のscriptにより撮影時間を変えたり、Photos
hopのフィルターを動作さすことができる。
つあるが、そのための製品を夏から出荷する。社内でTa
nzaniaと呼ばれる新しいMacintosh のlogic board はsc
alableで安く、これによってMacintosh 互換機の製造に
興味を持つ会社に呼びかける。MotorolaはすでにTanzan
iaの試作を済ませ、実演をした。Tanzaniaは低位と中位
機種用であり、広範なオプションがある。最高200MHzま
でのPowerPC603e と604eを使用出来、3個から5個まで
のPCIスロットがある。PS/2キーボードかADB
コネクター、またEnhanced IDE (Integrated Drive E1e
ctronic)かSCSI internal hard driveの選択があ
る。またLocalTalk, GeoPort, SCSIなどのコネクタ
の他、Apple としては初めてのATADI(AT attachm
ent packetinterface) CD−ROM driveがある。Tan
zaniaはまたMacintosh の自動ejectingのfloppy drive
の他、Intel のチップ使用のパソコンでは標準の手動ej
ectingのものもある。DIMMスロットが2個とSIM
Mのスロットが二つあり、最大160Mbytes のRAMが使
えるがEDO DRAMを使用する。互換機製造会社は
Tanzaniaを使用したパソコンを来年始めには出荷でき
る。Apple はMacintoshのライセンス戦略をMacintosh
そのものの互換だけからPPCPへの移行を3段階に分
けて推進している。第1段階はMacintosh そのものの互
換機だけであって1995年から1996年にかけてDa
yStar Digital Inc.、 Power Computing Corp.、 Umax
Computer Corp.がPower Macintosh7500 と9500の互換機
を実現した。Umax Computer Corp. は台湾のUmax Data
Systems がRadius Inc. からMacintosh 互換機部門を買
い取って今年1月に生まれた会社であ、その最初の互換
機SuperMacS900は6月始めから出荷されたが、非常な人
気で生産が間に合わず、1カ月以内に$10million の受
注がこなせないでいる。第二段階はPower Macintosh540
0 とTanzaniaボードに基づいて今年夏から来年半ばにか
けて実現する。この二つは共にLow End Reference Plat
form(最近はMacOS Licensing Design, 略してMLDと
いう)に基づいている。どちらも業界で標準になってい
る広範囲の論理回路や周辺機器が使えるようになってお
り、PPCP(以前はCommon HardwareReference Platf
orm 、略してCHRPと呼ばれていた)の狙いに近づ
く。PPCPではMacintosh のOSの他、OS/2, Window
s 3.1, UNIX, Solarisなど広範囲のOSが使えることに
なっている。第三段階はPPCPに1997年半ばから
1998年にかけて完全に移行する。
に延びたので、今までApple はCopland が出るまでSyst
em7.5.3 がSystemの改良の最後だと言っていたのを変更
して、つなぎとしてCopland の新しい機能の一部を取り
入れたHarmony と社内で呼んでいるOSを年末に発表す
ることになった。Harmony にはInternetへのサポート、
OpenDoc, Cyberdog, QuickTime2.5, QuickDraw3Dなどの
クラフィックス技術、またCopland に予定されていたイ
ンターフェイスの改良などがある。またラベルの付いた
フォルダーによってファイル多数の検索や管理もでき
る。Lockheed Martin Missiles and Space 社はMacint
osh を9,500 台持っているが、Internetへのサポートや
OpenDoc が完成しているのなら、来年まで待たずに入手
できるのは有難いと大歓迎である。
にHramony を使えるが、Copland の場合はソフトウェア
会社は今までのソフトウェアを変更しなければならな
い。Copland は今はSystem8 と呼ばれている。
し、Duo23005やPowerBook に対する性能を改善し、Bust
erと社内で呼ばれて開発されてきたものを発表する。Co
mputer Intelligence InfoCorp.の最近の調査では、昨
年Macintosh を買った人の中で次もMacintosh を買おう
と答えたのが87%もあり、パソコンの満足度では最高
であった。次いでDell Computer が74%、Hewlett-Pa
ckard が72%、Acerが68%、Gateway2000 が61%
であった。Macintosh に満足している人々はMacintosh
のOSが好きなためであるのに対し、Intel チップ使用
のパソコンを使用している人々はたとえMacintosh のO
Sの方がすきであってもソフトウェアの互換性の立場か
らMacintosh に変えられないとこの調査会社は説明して
いる。
底的に敵視してGates に会うことはなかったが、Amelio
はGates を訪問して協力を要請するという現実的な行動
をしている。マルチメディアに関する標準と製品をAppl
e とMicrosoft の二社で共通に使用しようとしている。
二社の交渉がまとまればApple のQuickTime の開発環境
がWindows95 やDirectX API のサポートも含めNTでも
使えることになり、またApple のQuickTime Internet E
xplorer がMicrosoft のInternet Explorer でも使え
る。◇交渉がまとまればMicrosoft はQuickTime をInte
rnet Explorer に組み込めるようにし、同時にApple は
Windows のマルチメディア技術のサポートを強化するこ
とになろう。すでにApple はQickTimeがwindows 使用の
環境でも使用出来るようにし、DirectX のAPIの多く
がQuickTime でも使えるようになっている。今まではWi
ndows 用のQuickTime は再生しかできなかった。Web 上
のビデオの60%がOpenDoc で作られ、30%がMPE
Gにより作られるようになりつつあり、MPEGはQuic
kTime でも読めるという事実の前に、Microsoft は現実
的になってきた。
る。Apple はMicrosoft のBackOfficeをヨーロッパでは
Advanced Workgroup Solutionsのサーバーにパンドルし
て売り出しており、これが成功すればアメリカでもそう
すると言う。Microsoft もOffice97の次のversion をMa
cintosh 用にも開発すると約束するようにまで二社の関
係は改善された。パソコンの需要が落ち込みつつある現
在は特に他社のソフトウェアやハードウェアへの相互乗
り入れは互いに利益がある。
oft にライセンスを与えるばかりでなく、QuickTime VR
(virtual reality) も含めることになろう。これに対抗
するMicrosoft のActiveMovie の技術は非常に遅れてお
り、開発キットをソフトウェア会社に配布さえしていな
い。Microsoft はActiveMovie をInternet Explorerに
取り入れるのを諦めるのではないかとみられている。し
かしApple はDirectXのAPIなどMicrosoft のメディ
ア技術のサポートを改善するためにQuickTimeを貫き直
さなければならない。DirectX のAPIの大部分をAppl
e はサポートしつつある。これらAPIのうちDirect3D
は、Apple のQuickDraw3D と真っ向から対抗する。他方
Intel もInternet上のビデオ技術についてMicrosoft に
働きかけている。Apple のビデオ技術よりIntel のビデ
オ技術の改良されたものの方がよいとMicrosoft に説い
ている。Apple の場合はビデオを再生し始める前に充分
なデータをダウンロードしなければならないのに対し、
Intel の改良した技術では圧縮技術の改良によって早く
ビデオを再生し始められる。Gates はInternetやintran
etの将来性を見誤ったのに気がつき、今は出遅れたInte
rnet Explorer を一刻も早く強力なものにしたいとあせ
っている。 (要約対象文書終わり)この文書を対象とする要約の作
成における注目情報としては、見出しに含まれている名
詞を用いる。すなわち注目語は“Apple Computer”、
“Windows ”、“強化”、および“再建”の4つであ
る。注目情報量についても、第1注目情報量と第2注目
情報量とに区分して取り扱う。第1注目情報量は文に含
まれる注目語の異なり数であり、第2注目情報量は文に
含まれる注目語の延べ数である。第1注目情報量、およ
び第2注目情報量の取り扱いは、図11の新情報量の比
較と同様に行われる。
注目語以外の名詞(内容語)の数を用いることとし、第
1新情報量は文に含まれる注目語以外の名詞内容語の異
なり数、第2新情報量は文に含まれる注目語以外の名詞
内容語の延べ数とする。
である。上の要約対象文書の先頭から文に番号をつけ、
注目情報量、新情報量が0とならない文についての情報
量を示す。文に対して注目語は太字の〔 〕、新情報と
しての注目語以外の名詞内容語は細字の〔 〕で囲んで
表示されている。情報量の少数点より前の部分が異なり
数であり、少数点より後の部分が延べ数である。例えば
文11においては〔Hancock 〕が2回出現するので、新
情報量の異なり数(第1新情報量)は8、延べ数(第2
新情報量)は9となる。
ップS31で文72が選択され、ステップS32で文7
2が選択候補リストから除かれ、選択結果リストに追加
される。そしてステップS33で“Windows ”と“強
化”とが注目語リストから除かれ、注目情報量の再計算
が行われる。
に対しては、図9のステップS31で文1が選択され、
ステップS32で選択結果リストに追加され、ステップ
S33で“Apple Computer”が注目語リストから除か
れ、注目情報量の再計算が行われる。ここでは文1以外
に“Apple Computer”を含む文は存在せず、他の文の情
報量は変化しない。
され、ステップS33で“再建”が注目語リストから除
かれ、注目語リストが空になる。従って、注目情報量を
再計算すると、選択候補リストに残っている述語句に対
する注目情報量は全て0になり、ステップS34で選択
候補リストの内容は空となり、文選択処理が終了する。
この処理によって得られた結果が図13(a) である。
説明する。ここでは図13(a) に対する処理に加えて、
以下の処理が実行される。まず第1に、主題句の中に既
知でない固有名詞が表れた文に対しては、その固有名詞
が要約対象文書中で初めて出現した文を依存先とする依
存関係を設定する。但し固有名詞の場合、最初は正式名
称(ここでは“Ellen Hancock ”,“G.Amelio”)が用
いられても、その後は省略形(ここでは“Hancock ”,
“Amelio”)が用いられることが多いので、そのような
正式名称と省略形は同じとみなす。第2に主題句に指示
詞(例えば「これ」)が出現した時には、その直前の文
を依存先として依存関係を設定する。第3に依存先の文
が、更に第1および第2の処理における依存関係に該当
する場合には、その先の依存先の文についても同様に依
存関係を設定する。
3の処理を行って、依存関係を設定する。図16はこの
依存関係を示す。例えば文11の主題句としての「Hanc
ockは」に関して文11から文2に対する依存関係が設
定され、文2の「Amelio」に関して文2ら文1への依存
関係が設定されている。なお文41や文72における
“Apple ”や“Microsoft ”も固有名詞であるが、有名
な企業名であり、利用者既知概念として与えられたもの
として、以下の説明を行う。
算について、文11を例にとって説明する。図16(c)
の依存関係に対応して、文11の情報量は文2と文1の
情報量を含めて計算する。ここで“Apple ”は“Apple
Computer”と同一の語とみなす。
目情報量は文11に“再建”、文1に“Apple Compute
r”が含まれているため、異なり数としての第1注目情
報量は2、延べ数としての第2注目情報量は“Apple ”
の分も含めて4になる。また新情報量は“Apple ”を除
き、“Hancock ”,“Ellen Hancock ”, “G.Ameli
o”, “Amelio”、および“開発”の重複を除いて、異
なり数で24、延べ数で27となる。
プS31で文11が選択され、S32で文1および文2
と共に選択候補リストから除かれ、選択結果リストに追
加される。これによって、例えば文3の依存先は選択済
となるので、次に文3が選択される場合には、その情報
量は文3だけに対して計算される。その後ステップS3
3で“Apple Computer”と“再建”が注目語リストから
除かれ、注目情報量の計算が行われ、文3と文21の注
目情報量が0となる。この結果が図18である。
1で文72が選択され、選択結果リストに追加され、ス
テップS33で“Windows ”と“強化”とが注目語リス
トから除かれ、注目語リストが空になるために、文選択
処理が終了する。これによって図13(b) の結果が得ら
れる。
について説明する。図19は、この文選択方式としての
文抽出のアルゴリズムを示す。このアルゴリズムは、新
聞記事やレポートなどの見出しに含まれる名詞キーワー
ドを用いて、その名詞キーワードを含む文を抽出して、
記事などのダイジェスト情報を作成するアルゴリズムで
ある。
用語と、図9の文選択処理のフローチャートにおける用
語との対応の説明図である。なお図9に対しては、図1
4に関する説明と同様に、注目情報量が第1情報量と第
2情報量とに区別されている。
ては検索式(質問文)が用いられているのに対し、図1
9では見出しだけが用いられる点が異なっている。見出
しと質問文の違いとしては、まず第1に見出しは必須出
力要素であり、見出しと全く同じ語しか含まない文、す
なわち新情報量が0の文は抽出されないことと、第2に
質問文(検索式)は単なる注目語のリストであり、質問
文と全く同じ語しか含まない文であっても抽出される、
すなわち質問文自体は選択結果リストに含まれず、新情
報量が0にならないということがある。
ードに一致しない名詞の延べ数とを対応させることは、
注目概念(見出しキーワード)と同じ文に出てくる名詞
の組の数によって新しい事柄の量を求めるという考え方
と同じである。すなわち(3)の比較、注目概念(正確
には選択結果リストにまだ含まれていない注目概念)の
数が全く同一の文について行われるため、まだ出現して
いない注目概念とそれ以外の名詞の組み合わせを数える
ことと同じになる。
ソースとして用いるために、注目概念同士の組は見出し
にすでに出現していることになり、図9では必須出力要
素としてすでに選択結果リストに含まれていることにな
る。それ以外の注目概念に関する名詞の組の数は、文に
含まれる見出しキーワードの数と見出しキーワード以外
の名詞の数との積で与えられ、見出しキーワードの数が
同じとすれば、見出しキーワード以外の名詞の数だけを
(3)において比較することにより、名詞の組の数の比
較を行うことと同等となる。
書要約装置を用いることにより、前述の様々な特徴によ
って各種の効果が生ずるが、最も大きな第1の効果とし
て、文書の有用性(関連度)の判定が容易になるという
効果がある。すなわち本発明の方法によれば、利用者が
注目している情報と、作成者が重点的に記述しようとし
ている情報との両方を要約の中に抽出することができる
ため、利用者が注目している情報が文書の中でどのよう
に扱われているかが、要約を読むだけで容易に把握可能
となる。すなわち、文書が利用者の目的とどの位関係が
あるかということを、要約から容易に判定できるように
なる。
が向上するという効果がある。概念の既知性基準によっ
て利用者が知らない用語については、例えば追加説明と
共に出力され、また事柄の既知性基準によって冗長な出
力が抑制されるので、簡潔かつ分かりやすい要約が作成
される。また利用者注目情報に基づいて、利用者の注意
の方向を考慮することにより、利用者に不必要な情報が
要約中に含まれる率を減少させることができることも、
利用者にとってより分かりやすくする上で大きな効果が
ある。
である。
トである。
である。
示す図である。
ための例を示す図である。
る。
報量の比較処理フローチャートである。
果を説明する要約例を示す図である。
果を示す図である。
量を示す図である。
定を説明する図である。
果を示す図である。
量を示す図である。
ト情報抽出のアルゴリズムを示す図である。
トとにおける用語の対応を示す図である。
Claims (23)
- 【請求項1】 計算機可読の文書の選択・閲覧・編集お
よび管理の支援のために文書要約を行う装置において、 要約対象文書の内容の中で、要約を利用する利用者が注
目している情報としての利用者注目情報、および該要約
対象文書の作成者が注目を促している情報としての作成
者注目情報に基づいて、該要約対象文書中の該2種類の
注目情報に関連する部分を抽出する注目情報関連箇所抽
出手段を備えることを特徴とする文書要約装置。 - 【請求項2】 前記利用者注目情報が、前記要約対象文
書の検索のために利用者から入力される質問文の内容で
あることを特徴とする請求項1記載の文書要約装置。 - 【請求項3】 前記利用者注目情報および/あるいは作
成者注目情報が単語列あるいは重みづけられた単語列の
形式であることと、 前記注目情報関連箇所抽出手段が、前記要約対象文書に
おける該単語列内の単語の出現の程度に応じて、前記2
種類の注目情報に関連する部分を抽出することを特徴と
する請求項1記載の文書要約装置。 - 【請求項4】 前記文書要約装置において、 前記利用者が興味を有する事柄を利用者嗜好特性として
あらかじめ蓄積する利用者嗜好特性蓄積手段を更に備
え、 前記注目情報関連箇所抽出手段が、該利用者嗜好特性蓄
積手段の蓄積内容を前記利用者注目情報として利用する
ことを特徴とする請求項1記載の文書要約装置。 - 【請求項5】 前記文書要約装置において、 前記利用者嗜好特性蓄積手段が複数の利用者のそれぞれ
に対して利用者嗜好特性を蓄積すると共に、 あらかじめ定められたアクセス制御方式のもとで、前記
要約を利用する利用者の利用者注目情報として、異なる
利用者の利用者嗜好特性を含む情報を前記注目情報関連
箇所抽出手段に与えて前記2種類の注目情報に関連する
部分を抽出させる他利用者嗜好特性活用手段を更に備え
ることを特徴とする請求項4記載の文書要約装置。 - 【請求項6】 前記作成者注目情報が、通常の流通文書
に含まれ、かつ作成者が文書の要点をまとめて提示して
いる情報であって、文書の表題、文書中の章・節および
図表の見出し、目次、用語・事項の索引の情報であるこ
とを特徴とする請求項1記載の文書要約装置。 - 【請求項7】 前記文書要約装置において、 複数の要約対象文書に対するそれぞれの作成者注目情報
をマージする作成者注目情報マージ手段を更に備え、マ
ージした作成者注目情報に基づいて、前記注目情報関連
箇所抽出手段が該複数の要約対象文書中の前記2種類の
注目情報に関連する部分を抽出して、 該複数の要約対象文書間の比較情報とすることを特徴と
する請求項1記載の文書要約装置。 - 【請求項8】 前記文書要約装置において、 文書作成時点以後に該文書の作成者あるいは文書管理者
によって指定される作成者注目情報を、該作成者注目情
報に対応する文書と共に格納する文書格納手段を更に備
え、 前記注目情報関連箇所抽出手段が、該文書格納手段に格
納されている作成者注目情報を利用することを特徴とす
る請求項1記載の文書要約装置。 - 【請求項9】 計算機可読の文書の選別・閲覧・編集お
よび管理の支援のために文書要約を行う装置において、 利用者がすでに知っている利用者既知情報、および/あ
るいは該要約作成時点において、過去に利用者に提示さ
れた文書に基づいて利用者がすでに知っているとみなせ
る履歴的既知情報と、該2種類の既知情報以外の情報を
区別して使用して要約を作成し、要約の可読性を向上さ
せる要約可読性向上手段を備えることを特徴とする文書
要約装置。 - 【請求項10】 前記利用者既知情報、および/あるい
は履歴的既知情報が既知概念と既知の事柄とによって構
成されることと、 前記要約可読性向上手段が、要約内の既知でない概念を
減少させ、かつ既知でない事柄については既知性の低い
ものを優先して要約に取り入れることによって要約の可
読性を向上させることを特徴とする請求項9記載の文書
要約装置。 - 【請求項11】 前記文書要約装置において、 前記概念の既知性が文書内に出現する用語の既知性であ
ることと、 文書内に出てくる用語を認定する用語認定手段と、 該用語認定手段によって認定された用語の既知性を判定
する用語既知性判定手段とを更に備えることを特徴とす
る請求項10記載の文書要約装置。 - 【請求項12】 前記文書要約装置において、 前記事柄の既知性が文書内に出現する用語の組み合わせ
の既知性であることと、 文書内に出てくる用語の組み合わせを認定する用語組合
わせ認定手段と、 該用語組合わせ認定手段によって認定された用語の組み
合わせの既知性を判定する用語組合わせ既知性判定手段
とを更に備えることを特徴とする請求項10記載の文書
要約装置。 - 【請求項13】 前記文書要約装置において、 前記事柄の既知性が文書内に出てくる用語と述語との組
み合わせの既知性であることと、 文書内に出てくる用語と述語との組み合わせを認定する
用語と述語の組合わせ認定手段と、 該用語と述語の組合わせ認定手段によって認定された用
語と述語の組み合わせの既知性を判定する用語と述語の
組合わせ既知性判定手段とを更に備えることを特徴とす
る請求項10記載の文書要約装置。 - 【請求項14】 前記文書要約装置において、 前記利用者が熟知している事柄を利用者知識としてあら
かじめ蓄積する利用者知識蓄積手段を更に備え、 前記要約可読性向上手段が、該利用者知識蓄積手段に蓄
積されている利用者知識を前記利用者既知情報として利
用することを特徴とする請求項9記載の文書要約装置。 - 【請求項15】 前記文書要約装置において、前記利用
者知識蓄積手段が複数の利用者のそれぞれに対する利用
者知識を蓄積すると共に、 あらかじめ定められたアクセス制御方式のもとで、前記
要約を利用する利用者の利用者既知情報として、異なる
利用者の利用者知識を含む情報を前記要約可読性向上手
段に用いさせる他利用者知識活用手段を更に備えること
を特徴とする請求項14記載の文書要約装置。 - 【請求項16】 前記文書要約装置において、 該文書要約装置あるいは該文書要約装置を含むシステム
の稼働期間において利用者に提示された文書や要約を利
用者の閲覧履歴として保持し、該閲覧履歴を前記履歴的
既知情報の基として前記要約可読性向上手段に与える閲
覧履歴保持手段と、 該閲覧履歴保持手段に保持されている文書や要約と要約
対象文書とを相互参照する文書相互参照手段とを更に備
えることを特徴とする請求項9記載の文書要約装置。 - 【請求項17】 前記閲覧履歴保持手段が、前記稼働期
間を含む長期間に渡る複数の利用者の閲覧履歴をそれぞ
れの利用者毎に保持することを特徴とする請求16記載
の文書要約装置。 - 【請求項18】 前記文書要約装置において、 あらかじめ定められたアクセス制御方式のもとで前記要
約を利用する利用者の履歴的既知情報として、異なる利
用者の閲覧履歴に基づく履歴的既知情報を含む情報を前
記要約可読性向上手段に与える他利用者閲覧履歴活用手
段を更に備えることを特徴とする請求項17記載の文書
要約装置。 - 【請求項19】 前記文書要約装置において、 要約対象文書の中の各文を、文の述語と該述語に支配さ
れる名詞を基本として構成される述語句に分割し、該述
語句のうちで他の述語句に依存していない述語句を主述
語句とし、該述語句が主題句を含むときは該主題句を分
離し、1つの文内または他の文の間での構文的依存構造
に従って主題句と主述語句、主述語句と他の述語句との
間に依存関係の設定を行い、該設定結果をともなう文書
内容を前記要約可読性向上手段に与える文分割・依存関
係設定手段を更に備えることを特徴とする請求項9記載
の文書要約装置。 - 【請求項20】 計算機可読の文書の選別・閲覧・編集
および管理の支援のために文書要約を行う装置におい
て、 要約対象文書の内容の中で、要約を利用する利用者が注
目している情報としての利用者注目情報、および該要約
対象文書の作成者が注目を促している情報としての作成
者注目情報に基づいて、該要約対象文書中の該2種類の
注目情報に関連する部分を抽出する注目情報関連箇所抽
出手段と、 該抽出結果に対して、利用者がすでに知っている利用者
既知情報、および/おるいは該要約作成時点において、
過去に利用者に提示された文書に基づいて利用者がすで
に知っているとみなせる履歴的既知情報と、該2種類の
既知情報以外の情報を区別して使用して要約を作成し、
要約の可読性を向上させる要約可読性向上手段とを備え
ることを特徴とする文書要約装置。 - 【請求項21】 計算機可読の文書の選別・閲覧・編集
および管理の支援のために文書要約を行う方法におい
て、 要約対象文書の内容の中で、要約を利用する利用者が注
目している情報としての利用者注目情報、および該要約
対象文書の作成者が注目を促している情報としての作成
者注目情報に基づいて、該要約対象文書中の該2種類の
注目情報に関連する部分を抽出することを特徴とする文
書要約方法。 - 【請求項22】 計算機可読の文書の選別・閲覧・編集
および管理の支援のために文書要約を行う方法におい
て、 利用者がすでに知っている利用者既知情報、および/あ
るいは該要約作成時点において、過去に利用者に提示さ
れた文書に基づいて利用者がすでに知っているとみなせ
る履歴的既知情報と、該2種類の既知情報以外の情報を
区別して使用して要約を作成し、要約の可読性を向上さ
せることを特徴とする文書要約方法。 - 【請求項23】 計算機可読の文書の選択・閲覧・編集
および管理の支援のために文書要約を行う方法におい
て、 要約対象文書の内容の中で、要約を利用する利用者が注
目している情報としての利用者注目情報、および該要約
対象文書の作成者が注目を促している情報としての作成
者注目情報に基づいて、該要約対象文書中の該2種類の
注目情報に関連する部分を抽出し、該抽出結果に対し
て、利用者がすでに知っている利用者既知情報、および
/あるいは該要約作成時点において、過去に利用者に提
示された文書に基づいて利用者がすでに知っているとみ
なせる履歴的既知情報と、該2種類の既知情報以外の情
報を区別して使用して要約を作成し、要約の可読性を向
上させることを特徴とする文書要約方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00677797A JP3579204B2 (ja) | 1997-01-17 | 1997-01-17 | 文書要約装置およびその方法 |
US09/006,201 US6205456B1 (en) | 1997-01-17 | 1998-01-13 | Summarization apparatus and method |
EP98300322A EP0855660B1 (en) | 1997-01-17 | 1998-01-16 | Summarization apparatus and method |
EP03008037A EP1338983A3 (en) | 1997-01-17 | 1998-01-16 | Summarization apparatus and method |
DE69822687T DE69822687T2 (de) | 1997-01-17 | 1998-01-16 | Vorrichtung und Verfahren zur Zusammenfassung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00677797A JP3579204B2 (ja) | 1997-01-17 | 1997-01-17 | 文書要約装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10207891A true JPH10207891A (ja) | 1998-08-07 |
JP3579204B2 JP3579204B2 (ja) | 2004-10-20 |
Family
ID=11647617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP00677797A Expired - Fee Related JP3579204B2 (ja) | 1997-01-17 | 1997-01-17 | 文書要約装置およびその方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6205456B1 (ja) |
EP (2) | EP1338983A3 (ja) |
JP (1) | JP3579204B2 (ja) |
DE (1) | DE69822687T2 (ja) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001175673A (ja) * | 1999-12-20 | 2001-06-29 | Sharp Corp | 電子書籍表示装置及び電子書籍表示プログラムを記憶した記憶媒体 |
JP2001275058A (ja) * | 2000-01-21 | 2001-10-05 | Jisedai Joho Hoso System Kenkyusho:Kk | 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003058529A (ja) * | 2001-08-10 | 2003-02-28 | Seiko Epson Corp | 文書編集装置、文書速読支援装置、文書編集方法、文書速読支援方法、文書編集プログラム、文書速読支援プログラムおよび記録媒体 |
JP2003248676A (ja) * | 2002-02-22 | 2003-09-05 | Communication Research Laboratory | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 |
JP2004118545A (ja) * | 2002-09-26 | 2004-04-15 | Nec Corp | テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム |
WO2005096182A1 (ja) * | 2004-03-31 | 2005-10-13 | Matsushita Electric Industrial Co., Ltd. | 情報抽出システム |
US7020668B2 (en) | 2000-10-16 | 2006-03-28 | Fujitsu Limited | Device for retaining important data on a preferential basis |
JP2006155612A (ja) * | 2004-11-30 | 2006-06-15 | Palo Alto Research Center Inc | ユーザ関心依存型の自動要約作成及び自動ノート作成システム及び方法 |
JP2006178978A (ja) * | 2004-12-21 | 2006-07-06 | Palo Alto Research Center Inc | ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 |
US7137067B2 (en) | 2000-03-17 | 2006-11-14 | Fujitsu Limited | Device and method for presenting news information |
US7181688B1 (en) | 1999-09-10 | 2007-02-20 | Fuji Xerox Co., Ltd. | Device and method for retrieving documents |
JP2009146447A (ja) * | 2009-03-23 | 2009-07-02 | Nec Corp | テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム |
JP2009146446A (ja) * | 2009-03-23 | 2009-07-02 | Nec Corp | テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム |
JP2009217802A (ja) * | 2008-03-06 | 2009-09-24 | Sharp Corp | 文書処理装置、文書処理プログラムおよび記録媒体 |
JP2010020678A (ja) * | 2008-07-14 | 2010-01-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書要約装置、文書要約方法、プログラムおよび記録媒体 |
WO2012111226A1 (ja) * | 2011-02-15 | 2012-08-23 | 日本電気株式会社 | 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体 |
JP2013015920A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 情報処理装置、情報処理方法、および情報処理プログラム |
WO2014021074A1 (ja) * | 2012-07-31 | 2014-02-06 | 日本電気株式会社 | 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム |
JP2017010107A (ja) * | 2015-06-17 | 2017-01-12 | 大日本印刷株式会社 | 情報処理装置、情報処理システム及びプログラム |
JP2017054509A (ja) * | 2015-09-09 | 2017-03-16 | ウバープル カンパニー リミテッド | 文抽出方法及びシステム |
JP2020177373A (ja) * | 2019-04-16 | 2020-10-29 | 学校法人早稲田大学 | 情報伝達システムおよびプログラム |
JP2021114184A (ja) * | 2020-01-20 | 2021-08-05 | シャープ株式会社 | 要約生成装置、要約生成方法、及びプログラム |
Families Citing this family (348)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6515968B1 (en) | 1995-03-17 | 2003-02-04 | Worldcom, Inc. | Integrated interface for real time web based viewing of telecommunications network call traffic |
US6473407B1 (en) | 1997-09-05 | 2002-10-29 | Worldcom, Inc. | Integrated proxy interface for web based alarm management tools |
US7058600B1 (en) * | 1997-09-26 | 2006-06-06 | Mci, Inc. | Integrated proxy interface for web based data management reports |
US6763376B1 (en) * | 1997-09-26 | 2004-07-13 | Mci Communications Corporation | Integrated customer interface system for communications network management |
US6385644B1 (en) | 1997-09-26 | 2002-05-07 | Mci Worldcom, Inc. | Multi-threaded web based user inbox for report management |
US6745229B1 (en) | 1997-09-26 | 2004-06-01 | Worldcom, Inc. | Web based integrated customer interface for invoice reporting |
US6714979B1 (en) | 1997-09-26 | 2004-03-30 | Worldcom, Inc. | Data warehousing infrastructure for web based reporting tool |
US20080028292A1 (en) * | 1997-12-22 | 2008-01-31 | Ricoh Company, Ltd. | Techniques to facilitate reading of a document |
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
US7152031B1 (en) * | 2000-02-25 | 2006-12-19 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
US7197451B1 (en) * | 1998-07-02 | 2007-03-27 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US6582475B2 (en) * | 1998-09-09 | 2003-06-24 | Ricoh Company Limited | Automatic adaptive document printing help system |
US6115709A (en) * | 1998-09-18 | 2000-09-05 | Tacit Knowledge Systems, Inc. | Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions |
US6789230B2 (en) * | 1998-10-09 | 2004-09-07 | Microsoft Corporation | Creating a summary having sentences with the highest weight, and lowest length |
ATE268484T1 (de) | 1998-10-28 | 2004-06-15 | Verticalone Corp | System und verfahren für den automatischen zugriff auf persönliche daten |
US8121891B2 (en) | 1998-11-12 | 2012-02-21 | Accenture Global Services Gmbh | Personalized product report |
US6195651B1 (en) * | 1998-11-19 | 2001-02-27 | Andersen Consulting Properties Bv | System, method and article of manufacture for a tuned user application experience |
US7672879B1 (en) | 1998-12-08 | 2010-03-02 | Yodlee.Com, Inc. | Interactive activity interface for managing personal data and performing transactions over a data packet network |
US7085997B1 (en) | 1998-12-08 | 2006-08-01 | Yodlee.Com | Network-based bookmark management and web-summary system |
US8069407B1 (en) | 1998-12-08 | 2011-11-29 | Yodlee.Com, Inc. | Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes |
US6317708B1 (en) * | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
WO2000043911A1 (en) * | 1999-01-22 | 2000-07-27 | Wordstream, Inc. | Method and apparatus for improved document searching |
US7366711B1 (en) * | 1999-02-19 | 2008-04-29 | The Trustees Of Columbia University In The City Of New York | Multi-document summarization system and method |
JP3135235B2 (ja) * | 1999-02-26 | 2001-02-13 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 照応解析装置 |
US6665681B1 (en) * | 1999-04-09 | 2003-12-16 | Entrieva, Inc. | System and method for generating a taxonomy from a plurality of documents |
US7752535B2 (en) | 1999-06-01 | 2010-07-06 | Yodlec.com, Inc. | Categorization of summarized information |
US20040078423A1 (en) * | 2002-03-22 | 2004-04-22 | Ramakrishna Satyavolu | Method and apparatus for controlled establishment of a turnkey system providing a centralized data aggregation and summary capability to third party entities |
US7844594B1 (en) | 1999-06-18 | 2010-11-30 | Surfwax, Inc. | Information search, retrieval and distillation into knowledge objects |
US7228492B1 (en) | 1999-07-06 | 2007-06-05 | Ricoh Company, Ltd. | 2D graph displaying document locations of user-specified concept of interest |
US7509572B1 (en) * | 1999-07-16 | 2009-03-24 | Oracle International Corporation | Automatic generation of document summaries through use of structured text |
JP3791879B2 (ja) * | 1999-07-19 | 2006-06-28 | 富士通株式会社 | 文書要約装置およびその方法 |
US8311946B1 (en) * | 1999-10-15 | 2012-11-13 | Ebrary | Method and apparatus for improved information transactions |
US7536561B2 (en) | 1999-10-15 | 2009-05-19 | Ebrary, Inc. | Method and apparatus for improved information transactions |
JP4320491B2 (ja) * | 1999-11-18 | 2009-08-26 | ソニー株式会社 | 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 |
US7475334B1 (en) * | 2000-01-19 | 2009-01-06 | Alcatel-Lucent Usa Inc. | Method and system for abstracting electronic documents |
US6820237B1 (en) * | 2000-01-21 | 2004-11-16 | Amikanow! Corporation | Apparatus and method for context-based highlighting of an electronic document |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CA2404337A1 (en) * | 2000-03-27 | 2001-10-04 | Documentum, Inc. | Method and apparatus for generating metadata for a document |
WO2001086491A2 (en) * | 2000-05-11 | 2001-11-15 | University Of Southern California | Machine translation techniques |
US7013259B1 (en) * | 2000-06-30 | 2006-03-14 | Fuji Xerox Co., Ltd. | System and method for teaching writing using microanalysis of text |
US7313588B1 (en) | 2000-07-13 | 2007-12-25 | Biap Systems, Inc. | Locally executing software agent for retrieving remote content and method for creation and use of the agent |
US7613790B2 (en) * | 2000-07-13 | 2009-11-03 | Biap Systems, Inc. | Apparatus for and method of executing customized interactive computing services in a broadband network environment |
US7672952B2 (en) * | 2000-07-13 | 2010-03-02 | Novell, Inc. | System and method of semantic correlation of rich content |
US7389225B1 (en) | 2000-10-18 | 2008-06-17 | Novell, Inc. | Method and mechanism for superpositioning state vectors in a semantic abstract |
US7286977B1 (en) * | 2000-09-05 | 2007-10-23 | Novell, Inc. | Intentional-stance characterization of a general content stream or repository |
US7152058B2 (en) | 2000-07-13 | 2006-12-19 | Biap Systems, Inc. | Apparatus for and method of selectively retrieving information and enabling its subsequent display |
US7653530B2 (en) * | 2000-07-13 | 2010-01-26 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US20090234718A1 (en) * | 2000-09-05 | 2009-09-17 | Novell, Inc. | Predictive service systems using emotion detection |
US20100122312A1 (en) * | 2008-11-07 | 2010-05-13 | Novell, Inc. | Predictive service systems |
US7177922B1 (en) | 2000-09-05 | 2007-02-13 | Novell, Inc. | Policy enforcement using the semantic characterization of traffic |
JP2002157270A (ja) * | 2000-11-17 | 2002-05-31 | Mitsubishi Space Software Kk | 興味記事配信システム及び興味記事配信方法 |
DE10057634C2 (de) * | 2000-11-21 | 2003-01-30 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit |
US20020091671A1 (en) * | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
US20040111386A1 (en) * | 2001-01-08 | 2004-06-10 | Goldberg Jonathan M. | Knowledge neighborhoods |
JP3768105B2 (ja) * | 2001-01-29 | 2006-04-19 | 株式会社東芝 | 翻訳装置、翻訳方法並びに翻訳プログラム |
JP3916124B2 (ja) * | 2001-02-15 | 2007-05-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | デジタル文書閲覧システム、ブラウザ、デジタル文書表示方法、プログラム及び記憶媒体 |
JP2002304418A (ja) * | 2001-04-06 | 2002-10-18 | Fujitsu Ltd | 検索装置、検索方法および検索プログラム |
US6990634B2 (en) * | 2001-04-27 | 2006-01-24 | The United States Of America As Represented By The National Security Agency | Method of summarizing text by sentence extraction |
WO2002097663A1 (en) * | 2001-05-31 | 2002-12-05 | University Of Southern California | Integer programming decoder for machine translation |
US7409335B1 (en) | 2001-06-29 | 2008-08-05 | Microsoft Corporation | Inferring informational goals and preferred level of detail of answers based on application being employed by the user |
US7519529B1 (en) * | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
WO2003005166A2 (en) | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US8799776B2 (en) * | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
WO2003012661A1 (en) * | 2001-07-31 | 2003-02-13 | Invention Machine Corporation | Computer based summarization of natural language documents |
US20030066033A1 (en) * | 2001-09-13 | 2003-04-03 | Direen, Harry George | Method of performing set operations on hierarchical objects |
US6963878B2 (en) * | 2001-09-24 | 2005-11-08 | Microsoft Corporation | Generating a focused data set from an original data set |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
JP2003208434A (ja) * | 2001-11-07 | 2003-07-25 | Nec Corp | 情報検索システム及びそれに用いる情報検索方法 |
US7072881B1 (en) * | 2001-11-27 | 2006-07-04 | Bellsouth Intellectual Property Corporation | Method and system for managing telecommunications reports |
JP2003196270A (ja) * | 2001-12-27 | 2003-07-11 | Sharp Corp | 文書情報処理方法、文書情報処理装置、通信システム、コンピュータプログラム、及び記録媒体 |
US20030170597A1 (en) * | 2002-02-22 | 2003-09-11 | Rezek Edward Allen | Teaching aids and methods for teaching interviewing |
WO2004001623A2 (en) * | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
GB2390704A (en) * | 2002-07-09 | 2004-01-14 | Canon Kk | Automatic summary generation and display |
US7305336B2 (en) * | 2002-08-30 | 2007-12-04 | Fuji Xerox Co., Ltd. | System and method for summarization combining natural language generation with structural analysis |
US20040049391A1 (en) * | 2002-09-09 | 2004-03-11 | Fuji Xerox Co., Ltd. | Systems and methods for dynamic reading fluency proficiency assessment |
WO2004025490A1 (en) * | 2002-09-16 | 2004-03-25 | The Trustees Of Columbia University In The City Of New York | System and method for document collection, grouping and summarization |
US9280603B2 (en) * | 2002-09-17 | 2016-03-08 | Yahoo! Inc. | Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources |
US7455522B2 (en) * | 2002-10-04 | 2008-11-25 | Fuji Xerox Co., Ltd. | Systems and methods for dynamic reading fluency instruction and improvement |
US9805373B1 (en) | 2002-11-19 | 2017-10-31 | Oracle International Corporation | Expertise services platform |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US7376893B2 (en) * | 2002-12-16 | 2008-05-20 | Palo Alto Research Center Incorporated | Systems and methods for sentence based interactive topic-based text summarization |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US6768935B1 (en) | 2003-04-07 | 2004-07-27 | General Motors Corporation | Vehicle diagnostic record mapping |
US7092937B2 (en) * | 2003-04-07 | 2006-08-15 | General Motors Corporation | Vehicle diagnostic knowledge delivery |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7610190B2 (en) * | 2003-10-15 | 2009-10-27 | Fuji Xerox Co., Ltd. | Systems and methods for hybrid text summarization |
CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
US8296304B2 (en) * | 2004-01-26 | 2012-10-23 | International Business Machines Corporation | Method, system, and program for handling redirects in a search engine |
US7293005B2 (en) * | 2004-01-26 | 2007-11-06 | International Business Machines Corporation | Pipelined architecture for global analysis and index building |
US7499913B2 (en) * | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
US7424467B2 (en) * | 2004-01-26 | 2008-09-09 | International Business Machines Corporation | Architecture for an indexer with fixed width sort and variable width sort |
US7698125B2 (en) * | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US20050278314A1 (en) * | 2004-06-09 | 2005-12-15 | Paul Buchheit | Variable length snippet generation |
US7461064B2 (en) * | 2004-09-24 | 2008-12-02 | International Buiness Machines Corporation | Method for searching documents for ranges of numeric values |
JP4160548B2 (ja) * | 2004-09-29 | 2008-10-01 | 株式会社東芝 | 文書要約作成システム、方法、及びプログラム |
JP5452868B2 (ja) * | 2004-10-12 | 2014-03-26 | ユニヴァーシティー オブ サザン カリフォルニア | トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング |
US7840564B2 (en) | 2005-02-16 | 2010-11-23 | Ebrary | System and method for automatic anthology creation using document aspects |
JP2006252047A (ja) * | 2005-03-09 | 2006-09-21 | Fuji Xerox Co Ltd | 言語処理装置および言語処理プログラム |
JP4657773B2 (ja) * | 2005-03-22 | 2011-03-23 | 株式会社東芝 | 画像処理装置および画像処理方法 |
US20060259293A1 (en) * | 2005-05-11 | 2006-11-16 | France Telecom | Computerized method and apparatus for automatically generating a natural language description of a person's activities |
WO2006128238A1 (en) * | 2005-06-02 | 2006-12-07 | Newsouth Innovations Pty Limited | A method for summarising knowledge from a text |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US7433869B2 (en) | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
US8117192B1 (en) | 2005-07-14 | 2012-02-14 | Pavel Pogodin | Computerized information system for creating patent data summaries and method therefor |
US8417693B2 (en) * | 2005-07-14 | 2013-04-09 | International Business Machines Corporation | Enforcing native access control to indexed documents |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
JP4887800B2 (ja) * | 2006-01-24 | 2012-02-29 | 富士ゼロックス株式会社 | 文書処理システム |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7814112B2 (en) * | 2006-06-09 | 2010-10-12 | Ebay Inc. | Determining relevancy and desirability of terms |
US20080027926A1 (en) * | 2006-07-31 | 2008-01-31 | Qian Diao | Document summarization method and apparatus |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7606752B2 (en) | 2006-09-07 | 2009-10-20 | Yodlee Inc. | Host exchange in bill paying services |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
WO2008050649A1 (fr) * | 2006-10-23 | 2008-05-02 | Nec Corporation | Système, procédé et programme de récapitulation de contenu |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US9449322B2 (en) * | 2007-02-28 | 2016-09-20 | Ebay Inc. | Method and system of suggesting information used with items offered for sale in a network-based marketplace |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US9031947B2 (en) * | 2007-03-27 | 2015-05-12 | Invention Machine Corporation | System and method for model element identification |
WO2008120338A1 (ja) * | 2007-03-28 | 2008-10-09 | Fujitsu Limited | 一覧表示方法、一覧表示装置および一覧表示プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8831928B2 (en) * | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US20080281927A1 (en) * | 2007-05-11 | 2008-11-13 | Microsoft Corporation | Summarization tool and method for a dialogue sequence |
US8209617B2 (en) * | 2007-05-11 | 2012-06-26 | Microsoft Corporation | Summarization of attached, linked or related materials |
US8494944B2 (en) * | 2007-06-06 | 2013-07-23 | O2 Media, LLC | System, report, and method for generating natural language news-based stories |
US8051040B2 (en) | 2007-06-08 | 2011-11-01 | Ebay Inc. | Electronic publication system |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US20090006179A1 (en) | 2007-06-26 | 2009-01-01 | Ebay Inc. | Economic optimization for product search relevancy |
US8108398B2 (en) * | 2007-06-29 | 2012-01-31 | Microsoft Corporation | Auto-summary generator and filter |
US20090063470A1 (en) * | 2007-08-28 | 2009-03-05 | Nogacom Ltd. | Document management using business objects |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8601393B2 (en) * | 2008-01-28 | 2013-12-03 | Fuji Xerox Co., Ltd. | System and method for supporting document navigation on mobile devices using segmentation and keyphrase summarization |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8261334B2 (en) | 2008-04-25 | 2012-09-04 | Yodlee Inc. | System for performing web authentication of a user by proxy |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US9323832B2 (en) * | 2008-06-18 | 2016-04-26 | Ebay Inc. | Determining desirability value using sale format of item listing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8984398B2 (en) * | 2008-08-28 | 2015-03-17 | Yahoo! Inc. | Generation of search result abstracts |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8463794B2 (en) * | 2008-10-02 | 2013-06-11 | International Business Machines Corporation | Computer system, method, and computer program for extracting terms from document data including text segment |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
JP5423993B2 (ja) * | 2008-12-26 | 2014-02-19 | 日本電気株式会社 | テキスト処理装置、テキスト処理方法、及びプログラム |
US8301622B2 (en) * | 2008-12-30 | 2012-10-30 | Novell, Inc. | Identity analysis and correlation |
US8296297B2 (en) * | 2008-12-30 | 2012-10-23 | Novell, Inc. | Content analysis and correlation |
US8386475B2 (en) * | 2008-12-30 | 2013-02-26 | Novell, Inc. | Attribution analysis and correlation |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8555359B2 (en) | 2009-02-26 | 2013-10-08 | Yodlee, Inc. | System and methods for automatically accessing a web site on behalf of a client |
US8516013B2 (en) | 2009-03-03 | 2013-08-20 | Ilya Geller | Systems and methods for subtext searching data using synonym-enriched predicative phrases and substituted pronouns |
US8447789B2 (en) * | 2009-09-15 | 2013-05-21 | Ilya Geller | Systems and methods for creating structured data |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
WO2010105218A2 (en) * | 2009-03-13 | 2010-09-16 | Invention Machine Corporation | System and method for knowledge research |
EP2406731A4 (en) * | 2009-03-13 | 2012-08-22 | Invention Machine Corp | SYSTEM AND METHOD FOR THE AUTOMATIC SEMANTIC MARKING OF NATURAL LANGUAGE TEXTS |
US8874529B2 (en) * | 2009-03-16 | 2014-10-28 | Bert A. Silich | User-determinable method and system for manipulating and displaying textual and graphical information |
US20100250479A1 (en) * | 2009-03-31 | 2010-09-30 | Novell, Inc. | Intellectual property discovery and mapping systems and methods |
US9335916B2 (en) * | 2009-04-15 | 2016-05-10 | International Business Machines Corporation | Presenting and zooming a set of objects within a window |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8370288B2 (en) * | 2009-07-20 | 2013-02-05 | Sony Computer Entertainment America Llc | Summarizing a body of media by assembling selected summaries |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US20110046944A1 (en) * | 2009-08-20 | 2011-02-24 | Kathryn Sparks | Plain english document translation method |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
WO2011071174A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
CN102163189B (zh) * | 2010-02-24 | 2014-07-23 | 富士通株式会社 | 从评论性文本中提取评价性信息的方法和装置 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10417646B2 (en) * | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8346780B2 (en) * | 2010-04-16 | 2013-01-01 | Hitachi, Ltd. | Integrated search server and integrated search method |
CN102207947B (zh) * | 2010-06-29 | 2013-05-15 | 天津海量信息技术有限公司 | 一种直接引语素材库的生成方法 |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
CN102207948B (zh) * | 2010-07-13 | 2013-07-24 | 天津海量信息技术有限公司 | 一种事件陈述句素材库的生成方法 |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9317595B2 (en) * | 2010-12-06 | 2016-04-19 | Yahoo! Inc. | Fast title/summary extraction from long descriptions |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US9223859B2 (en) * | 2011-05-11 | 2015-12-29 | Here Global B.V. | Method and apparatus for summarizing communications |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US20140325330A1 (en) * | 2011-11-25 | 2014-10-30 | Assignment Angels Pty Ltd | Pedagogical System and Method |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9286291B2 (en) * | 2013-02-15 | 2016-03-15 | International Business Machines Corporation | Disambiguation of dependent referring expression in natural language processing |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
US9727641B2 (en) | 2013-04-25 | 2017-08-08 | Entit Software Llc | Generating a summary based on readability |
JP6152711B2 (ja) * | 2013-06-04 | 2017-06-28 | 富士通株式会社 | 情報検索装置および情報検索方法 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6099046B2 (ja) | 2013-06-11 | 2017-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置および方法 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9940099B2 (en) * | 2014-01-03 | 2018-04-10 | Oath Inc. | Systems and methods for content processing |
US10585978B2 (en) * | 2014-01-28 | 2020-03-10 | Skimcast Holdings, Llc | Method and system for providing a summary of textual content |
CN106104520B (zh) * | 2014-03-20 | 2019-04-26 | 日本电气株式会社 | 信息处理设备、信息处理方法和存储介质 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
WO2016053314A1 (en) * | 2014-09-30 | 2016-04-07 | Hewlett-Packard Development Company, L.P. | Specialized language identification |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9965474B2 (en) * | 2014-10-02 | 2018-05-08 | Google Llc | Dynamic summary generator |
US10621390B1 (en) * | 2014-12-01 | 2020-04-14 | Massachusetts Institute Of Technology | Method and apparatus for summarization of natural language |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
KR20160105215A (ko) * | 2015-02-27 | 2016-09-06 | 삼성전자주식회사 | 텍스트 처리 장치 및 방법 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10783179B2 (en) | 2015-08-03 | 2020-09-22 | International Business Machines Corporation | Automated article summarization, visualization and analysis using cognitive services |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
RU2642413C2 (ru) * | 2016-02-09 | 2018-01-24 | Общество С Ограниченной Ответственностью "Яндекс" | Способ (варианты) и сервер обработки текста |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
JP6842167B2 (ja) * | 2017-05-08 | 2021-03-17 | 国立研究開発法人情報通信研究機構 | 要約生成装置、要約生成方法及びコンピュータプログラム |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
WO2019027259A1 (en) * | 2017-08-01 | 2019-02-07 | Samsung Electronics Co., Ltd. | APPARATUS AND METHOD FOR PROVIDING SUMMARY INFORMATION USING ARTIFICIAL INTELLIGENCE MODEL |
JP6865183B2 (ja) * | 2018-02-26 | 2021-04-28 | 日本電信電話株式会社 | 要約評価装置、方法、プログラム、及び記憶媒体 |
US10599773B2 (en) * | 2018-02-26 | 2020-03-24 | International Business Machines Corporation | Reading-device-based social event preparation enhancement |
US10990602B2 (en) | 2018-06-18 | 2021-04-27 | Wipro Limited | Method and system for generating optimized response to user input |
JP7363908B2 (ja) * | 2019-10-02 | 2023-10-18 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム |
US11328732B2 (en) | 2020-09-16 | 2022-05-10 | International Business Machines Corporation | Generating summary text compositions |
US11574121B2 (en) * | 2021-01-25 | 2023-02-07 | Kyndryl, Inc. | Effective text parsing using machine learning |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02257266A (ja) * | 1989-02-06 | 1990-10-18 | Teremateiiku Kokusai Kenkyusho:Kk | 抄録文作成装置 |
JPH04281559A (ja) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | 文書検索装置 |
JPH04281566A (ja) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | 文書検索装置 |
JPH04281558A (ja) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | 文書検索方法および装置 |
JPH06332893A (ja) * | 1993-05-21 | 1994-12-02 | Hitachi Ltd | 文章加工装置 |
JPH07182373A (ja) * | 1993-03-17 | 1995-07-21 | Toshiba Corp | 文書情報検索装置及び文書検索結果表示方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5483650A (en) | 1991-11-12 | 1996-01-09 | Xerox Corporation | Method of constant interaction-time clustering applied to document browsing |
JP3383049B2 (ja) * | 1993-09-13 | 2003-03-04 | 株式会社東芝 | 文書検索装置 |
AU707050B2 (en) | 1995-01-23 | 1999-07-01 | British Telecommunications Public Limited Company | Methods and/or systems for accessing information |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
US5838323A (en) * | 1995-09-29 | 1998-11-17 | Apple Computer, Inc. | Document summary computer system user interface |
US5924108A (en) * | 1996-03-29 | 1999-07-13 | Microsoft Corporation | Document summarizer for word processors |
US5983216A (en) * | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US6018733A (en) * | 1997-09-12 | 2000-01-25 | Infoseek Corporation | Methods for iteratively and interactively performing collection selection in full text searches |
-
1997
- 1997-01-17 JP JP00677797A patent/JP3579204B2/ja not_active Expired - Fee Related
-
1998
- 1998-01-13 US US09/006,201 patent/US6205456B1/en not_active Expired - Lifetime
- 1998-01-16 EP EP03008037A patent/EP1338983A3/en not_active Withdrawn
- 1998-01-16 EP EP98300322A patent/EP0855660B1/en not_active Expired - Lifetime
- 1998-01-16 DE DE69822687T patent/DE69822687T2/de not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02257266A (ja) * | 1989-02-06 | 1990-10-18 | Teremateiiku Kokusai Kenkyusho:Kk | 抄録文作成装置 |
JPH04281559A (ja) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | 文書検索装置 |
JPH04281566A (ja) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | 文書検索装置 |
JPH04281558A (ja) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | 文書検索方法および装置 |
JPH07182373A (ja) * | 1993-03-17 | 1995-07-21 | Toshiba Corp | 文書情報検索装置及び文書検索結果表示方法 |
JPH06332893A (ja) * | 1993-05-21 | 1994-12-02 | Hitachi Ltd | 文章加工装置 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7181688B1 (en) | 1999-09-10 | 2007-02-20 | Fuji Xerox Co., Ltd. | Device and method for retrieving documents |
JP2001175673A (ja) * | 1999-12-20 | 2001-06-29 | Sharp Corp | 電子書籍表示装置及び電子書籍表示プログラムを記憶した記憶媒体 |
JP2001275058A (ja) * | 2000-01-21 | 2001-10-05 | Jisedai Joho Hoso System Kenkyusho:Kk | 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7137067B2 (en) | 2000-03-17 | 2006-11-14 | Fujitsu Limited | Device and method for presenting news information |
US7020668B2 (en) | 2000-10-16 | 2006-03-28 | Fujitsu Limited | Device for retaining important data on a preferential basis |
JP2003058529A (ja) * | 2001-08-10 | 2003-02-28 | Seiko Epson Corp | 文書編集装置、文書速読支援装置、文書編集方法、文書速読支援方法、文書編集プログラム、文書速読支援プログラムおよび記録媒体 |
CN100419733C (zh) * | 2002-02-22 | 2008-09-17 | 独立行政法人情报通信研究机构 | 解决方案数据编辑处理及自动概括处理装置和方法 |
US7120613B2 (en) | 2002-02-22 | 2006-10-10 | National Institute Of Information And Communications Technology | Solution data edit processing apparatus and method, and automatic summarization processing apparatus and method |
JP2003248676A (ja) * | 2002-02-22 | 2003-09-05 | Communication Research Laboratory | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 |
JP2004118545A (ja) * | 2002-09-26 | 2004-04-15 | Nec Corp | テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム |
WO2005096182A1 (ja) * | 2004-03-31 | 2005-10-13 | Matsushita Electric Industrial Co., Ltd. | 情報抽出システム |
JP2006155612A (ja) * | 2004-11-30 | 2006-06-15 | Palo Alto Research Center Inc | ユーザ関心依存型の自動要約作成及び自動ノート作成システム及び方法 |
JP2006178978A (ja) * | 2004-12-21 | 2006-07-06 | Palo Alto Research Center Inc | ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 |
JP2009217802A (ja) * | 2008-03-06 | 2009-09-24 | Sharp Corp | 文書処理装置、文書処理プログラムおよび記録媒体 |
JP2010020678A (ja) * | 2008-07-14 | 2010-01-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書要約装置、文書要約方法、プログラムおよび記録媒体 |
JP2009146446A (ja) * | 2009-03-23 | 2009-07-02 | Nec Corp | テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム |
JP2009146447A (ja) * | 2009-03-23 | 2009-07-02 | Nec Corp | テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム |
WO2012111226A1 (ja) * | 2011-02-15 | 2012-08-23 | 日本電気株式会社 | 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体 |
JP2013015920A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 情報処理装置、情報処理方法、および情報処理プログラム |
WO2014021074A1 (ja) * | 2012-07-31 | 2014-02-06 | 日本電気株式会社 | 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム |
JPWO2014021074A1 (ja) * | 2012-07-31 | 2016-07-21 | 日本電気株式会社 | 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム |
JP2017010107A (ja) * | 2015-06-17 | 2017-01-12 | 大日本印刷株式会社 | 情報処理装置、情報処理システム及びプログラム |
JP2017054509A (ja) * | 2015-09-09 | 2017-03-16 | ウバープル カンパニー リミテッド | 文抽出方法及びシステム |
JP2018081702A (ja) * | 2015-09-09 | 2018-05-24 | ウバープル カンパニー リミテッド | 文抽出方法及びシステム |
JP2020177373A (ja) * | 2019-04-16 | 2020-10-29 | 学校法人早稲田大学 | 情報伝達システムおよびプログラム |
JP2021114184A (ja) * | 2020-01-20 | 2021-08-05 | シャープ株式会社 | 要約生成装置、要約生成方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3579204B2 (ja) | 2004-10-20 |
DE69822687T2 (de) | 2004-09-23 |
US6205456B1 (en) | 2001-03-20 |
EP0855660B1 (en) | 2004-03-31 |
EP1338983A2 (en) | 2003-08-27 |
EP0855660A3 (en) | 1998-08-19 |
DE69822687D1 (de) | 2004-05-06 |
EP0855660A2 (en) | 1998-07-29 |
EP1338983A3 (en) | 2003-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3579204B2 (ja) | 文書要約装置およびその方法 | |
Najmi et al. | CAPRA: a comprehensive approach to product ranking using customer reviews | |
JP4571404B2 (ja) | データ処理方法、データ処理システムおよびプログラム | |
US9886950B2 (en) | Automatic generation of domain models for virtual personal assistants | |
Baroni et al. | Introducing the La Repubblica Corpus: A Large, Annotated, TEI (XML)-compliant Corpus of Newspaper Italian. | |
US8280903B2 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) | |
US7987189B2 (en) | Content data indexing and result ranking | |
US20040243645A1 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations | |
US20040243560A1 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, including an annotation inverted file system facilitating indexing and searching | |
US20110225155A1 (en) | System and method for guiding entity-based searching | |
US20040243556A1 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS) | |
KR20100038378A (ko) | 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램 | |
CN101526938B (zh) | 文档处理装置 | |
JP2003281183A (ja) | 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム | |
Berdyugina et al. | Setting up context-sensitive real-time contradiction matrix of a given field using unstructured texts of patent contents and natural language processing | |
WO2002010985A2 (en) | Method of and system for automatic document retrieval, categorization and processing | |
JPH11272680A (ja) | 文書データ提供装置およびそのプログラム記録媒体 | |
JP2020071678A (ja) | 情報処理装置、制御方法、プログラム | |
JPH11120206A (ja) | タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置 | |
JP2003323425A (ja) | 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム | |
JPH11195041A (ja) | 文書検索装置、方法及び記録媒体 | |
Chanda et al. | The Effect of Stopword Removal on Information Retrieval for Code-Mixed Data Obtained Via Social Media | |
Xue et al. | A Chinese knowledge base question answering system | |
Ezeani et al. | Introducing the Welsh text summarisation dataset and baseline systems | |
JPH01185724A (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040329 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040715 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080723 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090723 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100723 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100723 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110723 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110723 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120723 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120723 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130723 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |