JPH06259424A - 文書表示装置及び文書要約装置並びにディジタル複写装置 - Google Patents
文書表示装置及び文書要約装置並びにディジタル複写装置Info
- Publication number
- JPH06259424A JPH06259424A JP5066048A JP6604893A JPH06259424A JP H06259424 A JPH06259424 A JP H06259424A JP 5066048 A JP5066048 A JP 5066048A JP 6604893 A JP6604893 A JP 6604893A JP H06259424 A JPH06259424 A JP H06259424A
- Authority
- JP
- Japan
- Prior art keywords
- document
- display device
- sentence
- analyzing
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 見出しの付いた文章に対して、重要部分をよ
り的確に判定して表示する。 【構成】 本発明による文書表示装置は、見出し部分と
本文とから成る文書に対する表示機能を有するもので、
解析手段1は見出し部分を解析し、認識手段2は、前記
解析手段1により解析された見出し部分中の単語を本文
中から認識する。表示手段3は、前記認識手段2により
認識された部分を識別して文書を表示する。このように
して、認識はされた単語を他と識別して表示することに
より、文書に迅速に目を通すための助けとする。
り的確に判定して表示する。 【構成】 本発明による文書表示装置は、見出し部分と
本文とから成る文書に対する表示機能を有するもので、
解析手段1は見出し部分を解析し、認識手段2は、前記
解析手段1により解析された見出し部分中の単語を本文
中から認識する。表示手段3は、前記認識手段2により
認識された部分を識別して文書を表示する。このように
して、認識はされた単語を他と識別して表示することに
より、文書に迅速に目を通すための助けとする。
Description
【0001】
【技術分野】本発明は、文書表示装置及び文書要約装置
並びにディジタル複写装置に関し、より詳細には、文書
のうち、新聞や雑誌の記事のように、本文に対して見出
しのある文書を表示する文書表示装置及び表示された本
文中から文を抽出して要約する文書要約装置並びに見出
し部分のある文書について迅速に目を通す際のポイント
を識別表示できるようにディジタル複写装置に関する。
例えば、文書を表示あるいは印刷する機能を有する文書
編集装置、文書閲覧装置、文書検索装置などの文書処理
装置一般に適用でき、大量の文書の効率的な閲覧(速
読)に効果がある。また、文字認識装置(OCR装置)
を備えたディジタル複写装置にも応用できる。
並びにディジタル複写装置に関し、より詳細には、文書
のうち、新聞や雑誌の記事のように、本文に対して見出
しのある文書を表示する文書表示装置及び表示された本
文中から文を抽出して要約する文書要約装置並びに見出
し部分のある文書について迅速に目を通す際のポイント
を識別表示できるようにディジタル複写装置に関する。
例えば、文書を表示あるいは印刷する機能を有する文書
編集装置、文書閲覧装置、文書検索装置などの文書処理
装置一般に適用でき、大量の文書の効率的な閲覧(速
読)に効果がある。また、文字認識装置(OCR装置)
を備えたディジタル複写装置にも応用できる。
【0002】
【従来技術】大量のテキストの内容を素早く適確に理解
ならしめるために、技術文献等では抄録(アブストラク
ト)が利用されている。しかし、このような抄録は、す
べてのドキュメントに対して予め設定されているわけで
はない。そこで、従来より、テキスト中のキーワードを
抽出してテキストの記述内容をキーワードにより表現す
る方法や、さらに進んで抄録を自動的に生成する方式が
提案されている。
ならしめるために、技術文献等では抄録(アブストラク
ト)が利用されている。しかし、このような抄録は、す
べてのドキュメントに対して予め設定されているわけで
はない。そこで、従来より、テキスト中のキーワードを
抽出してテキストの記述内容をキーワードにより表現す
る方法や、さらに進んで抄録を自動的に生成する方式が
提案されている。
【0003】例えば、特開平61−117658号公報
の「文章抄録装置」は、大量にある文書に迅速に目を通
す際に、文章の要約が有用であり、このために、要約を
自動生成するものであるが、自然言語文の理解技術が充
分でない現在の技術では、要約が、充分適切であるとは
いえず、重要な部分が欠落する可能性が高い。また、特
開平2−112068号公報の「テキスト簡略表示方
式」は、文書中で、重要と判定した部分を識別表示する
方法で判定もれした重要部分は、識別表示はされない
が、原文は残るために危険が少ない。しかし、この方法
は、構文構造上の必須要素だけを識別するために、構文
構造上、重要な位置に置かれなかったキーワード等は、
重要部分として判定されにくいという欠点があった。
の「文章抄録装置」は、大量にある文書に迅速に目を通
す際に、文章の要約が有用であり、このために、要約を
自動生成するものであるが、自然言語文の理解技術が充
分でない現在の技術では、要約が、充分適切であるとは
いえず、重要な部分が欠落する可能性が高い。また、特
開平2−112068号公報の「テキスト簡略表示方
式」は、文書中で、重要と判定した部分を識別表示する
方法で判定もれした重要部分は、識別表示はされない
が、原文は残るために危険が少ない。しかし、この方法
は、構文構造上の必須要素だけを識別するために、構文
構造上、重要な位置に置かれなかったキーワード等は、
重要部分として判定されにくいという欠点があった。
【0004】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、大量の文書に迅速に目を通すために、重要部分
を識別表示する際に、見出しの付いた文章に対して、重
要部分をより的確に判定すること、また、重要部分を的
確にもった要約を作成するようにした文書表示装置及び
文書要約装置並びにディジタル複写装置を提供すること
を目的としてなされたものである。
もので、大量の文書に迅速に目を通すために、重要部分
を識別表示する際に、見出しの付いた文章に対して、重
要部分をより的確に判定すること、また、重要部分を的
確にもった要約を作成するようにした文書表示装置及び
文書要約装置並びにディジタル複写装置を提供すること
を目的としてなされたものである。
【0005】
【構成】本発明は、上記目的を達成するために、(1)
見出し部分と本文とからなる文書に対する表示機能を有
する文書表示装置において、見出し部分を解析する解析
手段と、該解析手段により解析された見出し部分中の単
語を本文中から認識する認識手段と、該認識手段により
認識された部分を識別した文書を表示する表示手段とを
有すること、或いは、(2)見出し部分と本文とからな
る文書に対する表示機能を有する文書表示装置におい
て、見出し部分を解析する解析手段と、該解析手段によ
る見出し部分の解析結果と本文中の各文との関連度を分
析する分析手段と、該分析手段により分析された関連度
に基づき、本文中の文を抽出する抽出手段と、該抽出手
段により抽出された文を識別して文書を表示する表示手
段とを有すること、或いは、(3)見出し部分と本文と
からなる文書に対する表示機能を有する文書表示装置に
おいて、見出し部分を解析する解析手段と、該解析手段
により解析された見出し部分中の単語を本文中から認識
する認識手段と、該認識手段による見出し部分の解析結
果と本文中の各文との関連度を分析する分析手段と、該
分析手段により分析された関連度に基づき、本文中の文
を抽出する抽出手段と、前記認識手段により認識された
部分及び前記抽出手段により抽出された文を認識して文
書を表示する表示手段とを有すること、更には、(4)
前記(2)又は(3)において、前記分析手段におい
て、見出し部分に含まれる単語が本文中の各文に含まれ
るか否かをもって関連度とすること、更には、(5)前
記(2)又は(3)において、前記分析手段において、
見出し部分に含まれる単語が本文中の各文に含まれる割
合をもって関連度とすること、更には、(6)前記
(1),(4)又は(5)において、見出し部分に含ま
れる単語のうち、特定の品詞の単語に限定すること、更
には、(7)前記(1),(4),(5)又は(6)にお
いて、単語の同義単語を格納する同義語辞書を有し、見
出し部分に含まれる単語、あるいは特定の品詞に限定さ
れた単語に加え、さらにその単語をキーに同義語辞書で
得られた単語も対象とすること、更には、(8)前記
(2)〜(7)のいずれかに記載の文書表示装置におい
て、前記抽出手段により抽出された文だけを表示する表
示手段を有することを特徴とする文書要約装置であるこ
と、更には、(9)前記(1)〜(7)のいずれかにお
いて、画像をディジタル画像データとして読み取る画像
読取手段と、該画像読取手段によるディジタル画像デー
タを出力する画像出力手段とを有するディジタル複写装
置において、文書画像に対して、前記画像出力手段によ
るディジタル画像データ中の文字を認識する文字認識手
段と、該文字認識手段により得られた文字データからな
る文書データに対して、前記(1)〜(7)のいずれか
に記載の文書表示装置に基づき、識別表示部を抽出する
識別表示部抽出手段とを有し、ディジタル画像データを
出力する際に、前記抽出手段で抽出した部分を識別して
前記出力手段により出力することを特徴とするディジタ
ル複写装置であることを特徴としたものである。以下、
本発明の実施例に基づいて説明する。
見出し部分と本文とからなる文書に対する表示機能を有
する文書表示装置において、見出し部分を解析する解析
手段と、該解析手段により解析された見出し部分中の単
語を本文中から認識する認識手段と、該認識手段により
認識された部分を識別した文書を表示する表示手段とを
有すること、或いは、(2)見出し部分と本文とからな
る文書に対する表示機能を有する文書表示装置におい
て、見出し部分を解析する解析手段と、該解析手段によ
る見出し部分の解析結果と本文中の各文との関連度を分
析する分析手段と、該分析手段により分析された関連度
に基づき、本文中の文を抽出する抽出手段と、該抽出手
段により抽出された文を識別して文書を表示する表示手
段とを有すること、或いは、(3)見出し部分と本文と
からなる文書に対する表示機能を有する文書表示装置に
おいて、見出し部分を解析する解析手段と、該解析手段
により解析された見出し部分中の単語を本文中から認識
する認識手段と、該認識手段による見出し部分の解析結
果と本文中の各文との関連度を分析する分析手段と、該
分析手段により分析された関連度に基づき、本文中の文
を抽出する抽出手段と、前記認識手段により認識された
部分及び前記抽出手段により抽出された文を認識して文
書を表示する表示手段とを有すること、更には、(4)
前記(2)又は(3)において、前記分析手段におい
て、見出し部分に含まれる単語が本文中の各文に含まれ
るか否かをもって関連度とすること、更には、(5)前
記(2)又は(3)において、前記分析手段において、
見出し部分に含まれる単語が本文中の各文に含まれる割
合をもって関連度とすること、更には、(6)前記
(1),(4)又は(5)において、見出し部分に含ま
れる単語のうち、特定の品詞の単語に限定すること、更
には、(7)前記(1),(4),(5)又は(6)にお
いて、単語の同義単語を格納する同義語辞書を有し、見
出し部分に含まれる単語、あるいは特定の品詞に限定さ
れた単語に加え、さらにその単語をキーに同義語辞書で
得られた単語も対象とすること、更には、(8)前記
(2)〜(7)のいずれかに記載の文書表示装置におい
て、前記抽出手段により抽出された文だけを表示する表
示手段を有することを特徴とする文書要約装置であるこ
と、更には、(9)前記(1)〜(7)のいずれかにお
いて、画像をディジタル画像データとして読み取る画像
読取手段と、該画像読取手段によるディジタル画像デー
タを出力する画像出力手段とを有するディジタル複写装
置において、文書画像に対して、前記画像出力手段によ
るディジタル画像データ中の文字を認識する文字認識手
段と、該文字認識手段により得られた文字データからな
る文書データに対して、前記(1)〜(7)のいずれか
に記載の文書表示装置に基づき、識別表示部を抽出する
識別表示部抽出手段とを有し、ディジタル画像データを
出力する際に、前記抽出手段で抽出した部分を識別して
前記出力手段により出力することを特徴とするディジタ
ル複写装置であることを特徴としたものである。以下、
本発明の実施例に基づいて説明する。
【0006】図1は、本発明による文書表示装置の一実
施例を説明するための構成図で、図中、1は解析手段、
2は認識手段、3は第1の表示手段である。本発明によ
る文書表示装置は、見出し部分と本文とから成る文書に
対する表示機能を有するもので、解析手段1は見出し部
分を解析し、認識手段2は、前記解析手段1により解析
された見出し部分中の単語を本文中から認識する。表示
手段3は、前記認識手段2により認識された部分を識別
して文書を表示する。
施例を説明するための構成図で、図中、1は解析手段、
2は認識手段、3は第1の表示手段である。本発明によ
る文書表示装置は、見出し部分と本文とから成る文書に
対する表示機能を有するもので、解析手段1は見出し部
分を解析し、認識手段2は、前記解析手段1により解析
された見出し部分中の単語を本文中から認識する。表示
手段3は、前記認識手段2により認識された部分を識別
して文書を表示する。
【0007】すなわち、見出し部分に含まれる単語を本
文中から認識し、文書の表示において、認識された単語
を他と識別して表示することにより、文書に迅速に目を
通すための助けとする。解析手段1は、形態素解析技術
による単語分割を行い、認識手段2は、文字列照合の技
術、表示手段3は、ディスプレイ表示や印刷出力におけ
る、反転、下線付与、網掛け、縮小/拡大等の表示/出
力の技術、といった既知の技術によって容易に実現でき
る。
文中から認識し、文書の表示において、認識された単語
を他と識別して表示することにより、文書に迅速に目を
通すための助けとする。解析手段1は、形態素解析技術
による単語分割を行い、認識手段2は、文字列照合の技
術、表示手段3は、ディスプレイ表示や印刷出力におけ
る、反転、下線付与、網掛け、縮小/拡大等の表示/出
力の技術、といった既知の技術によって容易に実現でき
る。
【0008】以下、実施例を図2に示す見出し付きの新
聞記事(日本語文)によって説明する。見出し部分は、
3部分から構成されており、図2では、第1行目に
“/”で区切って示した。まず、前記解析手段1によ
り、原文中の見出し部分を解析する。図3にその解析結
果として、形態素解析技術による単語分割結果を示す。
次に、得られた単語の各々について、本文中から認識す
る。ただし、見出し部分のすべての単語について行う必
要はなく、「の」や「が」のような助詞や、その他付属
語にあたるような単語は、対象としないことにする。た
とえば、第1文については、次のように6単語を認識す
ることができる(下線を施した部分が認識箇所;「通
常」、「兵器」、「工業」、「製品」、「輸出」、「規
制」;いずれも2単語づつ連接しているために、下線は
3箇所となっている)。"通常兵器の部品や加工機械に
転用できる工業製品の輸出規制が二十日、日本でも始ま
った。"各文について、同様に認識した後、表示手段3
により、認識した部分を識別して表示する。表示例を図
4に示す。なお、ここでは、「四カ国」については、解
析結果では、「四」(数詞)と「カ国」(助数詞)と分
割されているが、「四カ国」を1単語として扱った。
聞記事(日本語文)によって説明する。見出し部分は、
3部分から構成されており、図2では、第1行目に
“/”で区切って示した。まず、前記解析手段1によ
り、原文中の見出し部分を解析する。図3にその解析結
果として、形態素解析技術による単語分割結果を示す。
次に、得られた単語の各々について、本文中から認識す
る。ただし、見出し部分のすべての単語について行う必
要はなく、「の」や「が」のような助詞や、その他付属
語にあたるような単語は、対象としないことにする。た
とえば、第1文については、次のように6単語を認識す
ることができる(下線を施した部分が認識箇所;「通
常」、「兵器」、「工業」、「製品」、「輸出」、「規
制」;いずれも2単語づつ連接しているために、下線は
3箇所となっている)。"通常兵器の部品や加工機械に
転用できる工業製品の輸出規制が二十日、日本でも始ま
った。"各文について、同様に認識した後、表示手段3
により、認識した部分を識別して表示する。表示例を図
4に示す。なお、ここでは、「四カ国」については、解
析結果では、「四」(数詞)と「カ国」(助数詞)と分
割されているが、「四カ国」を1単語として扱った。
【0009】図5は、本発明による文書表示装置の他の
実施例(請求項2)を示す図で、図中、4は分析手段、
5は抽出手段、6は第2の表示手段で、その他、図1と
同じ作用をする部分は同一の符号を付してある。分析手
段4は、解析手段1による見出し部分の解析結果と本文
中の各文との関連度を分析する。抽出手段5は、前記分
析手段4により分析された関連度に基づき、本文中の文
を抽出し、抽出された文を識別して文書を第2の表示手
段により表示する。
実施例(請求項2)を示す図で、図中、4は分析手段、
5は抽出手段、6は第2の表示手段で、その他、図1と
同じ作用をする部分は同一の符号を付してある。分析手
段4は、解析手段1による見出し部分の解析結果と本文
中の各文との関連度を分析する。抽出手段5は、前記分
析手段4により分析された関連度に基づき、本文中の文
を抽出し、抽出された文を識別して文書を第2の表示手
段により表示する。
【0010】すなわち、請求項1のような単語単位の識
別表示でなく、文ごとに識別して表示する。文単位の抽
出を行うために、請求項1の認識手段の代わりに、分析
手段4と抽出手段5を備える。分析手段4は、本文中の
各文が、見出し部分とどの程度関わっているかを分析
し、関連度を得る。抽出手段5で、その関連度を基に、
文を抽出する。その後に、請求項1の第1の表示手段に
代わり、抽出手段5により抽出された文を識別して文書
を表示する第2の表示手段により表示する。
別表示でなく、文ごとに識別して表示する。文単位の抽
出を行うために、請求項1の認識手段の代わりに、分析
手段4と抽出手段5を備える。分析手段4は、本文中の
各文が、見出し部分とどの程度関わっているかを分析
し、関連度を得る。抽出手段5で、その関連度を基に、
文を抽出する。その後に、請求項1の第1の表示手段に
代わり、抽出手段5により抽出された文を識別して文書
を表示する第2の表示手段により表示する。
【0011】見出し部分の解析結果と本文中の各文との
関連度としては、様々可能であるが、たとえば、 a.見出し部分の単語を認識したか否かで関連度を1か
0としたり(請求項4)、また、 b.単語が文にどの程度の割合で含まれるかを関連度と
する(請求項5)こともできる。この例としては、 b1.文中の見出し語部分の認識単語数そのもの b2.文中の総文字数に対する認識単語数の総文字数の
割合 さらに、本文の各文を形態素解析し、各文の単語数を得
た上で、 b3.文中の総単語数に対する認識単語数の割合 を関連度とすることもできる。
関連度としては、様々可能であるが、たとえば、 a.見出し部分の単語を認識したか否かで関連度を1か
0としたり(請求項4)、また、 b.単語が文にどの程度の割合で含まれるかを関連度と
する(請求項5)こともできる。この例としては、 b1.文中の見出し語部分の認識単語数そのもの b2.文中の総文字数に対する認識単語数の総文字数の
割合 さらに、本文の各文を形態素解析し、各文の単語数を得
た上で、 b3.文中の総単語数に対する認識単語数の割合 を関連度とすることもできる。
【0012】図6に、図4の表示を各文ごとに番号を付
与したものを示す。この各文について、その文番号ごと
に、認識単語数、同総文字数(A)、文の総文字数
(B)、AのBに対する割合(パーセント換算)などを
図7に示した。aの方法では、文1,2,3,4,7,
8,9が関連度1、文5,6が関連度0となる。b1,
b2の方法による関連度としては、図7の右欄の第1及
び第4欄に例を示す。このような関連度に基づき文を抽
出するとすると、 ・aの方法では、関連度1の7文 ・b1では、たとえば、関連度(単語数)3以上とすれ
ば、文1,2,3,4 ・b2では、たとえば、関連度(文字数の割合)15%
以上とすれば、文1,4 といった文が得られる。
与したものを示す。この各文について、その文番号ごと
に、認識単語数、同総文字数(A)、文の総文字数
(B)、AのBに対する割合(パーセント換算)などを
図7に示した。aの方法では、文1,2,3,4,7,
8,9が関連度1、文5,6が関連度0となる。b1,
b2の方法による関連度としては、図7の右欄の第1及
び第4欄に例を示す。このような関連度に基づき文を抽
出するとすると、 ・aの方法では、関連度1の7文 ・b1では、たとえば、関連度(単語数)3以上とすれ
ば、文1,2,3,4 ・b2では、たとえば、関連度(文字数の割合)15%
以上とすれば、文1,4 といった文が得られる。
【0013】図8は、本発明による文書表示装置の更に
他の実施例(請求項3)を示す図で、図中、7は第3の
表示手段で、その他、図1及び図2と同じ作用をする部
分は同一の符号を付してある。すなわち、請求項1の第
1の表示手段3による単語単位の識別表示と、請求項2
の第2の表示手段6による文ごとに識別表示をともに行
うものである。図9に、関連度をb2の方法とし、15
%以上を基準として、文を抽出する例を示す。“−”下
線が単語、“=”下線が文を示す。なお、“−”下線を
とれば、請求項2の例となる。
他の実施例(請求項3)を示す図で、図中、7は第3の
表示手段で、その他、図1及び図2と同じ作用をする部
分は同一の符号を付してある。すなわち、請求項1の第
1の表示手段3による単語単位の識別表示と、請求項2
の第2の表示手段6による文ごとに識別表示をともに行
うものである。図9に、関連度をb2の方法とし、15
%以上を基準として、文を抽出する例を示す。“−”下
線が単語、“=”下線が文を示す。なお、“−”下線を
とれば、請求項2の例となる。
【0014】次に、請求項6について説明する。請求項
6は、見出し部分に含まれる単語を扱う際に、特定の品
詞の単語だけに限定するものである。これについては、
既に、請求項1では、助詞や助動詞等の付属語の品詞の
単語を除く、という限定の例を示した。このためには、
見出し部分の解析において、形態素解析レベルの品詞情
報と、扱うべき単語の品詞テーブルの照合によって、扱
うべき単語を判定すればよい。
6は、見出し部分に含まれる単語を扱う際に、特定の品
詞の単語だけに限定するものである。これについては、
既に、請求項1では、助詞や助動詞等の付属語の品詞の
単語を除く、という限定の例を示した。このためには、
見出し部分の解析において、形態素解析レベルの品詞情
報と、扱うべき単語の品詞テーブルの照合によって、扱
うべき単語を判定すればよい。
【0015】次に、請求項7について説明する。請求項
7は、見出し部分にない単語でも、その同義単語も本文
中での検索対象とするものである。このために、同義語
辞書を備える。たとえば、同義語辞書に、図2の見出し
部分にある「始動」(サ変名詞)に対して、同義語とし
て「始める」が規定されていれば、第1文及び第4文の
同単語も認識対象となりうる。なお、このように、活用
する単語の検索まで考慮すると、本文中の各文での検索
においては、単純な文字列照合ではなく、活用語でも検
索できるように、各文についても形態素解析レベルの解
析結果を用いた方が望ましい。
7は、見出し部分にない単語でも、その同義単語も本文
中での検索対象とするものである。このために、同義語
辞書を備える。たとえば、同義語辞書に、図2の見出し
部分にある「始動」(サ変名詞)に対して、同義語とし
て「始める」が規定されていれば、第1文及び第4文の
同単語も認識対象となりうる。なお、このように、活用
する単語の検索まで考慮すると、本文中の各文での検索
においては、単純な文字列照合ではなく、活用語でも検
索できるように、各文についても形態素解析レベルの解
析結果を用いた方が望ましい。
【0016】次に、請求項8について説明する。請求項
8では、請求項2以降の発明で抽出された本文中の文だ
けを要約として表示する。これにより、得られた文は、
見出し部分と関連の高い文であることから、文章全体の
要約として、充分耐え得るものとなっていると考えられ
る。図10に、請求項3の実施例で示した関連度とその
抽出基準として場合の要約例を示す。
8では、請求項2以降の発明で抽出された本文中の文だ
けを要約として表示する。これにより、得られた文は、
見出し部分と関連の高い文であることから、文章全体の
要約として、充分耐え得るものとなっていると考えられ
る。図10に、請求項3の実施例で示した関連度とその
抽出基準として場合の要約例を示す。
【0017】図11は、本発明によるディジタル複写装
置の構成図で、図中、11は画像読取手段、12は画像
出力手段、13はディジタル複写装置、14は文字認識
手段、15は認識表示部抽出手段である。画像読取手段
11は、画像をディジタル画像データとして読み取る。
画像出力手段12は、前記画像読取手段11によるディ
ジタル画像データを出力する。文字認識手段14は、文
書画像に対して前記画像出力手段によるディジタル画像
データ中の文字を認識する。識別表示部抽出手段15
は、前記文書表示装置に基づき、識別表示部を抽出す
る。
置の構成図で、図中、11は画像読取手段、12は画像
出力手段、13はディジタル複写装置、14は文字認識
手段、15は認識表示部抽出手段である。画像読取手段
11は、画像をディジタル画像データとして読み取る。
画像出力手段12は、前記画像読取手段11によるディ
ジタル画像データを出力する。文字認識手段14は、文
書画像に対して前記画像出力手段によるディジタル画像
データ中の文字を認識する。識別表示部抽出手段15
は、前記文書表示装置に基づき、識別表示部を抽出す
る。
【0018】すなわち、請求項9は、文字認識手段14
の付いたディジタル複写機で、請求項1〜7の文書表示
装置に基づき、識別する部分を抽出し、複写の際に前記
部分を識別して出力できるようにするものである。な
お、以上、日本語文をもって説明したが、他の言語の文
であっても同様である。また、請求項1〜7は、ディス
プレイ上への表示だけでなく、印刷出力としての表示も
含むものとする。
の付いたディジタル複写機で、請求項1〜7の文書表示
装置に基づき、識別する部分を抽出し、複写の際に前記
部分を識別して出力できるようにするものである。な
お、以上、日本語文をもって説明したが、他の言語の文
であっても同様である。また、請求項1〜7は、ディス
プレイ上への表示だけでなく、印刷出力としての表示も
含むものとする。
【0019】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1〜7に対応する効果:新聞や雑誌の記事
のように本文に対し見出し部分である文書について、見
出し部分を利用して、本文中の単語や文を識別表示する
もので、大量の文書に迅速に目を通す際の的確なポイン
トとして有用である。 (2)請求項8に対応する効果:新聞や雑誌の記事のよ
うに本文に対し見出し部分のある文書について、見出し
部分を利用して、本文中から文を抽出するもので、簡潔
な見出し部分に対して、文として詳細な情報も含む内容
になっており、要約として有用である。 (3)請求項9に対応する効果:新聞や雑誌の記事のよ
うに本文に対し見出し部分のある文書について、請求項
1〜7の発明を利用して、複写出力上に文書を迅速に目
を通す際のポイントを識別表示できるようにしたディジ
タル複写装置を提供する。
と、以下のような効果がある。 (1)請求項1〜7に対応する効果:新聞や雑誌の記事
のように本文に対し見出し部分である文書について、見
出し部分を利用して、本文中の単語や文を識別表示する
もので、大量の文書に迅速に目を通す際の的確なポイン
トとして有用である。 (2)請求項8に対応する効果:新聞や雑誌の記事のよ
うに本文に対し見出し部分のある文書について、見出し
部分を利用して、本文中から文を抽出するもので、簡潔
な見出し部分に対して、文として詳細な情報も含む内容
になっており、要約として有用である。 (3)請求項9に対応する効果:新聞や雑誌の記事のよ
うに本文に対し見出し部分のある文書について、請求項
1〜7の発明を利用して、複写出力上に文書を迅速に目
を通す際のポイントを識別表示できるようにしたディジ
タル複写装置を提供する。
【図1】 本発明による文書表示装置の一実施例を説明
するための構成図である。
するための構成図である。
【図2】 本発明による文書表示装置に用いる原文を示
す図である。
す図である。
【図3】 本発明による文書表示装置の見出し部分の解
析結果を示す図である。
析結果を示す図である。
【図4】 本発明による文書表示装置の請求項1での表
示例を示す図である。
示例を示す図である。
【図5】 本発明による文書表示装置の他の実施例を示
す図である。
す図である。
【図6】 本発明による文書表示装置の文ごとの見出し
部分の単語の認識結果を示す図である。
部分の単語の認識結果を示す図である。
【図7】 本発明による文書表示装置の文ごとの見出し
部分の単語の認識数とその割合を示す図である。
部分の単語の認識数とその割合を示す図である。
【図8】 本発明による文書表示装置の更に他の実施例
を示す図である。
を示す図である。
【図9】 本発明による文書表示装置の請求項3での表
示例を示す図である。
示例を示す図である。
【図10】 本発明による文書要約装置の要約例を示す
図である。
図である。
【図11】 本発明によるディジタル複写装置を示す図
である。
である。
1…解析手段、2…認識手段、3…第1の表示手段、4
…分析手段、5…抽出手段、6…第2の表示手段、7…
第3の表示手段。
…分析手段、5…抽出手段、6…第2の表示手段、7…
第3の表示手段。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.5 識別記号 庁内整理番号 FI 技術表示箇所 G06K 9/00 Z 8623−5L
Claims (9)
- 【請求項1】 見出し部分と本文とからなる文書に対す
る表示機能を有する文書表示装置において、見出し部分
を解析する解析手段と、該解析手段により解析された見
出し部分中の単語を本文中から認識する認識手段と、該
認識手段により認識された部分を識別した文書を表示す
る表示手段とを有することを特徴とする文書表示装置。 - 【請求項2】 見出し部分と本文とからなる文書に対す
る表示機能を有する文書表示装置において、見出し部分
を解析する解析手段と、該解析手段による見出し部分の
解析結果と本文中の各文との関連度を分析する分析手段
と、該分析手段により分析された関連度に基づき、本文
中の文を抽出する抽出手段と、該抽出手段により抽出さ
れた文を識別して文書を表示する表示手段とを有するこ
とを特徴とする文書表示装置。 - 【請求項3】 見出し部分と本文とからなる文書に対す
る表示機能を有する文書表示装置において、見出し部分
を解析する解析手段と、該解析手段により解析された見
出し部分中の単語を本文中から認識する認識手段と、該
認識手段による見出し部分の解析結果と本文中の各文と
の関連度を分析する分析手段と、該分析手段により分析
された関連度に基づき、本文中の文を抽出する抽出手段
と、前記認識手段により認識された部分及び前記抽出手
段により抽出された文を認識して文書を表示する表示手
段とを有することを特徴とする文書表示装置。 - 【請求項4】 前記分析手段において、見出し部分に含
まれる単語が本文中の各文に含まれるか否かをもって関
連度とすることを特徴とする請求項2又は3記載の文書
表示装置。 - 【請求項5】 前記分析手段において、見出し部分に含
まれる単語が本文中の各文に含まれる割合をもって関連
度とすることを特徴とする請求項2又は3記載の文書表
示装置。 - 【請求項6】 見出し部分に含まれる単語のうち、特定
の品詞の単語に限定することを特徴とする請求項1,4
又は5記載の文書表示装置。 - 【請求項7】 単語の同義単語を格納する同義語辞書を
有し、見出し部分に含まれる単語、あるいは特定の品詞
に限定された単語に加え、さらにその単語をキーに同義
語辞書で得られた単語も対象とすることを特徴とする請
求項1,4,5又は6記載の文書表示装置。 - 【請求項8】 前記請求項2〜7のいずれかに記載の文
書表示装置において、前記抽出手段により抽出された文
だけを表示する表示手段を有することを特徴とする文書
要約装置。 - 【請求項9】 画像をディジタル画像データとして読み
取る画像読取手段と、該画像読取手段によるディジタル
画像データを出力する画像出力手段とを有するディジタ
ル複写装置において、文書画像に対して、前記画像出力
手段によるディジタル画像データ中の文字を認識する文
字認識手段と、該文字認識手段により得られた文字デー
タからなる文書データに対して、請求項1〜7のいずれ
かに記載の文書表示装置に基づき、識別表示部を抽出す
る識別表示部抽出手段とを有し、ディジタル画像データ
を出力する際に、前記抽出手段で抽出した部分を識別し
て前記出力手段により出力することを特徴とするディジ
タル複写装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5066048A JPH06259424A (ja) | 1993-03-02 | 1993-03-02 | 文書表示装置及び文書要約装置並びにディジタル複写装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5066048A JPH06259424A (ja) | 1993-03-02 | 1993-03-02 | 文書表示装置及び文書要約装置並びにディジタル複写装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06259424A true JPH06259424A (ja) | 1994-09-16 |
Family
ID=13304605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5066048A Pending JPH06259424A (ja) | 1993-03-02 | 1993-03-02 | 文書表示装置及び文書要約装置並びにディジタル複写装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06259424A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934905A (ja) * | 1995-07-19 | 1997-02-07 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文検索方式 |
JPH11126204A (ja) * | 1997-10-22 | 1999-05-11 | Hitachi Ltd | 速読支援方法、文書検索方法およびその装置 |
JPH11219361A (ja) * | 1998-02-02 | 1999-08-10 | Fujitsu Ltd | 文書閲覧装置およびそのプログラムを格納した記憶媒体 |
JPH11272664A (ja) * | 1998-03-19 | 1999-10-08 | Sharp Corp | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
JPH11282881A (ja) * | 1998-01-27 | 1999-10-15 | Fuji Xerox Co Ltd | 文書要約装置および記録媒体 |
JP2004151882A (ja) * | 2002-10-29 | 2004-05-27 | Fuji Xerox Co Ltd | 情報出力制御方法、情報出力処理システム、プログラム |
WO2006107032A1 (ja) * | 2005-04-01 | 2006-10-12 | Sony Corporation | 情報処理システムおよび方法、並びにプログラム |
JP2008033479A (ja) * | 2006-07-27 | 2008-02-14 | National Institute Of Information & Communication Technology | 強調表示装置及びプログラム |
US8194033B2 (en) | 2005-04-06 | 2012-06-05 | Sony Corporation | Reproducing device, setting changing method, and setting changing device |
JP2019016335A (ja) * | 2017-07-06 | 2019-01-31 | エーオー カスペルスキー ラボAO Kaspersky Lab | コンピュータシステムにおけるデータ損失を防止するためのシステム及び方法 |
-
1993
- 1993-03-02 JP JP5066048A patent/JPH06259424A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934905A (ja) * | 1995-07-19 | 1997-02-07 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文検索方式 |
JPH11126204A (ja) * | 1997-10-22 | 1999-05-11 | Hitachi Ltd | 速読支援方法、文書検索方法およびその装置 |
JPH11282881A (ja) * | 1998-01-27 | 1999-10-15 | Fuji Xerox Co Ltd | 文書要約装置および記録媒体 |
JPH11219361A (ja) * | 1998-02-02 | 1999-08-10 | Fujitsu Ltd | 文書閲覧装置およびそのプログラムを格納した記憶媒体 |
JPH11272664A (ja) * | 1998-03-19 | 1999-10-08 | Sharp Corp | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
JP2004151882A (ja) * | 2002-10-29 | 2004-05-27 | Fuji Xerox Co Ltd | 情報出力制御方法、情報出力処理システム、プログラム |
US9773271B2 (en) | 2005-04-01 | 2017-09-26 | Sony Corporation | Presenting a recommendation based on user preference |
JP2006309751A (ja) * | 2005-04-01 | 2006-11-09 | Sony Corp | 情報処理システムおよび方法、並びにプログラム |
WO2006107032A1 (ja) * | 2005-04-01 | 2006-10-12 | Sony Corporation | 情報処理システムおよび方法、並びにプログラム |
US8194033B2 (en) | 2005-04-06 | 2012-06-05 | Sony Corporation | Reproducing device, setting changing method, and setting changing device |
US8681097B2 (en) | 2005-04-06 | 2014-03-25 | Sony Corporation | Reproducing device, setting changing method, and setting changing device |
US9076358B2 (en) | 2005-04-06 | 2015-07-07 | Sony Corporation | Reproducing device, setting changing method, and setting changing device |
US10242429B2 (en) | 2005-04-06 | 2019-03-26 | Sony Corporation | Reproducing device, setting changing method, and setting changing device |
JP2008033479A (ja) * | 2006-07-27 | 2008-02-14 | National Institute Of Information & Communication Technology | 強調表示装置及びプログラム |
JP2019016335A (ja) * | 2017-07-06 | 2019-01-31 | エーオー カスペルスキー ラボAO Kaspersky Lab | コンピュータシステムにおけるデータ損失を防止するためのシステム及び方法 |
US11042659B2 (en) | 2017-07-06 | 2021-06-22 | AO Kaspersky Lab | System and method of determining text containing confidential data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2078423C (en) | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information | |
US7756871B2 (en) | Article extraction | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
JP3768105B2 (ja) | 翻訳装置、翻訳方法並びに翻訳プログラム | |
EP0530993A2 (en) | An iterative technique for phrase query formation and an information retrieval system employing same | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JPH0644296A (ja) | 機械翻訳装置 | |
Nguyen-Son et al. | Identifying computer-generated text using statistical analysis | |
Tzoukermann et al. | E ective use of natural language processing techniques for automatic conflation of multi-word terms: the role of derivational morphology, part of speech tagging, and shallow parsing | |
JPH06259424A (ja) | 文書表示装置及び文書要約装置並びにディジタル複写装置 | |
JP3594701B2 (ja) | キーセンテンス抽出装置 | |
JPH09198395A (ja) | 文書検索装置 | |
JPS5892063A (ja) | イデイオム処理方式 | |
Tolochinsky et al. | The UN parallel corpus annotated for translation direction | |
JPH0474259A (ja) | 文書要約装置 | |
JP2004280316A (ja) | 分野判定装置及び言語処理装置 | |
JPS60193074A (ja) | 日本語解析装置 | |
JP2570784B2 (ja) | 文書リーダ後処理装置 | |
JPS63109572A (ja) | 派生語処理方式 | |
Tanev et al. | LINGUA: a robust architecture for text processing and anaphora resolution in Bulgarian | |
JP2973369B2 (ja) | 日本文形態素解析処理用日本語辞書構成装置 | |
JPH11242684A (ja) | 文書分割装置及び方法 | |
Morris | A review of recent developments in term conflation approaches for Arabic text information retrieval | |
JPH0711800B2 (ja) | 日本文文章解析装置 | |
Takemoto et al. | NEC Corporation and University of Sheffield:“Description of NEC/Sheffleld System Used For MET Japanese” |