JP4572321B2 - 文書出力装置及びその制御方法 - Google Patents
文書出力装置及びその制御方法 Download PDFInfo
- Publication number
- JP4572321B2 JP4572321B2 JP2004067660A JP2004067660A JP4572321B2 JP 4572321 B2 JP4572321 B2 JP 4572321B2 JP 2004067660 A JP2004067660 A JP 2004067660A JP 2004067660 A JP2004067660 A JP 2004067660A JP 4572321 B2 JP4572321 B2 JP 4572321B2
- Authority
- JP
- Japan
- Prior art keywords
- output
- document
- summarization
- sentence
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
タグを用いて文書構造が定義された構造化文書が入力される、文章入力部と、
前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断する、判断部と、
前記判断部で出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小し、出力用文章を生成する、縮小部と、
前記縮小部で生成した出力用文章を出力する、出力部と、
を備える文書出力装置であって、
前記縮小部は、
前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定する、要約率設定部と、
前記要約率設定部で設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力する、要約部と、
を備えるとともに、
前記要約率設定部では、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
ことを特徴とする。
タグを用いて文書構造が定義された構造化文書が入力されるステップと、
前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断するステップと、
出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小して、出力用文章を生成するステップと、
前記生成した出力用文章を出力するステップと、
を備える文書出力装置の制御方法であって、
前記文章を縮小して、出力用文書を生成するステップは、前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定するステップと、
前記設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力するステップと、
を備えるとともに、
前記初期要約率と前記要約率閾値とを設定するステップでは、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
ことを特徴とする。
このような原文に対して異表記処理と同義語処理を施すと、例えば、次のような文章となる。
再び図3の説明に戻り、図3のステップS30で、自立語解析変換部60が自立語変換処理済みであると判断した場合(ステップS30:Yes)には、要約率の設定を行い(ステップS38)、文章要約処理を行う(ステップS40)。
HTML4.0
<HTML>
<HEAD>
<TITLE>文書のタイトル</TITLE>
</HEAD>
<BODY>
<H1>主見出し</H1>
<P>パラグラフ</P>
<P>パラグラフ</P>
<UL>
<LI>リスト項目</LI>
<LI>リスト項目</LI>
</UL>
</BODY>
</HTML>
無論、その他HTML以外でも、文書構造を表す任意に定義されたタグを用いて、文章や段落を抽出してもよい。例えば、次のように、構造化文書を構成する文書タグとして、<題>、<段落>を用いるような場合には、<題>、<段落> の部分を文章として抽出する。
<文書 改訂日付="2004年2月1日">
<題>サンプル</題>
<段落>これはサンプル文書です。</段落>
<段落>これもサンプル文書です</段落>
</文書>
そして、本実施形態においては、構造を解析して抽出した段落毎に、要約率を設定する。例えば、図8に示すように、タグ付けにより段落が階層化されている場合、一般に下位になるほど上位の内容を受けた記述となるため、下位ほど要約率を小さくする(文章をより短くする)ことができる。このため、下位の階層の段落ほど、要約率を小さい値に設定にする。
<P>パラグラフ1
<P>パラグラフ2</P>
<P>パラグラフ2
<P>パラグラフ3</P>
</P>
</P>
・引用(インデント)タグによる階層化の場合
<P>パラグラフ1</P>
<BLOCKQUOTE>
<P>パラグラフ2</P>
<BLOCKQUOTE>
<P>パラグラフ2</P>
</BLOCKQUOTE>
<P>パラグラフ3</P>
</BLOCKQUOTE>
また、本実施形態においては、タグ付けによる文書構造化の階層化がなされていない場合には、文章全体の主題(話題)を抽出し、抽出した話題に類似した段落(パラグラフ)ほど重要段落として要約率を大きく(文章をあまり短くしない)設定し、類似性が低い段落ほど要約率を小さく(文章をより短くする)設定する。
tf・idf(wi,dj) = (Fij/Fi) log (N/Ni)
ここで、Fijは語wiの文書単位djにおける出現数、Fiは全文書中の出現数を示している。Niは語wiを含む文書単位数、Nは文書単位の総数を示している。分析対象語は形態素解析により名詞のみで行う。
また、特開2002−32364の例のように、タグの要素の予め付与されているLebel属性によって、Lebel属性の低い要素ほど、要約率を小さくする(文書をより短くする)設定にすることもできる。
この原文は、(1)〜(5)の5つの文に区切られる(ステップS100)。ここで、主だった単語に対する各指標値は、表2及び表3のように算出できる。これに、各単語のIDF値を掛けることで、表4のようにTFIDF値を計算できる(ステップS102)。
文書d1,…,dj,…,dNからなる文書データベースdb
に含まれる全ての語句termt1,…,tj,…,tmを次元とするベクトル空間を想定する。そこで、以下の通りに定義付ける。
文書djにおける、異なるtermの種類数=lengthjとする。ここで、tf(dj,ti) は文書djの性質、文書長に依存するので、正規化をおこなう。以下正規化の例を(a)(b)として2つ示す。
(b) n・freqij =[log2(freqij 1)/log2lengthj]
ただし、ここでc,n,Kは正規化処理における適数とする。
termtiが現れる文書データベースdbの文書数=freq(ti,db)である。idf(ti)=log[DB・size(db)/freq(ti,db)]+1となる。少ない文書にしか現れないが重要である語句との定義付けをし、前記TFと併用する。
ここで、tf(dj,ti) 部分に前記c・freqij, n・freqijの何れかを代入しても良い。
人の手を借りて「政敵」を追い出してもらってきたボスザル(オス、推定20歳)が、ボス就任18年目をゆったり過ごしている。静岡県浜松市の市動物園のサル山に君臨する「信長」で、老境に差しかかりながらいまのところ歯が立つ相手はおらず、数年単位でボスが代わる野生では考えられない長期政権になっている。
浜松市動物園には現在、24頭のニホンザルがいる。信長は群を抜いて体格が良く、しっぽを立てて歩く姿に風格が漂う。信長が来園したのは1983年2月。動物園の移転を2カ月後に控え、全国から2―4歳の子ザル約30頭が集められた。集団に序列はなかったが、しばらくしてボス候補に成長した信長は、体格のいいメス2頭と主導権争いを始めた。信長は形勢不利になると、手下を連れて2度もサル山から脱走した。
動物園は「訪れる人たちにサル同士の殺し合いや、傷ついた姿を見せたくない」との配慮から、宿敵のメス2頭をほかの動物園に出してまで信長をボスにした。自力で政権を奪い取ったのではなく、しかも手本となる先輩ザルがいなかったせいか、信長はトビがえさを目がけて急降下すると真っ先に逃げるほど、だらしない。半面、けんかの仲裁などで力強さを見せることもあり、メスからの支持は厚い。年に4、5頭生まれる子ザルの大半は信長の子だという。
次のボス候補は推定10歳のリュウ。だが、メスザルに人気がなく、信長の正妻オノウよりも序列は低い。飼育係の杉浦正樹さん(25)は「信長が生きている間はボス交代はないかも。少なくとも1、2年は安泰」とみている。
人の手を借りてきたボスザルが、ボス就任18年目をゆったり過ごしている。静岡県浜松市の市動物園のサル山に君臨する「信長」で、老境に差しかかりながらいまのところ歯が立つ相手はいない、数年単位でボスが代わる野生では考えられない長期政権になっている。
浜松市動物園には現在、24頭のニホンザルがいる。信長は抜きんでて体格が良く、しっぽを立てて歩く姿に風格が漂う。集団に序列はなかったが、しばらくしてボス候補に成長した信長は、体格のいいメス2頭と主導権争いを始めた。
動物園は「訪れる人たちにサル同士の殺し合いや、傷ついた姿を見せたくない」との配慮から、宿敵のメス2頭をほかの動物園に出してまで信長をボスにした。半面、けんかの仲裁などで力強さを見せることもあり、メスからの支持は厚い。年に4、5頭生まれる子ザルの大半は信長の子だという。
次のボス候補は推定10才のリュウ。だが、メスザルに不人気で、信長の正妻オノウよりも序列は低い。飼育係の杉浦正樹さん(25)は「信長が生きているあいだのボス交代はないかも。
20 要約率評価部
30 形態素解析部
40 文章解析縮小部
50 文章出力部
60 自立語解析変換部
70 要約文出力部
80 文ベクトル生成比較部
Claims (4)
- タグを用いて文書構造が定義された構造化文書が入力される、文章入力部と、
前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断する、判断部と、
前記判断部で出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小し、出力用文章を生成する、縮小部と、
前記縮小部で生成した出力用文章を出力する、出力部と、
を備える文書出力装置であって、
前記縮小部は、
前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定する、要約率設定部と、
前記要約率設定部で設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力する、要約部と、
を備えるとともに、
前記要約率設定部では、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
ことを特徴とする文書出力装置。 - 前記構造化文書に含まれる文章の自立語を、より文字数の少ない異表記に置き換えることにより、文章を短くする、異表記処理部をさらに備えることを特徴とする請求項1に記載の文書出力装置。
- 前記構造化文書に含まれる文章の自立語を、より文字数の少ない同義語に置き換えることにより、文章を短くする、同義語処理部をさらに備えることを特徴とする請求項1又は請求項2に記載の文書出力装置。
- タグを用いて文書構造が定義された構造化文書が入力されるステップと、
前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断するステップと、
出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小して、出力用文章を生成するステップと、
前記生成した出力用文章を出力するステップと、
を備える文書出力装置の制御方法であって、
前記文章を縮小して、出力用文書を生成するステップは、前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定するステップと、
前記設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力するステップと、
を備えるとともに、
前記初期要約率と前記要約率閾値とを設定するステップでは、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
ことを特徴とする文書出力装置の制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067660A JP4572321B2 (ja) | 2004-03-10 | 2004-03-10 | 文書出力装置及びその制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067660A JP4572321B2 (ja) | 2004-03-10 | 2004-03-10 | 文書出力装置及びその制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005258676A JP2005258676A (ja) | 2005-09-22 |
JP4572321B2 true JP4572321B2 (ja) | 2010-11-04 |
Family
ID=35084344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004067660A Expired - Fee Related JP4572321B2 (ja) | 2004-03-10 | 2004-03-10 | 文書出力装置及びその制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4572321B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008171302A (ja) * | 2007-01-15 | 2008-07-24 | Nippon Telegr & Teleph Corp <Ntt> | アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム |
JP5104642B2 (ja) * | 2008-08-13 | 2012-12-19 | 富士通株式会社 | データ閲覧管理システム |
JP5317638B2 (ja) * | 2008-11-13 | 2013-10-16 | 日本電信電話株式会社 | Web文書主要コンテンツ抽出装置及びプログラム |
JP5884814B2 (ja) * | 2013-11-27 | 2016-03-15 | カシオ計算機株式会社 | 表示処理装置及びプログラム |
JP6516650B2 (ja) * | 2015-10-13 | 2019-05-22 | 三菱電機株式会社 | 文書出力制御装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07129605A (ja) * | 1993-09-13 | 1995-05-19 | Toshiba Corp | 文書検索装置 |
JPH0944497A (ja) * | 1995-07-28 | 1997-02-14 | Maruzen Kk | タイトル文作成装置 |
JP2000099536A (ja) * | 1998-09-24 | 2000-04-07 | Nippon Hoso Kyokai <Nhk> | 自動要約装置および自動要約プログラムを記録した記録媒体 |
JP2001052032A (ja) * | 1999-05-28 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体 |
JP2001184352A (ja) * | 1999-12-27 | 2001-07-06 | Dainippon Screen Mfg Co Ltd | 要約文自動作成装置および記録媒体 |
JP2002032364A (ja) * | 2000-07-14 | 2002-01-31 | Ricoh Co Ltd | 文書情報処理方法、文書情報処理装置及び記録媒体 |
JP2002259112A (ja) * | 2001-02-15 | 2002-09-13 | Internatl Business Mach Corp <Ibm> | デジタル文書閲覧システム、ブラウザ、文章要約システム、デジタル文書表示方法、文章要約方法、プログラム及び記憶媒体 |
JP2003141027A (ja) * | 2001-10-31 | 2003-05-16 | Toshiba Corp | 要約作成方法および要約作成支援装置およびプログラム |
-
2004
- 2004-03-10 JP JP2004067660A patent/JP4572321B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07129605A (ja) * | 1993-09-13 | 1995-05-19 | Toshiba Corp | 文書検索装置 |
JPH0944497A (ja) * | 1995-07-28 | 1997-02-14 | Maruzen Kk | タイトル文作成装置 |
JP2000099536A (ja) * | 1998-09-24 | 2000-04-07 | Nippon Hoso Kyokai <Nhk> | 自動要約装置および自動要約プログラムを記録した記録媒体 |
JP2001052032A (ja) * | 1999-05-28 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体 |
JP2001184352A (ja) * | 1999-12-27 | 2001-07-06 | Dainippon Screen Mfg Co Ltd | 要約文自動作成装置および記録媒体 |
JP2002032364A (ja) * | 2000-07-14 | 2002-01-31 | Ricoh Co Ltd | 文書情報処理方法、文書情報処理装置及び記録媒体 |
JP2002259112A (ja) * | 2001-02-15 | 2002-09-13 | Internatl Business Mach Corp <Ibm> | デジタル文書閲覧システム、ブラウザ、文章要約システム、デジタル文書表示方法、文章要約方法、プログラム及び記憶媒体 |
JP2003141027A (ja) * | 2001-10-31 | 2003-05-16 | Toshiba Corp | 要約作成方法および要約作成支援装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2005258676A (ja) | 2005-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cohn et al. | Sentence compression beyond word deletion | |
US6199103B1 (en) | Electronic mail determination method and system and storage medium | |
Im Walde | Experiments on the automatic induction of German semantic verb classes | |
US7979370B1 (en) | Neural network for electronic search applications | |
JP6466952B2 (ja) | 文章生成システム | |
Azmi et al. | A text summarizer for Arabic | |
JP2015057716A (ja) | インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善 | |
CN110069636B (zh) | 融合依存关系与篇章修辞关系的事件时序关系识别方法 | |
JP2000514218A (ja) | コンピュータシステムによる日本語テキストの単語の識別 | |
Adler | Hebrew morphological disambiguation: An unsupervised stochastic word-based approach | |
Sağlam et al. | Developing Turkish sentiment lexicon for sentiment analysis using online news media | |
CN110889292B (zh) | 一种基于句义结构模型的文本数据生成观点摘要的方法及系统 | |
JP4572321B2 (ja) | 文書出力装置及びその制御方法 | |
US20060116861A1 (en) | Systems and methods for user-interest sensitive note-taking | |
Hawwari et al. | A framework for the classification and annotation of multiword expressions in dialectal arabic | |
Sobh et al. | An optimized dual classification system for Arabic extractive generic text summarization | |
CN112818711A (zh) | 一种翻译科技文献中一词多义的专业术语的机器翻译方法 | |
JP3879324B2 (ja) | 文書要約装置、文書要約方法及び記録媒体 | |
US20060116860A1 (en) | Systems and methods for user-interest sensitive condensation | |
Hachey et al. | Sentence classification experiments for legal text summarisation | |
CN111274384A (zh) | 一种文本标注方法及其设备、计算机存储介质 | |
Arens | Using Language and Context in the Analysis of Text. | |
WO2021042234A1 (zh) | 应用程序的介绍方法、移动终端及服务器 | |
Schweiger | Suffixaufnahme and related case marking patterns in Australian languages | |
JP2001184352A (ja) | 要約文自動作成装置および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090925 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100416 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100713 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100726 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |