JPH1115830A - 文短縮装置及び文短縮プログラムを記録した媒体 - Google Patents

文短縮装置及び文短縮プログラムを記録した媒体

Info

Publication number
JPH1115830A
JPH1115830A JP9163648A JP16364897A JPH1115830A JP H1115830 A JPH1115830 A JP H1115830A JP 9163648 A JP9163648 A JP 9163648A JP 16364897 A JP16364897 A JP 16364897A JP H1115830 A JPH1115830 A JP H1115830A
Authority
JP
Japan
Prior art keywords
sentence
important
word
relation
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9163648A
Other languages
English (en)
Inventor
Yoshihiro Ueda
良寛 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP9163648A priority Critical patent/JPH1115830A/ja
Publication of JPH1115830A publication Critical patent/JPH1115830A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 重要な情報を落とさずに文を短縮する。 【解決手段】 構文解析手段1は、入力された文6の構
成要素間の係り受け関係を解析し、各単語と各単語の間
の係り受け関係とを木構造で表した解析結果6aを生成
する。重要関係選択手段2は、係り受け関係の重要度が
設定された重要関係テーブル3を参照することにより、
構文解析手段1による解析結果6a中の根となる要素に
対して、重要な係り受け関係によって接続されている各
要素を選択する。重要文要素選択手段4は、構文解析手
段1による解析結果6a中の、重要語7として指定され
た要素を選択すると共に、他の選択された要素から重要
語までの経路上の要素を選択する。文生成手段5は、構
文解析手段1による解析結果6a中の、重要関係選択手
段2と重要文要素選択手段4とにより選択された要素に
基づいて、短縮文6dを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文短縮装置及び文短
縮プログラムを記録した媒体に関し、特に単語間の係り
受け関係を用いて文を短縮する文短縮装置及びそのよう
な文の短縮をコンピュータに行わせるための文短縮プロ
グラムを記録した媒体に関する。
【0002】
【従来の技術】文書検索を行った場合、検索結果の中か
ら適合文書を選択する必要がある。それには、検索結果
に含まれている各文書の内容を把握しなければならな
い。ところが、検索結果として多量の文書が抽出される
と、それぞれの文書の記載に目を通し、各文書の内容を
理解するのは容易なことではない。
【0003】そこで、文書内容を短時間では把握させる
ものとして重要分ピックアップによる抄録作成技術があ
る。ただし、重要文ピックアップによる方法では、出現
頻度の高い語を多く含む文が重要度が高いとされるた
め、抽出される抄録が長文になる傾向にある。そのた
め、読むのに時間がかかってしまう。
【0004】一方、以下のような文を短くする技術が提
案されている。特開平5−101120号公報には、省
略するものとそうでないものの係り受けのタイプを決め
ておき、省略すると定められた極を削除することにより
文を短縮する文書抄録生成装置が開示されている。例え
ば、「連用修飾語、が、を、に、から」は残し、「副
詞、連体修飾語、の」は削除する。
【0005】また、特開平6−035961号公報に
は、修飾語を削除して文を短くする文書要約装置が開示
されている。また、特開平8−212228号公報に
は、重要度の高い要素の組み合わせによって要約文を作
る要約文作成装置が開示されている。この要約文作成装
置では、形態素解析により得られた品詞の情報を用い
て、次のように重要度を定める。すなわち、名詞、動詞
の重要度は高く、副詞の重要度は低くする。また、構文
解析技術を用い、主客、目的格、述語の重要度は高く、
その他の格は低くする。さらに、主文の重要度は高く、
従文の重要度は低くする。そして、重要度が低いと判断
された語句を削除することにより、要約文を作成する。
【0006】また、特開平6−259423号公報に
は、重要パラグラフの選択を行った後、その中から不要
部分を削除する要約自動作成法式が開示されている。こ
の要約文自動作成法式では、不要部分をパターンマッチ
ングで選択する。そして、括弧内の語句、「すなわち」
以降の言い換え語以降の文、「例えば」などの実例を引
く語以降の文をそれぞれ削除する。
【0007】以上のように、文を短くする技術が各種提
案されており、この技術を前述の抄録作成技術と組み合
わせることにより、文書内容を把握するために読むべき
量を減らすことができる。
【0008】
【発明が解決しようとする課題】しかし、従来の文短縮
技術は、いずれも係り受けの種類のみで削除すべきか否
かの判断を行っているため、重要な部分を過剰削除する
可能性があるという問題点があった。すなわち、その文
の中で重要な情報を表す単語であるか否かは、単に係り
受け関係のみでは判断できない場合が多々ある。
【0009】本発明はこのような点に鑑みてなされたも
のであり、重要な情報を落とさずに文を短縮できる文短
縮装置を提供することを目的とする。また、本発明の他
の目的は、重要な情報を落とさずにコンピュータに文を
短縮させることのできる文短縮プログラムを記録した媒
体を提供することである。
【0010】
【課題を解決するための手段】本発明に係る第1の文短
縮装置では上記課題を解決するために、文を短縮する文
短縮装置において、入力された文の構成要素間の係り受
け関係を解析する構文解析手段と、係り受け関係の重要
度が設定された重要関係テーブルを参照することによ
り、前記構文解析手段による解析結果中の基本となる要
素に対して、重要な係り受け関係を辿ることにより到達
できる各要素を選択する重要関係選択手段と、特定の要
素が重要である旨の指定を受けると、前記構文解析手段
による解析結果中の指定された要素を選択すると共に、
指定された要素から他の選択済みの要素までの経路上の
各要素を選択する重要文要素選択手段と、前記構文解析
手段による解析結果中の選択された要素に基づいて、短
縮文を生成する文生成手段と、を有することを特徴とす
る文短縮装置が提供される。
【0011】この文短縮装置によれば、文が入力される
と、構文解析手段により、その文の構成要素間の係り受
け関係が解析される。次に、重要関係選択手段により、
入力された文における重要な関係の要素が選択される。
また、特定の要素が重要である旨の指定を受けると、重
要文要素選択手段により、指定された要素及びその要素
から他の重要な要素までの経路上の要素が選択される。
そして、文生成手段により、選択された要素に基づいて
短縮文が生成される。
【0012】また、本発明に係る第2の文短縮装置では
上記課題を解決するために、文を短縮する文短縮装置に
おいて、入力された文の構成要素間の係り受け関係を解
析する構文解析手段と、意味の特定機能が低い単語に対
する、意味を特定させるために必要な係り受け関係が登
録された抽象単語記憶手段と、係り受け関係の重要度が
設定された重要関係テーブルを参照することにより、前
記構文解析手段による解析結果中の基本となる要素に対
して、重要な係り受け関係を辿ることにより到達できる
各要素を選択すると共に、前記抽象単語記憶手段に登録
された単語を選択した際には、選択した単語の意味を特
定するために必要な係り受け関係にある要素をも選択す
る重要関係選択手段と、前記構文解析手段による解析結
果中の選択された要素に基づいて、短縮文を生成する文
生成手段と、を有することを特徴とする文短縮装置が提
供される。
【0013】この文短縮装置によれば、文が入力される
と、構文解析手段により、その文の構成要素間の係り受
け関係が解析される。次に、重要関係選択手段により、
入力された文における重要な関係の要素が選択されると
共に、抽象単語記憶手段に登録された単語を選択された
際には、選択された単語の意味を特定するために必要な
係り受け関係にある要素までも選択される。そして、文
生成手段により、選択された要素に基づいて短縮文が生
成される。
【0014】また、本発明に係る第1の文短縮プログラ
ムを記録した媒体では上記課題を解決するために、コン
ピュータに文の短縮を行わせるための文短縮プログラム
を記録した媒体において、入力された文の構成要素間の
係り受け関係を解析する構文解析手段、係り受け関係の
重要度が設定された重要関係テーブルを参照することに
より、前記構文解析手段による解析結果中の基本となる
要素に対して、重要な係り受け関係を辿ることにより到
達できる各要素を選択する重要関係選択手段、特定の要
素が重要である旨の指定を受けると、前記構文解析手段
による解析結果中の指定された要素を選択すると共に、
指定された要素から他の選択済みの要素までの経路上の
各要素を選択する重要文要素選択手段、前記構文解析手
段による解析結果中の選択された要素に基づいて、短縮
文を生成する文生成手段、としてコンピュータを機能さ
せるための文短縮プログラムを記録した媒体が提供され
る。
【0015】この文短縮プログラムを記録した媒体によ
れば、格納している文短縮プログラムをコンピュータに
実行させることにより、入力された文の構成要素間の係
り受け関係を解析する構文解析手段と、係り受け関係の
重要度が設定された重要関係テーブルを参照することに
より、前記構文解析手段による解析結果中の基本となる
要素に対して、重要な係り受け関係を辿ることにより到
達できる各要素を選択する重要関係選択手段と、特定の
要素が重要である旨の指定を受けると、前記構文解析手
段による解析結果中の指定された要素を選択すると共
に、指定された要素から他の選択済みの要素までの経路
上の各要素を選択する重要文要素選択手段と、前記構文
解析手段による解析結果中の選択された要素に基づい
て、短縮文を生成する文生成手段と、の各機能がコンピ
ュータで実現される。
【0016】また、本発明に係る第2の文短縮プログラ
ムを記録した媒体では上記課題を解決するために、コン
ピュータに文の短縮を行わせるための文短縮プログラム
を記録した媒体において、 入力された文の構成要素間
の係り受け関係を解析する構文解析手段、意味の特定機
能が低い単語に対する、意味を特定させるために必要な
係り受け関係が登録された抽象単語記憶手段、係り受け
関係の重要度が設定された重要関係テーブルを参照する
ことにより、前記構文解析手段による解析結果中の基本
となる要素に対して、重要な係り受け関係を辿ることに
より到達できる各要素を選択すると共に、前記抽象単語
記憶手段に登録された単語を選択した際には、選択した
単語の意味を特定するために必要な係り受け関係にある
要素をも選択する重要関係選択手段、前記構文解析手段
による解析結果中の選択された要素に基づいて、短縮文
を生成する文生成手段、としてコンピュータを機能させ
るための文短縮プログラムを記録した媒体が提供され
る。
【0017】この文短縮プログラムを記録した媒体によ
れば、格納している文短縮プログラムをコンピュータに
実行させることにより、入力された文の構成要素間の係
り受け関係を解析する構文解析手段と、意味の特定機能
が低い単語に対する、意味を特定させるために必要な係
り受け関係が登録された抽象単語記憶手段と、係り受け
関係の重要度が設定された重要関係テーブルを参照する
ことにより、前記構文解析手段による解析結果中の基本
となる要素に対して、重要な係り受け関係を辿ることに
より到達できる各要素を選択すると共に、前記抽象単語
記憶手段に登録された単語を選択した際には、選択した
単語の意味を特定するために必要な係り受け関係にある
要素をも選択する重要関係選択手段と、前記構文解析手
段による解析結果中の選択された要素に基づいて、短縮
文を生成する文生成手段と、の各機能がコンピュータで
実現される。
【0018】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の原理構成図であ
る。
【0019】構文解析手段1は、入力された文6の構成
要素間の係り受け関係を解析し、各単語と各単語の間の
係り受け関係とを木構造で表した解析結果6aを生成す
る。重要関係選択手段2は、係り受け関係の重要度が設
定された重要関係テーブル3を参照することにより、構
文解析手段1による解析結果6a中の根となる要素に対
して、重要な係り受け関係によって接続されている各要
素を選択する。重要関係選択結果6bは、重要文要素選
択手段4に渡される。
【0020】重要文要素選択手段4は、構文解析手段1
による解析結果6a中の、重要語7として指定された要
素を選択すると共に、他の選択された要素から重要語ま
での経路上の要素を選択する。例えば、文6中で場所を
表す「B」という単語が重要関係選択手段2で選択され
ていなくても、ユーザが重要語7として「B」を指定す
れば、「B」が選択されると共に、「B」から他の選択
済みの要素までの経路上の要素が選択される。重要文要
素選択結果6cは、文生成手段5に渡される。
【0021】文生成手段5は、構文解析手段1による解
析結果6a中の、重要関係選択手段2と重要文要素選択
手段4とにより選択された要素に基づいて、短縮文6d
を生成する。
【0022】これにより、重要な情報を落とさずに短縮
文を作成することができる。以下に、本発明の実施の形
態を具体的に説明する。図2は、本発明の第1の実施の
形態の概略構成を示す図である。
【0023】構文解析機構部11は、入力文21の係り
受けを解析し、関係解析結果22を生成する。この関係
解析結果22は、各単語をノードとし、それらの係り受
け関係をアークで示した木構造によって表されている。
【0024】重要関係マーク機構部12は、構文解析機
構部11による関係解析結果22に対し、重要関係テー
ブル13と必須修飾関係指定辞書14とを用いて、係り
受け関係の重要なものを選択し、マークする。
【0025】重要関係テーブル13には、各関係タイプ
の重要度が登録されている。必須修飾関係指定辞書14
には、ある特定の語句に対して必須となる修飾関係が指
定されている。例えば、「提携する」という語句の場
合、提携相手や提携する地域など特定できなければ意味
が無い。そこで、「と(共同)」、「で(領域)」が必
須修飾関係として設定される。同様の必須修飾関係が、
他の多数の語句に対応して設定されている。
【0026】重要文要素マーク機構部15は、ユーザに
よって指定された重要単語の集合である重要単語群23
を受け取ると、その重要単語群23を参照して重要な要
素をマークする。そして、既にマークされた要素に達す
るまで、順次受け側の要素をマークしていく。
【0027】文生成機構部16は、重要関係マーク機構
部12と重要文要素マーク機構部15とによりマーキン
グされたマーク結果24から、文を表現する文字列を生
成する。その文字列は、表示装置17に表示される。
【0028】なお、この実施の形態の各構成要素と図1
の原理図における構成要素とは、次のような対応関係に
ある。構造解析機構部11は、構文解析手段1に対応す
る。重要関係マーク機構部12は、重要関係選択手段2
に対応する。重要関係テーブル13は、重要関係テーブ
ル3に対応する。重要文要素マーク機構部15は、重要
文要素選択手段4に対応する。文生成機構部16は、文
生成手段5に対応する。
【0029】ここで、「紡績会社Aは中国の有力な絹紡
糸、絹織物企業の上海紡績会社Bとこのほど絹紡織事業
で提携、九月中にも上海市に合弁会社を設立する。」と
いう文が入力文21として入力された場合を例にとり、
具体的に説明する。
【0030】この入力文21は、構造解析機構部11に
より構文解析され、関係解析結果22が得られる。図3
は、関係解析結果を示す図である。これは、入力文21
に含まれる語句と、各語句の係り側、受け側、係り受け
関係の種類(関係タイプ)とが、ノード(図中、語句を
四角で囲むことにより表されている)とアーク(図中、
実線若しくは破線で表されている)とで表現されてい
る。線で結ばれた左側に示された要素が係り側であり、
右側に示された要素が受け側である。特に、破線で結ば
れた関係は、受け側が2重にあることを示している。図
中、関係の種類は助詞で示しているが、それぞれの助詞
には意味付けがなされているものとする。例えば、助詞
「は」=「主題」などである。また、この図では、助動
詞や語形変化などは省略している。
【0031】このような構文解析の方法は一般的に知ら
れたものである。また、この他の方法として、形態素解
析を行った結果に対してパターンマッチングを用いて関
係を解析する方法がある。
【0032】関係解析結果22は、重要関係マーク機構
部12により、係り受けの重要な要素がマークされる。
ここでは以下のような重要関係テーブル13が設けられ
ているものとする。
【0033】図4は、重要関係テーブルの例を示す図で
ある。この重要関係テーブル13では、重要な関係を
「○」、重要でない関係を「×」で示している。この例
では、「は(主題)」、「が(主体)」、「を(対
象)」、「に(対格)」、「連用修飾句」、「名詞連
続」などの関係タイプが、重要な関係であると設定され
ている。
【0034】重要関係マーク機構部12は、まず、ルー
トノード(根)への重要な係り要素をマークする。図5
は、ルートノードへの重要な係り要素のマーク結果を示
す図である。この例では、「設立する」がルートノード
であるため、主体「紡績会社A」、対象「合弁会社」及
び連用修飾「提携」がマークされている。マークされた
ノードは、2重の四角で示されており、マークされたア
ークは、太線で示されている。
【0035】以後、マークされたそれぞれの要素に対し
て係る重要な係り要素を順次マークし、新たな追加要素
がなくなるまで繰り返す。なお、この例文には、必須修
飾関係指定辞書14で重要関係が指定された要素はない
ものとする。
【0036】次に、重要文要素マーク機構部15が、重
要単語群23で指定された要素をマークする。この例で
は、「中国」、「合弁会社」が重要単語として指定され
ているものとする。
【0037】図6は、重要単語のマーク結果を示す図で
ある。「合弁会社」は、重要関係マーク機構部12によ
り既にマークされているため、新たに「中国」のみがマ
ークされている。
【0038】次に、「中国」の受け側に該当する要素を
順次マークしていく。図7は、重要単語から既にマーク
されている要素までのパスのマーク結果を示す図であ
る。「中国」を係り側とするアークは「中国」−「の」
(属性・部分)−「企業」であり、このアークと「企
業」とがマークされる。同様にして、係り受け関係をた
どる。その結果、「企業」−「の」(属性・部分)−
「上海紡績会社B」のアークとノード「上海紡績会社
B」のノードがマークされる。さらに、「上海紡績会社
B」−「と」(共同)−「提携」のアークがマークされ
る。「提携」はすでにマークされているので、ここで終
了する。
【0039】さらに、重要関係マーク機構部12は、新
たに追加された要素に関して、重要な関係の係り側をマ
ークする。図8は、新規要素への係り側のマーク結果を
示す図である。この例では、「中国」、「企業」、「上
海紡績会社B」のそれぞれの係り要素がチェックされ
る。その結果、「絹紡糸」と「絹織物」とが「名詞連
続」という関係で「企業」に係っているので、これらの
要素がマークされている。
【0040】最後に、文生成機構部16により、マーク
された要素から文を表現する文字列が生成される。図9
は、マークされたノードとアークのみを残したグラフを
示す図である。このグラフから句を生成する。生成規則
は、動詞に対しては、「主題」「主体」「対象」「対
格」「その他の格」*「付属語」(*は、自分自身を表
す)とする。名詞に対しては、「連体修飾」「属性/部
分」「名詞連続」「同格」*「付属語」とする。それぞ
れの格は、「係り側」「表層関係名」とする。
【0041】ここで得られる短縮文は、「紡績会社Aは
中国の絹紡糸、絹織物企業の上海紡績会社Bと提携、合
弁会社を設立する。」となる。このような短縮文が、表
示装置17の画面に表示される。
【0042】なお、この実施の形態では、表示装置17
としてCRT(Cathode Ray Tube)ディスプレイを想定し
ているが、短縮文を印刷して出力してもよい。また、入
力文21に合成して、画面表示や印刷等を行ってもよ
い。
【0043】また、必須修飾関係指定辞書14におい
て、「提携する」に対して「と(共同)」、「で(領
域)」が重要関係であると設定されていた場合には、重
要関係マーク機構部12により、「上海紡績会社B」と
「絹紡織事業」ともマークされる。この場合、ルートノ
ードへの係り要素をマークした後(図4に示した状
態)、重要関係として設定されている要素をマークす
る。
【0044】図10は、重要関係のマーク結果を示す図
である。この例では、「提携」に対しては、「と」、
「で」が重要関係であると必須修飾関係指定辞書14に
設定されているため、「上海紡績会社B」と「絹紡織事
業」とがマークされている。
【0045】次に、第2の実施の形態について説明す
る。第2の実施の形態は、短縮文を表示する際に、重要
単語を強調表示するものである。図11は、本発明の第
2の実施の形態の概略構成を示す図である。なお、この
実施の形態の構造解析機構部31、重要関係マーク機構
部32、重要関係テーブル33、必須修飾関係指定辞書
34、重要文要素マーク機構部35、文生成機構部36
及び表示装置38については、第1の実施の形態(図2
に示す)の同名の構成要素と同様の機能を有しているた
め、説明を省略する。
【0046】この実施の形態には、強調可視化機構部3
7が設けられている。この強調可視化機構部37は、文
生成機構部32によって生成された短縮文の中で、重要
単語を検索し、その重要単語が強調表示されるように、
その文字の属性を変更する。強調表示としては、例え
ば、文字の色を赤色にしたり、白黒の反転表示をした
り、大きな文字で表示するなどの方法がある。ここで重
要単語とは、ユーザにより指定された重要単語群23に
含まれる単語である。
【0047】この文短縮装置に入力された入力文21
は、構造解析機構部31により解析され、関係解析結果
22が得られる。次に、重要関係マーク機構部32が、
重要関係テーブル33と必須修飾関係指定辞書34を参
照し、所定の要素をマークする。同様に、重要文要素マ
ーク機構部35が、ユーザによって入力された重要単語
群23に含まれる単語と、既にマークされた要素から重
要単語までのパス上の要素をマークし、マーク結果24
が得られる。そして、文生成機構部36で短縮文が生成
され、強調可視化機構部37で、重要単語が強調表示さ
れるように、その単語の属性(色を変える等)が変更さ
れ、表示装置38の画面に表示される。
【0048】図12は、重要単語の強調表示の例であ
る。この例では、「中国」と「合弁会社」とが、大きな
文字で強調表示されている。次に、第3の実施の形態に
ついて説明する。第3の実施の形態は、意味の特定機能
の低い単語が選択された際には、その意味を特定できる
ような係り側の要素も同時に選択するようにしたもので
ある。
【0049】図13は、本発明の第3の実施の形態の概
略構成を示す図である。この実施の形態の構造解析機構
部41、重要関係テーブル43、重要文要素マーク機構
部45、文生成機構部46及び表示装置47ついては、
第1の実施の形態(図2に示す)の同名の構成要素と同
様の機能を有しているため、説明を省略する。
【0050】この実施の形態では、抽象単語辞書44が
設けられている。抽象単語辞書44には、その語句のみ
では意味が抽象的であり、修飾関係にある他の語句を付
加して、一定の意味をなす語句が登録されている。
【0051】図14は、抽象単語辞書の例を示す図であ
る。この抽象単語辞書44では、「見出し」の欄に、抽
象度が高い単語(抽象語)の見出しが設定されており、
「修飾関係」の欄に、抽象度の高い語の意味を特定する
ために必要な修飾関係が示されている。
【0052】本実施の形態における重要関係マーク機構
部42は、重要関係テーブル43と抽象単語辞書44と
を参照し、重要部分をマークする。具体的には、まず、
重要関係テーブル43によりルートノードを基準として
重要関係にある要素を順次マークする。そして、抽象単
語辞書44を参照し、抽象度の高い語に対しては、その
語句の意味を特定するために必要な修飾語にもマークす
る。以後、重要関係テーブル43による重要関係にある
要素のマークと、抽象単語辞書44による抽象語に対す
るする修飾語のマークとを交互に繰り返す。
【0053】重要関係マーク機構部42によるマーキン
グが一旦終了したら、重要文要素マーク機構部45によ
り重要単語として指定された要素のマーキングが行わ
れ、重要関係マーク機構部42に戻される。そして、重
要関係マーク機構部42は、再度同様のマーキング処理
を実行する。
【0054】このような構成の文短縮装置に、例えば、
以下のような文が入力文21として入力された場合を考
える。 「米国パソコンメーカ向けメモリの輸出が好調な半導体
も、円高による採算の悪化に加え、需要一巡の兆しが出
てきた。」 この入力文21は、まず構造解析機構部41によって解
析される。
【0055】図15は、関係解析結果を示す図である。
このような解析結果が、重要関係マーク機構部42に渡
され、ルートノードである「出る」に対して重要な関係
を有する要素がマークされる。
【0056】図16は、重要関係のマーク結果を示す図
である。この例では、「半導体」、「悪化」、「加
え」、「兆し」の語がマークされている。重要関係マー
ク機構部42は、マークされた要素の中から、抽象単語
辞書44の見出しに登録されている要素を抽出し、その
要素に対して、抽象単語辞書44で指定された修飾関係
の係り側をマークする。
【0057】図17は、抽象単語に対する重要関係のマ
ーク結果を示す図である。この例では、 「兆し」に対して、「の」(属性・部分)で修飾する
「一巡」 「悪化」に対して、「の」(属性・部分)で修飾する
「採算」 がマークされている。この結果に対して、再び重要関係
テーブル43を用いたマーキングを繰り返す。
【0058】図18は、最終的なマーク結果を示す図で
ある。ここでは、さらに「一巡」に対して、「名詞連
続」関係で修飾している「需要」が加えられている。こ
の例文では、これ以上マークすべき要素がないため、文
生成機構部46では、以下のような短縮文が生成され
る。 「半導体も、採算の悪化に加え、需要一巡の兆しが出て
きた。」 このように、抽象単語辞書44を用いて抽象度の高い単
語には、必ず所定の修飾関係を有する係り側を付加する
ことにより、意味の通らない文が生成されてしまう危険
性を回避できる。
【0059】次に、第4の実施の形態について説明す
る。この実施の形態は、重要単語としてマークすべき語
を、入力された文書を解析することにより抽出するもの
である。
【0060】図19は、本発明の第4の実施の形態の概
略構成を示す図である。この実施の形態における構造解
析機構部53、重要関係マーク機構部54、重要関係テ
ーブル55、必須修飾関係指定辞書56、重要文要素マ
ーク機構部57、文生成機構部58及び表示装置59
は、第1の実施の形態(図2に示す)の同名の構成要素
と同様の機能を有しているため、説明を省略する。
【0061】キーワード抽出機構部51は、入力文書6
1を受け取ると、その入力文書61から重要な単語を抽
出する。この方法の1つとして、単語の出現頻度を利用
する方法がある。すなわち、出現頻度の高い単語をキー
ワードとして抽出する。また、単語の一般性が高く、多
くの文書で頻出する単語の影響を避ける方法として、t
f*IDF積によるスコアを用いる方法がある。この方
法は、G. Salton "Automatic Text Processing," Addis
on-Wesley (1989)などに記載されている。この場合、あ
る文書において、各単語にこのスコアを付与し、スコア
の高い上位から一定数の単語または一定スコア以上の単
語を重要単語とする。
【0062】重要文選択機構部52は、キーワード群6
2に基づいて入力文書61から重要文を選択する。選択
した重要文が短縮されるべき入力文21となる。重要文
の選択は、例えば、文書の各文について各キーワードの
tf*IDF積を合計し、合計スコアの高いものから一
定数ピックアップする。また、一定スコア以上のものを
全てピックアップしてもよい。
【0063】このようにして、キーワード群62と入力
文21とが得られる。キーワード群62が、重要単語群
として重要文要素マーク機構部57に入力される。ま
た、入力文21が構造解析機構部53に入力される。こ
れにより、以後第1の実施の形態と同様の文短縮処理が
行われる。そして、短縮された文を、入力文書61の抄
録として利用することができる。
【0064】なお、上記の各実施の形態の有する処理機
能は、コンピュータによって実現することができる。そ
の場合、文短縮装置の各機能の処理内容は、コンピュー
タで読み取り可能な記録媒体に記録されたプログラムに
記述されており、このプログラムをコンピュータで実行
することにより、各処理機能がコンピュータで実現され
る。コンピュータで読み取り可能な記録媒体としては、
磁気記録装置や半導体メモリ等がある。市場を流通させ
る場合には、CD−ROMやフロッピーディスケット等
の可搬型記録媒体にプログラムを格納して流通させた
り、ネットワークを介して接続されたコンピュータの記
憶装置に格納しておき、ネットワークを通じて他のコン
ピュータに転送することもできる。コンピュータで実行
する際には、コンピュータ内のハードディスク装置等に
プログラムを格納しておき、メインメモリにロードして
実行する。
【0065】以上説明した各本発明の実施の形態によ
り、以下のような効果が得られる。 (1)重要要素の過削除がない。本発明の第1の実施の
形態の説明に用いた例文「紡績会社Aは中国の有力な絹
紡糸、絹織物企業の上海紡績会社Bとこのほど絹紡織事
業で提携、九月中にも上海市に合弁会社を設立する。」
を従来技術で短縮すると、「紡績会社Aは提携、合弁会
社を設立する。」となる。これでは意味が通りにくい。
これを避けるために、従来技術においても、重要係り受
け関係の要素を増やすことができる(例えば「と」を増
やす)。この場合、「紡績会社Aは上海紡績会社Bと提
携、合弁会社を設立する。」となり、かなり改善され
る。この場合においては、「上海」により、「中国」の
会社であることは想像がつくが、通常はそのようなこと
は期待できない。また、「と」を加えたことにより、他
の文では不要な要素が削除されないことにもなる。
【0066】本発明では、重要単語を落とさずに、「紡
績会社Aは中国の絹紡糸、絹織物企業の上海紡績会社B
と提携、合弁会社を設立する。」と、重要語「中国」を
含んだ文が得られる。そのため、ユーザが内容を想定し
やすい文を要約として提示することができる。
【0067】また、第3の実施の形態の説明に用いた例
文「米国パソコンメーカ向けメモリの輸出が好調な半導
体も、円高による採算の悪化に加え、需要一巡の兆しが
出てきた。」を従来技術で文短縮を行うと「半導体も、
悪化に加え、兆しが出てきた。」と、「悪化」、「兆
し」などの意味の特定がなされず、わかりにくい文書に
なるが、本発明の第3の実施の形態を用いると、「半導
体も、採算の悪化に加え、需要一巡の兆しが出てき
た。」となり、意味を十分理解することができる。 (2)重要文ピックアップに比べて、一文の長さが短
い。
【0068】要約を重要文ピックアップで提示する技術
は多くあるが、重要文となり得るのは、長い文である可
能性が大きいため、要約を読む時間が長くなる。重要度
を落とさず文長を短くする本方式では、読む時間を短く
することができる。第1の実施の形態で使った例(紡績
会社Aは...)では、62文字から40文字と、約6
5%に削減されている。
【0069】以下の表に、本発明により文を短縮した場
合と、単に重要文のピックアップのみを行った場合との
比較結果を示す。
【0070】
【表1】
【0071】この表における「文番号」は、入力された
文書の識別番号である。「文数」は、重要文ピックアッ
プにより抽出された文の数である。「重要文ピックアッ
プ」の欄の「文字数」は、ピックアップされた文の総文
字数であり、「平均文長」は、「文字数」を「文数」で
割った値である。
【0072】「重要文ピックアップ&短縮」の欄の「文
字数」は、本発明により短縮した後の文字数であり、平
均文長は、「文字数」を「文数」で割った値であり、
「縮小率」は、本発明による文の短縮率である。この表
によれば、平均して65.85%の短縮率が得られてい
る。
【0073】
【発明の効果】以上説明したように本発明に係る第1の
文短縮装置では、重要である旨の指定を受けた単語と、
その単語と他の重要な要素との間の経路上の各要素を削
除しないようにしたため、重要な情報を落とすことなく
文を短縮できる。その結果、意味を理解できる範囲で、
文を十分に短縮することができる。
【0074】また、本発明に係る第2の文短縮装置で
は、意味の特定機能が低い要素が選択されると、その要
素の意味を特定させるために必要な係り受け関係の要素
をも選択されるようにしたため、意味の特定機能が低い
単語が単独で文中に表れることがなく、意味を理解でき
る範囲で文を短縮できる。
【0075】また、本発明に係る第1の文短縮プログラ
ムを格納した媒体では、格納されたプログラムをコンピ
ュータで実行することにより、重要である旨の指定を受
けた単語と、その単語と他の重要な要素との間の経路上
の各要素を削除しないような文の短縮処理をコンピュー
タに行わせることが可能となる。
【0076】また、本発明に係る第2の文短縮プログラ
ムを格納した媒体では、格納されたプログラムをコンピ
ュータで実行することにより、意味の特定機能が低い要
素が選択されると、その要素の意味を特定させるために
必要な係り受け関係の要素をも選択されるような文の短
縮処理をコンピュータに行わせることが可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の第1の実施の形態の概略構成を示す図
である。
【図3】関係解析結果を示す図である。
【図4】重要関係テーブルの例を示す図である。
【図5】ルートノードへの重要な係り要素のマーク結果
を示す図である。
【図6】重要単語のマーク結果を示す図である。
【図7】重要単語から既にマークされている要素までの
パスのマーク結果を示す図である。
【図8】新規要素への係り側のマーク結果を示す図であ
る。
【図9】マークされたノードとアークのみを残したグラ
フを示す図である。
【図10】重要関係のマーク結果を示す図である。
【図11】本発明の第2の実施の形態の概略構成を示す
図である。
【図12】重要単語の強調表示の例である。
【図13】本発明の第3の実施の形態の概略構成を示す
図である。
【図14】抽象単語辞書の例を示す図である。
【図15】関係解析結果を示す図である。
【図16】重要関係のマーク結果を示す図である。
【図17】抽象単語に対する重要関係のマーク結果を示
す図である。
【図18】最終的なマーク結果を示す図である。
【図19】本発明の第4の実施の形態の概略構成を示す
図である。
【符号の説明】
1 構文解析手段 2 重要関係選択手段 3 重要関係テーブル 4 重要文要素選択手段 5 文生成手段 6 文 6a 解析結果 6b 重要関係選択結果 6c 重要文要素選択結果 6d 短縮文 7 重要語

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文を短縮する文短縮装置において、 入力された文の構成要素間の係り受け関係を解析する構
    文解析手段と、 係り受け関係の重要度が設定された重要関係テーブルを
    参照することにより、前記構文解析手段による解析結果
    中の基本となる要素に対して、重要な係り受け関係を辿
    ることにより到達できる各要素を選択する重要関係選択
    手段と、 特定の要素が重要である旨の指定を受けると、前記構文
    解析手段による解析結果中の指定された要素を選択する
    と共に、指定された要素から他の選択済みの要素までの
    経路上の各要素を選択する重要文要素選択手段と、 前記構文解析手段による解析結果中の選択された要素に
    基づいて、短縮文を生成する文生成手段と、 を有することを特徴とする文短縮装置。
  2. 【請求項2】 所定の単語に対して不可欠な修飾句が登
    録された必須修飾関係記憶手段を更に有し、 前記重要関係選択手段は、前記必須修飾関係記憶手段に
    登録された単語を選択した際には、選択した単語に対し
    て不可欠な修飾句とされている要素をも選択することを
    特徴とする請求項1記載の文短縮装置。
  3. 【請求項3】 意味の特定機能が低い単語に対する、意
    味を特定させるために必要な係り受け関係が登録された
    抽象単語記憶手段を更に有し、 前記重要関係選択手段は、前記抽象単語記憶手段に登録
    された単語を選択した際には、選択した単語の意味を特
    定するために必要な係り受け関係にある要素をも選択す
    ることを特徴とする請求項1記載の文短縮装置。
  4. 【請求項4】 文書が入力されると、入力された文書中
    の重要な単語を抽出するキーワード抽出手段を更に有
    し、 前記重要文要素選択手段は、前記キーワード抽出手段に
    より抽出された単語を重要語として受け取ることを特徴
    とする請求項1記載の文短縮装置。
  5. 【請求項5】 文書が入力されると、入力された文書中
    の各文の重要度を評価し、重要度の高い文を前記構文解
    析手段に入力する重要文選択手段を更に有することを特
    徴とする請求項1記載の文短縮装置。
  6. 【請求項6】 前記文生成手段が生成した文に対し、前
    記重要文要素選択手段によって選択された要素を強調し
    て表示するための設定を付加する強調可視化手段を更に
    有することを特徴とする請求項1記載の文短縮装置。
  7. 【請求項7】 文を短縮する文短縮装置において、 入力された文の構成要素間の係り受け関係を解析する構
    文解析手段と、 意味の特定機能が低い単語に対する、意味を特定させる
    ために必要な係り受け関係が登録された抽象単語記憶手
    段と、 係り受け関係の重要度が設定された重要関係テーブルを
    参照することにより、前記構文解析手段による解析結果
    中の基本となる要素に対して、重要な係り受け関係を辿
    ることにより到達できる各要素を選択すると共に、前記
    抽象単語記憶手段に登録された単語を選択した際には、
    選択した単語の意味を特定するために必要な係り受け関
    係にある要素をも選択する重要関係選択手段と、 前記構文解析手段による解析結果中の選択された要素に
    基づいて、短縮文を生成する文生成手段と、 を有することを特徴とする文短縮装置。
  8. 【請求項8】 コンピュータに文の短縮を行わせるため
    の文短縮プログラムを記録した媒体において、 入力された文の構成要素間の係り受け関係を解析する構
    文解析手段、 係り受け関係の重要度が設定された重要関係テーブルを
    参照することにより、前記構文解析手段による解析結果
    中の基本となる要素に対して、重要な係り受け関係を辿
    ることにより到達できる各要素を選択する重要関係選択
    手段、 特定の要素が重要である旨の指定を受けると、前記構文
    解析手段による解析結果中の指定された要素を選択する
    と共に、指定された要素から他の選択済みの要素までの
    経路上の各要素を選択する重要文要素選択手段、 前記構文解析手段による解析結果中の選択された要素に
    基づいて、短縮文を生成する文生成手段、 としてコンピュータを機能させるための文短縮プログラ
    ムを記録した媒体。
  9. 【請求項9】 コンピュータに文の短縮を行わせるため
    の文短縮プログラムを記録した媒体において、 入力された文の構成要素間の係り受け関係を解析する構
    文解析手段、 意味の特定機能が低い単語に対する、意味を特定させる
    ために必要な係り受け関係が登録された抽象単語記憶手
    段、 係り受け関係の重要度が設定された重要関係テーブルを
    参照することにより、前記構文解析手段による解析結果
    中の基本となる要素に対して、重要な係り受け関係を辿
    ることにより到達できる各要素を選択すると共に、前記
    抽象単語記憶手段に登録された単語を選択した際には、
    選択した単語の意味を特定するために必要な係り受け関
    係にある要素をも選択する重要関係選択手段、 前記構文解析手段による解析結果中の選択された要素に
    基づいて、短縮文を生成する文生成手段、 としてコンピュータを機能させるための文短縮プログラ
    ムを記録した媒体。
JP9163648A 1997-06-20 1997-06-20 文短縮装置及び文短縮プログラムを記録した媒体 Pending JPH1115830A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9163648A JPH1115830A (ja) 1997-06-20 1997-06-20 文短縮装置及び文短縮プログラムを記録した媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9163648A JPH1115830A (ja) 1997-06-20 1997-06-20 文短縮装置及び文短縮プログラムを記録した媒体

Publications (1)

Publication Number Publication Date
JPH1115830A true JPH1115830A (ja) 1999-01-22

Family

ID=15777942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9163648A Pending JPH1115830A (ja) 1997-06-20 1997-06-20 文短縮装置及び文短縮プログラムを記録した媒体

Country Status (1)

Country Link
JP (1) JPH1115830A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
US6378348B1 (en) * 1999-08-04 2002-04-30 Hirotec Corporation Hemming process and hemming apparatus
JP2006338133A (ja) * 2005-05-31 2006-12-14 Ntt Data Corp 情報抽出装置、情報抽出方法及びプログラム
JP2012194619A (ja) * 2011-03-15 2012-10-11 Nec Corp 文書要約装置、方法、およびプログラム
JP2014219833A (ja) * 2013-05-08 2014-11-20 株式会社リコー 文書読解支援装置、文書読解支援システムおよびプログラム
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
WO2022090849A1 (ja) * 2020-10-30 2022-05-05 株式会社半導体エネルギー研究所 読解支援システム及び読解支援方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPH0293866A (ja) * 1988-09-30 1990-04-04 Toshiba Corp 要約生成方法および要約生成装置
JPH02181261A (ja) * 1989-01-05 1990-07-16 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPH0293866A (ja) * 1988-09-30 1990-04-04 Toshiba Corp 要約生成方法および要約生成装置
JPH02181261A (ja) * 1989-01-05 1990-07-16 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
US6378348B1 (en) * 1999-08-04 2002-04-30 Hirotec Corporation Hemming process and hemming apparatus
JP2006338133A (ja) * 2005-05-31 2006-12-14 Ntt Data Corp 情報抽出装置、情報抽出方法及びプログラム
JP4694258B2 (ja) * 2005-05-31 2011-06-08 株式会社エヌ・ティ・ティ・データ 情報抽出装置、情報抽出方法及びプログラム
JP2012194619A (ja) * 2011-03-15 2012-10-11 Nec Corp 文書要約装置、方法、およびプログラム
JP2014219833A (ja) * 2013-05-08 2014-11-20 株式会社リコー 文書読解支援装置、文書読解支援システムおよびプログラム
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
WO2022090849A1 (ja) * 2020-10-30 2022-05-05 株式会社半導体エネルギー研究所 読解支援システム及び読解支援方法

Similar Documents

Publication Publication Date Title
US5341469A (en) Structured text system
KR100324456B1 (ko) 구조화문서검색표시방법및장치
US7840891B1 (en) Method and system for content extraction from forms
US7373634B2 (en) User configurable language independent code assist method, system, article of manufacture, and computer program product
JPH0293866A (ja) 要約生成方法および要約生成装置
US20050283453A9 (en) Concept navigation in data storage systems
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JPH08241332A (ja) 全文登録語検索装置および方法
JPH07325827A (ja) ハイパーテキスト自動生成装置
JPH04229364A (ja) 強調特性変更方法及びシステム
Cowan et al. Rita - an Editor and User Interface for Manipulating Structured Documents
JPH07311764A (ja) 文書査読支援システム
JPH11184865A (ja) 文書要約装置
JP3431836B2 (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
US7562343B2 (en) User configurable language independent code assist engine method, system, article of manufacture, and computer program product
JPH1115830A (ja) 文短縮装置及び文短縮プログラムを記録した媒体
JP2005173999A (ja) 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
JP4301879B2 (ja) 抄録作成支援システム及び特許文献検索システム
JPH0877196A (ja) 文書情報抽出装置
JPH08329108A (ja) テキストのハイパーテキスト化方法
JP3707133B2 (ja) 文書データベース管理装置および文書データベース管理方法
Lakshmi et al. Web structure analysis for information mining
Rosén et al. Creating and exploring LFG treebanks
JP4468608B2 (ja) 意味情報推定装置、意味情報推定方法、及びプログラム
JPH0743728B2 (ja) 要約文生成方式