JPH11272664A - テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 - Google Patents

テキスト構造解析装置および抄録装置、並びにプログラム記録媒体

Info

Publication number
JPH11272664A
JPH11272664A JP10070288A JP7028898A JPH11272664A JP H11272664 A JPH11272664 A JP H11272664A JP 10070288 A JP10070288 A JP 10070288A JP 7028898 A JP7028898 A JP 7028898A JP H11272664 A JPH11272664 A JP H11272664A
Authority
JP
Japan
Prior art keywords
importance
text
important
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10070288A
Other languages
English (en)
Other versions
JP3429184B2 (ja
Inventor
Takehiko Yoshimi
毅彦 吉見
Toshiyuki Okunishi
稔幸 奥西
Takahiro Yamaji
孝浩 山路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP07028898A priority Critical patent/JP3429184B2/ja
Priority to US09/271,569 priority patent/US6374209B1/en
Publication of JPH11272664A publication Critical patent/JPH11272664A/ja
Application granted granted Critical
Publication of JP3429184B2 publication Critical patent/JP3429184B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 精度の高いテキスト構造解析を行う。 【解決手段】 テキスト入力手段1は、入力テキストを
文に分割し、番号を付して記憶手段8のテキストデータ
ベースに格納する。重要語認識手段2は、各文毎に重要
語リストを作成して記憶手段8に格納する。重要語重み
手段付け手段3は、各重要語に重みを付与する。関連度
計算手段4は注目文と先行文との関連度を算出する。重
要度計算手段5は注目文の重要度を算出する。木構造決
定手段6は、注目文の親文を決定し、入力テキストの木
構造を決定する。こうすることによって、単なるキーワ
ードの文字列一致の場合とは異なり、二つの文の間のつ
ながりの強さに基づいて各文の親文を決定することがで
き、精度の高いテキスト構造解析を行うことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、自然言語で記述
されたテキストの構造を解析するテキスト構造解析装
置、および、上記テキストから重要な要素を選択して抄
録を作成する抄録装置に関する。
【0002】
【従来の技術】近年、電子化テキストの急激な増加に伴
って、テキストの構造を解析したり、テキストから重要
な文を選択したりするテキスト処理技術の必要性が高ま
ってきている。上記テキストから重要な文を選択して抄
録を作成するためには、先ず上記テキストの構造を解析
し、テキストを構成する各文の重要度を評価する必要が
ある。
【0003】従来、上述のように、テキストの構造を解
析して各文の重要度を評価し、その評価結果から抄録を
作成するものとして、特開平2−112069号公報に
開示されているような自動要約方式がある。この自動要
約方式では、・テキストを構成する文Sjに含まれるキ
ーワードと文字列が一致するキーワードを含む先行文S
のうち、文Sjに最も近い文を文Sjの親文とする。この
操作によって、上記テキストの構造が木構造で表現され
る。・上記操作によって得られた木構造上において、テ
キストの先頭文(木構造の根節点)から上記テキストの最
後尾文までを結ぶパスに含まれる文を重要文とみなし、
この重要文の連鎖を要約文とする。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の自動要約方式においては以下のような問題がある。 (1) キーワードの文字列一致だけでは二つの文のつな
がりを十分に捕らえ切れない。特に、テキストが複数の
サブトピックから構成されている場合にはこの傾向が顕
著である。すなわち、例えばトピックが切り替わると、
それまで文に現れていたキーワードとは異なるキーワー
ドが数多く現れるようになるからである。 (2) ある文Sの親文を決定する際に、親文候補のうち
どの文が親文として最も適切かを決定するための親文候
補比較が十分には行われていないために、テキスト構造
解析の精度があまり高くない。 (3) テキストの先頭文から最後尾文までを結ぶパスは
比較的長くなる可能性が高い。したがって、このパスに
含まれる文を重要文として選択すると、十分簡潔な抄録
が作成されない。
【0005】そこで、この発明の目的は、精度の高いテ
キストの構造解析を行うテキスト構造解析装置、およ
び、精度が高く簡潔な抄録を得る抄録装置を提供するこ
とにある。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、請求項1に係る発明は、テキストを構成する各要素
の間のつながりを解析し,この解析結果に基づいて上記
各要素を節点とする木構造によって上記テキストの構造
を表現するテキスト構造解析装置であって、入力された
テキストを上記要素に分割して,各要素の上記入力テキ
スト上における出現位置関係を記憶する要素出現位置記
憶手段と、上記出現位置関係を参照して注目要素の先行
要素を求め,上記注目要素と各先行要素とのつながりの
強さを表す関連度を算出する関連度計算手段と、上記注
目要素と各先行要素との関連度および上記入力テキスト
の先頭要素の重要度に基づいて上記注目要素の重要度を
算出する重要度計算手段と、上記注目要素の重要度とし
て最適値を与える先行要素を当該注目要素の親要素とす
ることによって,入力テキストの木構造を決定する構造
決定手段と、上記決定された入力テキストの木構造を出
力する出力手段を備えたことを特徴としている。
【0007】上記構成によれば、入力テキストの木構造
における各要素の親要素が、注目要素と各先行要素との
つながりの強さを表す関連度と、この関連度に基づく各
要素の重要度とが考慮されて決定される。こうして、二
つの要素間のつながりを十分考慮した親要素候補比較が
行われて、注目要素との関連性が高い最も重要な要素の
みを親要素とする精度の高いテキスト構造解析が行われ
る。
【0008】また、請求項2に係る発明は、請求項1に
係る発明のテキスト構造解析装置において、上記要素
は、文であることを特徴としている。
【0009】上記構成によれば、二つの文間のつながり
を十分考慮した親文候補比較が行われて、注目文との関
連性が高い最も重要な文のみを親文とする精度の高いテ
キスト構造解析が行われる。
【0010】また、請求項3に係る発明は、請求項1に
係る発明のテキスト構造解析装置において、上記各要素
を構成する語の中から重要語を認識する重要語認識手段
と、上記認識された各重要語に重みを付与する重要語重
み付け手段を備えると共に、上記関連度算出手段は,上
記注目要素中の重要語の原形と先行要素中の重要語の原
形との文字列同士を照合する重要語照合手段を有して,
上記注目要素と先行要素とに共通する全重要語の重みの
合計値と,上記注目要素中あるいは先行要素中の全重要
語の数とに基づいて,上記注目要素と先行要素との関連
度を算出するようになっていることを特徴としている。
【0011】上記構成によれば、上記注目要素と先行要
素とに共通する重要語が存在する場合に、上記両要素間
に対して、上記注目要素と先行要素とに共通する全重要
語の重みの合計値に応じた関連度が与えられる。こうし
て、上記関連度が、上記注目要素と先行要素とのつなが
りの強さに応じて最適に与えられる。
【0012】また、請求項4に係る発明は、請求項3に
係る発明のテキスト構造解析装置において、上記重要語
とすべき品詞が格納された重要語情報格納手段を備える
と共に、上記重要語認識手段は、上記各要素中における
語の品詞を認識する品詞認識手段と、上記認識された品
詞と上記重要語とすべき品詞とを照合する品詞照合手段
を有して、上記各要素中の語のうち上記重要語とすべき
品詞に該当する語を上記重要語として認識するようにな
っていることを特徴としている。
【0013】上記構成によれば、上記重要語が、予め設
定されて格納された品詞の種類に基づいて認識される。
したがって、上記重要語は、辞書を引くことによって簡
単に認識される。
【0014】また、請求項5に係る発明は、請求項1に
係る発明のテキスト構造解析装置において、上記各要素
を構成する語の中から重要語を認識する重要語認識手段
と、上記認識された各重要語の意味素性を認識する意味
素性認識手段と、二つの意味素性の上位下位関係,類義
関係,全体部分関係等を表す概念体系を格納する概念体
系格納手段を備えると共に、上記関連度算出手段は、上
記概念体系を参照して、上記注目要素中の重要語の意味
素性と先行要素中の重要語の意味素性とに上記上位下位
関係,類義関係,全体部分関係等が成立する場合に上記両
重要語間に語彙的つながりがあると見なす重要語間つな
がり判定手段を有して、上記注目要素と先行要素とにお
ける上記語彙的つながりがある全重要語の重みの合計値
と、上記注目要素中あるいは先行要素中の全重要語の数
とに基づいて、上記注目要素と先行要素との関連度を算
出するようになっていることを特徴としている。
【0015】上記構成によれば、上記注目要素中の重要
語の意味素性と先行要素中の重要語の意味素性とに上位
下位関係,類義関係,全体部分関係等が成立する場合には
上記両重要語間に語彙的つながりがあると見なし、上記
注目要素と先行要素とに対して、上記両要素間における
上記語彙的つながりがある全重要語の重みの合計値に応
じた関連度が与えられる。こうして、上記関連度が、上
記注目要素と先行要素とのつながりの強さに応じて最適
に与えられる。
【0016】また、請求項6に係る発明は、テキストを
構成する各要素の間のつながりを解析し,この解析結果
に基づいて上記各要素に重要度を付与し,上記重要度の
高い順に要素を選択して上記テキストの抄録を作成する
抄録装置であって、入力されたテキストを上記要素に分
割して,各要素の上記入力テキスト上における出現位置
関係を記憶する要素出現位置記憶手段と、特定要素を構
成する語の中から特定語を認識して特定語のリストを作
成し,この作成された特定語リストを上記入力テキスト
の先頭要素の前に付加する特定語リスト作成手段と、上
記特定語リストを先頭要素とする上記要素の出現位置関
係を参照して注目要素の先行要素を求め,上記注目要素
と各先行要素とのつながりの強さを表す関連度を算出す
る関連度計算手段と、上記注目要素と各先行要素との関
連度および上記特定語リストの重要度に基づいて上記注
目要素の重要度を算出する重要度計算手段と、上記算出
された重要度が最も高い要素から降順に所定数の要素を
選択する要素選択手段と、上記選択された上記所定数の
要素を入力テキストの抄録として出力する出力手段を備
えたことを特徴としている。
【0017】上記構成によれば、上記入力テキストの抄
録が、注目要素と各先行要素のつながりの強さを表す関
連度に基づいて上記注目要素の重要度が算出され、この
重要度が最も高い要素から降順に所定数の要素を選択す
ることによって求められる。こうして、二つの要素間の
つながりを十分考慮した親要素候補比較が行われて特定
語リストとの関連性が高い重要な要素のみが抄録として
選択され、精度が高く簡潔な抄録が作成される。
【0018】また、請求項7に係る発明は、請求項6に
係る発明の抄録装置において、上記要素は文であること
を特徴としている。
【0019】上記構成によれば、二つの文間のつながり
を十分考慮した親文候補比較が行われて、特定語リスト
との関連性が高い重要な文のみが抄録として選択され
る。
【0020】また、請求項8に係る発明は、請求項6に
係る発明の抄録装置において、上記特定語とすべき品詞
が格納された特定語情報格納手段を備えると共に、上記
特定語リスト作成手段は,タイトルを表す要素を構成す
る語の品詞を認識する品詞認識手段と,上記認識された
品詞と上記特定語とすべき品詞とを照合する品詞照合手
段を有して,上記タイトルを表す要素を構成する語のう
ち上記特定語とすべき品詞に該当する語を上記特定語と
して認識するようになっていることを特徴としている。
【0021】上記構成によれば、上記特定語が、予め設
定されて格納された品詞の種類に基づいて認識される。
したがって、上記特定語は、辞書を引くことによって簡
単に認識される。
【0022】また、請求項9に係る発明は、テキストを
構成する各要素の間のつながりを解析し,この解析結果
に基づいて上記各要素に重要度を付与し,上記重要度の
高い順に要素を選択して上記テキストの抄録を作成する
抄録装置であって、入力されたテキストを上記要素に分
割して,各要素の上記入力テキスト上における出現位置
関係を記憶する要素出現位置記憶手段と、上記入力テキ
ストを上記要素より大きな断片に分割する断片分割手段
と、上記各断片内において,特定要素を構成する語の中
から特定語を認識して特定語のリストを作成し,この作
成された特定語リストを該当する断片の先頭要素の前に
付加する特定語リスト作成手段と、上記各断片内におい
て,上記特定語リストを先頭要素とする上記要素の出現
位置関係を参照して注目要素の先行要素を求め,上記注
目要素と各先行要素とのつながりの強さを表す関連度を
算出する関連度計算手段と、上記各断片内において,上
記注目要素と各先行要素との関連度および上記特定語リ
ストの重要度に基づいて上記注目要素の重要度を算出す
る断片内重要度計算手段と、上記各断片の重要度を設定
する断片重要度設定手段と、上記注目要素の断片内での
重要度と上記注目要素が属する断片の重要度とに基づい
て,上記注目要素の上記入力テキスト全体内での重要度
を算出する全体重要度計算手段と、上記算出された入力
テキスト全体内での重要度が最も高い要素から降順に所
定数の要素を選択する要素選択手段と、上記選択された
上記所定数の要素を入力テキストの抄録として出力する
出力手段を備えたことを特徴としている。
【0023】上記構成によれば、上記要素よりも大きな
断片内で、注目要素と各先行要素とのつながりの強さを
表す関連度に基づいて上記注目要素の重要度が算出され
る。また、上記注目要素が属する断片の重要度が設定さ
れる。そして、上記注目要素の断片内での重要度と上記
注目要素が属する断片の重要度とに基づいて上記注目要
素の上記入力テキスト全体内での重要度(全体重要度)が
算出され、この全体重要度が最も高い要素から降順に所
定数の要素を選択することによって上記入力テキストの
抄録が作成される。こうして、上記断片内での各要素の
重要度を一旦求め、この断片内での重要度を踏まえて上
記全体重要度を求めることによって、上記断片毎に上記
特定語リストとの関連性が高い重要な要素のみが抄録候
補として選択される。したがって、上記断片毎に記述内
容が変化して行っても夫々の断片に関する抄録が各断片
の重要度に応じて漏れなく作成される。
【0024】また、請求項10に係る発明は、請求項9
に係る発明の抄録装置において、上記要素は文であり、
上記断片は段落であることを特徴としている。
【0025】上記構成によれば、上記入力テキストを構
成する各段落毎に上記特定語リストとの関連性が高い重
要な文のみが抄録として選択され、上記段落毎に記述内
容が変化して行っても夫々の段落に関する抄録が各段落
の重要度に応じて漏れなく作成される。
【0026】また、請求項11に係る発明は、請求項9
に係る発明の抄録装置において、上記各断片に与える重
要度を上記入力テキスト中における当該断片の出現位置
に応じて分類して格納する断片重要度格納手段を備える
と共に、上記断片重要度設定手段は,上記特定語リスト
を先頭要素とする上記要素の出現位置関係を参照して注
目断片の上記入力テキスト上の出現位置を求め,上記断
片重要度格納手段に格納された各断片の出現位置を参照
して上記注目断片の重要度を設定するようになっている
ことを特徴としている。
【0027】上記構成によれば、上記入力テキスト上の
出現位置に応じて分類された上記各断片の重要度が予め
格納される。したがって、例えば、重要要素が多く含ま
れると予想される先頭断片に高い重要度を予め与えてお
けば、自動的に、先頭断片との関連度が高い断片内から
優先的に重要要素が選択されて抄録が作成される。
【0028】また、請求項12に係る発明のプログラム
記録媒体は、入力テキストを要素に分割して各要素の上
記入力テキスト上における出現位置関係を記憶する要素
出現位置記憶手段、注目要素と各先行要素とのつながり
の強さを表す関連度を算出する関連度計算手段、上記注
目要素と各先行要素との関連度および上記入力テキスト
の先頭要素の重要度に基づいて上記注目要素の重要度を
算出する重要度計算手段、上記注目要素の重要度として
最適値を与える先行要素を当該注目要素の親要素として
上記入力テキストの木構造を決定する構造決定手段、お
よび、上記決定された入力テキストの木構造を出力する
出力手段を機能させるためのテキスト構造解析プログラ
ムが記録されたことを特徴としている。
【0029】上記構成によれば、請求項1に係る発明と
同様にして、二つの要素間のつながりを十分考慮した親
要素候補比較が行われ、注目要素との関連性が高い最も
重要な要素のみを親要素とする精度の高いテキスト構造
解析が行われる。
【0030】また、請求項13に係る発明のプログラム
記録媒体は、入力テキストを要素に分割して各要素の上
記入力テキスト上における出現位置関係を記憶する要素
出現位置記憶手段、特定要素を構成する語の中から認識
した特定語のリストを作成して上記入力テキストの先頭
要素の前に付加する特定語リスト作成手段、注目要素と
各先行要素とのつながりの強さを表す関連度を算出する
関連度計算手段、上記注目要素と各先行要素との関連度
および上記特定語リストの重要度に基づいて上記注目要
素の重要度を算出する重要度計算手段、上記算出された
重要度が最も高い要素から降順に所定数の要素を選択す
る要素選択手段、および、上記選択された上記所定数の
要素を入力テキストの抄録として出力する出力手段を機
能させるための抄録作成プログラムが記録されたことを
特徴としている。
【0031】上記構成によれば、請求項6に係る発明と
同様にして、特定語リストとの関連性が高い重要な要素
のみが抄録として選択されて、精度が高く簡潔な抄録が
作成される。
【0032】また、請求項14に係る発明のプログラム
記録媒体は、入力テキストを上記要素に分割して各要素
の上記入力テキスト上における出現位置関係を記憶する
要素出現位置記憶手段、上記入力テキストを上記要素よ
り大きな断片に分割する断片分割手段、上記各断片内に
おいて特定要素を構成する語の中から認識した特定語の
リストを作成して該当する断片の先頭要素の前に付加す
る特定語リスト作成手段、上記各断片内において注目要
素と各先行要素とのつながりの強さを表す関連度を算出
する関連度計算手段、上記各断片内において上記注目要
素と各先行要素との関連度および上記特定語リストの重
要度に基づいて上記注目要素の重要度を算出する断片内
重要度計算手段、上記各断片の重要度を設定する断片重
要度設定手段、上記注目要素の断片内での重要度と上記
注目要素が属する断片の重要度とに基づいて上記注目要
素の上記入力テキスト全体内での重要度を算出する全体
重要度計算手段、上記算出された入力テキスト全体内で
の重要度が最も高い要素から降順に所定数の要素を選択
する要素選択手段、および、上記選択された上記所定数
の要素を入力テキストの抄録として出力する出力手段を
機能させるための抄録作成プログラムが記録されたこと
を特徴としている。
【0033】上記構成によれば、請求項9に係る発明と
同様にして、上記要素より大きな断片毎に特定語リスト
との関連性が高い重要な要素のみが抄録候補として選択
される。こうして、上記断片毎に記述内容が変化して行
っても夫々の断片に関する抄録が各断片の重要度に応じ
て漏れなく作成される。
【0034】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。
【0035】<第1実施の形態>本実施の形態は、精度
の高いテキスト構造解析を行うことができるテキスト構
造解析装置に関する。図1は、本実施の形態のテキスト
構造解析装置のブロック図である。
【0036】テキスト入力手段1は、解析の対象となる
テキストを読み込んで、例えば文等の要素Eに分割し、
各要素Eの位置関係が分かるように記憶手段8のテキス
トデータベースに格納する。重要語認識手段2は、分割
された各要素E毎に記憶手段8の辞書を参照して重要語
を認識し、各要素E毎の重要語リストを作成して記憶手
段8に格納する。
【0037】重要語重み付け手段3は、上記各要素Eか
ら抽出された重要語に重みを付与する。関連度計算手段
4は、上記重要語リストと重みとに基づいて、後に詳述
するようにして、注目要素Ejと先行要素Eiとの関連度
を算出する。重要度計算手段5は、上記関連度等に基づ
いて、後に詳述するようにして注目要素Ejの重要度を
算出する。木構造決定手段6は、上記関連度および重要
度等に基づいて、後に詳述するようにして入力テキスト
の構造における注目要素Ejの親要素を得る。そして、
得られた各要素Eの親子関係に従って、上記各要素Eを
節点とする入力テキストの木構造を決定する。出力手段
7は、上記入力テキストの木構造を出力する。
【0038】図2は、上記構成を有するテキスト構造解
析装置によって行われるテキスト構造解析処理のフロー
チャートである。以下、図2に従って、本テキスト構造
解析装置の動作について説明する。尚、ここで、上記要
素Eは文Sであるとするが、例えば段落等の他のもので
あっても差し支えない。
【0039】ステップS1で、上記テキスト入力手段1
によって、解析の対象となるテキストが読み込まれ、二
つの句点で挟まれた部分を文Sとして分割される。そし
て、各文Sに入力順に番号を付加して入力順に記憶手段
8のテキストデータベースに図3に例示するように格納
される。こうすることによって、各文Sの位置関係が分
かるのである。
【0040】ステップS2で、上記重要語認識手段2に
よって、上記テキストデータベースから文Sが読み出さ
れ、記憶手段8の辞書が参照されて重要語が認識され
る。ここで、上記重要語の認識は「品詞」に基づいて行わ
れるものとし、名詞,動詞,形容詞および副詞を重要語と
する。したがって、図3に例示した文S2の場合には、
「active」,「matrix」,「LCD」,「typically」,「use」,「pro
duct」,「LCD」,「color」,「TV」,「control」,「switchin
g」,「element」,「know」,「thin-film」,「transistor」,「thi
n-film」,「diode」,「place」,「pixel」の各語が重要語とし
て抽出される。そして、各文S単位で重要語リストが作
成されて記憶手段8に格納される。図4は、図3に例示
したテキストから得られた重要語の数を示す。
【0041】ステップS3で、上記重要語重み付け手段
3によって、上記各文Sから抽出された重要語に重みが
付与される。ここで、総ての重要語に対して重み値「1」
が付与されるものとする。
【0042】ステップS4で、上記関連度計算手段4に
よって、上記重要語リストと重み値とに基づいて、注目
文Sjと先行文Siとのつながりの強さを表す関連度が算
出される。ここで、上記関連度の算出方法としては、
1)注目文Sjと先行文Siとの距離(注目文Sjと先行文
iとが何文隔たっているか)、2)注目文Sjに含まれ
る重要語の重み又は先行文Siに含まれる重要語の重
み、3)注目文Sjに含まれる重要語と先行文Siに含ま
れる重要語との間の語彙的つながり、4)注目文Sj
含まれる重要語と先行文Siに含まれる重要語との間の
照応等に基づいて求める。以下の説明では、式(1)によ
って注目文Sjと先行文Siとの関連度di-jを求める。
【0043】 di-j=(SjとSiとに含まれる重要語の原形(辞書見出し)の重みの総計) /(Siに含まれる重要語の原形の数) …(1) ここで、式(1)における右辺の分子は、注目文Sjに含
まれる重要語の原形(辞書見出し)と先行文Siに含まれ
る重要語の原形のうち文字列が一致する重要語の重みの
総計(ここでは、総ての重みは「1」であるから「重要語の
重みの総計」は「重要語の数」と同義である)を表してい
る。つまり、式(1)は、請求項3に該当する。
【0044】上記重要語の意味素性間の上位下位関係,
類義関係,全体部分関係等の認識するための概念体系を
利用して二つの重要語間の語彙的つながりを捕らえる場
合、つまり、請求項5に該当する場合には、式(1)を式
(2)のように変形すればよい。 di-j=(Sj中の重要語とSi中の重要語とのうち 類義関係等にあるものの重みの総計) /(Siに含まれる重要語の原形の数) …(2)
【0045】式(1)に従えば、例えば、図3における注
目文S4と先行文S2とに含まれる重要語の原形は「activ
e」,「matrix」,「LCD」の3語であり、先行文S2に含ま
れる重要語は上述のように19語である。したがって、
注目文S4と先行文S2との関連度d2-4はd2-4=3/1
9となる。図5に、図3における各先行文Siと注目文
jとの関連度di-jの表を示す。
【0046】ステップS5で、上記重要度計算手段5に
よって、上記ステップS4において算出された関連度d
i-jの値等に基づいて、注目文Sjの重要度Ijが算出さ
れる。尚、上記重要度Ijの算出は、1)先行文Siの重
要度Iiと、2)注目文Sjと先行文Siとの関連度di-j
とに基づいて、式(3)によって算出される。
【数1】
【0047】したがって、図3に示すテキストの場合に
は、各文Sjの重要度Ijが以下のように算出される。但
し、先頭の文S1の重要度I1は「1」とする。 文S2の重要度 I2=I1×d1-2=1×0/3 =0 文S3の重要度 I3=max{I1×d1-3,I2×d2-3} =max{1×0/3,0×0/19} =0 文S4の重要度 I4=max{I1×d1-4,I2×d2-4,I3×d3-4} =max{1×3/3,0×3/19,0×0/13} =1 文Sの重要度 I5=max{I1×d1-5,I2×d2-5, I3×d3-5,I4×d4-5} =max{1×0/3,0×6/19, 0×0/13,1×2/12} =1/6 以下、同様にして文S6〜文S10の重要度I5〜I10が算
出される。図6に、図3に示すテキストの各文Sの重要
度Iを示す。
【0048】さらに、上記木構造決定手段6によって、
上記テキストデータベースに格納された図3に示すよう
な入力テキストの木構造が決定される。本実施の形態に
おいては、式(3)において、{(先行文Siの重要度Ii)
×(先行文Siと注目文Sjとの関連度di-j)}の値が最
大となる先行文Siを、注目文Sjの親文とする。但し、
{(先行文Siの重要度Ii)×(先行文Siと注目文Sjとの
関連度di-j)}の値が最大となる先行文Siが複数個存
在する場合には、その中で、注目文Sjに最も近い先行
文Siを親文とする。図6には、各文Sjの親文も併せて
示している。
【0049】尚、図6において、「関連度d」は、上記注
目文Sjと親文の関連度である。また、「文字列一致語」
は、注目文Sjと親文との両方に含まれる重要語の原形
である。但し、記号「φ」は、文字列一致語が存在しない
ことを意味する。また、「親文」の欄における記号「RO
OT」は根節点を意味し、記号「NULL」は親文が存在
しないことを意味する。こうして、各文Sjの親文と根
節点とを求めることよって、上記テキストの木構造が決
定されるのである。
【0050】ステップS6で、上記出力手段7によっ
て、上記ステップS5において決定された各文Sjを節点
とする木構造が、上記テキストの構造解析結果として出
力される。図7は、図3に示すテキストの木構造であ
る。こうして、上記テキストの木構造が出力されると、
テキスト構造解析処理を終了する。
【0051】上述のように、本実施の形態においては、
上記テキスト入力手段1によって、入力されたテキスト
を文Sに分割し、各文Sの位置関係が分かるように番号
を付して記憶手段8のテキストデータベースに格納して
おく。そして、重要語認識手段2によって、各文Sから
重要語を抽出して重要語リストを作成して記憶手段8に
格納しておく。次に、関連度計算手段4によって、上記
重要語リストと各重要語の重みとを用いて、1)注目文
jと先行文Siとの距離、2)注目文Sjに含まれる重
要語の重みまたは先行文Siに含まれる重要語の重み、
3)注目文Sjに含まれる重要語と先行文Siに含まれる
重要語との間の語彙的つながり、4)注目文Sjに含ま
れる重要語と先行文Siに含まれる重要語との間の照応
等に基づいて、注目文Sjと先行文Siとの関連度を算出
する。さらに、重要度計算手段5によって、(注目文Sj
と先行文Siとの関連度di-j)と(先行文Siの重要度
i)との積を総ての先行文Siに関して算出し、その最
大値を注目文Sjの重要度Ijとする。また、上記最大値
を呈する先行文Siを注目文Sjの親文とする。そして、
文S1を根節点として、入力テキストの木構造を決定す
るようにしている。
【0052】したがって、単なるキーワードの文字列一
致の場合とは異なり、注目文Sjと先行文Siとの距離、
2)注目文Sjまたは先行文Siに含まれる重要語の重
み、3)注目文Sjおよび先行文Siに含まれる重要語の
間の語彙的つながり、4)注目文Sjおよび先行文Si
含まれる重要語との間の照応等に基づく注目文Sjと先
行文Siとの関連度dと、先行文Siの重要度Iとを考慮
して、各文Sの親文を決定することができる。すなわ
ち、本実施の形態によれば、二つの文Sのつながりを十
分に考慮した親文候補比較を行うことができる。したが
って、注目文(注目節点)との関連性が高い最も重要な文
(節点)のみを親文(親節点)とすることができ、精度の高
いテキスト構造解析を行うことができるのである。
【0053】以下、上記第1実施の形態の変形例につい
て述べる。 ◎ 重要語認識手段2について 上記実施の形態においては、上記重要語認識手段2を
「品詞」が名詞,動詞,形容詞および副詞である語を重要
語とするように構成しているが、以下のように構成する
ことも可能である。 (1)上記重要語と見なすべき出現頻度の範囲を予め設
定して記憶手段8に記憶しておく。そして、重要語認識
手段2は、入力テキストを構成する語の出現頻度をカウ
ントし、そのカウント値が上記範囲内にあれば当該語を
上記重要語として認識する。そして、出現頻度と共に記
憶しておく。 (2)上記重要語と見なすべき語の出現位置を予め設定
して記憶手段8に記憶しておく。そして、重要語認識手
段2は、入力テキストを構成する語の中から上記出現位
置に在る語と、その語と同じ文字列を有する語とを抽出
し、上記重要語として認識する。そして、出現位置と共
に記憶しておく。 (3)上記重要語と見なすべき語の文字飾りの種類(例
えば、下線等)を予め設定して記憶手段8に記憶してお
く。そして、重要語認識手段2は、入力テキストを構成
する語に付与されている文字飾りの種類を判定し、上記
記憶されている文字飾りと同じ種類の文字飾りが付与さ
れている語と、その語と同じ文字列を有する語とを抽出
し、上記重要語として認識する。そして、文字飾りの種
類と共に記憶しておく。 (4)上記重要語と見なすべき語の文字サイズを予め設
定して記憶手段8に記憶しておく。そして、重要語認識
手段2は、入力テキストを構成する語の文字サイズを判
定し、上記記憶されている文字サイズの語と、その語と
同じ文字列を有する語とを抽出し、上記重要語として認
識する。そして、文字サイズと共に記憶しておく。 (5)上記重要語と見なすべき語の文字書体を予め設定
して記憶手段8に記憶しておく。そして、重要語認識手
段2は、入力テキストを構成する語の文字書体を判定
し、上記記憶されている文字書体の語と、その語と同じ
文字列を有する語とを抽出し、上記重要語として認識す
る。そして、文字書体と共に記憶しておく。 (6)上記重要語と見なすべき語の構文的役割(例え
ば、主文の主語)を予め設定して記憶手段8に記憶して
おく。そして、重要語認識手段2は、入力テキストを構
成する語の上記構文的役割を判定し、上記登録されてい
る構文的役割を果たしている語と、その語と同じ文字列
を有する語とを抽出し、上記重要語として認識する。そ
して、構文的役割と共に記憶しておく。
【0054】◎ 重要語重み付け手段3について 上記実施の形態においては、上記重要語重み付け手段3
を総ての重要語に対して重み値「1」を付与するように構
成しているが、以下のように構成することも可能であ
る。 (1)上記重要語に与える重みの値を、品詞毎に予め設
定して記憶手段8に記憶しておく。そして、重要語重み
付け手段3は、重要語認識手段2によって認識された重
要語の品詞に応じた重みを付与する。 (2)上記重要語に与える重みの値を、出現頻度毎に予
め設定して記憶手段8に記憶しておく。そして、重要語
重み付け手段3は、重要語認識手段2によって認識され
た重要語の出現頻度に応じた重みを付与する。 (3)上記重要語に与える重みの値を、出現位置毎に予
め設定して記憶手段8に記憶しておく。そして、重要語
重み付け手段3は、重要語認識手段2によって認識され
た重要語の出現位置に応じた重みを付与する。 (4)上記重要語に与える重みの値を、文字飾りの種類
毎に予め設定して記憶手段8に記憶しておく。そして、
重要語重み付け手段3は、重要語認識手段2によって認
識された重要語の文字飾りの種類に応じた重みを付与す
る。 (5)上記重要語に与える重みの値を、文字サイズ毎に
予め設定して記憶手段8に記憶しておく。そして、重要
語重み付け手段3は、重要語認識手段2によって認識さ
れた重要語の文字サイズに応じた重みを付与する。 (6)上記重要語に与える重みの値を、文字書体毎に予
め設定して記憶手段8に記憶しておく。そして、重要語
重み付け手段3は、重要語認識手段2によって認識され
た重要語の文字書体に応じた重みを付与する。 (7)上記重要語に与える重みの値を、構文的役割毎に
予め設定して記憶手段8に記憶しておく。そして、重要
語重み付け手段3は、重要語認識手段2によって認識さ
れた重要語の構文的役割に応じた重みを付与する。
【0055】◎ 関連度計算手段4について 上記実施の形態においては、上記関連度計算手段4を、
注目文Sj中の重要語の原形と先行文Si中の重要語の原
形との文字列を照合し、両文Sj,Siに共通する重要語
がある場合に式(1)によって上記関連度dj-iを算出す
るように構成しているが、以下のように構成することも
可能である。 (1)関連度計算手段4は、注目文Sjと先行文Siとの
重要語の品詞,人称,性,数,意味素性を認識して照合し、
注目文Sj中における品詞が代名詞である重要語と先行
文Si中における品詞が名詞または代名詞である重要語
との人称,性,数が夫々一致し、且つ、上記両重要語の意
味素性が上位下位関係に在る場合には、上記両重要語の
間に照応関係が成立するとして式(1)で上記注目文Sj
と先行文Siとの関連度di-jを算出する。 (2)関連度計算手段4は、注目文Sjと先行文Siとの
重要語の語幹を認識して照合し、上記注目文Sjの重要
語の語幹と上記先行文Siとの重要語の語幹との文字列
が一致した場合には、上記両重要語の間に照応関係が成
立するとして式(1)で上記注目文Sjと先行文Siとの関
連度di-jを算出する。 (3)注目文Sjと先行文Siとに関連が在ると見なせる
両文Sj,Si間の距離の閾値を予め設定して記憶手段8
に記憶しておく。そして、関連度計算手段4は、注目文
jと先行文Siとの距離(注目文Sjと先行文Siとが何
文隔たっているか)を測定し、この測定値が上記記憶さ
れた閾値を越えない場合には、式(1)によって上記注目
文Sjと先行文Siとの関連度di-jを算出する。
【0056】<第2実施の形態>本実施の形態は、第1
実施の形態のテキスト構造解析手法を用いて、精度が高
く簡潔な抄録を得ることができる抄録装置に関する。図
8は、本実施の形態の抄録装置のブロック図である。
【0057】テキスト入力手段11,重要語認識手段1
2,重要語重み付け手段13,関連度計算手段14および
重要度計算手段15は、図1に示すテキスト構造解析装
置におけるテキスト入力手段1,重要語認識手段2,重要
語重み付け手段3,関連度計算手段4および重要度計算
手段5と同じ構成を有して、同じように動作する。特定
語リスト作成手段16は、タイトル(例えば要素E1)に
含まれる重要語を抽出し、特定語リスト(テキストの第
0要素E0)の要素として記憶手段19に格納する。要素
選択手段17は、各要素Eの重要度に基づいて重要要素
(重要文)の選択順位を決定する。出力手段18は、上記
選択順位で重要要素を選択して入力テキストの抄録とし
て出力する。
【0058】図9は、上記構成を有する抄録装置によっ
て行われる抄録作成処理のフローチャートである。以
下、図9に従って、本抄録装置の動作について説明す
る。尚、ここで、上記要素Eは文Sであるとするが、例
えば段落等の他のものであっても差し支えない。
【0059】ステップS11で、上記テキスト入力手段1
1によって、第1実施の形態の図2におけるステップS
1と同様にして、入力テキストが文Sに分割され、各文
Sの位置関係が分かるように記憶手段19のテキストデ
ータベースに図3に例示するように格納される。
【0060】ステップS12で、上記重要語認識手段12
によって、第1実施の形態の図2におけるステップS2
と同様にして、記憶手段19の辞書が参照されて重要語
が認識される。そして、各文S単位で重要語リストが作
成されて記憶手段19に格納される。尚、本実施の形態
の場合も、第1実施の形態と同様に名詞,動詞,形容詞お
よび副詞を重要語とするものとする。
【0061】ステップS13で、上記特定語リスト作成手
段16によって、上記タイトルである文S1に存在する
重要語が記憶手段19の辞書が参照されて抽出される。
そして、抽出された上記タイトル中の重要語によって特
定語リストS0が作成され、入力テキストの先頭文S1
前に付加されて上記テキストデータベースが更新され
る。
【0062】ステップS14で、上記重要語重み付け手段
13によって、第1実施の形態の図2におけるステップ
S3と同様にして、各文Sから抽出された重要語に重み
が付与される。ここで、総ての重要語に対して重み値
「1」が付与されるものとする。
【0063】ステップS15で、上記関連度計算手段14
によって、第1実施の形態の図2におけるステップS4
と同様にして、上記重要語リストと重み値とに基づい
て、注目文Sjと特定語リストS0又は先行文Siとの関
連度が算出される。尚、本実施の形態の場合にも、1)
注目文Sjと特定語リストS0又は先行文Siとの距離、
2)注目文Sjに含まれる重要語の重みあるいは特定語
リストS0又は先行文Siに含まれる重要語の重み、3)
注目文Sjに含まれる重要語と特定語リストS0又は先行
文Siに含まれる重要語との間の語彙的つながり、4)
注目文Sjに含まれる重要語と特定語リストS0又は先行
文Siに含まれる重要語との間の照応等に基づいて上記
関連度を算出するものとする。
【0064】ステップS16で、上記重要度計算手段15
によって、第1実施の形態の図2におけるステップS5
と同様にして注目文Sjの重要度Ijが算出される。但
し、本実施の形態においては特定語リストS0の重要度
1を「1」とする。図10に、図3に示す入力テキスト
の特定語リストS0および各文Sの重要度Iを示す。
【0065】ステップS17で、上記要素選択手段17に
よって、各文Sの重要度Iの高い順に各文Sを選択する
重要要素選択が行われて、選択順位が決定される。但
し、重要度Iが同一である文Sがある場合には、先行す
る文Sを優先して選択するものとする。図10に、こう
して決定された図3に示す入力テキストに関する重要要
素の選択順位を示す。ここで、要素選択手段17を、文
Sの総数の例えば25%に当たる数の文を上記重要要素
として選択するように構成しておく。そうすることによ
って、図3に例示する入力テキストの場合には、文Sの
総数は「10」であるから、図10に示す選択順位に従っ
て上位3位までの文S1,S4,S6が選択される。
【0066】ステップS18で、上記出力手段18によっ
て、上記ステップS17において重要要素として選択され
た文Sが、上記ステップS17において決定された選択順
で上記テキストデータベースから読み出されて、抄録と
して出力される。図11は、図3に示す入力テキストか
ら得られた文Sの総数の25%に当たる上位3位までの
文S1,S4,S6から成る抄録である。こうして、上記抄
録が出力されると、抄録作成処理を終了する。
【0067】このように、本実施の形態においては、第
1実施の形態と同様にして、上記テキスト入力手段11
および重要語認識手段12によって入力テキストを各文
Sの位置関係が分かるように記憶手段19のテキストデ
ータベースに格納し、各文Sから重要語リストを作成し
て記憶手段19に格納しておく。そして、特定語リスト
作成手段16によって、タイトル文から重要語が抽出さ
れて特定語リストS0として記憶手段19に格納され
る。その後、第1実施の形態と同様にして、関連度計算
手段14及び重要度計算手段15によって各文Sの重要
度Iを算出する。そして、要素選択手段17によって、
上記各文Sの重要度Iに基づいて重要要素の選択順位を
決定するようにしている。
【0068】すなわち、本実施の形態によれば、単なる
キーワードの文字列一致の場合とは異なり、注目文Sj
と特定語リストS0又は先行文Siとの関連度dを考慮し
た重要度Iに基づいて、つまりは二つの文Sのつながり
を十分に考慮して、上記重要要素としての文Sの選択順
位を決定することができる。したがって、出力手段18
によって、上記決定された選択順位で上記重要文を選択
して抄録として出力することによって、入力テキストの
タイトル文Sから作成された特定語リストS0との関連
性が高い重要な文のみを抄録の要素として選出できる。
そのため、タイトル文に基づく特定リストS0とのつな
がりが不十分な文を抄録から削除することができ、精度
が高く簡潔な抄録を作成できるのである。
【0069】以下、上記第2実施の形態の変形例につい
て述べる。 ◎ 特定語リスト作成手段16について 上記実施の形態においては、上記特定語リスト作成手段
16を「品詞」が名詞,動詞,形容詞及び副詞である語を
特定語として認識するように構成しているが、以下のよ
うに構成することも可能である。 (1)上記特定語と見なすべき出現頻度の範囲を予め設
定して記憶手段19に記憶しておく。そして、特定語リ
スト作成手段16は、入力テキストを構成する語の出現
頻度をカウントし、そのカウント値が上記範囲内にあれ
ば当該語を上記特定語として認識する。そして、出現頻
度と共に記憶しておく。 (2)上記特定語と見なすべき語が属する文の出現位置
を予め記憶手段19に記憶しておく。そして、特定語リ
スト作成手段16は、上記出現位置に在る文中の語を上
記特定語として認識する。そして、出現位置と共に記憶
しておく。 (3)上記特定語と見なすべき語の文字飾りの種類を予
め設定して記憶手段19に記憶しておく。そして、特定
語リスト作成手段16は、入力テキストを構成する語に
付与されている文字飾りの種類を判定し、上記記憶され
ている文字飾りと同じ種類の文字飾りが付与されている
語を上記特定語として認識する。そして、文字飾りの種
類と共に記憶しておく。 (4)上記特定語と見なすべき語の文字サイズを予め設
定して記憶手段19に記憶しておく。そして、特定語リ
スト作成手段16は、入力テキストを構成する語の文字
サイズを判定し、上記記憶されている文字サイズの語を
上記特定語として認識する。そして、文字サイズと共に
記憶しておく。 (5)上記特定語と見なすべき語の文字書体を予め設定
して記憶手段19に記憶しておく。そして、特定語リス
ト作成手段16は、上記入力テキストを構成する語の文
字書体を判定し、上記記憶されている文字書体の語を上
記特定語として認識する。そして、文字書体と共に記憶
しておく。 (6)上記特定語と見なすべき語の上記構文的役割を予
め設定して記憶手段19に記憶しておく。そして、特定
語リスト作成手段16は、入力テキストを構成する語の
上記構文的役割を判定し、上記登録されている構文的役
割を果たしている語を上記特定語として認識する。そし
て、上記構文的役割と共に記憶しておく。 (7)上記特定語と見なすべきでない語(例えば、前置
詞(at,of等)や冠詞(a,an,the等))を予め記憶手段19に
記憶しておく。そして、特定語リスト作成手段16は、
ユーザによる入力語と上記特定語と見なすべきでない語
とを照合し、照合が取れない場合には上記入力語を上記
特定語として認識して記憶しておく。
【0070】<第3実施の形態>本実施の形態は、第1
実施の形態のテキスト構造解析手法を用いて、複数のサ
ブトピックで構成されるテキストから精度が高く簡潔な
抄録を得ることができる抄録装置に関する。図12は、
本実施の形態の抄録装置のブロック図である。
【0071】テキスト入力手段21および重要語重み付
け手段23は、図1に示すテキスト構造解析装置におけ
るテキスト入力手段1及び重要語重み付け手段3と同じ
構成を有して、同じように動作する。断片分割手段25
は、入力テキストを、段落等によってサブトピック毎の
断片Fに分割する。重要語認識手段22,特定語リスト
作成手段28,関連度計算手段24及び断片内重要度計
算手段26の夫々は、断片分割手段25によって分割さ
れた各断片F内において、重要語リストの作成,特定語
リストの作成,各要素Ejの先行要素Eiとの関連度計算,
各要素Eの重要度計算を行う。断片重要度設定手段27
は、各断片F間の相対的な重要度を設定する。全体重要
度計算手段29は、上記断片F内の重要度と断片Fの重
要度とに基づいて各要素Eの入力テキスト全体内での重
要度(以下、全体重要度と言う)を算出する。要素選択手
段30は、各要素Eの上記全体重要度に基づいて重要要
素の選択順位を決定する。出力手段31は、選択された
重要要素を入力テキストの抄録として出力する。
【0072】図13は、上記構成を有する抄録装置によ
って行われる抄録作成処理のフローチャートである。以
下、図13に従って、本抄録装置の動作について説明す
る。尚、ここで、上記要素Eは文Sであり、上記断片F
は段落Pであるとする。
【0073】ステップS21で、上記テキスト入力手段2
1によって、第1実施の形態の図2におけるステップS
1と同様にして、入力テキストが文Sに分割され、各文
Sの位置関係が分かるように番号が付加されて記憶手段
32のテキストデータベースに図14に例示するように
格納される。
【0074】ステップS22で、上記断片分割手段25に
よって、入力テキストが複数の段落Pに分割される。本
実施の形態においては、字下げによって段落Pを認識す
るものとし、字下げされている文Sを段落Pの先頭文と
見なす。図14に例示するテキストの場合には、文S13
が字下げされているので、文S1から文S12までが第1
段落P1となり、文S13から文S22までが第2段落P2
なる。
【0075】ステップS23で、上記重要語認識手段22
によって、第1実施の形態の図2におけるステップS2
と同様にして、記憶手段32の辞書が参照されて重要語
が認識される。そして、各段落P毎に文S単位での重要
語リストが作成されて記憶手段32に格納される。尚、
本実施の形態の場合も、第1実施の形態と同様に、名
詞,動詞,形容詞および副詞を重要語とするものとする。
【0076】ステップS24で、上記特定語リスト作成手
段28によって、各段落P毎に、タイトル文(図14に
例示するテキストの場合には段落P1,P2の先頭文S1,
13)内に存在する重要語が記憶手段32の辞書が参照
されて抽出され、特定語リストS0の要素として記憶手
段32に格納される。
【0077】ステップS25で、上記重要語重み付け手段
23によって、第1実施の形態の図2におけるステップ
S3と同様にして、上記各文Sから抽出された重要語に
重みが付与される。ここで、総ての重要語に対して重み
値「1」が付与されるものとする。
【0078】ステップS26で、上記関連度計算手段24
によって、第1実施の形態の図2におけるステップS4
と同様にして、各段落P毎に、上記重要語リストと重み
値とに基づいて、注目文Sjと特定語リストS0又は先行
文Siとの関連度dが算出される。
【0079】ステップS27で、上記断片内重要度計算手
段26によって、第1実施の形態の図2におけるステッ
プS5と同様にして、各段落P毎に注目文Sjの重要度I
PSjが算出される。但し、本実施の形態においては特定
語リストS0の重要度IPS0を「1」とする。図15に、図
14に例示された入力テキストに関する特定語リストS
0の重要度IPS0および各文Sjの重要度IPSを示す。
尚、図15(a)は第1段落P1内での各文Sの重要度IPS
であり、図15(b)は第2段落P2内での各文Sの重要度
PSである。
【0080】ステップS28で、上記断片重要度設定手段
27によって、各段落P間の相対的な重要度が設定され
る。ここで、通常は、入力テキストの第1段落P1の内
容は他の段落Pkの内容よりも重要であることが多い。
そこで、本実施の形態においては、第1段落P1の重要
度IP1として例えば「1」を与え、第2段落P2の重要度
P2として例えば「0.5」を与える。尚、第3段落P3
降の段落Pkが在る場合には、その段落Pkの重要度IPk
を適宜与えればよい。
【0081】ステップS29で、上記全体重要度計算手段
29によって、上記ステップS27において算出された各
段落P内での各文Sの重要度IPSと、上記ステップS28
によって設定された各段落Pの相対的重要度IPとに基
づいて、式(4)に従って、注目文Sjの入力テキスト全
体内での全体重要度Ijが算出される。 Ij=(Sjが属する段落Pkの重要度IPk) ×(段落Pk内でのSjの重要度IPSj) …(4) 図16に、図14に例示されたテキストの全体重要度I
を示す。尚、全体重要度Iの算出アルゴリズムは、式
(4)に限定されるものではない。
【0082】ステップS30で、上記要素選択手段30に
よって、上記各文Sにおける全体重要度Iの高い順に文
Sが選択されて、重要要素の選択順位が決定される。但
し、全体重要度Iが同一である文Sがある場合には、先
行する文Sを優先して選択するものとする。図16に、
こうして決定された図14に示す入力テキストに関する
重要要素の選択順位を示す。
【0083】ステップS31で、上記出力手段31によっ
て、上記ステップS30において重要要素として選択され
た文Sが、上記ステップS30において決定された選択順
で上記テキストデータベースから読み出されて抄録とし
て出力される。こうして、上記抄録が出力されると、抄
録作成処理を終了する。
【0084】このように、本実施の形態においては、上
記テキスト入力手段21から入力された入力テキスト
を、断片分割手段25によって複数の段落Pに分割す
る。そうした後に、各段落P毎に、重要語認識手段22
によって重要語リストを作成し、特定語リスト作成手段
28によって特定語リストS0を作成し、関連度計算手
段24によって注目文Sjと先行文Siとの関連度dを算
出し、断片内重要度計算手段26によって各文Sの重要
度IPSを算出する。また、断片重要度設定手段27によ
って各段落Pの重要度IPが設定される。その後、全体
重要度計算手段29によって、各段落P内での注目文S
jの重要度IPSjと注目文Sjが属する段落Pkの重要度I
Pkとに基づいて、式(4)に従って注目文Sjの全体重要
度Ijを算出する。そして、要素選択手段30によっ
て、各文Sの全体重要度Iに基づいて重要要素の選択順
位を決定するようにしている。
【0085】上述のように、本実施の形態においては、
サブトピックを有する入力テキストの場合に、上記断片
Eを1つのサブトピックが含まれるように設定すること
によって、各サブトピック内での各文Sの重要度と各文
Sが属するサブトピックの重要度とに基づいて、各文S
の入力テキスト全体内での重要度である全体重要度Iを
求めるようにしている。したがって、各サブトピック内
での重要度を踏まえて各文の全体重要度Iを求めること
ができる。そのために、トピックが切り替わっても夫々
のサブトピック毎にそのサブトピックの重要度に応じて
重要要素を選出でき、複数のサブトピックで構成される
テキストからでも精度の高い抄録を作成できる。また、
その際に、上記重要度として、注目文Sjと先行文Si
の関連度di-jを考慮した重要度を用いている。したが
って、入力テキストのタイトル文Sから作成された特定
語リストとの関連性が高い重要な文のみを抄録の要素と
して選出でき、精度が高く簡潔な抄録を作成できる。
【0086】
【発明の効果】以上より明らかなように、請求項1に係
る発明のテキスト構造解析装置は、入力テキストの各要
素の出現位置関係を記憶し、注目要素と各先行要素との
つながりの強さを表す関連度を算出し、上記関連度と先
頭要素の重要度とに基づいて上記注目要素の重要度を算
出し、上記注目要素の最適重要度を与える先行要素を親
要素として入力テキストの木構造を決定するので、二つ
の要素間のつながりを十分考慮した親要素候補の比較を
行って入力テキストの構文を解析できる。したがって、
この発明によれば、注目要素との関連性が高い最も重要
な要素のみを親要素とする木構造を得ることができ、精
度の高いテキスト構造解析を行うことができる。
【0087】また、請求項2に係る発明のテキスト構造
解析装置における上記要素は文であるので、二つの文の
間のつながりを十分考慮した親文候補の比較を行って上
記入力テキストを解析できる。
【0088】また、請求項3に係る発明のテキスト構造
解析装置は、上記各要素を構成する語の中から重要語を
認識し、この認識された各重要語に重みを付与し、上記
注目要素の重要度と先行要素の重要語とを照合して得ら
れた上記両要素に共通する全重要語の重みの合計値と、
上記注目要素中あるいは先行要素中の全重要語の数とに
基づいて、上記注目要素と先行要素との関連度を算出す
るので、上記注目要素と先行要素とに共通する全重要語
の重みの合計値に応じた関連度を与えることができる。
したがって、この発明によれば、上記注目要素と先行要
素とのつながりの強さに応じた最適な関連度を与えるこ
とができる。
【0089】また、請求項4に係る発明のテキスト構造
解析装置は、上記重要語とすべき品詞を予め設定して格
納し、上記各要素中の語のうち上記重要語とすべき品詞
に該当する語を上記重要語として認識するので、上記重
要語を、辞書を引くことによって簡単に認識できる。
【0090】また、請求項5に係る発明のテキスト構造
解析装置は、上記各要素を構成する語の中から重要語を
認識し、この認識された各重要語の意味素性を認識し、
上記注目要素と先行要素との重要語の意味素性に上位下
位関係,類義関係,全体部分関係等が成立する場合に上記
両重要語間に語彙的つながりがあると見なし、上記注目
要素と先行要素とにおける上記語彙的つながりがある全
重要語の重みの合計値と、上記注目要素中あるいは先行
要素中の全重要語の数とに基づいて、上記注目要素と先
行要素との関連度を算出するので、上記注目要素と先行
要素とのつながりの強さに応じた最適な関連度を与える
ことができる。
【0091】また、請求項6に係る発明の抄録装置は、
入力されたテキストの各要素の出現位置関係を記憶し、
特定要素の中から認識した特定語のリストを上記入力テ
キストの先頭要素の前に付加し、注目要素と各先行要素
とのつながりの強さを表す関連度を算出し、上記関連度
と上記特定語リストの重要度とに基づいて上記注目要素
の重要度を算出し、得られた重要度が最も高い要素から
降順に所定数の要素を選択して上記入力テキストの抄録
として出力するので、二つの要素間のつながりを十分考
慮した親要素候補の比較を行って上記特定語リストとの
関連性が高い重要な要素のみを抄録として選択できる。
したがって、この発明によれば、精度が高く簡潔な抄録
を作成できる。
【0092】また、請求項7に係る発明の抄録装置にお
ける上記要素は文であるので、二つの文間のつながりを
十分考慮した親文候補の比較を行って、特定語リストと
の関連性が高い重要な文のみを抄録として選択できる。
【0093】また、請求項8に係る発明の抄録装置は、
上記特定語とすべき品詞を予め設定して格納し、タイト
ルを表す要素中の語のうち上記特定語とすべき品詞に該
当する語を上記特定語として認識するので、上記特定語
を、辞書を引くことによって簡単に認識できる。
【0094】また、請求項9に係る発明の抄録装置は、
入力されたテキストの各要素の出現位置関係を記憶し、
上記入力テキストを上記要素より大きな断片に分割し、
上記各断片内において特定要素中の語から認識した特定
語のリストを該当する断片の先頭要素の前に付加し、上
記各断片内において注目要素と各先行要素とのつながり
の強さを表す関連度を算出し、上記各断片内において上
記関連度と上記特定語リストの重要度とに基づいて上記
注目要素の重要度を算出し、上記各断片の重要度を設定
し、上記注目要素の断片内での重要度と上記注目要素が
属する断片の重要度とに基づいて上記注目要素の上記全
体重要度を算出し、得られた全体重要度が最も高い要素
から降順に所定数の要素を選択して上記入力テキストの
抄録として出力するので、上記断片毎に上記特定語リス
トとの関連性が高い重要な要素のみを抄録候補として選
択できる。したがって、この発明によれば、上記断片毎
に記述内容が変化して行っても、夫々の断片に関する抄
録を各断片の重要度に応じて作成できる。
【0095】また、請求項10に係る発明の抄録装置に
おける上記要素は文であり、上記断片は段落であるの
で、上記入力テキストを構成する各段落毎に上記特定語
リストとの関連性が高い重要な文のみを抄録候補として
選択できる。したがって、上記段落毎に記述内容が変化
して行っても、夫々の段落に関する抄録を各段落の重要
度に応じて作成できる。
【0096】また、請求項11に係る発明の抄録装置
は、上記各断片に与える重要度を当該断片の出現位置に
応じて分類して格納し、この格納された各断片の出現位
置を参照して注目断片の重要度を設定するので、例え
ば、重要要素が多く含まれると予想される先頭断片に高
い重要度を予め与えておけば、自動的に、上記先頭断片
との関連度の高い断片内から優先的に重要要素を選択し
て抄録を作成できる。
【0097】また、請求項12に係る発明のプログラム
記録媒体は、請求項1に係る発明の要素出現位置記憶手
段、関連度計算手段、重要度計算手段、構造決定手段、
および、出力手段を機能させるためのテキスト構造解析
プログラムを記録しているので、この発明によれば、請
求項1に係る発明と同様に、二つの要素間のつながりを
十分考慮した親要素候補の比較を行って、注目要素との
関連性が高い最も重要な要素のみを親要素とする精度の
高いテキスト構造解析を行うことができる。
【0098】また、請求項13に係る発明のプログラム
記録媒体は、請求項6に係る発明の要素出現位置記憶手
段、特定語リスト作成手段、関連度計算手段、重要度計
算手段、要素選択手段、および、出力手段を機能させる
ための抄録作成プログラムを記録しているので、この発
明によれば、請求項6に係る発明と同様に、特定語リス
トとの関連性が高い重要な要素のみを抄録として選択で
き、精度が高く簡潔な抄録を作成できる。
【0099】また、請求項14に係る発明のプログラム
記録媒体は、請求項9に係る発明の上記要素出現位置記
憶手段、断片分割手段、特定語リスト作成手段、関連度
計算手段、断片内重要度計算手段、断片重要度設定手
段、全体重要度計算手段、要素選択手段、および、出力
手段を機能させるための抄録作成プログラムを記録して
いるので、この発明によれば、請求項9に係る発明と同
様に、上記要素より大きな断片毎に特定語リストとの関
連性が高い重要な要素のみを抄録候補として選択でき
る。したがって、上記断片毎に記述内容が変化して行っ
ても、夫々の断片に関する抄録を各断片の重要度に応じ
て作成できる。
【図面の簡単な説明】
【図1】この発明のテキスト構造解析装置のブロック図
である。
【図2】図1に示すテキスト構造解析装置で行われるテ
キスト構造解析処理のフローチャートである。
【図3】図1における記憶手段に格納された入力テキス
ト概念図である。
【図4】図3に示す入力テキストから得られた重要語の
数を示す図である。
【図5】図3に示す入力テキストにおける注目文と先行
文との関連度を示す図である。
【図6】図3に示す入力テキストの各文の重要度および
親文を示す図である。
【図7】図3に示す入力テキストの木構造を示す図であ
る。
【図8】この発明の抄録装置のブロック図である。
【図9】図8に示す抄録装置で行われる抄録作成処理の
フローチャートである。
【図10】図3に示す入力テキストの特定語リストおよ
び各文の重要度を示す図である。
【図11】図3に示す入力テキストの抄録を示す図であ
る。
【図12】図8とは異なる抄録装置のブロック図であ
る。
【図13】図12に示す抄録装置で行われる抄録作成処
理のフローチャートである。
【図14】図12における記憶手段に格納された入力テ
キストの概念図である。
【図15】図14に示す入力テキスト中の各文の各段落
内での重要度を示す図である。
【図16】図14に示す入力テキストの各文の全体重要
度及び選択順序を示す図である。
【符号の説明】
1,11,21…テキスト入力手段、 2,12,22…
重要語認識手段、3,13,23…重要語重み付け手段、
4,14,24…関連度計算手段、5,15…重要度計
算手段、 6…木構造決定手段、7,18,3
1…出力手段、 8,19,32…記憶手段、
16,28…特定語リスト作成手段、 17,30…要
素選択手段、25…断片分割手段、 2
6…断片内重要度計算手段、27…断片重要度設定手
段、 29…全体重要度計算手段。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 テキストを構成する各要素の間のつなが
    りを解析し、この解析結果に基づいて上記各要素を節点
    とする木構造によって上記テキストの構造を表現するテ
    キスト構造解析装置であって、 入力されたテキストを上記要素に分割して、各要素の上
    記入力テキスト上における出現位置関係を記憶する要素
    出現位置記憶手段と、 上記出現位置関係を参照して注目要素の先行要素を求
    め、上記注目要素と各先行要素とのつながりの強さを表
    す関連度を算出する関連度計算手段と、 上記注目要素と各先行要素との関連度および上記入力テ
    キストの先頭要素の重要度に基づいて上記注目要素の重
    要度を算出する重要度計算手段と、 上記注目要素の重要度として最適値を与える先行要素を
    当該注目要素の親要素とすることによって、入力テキス
    トの木構造を決定する構造決定手段と、 上記決定された入力テキストの木構造を出力する出力手
    段を備えたことを特徴とするテキスト構造解析装置。
  2. 【請求項2】 請求項1に記載のテキスト構造解析装置
    において、 上記要素は、文であることを特徴とするテキスト構造解
    析装置。
  3. 【請求項3】 請求項1に記載のテキスト構造解析装置
    において、 上記各要素を構成する語の中から重要語を認識する重要
    語認識手段と、 上記認識された各重要語に重みを付与する重要語重み付
    け手段を備えるとともに、 上記関連度算出手段は、上記注目要素中の重要語の原形
    と先行要素中の重要語の原形との文字列同士を照合する
    重要語照合手段を有して、上記注目要素と先行要素とに
    共通する全重要語の重みの合計値と、上記注目要素中あ
    るいは先行要素中の全重要語の数とに基づいて、上記注
    目要素と先行要素との関連度を算出するようになってい
    ることを特徴とするテキスト構造解析装置。
  4. 【請求項4】 請求項3に記載のテキスト構造解析装置
    において、 上記重要語とすべき品詞が格納された重要語情報格納手
    段を備えると共に、 上記重要語認識手段は、上記各要素中の語の品詞を認識
    する品詞認識手段と、上記認識された品詞と上記重要語
    とすべき品詞とを照合する品詞照合手段を有して、上記
    各要素中の語のうち上記重要語とすべき品詞に該当する
    語を上記重要語として認識するようになっていることを
    特徴とするテキスト構造解析装置。
  5. 【請求項5】 請求項1に記載のテキスト構造解析装置
    において、 上記各要素を構成する語の中から重要語を認識する重要
    語認識手段と、 上記認識された各重要語の意味素性を認識する意味素性
    認識手段と、 二つの意味素性の上位下位関係,類義関係,全体部分関係
    等を表す概念体系を格納する概念体系格納手段を備える
    と共に、 上記関連度算出手段は、上記概念体系を参照して、上記
    注目要素中の重要語の意味素性と先行要素中の重要語の
    意味素性とに上記上位下位関係,類義関係,全体部分関係
    等が成立する場合に上記両重要語間に語彙的つながりが
    あると見なす重要語間つながり判定手段を有して、上記
    注目要素と先行要素とにおける上記語彙的つながりがあ
    る全重要語の重みの合計値と、上記注目要素中あるいは
    先行要素中の全重要語の数とに基づいて、上記注目要素
    と先行要素との関連度を算出するようになっていること
    を特徴とするテキスト構造解析装置。
  6. 【請求項6】 テキストを構成する各要素の間のつなが
    りを解析し、この解析結果に基づいて上記各要素に重要
    度を付与し、上記重要度の高い順に要素を選択して上記
    テキストの抄録を作成する抄録装置であって、 入力されたテキストを上記要素に分割して、各要素の上
    記入力テキスト上における出現位置関係を記憶する要素
    出現位置記憶手段と、 特定要素を構成する語の中から特定語を認識して特定語
    のリストを作成し、この作成された特定語リストを上記
    入力テキストの先頭要素の前に付加する特定語リスト作
    成手段と、 上記特定語リストを先頭要素とする上記要素の出現位置
    関係を参照して注目要素の先行要素を求め、上記注目要
    素と各先行要素とのつながりの強さを表す関連度を算出
    する関連度計算手段と、 上記注目要素と各先行要素との関連度および上記特定語
    リストの重要度に基づいて上記注目要素の重要度を算出
    する重要度計算手段と、 上記算出された重要度が最も高い要素から降順に所定数
    の要素を選択する要素選択手段と、 上記選択された上記所定数の要素を入力テキストの抄録
    として出力する出力手段を備えたことを特徴とする抄録
    装置。
  7. 【請求項7】 請求項6に記載の抄録装置において、 上記要素は、文であることを特徴とする抄録装置。
  8. 【請求項8】 請求項6に記載の抄録装置において、 上記特定語とすべき品詞が格納された特定語情報格納手
    段を備えると共に、 上記特定語リスト作成手段は、タイトルを表す要素を構
    成する語の品詞を認識する品詞認識手段と、上記認識さ
    れた品詞と上記特定語とすべき品詞とを照合する品詞照
    合手段を有して、上記タイトルを表す要素を構成する語
    のうち上記特定語とすべき品詞に該当する語を上記特定
    語として認識するようになっていることを特徴とする抄
    録装置。
  9. 【請求項9】 テキストを構成する各要素の間のつなが
    りを解析し、この解析結果に基づいて上記各要素に重要
    度を付与し、上記重要度の高い順に要素を選択して上記
    テキストの抄録を作成する抄録装置であって、 入力されたテキストを上記要素に分割して、各要素の上
    記入力テキスト上における出現位置関係を記憶する要素
    出現位置記憶手段と、 上記入力テキストを上記要素より大きな断片に分割する
    断片分割手段と、 上記各断片内において、特定要素を構成する語の中から
    特定語を認識して特定語のリストを作成し、この作成さ
    れた特定語リストを該当する断片の先頭要素の前に付加
    する特定語リスト作成手段と、 上記各断片内において、上記特定語リストを先頭要素と
    する上記要素の出現位置関係を参照して注目要素の先行
    要素を求め、上記注目要素と各先行要素とのつながりの
    強さを表す関連度を算出する関連度計算手段と、 上記各断片内において、上記注目要素と各先行要素との
    関連度および上記特定語リストの重要度に基づいて上記
    注目要素の重要度を算出する断片内重要度計算手段と、 上記各断片の重要度を設定する断片重要度設定手段と、 上記注目要素の断片内での重要度と上記注目要素が属す
    る断片の重要度とに基づいて、上記注目要素の上記入力
    テキスト全体内での重要度を算出する全体重要度計算手
    段と、 上記算出された入力テキスト全体内での重要度が最も高
    い要素から降順に所定数の要素を選択する要素選択手段
    と、 上記選択された上記所定数の要素を入力テキストの抄録
    として出力する出力手段を備えたことを特徴とする抄録
    装置。
  10. 【請求項10】 請求項9に記載の抄録装置において、 上記要素は文であり、 上記断片は段落であることを特徴とする抄録装置。
  11. 【請求項11】 請求項9に記載の抄録装置において、 上記各断片に与える重要度を上記入力テキスト中におけ
    る当該断片の出現位置に応じて分類して格納する断片重
    要度格納手段を備えると共に、 上記断片重要度設定手段は、上記特定語リストを先頭要
    素とする上記要素の出現位置関係を参照して注目断片の
    上記入力テキスト上の出現位置を求め、上記断片重要度
    格納手段に格納された各断片の出現位置を参照して上記
    注目断片の重要度を設定するようになっていることを特
    徴とする抄録装置。
  12. 【請求項12】 入力テキストを要素に分割して各要素
    の上記入力テキスト上における出現位置関係を記憶する
    要素出現位置記憶手段、注目要素と各先行要素とのつな
    がりの強さを表す関連度を算出する関連度計算手段、上
    記注目要素と各先行要素との関連度および上記入力テキ
    ストの先頭要素の重要度に基づいて上記注目要素の重要
    度を算出する重要度計算手段、上記注目要素の重要度と
    して最適値を与える先行要素を当該注目要素の親要素と
    して上記入力テキストの木構造を決定する構造決定手
    段、および、上記決定された入力テキストの木構造を出
    力する出力手段を機能させるためのテキスト構造解析プ
    ログラムが記録されたことを特徴とするプログラム記録
    媒体。
  13. 【請求項13】 入力テキストを要素に分割して各要素
    の上記入力テキスト上における出現位置関係を記憶する
    要素出現位置記憶手段、特定要素を構成する語の中から
    認識した特定語のリストを作成して上記入力テキストの
    先頭要素の前に付加する特定語リスト作成手段、注目要
    素と各先行要素とのつながりの強さを表す関連度を算出
    する関連度計算手段、上記注目要素と各先行要素との関
    連度および上記特定語リストの重要度に基づいて上記注
    目要素の重要度を算出する重要度計算手段、上記算出さ
    れた重要度が最も高い要素から降順に所定数の要素を選
    択する要素選択手段、および、上記選択された上記所定
    数の要素を入力テキストの抄録として出力する出力手段
    を機能させるための抄録作成プログラムが記録されたこ
    とを特徴とするプログラム記録媒体。
  14. 【請求項14】 入力テキストを上記要素に分割して各
    要素の上記入力テキスト上における出現位置関係を記憶
    する要素出現位置記憶手段、上記入力テキストを上記要
    素より大きな断片に分割する断片分割手段、上記各断片
    内において特定要素を構成する語の中から認識した特定
    語のリストを作成して該当する断片の先頭要素の前に付
    加する特定語リスト作成手段、上記各断片内において注
    目要素と各先行要素とのつながりの強さを表す関連度を
    算出する関連度計算手段、上記各断片内において上記注
    目要素と各先行要素との関連度および上記特定語リスト
    の重要度に基づいて上記注目要素の重要度を算出する断
    片内重要度計算手段、上記各断片の重要度を設定する断
    片重要度設定手段、上記注目要素の断片内での重要度と
    上記注目要素が属する断片の重要度とに基づいて上記注
    目要素の上記入力テキスト全体内での重要度を算出する
    全体重要度計算手段、上記算出された入力テキスト全体
    内での重要度が最も高い要素から降順に所定数の要素を
    選択する要素選択手段、上記選択された上記所定数の要
    素を入力テキストの抄録として出力する出力手段を機能
    させるための抄録作成プログラムが記録されたことを特
    徴とするプログラム記録媒体。
JP07028898A 1998-03-19 1998-03-19 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 Expired - Fee Related JP3429184B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP07028898A JP3429184B2 (ja) 1998-03-19 1998-03-19 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US09/271,569 US6374209B1 (en) 1998-03-19 1999-03-18 Text structure analyzing apparatus, abstracting apparatus, and program recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07028898A JP3429184B2 (ja) 1998-03-19 1998-03-19 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体

Publications (2)

Publication Number Publication Date
JPH11272664A true JPH11272664A (ja) 1999-10-08
JP3429184B2 JP3429184B2 (ja) 2003-07-22

Family

ID=13427156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07028898A Expired - Fee Related JP3429184B2 (ja) 1998-03-19 1998-03-19 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体

Country Status (2)

Country Link
US (1) US6374209B1 (ja)
JP (1) JP3429184B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230539A (ja) * 2011-04-26 2012-11-22 Nec System Technologies Ltd 文書添削装置、文書添削方法及び文書添削プログラム
JP2016062181A (ja) * 2014-09-16 2016-04-25 日本電信電話株式会社 重みベクトル学習装置、要約生成装置、方法、及びプログラム
CN110222342A (zh) * 2019-06-13 2019-09-10 哈尔滨工业大学(深圳) 结合情感原因发现的文本情感预测学习系统
CN111859926A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 同义句对生成方法、装置、计算机设备及存储介质

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
JP3791877B2 (ja) * 1999-06-15 2006-06-28 富士通株式会社 文書の参照理由を用いて情報検索を行う装置
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US7269802B1 (en) * 1999-11-01 2007-09-11 Kurzweil Cyberart Technologies, Inc. Poetry screen saver
US7475334B1 (en) * 2000-01-19 2009-01-06 Alcatel-Lucent Usa Inc. Method and system for abstracting electronic documents
JP2001318939A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
US7398196B1 (en) * 2000-09-07 2008-07-08 Intel Corporation Method and apparatus for summarizing multiple documents using a subsumption model
JP2002132677A (ja) * 2000-10-20 2002-05-10 Oki Electric Ind Co Ltd 電子メール転送装置及び電子メール装置
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7251781B2 (en) * 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
JP3624186B2 (ja) * 2002-03-15 2005-03-02 Tdk株式会社 スイッチング電源装置用の制御回路及びこれを用いたスイッチング電源装置
JP4038717B2 (ja) * 2002-09-13 2008-01-30 富士ゼロックス株式会社 テキスト文比較装置
JP2004110161A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
US20050010416A1 (en) * 2003-07-09 2005-01-13 Gensym Corporation System and method for self management of health using natural language interface
US20050106539A1 (en) * 2003-11-17 2005-05-19 International Business Machines Corporation Self-configuring keyword derivation
US7617093B2 (en) * 2005-06-02 2009-11-10 Microsoft Corporation Authoring speech grammars
JP4767694B2 (ja) * 2006-01-13 2011-09-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 不正ハイパーリンク検出装置及びその方法
JP4735384B2 (ja) * 2006-04-11 2011-07-27 富士ゼロックス株式会社 電子会議システム、電子会議用端末、電子会議システムの制御方法及び電子会議用端末の制御プログラム
JP4848221B2 (ja) * 2006-07-31 2011-12-28 富士通株式会社 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法
US9031947B2 (en) * 2007-03-27 2015-05-12 Invention Machine Corporation System and method for model element identification
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8103686B2 (en) * 2007-12-12 2012-01-24 Microsoft Corporation Extracting similar entities from lists/tables
US8311999B2 (en) * 2009-03-13 2012-11-13 Invention Machine Corporation System and method for knowledge research
WO2010105216A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for automatic semantic labeling of natural language texts
CN102455997A (zh) * 2010-10-27 2012-05-16 鸿富锦精密工业(深圳)有限公司 元件名称提取系统及方法
US20120290288A1 (en) * 2011-05-09 2012-11-15 Xerox Corporation Parsing of text using linguistic and non-linguistic list properties
SG11201402943WA (en) * 2011-12-06 2014-07-30 Perception Partners Inc Text mining analysis and output system
US11468243B2 (en) 2012-09-24 2022-10-11 Amazon Technologies, Inc. Identity-based display of text
US9607611B2 (en) 2012-12-10 2017-03-28 Wibbitz Ltd. Method for automatically transforming text into video
JP6099046B2 (ja) * 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法
US9355089B1 (en) * 2014-12-08 2016-05-31 International Business Machines Corporation Intention detection in domain-specific information
WO2016101133A1 (en) * 2014-12-23 2016-06-30 Microsoft Technology Licensing, Llc Surfacing relationships between datasets
CN106354715B (zh) * 2016-09-28 2019-04-16 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
US9996527B1 (en) * 2017-03-30 2018-06-12 International Business Machines Corporation Supporting interactive text mining process with natural language and dialog
CN107748742A (zh) * 2017-06-16 2018-03-02 平安科技(深圳)有限公司 一种基于句法依存关系提取中心词的方法、终端以及设备
CN109190091B (zh) * 2018-08-02 2023-03-24 义语智能科技(上海)有限公司 编码解码方法及设备
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN114021572B (zh) * 2022-01-05 2022-03-22 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPH02112069A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd 自動要約方式
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH06259424A (ja) * 1993-03-02 1994-09-16 Ricoh Co Ltd 文書表示装置及び文書要約装置並びにディジタル複写装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH10269228A (ja) * 1997-03-25 1998-10-09 Oki Electric Ind Co Ltd 重要部分抽出装置および文書検索装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5077669A (en) * 1989-12-27 1991-12-31 International Business Machines Corporation Method for quasi-key search within a national language support (nls) data processing system
US5638543A (en) * 1993-06-03 1997-06-10 Xerox Corporation Method and apparatus for automatic document summarization
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
JP3571408B2 (ja) * 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US5838323A (en) * 1995-09-29 1998-11-17 Apple Computer, Inc. Document summary computer system user interface
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5963969A (en) * 1997-05-08 1999-10-05 William A. Tidwell Document abstraction system and method thereof
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPH02112069A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd 自動要約方式
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH06259424A (ja) * 1993-03-02 1994-09-16 Ricoh Co Ltd 文書表示装置及び文書要約装置並びにディジタル複写装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH10269228A (ja) * 1997-03-25 1998-10-09 Oki Electric Ind Co Ltd 重要部分抽出装置および文書検索装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230539A (ja) * 2011-04-26 2012-11-22 Nec System Technologies Ltd 文書添削装置、文書添削方法及び文書添削プログラム
JP2016062181A (ja) * 2014-09-16 2016-04-25 日本電信電話株式会社 重みベクトル学習装置、要約生成装置、方法、及びプログラム
CN110222342A (zh) * 2019-06-13 2019-09-10 哈尔滨工业大学(深圳) 结合情感原因发现的文本情感预测学习系统
CN110222342B (zh) * 2019-06-13 2023-05-02 哈尔滨工业大学(深圳) 结合情感原因发现的文本情感预测学习系统
CN111859926A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 同义句对生成方法、装置、计算机设备及存储介质
CN111859926B (zh) * 2020-07-28 2023-07-25 中国平安人寿保险股份有限公司 同义句对生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP3429184B2 (ja) 2003-07-22
US6374209B1 (en) 2002-04-16

Similar Documents

Publication Publication Date Title
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
Ratnaparkhi A linear observed time statistical parser based on maximum entropy models
EP1462948B1 (en) Ordering component for sentence realization for a natural language generation system, based on linguistically informed statistical models of constituent structure
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20080249764A1 (en) Smart Sentiment Classifier for Product Reviews
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP2008140359A (ja) 評価情報抽出装置、評価情報抽出方法およびそのプログラム
US11386269B2 (en) Fault-tolerant information extraction
Watts et al. Unsupervised continuous-valued word features for phrase-break prediction without a part-of-speech tagger.
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JPH1185766A (ja) キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR100431190B1 (ko) 주제 적응 품사 태깅 시스템 및 방법
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080516

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130516

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees