JP3082890B2 - 書き言葉テキストに対する話題構造認識方法および装置 - Google Patents

書き言葉テキストに対する話題構造認識方法および装置

Info

Publication number
JP3082890B2
JP3082890B2 JP05306289A JP30628993A JP3082890B2 JP 3082890 B2 JP3082890 B2 JP 3082890B2 JP 05306289 A JP05306289 A JP 05306289A JP 30628993 A JP30628993 A JP 30628993A JP 3082890 B2 JP3082890 B2 JP 3082890B2
Authority
JP
Japan
Prior art keywords
topic
processing
development
section
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP05306289A
Other languages
English (en)
Other versions
JPH07160711A (ja
Inventor
敦 竹下
透 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP05306289A priority Critical patent/JP3082890B2/ja
Priority to US08/354,120 priority patent/US5642520A/en
Publication of JPH07160711A publication Critical patent/JPH07160711A/ja
Application granted granted Critical
Publication of JP3082890B2 publication Critical patent/JP3082890B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然言語解析における
話題構造認識の方法に関するものである。
【0002】
【従来の技術】従来は話題とその構造に関するモデルが
提案されている。これについては例えば、B.J.Grosz an
d C.L.Sidner: “Attention, intention and the struc
ture of discourse ”,Computational Lintuistics
誌,volume 12, number 3, pp.175-204(1986) に説明さ
れている。話題は入れ子構造を持つので、話題の展開は
スタックを用いてモデル化している。また、話題の入れ
子構造の変化、すなわちスタックへの話題のブッシュや
ポップの操作は、話者の意図の遷移によって決定され
る。また、どのような話題が展開するかということは、
ドメイン知識と呼ばれる常識が関係する。ここで、ドメ
イン知識とは例えば「“会社A”とは“電話会社”の一
種である」といった概念の上位−下位関係や、「“会社
A”は“サービスAという”というサービスを行ない、
そのために宣伝を行なっている」といった行為間の関係
を含んでいる。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
話題を構造に関するモデルでは、意図を認識する方法が
与えられていないので、実際には話題の構造を認識する
ことはできない。また、話題展開に関しても、どのよう
なドメイン知識が必要であり、それをどのように用いれ
ば良いかという方法が与えられていないだけでなく、た
とえそれらが与えられたとしても話題構造認識に必要な
ドメイン知識をあらかじめ準備しておくことは不可能で
ある。
【0004】本発明は上記の点に鑑みなされたもので、
書き言葉テキストに対して、ドメイン知識ではなく、話
題展開様式や言語的知識を用いることにより、話題を認
識することを目的とする。
【0005】
【課題を解決するための手段】本発明の書き言葉テキス
トに対する話題構造認識方法は、話題構造認識前処理用
辞書記憶手段と話題構造認識前処理手段と基盤展開処理
規則記憶手段と基盤展開処理手段と意味的展開処理規則
記憶手段と意味的展開処理手段と統合処理規則記憶手段
と統合処理手段とを有する話題構造認識装置を用いて書
き言葉テキストに対しての話題構造を認識する方法であ
って、まず、前記話題構造認識前処理手段にて前記話題
構造認識前処理用辞書記憶手段に記憶されている話題構
造認識前処理用辞書を用いて入力された書き言葉テキス
トに対して形態素解析処理と単文区切り処理と顕著名詞
句抽出処理とブロック認識処理とからなる話題構造認識
前処理を行い、次に、前記基盤展開処理手段にて前記基
盤展開処理規則記憶手段に記憶されている基盤展開規則
を用いて前記話題構造認識前処理の結果から、前記書き
言葉テキストにおける話題の展開を章や節などによって
明示的に示される基盤展開についての、話題が提示・確
立される話題確立区間の同定処理と話題確立区間におけ
る話題語の同定処理と話題語の入れ子のレベルと継続区
間の同定処理とを順次に行う基盤展開処理を行い、次
に、前記意味的展開処理手段にて前記意味的展開処理規
則記憶記憶手段に記憶されている意味的展開処理規則を
用いて前記話題構造認識前処理の結果と前記基盤展開処
理の各処理における結果から、基盤展開の中で話題が展
開する意味的展開についての、話題が提示・確立される
話題確立区間の同定処理と話題確立区間における話題語
の同定処理と話題語の入れ子のレベルと継続区間の同定
処理とを順次に行う意味的展開処理を行い、その後、前
記統合処理手段にて前記統合処理規則記憶手段に記憶さ
れている統合処理規則を用いて前記基盤展開処理の結果
と前記意味的展開処理の結果とから、統合処理を行うこ
とにより、書き言葉テキスト全体の話題構造を認識し、
書き言葉テキストに対する話題構造認識前処理における
顕著名詞句抽出処理として、単文区切り処理結果の書き
言葉テキスト中の各単文に対して、顕著名詞句候補を示
す言語表現を顕著名詞句を提示する機能しか持たない明
示マーカとそれ以外の非明示マーカに分類し、その種類
と優先順位を登録した、顕著名詞句マーカ優先順位規則
とマッチングを取ることにより、顕著名詞句候補の抽出
と優先順位付けを行い、最も優先順位の高い候補を顕著
名詞句と選ぶことを特徴とする。
【0006】この場合、書き言葉テキストに対する話題
構造認識の基盤展開処理として、書き言葉テキストの章
や節のように明示的に話題が展開される論理構造を用い
ることにより基盤展開の話題が提示・確立される話題確
立区間を同定処理し、前記同定された基盤展開での話題
確立区間において、基盤展開用話題候補優先順位にした
がって、顕著名詞句から、最も優先順位が高い話題候補
を選び、選ばれた候補が1つしかない場合はその候補を
話題とし、選ばれた候補が複数ある場合は、時間的に最
も早く出現した候補を選ぶことにより、基盤展開におけ
る話題語を同定し、前記同定された基盤展開での話題語
の中で最初の話題語の話題レベルを1とし、それ以外の
話題に関しては基盤展開用話題レベル付け規則にしたが
い話題レベルを決定し、各話題が属する話題確立区間の
先頭をその話題の継続区間の開始点とし、その話題レベ
ル以下の話題の開始直前と書き言葉テキスト終了点の2
つのうち時間的に早い方を話題確立区間の終了点とする
ことにより、基盤展開における話題語のレベルと継続区
間を同定処理することとしてもよい。
【0007】また、書き言葉テキストに対する話題構造
認識の意味的展開処理として、書き言葉テキストの章や
節のように明示的に話題が展開される論理構造と、文章
全体のタイトルや章タイトルなどのタイトル情報と、前
記話題構造認識前処理の結果である、前記顕著名詞句
と、意味的展開用話題候補優先順位と、前記基盤展開処
理の結果である基盤展開での話題確立区間を用いること
により、書き言葉テキストに対する話題構造認識の意味
的展開についての話題が提示・確立される話題確立区間
を同定し、前記同定された意味的展開での話題確立区間
において、前記意味的展開用話題候補優先順位にしたが
って、顕著名詞句から、最も優先順位が最も高い話題候
補を選び、選ばれた候補が1つしかない場合はその候補
を話題とし、選ばれた候補が複数ある場合は、時間的に
最も早く出現した候補を選ぶことにより、意味的展開に
おける話題語を同定し、前記同定された意味的展開にお
ける全ての話題語に対して仮の話題レベルを1とし、各
話題が属する話題確立区間の先頭をその話題の継続区間
の開始点とし、意味的展開でその話題の次の話題の開始
直前と基盤展開での話題確立区間の開始点の直前と言語
データ終了点の3つのうち時間的に早い方を話題確立区
間の終了点とすることにより、意味的展開における話題
語の仮レベルと継続区間を決定することとしてもよい。
【0008】本発明の話題構造認識装置は、書き言葉テ
キストを入力するための入力部と、話題構造認識の前処
理辞書の辞書内容を取り出す手段と、その辞書内容を用
いて前処理を行なって前処理記憶部に記憶する手段と、
話題の展開を手掛かり句などによって明示的に示される
基盤展開と、その基盤展開の中で展開する意味的展開に
分離し、基盤展開と意味的展開のそれぞれについての処
理結果を記憶する基盤展開処理記憶部と意味的展開処理
記憶部と、基盤展開処理規則の各規則を取り出す手段
と、基盤展開処理規則を用いて、話題確立区間決定処理
と話題語決定処理と話題レベル区間決定処理を行なって
基盤展開処理記憶部に記憶する手段と、意味的展開処理
規則の各規則を取り出す手段と、意味的展開処理規則を
用いて、話題確立区間決定処理と話題語決定処理と話題
レベル区間決定処理を行なって意味的展開処理記憶部に
記憶する手段と、統合処理規則の各規則を取り出す手段
と、統合処理規則規則を用いて、統合処理を行なって統
合処理記憶部に記憶する手段と、統合処理記憶部の内容
を表示するための表示部を有することを特徴とする。
【0009】
【0010】
【0011】
【0012】
【0013】
【0014】
【作用】本発明は、話題展開を章や節のように明示的に
示される基盤展開と、その中で展開する意味展開に分
け、それぞれについて章立てや段落等の論理構造を用い
て話題を提示,確立される話題確立区間を求め、各話題
確立区間における話題語を話題マーカで示された候補か
ら選び、基盤展開と意味展開における話題を統合するこ
とにより、書き言葉テキストに対して、話題構造を認識
する。このように、書き言葉テキストに対するドメイン
知識を必要とすることなく、話題展開様式や言語的知識
のみを用いて話題が認識される。
【0015】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0016】図1は本発明の一実施例の話題構造認識処
理の概要を示す図、図2は本発明の一実施例の話題構造
認識装置のブロック図であり、これらを参照して本発明
の処理および話題構造認識装置の概要について説明す
る。
【0017】
【0018】話題構造認識処理は図1に示す以下の手順
にて行われる。
【0019】入力されたテキスト110に対して話題構
造認識前処理120を施し、ブロックとする。この後、
該ブロックに対して基盤展開処理130および意味的展
開処理140を施して話題レベル区間の決定をそれぞれ
独立に行う。続いて基盤展開処理130と意味的展開処
理140にてそれぞれ決定された話題レベルに基づい
て、基盤展開と意味的展開の統合処理150を行い、話
題構造160を決定する。
【0020】上記の話題構造認識前処理120は、形態
素解析121、単文区切り処理122、顕著名詞句抽出
123およびブロック認識124を順に行うように構成
されている。基盤展開処理130は話題確立区間の決定
131、話題の決定および話題レベル区間の決定を順
に行い、意味的展開処理140では話題確立区間の決定
141、話題の決定142および話題レベル区間の決
定143が順に行われる。
【0021】話題構造認識前処理120行われる形態
素解析121、単文区切り処理122、顕著名詞句抽出
123およびブロック認識124は図2に示すブロック
図では、話題構造認識前処理部203がデータ入力部2
01から入力された対話データに対して前処理記憶部2
02に記憶されている処理手順に従って辞書管理部21
6と前処理用辞書204を用いて行う。まず、入力のテ
キスト110に対して形態素解析処理を行なう。形態素
解析処理は入力されたテキスト110の文字列を前処理
用辞書を用いて単語毎に区切って単語列とし、さらに各
単語の品詞や活用語の活用形等を同定する。
【0022】形態素解析121がなされると、続いて形
態素解析の結果について単文区切り処理122が行なわ
れる。単文区切り処理122は埋め込み文や重文のよう
に複数の述語を含む文、1つの述語のみを含む単文に
分割するもので、図2のブロック図では、話題構造認識
前処理部203が前処理記憶部202に記憶されている
単文規則管理および単語区切り規則を用いて行なう。
【0023】次に、顕著名詞句抽出123で、入力され
た単文区切り処理結果に対する各単文において最も強調
されている名詞句を抽出することが行われる。
【0024】次に、意味的にまとまりのある単位である
ブロックを認識する。ブロックはテキストにおける段落
に相当する。なお、ここでの処理は、図2のブロック図
では話題構造認識前処理部203が、前処理記憶部20
2に記憶されている話題管理規則と話題構造認識規則を
用いて行なう。
【0025】次に、認識されたブロックについて、基盤
展開処理130と意味的展開処理140がそれぞれ行わ
れ、話題確立区間の決定131,141、話題語の決定
132,142、話題レベル区間の決定133,143
という3つの処理が順次行なわれる。ここで、話題確立
区間とは、話題が提示・確立される区間のことである。
この3つの処理によって、基盤展開処理130と意味的
展開処理140のそれぞれにおける話題構造を求めるこ
とができる。
【0026】基盤展開処理130に関しては、各処理の
入力としては、基盤展開の直前の処理の結果だけが必要
である。これに対し、意味的展開処理140に関して
は、話題語の決定を行なうためには、意味的展開処理1
40の直前の処理の結果と、基盤展開処理130での同
じ種類の処理の結果が必要である。すなわち、意味的展
開処理140における話題確立区間の決定141を行う
ための入力としては、ブロック認識124の結果と基盤
展開処理130における話題確立区間の決定131の結
果の両方が必要である。
【0027】同様に、意味的展開処理140における話
題語の決定142の入力としては、意味的展開処理14
0における話題確立区間の決定141の結果と、基盤展
開処理130における話題語の決定132の結果が必要
である。また、意味的展開処理140における話題レベ
ル区間の決定143の入力としては、意味的展開処理1
40における話題語の決定142の結果と、基盤展開処
理130における話題レベル区間の決定133の結果が
必要である。
【0028】最後に、基盤展開処理130と意味的展開
処理140で求められたそれぞれの話題構造を入力とし
て、基盤展開処理130と意味的展開処理140の統合
処理150を行ない、その結果としてテキスト全体の話
題構造160を出力する。
【0029】上述した基盤展開処理130は、図2に示
すブロック図では、話題確立区間決定処理部231,話
題語決定処理部232,話題レベル区間決定処理部23
3からなる基盤展開処理部230が、基盤展開処理の手
順を記憶する基盤展開処理記憶部207の記憶内容にし
たがい、基盤展開処理規則管理部205および基盤展開
処理規則206を参照して行う。また、意味的展開処理
140は、話題確立区間決定処理部241,話題語決定
処理部242,話題レベル区間決定処理部243からな
る意味的展開処理部240が、意味的展開処理の手順を
記憶する意味的展開処理記憶部210の記憶内容にした
がい、意味的展開処理規則管理部208および意味的展
開処理規則209を参照して行う。
【0030】次に、本発明における話題構造認識を行う
ための各処理の具体的な内容について説明する。
【0031】話題構造認識前処理120 形態素解析121 形態素解析121では日本語文字列を入力とし、それを
単語ごとに区切った結果と各単語の品詞等の情報を出力
とする。例えば、「特許を書く」という日本語文字列を
入力として形態素解析を行なうと、出力としては「特
許」「を」「書く」のように3つの単語に分割された日
本語文字列と、「特許=名詞」、「を=格助詞」、「書
く=動詞の終止形」のような各単語の品詞情報が出力さ
れる。ただし、動詞は活用語であるので、「終止形」の
ような活用形の情報も付加される。
【0032】形態素解析121を行なうためには、各単
語の品詞を記した単語辞書と、日本語文字列において品
詞同士の並びやすさを記述した連接辞書が必要である。
連接辞書には例えば、『「特許」「を」』のように名詞
の後には格助詞が続きやすいが、『「書く」「を」』の
ように動詞の後には格助詞は続きにくいという情報が記
されている。
【0033】日本語文字列を単語に区切る場合、例えば
『特許』という文字列が「特許」という1つの名詞から
構成されるか、「特」と「許」という2つも単語から構
成されるかという曖昧性が存在するが、形態素解析では
単語辞書と連接辞書を用いることにより、最も適切な解
析結果を選択する。形態素解析に関する詳細な手法は、
『吉村、日高、吉田:「文節数最小法を用いたべた書き
日本語文の形態素解析」情報処理学会論文誌Vol.2
4,No.1,pp.40−46(1983)』で述べ
られている。
【0034】単文区切り処理122 単文区切り処理122は埋め込み文や重文のように複数
の述語を含む文を、図3に示すようなあらかじめ準備し
た単文区切り規則を用いることにより、1つの述語のみ
を含む単文に分割する。例えば、「私は特許を書く」と
いう文に含まれる述語は「書く」という動詞だけである
ので、これは単文である。これに対し、「発明したら、
特許を書く」という文には「発明し」という動詞と「書
く」という動詞の2つの述語が含まれているので、「発
明したら、」と「特許を書く」という2つの単文に分割
する。
【0035】図3に示す単文区切り規則は、以下の通り
である。 (1)句点で切る (2)以下の場合を除き、原則として関係の直後で切る (2−1)関係が形容詞または形容動詞の連体形の場合 (2−2)関係が形容詞のまたは形容動詞の連用形の場
(3)読点では区切らない。ただし、読点より前の単文
内に関係を含んでいる場合は、読点の後で区切る (4)終助詞に格助詞「と」が続いている場合は、格助
詞「と」の前で区切る形態素解析で求められた単語の種
類や品詞の種類、活用形に応じて、複数の述語を含む日
本語文を単文に分割する。与えられた日本語文に対し
て、各規則を適用できるかどうかを調べ、可能なものに
ついては適用を行なうことによって単文区切り処理を行
なう。
【0036】顕著名詞句の抽出123 各単文において最も強調されている顕著名詞句を抽出す
る。日本語では顕著名詞句は助詞等のマーカによって示
される。マーカには、「について」「に関して」「は」
のように語句を提示する機能しか持たない明示マーカ
と、「が」「を」のように主語や目的語のような文法的
役割を示すマーカが語句を提示するためにも用いられた
「非明示マーカ」が存在する。これらは、優先順位とと
もにあらかじめ規則として人間が与えておく。
【0037】顕著名詞句のマーカ優先順位の例を図4に
示す。
【0038】最も優先されるのは、(1)読点付明示マ
ーカであり、次に(2)「は」以外の明示マーカ、
(3)明示マーカ「は」、(4)非明示マーカと続く。
【0039】テキストとこれらのマーカとの間でマッチ
ングを取ることにより、顕著名詞句の候補を抽出する。
ただし、マーカで示されている語句が、代名詞や「こ
と」「もの」のようにそれだけでは具体的な意味を持た
ないダイクシス表現の場合は、顕著名詞句の候補とはし
ない。
【0040】1単文から複数の候補が抽出された場合
は、図4に示す優先順位にしたがい、最も優先順位が高
いものを顕著名詞句として選ぶ、また、優先順位が最高
位のものが複数ある場合は、時間的に最も早く出現して
いるものを顕著名詞句として選ぶ。
【0041】ブロックの認識124 テキストにおける論理構造には、図5に示すようにタイ
トル、章タイトル、本文が含まれている。本文中の論理
構造にはさらに段落構造と箇条書領域が含まれており、
両者は重複しうる。
【0042】論理構造には、タイトルや章タイトル、段
落構造のように通常、元のテキストに付与されているも
のと、箇条書領域のように構造情報が通常、付与されて
いないものがある。構造情報があらかじめ付与されてい
ないものは、論理構造の認識処理を行なう。
【0043】図6に箇条書領域を決定するための規則の
例を示す。規則に記述された手掛かり句とテキストの間
でマッチングを取ることにより箇条書き領域を検出す
る。手掛かり句が「第1に」「第2に」のような場合
は、手掛かり句を含む文の先頭を箇条書き領域の始点と
し、段落の終点と次の同種の手掛かり句の出現の内、時
間的に早く出現したものを箇条書き領域の終点とする。
また、手掛かり句が(1),(2)のような場合は、手
掛かり句を箇条書き領域の始点とし、次の句点と次の同
種の手掛かり句の出現の内、時間的に早く出現したもの
を箇条書き領域の終点とする。このような大きな箇条書
構造と小さな箇条書構造を示すための手掛かり句の使い
分けはテキストの種類対象によって異なるので、解析す
るテキストの種類に応じて箇条書領域決定規則を人間に
与える。例えば、新聞では図6のように用いられること
が多い。
【0044】基盤展開処理130 話題確立区間の決定131 章や節のように明示的に話題が展開される基盤展開にお
いて、話題が提示・確立される話題確立区間を同定し、
また、話題確立区間のタイプを同定する。図7に基盤展
開における話題確立区間の決定処理の流れを示す。ま
ず、テキスト中に要約区間が存在するかどうかを調べる
(ステップS701)。ここで、要約区間の決定処理に
ついては後述する。もし、テキスト中に要約区間が存在
すれば、全ての要約区間を話題確立区間として認定し
(ステップS702)、これらのタイプを章立てタイプ
とし(ステップS703)、さらに要約区間を含む段落
で、要約区間以外の部分を「疑似段落」と呼ぶ(ステッ
プS704)。
【0045】要約区間が有無にかかわらず、次にテキス
トに箇条書き領域があるかどうかを調べる(ステップS
705)。もし、箇条書き領域がなければ、これで話題
確立区間の決定処理を終了する。
【0046】箇条書き領域が存在する場合には、箇条書
き領域に含まれる全ての箇条書き項目が2単文以上ある
かを調べ(ステップS706)、2単文以上であれば、
第1項目の1文前の文を話題確立区間として(ステップ
S707)、話題確立区間のタイプを箇条書き全体タイ
プとする(ステップS708)。
【0047】ただし、上記の「2単文」という値は、テ
キストの性質に応じて人間があらかじめ適切な値を与え
るものとする。
【0048】また、箇条書き領域が存在した場合は、箇
条書き領域に含まれる全ての箇条書き項目が2単文以上
であるかないかにかかわらず、箇条書き領域に含まれる
全ての箇条書き項目が5単文以上であるかどうかを調べ
る(ステップS709)。もし、5単文以上であれば、
各項目の第1文を話題確立区間とし(ステップS71
0)、話題確立区間のタイプを箇条書き項目タイプとし
(ステップS711)、処理を終了する。もし、5単文
未満の箇条書き項目が含まれていれば、そのまま処理を
終了する。ただし、この「単文」という値は、テキス
トの性質に応じて人間があらかじめ適切な値を与えるも
のとする。
【0049】次に、要約区間の決定処理について説明す
る。図8に要約区間の決定処理の流れを示す。
【0050】まず、章に含まれない文章がテキストの先
頭にあるかを調べ(ステップS801)、もし、タイト
ルが終了して章立てが開始するまでに文章が始まるなど
の理由で、章に含まれない文章がテキストの先頭の存在
すれば、テキストの第1文を要約区間とする(ステップ
S802)。また、章に含まれない文章がテキストの先
頭の存在する、しないかにかかわらず、章や節の開始点
を確認し(ステップS803)、開始点に対して、章や
節での第1文を要約区間として(ステップS804)、
要約区間の決定処理を終了する。
【0051】話題語の決定132 章や節のように明示的に話題が展開される基盤展開にお
ける話題確立区間で、どのような話題が提示されている
かを認識する。図9に基盤展開における話題語決定処理
の流れの例を示す。
【0052】基盤展開における各話題確立区間につい
て、後述する「基盤展開用話題候補優先順位」に基づい
て最も優先順位が高いものを抽出する(ステップS90
1)。続いて、抽出された候補が1つであるかを確認し
(ステップS902)、抽出された候補が1つであれ
ば、それを話題として認定する。また、、複数の候補が
抽出されいる場合には、話題確立区間が箇条書き全体タ
イプであるかを調べ(ステップS903)、全体タイプ
であれば、時間的に最も遅く出現したものだけ選んで
(ステップS904)を話題として認定する。もし、複
数の候補が抽出されており、かつ話題確立区間が箇条書
き全体タイプ以外であれば、時間的に最も早く出現した
ものだけを選んで(ステップS905)話題として認定
する。
【0053】次に、「基盤展開用話題候補優先順位」に
ついて説明する。これは基盤展開において話題となりや
すいものを優先順位と共にまとめた規則であり、人間が
あらかじめ準備しておく、図10に基盤展開用話題候補
優先順位の例を示す。
【0054】基盤展開用話題候補には、[a]直前の章
タイトルに含まれている顕著名詞句、[b]固有名詞を
含む顕著名詞句、[c]明示マーカで示された顕著名詞
句、等があり、これらは同じ優先順位である。また、こ
れらよりも優先度が低い基盤展開用話題候補には、非明
示マーカで示された顕著名詞句が含まれる。
【0055】話題レベル区間の決定133 基盤展開における話題に対して、その話題レベルと話題
が継続する区間を決定する。ここで、一番外側の話題の
話題レベルを1とし、それより入れ子が1つ増えるごと
に、話題レベルも1つ増加するものとする。
【0056】図11に基盤展開用レベル付け規則の例を
示す。第1に、テキストの最初の話題の話題レベルを1
とする。第2に、章立てタイプの話題確立区間における
話題に関しては、章立ての遷移パターンによって話題レ
ベルを増減させる。sectionからsection のように同レ
ベルへの遷移の場合は話題レベルはそのままとし、chap
ter からsection のように詳細方向への遷移の場合は話
題レベルを1増加させ、section からchapter のように
抽象方向への遷移の場合は話題レベルを1減少させる。
第3に、箇条書き項目タイプの話題確立区間での話題に
関しては、何番目の項目かによって話題レベルを増減さ
せる。箇条書きの第1項目の話題に関しては話題レベル
を1増加させ、第2以降の項目の話題に関しては話題レ
ベルはそのままとする。第4に、箇条書き全体タイプの
話題確立区間の話題に関しては、話題レベルを常に1増
加させる。
【0057】図12に基盤展開における話題継続区間決
定処理の流れの例を示す。
【0058】ここで、現在処理対象としている話題を
A、その話題レベルをmとする。話題Aが章立てタイプ
の話題確立区間での話題であるかを確認する(ステップ
S1201)。
【0059】話題Aが章立てタイプの話題確立区間での
話題であれば、Aの属する話題確立区間の先頭を話題継
続区間の開始点とし、話題レベルがm以下の話題の開始
直前とテキスト終了の2つのうち時間的に早く出現した
方を話題継続区間の終了点とする(ステップS120
2)。話題Aが章立てタイプ以外、すなわち箇条書き項
目タイプ箇条書き全体タイプの話題確立区間での話題
であれば、Aの属する話題確立区間の先頭を話題継続区
間の開始点とし、話題レベルがm以下の話題の開始直前
と箇条書き領域終了の2つのうち時間的に早く出現した
方を話題継続区間の終了点とする(ステップS120
3)。
【0060】意味的展開処理140 話題確立区間の決定141 基盤展開の中で話題が展開される意味的展開において、
話題が提示・確立される話題確立区間を同定する。図1
3に意味的展開における話題確立区間の決定処理の流れ
の例を示す。
【0061】各段落あるいは疑似段落に対して、段落ま
たは疑似段落に含まれる単文数が5以上であるか、ま
た、その段落または疑似段落が箇条書き領域を含まない
かを調べ(ステップS1301,1302)、いずれに
も該当しなければ、この段落には話題確立区間はないと
して(ステップS1306)終了する。いずれにも該当
する場合には、以下の区間を話題確立区間の候補とす
る。すなわち、その段落、疑似段落の先頭を開始点と
し、第8単文の文末と段落、疑似段落の最後から2番目
の文の文末の2つのうち、時間的に先に現われたものを
終了点とする区間を話題確立区間候補とする(ステップ
S1303)。ただし、この「第8文」という値は、
テキストの性質の応じて人間があらかじめ適切な値を与
えるものとする。
【0062】次に、その話題確立区間候補の中に後述す
る「意味的展開用話題候補優先順位」に含まれる顕著名
詞句が1つ以上あるかを調べ(ステップS1304)、
存在すれば、その話題確立区間候補を話題確立区間とし
て認定する(ステップS1305)。また、上記の条件
を満たさない場合は、その段落または疑似段落には話題
確立区間は存在しないものとする(ステップS130
6)。
【0063】次に、「意味的展開用話題候補優先順位」
について説明する。これは意味的展開において話題とな
りやすいものを優先順位と共にまとめた規則であり、人
間があらかじめ準備しておく。図14に意味的展開用話
題候補優先順位の例を示す。
【0064】話題候補には、(1)疑問表現を伴う顕著
名詞句が含まれる。ここで、疑問表現は「尋ねる」「問
う」などの表現を伴うので、それらの表現とテキストの
間でマッチングを取ることにより、疑問表現かどうかの
同定を行なうことができる。また、(a)直前の章タイ
トル直前の要約区間に含まれている顕著名詞句、
(b)固有名詞を含む顕著名詞句、(c)「は」以外の
明示マーカで示された顕著名詞句も意味的展開用話題候
補優先順位に含まれる。
【0065】話題語の決定142 基盤展開の中で話題が展開される意味的展開での話題確
立区間において、どのような話題が提示されているかを
同定する。図15に意味的展開における話題語決定処理
の流れの例を示す。
【0066】意味的展開における各話題確立区間につい
て、図14に示した「意味的展開用話題候補優先順位」
に基づいて最も優先順位の高いものを抽出する(ステッ
プS1501)。続いて、抽出された候補が1つである
かを確認し(ステップS1502)、1つであれば、そ
れを話題として認定する(ステップS1504)。も
し、複数の候補が抽出されていれば、最も時間的に早く
出現した候補を話題として認定する(ステップS150
3)。
【0067】話題レベル区間の決定143 意味的展開における話題に対して、その話題レベルと話
題が継続する区間を決定する。図16に意味的展開にお
ける話題レベル区間決定処理の流れの例を示す。
【0068】ここで、現在処理対象としている話題をA
とする。まず、話題Aの話題レベルを1とする(ステッ
プS1601)。次に、Aの属する話題確立区間の先頭
をAの継続区間の開始点とする。また、意味的展開で話
題Aの次に現われる話題の直前と、基盤展開での話題確
立区間の開始点の直前と、テキスト終了時の3つのう
ち、時間的に最も早く起きたものを話題Aの継続区間の
終了点とする(ステップS1602)。
【0069】基盤展開と意味的展開の統合処理150 これまで求めた基盤展開における話題構造と意味的展開
における話題構造を統合する。図17に基盤展開と意味
的展開の統合処理の流れの例を示す。
【0070】まず、基盤展開における話題であるかを調
べ(ステップS1701)、基盤展開における話題に対
しては、話題レベルは元のままとして(ステップS17
03)話題構造を統合し(ステップS1704)、意味
的展開における話題に対しては、話題レベルの補正を行
なった後で(ステップS1702)統合を行なう(ステ
ップS1704)。
【0071】意味的展開の話題レベルの補正は、元の話
題レベルに、その時点での基盤展開の話題レベルの最大
値を加えることにより行なう。統合後に得られた話題構
造が、最終的な話題構造である。
【0072】テキストデータ例を用いた説明 次に、具体的なテキストデータ例を用いて、本発明を適
用した場合の、話題構造認識方法を詳細にする。
【0073】話題構造認識前処理120 単文区切り処理122の具体例 図18は本発明の一実施例のテキスト例を示す図であ
る。このテキスト例を、図3に示した単文区切り規則例
等を用いて単文に分割した例を図19に示す。
【0074】顕著名詞句の抽出123の具体例 分割した各単文に対して、顕著名詞句を抽出する。図1
9の単文分割結果に対して、図4に示すような顕著名詞
句マーカを用いて顕著名詞句を抽出した結果を図20に
示す。ここで、図20において、顕著名詞句をアンダー
ラインで示し、また、説明のための単文番号を(1−
1),(1−2),・・・のように示す。
【0075】単文(1−1)では明示マーカ「は」によ
って顕著名詞句「会社Aの通信サービス」が抽出され
る。また、単文(1−2)では、明示マーカ「を」が存
在するが、マークされている語が具体的な意味を持たな
いダイクシス表現「それら」であるので、この単文から
は顕著名詞句は抽出されない。また、単文(3−1)に
は、明示マーカ「は」によって示される「サービスA」
と、明示マーカ「に」によって示される「競合他社」が
含まれるが、図4の優先順位によれば、明示マーカ
「は」の方が優先順位が高いので、「サービスA」を顕
著名詞句として選択する。他の単文でも同様にして、顕
著名詞句マーカによって顕著名詞句を抽出する。
【0076】ブロック認識124の具体例 テキストにおける論理構造を認識する。図18に示した
テキスト例に対する論理構造の認識例を図21に示す。
図5に示した論理構造例のうち、箇条書き領域はこのテ
キスト例には存在しないので、その以外の論理構造であ
るタイトル、章タイトル、本文、段落が認識されてい
る。箇条書き領域以外の論理構造は、元のテキスト中に
タグなどによってあらかじめ与えられていることが多い
ので、ここでもこれらの論理構造はあらかじめ与えられ
ているものとする。
【0077】基盤展開処理130 基盤展開処理130における話題確立区間決定131の
具体例 基盤展開における話題確立区間を同定する。テキスト例
における基盤展開の話題確立区間の同定結果を図22に
示す。図8の要約区間決定処理によると、章に含まれな
い文章がテキストの先頭にあれば、その第1文を要約区
間とするので、図22に示すように段落aの第1文は要
約区間である。同じく図8の要約区間決定処理による
と、章や節の第1文を要約区間とするので、図22に示
すように段落bと段落eのそれぞれの第1文は要約区間
である。図7によれば、要約区間は基盤展開での話題確
立区間でもあるので、これらを章立てタイプの話題確立
区間として認定する。また、話題確立区間が含まれる段
落において、話題確立区間以外を疑似段落とする。この
テキスト例には箇条書き領域が存在しないので、基盤展
開における話題確立区間の同定処理はこれで終了であ
る。
【0078】基盤展開処理130における話題語決定1
32の具体例 基盤展開の話題確立区間における話題語の決定を行な
う。基盤展開には図22に示すように3つの話題確立区
間が認定された。段落aの「会社Aの通信サービス」
は、図10に示した基盤展開用話題候補優先順位を満た
すので、図9の基盤展開における話題語決定処理にした
がって、話題語候補として抽出する。段落aに含まれる
話題確立区間から抽出される候補はこれだけであるの
で、「会社Aの通信サービス」を段落aに含まれる話題
確立区間での話題語として決定する。同様に、段落bに
含まれる話題確立区間での話題語として「様々な新規サ
ービス」を、段落eに含まれる話題確立区間での話題語
として「従来からのサービス」を抽出する。
【0079】基盤展開処理130における話題レベル区
間決定133の具体例 基盤展開における話題語の話題レベル区間を決定する。
図11の規則にしたがって、テキストの最初の話題「会
社Aの通信サービス」の話題レベルを1とする。次の話
題「新規サービス」は、章立てタイプの話題確立区間に
おける話題であり、章の開始というより詳細方向への章
立て遷移が起きているので、図14の規則にしたがって
話題レベルを1増加させ、2とする。次の話題「従来か
らのサービス」は、章立てタイプの話題確立区間におけ
る話題であり、章から章へという同レベルへの章立て遷
移が起きているので、図11の規則にしたがって話題レ
ベルはそれ以前と同じ2とする。また、各話題の継続区
間は、図12の処理のうちの章立てタイプの話題確立区
間に関するものを用いて決定する。「会社Aの通信サー
ビス」の継続区間はテキスト開始からテキスト終了ま
で、「新規サービス」の継続区間は図22の段落b,
c,dで、「従来からのサービス」の継続区間は図22
の段落e,fである。これらの話題レベル区間の認識結
果を図23に示す。
【0080】意味的展開処理140 意味的展開処理140における話題確立区間決定141
の具体例 意味的展開における話題確立区間を同定する。テキスト
例における意味的展開の話題確立区間の同定結果を図2
4に示す。図13に示した意味的展開の話題確立区間同
定処理は、先に述べた基盤展開における話題確立区間同
定処理において認定された疑似段落を含む段落に関して
は、段落全体ではなく、疑似段落だけに対して行なう。
図24の疑似段落Aは、含まれる単文数が5未満である
ので、この疑似段落には意味的展開での話題確立区間は
ないものとする。同様の理由で、図24の疑似段落B,
Eと段落dにも、意味的展開での話題確立区間は含まれ
ていないとする。図24の段落cは単文を5以上含み、
かつ箇条書き領域を含まない。さらに、段落cの「サー
ビスA」は、図14に示した意味的展開用話題候補優先
順位のうち、「直前の要約区間に含まれている顕著名詞
句」という条件を満たすので、段落cの先頭を話題確立
区間の開始点とする。また、段落の第8単文の文末と
段落の最後から2番目の文の文末の2つで、時間的に先
に現われた方を話題確立区間の終了点とする。同様に、
段落fに対しても話題確立区間を決定する。
【0081】意味的展開処理140における話題語決定
142の具体例 意味的展開の話題確立区間における話題語の決定を行な
う。意味的展開には図24に示すように2つの話題確立
区間が認定された。段落cの「サービスA」は、図14
に示した意味的展開用話題候補優先順位を満たすので、
図15の意味的展開における話題語決定処理にしたがっ
て、話題語候補として抽出する。図14に示した意味的
展開用話題候補優先順位において、「サービスA」より
も優先順位の高いもの、すなわち「疑問表現を伴う顕著
名詞句」が段落cの話題確立区間に含まれていないと仮
定する。すると、たとえこの話題確立区間において「サ
ービスA」以外の候補が検出されても、時間的に最も早
く現われたものを選択することになるので、最初に出現
した「サービスA」を話題として認定する。同様に、段
落fでは、「番号案内の有料化」が話題として認定され
る。
【0082】意味的展開処理140における話題レベル
区間決定143の具体例 意味的展開における話題語の話題レベル区間を決定す
る。図16の規則にしたがって、全ての話題語の話題レ
ベルを仮に1とする。また、各話題の継続区間も図16
の規則にしたがって決定する。「サービスA」の継続区
間は、図24の段落c,dとし、「番号案内の有料化」
の継続区間は図23の段落fとする。これらの話題レベ
ル区間の認識結果を図25に示す。
【0083】基盤展開と意味的展開の統合処理150の
具体例 基盤展開と意味的展開における話題構造を統合する。図
17に示した基盤展開と意味的展開の統合規則にしたが
って、意味的展開での話題の話題レベルを補正する。統
合結果を図26に示す。これが、図18のテキスト例に
対して、本発明の話題構造認識方法を適用してえられた
話題構造である。
【0084】実験データ 本発明の話題構造認識方法を実際のテキスト・データに
適用した評価実験の結果を示す。評価としては、人間が
認識した話題構造と計算機が認識した話題構造を比較す
ることにより、再現率と適合率を求める方法を採用し
た。ここで、再現率とは人間が認識した話題構造のう
ち、どれだけが計算機によって認識されているかを示す
尺度であり、適合率とは計算機が認識した話題構造のう
ち、どれだけが人間によっても認識されているかを示す
尺度である。もし、人間と計算機がそれぞれ認識した話
題構造が一致すれば、再現率、適合率とも100%とな
る。
【0085】実験に用いたテキスト・データは、全部で
新聞記事10件であり、単文数にすると388である。
評価を行なった結果、再現率が69.0%で、適合率が
54.0%であった。
【0086】
【発明の効果】上述のように本発明により、特定のドメ
インに依存した知識を用いることなく、話題とその構造
を認識することができる。
【0087】また、認識された話題と話題構造を利用者
に提示することにより、利用者によるテキスト内容の大
まかな把握を支援することが可能となる。また、話題構
造を目次として使用することも可能である。
【図面の簡単な説明】
【図1】本発明の一実施例のテキスト話題構造認識のた
めの処理を示すフローチャートである。
【図2】本発明の一実施例のテキスト話題構造認識装置
のブロック図である。
【図3】本発明の一実施例に用いられる単文区切り規則
の例を示す図である。
【図4】本発明の一実施例に用いられる顕著名詞句のマ
ーカ優先順位規則の例を示す図である。
【図5】本発明の一実施例に用いられる論理構造の例を
示す図である。
【図6】本発明の一実施例に用いられる箇条書き領域決
定規則の例を示す図である。
【図7】本発明の一実施例の基盤展開における話題確立
区間の決定処理を示すフローチャートである。
【図8】本発明の一実施例の要約区間の決定処理を示す
フローチャートである。
【図9】本発明の一実施例の基盤展開における話題語決
定処理を示すフローチャートである。
【図10】本発明の一実施例の基盤展開用話題候補優先
順位を示す図である。
【図11】本発明の一実施例に用いられる基盤展開用レ
ベル付け規則の例を示す図である。
【図12】本発明の一実施例の基盤展開における話題継
続区間決定処理を示すフローチャートである。
【図13】本発明の一実施例の意味的展開における話題
確立区間の決定処理を示すフローチャートである。
【図14】本発明の一実施例の意味的展開用話題候補優
先順位を示す図である。
【図15】本発明の一実施例の意味的展開における話題
語決定処理を示すフローチャートである。
【図16】本発明の一実施例の意味的展開での仮の話題
レベル区間決定処理を示すフローチャートである。
【図17】本発明の一実施例の基盤展開と意味的展開の
統合処理を示すフローチャートである。
【図18】本発明の一実施例のテキスト例を示す図であ
る。
【図19】本発明の一実施例のテキスト例に対する単文
区切り結果の例を示す図である。
【図20】本発明の一実施例のテキスト例における顕著
名詞句の例を示す図である。
【図21】本発明の一実施例のテキスト例における論理
構造を示す図である。
【図22】本発明の一実施例のテキスト例での基盤展開
における話題確立区間を示す図である。
【図23】本発明の一実施例のテキスト例での基盤展開
における話題構造を示す図である。
【図24】本発明の一実施例のテキスト例での意味的展
開における話題確立区間を示す図である。
【図25】本発明の一実施例のテキスト例での意味的展
開における話題構造を示す図である。
【図26】本発明の一実施例のテキスト例における話題
構造を示す図である。
【符号の説明】
110 テキスト 120 話題構造認識前処理 121 形態素解析 122 単文区切り処理 123 顕著名詞句抽出 124 ブロック認識 130 基盤展開処理 131,141 話題確立区間の決定 132,142 話題語の決定 133,143 話題レベル区間の決定 141 意味的展開処理 150 基盤展開と意味的展開の統合処理 160 話題構造 201 データ入力部 202 前処理記憶部 203 話題構造認識前処理部 204 前処理用辞書 205 基盤展開処理規則管理部 206 基盤展開処理規則 207 基盤展開処理記憶部 208 意味的展開処理規則管理部 209 意味的展開処理規則 210 意味的展開処理記憶部 211 統合処理記憶部 212 統合処理部 213 統合処理規則管理部 214 統合処理規則 215 表示部 230 基盤展開処理部 231,241 話題区間確立決定処理部 232,242 話題語決定処理部 233,243 話題レベル区間決定処理部 240 意味的展開処理部
フロントページの続き (56)参考文献 特開 平4−306768(JP,A) 特開 平4−332084(JP,A) 特開 平5−266072(JP,A) 竹下敦、“4H−3 対話構造を用い た話題の同定”、情報処理学会第43回 (平成3年後期)全国大会講演論文集 (3)、平成3年9月24日、p.3− 229〜3−230 (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 G06F 17/30

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 話題構造認識前処理用辞書記憶手段と話
    題構造認識前処理手段と基盤展開処理規則記憶手段と基
    盤展開処理手段と意味的展開処理規則記憶手段と意味的
    展開処理手段と統合処理規則記憶手段と統合処理手段と
    を有する話題構造認識装置を用いて書き言葉テキストに
    対しての話題構造を認識する方法であって、 まず、前記話題構造認識前処理手段にて前記話題構造認
    識前処理用辞書記憶手段に記憶されている話題構造認識
    前処理用辞書を用いて入力された書き言葉テキストに対
    して形態素解析処理と単文区切り処理と顕著名詞句抽出
    処理とブロック認識処理とからなる話題構造認識前処理
    を行い、 次に、前記基盤展開処理手段にて前記基盤展開処理規則
    記憶手段に記憶されている基盤展開規則を用いて前記話
    題構造認識前処理の結果から、前記書き言葉テキストに
    おける話題の展開を章や節などによって明示的に示され
    る基盤展開についての、話題が提示・確立される話題確
    立区間の同定処理と話題確立区間における話題語の同定
    処理と話題語の入れ子のレベルと継続区間の同定処理と
    を順次に行う基盤展開処理を行い、 次に、前記意味的展開処理手段にて前記意味的展開処理
    規則記憶記憶手段に記憶されている意味的展開処理規則
    を用いて前記話題構造認識前処理の結果と前記基盤展開
    処理の各処理における結果から、基盤展開の中で話題が
    展開する意味的展開についての、話題が提示・確立され
    る話題確立区間の同定処理と話題確立区間における話題
    語の同定処理と話題語の入れ子のレベルと継続区間の同
    定処理とを順次に行う意味的展開処理を行い、 その後、前記統合処理手段にて前記統合処理規則記憶手
    段に記憶されている統合処理規則を用いて前記基盤展開
    処理の結果と前記意味的展開処理の結果とから、統合処
    理を行うことにより、書き言葉テキスト全体の話題構造
    を認識し、 書き言葉テキストに対する話題構造認識前処理における
    顕著名詞句抽出処理として、単文区切り処理結果の書き
    言葉テキスト中の各単文に対して、顕著名詞句候補を示
    す言語表現を顕著名詞句を提示する機能しか持たない明
    示マーカとそれ以外の非明示マーカに分類し、その種類
    と優先順位を登録した、顕著名詞句マーカ優先順位規則
    とマッチングを取ることにより、顕著名詞句候補の抽出
    と優先順位付けを行い、最も優先順位の高い候補を顕著
    名詞句と選ぶことを特徴とする書き言葉テキストに対す
    る話題構造認識方法。
  2. 【請求項2】 請求項1記載の書き言葉テキストに対す
    る話題構造認識方法において、 書き言葉テキストに対する話題構造認識の基盤展開処理
    として、 書き言葉テキストの章や節のように明示的に話題が展開
    される論理構造を用いることにより基盤展開の話題が提
    示・確立される話題確立区間を同定処理し、 前記同定された基盤展開での話題確立区間において、基
    盤展開用話題候補優先順位にしたがって、顕著名詞句か
    ら、最も優先順位が高い話題候補を選び、選ばれた候補
    が1つしかない場合はその候補を話題とし、選ばれた候
    補が複数ある場合は、時間的に最も早く出現した候補を
    選ぶことにより、基盤展開における話題語を同定し、 前記同定された基盤展開での話題語の中で最初の話題語
    の話題レベルを1とし、それ以外の話題に関しては基盤
    展開用話題レベル付け規則にしたがい話題レベルを決定
    し、各話題が属する話題確立区間の先頭をその話題の継
    続区間の開始点とし、その話題レベル以下の話題の開始
    直前と書き言葉テキスト終了点の2つのうち時間的に早
    い方を話題確立区間の終了点とすることにより、基盤展
    開における話題語のレベルと継続区間を同定処理するこ
    とを特徴とする書き言葉テキストに対する話題構造認識
    方法。
  3. 【請求項3】 請求項1記載の書き言葉テキストに対す
    る話題構造認識方法において、 書き言葉テキストに対する話題構造認識の意味的展開処
    理として、 書き言葉テキストの章や節のように明示的に話題が展開
    される論理構造と、文章全体のタイトルや章タイトルな
    どのタイトル情報と、前記話題構造認識前処理の結果で
    ある、前記顕著名詞句と、意味的展開用話題候補優先順
    位と、前記基盤展開処理の結果である基盤展開での話題
    確立区間を用いることにより、書き言葉テキストに対す
    る話題構造認識の意味的展開についての話題が提示・確
    立される話題確立区間を同定し、 前記同定された意味的展開での話題確立区間において、
    前記意味的展開用話題候補優先順位にしたがって、顕著
    名詞句から、最も優先順位が最も高い話題候補を選び、
    選ばれた候補が1つしかない場合はその候補を話題と
    し、選ばれた候補が複数ある場合は、時間的に最も早く
    出現した候補を選ぶことにより、意味的展開における話
    題語を同定し、 前記同定された意味的展開における全ての話題語に対し
    て仮の話題レベルを1とし、各話題が属する話題確立区
    間の先頭をその話題の継続区間の開始点とし、意味的展
    開でその話題の次の話題の開始直前と基盤展開での話題
    確立区間の開始点の直前と言語データ終了点の3つのう
    ち時間的に早い方を話題確立区間の終了点とすることに
    より、意味的展開における話題語の仮レベルと継続区間
    を決定することを特徴とする書き言葉テキストに対する
    話題構造認識方法。
  4. 【請求項4】 書き言葉テキストを入力するための入力
    部と、 話題構造認識の前処理辞書の辞書内容を取り出す手段
    と、 その辞書内容を用いて前処理を行なって前処理記憶部に
    記憶する手段と、 話題の展開を手掛かり句などによって明示的に示される
    基盤展開と、その基盤展開の中で展開する意味的展開に
    分離し、基盤展開と意味的展開のそれぞれについての処
    理結果を記憶する基盤展開処理記憶部と意味的展開処理
    記憶部と、 基盤展開処理規則の各規則を取り出す手段と、 基盤展開処理規則を用いて、話題確立区間決定処理と話
    題語決定処理と話題レベル区間決定処理を行なって基盤
    展開処理記憶部に記憶する手段と、 意味的展開処理規則の各規則を取り出す手段と、 意味的展開処理規則を用いて、話題確立区間決定処理と
    話題語決定処理と話題レベル区間決定処理を行なって意
    味的展開処理記憶部に記憶する手段と、 統合処理規則の各規則を取り出す手段と、 統合処理規則規則を用いて、統合処理を行なって統合処
    理記憶部に記憶する手段と、 統合処理記憶部の内容を表示するための表示部を有する
    ことを特徴とする話題構造認識装置。
JP05306289A 1993-12-07 1993-12-07 書き言葉テキストに対する話題構造認識方法および装置 Expired - Lifetime JP3082890B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP05306289A JP3082890B2 (ja) 1993-12-07 1993-12-07 書き言葉テキストに対する話題構造認識方法および装置
US08/354,120 US5642520A (en) 1993-12-07 1994-12-06 Method and apparatus for recognizing topic structure of language data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05306289A JP3082890B2 (ja) 1993-12-07 1993-12-07 書き言葉テキストに対する話題構造認識方法および装置

Publications (2)

Publication Number Publication Date
JPH07160711A JPH07160711A (ja) 1995-06-23
JP3082890B2 true JP3082890B2 (ja) 2000-08-28

Family

ID=17955307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05306289A Expired - Lifetime JP3082890B2 (ja) 1993-12-07 1993-12-07 書き言葉テキストに対する話題構造認識方法および装置

Country Status (1)

Country Link
JP (1) JP3082890B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3329353B2 (ja) * 1994-09-19 2002-09-30 日本電信電話株式会社 テキスト用話題構造認識における話題語選択方法と話題構造認識装置
JP3329352B2 (ja) * 1994-09-19 2002-09-30 日本電信電話株式会社 話題構造認識における話題レベル制御方法および話題構造認識装置
JP3333952B2 (ja) * 1994-10-21 2002-10-15 日本電信電話株式会社 話題構造認識方法及び装置
JP3597697B2 (ja) 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法
JP5147651B2 (ja) * 2008-11-11 2013-02-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書データ内を検索するシステム、方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
竹下敦、"4H−3 対話構造を用いた話題の同定"、情報処理学会第43回(平成3年後期)全国大会講演論文集(3)、平成3年9月24日、p.3−229〜3−230

Also Published As

Publication number Publication date
JPH07160711A (ja) 1995-06-23

Similar Documents

Publication Publication Date Title
US5694523A (en) Content processing system for discourse
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
US5708822A (en) Methods and apparatus for thematic parsing of discourse
Tur et al. Spoken language understanding: Systems for extracting semantic information from speech
US5768580A (en) Methods and apparatus for dynamic classification of discourse
US9223779B2 (en) Text segmentation with multiple granularity levels
Lita et al. Truecasing
US5642520A (en) Method and apparatus for recognizing topic structure of language data
US20040260558A1 (en) Method and system for segmenting and identifying events in images using spoken annotations
US20090327115A1 (en) Financial event and relationship extraction
JP2003505778A (ja) 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
JP2002215617A (ja) 品詞タグ付けをする方法
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Arai et al. Grammar fragment acquisition using syntactic and semantic clustering
Glass et al. A naive salience-based method for speaker identification in fiction books
JP2572314B2 (ja) キーワード抽出装置
Jia et al. Speaker identification and its application to social network construction for chinese novels
JP3082890B2 (ja) 書き言葉テキストに対する話題構造認識方法および装置
CN111027312B (zh) 文本扩充方法、装置、电子设备及可读存储介质
JP3162896B2 (ja) 話題構造認識方法および装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
JP3082889B2 (ja) モノローグ・データに対する話題構造認識方法および装置
Tur et al. Semi-supervised learning for spoken language understanding semantic role labeling
JP2001060199A (ja) 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090630

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090630

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100630

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100630

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110630

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120630

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130630

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140630

Year of fee payment: 14

EXPY Cancellation because of completion of term