JP3614055B2 - Summary sentence creation method and apparatus, and storage medium storing summary sentence creation program - Google Patents

Summary sentence creation method and apparatus, and storage medium storing summary sentence creation program Download PDF

Info

Publication number
JP3614055B2
JP3614055B2 JP29986099A JP29986099A JP3614055B2 JP 3614055 B2 JP3614055 B2 JP 3614055B2 JP 29986099 A JP29986099 A JP 29986099A JP 29986099 A JP29986099 A JP 29986099A JP 3614055 B2 JP3614055 B2 JP 3614055B2
Authority
JP
Japan
Prior art keywords
sentence
important
word
word group
important word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29986099A
Other languages
Japanese (ja)
Other versions
JP2001052032A (en
Inventor
良博 関
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP29986099A priority Critical patent/JP3614055B2/en
Publication of JP2001052032A publication Critical patent/JP2001052032A/en
Application granted granted Critical
Publication of JP3614055B2 publication Critical patent/JP3614055B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体に係り、特に、テキスト処理において、複数の電子メール、ホームページ、お店の案内文等の要約を一覧で表示するように、内容を1行程度で要約する要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体に関する。
【0002】
詳しくは、入力テキストから文章構造を解析し、抽出された重要語の中から要約語を選択ルールのみならず、シソーラス知識に基づいて文テンプレートを選択し、それに沿った要約文を生成するための要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体に関する。
【0003】
【従来の技術】
従来、文書を一覧表示する場合は、タイトルを表示したり、文書の先頭の文を表示している。
また、要約文を作成する際、重要な文を選んで集めた抜粋文章を作る方法がある。この方法は、まず、文章の中に含まれる名詞を全て調べ、順位トップの名詞は文章の最も重要なキーワードと考えられるので、これを多く含む文ほど重要な文と考えて文毎に重要度ランキングを作る。そして、指定された要約率に応じて低ランクの文を切捨てる。このように、従来は、要約技術に関しては重要な文を抽出する抄録のレベルが、tf×idf法等による統計的手法により重要語を選択している。
【0004】
【発明が解決しようとする課題】
しかしながら、ホームページにはタイトルのない文書が多く、文書の先頭だけでは内容を表すことができない。特に、長い文を1行程度で表示した場合、途中で途切れてしまい、内容が分からない場合もある。
また、キーワードがどこに出現しても同じ重みなので、タイトルに出現する単語と、末尾の補足説明にある単語が同じ重要度になってしまう。タイトルはその文章をまとめる表現であると考えられるため、そこから抽出された単語の重要度を上げる必要があるし、補足説明から抽出された単語の重要度は下げる必要がある。
【0005】
検索結果の一覧を表示する場合、各文書の内容の違いが分かるように表示する項目を統一することが有効であるが、上記従来の統計的な手法では、単語の意味をもとにキーワードを取り出していないので、「対象者」や「取扱商品」、「値段」という観点でのキーワードを取り出すことができない。
また、何らかの情報と要約を同時に表示した場合、要約以外で表示する情報と重複する内容は要約に入れる必要がない。しかし、上記の従来の技術における文書一覧表示の方法では、では、そのような判断は不可能である。例えば、「高齢者を対象にした福祉サービス」で検索した場合、対象者は「高齢者」であることは明らかなので、「高齢者にヘルパーを派遣します」という要約ではなく、「ヘルパーを派遣します」で十分である。また、タイトルと要約を同時に表示した場合、タイトルと重複する内容は要約に入れる必要がない。しかし、従来の技術では、そのような判断は不可能である。
【0006】
例えば、「ヘルパー派遣」というタイトルに対しては、「ヘルパーを派遣します」という要約ではなく、それ以外の付加情報、ヘルパーの仕事内容、料金はかかるのか等の情報を表示することがユーザにとって有用である。
また、「老人ホーム」で検索し、複数のサービス、例えば、「特別養護老人ホーム」「養護老人ホーム」が検索された場合、それぞれの案内サービスに対して個別に要約を作成した場合、「老人を預かり世話します」といった同一内容の情報となり、有用な要約とは言えない。検索された全てのサービスの内容を比較し、それぞれのサービスの差分を強調し、「寝たきり老人や痴呆の老人を世話します」「一人暮らし老人や低所得者層を世話します」と差分を強調し表示することによって、ユーザのサービスの選択性を向上させる必要がある。
【0007】
さらに、上記の従来の技術では、装置上の表示可能領域に基づいて動的に要約情報を変化させることができないために、例えば、案内領域が40文字文の場合、定型ロジックで要約文を編集した場合、要約文の一部しか案内することができなかったり、あまりにも簡約な要約となり、情報が少な過ぎるといった問題が発生する。
【0008】
本発明は、上記の点に鑑みなされたもので、有用な言葉のみで要約文を作成することが可能な要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明(請求項1)は、文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると(ステップ1)、
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程(ステップ2)と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程(ステップ3)と、
要約語選択制御手段において、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、各文の文種別と各文の重要語群と各文の重要語群の確信度とから各文の重要語群の重要度を求め、
各文それぞれの重要語群が、外部から入力された単語、または、入力された文書中の予め指定された文種別の文からサービス重要語抽出過程において抽出された重要語群と一致する場合に、一致した重要語群の重要度を下げ、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、該各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程(ステップ4)と、
テンプレート選択手段において、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程(ステップ5)と、
要約文生成手段において、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程(ステップ6)と、を行なう。
【0010】
本発明(請求項2)は、文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると、文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程と、
要約語選択制御手段において、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、各文の文種別と各文の重要語群と各文の重要語群の確信度とから各文の重要語群の重要度を求め、
各文それぞれの重要語群が、他の文書から文章構造解析過程とサービス重要語抽出過程において抽出された他の文書の各文の重要語群と完全または、部分的に一致する場合に、一致した重要語群の重要度を下げ、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程と、
テンプレート選択手段において、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程と、
要約文生成手段において、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程と、
を行なう
【0011】
本発明(請求項)は、文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると、文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要名詞の係り受け関係と抽出する重要名詞と抽出する重要名詞の確信度との対応付け、及び、抽出する重要動詞の係り受け関係と抽出する重要動詞との対応付けが予め定義された抽出ルールを用いて、各文から各文の1つまたは複数の重要名詞と重要動詞による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程と、
要約語選択制御手段において、
重要名詞が出現する文種別と重要名詞の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、各文の文種別と、各文の重要名詞と、各文の重要語群の確信度とから各文の重要語群の重要度を求め、
各文それぞれの重要語群中の重要名詞と重要動詞が、他の文書から文章構造解析過程とサービス重要語抽出過程において抽出された他の文書の各文の重要語群の重要名詞と重要動詞と完全に一致する場合には、重要名詞と重要動詞が完全に一致した重要語群を棄却し、完全に一致しない場合には、他の文書の各文の重要名詞と一致する該各文のそれぞれの重要語群中の重要名詞を重要語群から棄却し、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、該各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、該同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程と、
テンプレート選択手段において、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程と、
要約文生成手段において、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程と、
を行う。
【0012】
本発明(請求項4)は、文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると、文の書式を示す情報と、文種別との対応付けが予め定義された構造定義ルールとを用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程と、
要約語選択制御手段において、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、各文の文種別と各文の重要語群と各文の重要語群の確信度とから各文の重要語群の重要度を求め、
外部から入力された文から、予め定義されたユーザ意図推論知識を入力された文を特徴付ける単語を抽出し、
各文それぞれについて、抽出された単語に関連する単語が各文の重要語群中に含まれる場合に、関連する単語が含まれる重要語群の重要度を上げ、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程と、
テンプレート選択手段において、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程と、
要約文生成手段において、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程と、を行なう。
【0016】
2は、本発明の原理構成図である。
本発明(請求項)は、文書の要約文を生成する要約文生成装置であって、
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段10と、
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルール101を用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段20と、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルール102を用いて、各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段30と、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルール103を用いて、各文の文種別と各文の重要語群と各文の重要語群の確信度とから各文の重要語群の重要度を求め、
各文それぞれの重要語群が、外部から入力された単語、または、入力された文書中の予め指定された文種別の文からサービス重要語抽出手段30によって抽出された重要語群と一致する場合に、一致した重要語群の重要度を下げ、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識104を用いて、該各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段40と、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルール105を用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段50と、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段60と、を有する。
【0017】
本発明(請求項)は、文書の要約文を生成する要約文生成装置であって、
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段と、
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段と、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段と、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、各文の文種別と各文の重要語群と各文の重要語群の確信度とから各文の重要語群の重要度を求め、
各文それぞれの重要語群が、他の文書から文章構造解析手段とサービス重要語抽出手段によって抽出された他の文書の各文の重要語群と完全または、部分的に一致する場合に、一致した重要語群の重要度を下げ、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段と、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段と、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段と、を有する。
【0018】
本発明(請求項)は、文書の要約文を生成する要約文生成装置であって、
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段と、
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段と、
予め決められた解析項目毎に、抽出する重要名詞の係り受け関係と抽出する重要名詞と抽出する重要名詞の確信度との対応付け、及び、抽出する重要動詞の係り受け関係と抽出する重要動詞との対応付けが予め定義された抽出ルールを用いて、各文から各文の1つまたは複数の重要名詞と重要動詞による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段と、
重要名詞が出現する文種別と重要名詞の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、各文の文種別と、各文の重要名詞と、各文の重要語群の確信度とから各文の重要語群の重要度を求め、
各文それぞれの重要語群中の重要名詞と重要動詞が、他の文書から文章構造解析手段とサービス重要語抽出手段によって抽出された他の文書の各文の重要語群の重要名詞と重要動詞と完全に一致する場合には、重要名詞と重要動詞が完全に一致した重要語群を棄却し、完全に一致しない場合には、他の文書の各文の重要名詞と一致する該各文のそれぞれの重要語群中の重要名詞を重要語群から棄却し、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、該各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、該同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段と、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段と、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段と、を有する。
【0019】
本発明(請求項)は、文書の要約文を生成する要約文生成装置であって、
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段と、
文の書式を示す情報と、文種別との対応付けが予め定義された構造定義ルールとを用いて、入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段と、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段と、
要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、各文の文種別と各文の重要語群と各文の重要語群の確信度とから各文の重要語群の重要度を求め、
外部から入力された文から、予め定義されたユーザ意図推論知識を入力された文を特徴付ける単語を抽出し、
各文それぞれについて、抽出された単語に関連する単語が各文の重要語群中に含まれる場合に、関連する単語が含まれる重要語群の重要度を上げ、
解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
解析項目毎に、同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段と、
解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段と、
解析項目毎に、選択された各解析項目の要約文のテンプレートに各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段と、を有する。
【0020】
本発明(請求項)は、文書の要約文を生成する要約文生成プログラムを格納した記憶媒体であって、
請求項1から4記載の方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
【0028】
記のように、本発明では、テキスト構造を解析し、テキストの種類を決定し、抽出したテキストの種類毎に係り受け関係をもとにテキスト中に出現する単語の属性を決め、テキストの種類と単語の属性で重要度を決める。その後、テキストに対して重要度に応じて重要語を抽出し、抽出された重要語に対応するテンプレートを選択し、要約文を作成する。このように、本発明は、テキストの構造解析により単語の出現位置を考慮し、テキストの種類を解析しているので、タイトルや本文の先頭に出現する単語は重要であるという指定が可能となる。また、リンク情報は無視するという指定も可能である。
【0029】
また、重要度を決める際に、案内対象が複数あった場合には、それぞれのテキストに対して抽出した重要語に対して、同様の表現を行う単語の重要度を下げ、ユーザの入力情報を解析し、ユーザの入力情報の表現中に存在した表現と同様の表現を行う重要度を下げる処理や、タイトル等、デフォルトでテキストの内容を解析し、デフォルトのテキスト内容中に存在した表現と同様の表現を行う単語の重要度を下げる処理を施すことで、タイトルと重複する項目、検査条件に指定した項目、他のテキストと共通の項目は要約文から削除できるので、有用な言葉のみで要約文を作ることが可能となる。
【0030】
つまり、検索されたすべてのテキスト内容を比較し、それぞれのテキストの差分を強調し、例えば、「寝たきり老人や痴呆の老人を世話します」、「1人暮らし老人や低所得者層を世話します」と差分を強調し、表示することによって、ユーザのサービスの選択性を向上させることが可能となる。
また、他の複数の文章と共通の表現があった場合に、それらの複数の文章に対する一つの要約文を集約して生成することが可能となる。
【0031】
また、ユーザの入力情報に対応して、表示情報を変化させることが可能となり、ユーザに案内することが有効であろう情報を含んだ要約文を作成することが可能となる。例えば、「安い老人ホーム」で検索したことによって、ユーザがサービスの料金に興味を持っていることが分かった場合、要約文に料金情報を入れることによってユーザが欲しい要約文を作成することが可能となる。
【0032】
また、装置毎に予め決められている表示領域に基づいて動的に表示する要約文の大きさを変化させることができるため、ユーザに対して的確な情報を表示することが可能となる。例えば、40文字という案内領域を考え、要約文の長さが長ければ単語の集約、要約文の長さが短ければ当該要約文の表示情報の増加を行うことで、ユーザに対して、的確な情報を表示することが可能となる。
【0033】
【発明の実施の形態】
図3は、本発明の要約文作成装置の構成を示す。
同図に示す要約文作成装置は、入力部10、文書構造解析部20、サービス重要語抽出部30、要約語選択制御部40、テンプレート選択部50、要約文生成部60、出力部70、構造定義101、抽出ルール102、選択ルール103、シソーラス知識104、テンプレート選択ルール105から構成される。
【0034】
入力部10は、テキスト及びユーザからの入力情報を入力する。本発明では、入力されるテキストとして、タグ情報を含むコーパスを例として説明するが、知識を設定することにより、文の構造情報(配置、フォント、等)により、本文等の種々の分類が可能であり、そのために必要となるテキストの配置や、フォント等を解析する処理を行えばよい。
【0035】
文書構造解析部20は、テキストのタイトル、本文、表等出現位置やタグ情報等によりテキストの種別を定義する構造定義101に基づいて、テキストの種別・構造を解析する。詳しくは、入力されたテキストにおいて、解析対象となる文章の出現位置を考慮し、当該出現位置として、各種別毎に何番目の文章であるかの通し番号を付与する。これは、新聞記事等の場合、先頭に近い文について後に出現する文章と異なる重要度を設定したい場合等に使用することが可能となる。
【0036】
サービス重要語抽出部30は、文書構造解析部20で抽出されたテキストの構造毎に形態素解析を行い、係り受け関係と品詞情報によりテキスト中に出現する単語の確信度を定義する抽出ルール102に従って、テキスト中の単語に対して、単語の属性と確信度、係り受け情報を設定する。本発明では、以下の方法を採用するものとする。
【0037】
▲1▼ 入力テキストに対して形態素解析を行うと共に、係り受け関係を解析する。
▲2▼テキストの係り受け関係と抽出ルール102を照合し、照合したものについて確信度を設定する。照合の方法としては、例としてパターンマッチン等がある。
【0038】
要約選択制御部40は、サービス重要語抽出部30で抽出された単語に対して、テキストの種別と単語の属性、確信度より重要度を定義した選択ルール103と、単語の概念を定義したシソーラス知識104により近い概念の情報を統合し、重要度を算出し、重要度と係り受け関係より重要単語を決定することを制御する。 テンプレート選択部50は、要約選択制御部40により抽出された重要単語に基づいて、重要単語群に対して定義されているテンプレート選択ルール105を参照して、要約文を作成するためのテンプレートを選択する。
【0039】
要約文生成部60は、テンプレート選択部50で選択されたテンプレートに重要単語を当てはめることによって要約文を作成する。
出力部70は、作成された要約文を出力する。
ここで、要約語選択制御部40の構成について説明する。
図4は、本発明の要約語選択制御部の構成(その1)を示す。
【0040】
同図に示す要約語選択制御部40は、要約語選択部41及び情報抑制部42から構成される。
要約語選択部41は、サービス重要語抽出部30で抽出された単語に対して、テキストの種別と単語の属性、確信度より重要度を定義した選択ルール103と、単語の概念を定義したシソーラス知識104により近い概念の情報を統合し、重要度を算出し、重要度と係り受け関係より重要単語を決定し、情報抑制部42に転送する。
【0041】
情報抑制部42は、形態素解析等によってユーザの入力を解析した結果やデフォルトで案内される案内内容を解析した結果を記憶する抑制語記憶部106を参照して、重要単語について、ユーザの入力表現中に存在した表現とデフォルトで案内される表現と同様の表現を行う単語の重要度の値を下げたり、フィルタリングによりカットする処理を行う。
【0042】
また、要約語選択制御部40の他の構成について説明する。
図5は、本発明の要約語選択制御部の構成(その2)を示す。
同図に示す要約語選択制御部40は、要約語選択部41と要約語比較部43から構成される。
要約語選択部41は、決定された重要単語について、テキストが複数存在する場合に、各テキストに対して行った一連の処理結果をテキスト毎に記憶しておく要約語記憶部107を参照して、複数のテキスト中に同様の表現を行う単語が出現していた場合に、要約語比較部43に転送する。
【0043】
これにより要約語比較部43は、同様の単語の属性を比較し、タイトル等、デフォルトで案内される内容を解析し、デフォルトの案内内容中に存在する表現と同様の表現を行う重要単語の重要度を下げる、または、格情報、品詞情報の出現を抑止する。
また、要約語選択部41において、複数のテキスト中に同様の表現を行う単語を取得した場合に、上記の例では、要約語比較部43に転送しているが、これをテンプレート選択部50に転送し、前述の処理を施してテンプートを取得し、要約文生成部60において、複数のテキストに関する1つの要約文を生成することも可能である。つまり、類似する複数のテキストの要約文を作成する。
【0044】
次に、ユーザの意図を推論し、ユーザが欲している情報に関する表現の重要度上げる場合について説明する。
図6は、本発明の要約語選択制御部の構成(その3)を示す。
同図に示す要約語選択制御部40は、要約語選択部41、ユーザ意図判定部44、選択ルール103、シソーラス知識104、及びユーザ意図推論知識108から構成される。
【0045】
ユーザ意図判定部44は、ユーザから入力された情報内に含まれる重要単語について、ユーザ意図推論知識108を参照して当該重要単語に対応するユーザが意図しているであろう単語を抽出し、要約語選択部41に転送する。
これにより、要約語選択部41は、ユーザ意図判定部44において抽出さた単語に重要度を付与する。このとき、複数の重要単語があった場合に、重要度の最も高いものを重要単語とする。
【0046】
次に、表示画面において所定の案内領域が決定されており、当該領域に要約文が収まるように編集する場合について説明する。
図7は、本発明の要約文生成部の構成を示す。
要約文生成部60において生成された要約文を要約文編集部65に転送する。要約文編集部65において、表示領域情報109を参照し、当該案内領域に示されている表示部の広さ、表示情報量、表示情報属性と要約文を比較して、要約文が案内領域に示される情報量を越える場合には、当該要約文を単語の集約を行い、要約文が案内領域に示される情報量の所定の閾値より小さければ表示情報(要約文)を増加させる等の処理を行う。
【0047】
【実施例】
以下、図面と共に本発明の実施例を説明する。
以下、図3〜図5の構成に基づいて説明する。
まず、図3に示す各構成要素で参照するルール等について説明する。
図8は、本発明の一実施例の構造定義の例を示す。
【0048】
同図に示す構造定義101は、単語の出現場所、重要度、重要語、該重要語の属性を取り出すもので、文章構造解析部20により参照される。適用文書形態、ルール及び文種別からなり、ルールから選択される文種別は、文章の構造の種別である、表、図、メニュー、等以外に記入されている内容の種別である。本文、タイトル、手続、連絡先、リンク等も用いることもできる。
【0049】
図9は、本発明の一実施例の抽出ルールの例を示す。
同図に示す抽出ルール102は、係り受け関係と品詞情報により文章中に出現する単語の確信度を定義したものであり、サービス重要語抽出部30により参照され、係り受け関係、属性及び、確信度から構成される。当該抽出ルール102の記述の例として、特願平10−53889の形態を用いることも可能である。この方法は、同じ代表分類ノードに属する単語は同じものとして扱うことにより、短い文章でも頻度に基づいてキーワードの重要度を判断することができる。
【0050】
また、格文法に基づいて、動詞の場所格、頻度等を用いることも可能である。さらに、確信度に0を定義し、抽出しないというルールを記述することができる。
図10は、本発明の一実施例の選択ルールの例を示す。
同図に示す選択ルール103は、文章の種別と単語の属性、確信度より重要度が定義されており、要約語選択制御部40により参照される。選択ルールと重要度からなり、重要度は、確信度に対して四則演算を行い、その結果を統合し、単語毎の重要度として算出したものである。
【0051】
図11は、本発明の一実施例のシソーラス知識の例を示す。
同図に示すシソーラス知識104は、単語の概念が定義されており、要約語選択制御部40により参照される。単語の意味、上下関係の他に、その単語自体の抽象度、具象度が定義されている。動詞の場合は、格の情報が定義されている。図12は、本発明の一実施例のテンプレートの例を示す。
【0052】
同図に示すテンプレート選択ルール105は、要約語を当てはめるものでテンプレート選択部50により選択され、要約文生成部60で使用される。解析項目、抽出された重要語、条件、及びこれらに対応する複数のテンプレート群から構成される。
以下に本実施例の動作を説明する。
[第1の実施例]
図13、図14は、本発明の第1の実施例のHTML文書の例であり、一連のHTML文書である。以下では、このHTML文書を入力とした場合の動作を説明する。
【0053】
図15は、本発明の第1の実施例の動作を示すフローチャートである。
ステップ101) 文章構造解析部20は、入力部10から入力されたHTML文書のタグ情報、文書情報に対し、構造定義101を適用して、文書の文毎に文番号を振り、文種別を割り振る。文番号は文単位、または、表の場合は、表の属性単位で分けるものとする。商品が並列で並んでいる場合には、商品単位で分けるものとする。入力された文書の解析結果を図16に示す。同図の例において、文種別は「メニュー」「タイトル」「本文」「表」「手続き」「連絡先」「リンク」に分けられ、各々の文種別毎に文に文番号が付与されている。
【0054】
ステップ102) 次に、サービス重要語抽出部30において、それぞれの文種別の文番号毎に形態素解析を行い、その後、例えば、特開平10−2669827に開示されている方法により情報を加工し、その情報に基づいて動詞の格情報を抽出ルール102に基づいて取り出す。なお、特開平10−2669827に開示されている方法は、問い合わせ文の形態素・構文解析を行い、単語単位に分割し、当該問い合わせ文中に職業名情報が含まれている場合、知識ベースの変換テーブルを参照して、職業語尾を動詞に変換し、職業名情報の語尾以外の部分は商品名とし、当該商品名と動詞より関連知識を用いて職業分類名を推論し、推論した結果でデータベースを検索する。一方、問い合わせ文中に商品名と動詞が含まれている場合は、変換テーブルの参照を行わずに、直接商品名と動詞より関連知識を用いて職業分類名を推論しデータベースを検索する方法である。
【0055】
解析結果を纏める方法は種々あるが、本実施例では、「商品と商品の対応する動詞と動詞に対応する対象者について」、「対象者について」、「手続について」、「連絡先について」の4つの項目について解析を行った。並列併記される情報の場合、それぞれに対して確信度が与えられる。
サービス重要語抽出部30により抽出された例を図17に示す。
【0056】
ステップ103) 次に、要約語選択制御部40は、サービス重要語抽出部30から取得した図17に示す文種別と確信度より、選択ルール103を用いて重要度を定義する。要約語選択制御部40により重要度の定義の例を図18に示す。
ステップ104) さらに、要約語選択制御部40において、シソーラス知識104を用いて、概念の統一、表記が同じレコードをマージ、共通概念を一つに纏める処理を行う。この時、「等」などで省略されている表示を補完する。
【0057】
この結果を図19に示す。
ステップ105) さらに、要約語選択制御部40において、それぞれ解析した項目について重要度の高いレコードを選択する。選択された結果を図20に示す。
ステップ106) 要約語選択制御部40において、形態素解析の結果得られる動詞の格構造に基づいて情報を補完する。本実施例では、「商品と商品に対応する動詞、動詞に対応する対象者について」の動詞、『給付・助成』は、対象格に品詞が名詞、意味が人の情報をとることがわかるため、「対象者について」の対象者を利用することで情報を補う。「手続について」の動詞、『提出』は対象格に品詞が名詞、意味が人の情報を取らないことがわかるため、情報は補完されない。
【0058】
補完された例を図21に示す。
ステップ107) 次に、テンプレート選択部50が、選択された単語に基づいてテンプレート105を参照し、適切なテンプレートを選択する。この例では、「商品と商品に対応する動詞、動詞に対応する対象者について」は、
『「対象者」 に 「商品」 を 「動詞」 します。』
というテンプレートを選択し、「手続について」は、
『「場所格」 に 「商品」 を 「動詞」 してください。』
というテンプレートを選択し、「連絡先について」は、
『詳しくは、 「連絡先部課名」 (電話「電話番号」) まで。』
というテンプレートを選択する。
【0059】
ステップ108) 次に、要約文生成部60は、テンプレートに当てはめる要素を加工する。シソーラス知識104を用いて、品詞の一般性を考え、抽象の表現が使われていた場合、可能なら具象の表現へ置き換える。なお、項目数が多い場合には、後半分をカットし、『等』という表現へと置き換える。
この場合、「商品と商品に対応する動詞、動詞に対応する対象者について」内の情報『日常生活用具』が、
“ガス漏れ警報機、自動火災感知機、移動感知機、自動消化器、マットレス、体位変換器”
へと変換され、さらに、
“ガス漏れ警報機、自動火災感知器、移動感知機 等”
への変換される。また、
“寝たきり高齢者、一人暮らし高齢者、痴呆性高齢者”
が、
“寝たきり、一人暮らし、痴呆性高齢者”
へと変換される。
【0060】
ステップ109) 要約文生成部60において、出力する要約文を選択する。この場合は、重要度により、
『商品と商品に対応する動詞、動詞に対応する対象者について』
が選択される。
ステップ110) 出力部70において、要約文を出力する。この例の場合は、
『ガス漏れ警報機、自動火災感知機、移動感知機、等を寝たきり、一人暮らし、痴呆性高齢者に給付・助成します』
が出力される。
【0061】
[第2の実施例]
次に、本実施例では、前述の第1の実施例のフローチャートにおけるステップ103において、必ずユーザに案内する情報やユーザの入力とを比較し、重要度を下げる場合について、図4の構成に基づいて説明する。
例えば、タイトルを必ず表示する場合、
『 タイトル:ホームヘルパーの派遣
本文:身体上または、精神上の障害のため、日常生活を営むのに支障のある概ね65歳以上の人がいる家庭にホームヘルパーを派遣します。
【0062】
主なサービスは、洗濯・掃除・買物・食事の支度・身の回りのお世話・相談などです。但し、生計中心者の前年所得額により一部費用を負担して頂きます。』について、形態素解析の結果を利用した結果、
タイトルから、
“商品:ホームヘルパー(人) 対応動詞:派遣 重要度:9”、
本文から、
“商品:ホームヘルパー(人) 対応動詞:派遣 重要度:6”、
商品:洗濯・掃除・買物・食事の支度・身の回りのお世話・相談など(事) 重要度:6、
商品:費用(物) 動詞:負担 重要度1”
となる。商品と動詞の組み合わせでタイトルと全く同じ物が抽出された場合、それらの情報の重要度を0と設定し、その後、ステップ104のマージへと進む。その後、処理を進め、テンプレート選択ルールとして、
『商品だけで動詞がなく、商品の意味が「事」だったら、「商品(事)」を行います』
というルールを適用すると、結果として、
『洗濯・掃除・買物等を行います』
という要約文が得られる。
【0063】
本実施例は、タイトルを必ずしも表示する場合、タイトルにあった単語の重要度を下げているが、ユーザの入力についても同様で、ユーザの入力にあった単語の重要度を下げることもできる。
[第3の実施例]
本実施例では、前述の第1の実施例のステップ103において、複数のサービス情報を比較し、他と違った表現の重要度を上げる例を図5に基づいて説明する。
【0064】
入力文として図22に示す入力文を入力して、ステップ101、ステップ102の解析処理により、本文1から図23(a)に示す内容が、また、本文2から図23(b)に示す内容が抽出される。
ここで、図23(a)の▲1▼と図23(b)の▲4▼、図23(a)の▲3▼と図23(b)の▲6▼が全く同じ表現のため、重要度を大きく下げる。この例では、“−4”とする。また、図23(a)の▲2▼と図23(b)▲5▼はレコード内容のうち、1つのレコードのみが違っている表現のため、重要度を下げる。この例では、“−2”とする。
【0065】
その結果、重要度はそれぞれ図24に示すように設定され、その後、本文1、本文2のそれぞれに情報をもとにステップ104のマージへと進む。
その後、処理を進め、テンプレート選択ルールとして、動詞が「預かる」で、商品に「人」の意味があり、「場所格」、「時間格」がある場合は、
『「対象者」 を 「時間」 に 「場所」 で預かります』
というルールを適用すると、結果として、
本文1からは、
『痴呆性高齢者を夜間に老人ホームで預かります』
本文2からは、
『痴呆性高齢者を日中に老人ホームで預かります』
が得られる。
【0066】
[第4の実施例]
前述の第3の実施例のステップ103において、複数のサービスの情報を比較し、他と同じ表現の重要度を下げると共に、対応しているレコードに対して格情報、品詞情報の出現を抑止する例を図4及び図5に基づいて説明する。
前述の第3の実施例と同様に、図22に示す入力を行った場合、ステップ101、ステップ102の処理により、図25の結果が抽出される。
【0067】
ここで、本文1と本文2で、「動詞」と「商品」が一致しているものを比較し、内容が全部同一ならそのレコードの重要度を「0」として棄却し、内容が一部でも違っているなら、動詞情報を残し、違っている格情報のみを残し、他の格情報や品詞情報を捨てる。
その結果、
本文1において、
▲2▼動詞:預かる 時間:日中 重要度:4
を設定し、
本文2において、
▲5▼動詞:預かる 時間:夜間 重要度:4
を設定する。その後、本文1、本文2のそれぞれの情報をもとにステップ104のマージの処理に以降する。
【0068】
その後、処理を進め、テンプレート選択ルールとして、
『「商品」がなく、「動詞」が預かるで、「時間格」がある場合は、「時間」に預かります。』
というルールを適用すると、結果として、
本文1からは、
『夜間預かります』
本文2からは、
『日中預かります』
という要約文が得られる。
【0069】
[第5の実施例]
本実施例は、図5に示す構成に基づいて、要約語選択部41において、複数のテキスト中に同様の表現を行う単語を取得した場合に、要約文生成部60において、複数のテキストに関する1つの要約文を生成する例を説明する。つまり、複数のサービスの情報を比較し、他と同じ表現を纏めることによって、複数のテキストから1つの要約文を生成するものである。
【0070】
図5において、要約語選択部41において、各テキストに対して行った一連の処理結果をテキスト毎に記憶しておく要約語記憶部107を参照し、以下の内容を取得したものとする。
要約語記憶部107に格納されている本文1からは、
▲1▼商品:介護(事) 動詞:困難 対象者:痴呆性高齢者 重要度:6
▲2▼商品:痴呆性高齢者(人) 動詞:預かる 場所:老人ホーム 時間:日中重要度:6
▲3▼商品:負担 動詞:軽減 対象者:介護者 重要度:6
また、本文2からは、
▲1▼商品:介護(事) 動詞:困難 対象者:痴呆性高齢者 重要度:6
▲2▼商品:痴呆性高齢者(人) 動詞:預かる 場所:老人ホーム 時間:夜間重要度:6
▲3▼商品:負担 動詞:軽減 対象者:介護者 重要度:6
が抽出されたものとする。
【0071】
ここで、本文1と本文2で、動詞と商品が一致しているものを要約語比較部43で比較し、内容が全部同一なら、要約語選択部41においてそのレコード内容を複数の文章のまとめの文として採用するように、以下の内容をテンプレート選択部50に通知する。
商品:痴呆性高齢者(人) 動詞:預かる 場所:老人ホーム
テンプレート選択部50では、テンプレート選択ルール105を参照して、
『商品が“人”、動詞が“預かる”、場所格がある場合には、「商品(人)」を「場所」で預かります。』
というルールを適用することとする。
【0072】
これを要約文作成部60において、当該テンプレートを使用して、
『痴呆性高齢者を老人ホームで預かります』
という1つの要約文を生成する。
[第6の実施例]
本実施例では、ユーザから入力された入力情報からユーザの意図を推論して、当該ユーザの欲している情報に関する表現の重要度を上げる例を、図6を用いて説明する。
【0073】
要約語選択制御部40において、重要語抽出部30で抽出された重要語を取得すると、当該重要語に基づいてユーザ意図判定部44において、ユーザ意図推論知識108を検索する。
本実施例では、ユーザから入力された入力情報が、
『安くおじいちゃんを世話して欲しい』
であるとき、データベースを検索すると、
『タイトル:日中介護サービス
本文:在宅の痴呆性高齢者を老人ホームでおかずかりします。
【0074】
実施回数:サービスの利用回数は年30回まで。
提供時間:午前9時から午後5時。
利用者負担:1,050円/回』
が検索結果として検索され、それを構文解析部20と重要語抽出部30で処理することにより、
・商品と商品に対応する動詞、動詞に対する対象者について:
▲1▼商品:痴呆性高齢者(人) 動詞:預かる 場所:老人ホーム 重要度:6
・商品の実施回数について:
▲2▼回数:年30回 重要度:2
・商品の時間について:
▲3▼時間:午前9時〜午後5時 重要度:2
・商品の値段について:
▲4▼値段:1050円/回 重要度:2
が抽出さえる。ここで、ユーザ意図判定部44において、ユーザからの入力情報「安くおじいちゃんを世話して欲しい」に基づいて意図推論知識108を参照する。この場合、入力情報中に「安く」というキーワードが入っていたため、ユーザについて値段情報を重視していることを判断し、値段情報についての重要度を計算する。
【0075】
ここでは、ユーザからの入力情報に対応する情報の重要度を3倍として
・商品の値段について:
▲4▼値段:1050円/回 重要度:6
となる。
その結果、要約語選択部41では、
▲1▼商品:痴呆性高齢者(人) 動詞:預かる 場所:老人ホーム 重要度:6
▲2▼回数:年30回 重要度:2
▲3▼時間:午前9時〜午後5時 重要度:2
▲4▼値段:1050円/回 重要度:6
が抽出される。これらの情報は、次段のテンプレート選択部50に転送される。
【0076】
テンプレート選択部50では、テンプレート選択ルール105として、動詞が“預かる”で、商品に“人”の意味があり、“場所格”、“時間格”があり、“回数”、“値段”、“時間”の情報が有る場合には、
『「対象者」を「回数」、「時間」の間、「値段」で「場所」にて預かります。』
というルールを適用する。これにより、要約文生成部60では、当該テンプレートを利用して、
『「痴呆性高齢者」を、「年30回」、「午前9時〜午後5時」の間、「1050円/回」で「老人ホーム」にて預かります。』
という要約文を生成し、出力する。
【0077】
[第7の実施例]
次に、本実施例では、図7に基づいて、要約文生成部60において生成された要約文を所定の表示領域情報109に基づいて編集する例を説明する。
まず、要約文生成部60で要約候補文として、
『痴呆性高齢者を、年30回、午前9時〜午後5時の間、1050円/回で老人ホームにて預かります。』
が作成されたとする。
【0078】
ここで、表示領域情報109を参照すると、全文字数が46文字であるため、「文字数30文字以内」の条件をみたしていないとし、上記の要約候補文を加工する。
ここで、要約文編集部65は、テンプレート選択部50で選択された、
『「対象者」を「回数」、「時間」の間、「値段」で「場所」にて預かります。』
とうテンプレート内のそれぞれの要素の重要度を参照し、
「対象者」:痴呆性高齢者 重要度:6
「回数」 :年30回 重要度:2
「時間」 :午前9時〜午後5時 重要度:2
「値段」 :1050円/回 重要度:6
「場所」 :老人ホーム 重要度:6
から、重要度の低い「回数」、「時間」のうち、文字数の多い「時間」を消去する。その結果、
「対象者」:痴呆性高齢者 重要度:6
「回数」 :年30回 重要度:2
「値段」 :1050円/回 重要度:6
「場所」 :老人ホーム 重要度:6
となり、ここで、テンプレート選択部50でテンプレートを再度選択し、動詞が“預かる”で、商品に“人”の意味があり、場所格、時間格があり、回数、値段の情報がある場合には、
『「対象者」を「回数」、「値段」で「場所」にて預かります。』
というテンプレートを選択し、要約文生成部60において、再度、
「痴呆性高齢者を、年30回、1050円/回で老人ホームにて預かります。」
の34文字の要約文候補を作成する。これについても同様に、表示領域情報109を参照すると、「文字数30文字以内」の条件を満たしていないため、当該要約文候補を再度加工する。ここでは、上記の重要度に基づいて、「回数」を消去するものとする。この結果、
「痴呆性高齢者を、1050円/回で老人ホームにて預かります。」
(読み:ちほうせいこうれいしゃをせんごじゅうえん/かいろうじんほーむであずかります)
を得る。この要約文候補は、となり、表示領域情報109の内容を満たしている。
【0079】
上記の例は、文字数が多過ぎるため加工した例であるが、文字数が少ない場合には、複数の文を選択したり、前述の第1の実施例で加工した際に省略された情報を元に戻す等の処理が可能である。なお、文字数が少ないという判定は、表示領域情報109の決められている文字数の80%以下の場合、等の閾値を設定しておくことによりその判断が可能となる。
【0080】
また、上記の実施例では、図15に示すフローチャートに基づいて説明してるが、同図のフローチャートをプログラムとして構築し、要約書作成装置として利用されるコンピュータに接続されるディスク装置や、フロッピーディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより、容易に本発明を実現できる。
【0081】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【0082】
【発明の効果】
上述のように、本発明によれば、単語の出現位置を考慮し、テキストの種類を解析することにより、タイトルや本文の先頭に出現する単語は重要であると認識する、タイトルと重複する項目、検査条件に指定した項目、他の案内文と共通の項目は要約文から削除可能となることから、有用な単語のみで要約文を作成することができる。
【0083】
また、複数のテキスト間における差分を強調することが可能であるため、情報を取捨選択するために有効な要約文を提供することができる。
また、ユーザからの入力情報に基づいて、ユーザの意向を推論することにより、ユーザにニーズに合った要約文を作成することができる。
また、複数のテキスト間において共通の表現がある場合には、テキスト間の共通情報を抽出し、個々の要約文ではなく、代表する要約文を1つに纏めて作成することができる。
【0084】
また、装置上の表示領域の制限や、表示時間の制限がある場合に、要約文を領域や時間に応じて、主要部分を欠落させることなく動的に変更することが可能となり、ユーザに対して的確な要約文を提示することができる。
このように、本発明では、タイトル等、デフォルトで案内する情報と、ユーザの入力を解析し、要約文中に同様の表現を行う単語の出現を抑制するため、表示情報領域が限られたモバイル端末における情報案内や、案内時間が限られた音声による情報案内、検索結果が多く得られた際に、有効な情報を捜し出す検索エンジンやイエローページサービスにおける要約文の作成に有効である。
【0085】
複数の案内情報等の文章の差分を強調し、表示するため、検索エンジンやイエローページサービスにおいて検索結果と共に表示することによって、ユーザの情報を選択肢を増すことができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の要約文作成装置の構成図である。
【図4】本発明の要約語選択制御部の構成図(その1)である。
【図5】本発明の要約語選択制御部の構成図(その2)である。
【図6】本発明の要約語選択制御部の構成図(その3)である。
【図7】本発明の要約文生成部の構成図である。
【図8】本発明の一実施例の構造定義の例である。
【図9】本発明の一実施例の抽出ルールの例である。
【図10】本発明の一実施例の選択ルールの例である。
【図11】本発明の一実施例のシソーラス知識の例である。
【図12】本発明の一実施例のテンプレートの例である。
【図13】本発明の第1の実施例のHTML文書の例(その1)である。
【図14】本発明の第1の実施例のHTML文書の例(その2)である。
【図15】本発明の第1の実施例の動作を示すフローチャートである。
【図16】本発明の第1の実施例の文書構造解析結果の例である。
【図17】本発明の第1の実施例のサービス重要語抽出部により抽出された結果の例である。
【図18】本発明の第1の実施例の重要度設定の例である。
【図19】本発明の第1の実施例の要約語選択制御部による概念の統一・マージ・共通概念の統一処理の例である。
【図20】本発明の第1の実施例の要約語選択制御部による重要度の高いレコードの選択処理の例である。
【図21】本発明の第1の実施例の要約語選択制御部における情報補充の例である。
【図22】本発明の第3の実施例の入力文の例である。
【図23】本発明の第3の実施例の種別付与・重要語抽出結果である。
【図24】本発明の第3の実施例の重要度付与の例である。
【図25】本発明の第4の実施例の種別付与・重要語抽出された結果の例である。
【符号の説明】
10 文書入力手段、入力部
20 文章構造解析手段、文章構造解析部
30 重要語抽出手段、サービス重要語抽出部
40 要約語選択手段、要約語選択制御部
41 要約語選択部
42 情報抑制部
43 要約語比較部
44 要約語選択部
50 テンプレート選択手段、テンプレート選択部
60 要約文生成手段、要約文生成部
65 要約文編集部
70 出力部
101 構造定義
102 抽出ルール
103 選択ルール
104 シソーラス知識
105 テンプレート選択ルール
106 抑制語記憶部
107 要約語記憶部
108 ユーザ意図推論知識
109 表示領域情報
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a summary sentence creation method and apparatus, and a storage medium storing a summary sentence creation program. In particular, in text processing, a summary of a plurality of e-mails, home pages, shop guidance sentences, etc. is displayed as a list. In addition, the present invention relates to a summary sentence creation method and apparatus for summarizing the contents in about one line, and a storage medium storing a summary sentence creation program.
[0002]
For details, analyze sentence structure from input text, select summary words from extracted important words, select sentence templates based on thesaurus knowledge, and generate summary sentences according to them. The present invention relates to a summary sentence creation method and apparatus, and a storage medium storing a summary sentence creation program.
[0003]
[Prior art]
Conventionally, when displaying a list of documents, a title is displayed or the first sentence of the document is displayed.
In addition, there is a method of making an excerpt sentence that selects and collects important sentences when creating a summary sentence. This method first checks all the nouns contained in the sentence, and the noun at the top rank is considered the most important keyword of the sentence. Make a ranking. Then, low-ranked sentences are discarded according to the specified summary rate. As described above, conventionally, an abstract word from which an important sentence is extracted with respect to the summarization technique is selected by a statistical technique such as the tf × idf method.
[0004]
[Problems to be solved by the invention]
However, there are many untitled documents on the homepage, and the contents cannot be expressed only by the top of the document. In particular, when a long sentence is displayed in about one line, it may be interrupted and the content may not be understood.
In addition, since the keyword has the same weight regardless of where it appears, the word appearing in the title and the word in the supplementary explanation at the end have the same importance. Since the title is considered to be an expression that summarizes the sentence, it is necessary to increase the importance of the word extracted from the title, and it is necessary to decrease the importance of the word extracted from the supplementary explanation.
[0005]
When displaying a list of search results, it is effective to unify the items to be displayed so that differences in the contents of each document can be understood. However, in the above conventional statistical method, keywords are selected based on the meaning of words. Since it has not been extracted, it is not possible to extract keywords from the viewpoints of “target person”, “handling product”, and “price”.
When some information and a summary are displayed at the same time, it is not necessary to put the contents overlapping with the information displayed other than the summary in the summary. However, such a determination is not possible with the above-described document list display method in the prior art. For example, when searching for “welfare services for the elderly”, it is clear that the target is “elderly”, so it is not a summary of “sending helpers to the elderly” but “send helpers” Is enough. In addition, when the title and the summary are displayed at the same time, it is not necessary to include the content overlapping the title in the summary. However, such a determination is impossible with the conventional technology.
[0006]
For example, for a title of “helper dispatch”, the user should not display a summary of “send a helper” but other information such as additional help, helper's work contents, and whether a fee will be charged. Useful.
In addition, when searching for “retirement home” and searching for a plurality of services such as “special elderly nursing home” and “nursing nursing home”, if a summary is individually created for each guidance service, It is not a useful summary. Compare the contents of all the searched services, highlight the differences in each service, and emphasize the differences, "I care for bedridden elderly people and elderly people with dementia", "I care for elderly people living alone and low-income earners" Therefore, it is necessary to improve the user service selectivity.
[0007]
Furthermore, in the above conventional technique, since summary information cannot be changed dynamically based on the displayable area on the device, for example, when the guide area is a 40-character sentence, the summary sentence is edited with a fixed logic. In such a case, only a part of the summary sentence can be guided, or the summary becomes too simple and there is a problem that there is too little information.
[0008]
The present invention has been made in view of the above points, and an object thereof is to provide a summary sentence creation method and apparatus capable of creating a summary sentence only with useful words, and a storage medium storing a summary sentence creation program. And
[0009]
[Means for Solving the Problems]
The present invention (Claim 1)In a summary sentence generator for generating a summary sentence of a documentA summary sentence generation method,
In sentence structure analysis means,
When a document composed of a plurality of sentences including information indicating the sentence format is input by the sentence input means (step 1),
A sentence structure analysis process for extracting a plurality of sentences and sentence types of each sentence from the input document using a structure definition rule in which correspondence between sentence format information and sentence types is defined in advance (step 2) )When,
In service important word extraction means,
For each analysis item determined in advance, an extraction rule in which the relationship between the dependency relationship of the extracted important word, the attribute of the extracted important word and the certainty factor of the extracted important word attribute is defined in advance, Service important word extraction process (step 3) for extracting the certainty of the important word group by one or more important words of each sentence and the important word group of each sentence from the sentence;
In summary word selection control means,
The sentence type in which each important word appears, the attribute of the important word, and the selection method in which the conversion method of the importance is determined from the certainty, and the sentence type of each sentence, the important word group of each sentence, and the important word of each sentence. Find the importance of key words in each sentence from the confidence of the group,
When the important word group of each sentence matches the word input from the outside or the important word group extracted in the service important word extraction process from the sentence of the specified sentence type in the input document , Reduce the importance of matched key words,
For each analysis item, using a thesaurus knowledge in which a correspondence between a word and a concept of a word is defined in advance, the important word group of each sentence is grouped for each having the same concept, and the important word group having the same concept The importance of the important word group having the same concept is calculated by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
For each analysis item, a summary word selection control process (step 4) for selecting, as the summary word group of each analysis item, the one having the highest importance among the important word groups having the same concept;
In the template selection means,
For each analysis item, the template of the summary word of each analysis item is selected from the summary word group of the analysis item by using a template selection rule in which a combination of the attribute of each summary word and the template of the summary sentence constituting the summary word group is defined in advance. A template selection process (step 5) for selecting
In the summary sentence generation means,
For each analysis item, a summary sentence generation process (step 6) is performed in which a summary word group for each analysis item is generated by embedding a summary word group for each analysis item in the summary sentence template for each analysis item selected.
[0010]
The present invention (Claim 2)A summary sentence generation method in a summary sentence generation apparatus for generating a summary sentence of a document,
In sentence structure analysis means,
When a document consisting of a plurality of sentences including information indicating the sentence format is input by the sentence input means, input is made using a structure definition rule in which the correspondence between the information indicating the sentence format and the sentence type is defined in advance. A sentence structure analysis process for extracting a plurality of sentences and sentence types from each sentence
In service important word extraction means,
For each predetermined analysis item, using an extraction rule in which the relationship between the dependency relationship of the extracted important word and the attribute of the extracted important word and the certainty factor of the extracted important word attribute is defined in advance. Service important word extraction process to extract the certainty of important words by one or more important words of each sentence and important words from each sentence from sentences,
In summary word selection control means,
The sentence type in which each important word appears, the attribute of the important word, and the selection method in which the conversion method of the importance is determined from the certainty, and the sentence type of each sentence, the important word group of each sentence, and the important word of each sentence. Find the importance of the key word group of each sentence from the confidence of the group,
Match if the key word group of each sentence matches completely or partially with the key word group of each sentence of the other document extracted in the sentence structure analysis process and service key word extraction process from other documents Reduced the importance of important word groups
For each analysis item, using a thesaurus knowledge in which the correspondence between words and word concepts is defined in advance, the important word groups of each sentence are grouped into the important word groups having the same concept for each having the same concept. The importance of the important word group having the same concept is obtained by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
For each analysis item, a summary word selection control process of selecting the most important word group having the same concept as the summary word group of each analysis item,
In the template selection means,
For each analysis item, the template of the summary word of each analysis item is selected from the summary word group of the analysis item by using a template selection rule in which a combination of the attribute of each summary word and the template of the summary sentence constituting the summary word group is defined in advance. A template selection process for selecting
In the summary sentence generation means,
For each analysis item, a summary sentence generation process for generating a summary sentence of each analysis item by embedding the summary word group of each analysis item in the summary sentence template of each analysis item selected,
Do.
[0011]
The present invention (claims)3)A summary sentence generation method in a summary sentence generation apparatus for generating a summary sentence of a document, comprising:
In sentence structure analysis means,
When a document consisting of a plurality of sentences including information indicating the sentence format is input by the sentence input means, input is made using a structure definition rule in which the correspondence between the information indicating the sentence format and the sentence type is defined in advance. A sentence structure analysis process for extracting a plurality of sentences and sentence types from each sentence
In service important word extraction means,
For each predetermined analysis item, the relationship between the dependency relationship of the important noun to be extracted, the correspondence between the important noun to be extracted and the certainty of the important noun to be extracted, and the dependency relationship between the important verb to be extracted and the important verb to be extracted Service importance to extract the confidence level of the important word group of each sentence and one or more important nouns and important verbs of each sentence and the important word group of each sentence using the extraction rule with which the association with Word extraction process,
In summary word selection control means,
Sentence type of each sentence, important noun of each sentence, importance of each sentence Find the importance of the important word group of each sentence from the certainty of the word group,
Important nouns and important verbs in the important word group of each sentence are extracted from other documents in the sentence structure analysis process and service important word extraction process. If it is exactly the same, the important word group in which the important noun and the important verb exactly match is rejected, and if not, the important noun of each sentence that matches the important noun of each sentence in other documents is rejected. Reject important nouns in each important word group from the important word group,
For each analysis item, using a thesaurus knowledge in which the correspondence between words and word concepts is defined in advance, the important word groups of each sentence are grouped into those having the same concept to form an important word group having the same concept. Adding the importance of the important word group of each sentence constituting the important word group having the same concept to obtain the importance of the important word group having the same concept,
For each analysis item, a summary word selection control process of selecting the most important word group having the same concept as the summary word group of each analysis item,
In the template selection means,
For each analysis item, the template of the summary word of each analysis item is selected from the summary word group of the analysis item by using a template selection rule in which a combination of the attribute of each summary word and the template of the summary sentence constituting the summary word group is defined in advance. A template selection process for selecting
In the summary sentence generation means,
For each analysis item, a summary sentence generation process for generating a summary sentence of each analysis item by embedding the summary word group of each analysis item in the summary sentence template of each analysis item selected,
I do.
[0012]
The present invention (Claim 4)A summary sentence generation method in a summary sentence generation apparatus for generating a summary sentence of a document,
In sentence structure analysis means,
When a document composed of a plurality of sentences including information indicating the sentence format is input by the sentence input unit, information indicating the sentence format and a structure definition rule in which a correspondence between the sentence types is defined in advance are used. A sentence structure analysis process for extracting a plurality of sentences and sentence types of each sentence from the input document;
In service important word extraction means,
For each predetermined analysis item, using an extraction rule in which the relationship between the dependency relationship of the extracted important word and the attribute of the extracted important word and the certainty factor of the extracted important word attribute is defined in advance. Service important word extraction process to extract the certainty of important words by one or more important words of each sentence and important words from each sentence from sentences,
In summary word selection control means,
The sentence type in which each important word appears, the attribute of the important word, and the selection method in which the conversion method of the importance is determined from the certainty, and the sentence type of each sentence, the important word group of each sentence, and the important word of each sentence. Find the importance of the key word group of each sentence from the confidence of the group,
Extract words that characterize the input sentence from the sentence input from the outside, user intention inference knowledge defined in advance,
For each sentence, if the word related to the extracted word is included in the important word group of each sentence, increase the importance of the important word group including the related word,
For each analysis item, using a thesaurus knowledge in which the correspondence between the word and the concept of the word is defined in advance, the important word group of each sentence is grouped together for each having the same concept to be an important word group having the same concept, The importance of the important word group having the same concept is calculated by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
For each analysis item, a summary word selection control process of selecting the most important word group having the same concept as the summary word group of each analysis item,
In the template selection means,
For each analysis item, the template of the summary word of each analysis item is selected from the summary word group of the analysis item by using a template selection rule in which a combination of the attribute of each summary word and the template of the summary sentence constituting the summary word group is defined in advance. A template selection process for selecting
In the summary sentence generation means,
For each analysis item, a summary sentence generation process for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in a summary sentence template of each selected analysis item is performed.
[0016]
Figure2 is a diagram illustrating the principle of the present invention.
The present invention (claims)5)Of the documentA summary sentence generation device for generating a summary sentence,
A sentence input means 10 for inputting a document composed of a plurality of sentences including information indicating a sentence format;
A sentence structure analysis means 20 for extracting a plurality of sentences and sentence types of each sentence from an input document using a structure definition rule 101 in which correspondence between sentence format information and sentence types is defined in advance; ,
For each predetermined analysis item, by using an extraction rule 102 in which an association between a dependency relationship of an extracted important word, an attribute of the extracted important word and a certainty factor of the extracted important word attribute is defined in advance, Service important word extraction means 30 for extracting the confidence level of the important word group of each sentence from one sentence or one or more important words of each sentence and the important word group of each sentence;
Using the selection rule 103 in which the conversion method of importance is pre-defined from the sentence type in which the important word appears, the attribute of the important word, and the certainty factor, the sentence type of each sentence, the important word group of each sentence, and the importance of each sentence Find the importance of the important word group of each sentence from the certainty of the word group,
When the important word group of each sentence matches the word inputted from the outside or the important word group extracted by the service important word extracting means 30 from the sentence of the sentence type specified in the inputted document in advance. Lower the importance of the matched key words group,
For each analysis item, the thesaurus knowledge 104 in which the correspondence between the words and the word concepts is defined in advance is used, and the important words having the same concept are grouped together for each sentence having the same concept. The importance of the important word group having the same concept is obtained by adding the importance of the important word group of each sentence constituting the important word group having the same concept as a group,
Summary word selection control means 40 that selects, for each analysis item, the most important word group having the same concept as the summary word group of each analysis item;
For each analysis item, by using a template selection rule 105 in which a set of attributes of summary words and a template of summary sentences constituting the summary word group is defined in advance, the summary sentence of each analysis item is extracted from the summary word group of analysis items. Template selection means 50 for selecting a template;
For each analysis item, there is a summary sentence generation means 60 for generating a summary sentence for each analysis item by embedding a summary word group for each analysis item in the summary sentence template for each analysis item selected.
[0017]
The present invention (claims)6)A summary sentence generation device for generating a summary sentence of a document,
A sentence input means for inputting a document composed of a plurality of sentences including information indicating a sentence format;
Sentence structure analysis means for extracting a plurality of sentences and sentence types of each sentence from an input document using a structure definition rule in which correspondence between information indicating a sentence format and sentence types is defined in advance;
For each analysis item determined in advance, an extraction rule in which the relationship between the dependency relationship of the extracted important word, the attribute of the extracted important word and the certainty factor of the extracted important word attribute is defined in advance, A service important word extracting means for extracting a certainty level of an important word group by one or more important words of each sentence and an important word group of each sentence from the sentence;
The sentence type in which each important word appears, the attribute of the important word, and the selection method in which the conversion method of the importance is determined from the certainty, and the sentence type of each sentence, the important word group of each sentence, and the important word of each sentence Find the importance of the key word group of each sentence from the confidence of the group,
Match if the key word group of each sentence completely or partially matches the key word group of each sentence of the other document extracted from the other document by the sentence structure analysis means and the service key word extraction means Reduced the importance of important word groups
For each analysis item, using a thesaurus knowledge in which the correspondence between words and word concepts is defined in advance, the important word groups of each sentence are grouped into the important word groups having the same concept for each having the same concept. The importance of the important word group having the same concept is obtained by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
Summary word selection control means for selecting, for each analysis item, the most important word group having the same concept as the summary word group of each analysis item;
For each analysis item, the template of the summary word of each analysis item is extracted from the summary word group of the analysis item by using a template selection rule in which a combination of the attribute of each summary word and the template of the summary sentence constituting the summary word group is defined in advance. A template selection means for selecting
For each analysis item, there is provided summary sentence generation means for generating a summary sentence for each analysis item by embedding a summary word group for each analysis item in a summary sentence template for each analysis item selected.
[0018]
The present invention (claims)7)A summary sentence generation device for generating a summary sentence of a document,
A sentence input means for inputting a document composed of a plurality of sentences including information indicating a sentence format;
Sentence structure analysis means for extracting a plurality of sentences and sentence types of each sentence from an input document using a structure definition rule in which correspondence between information indicating a sentence format and sentence types is defined in advance;
For each predetermined analysis item, the relationship between the dependency relationship of the important noun to be extracted, the correspondence between the important noun to be extracted and the certainty of the important noun to be extracted, and the dependency relationship between the important verb to be extracted and the important verb to be extracted Service importance to extract the confidence level of the important word group of each sentence and one or more important nouns and important verbs of each sentence and the important word group of each sentence using the extraction rule with which the association with Word extraction means;
Sentence type of each sentence, important noun of each sentence, and importance of each sentence Find the importance of the important word group of each sentence from the certainty of the word group,
Important nouns and important verbs in important word groups of each sentence are extracted from other documents by sentence structure analysis means and service important word extraction means. If it is exactly the same, the important word group in which the important noun and the important verb are completely matched is rejected. If it is not exactly the same, the important noun of each sentence in the other document is matched. Reject important nouns in each important word group from the important word group,
For each analysis item, using a thesaurus knowledge in which the correspondence between words and word concepts is defined in advance, the important word groups of each sentence are grouped into those having the same concept to form an important word group having the same concept. Adding the importance of the important word group of each sentence constituting the important word group having the same concept to obtain the importance of the important word group having the same concept,
Summary word selection control means for selecting, for each analysis item, the most important word group having the same concept as the summary word group of each analysis item;
For each analysis item, the template of the summary word of each analysis item is extracted from the summary word group of the analysis item by using a template selection rule in which a combination of the attribute of each summary word and the template of the summary sentence constituting the summary word group is defined in advance. A template selection means for selecting
For each analysis item, there is provided summary sentence generation means for generating a summary sentence for each analysis item by embedding a summary word group for each analysis item in a summary sentence template for each analysis item selected.
[0019]
The present invention (claims)8)A summary sentence generation device for generating a summary sentence of a document,
A sentence input means for inputting a document composed of a plurality of sentences including information indicating a sentence format;
A sentence structure analyzing means for extracting a plurality of sentences and a sentence type of each sentence from the input document using information indicating the format of the sentence and a structure definition rule in which the correspondence between the sentence types is defined in advance; ,
For each analysis item determined in advance, an extraction rule in which the relationship between the dependency relationship of the extracted important word, the attribute of the extracted important word and the certainty factor of the extracted important word attribute is defined in advance, A service important word extracting means for extracting a certainty level of an important word group by one or more important words of each sentence and an important word group of each sentence from the sentence;
HeavyThe sentence type of each sentence, important word attributes, and the conversion method of importance based on the certainty factor are used to select the sentence type of each sentence, the important word group of each sentence, and the important word of each sentence. Find the importance of key words in each sentence from the confidence of the group,
Extract words that characterize the input sentence from the sentence input from the outside, user intention inference knowledge defined in advance,
For each sentence, if the word related to the extracted word is included in the important word group of each sentence, increase the importance of the important word group including the related word,
For each analysis item, using a thesaurus knowledge in which the correspondence between the word and the concept of the word is defined in advance, the important word group of each sentence is grouped together for each having the same concept to be an important word group having the same concept, The importance of the important word group having the same concept is obtained by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
Summary word selection control means for selecting, for each analysis item, the most important word group having the same concept as the summary word group of each analysis item;
For each analysis item, the template of the summary word of each analysis item is extracted from the summary word group of the analysis item by using a template selection rule in which a combination of the attribute of each summary word and the template of the summary sentence constituting the summary word group is defined in advance. A template selection means for selecting
For each analysis item, there is provided summary sentence generation means for generating a summary sentence for each analysis item by embedding a summary word group for each analysis item in a summary sentence template for each analysis item selected.
[0020]
The present invention (claims)9)A storage medium storing a summary sentence generation program for generating a summary sentence of a document,
A storage medium storing a program for causing a computer to execute processing for realizing the method according to claim 1.
[0028]
UpAs described above, in the present invention, the text structure is analyzed, the text type is determined, the attribute of the word appearing in the text is determined based on the dependency relationship for each extracted text type, and the text type is determined. The importance is determined by the word attributes. Then, an important word is extracted from the text according to the importance, a template corresponding to the extracted important word is selected, and a summary sentence is created. As described above, the present invention analyzes the type of text in consideration of the appearance position of the word by the structural analysis of the text, so that it is possible to specify that the word appearing at the head of the title or body is important. . It is also possible to specify that link information should be ignored.
[0029]
Also, when there are multiple guidance targets when determining the importance, the importance of words that are expressed in the same way is reduced with respect to the important words extracted for each text, and the user input information is Analyzes and performs processing similar to the expression existing in the input information of the user to reduce the importance, and analyzes the content of the text by default, such as the title, the same as the expression that exists in the default text content By applying a process that lowers the importance of the word that expresses, items that overlap with the title, items specified in the inspection condition, and items that are common to other text can be deleted from the summary sentence, so only useful words are summarized It becomes possible to make a sentence.
[0030]
In other words, it compares all the text contents searched and emphasizes the difference between the texts, for example, “care for bedridden elderly people and demented elderly people”, “care for elderly people living alone and low-income earners. It is possible to improve the selectivity of the user's service by highlighting and displaying the difference.
In addition, when there is a common expression with a plurality of other sentences, it is possible to collectively generate one summary sentence for the plurality of sentences.
[0031]
In addition, display information can be changed in accordance with user input information, and a summary sentence including information that would be useful to guide the user can be created. For example, if you find that the user is interested in the price of the service by searching for "cheap nursing home", you can create a summary sentence that the user wants by putting the charge information in the summary sentence It becomes.
[0032]
Further, since the size of the summary sentence to be dynamically displayed can be changed based on a display area predetermined for each device, it is possible to display accurate information for the user. For example, considering a guide area of 40 characters, if the summary sentence is long, the word is aggregated, and if the summary sentence is short, the display information of the summary sentence is increased. Information can be displayed.
[0033]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 3 shows the configuration of the summary sentence creation apparatus of the present invention.
The summary sentence creating apparatus shown in FIG. 1 includes an input unit 10, a document structure analysis unit 20, a service important word extraction unit 30, a summary word selection control unit 40, a template selection unit 50, a summary sentence generation unit 60, an output unit 70, a structure. It comprises a definition 101, an extraction rule 102, a selection rule 103, a thesaurus knowledge 104, and a template selection rule 105.
[0034]
The input unit 10 inputs text and input information from the user. In the present invention, a corpus including tag information will be described as an example of input text. However, by setting knowledge, various classifications such as text can be made based on sentence structure information (arrangement, font, etc.). Therefore, it is only necessary to perform processing for analyzing text layout, fonts, and the like necessary for that purpose.
[0035]
The document structure analysis unit 20 includes a text title, a body, a table, etc.ofThe text type / structure is analyzed based on the structure definition 101 that defines the text type based on the appearance position and tag information. Specifically, in the input text, the appearance position of the sentence to be analyzed is taken into consideration, and as the appearance position, a serial number indicating what number the sentence is for each type is given. In the case of newspaper articles, etc.DifferentIt can be used when the importance level is to be set.
[0036]
The service important word extraction unit 30 performs morphological analysis for each text structure extracted by the document structure analysis unit 20, and follows the extraction rule 102 that defines the certainty of words appearing in the text based on the dependency relationship and the part of speech information. For the words in the text, the word attributes, confidence, and dependency information are set. In the present invention, the following method is adopted.
[0037]
(1) Perform morphological analysis on the input text and analyze the dependency relationship.
{Circle around (2)} The text dependency relation and the extraction rule 102 are collated, and a certainty factor is set for the collated thing. As an example of the matching method, there is a pattern matching or the like.
[0038]
The summary selection control unit 40 selects, for the words extracted by the service important word extraction unit 30, a selection rule 103 in which importance is defined based on text type, word attribute, and certainty, and a thesaurus in which the concept of the word is defined. Information of concepts closer to the knowledge 104 is integrated, importance is calculated, and control of determining important words based on importance and dependency relationships is controlled. The template selection unit 50 selects a template for creating a summary sentence by referring to the template selection rule 105 defined for the important word group based on the important word extracted by the summary selection control unit 40. To do.
[0039]
The summary sentence generation unit 60 creates a summary sentence by applying an important word to the template selected by the template selection unit 50.
The output unit 70 outputs the created summary sentence.
Here, the configuration of the summary word selection control unit 40 will be described.
FIG. 4 shows the configuration (part 1) of the summary word selection control unit of the present invention.
[0040]
The summary word selection control unit 40 shown in the figure includes a summary word selection unit 41 and an information suppression unit 42.
The summary word selection unit 41 selects, for the words extracted by the service important word extraction unit 30, a selection rule 103 that defines importance based on text type, word attributes, and certainty, and a thesaurus that defines the concept of the word. Information of concepts closer to the knowledge 104 is integrated, importance is calculated, important words are determined from the importance and dependency, and transferred to the information suppression unit 42.
[0041]
The information suppression unit 42 refers to the suppression word storage unit 106 that stores the result of analyzing the user's input by morphological analysis or the like and the result of analyzing the guidance content that is guided by default. The importance level of a word that performs the same expression as the expression that exists in the default expression and the expression that is guided by default is reduced, or a process of cutting by filtering is performed.
[0042]
Another configuration of the summary word selection control unit 40 will be described.
FIG. 5 shows the configuration (part 2) of the summary word selection control unit of the present invention.
The summary word selection control unit 40 shown in the figure includes a summary word selection unit 41 and a summary word comparison unit 43.
The summary word selection unit 41 refers to the summary word storage unit 107 that stores a result of a series of processing performed on each text when there are a plurality of texts for the determined important word. When a word having the same expression appears in a plurality of texts, the word is transferred to the summary word comparison unit 43.
[0043]
As a result, the summary word comparison unit 43 compares the attributes of similar words, analyzes the content that is guided by default, such as the title, and the importance of important words that perform the same expression as the expression that exists in the default guidance content. Decrease the degree or suppress the appearance of case information and part-of-speech information.
In addition, in the above example, when the summary word selection unit 41 acquires a word that expresses the same expression in a plurality of texts, it is transferred to the summary word comparison unit 43 in the above example. It is also possible to transfer and perform the above-described processing to obtain a template, and the summary sentence generation unit 60 can generate one summary sentence regarding a plurality of texts. That is, a summary sentence of a plurality of similar texts is created.
[0044]
Next, a case where the intention of the user is inferred and the importance of the expression related to the information that the user wants is increased will be described.
FIG. 6 shows the configuration (part 3) of the summary word selection control unit of the present invention.
The summary word selection control unit 40 shown in the figure includes a summary word selection unit 41, a user intention determination unit 44, a selection rule 103, a thesaurus knowledge 104, and user intention inference knowledge 108.
[0045]
The user intention determination unit 44 extracts a word that the user corresponding to the important word is intended by referring to the user intention inference knowledge 108 with respect to the important word included in the information input by the user, Transfer to summary word selector 41.
Thereby, the summary word selection part 41 gives importance to the word extracted in the user intention determination part 44. FIG. At this time, when there are a plurality of important words, the word having the highest importance is set as the important word.
[0046]
Next, a description will be given of a case where a predetermined guide area is determined on the display screen and editing is performed so that the summary text fits in the area.
FIG. 7 shows the configuration of the summary sentence generation unit of the present invention.
The summary sentence generated by the summary sentence generation unit 60 is transferred to the summary sentence editing unit 65. The summary sentence editing unit 65 refers to the display area information 109, compares the display section size, display information amount, display information attribute, and summary sentence shown in the guidance area, and the summary sentence is displayed in the guidance area. If the amount of information to be displayed is exceeded, the summary sentence is subjected to word aggregation, and if the summary sentence is smaller than a predetermined threshold of the amount of information shown in the guidance area, the display information (summary sentence) is increased. Do.
[0047]
【Example】
Embodiments of the present invention will be described below with reference to the drawings.
Hereinafter, a description will be given based on the configuration of FIGS.
First, rules and the like referred to in each component shown in FIG. 3 will be described.
FIG. 8 shows an example of the structure definition of one embodiment of the present invention.
[0048]
The structure definition 101 shown in the figure is used to extract the appearance location, importance, important word, and important word attribute of a word, and is referred to by the sentence structure analysis unit 20. It consists of an applicable document form, a rule, and a sentence type, and the sentence type selected from the rule is a type of content entered in addition to a table, a figure, a menu, etc., which is a type of sentence structure. Text, title, procedure, contact information, links, etc. can also be used.
[0049]
FIG. 9 shows an example of an extraction rule according to an embodiment of the present invention.
The extraction rule 102 shown in the figure defines the certainty of a word appearing in a sentence based on the dependency relationship and part-of-speech information, and is referenced by the service important word extraction unit 30 to determine the dependency relationship, attribute, and belief. Consists of degrees. As an example of the description of the extraction rule 102, the form of Japanese Patent Application No. 10-53889 can be used. In this method, by treating words belonging to the same representative classification node as the same, it is possible to determine the importance of the keyword based on the frequency even for a short sentence.
[0050]
Also, based on the case grammar, it is possible to use the place case, frequency, etc. of the verb. Furthermore, it is possible to describe a rule of defining 0 as the certainty factor and not extracting it.
FIG. 10 shows an example of a selection rule according to an embodiment of the present invention.
In the selection rule 103 shown in the figure, the importance is defined based on the sentence type, the word attribute, and the certainty factor, and is referred to by the summary word selection control unit 40. It consists of a selection rule and an importance. The importance is calculated as the importance for each word by performing four arithmetic operations on the certainty and integrating the results.
[0051]
FIG. 11 shows an example of thesaurus knowledge according to an embodiment of the present invention.
The thesaurus knowledge 104 shown in the figure defines the concept of words and is referred to by the summary word selection control unit 40. In addition to the meaning and hierarchical relationship of a word, the degree of abstraction and concreteness of the word itself are defined. In the case of verbs, case information is defined. FIG. 12 shows an example of a template according to an embodiment of the present invention.
[0052]
Template shown in the figureSelection ruleA summary word 105 is applied by the template selection unit 50 and used by the summary sentence generation unit 60. It consists of analysis items, extracted important words, conditions, and a plurality of template groups corresponding to these.
The operation of this embodiment will be described below.
[First embodiment]
FIGS. 13 and 14 show examples of HTML documents according to the first embodiment of the present invention, which are a series of HTML documents. The operation when this HTML document is input will be described below.
[0053]
FIG. 15 is a flowchart showing the operation of the first embodiment of the present invention.
Step 101) The sentence structure analysis unit 20 applies the structure definition 101 to the tag information and document information of the HTML document input from the input unit 10, assigns a sentence number to each sentence of the document, and assigns a sentence type. . Sentence numbers shall be divided in sentence units or, in the case of tables, in table attribute units. When products are arranged in parallel, they are divided by product. The analysis result of the input document is shown in FIG. In the example of the figure, sentence types are divided into “menu”, “title”, “text”, “table”, “procedure”, “contact”, and “link”, and a sentence number is assigned to each sentence type. .
[0054]
Step 102) Next, the service important word extraction unit 30 performs morphological analysis for each sentence number of each sentence type, and then processes the information by, for example, the method disclosed in Japanese Patent Laid-Open No. 10-269827. Based on the information, verb case information is extracted based on the extraction rule 102. The method disclosed in Japanese Patent Application Laid-Open No. 10-2669827 performs a morpheme / syntax analysis of a query sentence, divides it into word units, and if the inquiry sentence includes occupation name information, a knowledge base conversion table Refer to the above to convert the profession endings into verbs, and use the product name as the product name for the parts other than the endings of the profession name information. Search for. On the other hand, when the product name and verb are included in the inquiry sentence, the database is inferred from the product name and verb directly using the related knowledge and searching the database without referring to the conversion table. .
[0055]
There are various methods for summarizing the analysis results, but in this example, the “verb corresponding to the product and the subject corresponding to the verb”, “about the subject”, “about the procedure”, “about the contact” Four items were analyzed. In the case of information written in parallel, a certainty factor is given to each.
An example extracted by the service important word extraction unit 30 is shown in FIG.
[0056]
Step 103) Next, the summary word selection control unit 40 defines the importance using the selection rule 103 from the sentence type and the certainty shown in FIG. 17 acquired from the service important word extraction unit 30. An example of definition of importance by the summary word selection control unit 40 is shown in FIG.
Step 104) Further, in the summary word selection control unit 40, the thesaurus knowledge 104 is used to perform the process of merging records with the same concept unification and the same notation and combining the common concepts into one. At this time, the display omitted such as “etc.” is complemented.
[0057]
The result is shown in FIG.
Step 105) Further, the summary word selection control unit 40 selects a record having high importance for each analyzed item. The selected results are shown in FIG.
Step 106) The summary word selection control unit 40 supplements the information based on the case structure of the verb obtained as a result of the morphological analysis. In this example, it is understood that the verb “product and verb corresponding to the product, the subject corresponding to the verb”, “benefits / subsidies”, the part of speech is a noun and the meaning is human information. The information is supplemented by using the target person “About the target person”. The verb “Procedure”, “Submission”, is not supplemented because it shows that the part of speech is a noun and the meaning does not take human information.
[0058]
A supplemented example is shown in FIG.
Step 107) Next, the template selection unit 50 refers to the template 105 based on the selected word and selects an appropriate template. In this example, "About the product and the verb corresponding to the product, the target person corresponding to the verb"
“Verb” “product” to “subject”. ]
Select the template and “About Procedure”
“Please“ verb ”“ product ”to“ location case ”. 』
Select a template called "About Contacts"
“For details, contact“ Contact Department Name ”(telephone“ phone number ”). 』
Select the template.
[0059]
Step 108) Next, the summary sentence generation unit 60 processes elements to be applied to the template. Considering the generality of parts of speech using thesaurus knowledge 104, if an abstract expression is used, replace it with a concrete expression if possible. When the number of items is large, the latter half is cut and replaced with the expression “etc.”.
In this case, the information “Products and Verbs Corresponding to Commodities, Target Persons Corresponding to Verbs”
“Gas leak alarm, automatic fire detector, movement detector, automatic digester, mattress, posture changer”
And then
“Gas leak alarm, automatic fire detector, movement detector, etc.”
Converted to. Also,
“A bed-ridden elderly, elderly living alone, elderly with dementia”
But,
“A bedridden, living alone, elderly with dementia”
Converted to.
[0060]
Step 109) The summary sentence generator 60 selects a summary sentence to be output. In this case, depending on the importance,
“Products and Verbs Corresponding to Products, Target Persons Corresponding to Verbs”
Is selected.
Step 110) The output unit 70 outputs a summary sentence. In this case,
“We provide gas subsidies, automatic fire detectors, mobile detectors, etc., living alone, providing benefits and subsidies for elderly with dementia”
Is output.
[0061]
[Second Embodiment]
Next, in this embodiment, in the case of step 103 in the flowchart of the first embodiment described above, the information to be guided to the user and the user's input are always compared, and the importance is lowered, based on the configuration of FIG. I will explain.
For example, if you always display the title,
[Title: Home helper dispatch
Body: Home helpers are dispatched to families with people who are over 65 years old who have difficulty in daily life because of physical or mental disabilities.
[0062]
The main services are laundry, cleaning, shopping, meal preparation, personal care and consultation. However, you will be responsible for some expenses depending on the income from the previous year. As a result of using morphological analysis results,
From the title,
"Product: Home helper (person) Corresponding verb: Dispatch importance: 9",
From the text,
"Product: Home helper (person) Corresponding verb: Dispatch Importance: 6",
Products: Laundry, cleaning, shopping, meal preparation, personal care, consultation, etc. (Things) Importance: 6,
Product: Cost (thing) Verb: Burden Importance 1 ”
It becomes. If exactly the same thing as the title is extracted as a combination of the product and the verb, the importance level of the information is set to 0, and then the process proceeds to Step 104 merging. After that, proceed as a template selection rule.
“If the product is not a verb and the meaning of the product is“ thing ”, then“ product (thing) ”is done”
As a result,
“Washing, cleaning, shopping, etc.”
The summary sentence is obtained.
[0063]
In the present embodiment, when the title is necessarily displayed, the importance of the word in the title is lowered, but the same applies to the user input, and the importance of the word in accordance with the user input can be lowered.
[Third embodiment]
In the present embodiment, an example in which a plurality of pieces of service information are compared in step 103 of the above-described first embodiment to increase the importance of expressions different from others will be described with reference to FIG.
[0064]
The input sentence shown in FIG. 22 is input as the input sentence, and the contents shown in FIG. 23 to FIG. 23 (a) are obtained from the analysis processing in steps 101 and 102, and the contents shown in FIG. Is extracted.
Here, (1) in FIG. 23 (a) and (4) in FIG. 23 (b), (3) in FIG. 23 (a) and (6) in FIG. Decrease the degree greatly. In this example, it is “−4”. Further, (2) in FIG. 23 (a) and FIG. 23 (b) (5) are expressed in which only one record is different among the record contents, and therefore the degree of importance is lowered. In this example, “−2” is set.
[0065]
As a result, the importance is set as shown in FIG. 24, and then the process proceeds to merging in step 104 based on the information in each of the text 1 and text 2.
After that, the process proceeds and the template selection rule is that the verb is “deposit”, the product has the meaning of “person”, and the “location case” and “time case”
“I will leave the“ subject ”at“ time ”at“ place ”
As a result,
From body 1
“I will leave demented elderly at a nursing home at night”
From text 2,
`` I will leave elderly people with dementia in nursing homes during the day ''
Is obtained.
[0066]
[Fourth embodiment]
In step 103 of the third embodiment described above, information on a plurality of services is compared to reduce the importance of the same expression as the other, and the appearance of case information and part-of-speech information is suppressed for the corresponding record. An example will be described with reference to FIGS.
As in the third embodiment described above, when the input shown in FIG. 22 is performed, the results shown in FIG.
[0067]
Here, compare the text 1 and text 2 with the same “verb” and “product”, and if the contents are all the same, the importance of the record is rejected as “0”, and even if the contents are partially If they are different, the verb information is left, only the case information that is different is left, and other case information and part-of-speech information are discarded.
as a result,
In text 1,
(2) Verb: Keeping time: Daytime Importance: 4
Set
In text 2,
(5) Verb: Keeping time: Night Importance: 4
Set. Thereafter, the merge processing in step 104 is performed based on the information of the text 1 and the text 2.
[0068]
After that, proceed as a template selection rule.
“If there is no“ product ”and“ verb ”is stored, and there is a“ time case ”, it is stored in“ time ”. ]
As a result,
From body 1
`` I will keep it at night ''
From text 2,
"We will keep it during the day"
The summary sentence is obtained.
[0069]
[Fifth embodiment]
In the present embodiment, when the summary word selection unit 41 acquires words that perform the same expression in a plurality of texts based on the configuration shown in FIG. An example of generating one summary sentence will be described. That is, one summary sentence is generated from a plurality of texts by comparing information of a plurality of services and collecting the same expressions as others.
[0070]
In FIG. 5, it is assumed that the summary word selection unit 41 refers to the summary word storage unit 107 that stores a series of processing results performed on each text for each text and acquires the following contents.
From the text 1 stored in the summary word storage unit 107,
(1) Product: Care (thing) Verb: Difficult Target: Demented elderly Importance: 6
(2) Product: Demented elderly (person) Verb: Keeping place: Nursing home Time: Daytime importance: 6
(3) Product: Burden Verb: Reduction Target: Caregiver Importance: 6
From text 2,
(1) Product: Care (thing) Verb: Difficult Target: Demented elderly Importance: 6
▲ 2 ▼ Product: Demented elderly (person) Verb: Keeping Location: Nursing home Time: Night Importance: 6
(3) Product: Burden Verb: Reduction Target: Caregiver Importance: 6
Is extracted.
[0071]
Here, the summary word comparing unit 43 compares the body 1 and the body 2 in which the verb and the product match, and if the contents are all the same, the summary word selecting unit 41 summarizes the record contents into a plurality of sentences. The template selection unit 50 is notified of the following contents so as to be adopted as
Product: Demented elderly (People) Verb: Keep Location: Nursing home
In the template selection unit 50, referring to the template selection rule 105,
“If the item is“ person ”, the verb is“ deposited ”, and there is a place case,“ item (person) ”will be kept in“ location ”. ]
This rule is applied.
[0072]
In the summary sentence creation unit 60, using this template,
“I will leave elderly people with dementia in nursing homes”
One summary sentence is generated.
[Sixth embodiment]
In the present embodiment, an example in which the user's intention is inferred from the input information input by the user and the importance of the expression related to the information desired by the user is increased will be described with reference to FIG.
[0073]
When the summary word selection control unit 40 acquires the important word extracted by the important word extraction unit 30, the user intention determination unit 44 searches the user intention inference knowledge 108 based on the important word.
In this embodiment, the input information input by the user is
"I want you to take care of my grandpa cheaply"
When searching the database,
“Title: Nursing care service
Body: We will take care of elderly people with dementia at home in nursing homes.
[0074]
Number of implementations: The service can be used up to 30 times a year.
Offer time: From 9:00 am to 5:00 pm
User burden: 1,050 yen / time
Is retrieved as a search result and processed by the syntax analysis unit 20 and the keyword extraction unit 30,
・ About the product and the verb corresponding to the product, the target person for the verb:
(1) Product: Demented elderly (person) Verb: Keep Location: Nursing home Importance: 6
・ About the frequency of product implementation:
(2) Number of times: 30 times a year Importance: 2
・ About product time:
(3) Time: 9 am-5 pm Importance: 2
・ About the price of the product:
(4) Price: 1050 yen / time Importance: 2
Can be extracted. Here, the user intention determination unit 44 refers to the intention reasoning knowledge 108 based on the input information from the user “I want you to take care of my grandpa cheaply”. In this case, since the keyword “cheap” is included in the input information, it is determined that price information is important for the user, and the importance of the price information is calculated.
[0075]
Here, the importance of the information corresponding to the input information from the user is tripled
・ About the price of the product:
(4) Price: 1050 yen / time Importance: 6
It becomes.
As a result, the summary word selection unit 41
(1) Product: Demented elderly (person) Verb: Keep Location: Nursing home Importance: 6
(2) Number of times: 30 times a year Importance: 2
(3) Time: 9 am-5 pm Importance: 2
(4) Price: 1050 yen / time Importance: 6
Is extracted. These pieces of information are transferred to the template selection unit 50 at the next stage.
[0076]
In the template selection unit 50, as the template selection rule 105, the verb is “deposit”, the product has the meaning of “person”, “location case”, “time case”, “number of times”, “price”, “ If you have time information,
“We keep the“ target person ”at“ place ”at“ price ”for“ number of times ”and“ time ”. 』
Apply the rule. Thereby, the summary sentence generation unit 60 uses the template,
“Demented elderly” will be kept at “Nursing Home” at “1050 yen / time” between “30 times a year” and “9 am-5pm”. ]
Is generated and output.
[0077]
[Seventh embodiment]
Next, in the present embodiment, an example will be described in which the summary sentence generated by the summary sentence generation unit 60 is edited based on predetermined display area information 109 based on FIG.
First, as summary candidate sentences in the summary sentence generator 60,
“Demented elderly people are deposited at a nursing home at 1050 yen / time 30 times a year, from 9 am to 5 pm. ]
Is created.
[0078]
Here, referring to the display area information 109, since the total number of characters is 46, it is assumed that the condition “within 30 characters” is not satisfied, and the above summary candidate sentence is processed.
Here, the summary sentence editing unit 65 is selected by the template selection unit 50.
“We keep the“ target person ”at“ place ”at“ price ”for“ number of times ”and“ time ”. 』
See the importance of each element in the template,
“Subject”: Demented elderly Importance: 6
“Number of times”: 30 times a year Importance: 2
"Time": 9 am-5 pm Importance: 2
"Price": 1050 yen / time Importance: 6
"Place": Retirement home Importance: 6
From the “number of times” and “time” with low importance, “time” with a large number of characters is deleted. as a result,
“Subject”: Demented elderly Importance: 6
“Number of times”: 30 times a year Importance: 2
"Price": 1050 yen / time Importance: 6
"Place": Retirement home Importance: 6
Here, when the template is selected again by the template selection unit 50, the verb is “deposit”, the product has the meaning of “person”, the location case, the time case, the number of times, and the price information Is
“We will keep the“ target person ”at“ location ”with“ number of times ”and“ price ”. ]
In the summary sentence generation unit 60, the template is again selected.
“Demented elderly people are deposited at nursing homes at 1050 yen / time 30 times a year.”
A 34-character summary sentence candidate is created. Similarly, referring to the display area information 109, the condition “within 30 characters” is not satisfied, and the summary sentence candidate is processed again. Here, it is assumed that the “number of times” is deleted based on the above-described importance. As a result,
“I will leave demented elderly at a nursing home at ¥ 1050 / time.”
(Read: Chiho Seikosha will be sent to you by your teacher)
Get. This summary sentence candidate becomes and satisfies the contents of the display area information 109.
[0079]
The above example is an example of processing because the number of characters is too large. However, when the number of characters is small, a plurality of sentences are selected, or the information omitted when processing in the first embodiment is used. It is possible to perform processing such as The determination that the number of characters is small can be made by setting a threshold value such as when the number of characters determined in the display area information 109 is 80% or less.
[0080]
In the above embodiment, the description is based on the flowchart shown in FIG. 15. However, the flowchart shown in FIG. 15 is constructed as a program, and a disk device connected to a computer used as a summary creation device or a floppy disk. The present invention can be easily realized by storing it in a portable storage medium such as a CD-ROM and installing it when carrying out the present invention.
[0081]
The present invention is not limited to the above-described embodiments, and various modifications and applications can be made within the scope of the claims.
[0082]
【The invention's effect】
As described above, according to the present invention, the word appearing at the beginning of the title or the body is recognized as important by analyzing the type of text in consideration of the appearance position of the word. Since the items specified in the inspection condition and items common to other guidance sentences can be deleted from the summary sentence, the summary sentence can be created using only useful words.
[0083]
Further, since it is possible to emphasize differences between a plurality of texts, it is possible to provide an effective summary sentence for selecting information.
Further, by inferring the user's intention based on the input information from the user, a summary sentence meeting the user's needs can be created.
In addition, when there is a common expression among a plurality of texts, common information between the texts can be extracted and representative summary sentences, not individual summary sentences, can be created together.
[0084]
In addition, when there is a display area restriction or display time restriction on the device, it is possible to change the summary sentence dynamically according to the area and time without losing the main part. Can present an accurate summary sentence.
In this way, in the present invention, the mobile terminal with a limited display information area is used to analyze the default guidance information such as the title and the input of the user and suppress the appearance of words that perform the same expression in the summary sentence. This is effective for creating a summary sentence in a search engine or a yellow page service that searches for useful information when a lot of search results are obtained.
[0085]
In order to emphasize and display differences between sentences such as a plurality of guidance information, the user's information can be increased in choice by displaying it together with the search result in a search engine or a yellow page service.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining the principle of the present invention.
FIG. 2 is a principle configuration diagram of the present invention.
FIG. 3 is a configuration diagram of a summary sentence creation device of the present invention.
FIG. 4 is a block diagram (No. 1) of a summary word selection control unit of the present invention.
FIG. 5 is a configuration diagram (part 2) of the summary word selection control unit of the present invention;
FIG. 6 is a configuration diagram (part 3) of the summary word selection control unit of the present invention;
FIG. 7 is a configuration diagram of a summary sentence generation unit of the present invention.
FIG. 8 is an example of a structure definition according to an embodiment of the present invention.
FIG. 9 is an example of an extraction rule according to an embodiment of the present invention.
FIG. 10 is an example of a selection rule according to an embodiment of the present invention.
FIG. 11 is an example of thesaurus knowledge according to an embodiment of the present invention.
FIG. 12 is an example of a template according to an embodiment of the present invention.
FIG. 13 is an example (part 1) of an HTML document according to the first embodiment of this invention;
FIG. 14 is an example (No. 2) of the HTML document according to the first embodiment of this invention;
FIG. 15 is a flowchart showing the operation of the first exemplary embodiment of the present invention.
FIG. 16 shows the first embodiment of the present invention.Document structureIt is an example of an analysis result.
FIG. 17 is an example of a result extracted by a service important word extraction unit according to the first exemplary embodiment of the present invention;
FIG. 18 is an example of importance setting according to the first embodiment of this invention.
FIG. 19 is an example of concept unification / merging / common concept unification processing by the summary word selection control unit of the first exemplary embodiment of the present invention;
FIG. 20 is an example of record selection processing with high importance by the summary word selection control unit according to the first embodiment of this invention;
FIG. 21 is an example of information supplementation in the summary word selection control unit of the first embodiment of the present invention;
FIG. 22 is an example of an input sentence according to the third embodiment of this invention.
FIG. 23 is a result of the type assignment / important word extraction of the third example of the present invention.
FIG. 24 is an example of assigning importance in the third embodiment of the present invention.
FIG. 25 is an example of the result of type assignment / keyword extraction in the fourth embodiment of the present invention;
[Explanation of symbols]
10Document input means,Input section
20 sentence structure analysis means, sentence structure analysis part
30 key word extraction means, service key word extraction unit
40 summary word selection means, summary word selection control unit
41 Summary word selector
42 Information suppression part
43 Summary Word Comparison Unit
44 Summary word selector
50 Template selection means, template selection section
60 Summary sentence generator, summary sentence generator
65 Summary sentence editor
70 Output section
101 Structure definition
102 Extraction rules
103 Selection rules
104 Thesaurus knowledge
105 Template selection rules
106 Suppression word storage
107 Summary word storage
108 User intention reasoning knowledge
109 Display area information

Claims (9)

文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると、
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程と、
要約語選択制御手段において、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と前記各文の重要語群と前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、
前記各文それぞれの重要語群が、外部から入力された単語、または、前記入力された文書中の予め指定された文種別の文から前記サービス重要語抽出過程において抽出された重要語群と一致する場合に、一致した重要語群の重要度を下げ、
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、該各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、前記同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
前記解析項目毎に、前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程と、
テンプレート選択手段において、
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程と、
要約文生成手段において、
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程と、
を行なうことを特徴とする要約文生成方法。
A summary sentence generation method in a summary sentence generation apparatus for generating a summary sentence of a document , comprising:
In sentence structure analysis means,
When a document consisting of a plurality of sentences including information indicating the sentence format is input by the sentence input means,
A sentence structure analysis process for extracting a plurality of sentences and sentence types of each sentence from the input document using a structure definition rule in which a correspondence between information indicating a sentence format and a sentence type is defined in advance;
In service important word extraction means,
For each predetermined analysis item, by using an extraction rule in which a correlation between a dependency relationship of an extracted important word and an attribute of the extracted important word and a certainty factor of the extracted important word attribute is defined in advance, A service important word extraction process that extracts the certainty of the important word group of each sentence from one sentence and one or more important words of each sentence and the important word group of each sentence;
In summary word selection control means,
Using a selection rule in which an importance conversion method is defined in advance from a sentence type in which an important word appears, an attribute of the important word, and a certainty factor, a sentence type of each sentence, an important word group of each sentence, and each sentence The importance of the important word group of each sentence is calculated from the certainty of the important word group of
The important word group of each sentence matches the word inputted from the outside or the important word group extracted in the service important word extraction process from the sentence of the sentence type specified in the inputted document in advance. To reduce the importance of matched key words,
For each of the analysis items, using a thesaurus knowledge in which a correspondence between a word and a concept of the word is defined in advance, the important word group of each sentence is grouped for each having the same concept, and the important word having the same concept And determining the importance of the important word group having the same concept by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
A summary word selection control process for selecting, for each analysis item, a keyword group having the greatest importance among the important word groups having the same concept as a summary word group of each analysis item;
In the template selection means,
For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection process for selecting a template,
In the summary sentence generation means,
For each analysis item, a summary sentence generation process for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
The summary sentence generation method characterized by performing .
文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると、文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程と、
要約語選択制御手段において、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と前記各文の重要語群と前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、
前記各文それぞれの重要語群が、他の文書から前記文章構造解析過程と前記サービス重要語抽出過程において抽出された他の文書の各文の重要語群と完全または、部分的に一致 する場合に、一致した重要語群の重要度を下げ、
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、前記各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、前記同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
前記解析項目毎に、前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程と、
テンプレート選択手段において、
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程と、
要約文生成手段において、
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程と、
を行なうことを特徴とする要約文生成方法。
A summary sentence generation method in a summary sentence generation apparatus for generating a summary sentence of a document,
In sentence structure analysis means,
When a document composed of a plurality of sentences including information indicating the sentence format is input by the sentence input means, the structure definition rule in which the correspondence between the information indicating the sentence format and the sentence type is defined in advance is used. A sentence structure analysis process of extracting a plurality of sentences and sentence types of each sentence from the input document;
In service important word extraction means,
For each predetermined analysis item, by using an extraction rule in which a correlation between a dependency relationship of an extracted important word and an attribute of the extracted important word and a certainty factor of the extracted important word attribute is defined in advance, A service important word extraction process that extracts the certainty of one or more important words of each sentence from each sentence and the certainty of the important words of each sentence;
In summary word selection control means,
Using a selection rule in which an importance conversion method is defined in advance from a sentence type in which an important word appears, an attribute of the important word, and a certainty factor, a sentence type of each sentence, an important word group of each sentence, and each sentence The importance of the important word group of each sentence is obtained from the certainty of the important word group of
Important word group of the sentence respectively, complete with each sentence of the key word group of other documents extracted in said service key word extraction process and the sentence structure analysis process from another document or partially if match Lower the importance of the matched key words group,
For each of the analysis items, using a thesaurus knowledge in which a correspondence between a word and a concept of the word is defined in advance, the important word group of each sentence is grouped for each having the same concept, and the important word having the same concept And determining the importance of the important word group having the same concept by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
For each analysis item, a summary word selection control process for selecting the most important word group having the same concept as the summary word group for each analysis item;
In the template selection means,
For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection process for selecting a template,
In the summary sentence generation means,
For each analysis item, a summary sentence generation process for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
The summary sentence generation method characterized by performing .
文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると、文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要名詞の係り受け関係と抽出する重要名詞と抽出する重要名詞の確信度との対応付け、及び、抽出する重要動詞の係り受け関係と抽出する重要動詞との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要名詞と重要動詞による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程と、
要約語選択制御手段において、
重要名詞が出現する文種別と重要名詞の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と、前記各文の重要名詞と、前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、
前記各文それぞれの重要語群中の重要名詞と重要動詞が、他の文書から前記文章構造解析過程と前記サービス重要語抽出過程において抽出された他の文書の各文の重要語群の重要名詞と重要動詞と完全に一致する場合には、重要名詞と重要動詞が完全に一致した重要語群を棄却し、完全に一致しない場合には、前記他の文書の各文の重要名詞と一致する該各文のそれぞれの重要語群中の重要名詞を重要語群から棄却し、
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、該各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、該同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
前記解析項目毎に、前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程と、
テンプレート選択手段において、
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程と、
要約文生成手段において、
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程と、
を行うことを特徴とする要約文生成方法。
A summary sentence generation method in a summary sentence generation apparatus for generating a summary sentence of a document,
In sentence structure analysis means,
When a document composed of a plurality of sentences including information indicating the sentence format is input by the sentence input means, the structure definition rule in which the correspondence between the information indicating the sentence format and the sentence type is defined in advance is used. A sentence structure analysis process of extracting a plurality of sentences and sentence types of each sentence from the input document;
In service important word extraction means,
For each predetermined analysis item, the relationship between the dependency relationship of the important noun to be extracted, the correspondence between the important noun to be extracted and the certainty of the important noun to be extracted, and the dependency relationship between the important verb to be extracted and the important verb to be extracted A service for extracting the confidence level of the important word group of each sentence and one or more important nouns and important verbs of each sentence and the important word group of each sentence from each sentence using an extraction rule in which the association with the sentence is defined in advance Important word extraction process,
In summary word selection control means,
Using the selection rule in which the conversion method of importance is pre-defined from the attribute type and the certainty of the sentence type in which the important noun appears and the certainty level, the sentence type of each sentence, the important noun of each sentence, and each of the above From the certainty of the key word group of the sentence, the importance of the key word group of each sentence is determined,
Important nouns and important verbs in the important word group of each sentence are important nouns of the important word group of each sentence of the other document extracted from the other document in the sentence structure analysis process and the service important word extraction process. If the key noun and the key verb are exactly the same, the key word group in which the key noun and key verb are completely matched is rejected. Reject important nouns in each important word group of each sentence from the important word group,
For each of the analysis items, using a thesaurus knowledge in which a correspondence between a word and a word concept is defined in advance, the important word group having the same concept by grouping the important word groups of each sentence into those having the same concept And adding the importance of the important word group of each sentence constituting the important word group having the same concept to obtain the importance of the important word group having the same concept,
A summary word selection control process for selecting, for each analysis item, a keyword group having the greatest importance among the important word groups having the same concept as a summary word group of each analysis item;
In the template selection means,
For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection process for selecting a template,
In the summary sentence generation means,
For each analysis item, a summary sentence generation process for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
The summary sentence generation method characterized by performing .
文書の要約文を生成する要約文生成装置における要約文生成方法であって、
文章構造解析手段において、
文章入力手段により文の書式を示す情報を含む複数の文からなる文書が入力されると、文の書式を示す情報と、文種別との対応付けが予め定義された構造定義ルールとを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析過程と、
サービス重要語抽出手段において、
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出過程と、
要約語選択制御手段において、
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と前記各文の重要語群と前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、
外部から入力された文から、予め定義されたユーザ意図推論知識を前記入力された文を特徴付ける単語を抽出し、
前記各文それぞれについて、前記抽出された単語に関連する単語が各文の重要語群中に含まれる場合に、関連する単語が含まれる重要語群の重要度を上げ、
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、前記各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、前記同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、
前記解析項目毎に、前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御過程と、
テンプレート選択手段において、
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択過程と、
要約文生成手段において、
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成過程と、
を行なうことを特徴とする要約文生成方法。
A summary sentence generation method in a summary sentence generation apparatus for generating a summary sentence of a document,
In sentence structure analysis means,
When a document composed of a plurality of sentences including information indicating the sentence format is input by the sentence input unit, information indicating the sentence format and a structure definition rule in which a correspondence between the sentence types is defined in advance are used. , A sentence structure analysis process for extracting a plurality of sentences and sentence types of each sentence from the input document;
In service important word extraction means,
For each predetermined analysis item, by using an extraction rule in which the relationship between the dependency relationship of the extracted important word and the attribute of the extracted important word and the certainty factor of the extracted important word attribute is defined in advance, A service important word extraction process that extracts the certainty of the important word group of each sentence from one sentence and one or more important words of each sentence and the important word group of each sentence;
In summary word selection control means,
Using a selection rule in which the conversion method of importance is pre-defined from the sentence type in which the important word appears, the attribute of the important word, and the certainty factor, the sentence type of each sentence, the important word group of each sentence, and each sentence The importance of the important word group of each sentence is calculated from the certainty of the important word group of
Extracting words that characterize the inputted sentence from the sentence inputted from the outside, user intention reasoning knowledge defined in advance,
For each of the sentences, when a word related to the extracted word is included in the important word group of each sentence, increase the importance of the important word group including the related word,
For each of the analysis items, using a thesaurus knowledge in which a correspondence between a word and a word concept is defined in advance, the important word group of the sentences is grouped for each having the same concept, and the important word group having the same concept And calculating the importance of the important word group having the same concept by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
A summary word selection control process for selecting, for each analysis item, a keyword group having the greatest importance among the important word groups having the same concept as a summary word group of each analysis item;
In the template selection means,
For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection process for selecting a template,
In the summary sentence generation means,
For each analysis item, a summary sentence generation process for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
The summary sentence generation method characterized by performing .
文書の要約文を生成する要約文生成装置であって、A summary sentence generation device for generating a summary sentence of a document,
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段と、A sentence input means for inputting a document composed of a plurality of sentences including information indicating a sentence format;
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段と、A sentence structure analyzing means for extracting a plurality of sentences and a sentence type of each sentence from the input document using a structure definition rule in which a correspondence between information indicating a sentence format and a sentence type is predefined;
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段と、For each predetermined analysis item, by using an extraction rule in which a correlation between a dependency relationship of an extracted important word and an attribute of the extracted important word and a certainty factor of the extracted important word attribute is defined in advance, Service important word extraction means for extracting the confidence level of the important word group of each sentence from one sentence or one or more important words of each sentence and the important word group of each sentence;
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と前記各文の重要語群と前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、Using a selection rule in which an importance conversion method is defined in advance from a sentence type in which an important word appears, an attribute of the important word, and a certainty factor, a sentence type of each sentence, an important word group of each sentence, and each sentence The importance of the important word group of each sentence is obtained from the certainty of the important word group of
前記各文それぞれの重要語群が、外部から入力された単語、または、前記入力された文書中の予め指定された文種別の文から前記サービス重要語抽出手段によって抽出された重要語群と一致する場合に、一致した重要語群の重要度を下げ、The important word group of each sentence matches the word inputted from the outside or the important word group extracted by the service important word extracting means from the sentence of the sentence type designated in advance in the inputted document. To reduce the importance of matched key words,
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、該各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要For each analysis item, using a thesaurus knowledge in which a correspondence between a word and a word concept is defined in advance, the important word group of each sentence is grouped for each having the same concept, and the important concept having the same concept 語群とし、前記同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、The importance of the important word group having the same concept is obtained by adding the importance of the important word group of each sentence constituting the important word group having the same concept as the word group,
前記解析項目毎に前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段と、Summary word selection control means for selecting, as the summary word group of each analysis item, the one having the greatest importance among the important word groups having the same concept for each analysis item;
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段と、For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection means for selecting a template of
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段と、For each analysis item, summary sentence generation means for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
を有することを特徴とする要約文生成装置。The summary sentence generation device characterized by having.
文書の要約文を生成する要約文生成装置であって、A summary sentence generation device for generating a summary sentence of a document,
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段と、A sentence input means for inputting a document composed of a plurality of sentences including information indicating a sentence format;
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段と、A sentence structure analyzing means for extracting a plurality of sentences and a sentence type of each sentence from the input document using a structure definition rule in which a correspondence between information indicating a sentence format and a sentence type is predefined;
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段と、For each predetermined analysis item, by using an extraction rule in which the relationship between the dependency relationship of the extracted important word and the attribute of the extracted important word and the certainty factor of the extracted important word attribute is defined in advance, Service important word extraction means for extracting the certainty of the important word group of each sentence from one sentence or one or more important words of each sentence and the important word group of each sentence;
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と前記各文の重要語群と前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、Using a selection rule in which an importance conversion method is defined in advance from a sentence type in which an important word appears, an attribute of the important word, and a certainty factor, a sentence type of each sentence, an important word group of each sentence, and each sentence The importance of the important word group of each sentence is obtained from the certainty of the important word group of
前記各文それぞれの重要語群が、他の文書から前記文章構造解析手段と前記サービス重要語抽出手段によって抽出された他の文書の各文の重要語群と完全または、部分的に一致する場合に、一致した重要語群の重要度を下げ、When the important word group of each sentence matches completely or partially with the important word group of each sentence of the other document extracted from the other document by the sentence structure analyzing unit and the service important word extracting unit. Lower the importance of the matched key words group,
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、前記各文の重要語群を、同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、前記同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、For each of the analysis items, using a thesaurus knowledge in which a correspondence between a word and a concept of the word is defined in advance, the important word group of each sentence is grouped for each having the same concept, and the important word having the same concept And determining the importance of the important word group having the same concept by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
前記解析項目毎に、前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段と、Summary word selection control means for selecting, as the summary word group of each analysis item, the one having the greatest importance among the important word groups having the same concept for each analysis item;
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段と、For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection means for selecting a template of
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段と、For each analysis item, summary sentence generation means for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
を有することを特徴とする要約文生成装置。  The summary sentence generation device characterized by having.
文書の要約文を生成する要約文生成装置であって、A summary sentence generation device for generating a summary sentence of a document,
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段と、A sentence input means for inputting a document composed of a plurality of sentences including information indicating a sentence format;
文の書式を示す情報と文種別との対応付けが予め定義された構造定義ルールを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段と、Sentence structure analysis means for extracting a plurality of sentences and sentence types of each sentence from the input document using a structure definition rule in which a correspondence between information indicating a sentence format and a sentence type is predefined;
予め決められた解析項目毎に、抽出する重要名詞の係り受け関係と抽出する重要名詞と抽出する重要名詞の確信度との対応付け、及び、抽出する重要動詞の係り受け関係と抽出する重要動詞との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要名詞と重要動詞による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段と、For each predetermined analysis item, the relationship between the dependency relationship of the important noun to be extracted, the correspondence between the important noun to be extracted and the certainty of the important noun to be extracted, and the dependency relationship between the important verb to be extracted and the important verb to be extracted A service for extracting the confidence level of the important word group of each sentence and one or more important nouns and important verbs of each sentence and the important word group of each sentence from each sentence using an extraction rule in which the association with the sentence is defined in advance Important word extraction means,
重要名詞が出現する文種別と重要名詞の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と、前記各文の重要名詞と、前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、Using the selection rule in which the conversion method of the importance from the sentence type and the important noun attribute and the certainty of the important noun appear in advance, the sentence type of each sentence, the important noun of each sentence, and each of the above From the certainty of the key word group of the sentence, the importance of the key word group of each sentence is determined,
前記各文それぞれの重要語群中の重要名詞と重要動詞が、他の文書から前記文章構造解析手段と前記サービス重要語抽出手段によって抽出された他の文書の各文の重要語群の重要名詞と重要動詞と完全に一致する場合には、重要名詞と重要動詞が完全に一致した重要語群を棄却し、完全に一致しない場合には、前記他の文書の各文の重要名詞と一致する該各文のそれぞれの重要語群中の重要名詞を重要語群から棄却し、Important nouns and important verbs in the important word group of each sentence are extracted from other documents by the sentence structure analyzing means and the service important word extracting means. If the key noun and the key verb are exactly the same, the key word group in which the key noun and key verb are completely matched is rejected. Reject important nouns in each important word group of each sentence from the important word group,
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、該各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、該同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、For each of the analysis items, using a thesaurus knowledge in which a correspondence between a word and a word concept is defined in advance, the important word group having the same concept by grouping the important word groups of each sentence into those having the same concept And adding the importance of the important word group of each sentence constituting the important word group having the same concept to obtain the importance of the important word group having the same concept,
前記解析項目毎に、前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段と、Summary word selection control means for selecting, as the summary word group of each analysis item, the one having the greatest importance among the important word groups having the same concept for each analysis item;
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段と、For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection means for selecting a template of
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段と、For each analysis item, summary sentence generation means for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
を有することを特徴とする要約文生成装置。  The summary sentence generation device characterized by having.
文書の要約文を生成する要約文生成装置であって、A summary sentence generation device for generating a summary sentence of a document,
文の書式を示す情報を含む複数の文からなる文書が入力される文章入力手段と、A sentence input means for inputting a document composed of a plurality of sentences including information indicating a sentence format;
文の書式を示す情報と、文種別との対応付けが予め定義された構造定義ルールとを用いて、前記入力された文書から複数の文と各文の文種別とを抽出する文章構造解析手段と、Sentence structure analysis means for extracting a plurality of sentences and a sentence type of each sentence from the input document using information indicating a sentence format and a structure definition rule in which association with a sentence type is defined in advance When,
予め決められた解析項目毎に、抽出する重要語の係り受け関係と抽出する重要語の属性と抽出する重要語の属性の確信度との対応付けが予め定義された抽出ルールを用いて、前記各文から各文の1つまたは複数の重要語による重要語群と各文の重要語群の確信度を抽出するサービス重要語抽出手段と、For each predetermined analysis item, by using an extraction rule in which a correlation between a dependency relationship of an extracted important word and an attribute of the extracted important word and a certainty factor of the extracted important word attribute is defined in advance, Service important word extraction means for extracting the confidence level of the important word group of each sentence from one sentence or one or more important words of each sentence and the important word group of each sentence;
重要語が出現する文種別と重要語の属性と確信度から重要度の変換方法が予め定義された選択ルールを用いて、前記各文の文種別と前記各文の重要語群と前記各文の重要語群の確信度とから前記各文の重要語群の重要度を求め、Using a selection rule in which an importance conversion method is defined in advance from a sentence type in which an important word appears, an attribute of the important word, and a certainty factor, a sentence type of each sentence, an important word group of each sentence, and each sentence The importance of the important word group of each sentence is obtained from the certainty of the important word group of
外部から入力された文から、予め定義されたユーザ意図推論知識を前記入力された文を特徴付ける単語を抽出し、Extracting words that characterize the inputted sentence from the sentence inputted from the outside, user intention reasoning knowledge defined in advance,
前記各文それぞれについて、前記抽出された単語に関連する単語が各文の重要語群中に含まれる場合に、関連する単語が含まれる重要語群の重要度を上げ、For each of the sentences, when a word related to the extracted word is included in the important word group of each sentence, increase the importance of the important word group including the related word,
前記解析項目毎に、単語と単語の概念との対応付けが予め定義されたシソーラス知識を用いて、前記各文の重要語群を同一概念を有するもの毎にまとめて同一概念を有する重要語群とし、前記同一概念を有する重要語群を構成する各文の重要語群の重要度を加算して同一概念を有する重要語群の重要度を求め、For each of the analysis items, using a thesaurus knowledge in which a correspondence between a word and a concept of the word is defined in advance, the important word group having the same concept by grouping the important word groups of each sentence having the same concept And calculating the importance of the important word group having the same concept by adding the importance of the important word group of each sentence constituting the important word group having the same concept,
前記解析項目毎に、前記同一概念を有する重要語群のうち重要度が最大のものを各解析項目の要約語群として選択する要約語選択制御手段と、Summary word selection control means for selecting, as the summary word group of each analysis item, the one having the greatest importance among the important word groups having the same concept for each analysis item;
前記解析項目毎に、要約語群を構成する各要約語の属性と要約文のテンプレートの組が予め定義されたテンプレート選択ルールを用いて、前記解析項目の要約語群から各解析項目の要約文のテンプレートを選択するテンプレート選択手段と、For each analysis item, a summary sentence of each analysis item is extracted from the summary word group of the analysis item using a template selection rule in which a set of attributes of the summary words and a template of the summary sentence constituting the summary word group is defined in advance. A template selection means for selecting a template of
前記解析項目毎に、前記選択された各解析項目の要約文のテンプレートに前記各解析項目の要約語群を埋め込んで各解析項目の要約文を生成する要約文生成手段と、For each analysis item, summary sentence generation means for generating a summary sentence of each analysis item by embedding a summary word group of each analysis item in the summary sentence template of each selected analysis item;
を有することを特徴とする要約文生成装置。The summary sentence generation device characterized by having.
文書の要約文を生成する要約文生成プログラムを格納した記憶媒体であって、A storage medium storing a summary sentence generation program for generating a summary sentence of a document,
前記請求項1から4記載の方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする要約文生成プログラムを格納した記憶媒体。5. A storage medium storing a summary sentence generation program, wherein a program for causing a computer to execute processing for realizing the method according to claim 1 is stored.
JP29986099A 1999-05-28 1999-10-21 Summary sentence creation method and apparatus, and storage medium storing summary sentence creation program Expired - Fee Related JP3614055B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29986099A JP3614055B2 (en) 1999-05-28 1999-10-21 Summary sentence creation method and apparatus, and storage medium storing summary sentence creation program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP15057199 1999-05-28
JP11-150571 1999-05-28
JP29986099A JP3614055B2 (en) 1999-05-28 1999-10-21 Summary sentence creation method and apparatus, and storage medium storing summary sentence creation program

Publications (2)

Publication Number Publication Date
JP2001052032A JP2001052032A (en) 2001-02-23
JP3614055B2 true JP3614055B2 (en) 2005-01-26

Family

ID=26480123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29986099A Expired - Fee Related JP3614055B2 (en) 1999-05-28 1999-10-21 Summary sentence creation method and apparatus, and storage medium storing summary sentence creation program

Country Status (1)

Country Link
JP (1) JP3614055B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737420A (en) * 2020-08-07 2020-10-02 四川大学 Class case retrieval method, system, device and medium based on dispute focus

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288190A (en) * 2001-03-26 2002-10-04 Just Syst Corp System, and method for summarizing and program therefor
JP4572321B2 (en) * 2004-03-10 2010-11-04 セイコーエプソン株式会社 Document output apparatus and control method thereof
EP1744271A4 (en) * 2004-04-08 2008-06-25 Justsystems Corp Document processing device
JP2008171302A (en) * 2007-01-15 2008-07-24 Nippon Telegr & Teleph Corp <Ntt> Outline generation device, outline generation method and outline generation program
JP2010049598A (en) * 2008-08-25 2010-03-04 Naninani.Tv:Kk Web-site creation support device and program
JP2010257360A (en) * 2009-04-28 2010-11-11 Data Keekibeeka Kk Alarm processing method, alarm processor, and program thereof
JP5493498B2 (en) * 2009-06-25 2014-05-14 富士ゼロックス株式会社 Information processing apparatus and summarization program
JP5284478B2 (en) * 2009-09-15 2013-09-11 株式会社東芝 Content search apparatus, method and program
JP5341732B2 (en) * 2009-11-30 2013-11-13 株式会社野村総合研究所 Discourse summary generation system and discourse summary generation program
JP5562219B2 (en) * 2010-12-06 2014-07-30 日本電信電話株式会社 Summary device, summary creation method, and program
JP5389977B2 (en) * 2012-04-27 2014-01-15 楽天株式会社 Information processing apparatus, processing method, program, and recording medium
CN106372089B (en) * 2015-07-23 2019-09-20 北京国双科技有限公司 Determine the method and device of word position
JP6626029B2 (en) * 2017-03-21 2019-12-25 株式会社東芝 Information processing apparatus, information processing method and program
JP2019023782A (en) * 2017-07-24 2019-02-14 カシオ計算機株式会社 Advertisement management device and program
JP7112650B2 (en) * 2017-12-28 2022-08-04 コニカミノルタ株式会社 document scoring device, program
JP7091146B2 (en) * 2018-05-25 2022-06-27 シャープ株式会社 Information processing equipment, information processing methods, and programs
CN110046353B (en) * 2019-04-22 2022-05-13 重庆理工大学 Aspect level emotion analysis method based on multi-language level mechanism
CN110287491B (en) * 2019-06-25 2024-01-12 北京百度网讯科技有限公司 Event name generation method and device
JP7365849B2 (en) 2019-10-17 2023-10-20 日本放送協会 Summarization devices and programs

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0244462A (en) * 1988-08-05 1990-02-14 Nippon Telegr & Teleph Corp <Ntt> Natural language processor
JP3049113B2 (en) * 1991-06-18 2000-06-05 株式会社日立製作所 Patent abstract creation system in a company
JPH1115830A (en) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd Sentence abbreviation device and medium recording sentence abbreviation program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737420A (en) * 2020-08-07 2020-10-02 四川大学 Class case retrieval method, system, device and medium based on dispute focus

Also Published As

Publication number Publication date
JP2001052032A (en) 2001-02-23

Similar Documents

Publication Publication Date Title
JP3614055B2 (en) Summary sentence creation method and apparatus, and storage medium storing summary sentence creation program
Mani et al. Advances in automatic text summarization
US9449080B1 (en) System, methods, and user interface for information searching, tagging, organization, and display
US8346795B2 (en) System and method for guiding entity-based searching
US6505150B2 (en) Article and method of automatically filtering information retrieval results using test genre
JPWO2005096182A1 (en) Information extraction system
Rinke et al. Expert-informed topic models for document set discovery
KR20180131146A (en) Apparatus and Method for Identifying Core Issues of Each Evaluation Criteria from User Reviews
Kanapala et al. Passage-based text summarization for legal information retrieval
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
Grobelnik et al. Text mining as integration of several related research areas: report on KDD's workshop on text mining 2000
JP6409071B2 (en) Sentence sorting method and calculator
Al-Smadi et al. Leveraging linked open data to automatically answer Arabic questions
Lemmenmeier-Batinić Lexical Explorer: extending access to the Database for Spoken German for user-specific purposes
Kersting et al. Aspect Phrase Extraction in Sentiment Analysis with Deep Learning.
JP3743204B2 (en) Data analysis support method and apparatus
KR20220067808A (en) Apparatus, method and computer program for generating knowledge graph
JP5664842B2 (en) Requirements acquisition support method, requirements acquisition support system and program in system development
Krauthammer et al. A knowledge model for the interpretation and visualization of NLP-parsed discharged summaries.
Shamma et al. Information extraction from arabic law documents
Kim et al. Question answering towards automatic augmentations of ontology instances
Norouzi et al. A spatiotemporal semantic search engine for cultural events
Canales et al. Innovative semi-automatic methodology to annotate emotional corpora
Tyagi et al. A Survey on Text Processing Using Deep Learning Techniques
de Brito et al. Sentiment analysis tool in website comments

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040727

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041025

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees