JP2004310461A - 要約作成装置 - Google Patents
要約作成装置 Download PDFInfo
- Publication number
- JP2004310461A JP2004310461A JP2003103305A JP2003103305A JP2004310461A JP 2004310461 A JP2004310461 A JP 2004310461A JP 2003103305 A JP2003103305 A JP 2003103305A JP 2003103305 A JP2003103305 A JP 2003103305A JP 2004310461 A JP2004310461 A JP 2004310461A
- Authority
- JP
- Japan
- Prior art keywords
- display
- text
- displayed
- document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】利用者が当面知ることを望まない可能性のある情報を含む文書等の情報を検索結果には出力しつつ、当該情報自体は隠蔽することができるようにした要約作成装置を提供する。
【解決手段】検索結果中の各テキストを保持し、前記テキストについて要約を作成する際に表示しない非表示箇所を設定し、前記テキスト中で前記非表示箇所を除いた部分について要約を作成し、該作成された要約を含めて検索結果として表示するデータを生成するようにCPU201が制御する。
【選択図】 図2
【解決手段】検索結果中の各テキストを保持し、前記テキストについて要約を作成する際に表示しない非表示箇所を設定し、前記テキスト中で前記非表示箇所を除いた部分について要約を作成し、該作成された要約を含めて検索結果として表示するデータを生成するようにCPU201が制御する。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、要約作成装置に関する。
【0002】
【従来の技術】
インターネットやイントラネットの普及等に伴い、昨今では利用者の処理能力を越える情報が生成されるようになった。このため、利用者が、膨大な情報の中から自分が必要とする情報を獲得するのが困難になってきている。
【0003】
こうした問題を解決する方法の一つとして、文書を検索する技術が開発されてきた。この技術を応用した代表的なものとして、Web(World Wide
Web)を対象にしたWebサーチエンジンがある。
【0004】
このWebサーチエンジンでは、利用者が入力した検索条件に合致するWebページの一覧が図7に示すように表示される。
【0005】
図7において、701〜703は検索結果であり、このように検索結果701〜703として、各Webページのタイトルが表示され、各タイトルを選択することにより、実際のWebページにアクセスすることができる。
【0006】
しかし、タイトルは、文書の内容を十分に表現していないことも多々あるため、実際にWebページにアクセスしないと、そのWebページが検索意図に合致したものか否かを利用者が判断することは難しいという問題がある。
【0007】
Webページ以外の一般の文書を対象とした検索システムでも状況は同様である。
【0008】
この問題を解決するために、特開平7−129605号公報や特開平10−307837号公報には、検索結果を表示する際に、文書のタイトルだけでなく、その文書の要約も表示する方法が開示されている。
【0009】
この方法を用いた場合の検索結果の表示例を図8に示す。
【0010】
図8において、801〜803は要約が添付された検索結果であり、ここに示すように、利用者は、検索結果801〜803に添付された要約を読むことによって文書の概要を知ることができるので、文書にアクセスすることなく、文書が検索意図に合致したものか否かを容易に把握することができる。
【0011】
【発明が解決しようとする課題】
しかしながら、検索結果中に図8に示すように要約を表示すると、利用者が見ることを望まない情報が要約中に表示される危険性がある。例えば、未読の小説や未見の映画等の結末が文書内に書かれている場合、利用者は一般に、実際にその小説を読んだり、その映画を見たりする迄は、こうした情報を知りたくない。
【0012】
図8に示した例では、3番目の検索結果803において、「最後に××が□□だったのには驚いた。」という小説の結末への言及が要約中に表示されている。これは、この小説を読了する迄は知りたくない情報である。通常は、文書にアクセスしなければ知らずに済ませられる情報であるが、検索結果中に表示されることにより、利用者の目に触れることになる。
【0013】
この問題への対応策として、特開2000−357176号公報に記載されている方法を利用することが考えられる。これは、コンテンツのフィルタリング及びブロッキング制限と一致する検索結果を提供する方法で、例えば、所謂アダルトコンテンツを検索結果に含めず、その所在を(特に年少の)利用者に知らせないというものである。これと同様に、利用者が見ることを望まない情報を含むような文書については、検索結果に含めないということが考えられる。
【0014】
この方法は、ある文書を全く見る必要がない場合は有効である。しかしながら、現在解決しようとしている課題においては、その文書の内容自体は利用者が興味を持っているものであり、利用者は、その文書に記載されている情報をいずれは知りたいと考えている。従って、検索結果に出力せず、その情報の所在を利用者に知らせないという方法は、解決手段にはなり得ない。
【0015】
本発明は、上記従来技術の有する問題点を解決するためになされたものであり、その目的は、利用者が当面知ることを望まない可能性のある情報を含む文書等を検索結果には出力しつつ、当該情報自体は隠蔽することができるようにした要約作成装置を提供することである。
【0016】
【課題を解決するための手段】
上述した目的を達成するために本発明の要約作成装置は、テキストの非表示箇所を検出する非表示箇所検出手段と、前記非表示箇所検出手段の検出結果に基づいてテキストの要約を作成する要約作成手段とを備えたことを特徴とする。
【0017】
【発明の実施の形態】
以下、本発明の各実施の形態を図面に基づき説明する。
【0018】
(一実施の形態)
まず、本発明の一実施の形態を図1乃至図6に基づき説明する。
【0019】
図1は、本実施の形態に係る要約作成装置の基本構成を示すブロック図である。
【0020】
図1において、101は検索結果保持部で、検索システム(不図示)が出力した検索結果のリストを保持するものである。102は文書データベースで、検索対象としている全ての文書のテキストを格納したものである。103は要約処理部で、与えられたテキストに対して要約を作成するものである。本発明では、要約を作成するアルゴリズムとして具体的な手法は特に限定しない。「テキスト自動要約に関する研究動向」(『自然言語処理』、Vol.6、No.6、1999)に記載されているような一般に知られている方法を採用すれば良い。例えば、文書中の各部分(文等)にスコアを付け、スコアの高い部分を選択することにより要約を作成することが可能である。
【0021】
104は表示用データ生成部で、検索結果の各文書について検索結果中に表示する要約を生成し、これを含めて検索結果として出力するデータを生成するものである。105は非表示箇所検出部で、検索結果中の各文書から要約中に表示しない箇所を検出するものである。106は非表示パターン保持部で、非表示箇所検出部105での検出に使用する非表示パターンの集合である非表示パターンテーブルを保持するものである。この非表示パターンテーブルには、図4に示すように非表示パターンの正規表現及び非表示パターンの種別が格納される。例えば、図4において、402は、「未読の人はご注意」、若しくは「未聴の人はご注意」、若しくは「未見の人はご注意」というパターンであることを表し、種別が「ネタバレ」であることを表している。
【0022】
尚、非表示パタンテーブルの構成は、この例に限定されない。
【0023】
再び、図1に戻って説明すると、107は表示用データ保持部で、表示用データ生成部104により生成した表示用データを保持するものである。
【0024】
図2は、本実施の形態に係る要約作成装置の具体的構成を示すブロック図である。
【0025】
図2において、201はCPU(中央演算処理装置)で、後述する手順を実現するプログラムに従って動作する。202はメモリで、検索結果保持部101、非表示パターン保持部106、表示用データ保持部107と上記プログラムの動作に必要な記憶領域とを提供する。203は制御メモリで、後述する手順を実現するプログラムを保持する。204は各構成要素を結合するバスである。
【0026】
次に、上記構成に成る本実施の形態に係る要約作成装置の動作を、図3のフローチャートに基づき説明する。
【0027】
図3において、まず、ステップS301で、検索結果保持部101内に未処理の文書が残っているか否かを判断する。そして、検索結果保持部101内に未処理の文書が残っていると判断された場合はステップS302へ進み、また、検索結果保持部101内に未処理の文書が残っていないと判断された場合は、何も処理せずに本処理動作を終了する。
【0028】
ステップS302では、検索結果保持部101から未処理の文書を一つ選び、これに対応するテキストを文書データベース102から取り出す。そして、このテキストが、非表示パターン保持部106に保持されている非表示パターンを含んでいるか否かを、非表示箇所検出部105により判断する。そして、非表示パターンを含んでいると判断された場合はステップS303へ進み、また、非表示パターンを含んでいないと判断された場合はステップS305へ進む。
【0029】
ステップS303では、非表示箇所検出部105において、非表示箇所、即ち、テキスト中で要約に出力しない箇所を検出する。非表示箇所の検出の方法は、特に限定しない。本実施の形態では、テキスト中で非表示パターンを含む文以降を全て非表示箇所として扱うが、この他に非表示パターンを含む文から特定のパターンが現れる文迄の間を非表示箇所とする、非表示パターンを含む文から章/節/項等の区切り迄を非表示箇所とする、非表示パターンから特定文字数分、若しくは特定文数分を非表示箇所とする、等の方法も可能である。
【0030】
ステップS304では、前記ステップS303において検出した非表示箇所をテキスト中から削除する。この際、テキスト中のどの位置から削除したかは記憶しておく。
【0031】
また、ステップS305では、要約処理部103においてテキストの要約を作成する。元のテキストが非表示パターンを含んでいる場合は、非表示箇所を削除した残りのテキストを、そうでない場合は、元のテキストについて要約を作成することになる。先に述べたように、要約を作成する具体的なアルゴリズムについては、本発明では限定しない。
【0032】
尚、作成した要約と元のテキストとでは、個々の文の対応がとれているものとする。
【0033】
次に、ステップS306で、元のテキストが非表示パターンを含んでいるか否かを判断する。そして、元のテキストが非表示パターンを含んでいると判断された場合は、ステップS307へ進む。また、元のテキストが非表示パターンを含んでいないと判断された場合は、前記ステップS305において作成した要約を表示用データ保持部107に保持した後、前記ステップS301へ戻り、上述した処理を繰り返す。
【0034】
ステップS307では、表示用データ生成部104において、前記ステップS305において作成した要約中で、元のテキストにおける非表示箇所に対応する箇所に、非表示箇所が存在することを示すマーカ、若しくは文字列を挿入する。要約と元のテキストとは対応がとれており、また、非表示箇所が元のテキスト中のどの場所にあったかは記憶しているため、要約中で非表示箇所に対応する箇所は容易に分る。また、挿入するマーカ、若しくは文字列は非表示パターンの種別に応じて設定するものとする。この後、ステップS301へ戻って、上記処理を繰り返す。
【0035】
以下、具体例に基づいて本実施の形態に係る要約作成装置について、具体例に基づいて詳細に説明する。
【0036】
非表示パターンテーブルが図4に示すもので、検索結果が図7に示すものである場合を例に説明する。このとき、図7における3番目の検索結果703に対応するテキストが図5に示すものとすると、図5における文506が図4における非表示パターン402にマッチする。従って、図5におけるテキスト中の文506以降の文を非表示箇所とし、非表示箇所を除いた文501〜505のテキストについて要約を作成する。更に、非表示パターン402は、種別が「ネタバレ」であるため、これを示す文字列として「***ネタバレ情報を含む可能性あり***」を非表示箇所に挿入する。最終的に検索結果は、図6のように表示される。図6において、603の部分は、要約が加工された箇所である。このように、図5のテキスト中で、一部の人にとって表示が望ましくない情報を検索結果中の要約において隠蔽することができる。
【0037】
(他の実施の形態)
上記一実施の形態においては、非表示箇所の検出は非表示パターンを設定し、これをパターンマッチングによってテキスト中から検索するという方法で実施したが、これ以外の方法によっても実施することができる。例えば、検索対象がHTML文書、XML文書等、マークアップ言語で記述された文書である場合は、非表示箇所を表現する特別のタグを用意し、文書の作成者が、このタグを用いて非表示箇所を設定するようにしても良い。システム側では、このタグによって非表示箇所を検出する。一般のテキストの場合にも、何らかのマーカを用意して非表示箇所を表現することが可能である。
【0038】
また、上記一実施の形態においては、非表示箇所を削除した上で要約作成処理を行ったが、表示用の要約を作成する方法はこの限りではない。また、非表示箇所を含めたテキストを要約処理部103に渡し、要約作成アルゴリズム側で非表示箇所を含めずに要約を作成することも可能である。また、要約処理部103に非表示箇所を含めたテキストを渡し、作成された要約テキストから表示用データ生成部104で非表示箇所に含まれる箇所を削除することも可能である。
【0039】
また、上記一実施の形態においては、表示用の要約生成を検索時に行ったが、事前に文書データベース102中の各文書について表示用の要約を生成して保持しておき、検索時には保持しておいた要約を表示するようにしても良い。
【0040】
また、上記一実施の形態においては、表示用の要約の生成を検索サーバ側で行ったが、検索結果中の各文書に検索クライアントからアクセスできるようにして、検索クライアント側で行っても良い。この場合、非表示パターンを検索クライアント側で設定することが可能であるから、利用者毎に細かな設定をすることも可能になる。
【0041】
また、上記一実施の形態においては、要約中で非表示箇所に該当する箇所にそれを示すマーカ、若しくは文字列を挿入したが、これを出力しないようにしても良い。
【0042】
また、上記一実施の形態においては、非表示パターンに合致するパターンを有するテキストについて非表示箇所を表示しない場合について説明したが、非表示箇所の表示/非表示を利用者が切り替える切替手段を更に設けて、表示の有無を利用者が設定できるようにしても良い。この場合において、表示することを設定した場合は、非表示箇所を削除せずに要約を作成する。
【0043】
また、上記一実施の形態においては、全ての利用者に対して同様の出力を行なう場合について説明したが、非表示パターンテーブルを数種類用意し、利用者に応じて表示しない内容を切り替えるようにしても良い。また、非表示パターンテーブルを利用者が選択できるようにしても良い。
【0044】
また、上記一実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、複数の計算機上で実現しても良い。
【0045】
また、上記一実施の形態においては、検索結果文書の要約作成について説明したが、これに限定されるものではなく、単に文書等の情報を要約する場合に適用しても良い。
【0046】
また、本発明は、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用しても良い。
【0047】
また、前述した一実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システム、或いは装置に供給し、そのシステム、或いは装置のコンピュータ(または、CPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
【0048】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施形態の機能を実現することになり、そのプログラムコード自体が前述した各実施形態の機能を実現することになり、そのプログラムコードから成る制御プログラムを格納した記憶媒体は本発明を構成することになる。
【0049】
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0050】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施形態の機能が実現される場合も含まれることは言うまでもない。
【0051】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部、または全部を行い、その処理によって前述した各実施形態の機能が実現される場合も含まれることは言うまでもない。
【0052】
以上では、本発明の様々な例と実施形態を説明したが、当業者であれば、本発明の趣旨と範囲は本明細書内の特定の説明と図に限定されるものではなく、本願特許請求の範囲に全て述べられた様々な修正と変更に及ぶことが可能であることは言うまでもない。
【0053】
本発明の実施態様の例を以下に列挙する。
【0054】
[実施態様1] テキストの非表示箇所を検出する非表示箇所検出手段と、
前記非表示箇所検出手段の検出結果に基づいてテキストの要約を作成する要約作成手段とを備えたことを特徴とする要約作成装置。
【0055】
[実施態様2] 前記要約中で非表示箇所に該当する箇所に非表示箇所であることを示す文字列、若しくはマーカを挿入する挿入手段を備えたことを特徴とする実施態様1に記載の要約作成装置。
【0056】
[実施態様3] 前記非表示箇所検出手段は、
非表示箇所を特徴付ける文字列パターンの集合を保持する文字列パターン集合保持手段と、
前記文字列パターンをテキスト中から検索する文字列パターン検索手段と、
前記文字列パターンを含む部分を非表示箇所として抽出する抽出手段と
から成ることを特徴とする実施態様1または2に記載の要約作成装置。
【0057】
[実施態様4] 非表示箇所を特徴付ける文字列パターンの集合を複数種類
保持する第2の文字列パターン集合保持手段と、
利用者に応じて、若しくは利用者の設定によって前記文字列パターンの集合
を切り替える文字列パターン集合切替手段とを備え、
要約中に表示しない内容を利用者毎に切り替えることができるようにしたことを特徴とする実施態様3に記載の要約作成装置。
【0058】
[実施態様5] 非表示箇所検出手段は、
前記テキスト中から非表示箇所を記述したタグやマーカを検出する検出手段と、
前記タグやマーカで記述された部分を非表示箇所として抽出する抽出手段と
から成ることを特徴とする実施態様1または2に記載の要約作成装置。
【0059】
[実施態様6] 非表示箇所の要約中への表示の有無を設定する表示有無設定手段を備え、
利用者が非表示箇所の表示の有無を切り替えることができるようにしたことを特徴とする実施態様1乃至5のいずれかに記載の要約作成装置。
【0060】
[実施態様7] テキストの非表示箇所を検出する非表示箇所検出工程と、
前記非表示箇所検出手段の検出結果に基づいてテキストの要約を作成する要約作成工程と、
を備えたことを特徴とする要約作成方法。
【0061】
[実施態様8] 前記要約中で非表示箇所に該当する箇所に非表示箇所であることを示す文字列、若しくはマーカを挿入する挿入工程を備えたことを特徴とする実施態様7に記載の要約作成方法。
【0062】
[実施態様9] 非表示箇所検出工程は、
非表示箇所を特徴付ける文字列パターンの集合を保持する文字列パターン集合保持工程と、
前記文字列パターンをテキスト中から検索する文字列パターン検索工程と、
前記文字列パターンを含む部分を非表示箇所として抽出する抽出工程と
から成ることを特徴とする請求項7または8に記載の要約作成方法。
【0063】
[実施態様10] 非表示箇所を特徴付ける文字列パターンの集合を複数種類保持する第2の文字列パターン集合保持工程と、
利用者に応じて、若しくは利用者の設定によって前記文字列パターンの集合を切り替える文字列パターン集合切替工程とを備え、
要約中に表示しない内容を利用者毎に切り替えることができるようにしたことを特徴とする実施態様9に記載の要約作成方法。
【0064】
[実施態様11] 非表示箇所検出工程は、
前記テキスト中から非表示箇所を記述したタグやマーカを検出する検出工程と、
前記タグやマーカで記述された部分を非表示箇所として抽出する抽出工程と
から成ることを特徴とする実施態様7または8に記載の要約作成方法。
【0065】
[実施態様12] 非表示箇所の要約中への表示の有無を設定する表示有無設定工程を備え、
利用者が非表示箇所の表示の有無を切り替えることができるようにしたことを特徴とする実施態様7乃至11のいずれかに記載の要約作成方法。
【0066】
[実施態様13] 実施態様7乃至12に記載の要約作成方法が備えている各工程をコンピュータに実行させるためのプログラムコードから成ることを特徴とする制御プログラム。
【0067】
[実施態様14] 実施態様13に記載の制御プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
【0068】
【発明の効果】
以上説明したように、本発明の要約作成装置によれば、文書等の情報のテキスト中の一部の箇所を検索結果の要約中に出力しないようにしたので、利用者が当面知ることを望まない可能性のある情報を含む文書等の情報を検索結果に出力しつつ、当該情報自体は隠蔽することができ、検索システムの利便性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る要約作成装置の基本構成を示すブロック図である。
【図2】本発明の一実施の形態に係る要約作成装置の具体的構成を示すブロック図である。
【図3】本発明の一実施の形態に係る要約作成装置の動作の流れを示すフローチャートである。
【図4】本発明の一実施の形態に係る要約作成装置における非表示パターンテーブルの一例を示す図である。
【図5】本発明の一実施の形態に係る要約作成装置におけるテキストの一例を示す図である。
【図6】本発明の一実施の形態に係る要約作成装置における検索結果の表示例を示す図である。
【図7】従来の検索システムにおける検索結果の表示例を示す図である。
【図8】従来の検索システムにおける検索結果の表示例を示す図である。
【符号の説明】
101 検索結果保持部
102 文書データベース
103 要約処理部
104 表示用データ生成部
105 非表示箇所検出部
106 非表示パターン保持部
107 表示用データ保持部
201 CPU
202 メモリ
203 制御メモリ
204 バス
【発明の属する技術分野】
本発明は、要約作成装置に関する。
【0002】
【従来の技術】
インターネットやイントラネットの普及等に伴い、昨今では利用者の処理能力を越える情報が生成されるようになった。このため、利用者が、膨大な情報の中から自分が必要とする情報を獲得するのが困難になってきている。
【0003】
こうした問題を解決する方法の一つとして、文書を検索する技術が開発されてきた。この技術を応用した代表的なものとして、Web(World Wide
Web)を対象にしたWebサーチエンジンがある。
【0004】
このWebサーチエンジンでは、利用者が入力した検索条件に合致するWebページの一覧が図7に示すように表示される。
【0005】
図7において、701〜703は検索結果であり、このように検索結果701〜703として、各Webページのタイトルが表示され、各タイトルを選択することにより、実際のWebページにアクセスすることができる。
【0006】
しかし、タイトルは、文書の内容を十分に表現していないことも多々あるため、実際にWebページにアクセスしないと、そのWebページが検索意図に合致したものか否かを利用者が判断することは難しいという問題がある。
【0007】
Webページ以外の一般の文書を対象とした検索システムでも状況は同様である。
【0008】
この問題を解決するために、特開平7−129605号公報や特開平10−307837号公報には、検索結果を表示する際に、文書のタイトルだけでなく、その文書の要約も表示する方法が開示されている。
【0009】
この方法を用いた場合の検索結果の表示例を図8に示す。
【0010】
図8において、801〜803は要約が添付された検索結果であり、ここに示すように、利用者は、検索結果801〜803に添付された要約を読むことによって文書の概要を知ることができるので、文書にアクセスすることなく、文書が検索意図に合致したものか否かを容易に把握することができる。
【0011】
【発明が解決しようとする課題】
しかしながら、検索結果中に図8に示すように要約を表示すると、利用者が見ることを望まない情報が要約中に表示される危険性がある。例えば、未読の小説や未見の映画等の結末が文書内に書かれている場合、利用者は一般に、実際にその小説を読んだり、その映画を見たりする迄は、こうした情報を知りたくない。
【0012】
図8に示した例では、3番目の検索結果803において、「最後に××が□□だったのには驚いた。」という小説の結末への言及が要約中に表示されている。これは、この小説を読了する迄は知りたくない情報である。通常は、文書にアクセスしなければ知らずに済ませられる情報であるが、検索結果中に表示されることにより、利用者の目に触れることになる。
【0013】
この問題への対応策として、特開2000−357176号公報に記載されている方法を利用することが考えられる。これは、コンテンツのフィルタリング及びブロッキング制限と一致する検索結果を提供する方法で、例えば、所謂アダルトコンテンツを検索結果に含めず、その所在を(特に年少の)利用者に知らせないというものである。これと同様に、利用者が見ることを望まない情報を含むような文書については、検索結果に含めないということが考えられる。
【0014】
この方法は、ある文書を全く見る必要がない場合は有効である。しかしながら、現在解決しようとしている課題においては、その文書の内容自体は利用者が興味を持っているものであり、利用者は、その文書に記載されている情報をいずれは知りたいと考えている。従って、検索結果に出力せず、その情報の所在を利用者に知らせないという方法は、解決手段にはなり得ない。
【0015】
本発明は、上記従来技術の有する問題点を解決するためになされたものであり、その目的は、利用者が当面知ることを望まない可能性のある情報を含む文書等を検索結果には出力しつつ、当該情報自体は隠蔽することができるようにした要約作成装置を提供することである。
【0016】
【課題を解決するための手段】
上述した目的を達成するために本発明の要約作成装置は、テキストの非表示箇所を検出する非表示箇所検出手段と、前記非表示箇所検出手段の検出結果に基づいてテキストの要約を作成する要約作成手段とを備えたことを特徴とする。
【0017】
【発明の実施の形態】
以下、本発明の各実施の形態を図面に基づき説明する。
【0018】
(一実施の形態)
まず、本発明の一実施の形態を図1乃至図6に基づき説明する。
【0019】
図1は、本実施の形態に係る要約作成装置の基本構成を示すブロック図である。
【0020】
図1において、101は検索結果保持部で、検索システム(不図示)が出力した検索結果のリストを保持するものである。102は文書データベースで、検索対象としている全ての文書のテキストを格納したものである。103は要約処理部で、与えられたテキストに対して要約を作成するものである。本発明では、要約を作成するアルゴリズムとして具体的な手法は特に限定しない。「テキスト自動要約に関する研究動向」(『自然言語処理』、Vol.6、No.6、1999)に記載されているような一般に知られている方法を採用すれば良い。例えば、文書中の各部分(文等)にスコアを付け、スコアの高い部分を選択することにより要約を作成することが可能である。
【0021】
104は表示用データ生成部で、検索結果の各文書について検索結果中に表示する要約を生成し、これを含めて検索結果として出力するデータを生成するものである。105は非表示箇所検出部で、検索結果中の各文書から要約中に表示しない箇所を検出するものである。106は非表示パターン保持部で、非表示箇所検出部105での検出に使用する非表示パターンの集合である非表示パターンテーブルを保持するものである。この非表示パターンテーブルには、図4に示すように非表示パターンの正規表現及び非表示パターンの種別が格納される。例えば、図4において、402は、「未読の人はご注意」、若しくは「未聴の人はご注意」、若しくは「未見の人はご注意」というパターンであることを表し、種別が「ネタバレ」であることを表している。
【0022】
尚、非表示パタンテーブルの構成は、この例に限定されない。
【0023】
再び、図1に戻って説明すると、107は表示用データ保持部で、表示用データ生成部104により生成した表示用データを保持するものである。
【0024】
図2は、本実施の形態に係る要約作成装置の具体的構成を示すブロック図である。
【0025】
図2において、201はCPU(中央演算処理装置)で、後述する手順を実現するプログラムに従って動作する。202はメモリで、検索結果保持部101、非表示パターン保持部106、表示用データ保持部107と上記プログラムの動作に必要な記憶領域とを提供する。203は制御メモリで、後述する手順を実現するプログラムを保持する。204は各構成要素を結合するバスである。
【0026】
次に、上記構成に成る本実施の形態に係る要約作成装置の動作を、図3のフローチャートに基づき説明する。
【0027】
図3において、まず、ステップS301で、検索結果保持部101内に未処理の文書が残っているか否かを判断する。そして、検索結果保持部101内に未処理の文書が残っていると判断された場合はステップS302へ進み、また、検索結果保持部101内に未処理の文書が残っていないと判断された場合は、何も処理せずに本処理動作を終了する。
【0028】
ステップS302では、検索結果保持部101から未処理の文書を一つ選び、これに対応するテキストを文書データベース102から取り出す。そして、このテキストが、非表示パターン保持部106に保持されている非表示パターンを含んでいるか否かを、非表示箇所検出部105により判断する。そして、非表示パターンを含んでいると判断された場合はステップS303へ進み、また、非表示パターンを含んでいないと判断された場合はステップS305へ進む。
【0029】
ステップS303では、非表示箇所検出部105において、非表示箇所、即ち、テキスト中で要約に出力しない箇所を検出する。非表示箇所の検出の方法は、特に限定しない。本実施の形態では、テキスト中で非表示パターンを含む文以降を全て非表示箇所として扱うが、この他に非表示パターンを含む文から特定のパターンが現れる文迄の間を非表示箇所とする、非表示パターンを含む文から章/節/項等の区切り迄を非表示箇所とする、非表示パターンから特定文字数分、若しくは特定文数分を非表示箇所とする、等の方法も可能である。
【0030】
ステップS304では、前記ステップS303において検出した非表示箇所をテキスト中から削除する。この際、テキスト中のどの位置から削除したかは記憶しておく。
【0031】
また、ステップS305では、要約処理部103においてテキストの要約を作成する。元のテキストが非表示パターンを含んでいる場合は、非表示箇所を削除した残りのテキストを、そうでない場合は、元のテキストについて要約を作成することになる。先に述べたように、要約を作成する具体的なアルゴリズムについては、本発明では限定しない。
【0032】
尚、作成した要約と元のテキストとでは、個々の文の対応がとれているものとする。
【0033】
次に、ステップS306で、元のテキストが非表示パターンを含んでいるか否かを判断する。そして、元のテキストが非表示パターンを含んでいると判断された場合は、ステップS307へ進む。また、元のテキストが非表示パターンを含んでいないと判断された場合は、前記ステップS305において作成した要約を表示用データ保持部107に保持した後、前記ステップS301へ戻り、上述した処理を繰り返す。
【0034】
ステップS307では、表示用データ生成部104において、前記ステップS305において作成した要約中で、元のテキストにおける非表示箇所に対応する箇所に、非表示箇所が存在することを示すマーカ、若しくは文字列を挿入する。要約と元のテキストとは対応がとれており、また、非表示箇所が元のテキスト中のどの場所にあったかは記憶しているため、要約中で非表示箇所に対応する箇所は容易に分る。また、挿入するマーカ、若しくは文字列は非表示パターンの種別に応じて設定するものとする。この後、ステップS301へ戻って、上記処理を繰り返す。
【0035】
以下、具体例に基づいて本実施の形態に係る要約作成装置について、具体例に基づいて詳細に説明する。
【0036】
非表示パターンテーブルが図4に示すもので、検索結果が図7に示すものである場合を例に説明する。このとき、図7における3番目の検索結果703に対応するテキストが図5に示すものとすると、図5における文506が図4における非表示パターン402にマッチする。従って、図5におけるテキスト中の文506以降の文を非表示箇所とし、非表示箇所を除いた文501〜505のテキストについて要約を作成する。更に、非表示パターン402は、種別が「ネタバレ」であるため、これを示す文字列として「***ネタバレ情報を含む可能性あり***」を非表示箇所に挿入する。最終的に検索結果は、図6のように表示される。図6において、603の部分は、要約が加工された箇所である。このように、図5のテキスト中で、一部の人にとって表示が望ましくない情報を検索結果中の要約において隠蔽することができる。
【0037】
(他の実施の形態)
上記一実施の形態においては、非表示箇所の検出は非表示パターンを設定し、これをパターンマッチングによってテキスト中から検索するという方法で実施したが、これ以外の方法によっても実施することができる。例えば、検索対象がHTML文書、XML文書等、マークアップ言語で記述された文書である場合は、非表示箇所を表現する特別のタグを用意し、文書の作成者が、このタグを用いて非表示箇所を設定するようにしても良い。システム側では、このタグによって非表示箇所を検出する。一般のテキストの場合にも、何らかのマーカを用意して非表示箇所を表現することが可能である。
【0038】
また、上記一実施の形態においては、非表示箇所を削除した上で要約作成処理を行ったが、表示用の要約を作成する方法はこの限りではない。また、非表示箇所を含めたテキストを要約処理部103に渡し、要約作成アルゴリズム側で非表示箇所を含めずに要約を作成することも可能である。また、要約処理部103に非表示箇所を含めたテキストを渡し、作成された要約テキストから表示用データ生成部104で非表示箇所に含まれる箇所を削除することも可能である。
【0039】
また、上記一実施の形態においては、表示用の要約生成を検索時に行ったが、事前に文書データベース102中の各文書について表示用の要約を生成して保持しておき、検索時には保持しておいた要約を表示するようにしても良い。
【0040】
また、上記一実施の形態においては、表示用の要約の生成を検索サーバ側で行ったが、検索結果中の各文書に検索クライアントからアクセスできるようにして、検索クライアント側で行っても良い。この場合、非表示パターンを検索クライアント側で設定することが可能であるから、利用者毎に細かな設定をすることも可能になる。
【0041】
また、上記一実施の形態においては、要約中で非表示箇所に該当する箇所にそれを示すマーカ、若しくは文字列を挿入したが、これを出力しないようにしても良い。
【0042】
また、上記一実施の形態においては、非表示パターンに合致するパターンを有するテキストについて非表示箇所を表示しない場合について説明したが、非表示箇所の表示/非表示を利用者が切り替える切替手段を更に設けて、表示の有無を利用者が設定できるようにしても良い。この場合において、表示することを設定した場合は、非表示箇所を削除せずに要約を作成する。
【0043】
また、上記一実施の形態においては、全ての利用者に対して同様の出力を行なう場合について説明したが、非表示パターンテーブルを数種類用意し、利用者に応じて表示しない内容を切り替えるようにしても良い。また、非表示パターンテーブルを利用者が選択できるようにしても良い。
【0044】
また、上記一実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、複数の計算機上で実現しても良い。
【0045】
また、上記一実施の形態においては、検索結果文書の要約作成について説明したが、これに限定されるものではなく、単に文書等の情報を要約する場合に適用しても良い。
【0046】
また、本発明は、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用しても良い。
【0047】
また、前述した一実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システム、或いは装置に供給し、そのシステム、或いは装置のコンピュータ(または、CPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
【0048】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施形態の機能を実現することになり、そのプログラムコード自体が前述した各実施形態の機能を実現することになり、そのプログラムコードから成る制御プログラムを格納した記憶媒体は本発明を構成することになる。
【0049】
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0050】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施形態の機能が実現される場合も含まれることは言うまでもない。
【0051】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部、または全部を行い、その処理によって前述した各実施形態の機能が実現される場合も含まれることは言うまでもない。
【0052】
以上では、本発明の様々な例と実施形態を説明したが、当業者であれば、本発明の趣旨と範囲は本明細書内の特定の説明と図に限定されるものではなく、本願特許請求の範囲に全て述べられた様々な修正と変更に及ぶことが可能であることは言うまでもない。
【0053】
本発明の実施態様の例を以下に列挙する。
【0054】
[実施態様1] テキストの非表示箇所を検出する非表示箇所検出手段と、
前記非表示箇所検出手段の検出結果に基づいてテキストの要約を作成する要約作成手段とを備えたことを特徴とする要約作成装置。
【0055】
[実施態様2] 前記要約中で非表示箇所に該当する箇所に非表示箇所であることを示す文字列、若しくはマーカを挿入する挿入手段を備えたことを特徴とする実施態様1に記載の要約作成装置。
【0056】
[実施態様3] 前記非表示箇所検出手段は、
非表示箇所を特徴付ける文字列パターンの集合を保持する文字列パターン集合保持手段と、
前記文字列パターンをテキスト中から検索する文字列パターン検索手段と、
前記文字列パターンを含む部分を非表示箇所として抽出する抽出手段と
から成ることを特徴とする実施態様1または2に記載の要約作成装置。
【0057】
[実施態様4] 非表示箇所を特徴付ける文字列パターンの集合を複数種類
保持する第2の文字列パターン集合保持手段と、
利用者に応じて、若しくは利用者の設定によって前記文字列パターンの集合
を切り替える文字列パターン集合切替手段とを備え、
要約中に表示しない内容を利用者毎に切り替えることができるようにしたことを特徴とする実施態様3に記載の要約作成装置。
【0058】
[実施態様5] 非表示箇所検出手段は、
前記テキスト中から非表示箇所を記述したタグやマーカを検出する検出手段と、
前記タグやマーカで記述された部分を非表示箇所として抽出する抽出手段と
から成ることを特徴とする実施態様1または2に記載の要約作成装置。
【0059】
[実施態様6] 非表示箇所の要約中への表示の有無を設定する表示有無設定手段を備え、
利用者が非表示箇所の表示の有無を切り替えることができるようにしたことを特徴とする実施態様1乃至5のいずれかに記載の要約作成装置。
【0060】
[実施態様7] テキストの非表示箇所を検出する非表示箇所検出工程と、
前記非表示箇所検出手段の検出結果に基づいてテキストの要約を作成する要約作成工程と、
を備えたことを特徴とする要約作成方法。
【0061】
[実施態様8] 前記要約中で非表示箇所に該当する箇所に非表示箇所であることを示す文字列、若しくはマーカを挿入する挿入工程を備えたことを特徴とする実施態様7に記載の要約作成方法。
【0062】
[実施態様9] 非表示箇所検出工程は、
非表示箇所を特徴付ける文字列パターンの集合を保持する文字列パターン集合保持工程と、
前記文字列パターンをテキスト中から検索する文字列パターン検索工程と、
前記文字列パターンを含む部分を非表示箇所として抽出する抽出工程と
から成ることを特徴とする請求項7または8に記載の要約作成方法。
【0063】
[実施態様10] 非表示箇所を特徴付ける文字列パターンの集合を複数種類保持する第2の文字列パターン集合保持工程と、
利用者に応じて、若しくは利用者の設定によって前記文字列パターンの集合を切り替える文字列パターン集合切替工程とを備え、
要約中に表示しない内容を利用者毎に切り替えることができるようにしたことを特徴とする実施態様9に記載の要約作成方法。
【0064】
[実施態様11] 非表示箇所検出工程は、
前記テキスト中から非表示箇所を記述したタグやマーカを検出する検出工程と、
前記タグやマーカで記述された部分を非表示箇所として抽出する抽出工程と
から成ることを特徴とする実施態様7または8に記載の要約作成方法。
【0065】
[実施態様12] 非表示箇所の要約中への表示の有無を設定する表示有無設定工程を備え、
利用者が非表示箇所の表示の有無を切り替えることができるようにしたことを特徴とする実施態様7乃至11のいずれかに記載の要約作成方法。
【0066】
[実施態様13] 実施態様7乃至12に記載の要約作成方法が備えている各工程をコンピュータに実行させるためのプログラムコードから成ることを特徴とする制御プログラム。
【0067】
[実施態様14] 実施態様13に記載の制御プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
【0068】
【発明の効果】
以上説明したように、本発明の要約作成装置によれば、文書等の情報のテキスト中の一部の箇所を検索結果の要約中に出力しないようにしたので、利用者が当面知ることを望まない可能性のある情報を含む文書等の情報を検索結果に出力しつつ、当該情報自体は隠蔽することができ、検索システムの利便性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る要約作成装置の基本構成を示すブロック図である。
【図2】本発明の一実施の形態に係る要約作成装置の具体的構成を示すブロック図である。
【図3】本発明の一実施の形態に係る要約作成装置の動作の流れを示すフローチャートである。
【図4】本発明の一実施の形態に係る要約作成装置における非表示パターンテーブルの一例を示す図である。
【図5】本発明の一実施の形態に係る要約作成装置におけるテキストの一例を示す図である。
【図6】本発明の一実施の形態に係る要約作成装置における検索結果の表示例を示す図である。
【図7】従来の検索システムにおける検索結果の表示例を示す図である。
【図8】従来の検索システムにおける検索結果の表示例を示す図である。
【符号の説明】
101 検索結果保持部
102 文書データベース
103 要約処理部
104 表示用データ生成部
105 非表示箇所検出部
106 非表示パターン保持部
107 表示用データ保持部
201 CPU
202 メモリ
203 制御メモリ
204 バス
Claims (1)
- テキストの非表示箇所を検出する非表示箇所検出手段と、
前記非表示箇所検出手段の検出結果に基づいてテキストの要約を作成する要約作成手段とを備えたことを特徴とする要約作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003103305A JP2004310461A (ja) | 2003-04-07 | 2003-04-07 | 要約作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003103305A JP2004310461A (ja) | 2003-04-07 | 2003-04-07 | 要約作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004310461A true JP2004310461A (ja) | 2004-11-04 |
Family
ID=33466487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003103305A Pending JP2004310461A (ja) | 2003-04-07 | 2003-04-07 | 要約作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004310461A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148847A (ja) * | 2005-11-29 | 2007-06-14 | Nec Corp | データ監視システムとデータ監視用Webサーバ、データ監視方法及びデータ監視プログラム |
JP2012194619A (ja) * | 2011-03-15 | 2012-10-11 | Nec Corp | 文書要約装置、方法、およびプログラム |
WO2014155207A1 (en) * | 2013-03-26 | 2014-10-02 | International Business Machines Corporation | Detect and automatically hide spoiler information in a collaborative environment |
JP2015001899A (ja) * | 2013-06-17 | 2015-01-05 | 株式会社Nttドコモ | コンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラム |
-
2003
- 2003-04-07 JP JP2003103305A patent/JP2004310461A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148847A (ja) * | 2005-11-29 | 2007-06-14 | Nec Corp | データ監視システムとデータ監視用Webサーバ、データ監視方法及びデータ監視プログラム |
JP2012194619A (ja) * | 2011-03-15 | 2012-10-11 | Nec Corp | 文書要約装置、方法、およびプログラム |
WO2014155207A1 (en) * | 2013-03-26 | 2014-10-02 | International Business Machines Corporation | Detect and automatically hide spoiler information in a collaborative environment |
JP2015001899A (ja) * | 2013-06-17 | 2015-01-05 | 株式会社Nttドコモ | コンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5963205A (en) | Automatic index creation for a word processor | |
US5708825A (en) | Automatic summary page creation and hyperlink generation | |
US6966030B2 (en) | Method, system and computer program product for implementing acronym assistance | |
JP4716612B2 (ja) | Html文書に表示されるデータオブジェクトのソースをリダイレクトする方法 | |
US7552398B2 (en) | Systems and methods for semantically zooming information | |
US6792475B1 (en) | System and method for facilitating the design of a website | |
JP2003516585A (ja) | 修正不可能な電子コンテンツ用の注釈を取り込みかつレンダリングするための方法および装置 | |
US7424669B2 (en) | Automatic bibliographical information within electronic documents | |
US20100268699A1 (en) | System and method for customization of search results | |
JPH08241332A (ja) | 全文登録語検索装置および方法 | |
JPH10154162A (ja) | ハイパーテキストマークアップ言語(html)ファイルに対するマルチメディアブックマークを提供するためのシステムおよび方法 | |
JPH04229364A (ja) | 強調特性変更方法及びシステム | |
JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
US20130124955A1 (en) | Representation of last viewed or last modified portion of a document | |
JPH02249023A (ja) | オンライン情報の表示方法 | |
JP2004054588A (ja) | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム | |
JP2004310461A (ja) | 要約作成装置 | |
JP2000099526A (ja) | 文書情報抽出装置 | |
JPH11219361A (ja) | 文書閲覧装置およびそのプログラムを格納した記憶媒体 | |
JPH11213008A (ja) | テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法 | |
JPH0778139A (ja) | コメント付与方法及び文書処理装置 | |
JP2004334382A (ja) | 構造化文書要約装置、プログラムおよび記録媒体 | |
JPH09305623A (ja) | 文書表示システム | |
Cook et al. | Foundation Html5 With Css3 | |
JP2005293243A (ja) | 文書処理装置 |