JP6840597B2 - 検索結果要約装置、プログラム及び方法 - Google Patents

検索結果要約装置、プログラム及び方法 Download PDF

Info

Publication number
JP6840597B2
JP6840597B2 JP2017069536A JP2017069536A JP6840597B2 JP 6840597 B2 JP6840597 B2 JP 6840597B2 JP 2017069536 A JP2017069536 A JP 2017069536A JP 2017069536 A JP2017069536 A JP 2017069536A JP 6840597 B2 JP6840597 B2 JP 6840597B2
Authority
JP
Japan
Prior art keywords
information
content
search result
important
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017069536A
Other languages
English (en)
Other versions
JP2018173681A (ja
Inventor
健一郎 廣戸
健一郎 廣戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2017069536A priority Critical patent/JP6840597B2/ja
Publication of JP2018173681A publication Critical patent/JP2018173681A/ja
Application granted granted Critical
Publication of JP6840597B2 publication Critical patent/JP6840597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネット等のネットワークを介してアクセスされ抽出される大量の検索結果に含まれるコンテンツを効率的に参照・閲覧等するための技術に関する。
インターネットの普及・拡大に伴い、様々な情報がインターネット等のネットワークを介して収集・参照・引用等されるようになっている。
インターネット上には、大量(無数)の情報、所謂コンテンツが、コンテンツサイト(WEBサイト)として機能する情報処理装置により提供・公開されており、インターネットに接続された端末・装置等を介して、任意のコンテンツにアクセスして種々の情報を閲覧・参照等することができる。
ここで、インターネット上に無数に存在するコンテンツの中から所望の情報を得ようとする場合には、一般に、検索エンジンサイトと呼ばれるコンテンツサイトが利用される。
ただ、検索エンジンサイトで得られる情報の検索結果は、検索キーワード等が含まれるコンテンツのタイトルやテキストの一部などが、一覧形式で羅列して出力・表示されるだけである。このため、個々のコンテンツの内容を参照するには、検索結果として一覧形式で表示されている各コンテンツサイトのインターネット上のリソース(資源)を特定するURL(Uniform Resource Locator)にリンクされたタイトルやサマリ等を一つずつ選択(クリック)して、該当するコンテンツサイトにアクセスする必要があり、操作や作業が煩瑣な面があった。
また、各コンテンツサイトで公開されているテキストや画像などの情報を引用して、例えば会議やプレゼンテーションなどに用いる資料等を作成しようとする場合、各コンテンツサイトにアクセスした上で、当該コンテンツで提供されているテキストや画像などを個別に選択して引用する必要がある。このため、特に大量の検索結果が抽出された場合には、有用な資料等を作成することは、極めて煩雑で負荷の大きい作業が要求されることになる。
このようなことから、インターネット検索において、簡易かつ効率的に複数のコンテンツの内容を閲覧・参照でき、必要に応じてコンテンツ内容を引用できるような技術が望まれていた。
ここで、インターネット検索における情報の閲覧や参照などの容易化や利便性の向上を目的として、これまで、例えば特許文献1,2に示されるような技術が提案されている。
特許文献1には、ユーザ単位でインターネット上の閲覧履歴情報を収集・分類して閲覧履歴のサマリを生成し、当該ユーザのユーザ端末に送信する技術が開示されている。
特許文献2には、検索エンジンで抽出された検索結果となる各コンテンツのURLにアクセスして、各コンテンツのHTMLドキュメント等を例えば10行未満のテキストに要約して検索結果の表示用レイアウトを作成し、ユーザにメール送信したりプリントアウトして出力する技術が開示されている。
特開2011−100350号公報 特開2001−297103号公報
しかしながら、特許文献1に開示されているのは、特定のユーザが過去に閲覧したコンテンツについて、その閲覧履歴の要約が作成されるというもので、複数のユーザで検索エンジンサイトを利用する場合や、これから新たに検索を行おうとする場合などには全く対応することができなかった。
また、特許文献2に開示されているのは、検索エンジンの検索結果として、該当するコンテンツに含まれるテキスト文などを数行に要約して表示・出力するというもので、これは検索エンジンの検索結果そのものであり、その結果がメール送信やプリントアウトされたとしても、上述したインターネット検索における課題を解決することにはならなかった。
このように、特許文献1,2を含めて、従来のインターネット検索技術では、検索結果として抽出された各コンテンツで公開されている具体的な内容は、各コンテンツサイトにアクセスして一つ一つ個々に確認・参照等する必要があり、したがって、例えば各コンテンツに含まれるテキストや画像などの情報を引用した資料等を作成するには、各コンテンツサイトに一つ一つアクセスした上でテキストや画像などの読み込み・引用等の作業が必要であった。
このため、例えば大量に検索・抽出されたコンテンツの内容を、機械的・一括的にまとめて全体の概念整理や把握のために有効な資料等を作成する、というようなことを実現することはできなかった。
本発明は、以上のような従来の技術が有する課題を解決するために提案されたものであり、インターネット検索の検索結果に含まれる各コンテンツの内容を自動的に抽出・要約するとともに、当該要約結果を所定のソフトウェアに入力して要約情報として生成・出力することにより、複数のコンテンツの内容を容易かつ迅速に把握できるとともに、要約情報を情報参照用の資料等としてそのまま活用することが可能となる、特にインターネット検索の結果をプレゼンテーション用の資料などに利用する場合に好適な、検索結果要約装置とそれに用いられるプログラム及び方法の提供を目的とする。
上記目的を達成するため、本発明の検索結果要約装置は、ユーザ端末から送信される検索要求情報に対して検索サーバで生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する情報処理装置であって、前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手段と、前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手段と、アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手段と、抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手段と、前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手段と、を備え、前記重要情報抽出手段が、前記コンテンツ情報に含まれるテキスト情報及び画像情報の中から、前記重要情報を抽出し、前記要約情報生成手段が、前記要約情報として、抽出された前記テキスト情報及び画像情報を、所定のプレゼンテーション用ソフトウェアに入力して、コンテンツサイト毎に2ページ1ファイルのスライド情報にするとともに、それらを結合して一つの送信用ファイルを生成し、前記スライド情報は、1ページ目を、当該コンテンツ情報のタイトルと、前記重要情報として抽出されたテキスト情報及び画像情報と、当該コンテンツ情報を特定する情報を表示した所定の要約ページとし、2ページ目を、当該コンテンツ情報に含まれるテキスト情報を全て表示した所定の全文ページとした情報からなる構成としてある。
また、本発明は、上記のような本発明に検索結果要約装置で実行される検索結果要約装置プログラムとして構成することができる。
さらに、本発明は、上記のような本発明に係る検索結果要約装置及びプログラムによって実施可能な検索結果要約装置方法として構成することもできる。
本発明によれば、インターネット検索の検索結果に含まれる各コンテンツの内容を自動的に抽出・要約することができ、また、その要約結果を所定のソフトウェアに入力して要約情報として生成・出力することができる。
これにより、複数のコンテンツの内容を容易かつ迅速に把握することができ、また、要約情報を情報参照用の資料等としてそのまま活用することも可能となる。
したがって、例えばインターネット検索の結果をプレゼンテーション用の資料などに利用する場合にも、検索結果を簡易かつ効率よく、閲覧・参照・発表などに用いる有用な資料等として活用することができるようになる。
本発明の一実施形態に係る検索結果要約装置を備えたシステムの全体構成を模式的に示す説明図である。 本発明の一実施形態に係る検索結果要約装置を備えたシステムにおける各装置の構成を示す機能ブロック図である。 本発明の一実施形態に係る検索結果要約装置を備えたシステムにおける処理動作を示すフローチャートである。 本発明の一実施形態に係る検索結果要約装置を備えたシステムで生成・出力される画面イメージであり、ユーザ端末に表示される検索結果情報の一例を示している。 本発明の一実施形態に係る検索結果要約装置を備えたシステムで生成・出力される画面イメージであり、図4に示す検索結果情報に対応する要約情報がダウンロードされたときの画面を示している。 本発明の一実施形態に係る検索結果要約装置を備えたシステムで生成・出力される画面イメージであり、展開された要約情報のいずれかが選択されて表示されたときの画面を示している。 本発明の一実施形態に係る検索結果要約装置を備えたシステムで生成・出力される画面イメージであり、展開された全ての要約情報が一覧形式で表示されたときの画面を示している。 本発明の一実施形態に係る検索結果要約装置を備えたシステムで生成・出力される画面イメージであり、(a)は外国語(英語)版の要約情報が生成され表示されたときの画面を、(b)は(a)の要約情報の日本語訳が生成・表示されたときの画面を示している。 本発明の他の実施形態に係る検索結果要約装置を備えたシステムにおける各装置の構成を示すブロック図である。
以下、本発明に係る検索結果要約装置の実施形態について、図面を参照しつつ説明する。
ここで、以下に示す本発明の検索結果要約装置は、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示す本発明に係る所定の処理や機能等を行わせることができる。すなわち、本発明における各処理や手段,機能は、プログラムとコンピュータとが協働した具体的手段によって実現される。
なお、プログラムの全部又は一部は、例えば、磁気ディスク,光ディスク,半導体メモリ,その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。また、本発明に係る検索結果要約装置は、単一の情報処理装置(例えば一台のパーソナルコンピュータ等)で構成することもでき、複数の情報処理装置(例えば複数台のサーバコンピュータ群等)で構成することもできる。
[システム構成]
図1に、本発明の一実施形態に係る検索結果要約サーバ10を備えた検索結果要約システム1の構成を模式的に示す。
また、図2に、図1に示す検索結果要約システム1における各装置の機能構成を示す。
これらの図に示すように、本発明の一実施形態に係る検索結果要約システム1は、検索結果要約サーバ10と、一又は二以上のユーザ端末20(20a〜20n)と、検索サーバ30と、一又は二以上のコンテンツサイトサーバ40(40a〜40n)とを備えて構成されている。
そして、これら検索結果要約サーバ10・ユーザ端末20・検索サーバ30・コンテンツサイトサーバ40は、LAN・WAN等を含むインターネット100を介して接続され、それぞれ相互にネットワーク通信が可能となっている。
[検索結果要約サーバ]
検索結果要約サーバ10は、インターネット100を介して、ユーザ端末20から送信される検索要求情報に対して検索サーバ30で生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する情報処理装置であり、本発明の検索結果要約装置を構成している。
この検索結果要約サーバ10は、例えば、1又は2以上のサーバコンピュータやパーソナルコンピュータ、クラウドコンピューティングサービス上に構築された1又は2以上の仮想サーバからなるサーバシステム等、所定のプログラム(ソフトウェア)が実装された情報処理装置によって構成することができる。
そして、本実施形態に係る検索結果要約サーバ10は、図2に示すように、検索結果要約サーバ10は、URLリスト受信部11、URLサイトアクセス部12、コンテンツ情報抽出部13、重要情報抽出部14、要約情報生成部15、要約情報送信部16の各部として機能するように構成される。
URLリスト受信部11は、検索サーバ30で生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する手段であり、本発明に係る識別情報受信手段を構成している。
具体的には、URLリスト受信部11は、ユーザ端末20において抽出され送信されてくる、検索サーバ30の検索結果情報に含まれる一又は二以上のコンテンツ情報を特定する識別情報となる一又は二以上のURL(URLリスト)を受信する。
URLサイトアクセス部12は、URLリスト受信部11で受信される識別情報(URLリスト)に基づいて、対応するコンテンツサイトサーバ40のコンテンツ情報にアクセスする手段であり、本発明に係るコンテンツ情報アクセス手段を構成している。
具体的には、URLサイトアクセス部12は、ユーザ端末20から送信されるURLリストに示される複数のコンテンツサイトに対応した複数のURLにそれぞれアクセスを実行する。
これにより、検索サーバ30で検索された複数のコンテンツサイトについて、ユーザ端末20に代わって検索結果要約サーバ10がアクセスすることで、各コンテンツサイトで提供されるコンテンツ情報が、検索結果要約サーバ10において一括して自動的に取得されることになる。
コンテンツ情報抽出部13は、URLサイトアクセス部12によりアクセスされたコンテンツサイトで提供されているコンテンツ情報に含まれるテキスト情報や画像情報などのコンテンツを構成する所定の情報・データを抽出する手段である。
具体的には、コンテンツ情報抽出部13は、コンテンツ情報に含まれる各種の情報・データのうち、「タイトル」を示すテキストデータと、「本文」に含まれるテキストデータ及び画像データを、各コンテンツサイト毎のコンテンツ情報として識別・抽出する。
これによって、各コンテンツサイトで提供されるコンテンツ情報に含まれる「タイトル」及び「本文」以外の情報、例えば宣伝広告などを示す情報・データを、重要情報として抽出すべきコンテンツ情報から除外することができるようになる。
なお、このようなコンテンツ情報からの「タイトル」及び「本文」の抽出は、コンテンツ情報を構成するHTMLデータに含まれるタグ(識別子)に基づいて行うことができる。
例えば、「タイトル」については「<title>〜</title>」のタグで区分されたデータを、また「本文」については「<body>〜</body>」のタグで区分されたデータを抽出した上で、記述されているテキストの長さやタグ情報等に基づき本文分を推定することができる。
重要情報抽出部14は、コンテンツ情報抽出部13により抽出されたコンテンツ情報となる本文データから、所定の重要情報を抽出する手段であり、本発明に係る重要情報抽出手段を構成している。
具体的には、重要情報抽出部14は、本文データに含まれるテキスト情報及び画像情報の中から、重要情報として、所定数のセンテンスと画像を、重要文・重要画像として抽出する。本実施形態では、3つのセンテンスと、本文データ中に含まれる全ての画像を、重要情報として抽出するようになっている(図6参照)。
なお、抽出するセンテンス及び画像の数は、特に限定されるものではなく、例えば2つ以下や4つ以上のセンテンスや、所定数の画像のみを、重要情報として抽出することは勿論可能である。また、本文データ中に含まれるセンテンスが3つ以下であれば、全てのセンテンスが重要文として抽出され、また、本文データ中に画像が含まれない場合には、重要画像は抽出されない。
また、重要情報抽出部14による重要情報抽出は、日本語だけでなく他の言語、例えば英語等の外国語であっても可能である(図8(a)参照)。
また、外国語で抽出・生成された重要文を日本語に翻訳することもできる(図8(b)参照)。
なお、外国語の日本語への翻訳は、例えばインターネット上で提供されている翻訳機能を用いることで実現することができる。
ここで、重要情報抽出部14による重要情報の抽出処理は、既存の重要文抽出処理技術を用いて実行される。
例えば、本文データに含まれるテキストを形態素解析して、句読点を含む文節に分解してセンテンス単位に分割・抽出して、各センテンスにおける特定の語やキーワードの出現頻度や位置、類似度などに基づいて、各センテンスに特徴ベクトルを付与し、より異なる複数方向(例えば3方向)の特徴ベクトルが付与された複数のセンテンス(例えば3センテンス)を、重要文として抽出することができる。
また、抽出された複数の重要文センテンスに対して、最も近い位置に配置された画像や、最もデータ容量が大きい画像を、そのコンテンツの主要画像と推定することができ、その画像を重要画像として抽出することができる。
なお、「重要文抽出」は、文書から重要な情報を持った文を抽出するための既存の技術であり、上述した手法は既存の重要文抽出処理技術の一例である。本実施形態では、任意の重要文抽出処理技術を用いて、重要情報抽出部14による処理を実行することができる。
また、「形態素解析」は、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)に分割する、コンピュータによる自然言語処理技術である。このような形態素解析についても、公知の技術を用いることができる。
本実施形態では、検索結果要約サーバ10が、形態素解析を含む重要文抽出処理の機能を備えたサーバコンピュータ等により構成されることで実現できるものである。
要約情報生成部15は、重要情報抽出部14により抽出された重要情報を、所定の要約情報として生成する手段であり、本発明の要約情報生成手段を構成している。
具体的には、要約情報生成部15は、重要情報抽出部14により重要情報として抽出されたテキスト情報及び画像情報を、所定のプレゼンテーション用ソフトウェアに入力して、コンテンツサイト毎のスライド形式の情報として生成する。
また、要約情報生成部15は、コンテンツサイト毎に生成した要約情報を、複数のコンテンツサイトの要約情報を示す一覧形式の情報として生成することができる。
このように要約情報として生成されるスライド形式や一覧形式の情報は、使用するプレゼンテーション用ソフトウェアの機能として実現することができる。
ここで、プレゼンテーション用ソフトウェア(プレゼンテーションソフトウェア)とは、スライド形式で情報を表示するためのソフトウェア(アプリケーション)で、文字情報を編集・配置する機能や、画像情報を編集・配置する機能、スライドショーを含む内容表示機能などを備えるものであり、例えば、Microsoft社の「PowerPoin」(登録商標)などが知られている。
この種のプレゼンテーション用ソフトウェアは、任意の情報をスライド形式のファイル情報として生成・出力することができ、また、複数のスライド形式の情報を一覧形式にして出力することができ、必要な情報を、見やすく・分かりやすく・使いやすくまとめることができることから、打合せや会議、講演、授業、説明会などの参照資料として広く活用されている。
そこで、本実施形態では、要約情報生成部15で生成される要約情報を、プレゼンテーション用ソフトウェアを用いて生成することで、検索結果に対応するコンテンツ情報を、コンテンツサイト単位のスライド形式や一覧形式のファイル情報として生成・出力することができ、閲覧・参照用の資料として利用できるとともに、そのまま会議や講演等のプレゼンテーション用の資料としても活用できるようにしている。
具体的には、本実施形態では、各コンテンツサイト毎にスライド2ページのファイルで構成される要約情報を生成するようにし、1ページ目は、当該コンテンツの「タイトル」と、重要情報として抽出された「本文」中の重要文及び重要画像と、当該コンテンツサイト(引用元)のURLを、所定のレイアウトで配置(貼り付け)して表示した「サマリーページ」とし、2ページ目は、「本文」に含まれるテキストデータを全て配置(貼り付け)して表示した「全文ページ」として生成するようになっている(図6参照)。
このようなコンテンツサイト毎に2ページ1ファイルのスライド形式の要約情報とすることで、1ページ目のサマリーページによりそのコンテンツサイトの概要やポイントなどを把握・理解させることができ、また、2ページ目の全文ページにより、詳細な内容等を確認させることできるようになり、さらに、必要に応じて引用元である当該コンテンツサイト自体へのアクセスも可能となり、有用な要約情報として提供することができるようになる。
さらに、上記のようにコンテンツサイト単位で2ページ1ファイルに生成されたスライド形式のデータを、複数のコンテンツサイトの全データを一覧形式の情報として生成することができる(図7参照)。これによって、複数のコンテンツサイトの一覧の中から、所望のコンテンツサイトを選択して、上述した要約情報を参照させたり、当該コンテンツサイト自体へのアクセスを行わせることができるようになり、より利便性の高い情報の提供が可能となる。
なお、以上のように要約情報を2ページ1ファイルのスライド形式で生成するのは、あくまでも一例であり、他の形態・形式で生成することも勿論可能である。
また、要約情報の生成に用いるプレゼンテーション用ソフトウェアとしては、既存の利用可能なソフトウェアであればよく、特定のプレゼンテーション用ソフトウェアに限定さるものではない。
さらに、プレゼンテーション用ソフトウェアのみに限らず、本実施形態に係る要約情報として生成・出力できるものであれば、例えば、文書作成用ソフトウェア(ワープロソフト)、表計算用ソフトウェア(表計算ソフト)、図面作成用ソフトウェア(作図ソフト)など、他の用途・機能のソフトウェアを用いることもできる。
要約情報送信部16は、要約情報生成部15で生成されたコンテンツ情報に対応する一又は二以上の要約情報を、該当するユーザ端末20に送信する手段であり、本発明の要約情報送信手段を構成する。
具体的には、要約情報送信部16は、上述したプレゼンテーション用ソフトウェアのファイル形式(スライド形式・一覧形式)で生成された要約情報を、一つの送信用ファイルデータとして結合・圧縮して、検索結果の送信元となるユーザ端末20にダウンロードデータとして送信するようになっている(図5参照)。
ここで、要約情報送信部16による送信用データの結合・圧縮処理は、例えばZIP形式によるファイル圧縮フォーマットなど、既存のデータ圧縮技術等を用いることで実現できる。
このようなファイルの結合・圧縮処理を行うことで、ユーザ端末20に送信するデータ容量をできる限り少なくすることができ、ネットワーク負荷やユーザ端末20での処理負担を減らすことができるとともに、複数のコンテンツサイトに対応した複数の要約情報を、単一の圧縮ファイルとして処理することができ、ユーザ端末20における取り扱いを容易化することができるようになる。
なお、要約情報送信部16における要約情報の結合・圧縮処理は、必ずしも必須であるものではなく、例えば要約情報の数やデータ容量によっては、要約情報送信部16は、データを結合・圧縮することなく、そのままユーザ端末20に送信することもできる。
以上のような本実施形態に係る検索結果要約サーバ10で実現される各手段の具体的な機能・動作については、ユーザ端末20に出力・表示される表示画面例も参照しつつ後述する(図3〜9参照)。
[ユーザ端末]
ユーザ端末20(20a〜20n)は、インターネットの閲覧・検索等が可能なWEBブラウザ21が実装された、例えばPC、タブレット端末、スマートフォン等で構成される情報処理装置であり、インターネット100を介して、検索結果要約サーバ10や検索サーバ30・コンテンツサイトサーバ40に接続可能なウェブクライアントとして機能する、本発明に係るユーザ端末を構成している。
各ユーザ端末20は、WEBブラウザ21を介して所望のキーワード等を入力した検索要求を検索サーバ30に送信することができ、検索サーバ30で生成された検索結果を受信できるようになっている。
ここで、WEBブラウザ21は、インターネット100を介して提供されるコンテンツサイト(WEBサイト・WEBページ)を、表示手段(ディスプレイ等)に表示したり、出力手段(プリンタ等)で出力・印刷したり、データとして保存・加工・編集したり、WEBページに含まれるハイパーリンクをたどる等の機能を備えたソフトウェアであり、例えば、Google社の「Chrome」(登録商標)や、Microsoft社の「InternetExplorer」(登録商標)などが知られている。
このようなWEBブラウザ21により、検索サーバ30で提供される検索サイト(検索エンジン)を表示し、任意のキーワード等を入力して検索要求情報を検索サーバ30に送信することができ、その検索要求に対する検索結果情報を検索サーバ30から受信できるようなっている。
そして、本実施形態では、各ユーザ端末20のWEBブラウザ21が、検索サーバ30で生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を抽出するURLリスト抽出部22として機能するように構成されている(図2参照)。このURLリスト抽出部22が、本発明に係る識別情報抽出手段を構成する。
具体的には、WEBブラウザ21は、検索サーバ30から検索結果情報を受信すると、その検索結果に含まれる各コンテンツサイトのURLを抽出して、一又は二以上のURLを列挙・羅列したURLリストを生成する。
検索サーバ30から送信される検索結果情報は、例えば検索キーワード等が含まれるコンテンツサイトのタイトルや内容の抜粋等とともに、各コンテンツサイトのインターネット上のリソース(資源)を特定するURLが含まれている(図4参照)。
本実施形態に係るWEBブラウザ21では、そのような検索結果に含まれるURLのみを抽出して抜き出し、一又は二以上のURLを列挙したURLリストとして生成できるようになっている。
URLは、例えば「http」等の特定のスキーム名を含む所定形式の文字列によって構成されており、WEBブラウザ21では、そのような特定の文字列を識別することで、検索結果情報からURLのみを抽出することができるようになっている。
なお、このようなURLの抽出処理は、WEBブラウザ21に実装された機能として、あるいは、WEBブラウザ21の拡張機能を用いて実装可能な機能として実現することができる。
そして、このようにWEBブラウザ21で抽出・生成された検索結果のURLリスト情報が、検索結果要約サーバ10に送信されてURLリスト受信部11で受信され、上述したように、URLリストに対応するコンテンツサイトへのアクセスと、アクセス結果に基づく要約情報の生成処理が実行されるようになる。
[検索サーバ]
検索サーバ30は、通信網となるインターネット100を介して、ユーザ端末20に対して検索エンジンサイトを利用可能に提供する情報処理装置であり、例えば検索エンジンサイトを含むコンテンツサイトを提供するサービス提供事業者等が管理・運営するPCやサーバ群等によって構成される。
検索サーバ30が提供する検索エンジンサイトは、インターネット経由でアクセス可能な様な情報(コンテンツ)を検索する機能及びそのプログラムであり、例えば、「Google」や「Yahoo」,「BING」(いずれも登録商標)などの検索エンジンサイトが知られている。
そして、このような検索サーバ30が、本発明に係る検索サーバを構成している。
具体的には、検索サーバ30は、提供する検索エンジンサイトを介してユーザ端末20から送信される検索要求情報を受信すると、その検索要求に基づく検索処理を実行し、その検索結果を示す検索結果情報を、検索要求の送信元となるユーザ端末20に送信する。
この検索サーバ30から送信される検索結果に基づいて、ユーザ端末20におけるURLリストの生成と、検索結果要約サーバ10における要約情報の生成が実行されることになる。
なお、図1では、一つの検索サーバ30のみが示してあるが、これは図示・説明の便宜上であり、本実施形態において、複数の検索サーバ30を備えることができることは言うまでもない。
[コンテンツサイトサーバ]
コンテンツサイトサーバ40(40a〜40n)は、通信網となるインターネット100を介して、ユーザ端末20に対してコンテンツサイト(WEBサイト)などを提供する情報処理装置であり、例えばコンテンツサイト等を提供するサービス提供事業者等のデータセンタやオフィスなどに設置されるPCやサーバ群等によって構成される。
本実施形態では、図2に示すように、各コンテンツサイトサーバ40a,40b・・・40nが、それぞれ独自の情報等を提供するコンテンツサイトA,コンテンツサイトB・・・コンテンツサイトNを管理・運営している。
このコンテンツサイトサーバ40が、本発明に係るコンテンツ情報を提供する手段を構成している。
[動作]
次に、以上のような構成からなる本実施形態に係る検索結果要約サーバ10を備える検索結果要約システム1の具体的な処理・動作(検索結果要約方法)について、図3〜9を参照しつつ説明する。
図3は、本実施形態に係る検索結果要約システム1における処理動作を示すフローチャートである。
まず、前提として、インターネット検索を行おうとするユーザは、ユーザ端末20を操作して、検索サーバ30が提供する検索エンジンサイトにアクセスし、任意の検索要求を行い、検索結果を受信する。
検索エンジンサイトから送信される検索結果は、図4に示すように、例えば検索キーワード(「人工知能」)が含まれるコンテンツサイトのタイトルや内容の抜粋等とともに、各コンテンツサイトのURLが含まれている。ユーザ端末20のWEBブラウザ21では、URLリスト抽出部22により、検索結果に含まれるURLが抽出され(ステップ01)、複数のURLが列挙されたURLリストが生成される。
生成されたURLリストは、インターネット100を介して検索結果要約サーバ10に送信される(ステップ02)。
ユーザ端末20からURLリストを送信された検索結果要約サーバ10では、URLリスト受信部11によりURLリストが受信され、URLサイトアクセス部12により、URLリストに示されるURLに基づいて、対応する複数の各コンテンツサイト(コンテンツサイトサーバ40)に対するアクセスが実行される(ステップ03)。
アクセスされた各コンテンツサイトからは、コンテンツ情報抽出部13により、当該コンテンツサイトで提供されているコンテンツ情報に含まれる「タイトル」及び「本文」のテキスト情報・画像情報が抽出される(ステップ04)。
そして、抽出された「本文」データに基づいて、重要情報抽出部14により、「本文」に含まれる重要文と重要画像が抽出される(ステップ05)。
本実施形態では、本文データに含まれるテキスト情報及び画像情報の中から、3つのセンテンスと、本文データ中に含まれる全画像が、重要文・重要画像として抽出される(図6参照)。
重要文・重要画像が抽出されると、要約情報生成部15により、プレゼンテーション用ソフトウェアを用いて要約情報が生成される(ステップ06)。
具体的には、要約情報生成部15は、コンテンツサイト毎に、プレゼンテーション用ソフトウェアのスライド2ページのファイルを生成し、1ページ目に、コンテンツの「タイトル」・「本文」中の重要文及び重要画像・引用元(コンテンツサイト)のURLを配置(貼り付け)した「サマリーページ」を、2ページ目に、「本文」の全テキストを配置(貼り付け)した「全文ページ」を生成する(図6参照)。
また、要約情報生成部15は、コンテンツサイト単位で2ページ1ファイルに生成されたスライド形式のデータを、複数のコンテンツサイトの全データを一覧形式の情報として生成することができる(図7参照)。
生成された要約情報は、要約情報送信部16により、プレゼンテーション用ソフトウェアのファイル形式(スライド形式・一覧形式)で生成された要約情報が一つの送信用ファイルデータとして結合・圧縮され、検索結果の送信元となるユーザ端末20に送信される(ステップ07)。
これにより、ユーザ端末20では、送信されたダウンロードデータを受信して(図5参照)、WEBブラウザ21により結合・圧縮されたデータを解凍・展開することにより、プレゼンテーション用ソフトウェアのファイル形式(スライド形式・一覧形式)で生成された要約情報が利用可能となり、必要な要約情報をWEBブラウザ21に出力・表示・編集等することができるようになる(ステップ08)。
以上説明したように、本実施形態に係る検索結果要約サーバ10を備えた検索結果要約システム1によれば、検索結果要約サーバ10により、ユーザ端末20から要求された検索結果に含まれる各コンテンツの内容が、重要文・重要画像を含む所定の要約情報として自動的に生成され、しかも、その要約情報がプレゼンテーション用ソフトウェアのファイルとして出力され、ユーザ端末20において利用可能に提供される。
特に、本実施形態では、要約情報が、コンテンツサイト毎に2ページ1ファイルのスライド形式で生成され、1ページ目には当該コンテンツサイトのサマリーページが、2ページ目にはコンテンツの全文ページが提供されるようになっており、検索結果に多数のコンテンツサイトが含まれていても、各コンテンツの内容を容易かつ迅速に把握することができるようになる。
また、要約情報がプレゼンテーション用ソフトウェアによりコンテンツサイト単位のスライド形式で生成・出力されることで、要約情報は、複数のコンテンツサイトの閲覧・参照用の資料として利用できるとともに、そのまま会議や講演等のプレゼンテーション用の資料としても活用することができる。
これにより、インターネット検索の結果をプレゼンテーション用の資料などに利用したい場合にも、迅速かつ効率よく、閲覧・参照・発表などの資料として用いることができるようになる。
以上、本発明について、好ましい実施形態を示して説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、上述した実施形態では、ユーザ端末20にWEBブラウザ21が、検索エンジンサイトの検索結果に含まれるURLを抜き出してURLリストを生成するURLリスト抽出部22(識別情報抽出手段)を構成するようになっており(図2参照)、そのURLリストが検索結果要約サーバ10で受信されるようになっていた。
しかしながら、検索結果に含まれるURLを抽出して検索結果要約サーバ10で受信できるようにする構成としては、URLリスト抽出部22に対応する構成・機能を、検索結果要約サーバ10に持たせることもできる。
具体的には、図9に示すように、検索結果要約サーバ10のURLリスト受信部11が、上述したWEBブラウザ21のURLリスト抽出部22と同様に、検索サーバ30で生成された検索結果情報に含まれる一又は二以上のコンテンツ情報を特定する識別情報(URL)を抽出(受信)する、本発明に係る識別情報抽出手段として機能・構成することができる。
この場合には、図9に示すように、ユーザ端末20(WEBブラウザ21)は、検索要求を検索結果要約サーバ10に送信し、検索結果要約サーバ10のURLリスト受信部(URLリスト抽出部)11が、その検索要求を検索サーバ30に送信し、検査結果を受信する。
そして、検索結果を受信したURLリスト受信部11は、検索結果に含まれるURLを抽出して、URLサイトアクセス部12に出力して、上記実施形態と同様の要約情報の生成処理を実行することができる。
このような構成によれば、ユーザ端末20(WEBブラウザ21)は、任意の検索要求を検索結果要約サーバ10に送信するだけで、検索結果に基づく要約情報を取得することができ、ユーザが要約情報をより簡易に取得することが可能となり、また、WEBブラウザ21にURLリスト抽出部22としての機能・構成を備える必要がなくなり、ユーザ端末20(WEBブラウザ21)の汎用性を高めることができるようになる。
本発明は、例えばパーソナルコンピュータやスマートフォン等を介してインターネット検索を行うユーザ向けに、検索結果の要約情報を提供するサービスや社内システムなどに好適に利用可能である。
1 検索結果要約システム
10 検索結果要約サーバ
11 URLリスト受信部
12 URLサイトアクセス部
13 コンテンツ情報抽出部
14 重要情報抽出部
15 要約情報生成部
16 要約情報送信部
20 ユーザ端末
22 URLリスト抽出部
30 検索サーバ
40 コンテンツサイトサーバ

Claims (4)

  1. ユーザ端末から送信される検索要求情報に対して検索サーバで生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する情報処理装置であって、
    前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手段と、
    前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手段と、
    アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手段と、
    抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手段と、
    前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手段と、を備え
    前記重要情報抽出手段が、
    前記コンテンツ情報に含まれるテキスト情報及び画像情報の中から、前記重要情報を抽出し、
    前記要約情報生成手段が、
    前記要約情報として、
    抽出された前記テキスト情報及び画像情報を、所定のプレゼンテーション用ソフトウェアに入力して、コンテンツサイト毎に2ページ1ファイルのスライド情報にするとともに、それらを結合して一つの送信用ファイルを生成し、
    前記スライド情報は、1ページ目を、当該コンテンツ情報のタイトルと、前記重要情報として抽出されたテキスト情報及び画像情報と、当該コンテンツ情報を特定する情報を表示した所定の要約ページとし、2ページ目を、当該コンテンツ情報に含まれるテキスト情報を全て表示した所定の全文ページとした情報からなる
    ことを特徴とする検索結果要約装置。
  2. 前記ユーザ端末が、
    前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を抽出する識別情報抽出手段を備え、
    前記識別情報受信手段が、
    前記ユーザ端末で抽出された前記識別情報を当該ユーザ端末から受信する
    ことを特徴とする請求項1記載の検索結果要約装置。
  3. ユーザ端末から送信される検索要求情報に対して検索サーバで生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する情報処理装置を構成するコンピュータを、
    前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手段、
    前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手段、
    アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手段と、
    抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手段、
    前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手段、として機能させ
    前記重要情報抽出手段に、
    前記コンテンツ情報に含まれるテキスト情報及び画像情報の中から、前記重要情報を抽出させ、
    前記要約情報生成手段に、
    前記要約情報として、
    抽出された前記テキスト情報及び画像情報を、所定のプレゼンテーション用ソフトウェアに入力して、コンテンツサイト毎に2ページ1ファイルのスライド情報にするとともに、それらを結合して一つの送信用ファイルを生成させ、
    前記スライド情報は、1ページ目を、当該コンテンツ情報のタイトルと、前記重要情報として抽出されたテキスト情報及び画像情報と、当該コンテンツ情報を特定する情報を表示した所定の要約ページとし、2ページ目を、当該コンテンツ情報に含まれるテキスト情報を全て表示した所定の全文ページとした情報からなる
    ことを特徴とする検索結果要約プログラム。
  4. プログラムされたコンピュータによって、ユーザ端末から送信される検索要求情報に対して検索サーバで生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する方法であって、
    コンピュータが、
    前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手順、
    前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手順、
    アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手順と、
    抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手順、
    前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手順、とを実行し、
    前記重要情報抽出手順が、
    前記コンテンツ情報に含まれるテキスト情報及び画像情報の中から、前記重要情報を抽出し、
    前記要約情報生成手順が、
    前記要約情報として、
    抽出された前記テキスト情報及び画像情報を、所定のプレゼンテーション用ソフトウェアに入力して、コンテンツサイト毎に2ページ1ファイルのスライド情報にするとともに、それらを結合して一つの送信用ファイルを生成し、
    前記スライド情報は、1ページ目を、当該コンテンツ情報のタイトルと、前記重要情報として抽出されたテキスト情報及び画像情報と、当該コンテンツ情報を特定する情報を表示した所定の要約ページとし、2ページ目を、当該コンテンツ情報に含まれるテキスト情報を全て表示した所定の全文ページとした情報からなる
    ことを特徴とする検索結果要約方法。
JP2017069536A 2017-03-31 2017-03-31 検索結果要約装置、プログラム及び方法 Active JP6840597B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017069536A JP6840597B2 (ja) 2017-03-31 2017-03-31 検索結果要約装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017069536A JP6840597B2 (ja) 2017-03-31 2017-03-31 検索結果要約装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2018173681A JP2018173681A (ja) 2018-11-08
JP6840597B2 true JP6840597B2 (ja) 2021-03-10

Family

ID=64106568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017069536A Active JP6840597B2 (ja) 2017-03-31 2017-03-31 検索結果要約装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6840597B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020106988A (ja) * 2018-12-26 2020-07-09 Jcc株式会社 公開情報の配信告知方法、サーバ装置、公開情報の配信告知システム
JP7171480B2 (ja) * 2019-03-20 2022-11-15 株式会社野村総合研究所 プレゼンテーションデータ作成支援システム
JP7317198B1 (ja) 2022-12-28 2023-07-28 真太郎 上田 情報検索装置
JP7356612B1 (ja) * 2023-03-31 2023-10-04 住友化学株式会社 コンピュータプログラム、情報処理方法及び情報処理装置

Also Published As

Publication number Publication date
JP2018173681A (ja) 2018-11-08

Similar Documents

Publication Publication Date Title
Soratto et al. Thematic content analysis using ATLAS. ti software: Potentialities for researchs in health
KR101120301B1 (ko) 지속 저장 포탈
US9135341B2 (en) Method and arrangement for paginating and previewing XHTML/HTML formatted information content
JP6840597B2 (ja) 検索結果要約装置、プログラム及び方法
US20150033116A1 (en) Systems, Methods, and Media for Generating Structured Documents
US20050182755A1 (en) Systems and methods for analyzing documents over a network
US20050232484A1 (en) Image processing device, image processing method, and storage medium storing program therefor
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US8458187B2 (en) Methods and systems for visualizing topic location in a document redundancy graph
WO2004097675A1 (en) Digital library system
JP5103051B2 (ja) 情報処理システム及び情報処理方法
US20120046937A1 (en) Semantic classification of variable data campaign information
US8904272B2 (en) Method of multi-document aggregation and presentation
JP2022187507A (ja) 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム
US7480855B2 (en) Apparatus and method of highlighting parts of web documents based on intended readers
US11645472B2 (en) Conversion of result processing to annotated text for non-rich text exchange
JP2010113730A (ja) 検索サーバ及びコンピュータプログラム
JP2021120790A (ja) 文章構造描画装置
Kásler et al. Framework for semi automatically generating topic maps
Khatavkar et al. Use of noun phrases in identification of a website
Hostetter et al. Using standardized lexicons for report template validation with LexMap, a web-based application
Broda et al. Tools for plWordNet Development. Presentation and Perspectives.
US8832082B2 (en) Presentation of search results with diagrams
NL2025417B1 (en) Intelligent Content Identification and Transformation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210217

R150 Certificate of patent or registration of utility model

Ref document number: 6840597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250