JP5238886B2 - キーワード抽出装置、およびプログラム - Google Patents

キーワード抽出装置、およびプログラム Download PDF

Info

Publication number
JP5238886B2
JP5238886B2 JP2011532834A JP2011532834A JP5238886B2 JP 5238886 B2 JP5238886 B2 JP 5238886B2 JP 2011532834 A JP2011532834 A JP 2011532834A JP 2011532834 A JP2011532834 A JP 2011532834A JP 5238886 B2 JP5238886 B2 JP 5238886B2
Authority
JP
Japan
Prior art keywords
keyword
area
score
unit
display area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011532834A
Other languages
English (en)
Other versions
JPWO2011036755A1 (ja
Inventor
奈夕子 渡辺
昌之 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2011036755A1 publication Critical patent/JPWO2011036755A1/ja
Application granted granted Critical
Publication of JP5238886B2 publication Critical patent/JP5238886B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、本発明は閲覧中の文書から検索などに使用できるキーワードを抽出するキーワード抽出装置、およびプログラムに関する。
一般に、ユーザが文書を閲覧しているときに、ユーザの関心を引くキーワードに対して検索を行いたいという要求がある。しかし、モバイル機器のような小さな画面しか持たない機器では、マウスなどのポインティングデバイスを用いることができないため、ユーザが文字列を選択することが面倒であるという問題がある。この問題に対しては、閲覧文書中のキーワードを自動抽出し、ユーザにリストなどで提示することで、キーワードの選択またはキーワードに対する検索などのアクションを指定してWeb検索などを行う手法がある(例えば、特許文献1参照)。
特開2008−217333号公報
しかし、閲覧文書全体からキーワードを抽出する場合は、ユーザが見ていない文章から関係のないキーワードが多数抽出されてしまうことがある。そのため、文書中から画面の表示領域のみに表示される文章を抽出対象とすることで、ユーザが見ているキーワードのみを抽出することが考えられる。しかし、表示領域のみを抽出する方法では、長い文書をスクロールしながら閲覧している場合、ユーザが実際に検索をしたいと思ったときには、そのキーワードが表示領域の外に出てしまいキーワードの検索をすることができないことがある。
本発明は、上記に鑑みてなされたものであり、ユーザが興味を持ったキーワードを過不足無く簡単に選択できるようにすることを目的とする。
本発明に係るキーワード抽出装置は、文書を表示する表示部と、前記表示部に表示される前記文書の領域を示す部分領域を算出する表示領域算出部と、前記部分領域外の文書の領域を該表示部でスクロールを行うスクロール部と、前記スクロールを行う以前に表示されていた部分領域である第1表示領域の位置情報と、該スクロールを行った後に表示される部分領域である第2表示領域の位置情報とを含むスクロール情報を生成するスクロール情報生成部と、前記文書に出現するキーワードを該文書中から抽出する抽出部と、前記スクロール情報から前記第1表示領域と前記第2表示領域とを含む部分領域を示す周辺領域を算出する周辺領域算出部と、前記文書中において、キーワードの出現する領域に応じて該キーワードのスコアを算出するスコアリング部と、前記スコアの高い順に、前記周辺領域内に出現するキーワードから少なくとも1つの前記キーワードを選択する画面を生成するキーワード選択画面生成部と、を具備することを特徴とする。
本発明のキーワード抽出装置、およびプログラムによれば、ユーザが興味を持ったキーワードを過不足無く簡単に選択できる。
第1の実施形態に係るキーワード抽出装置の構成を示すブロック図。 第1の実施形態に係るユーザインタフェースの一例を示す図。 第1の実施形態における閲覧文書、テキスト文字列、およびキーワード情報の一例を示す図。 キーワードの相対位置の概念を示す図。 第1の実施形態に係るスクロール情報の一例を示す図。 第1の実施形態に係るスコアリング方法の一例を示す図。 第1の実施形態に係るキーワード抽出装置の文書読み込み時の動作を示すフローチャート。 第1の実施形態に係る初期スコアの算出処理を示すフローチャート。 第1の実施形態に係るキーワード抽出装置のスクロール後の動作を示すフローチャート。 第1の実施形態に係るスコアの更新処理を示すフローチャート。 文書読み込み時のキーワード選択画面の一例を示す図。 スクロール後のキーワード選択画面の一例を示す図。 キーワードに対するアクションによりメニューを選択する一例を示す図。 第2の実施形態に係るキーワード抽出装置の構成を示すブロック図。 第2の実施形態に係るスクロール情報の一例を示す図。 抽出単位および抽出判定領域の概念を示す図。 第2の実施形態に係るキーワード情報の一例を示す図。 第2の実施形態に係るスコアリング方法の一例を示す図。 第2の実施形態に係るキーワード抽出装置の文書読み込み時の動作を示すフローチャート。 抽出対象チェック処理を示すフローチャート。 定期スコア更新処理を示すフローチャート。 未スクロール時のスコア更新処理を示すフローチャート。 第2の実施形態に係るキーワード抽出装置のスクロール後の動作を示すフローチャート。 周辺領域の更新処理を示すフローチャート。 スクロール後のスコア更新処理を示すフローチャート。 第2の実施形態に係る文書読み込み時のキーワード選択画面の一例を示す図。 第2の実施形態に係るスクロール直後のキーワード選択画面の一例を示す図。 第2の実施形態に係るスクロール後一定の時間が経過した後のキーワード選択画面の一例を示す図。
以下、図面を参照しながら本発明の実施形態に係るキーワード抽出装置、およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
本実施形態に係るキーワード抽出装置の構成について図1を参照して詳細に説明する。
本実施形態に係るキーワード抽出装置100は、文書表示部101、スクロール部102、キーワード抽出部103、表示領域算出部104、スクロール情報生成部105、周辺領域算出部106、スコアリング部107、キーワード選択画面生成部108、および検索部109を含む。
文書表示部101は、外部にあるWeb文書など(図示せず)を取得して画面に表示する。
スクロール部102は、文書の閲覧時に文書表示部101に文書が文書表示部101に収まりきらない場合などに、ユーザから与えられるスクロール量に応じて文書のスクロールを行う。なお、文書表示部101とスクロール部102とを合わせてユーザインタフェース(UI)とも呼ぶ。なお、外部から自動的にスクロール量をスクロール部102へ与え、スクロールを行ってもよい。
キーワード抽出部103は、文書表示部101から表示画面の大きさに関する情報を受け取り、文書中の文字列に出現するキーワード、キーワードの意味属性、および出現位置などキーワードに関する情報を示すキーワード情報をキーワードごとに抽出する。
表示領域算出部104は、文書表示部101から画面の大きさに関する情報を、スクロール部102から画面に表示するスクロールバーの大きさに関する情報を受け取り、文書表示部101に表示されている領域が文書全体のどの領域であるかを示す表示領域を算出する。具体的には、文書全体に対して、領域の座標を相対的に算出することで表示領域を得る。表示領域については図4を参照して後述する。
スクロール情報生成部105は、表示領域算出部104から表示領域を、スクロール部102からスクロール量をそれぞれ受け取り、スクロール前の表示領域と現在の表示領域とを一組にしたスクロール情報を生成する。
周辺領域算出部106は、スクロール情報生成部105からスクロール情報を受け取り、現在の表示領域の外でユーザが興味を持つと推測されるキーワードの出現領域を表す周辺領域を算出する。
スコアリング部107は、スクロール情報生成部105からスクロール情報を、キーワード抽出部103からキーワード情報を、周辺領域算出部106から周辺領域をそれぞれ受け取り、抽出済みのキーワードに対してこれらの情報をもとにスコアリングを行う。
キーワード選択画面生成部108は、スコアリング部107からスコアを受け取り、表示領域および周辺領域に出現するキーワードに付与されたスコアから、ユーザがキーワードを選択するための画面を生成する。
検索部109は、キーワード選択画面生成部108からキーワードを受け取り、ユーザの動作に応じてキーワードに関する情報の検索を行う。キーワードの検索は、例えば検索エンジンを用いてWeb上で検索してもよいし、外部にあるデータベース(図示せず)を検索してもよい。
ここで、ユーザインタフェースの一例について図2を参照して詳細に説明する。
図2は表示画面201の右側にスクロールバー202が表示されている例である。スクロール部102のスクロール機能は、表示画面201にあるスクロールバー202のノブ203の位置を参考に、装置に備え付けられたボタン等で上下に操作すればよい。または、タッチスクリーンを備える装置であれば、ペンや指先で直接表示画面201上のスクロールバー202にあるノブ203を動かしてもよい。さらに、スクロールバー202上に限らず、画面の一部をタッチしていずれかの方向にスライドすることでスクロールさせてもよい。
文書の表示領域Rは、文書表示部101の表示画面201の幅Rと表示画面201の高さRとにより決定することができる。ただし、図2のようにスクロールバー202が表示される場合にはスクロールバー202の領域を除いた部分が表示領域Rとなるため、表示領域Rの幅Rおよび高さRは小さくなる。
次に、キーワード抽出部103におけるキーワード抽出処理、キーワードの意味属性の判定処理、およびキーワード出現位置の算出処理について図3を参照して詳細に説明する。(a)はユーザインタフェースにおける文書閲覧画面を示し、(b)はキーワード抽出の対象となる文字列を示し、(c)はキーワード抽出処理結果であるキーワード情報のテーブルを示す。
まず、キーワード抽出する手段としては、例えば、既存の形態素解析などの技術を利用して名詞句を取り出す方法を用いればよい。また、キーワードの意味属性を判定する手段としては、辞書やルールを用いる既存の固有表現抽出手法を用いればよい。
例えば、“ある文字列に「株式会社・・・」という表現が当てはまればその意味属性を「企業名」とする”というようなルールが用意されているものとする。得られたキーワードが「株式会社○○」という表現であれば、その意味属性は、キーワード意味属性の判定処理によって「企業名」と判定することができる。
本実施形態では、最初に文書が文書表示部101に読み込まれたときに、ユーザが閲覧するWeb文書の文書全体から、マークアップのための文字列を省いたテキスト文字列を抽出する。ここでは図3(a)に示す表示画面201下部にある「検索」や「メニュー」等の文字列が除かれ、図3(b)に示す文字列が抽出される。続いて図3(b)に示すテキスト文字列から上述した意味属性の判定処理によって、図3(c)の抽出結果のキーワード情報のテーブルを得ることができる。キーワード情報のテーブルにはキーワードの表記301、意味属性302、および出現位置303がそれぞれ対応付けられて格納される。具体的には、表記301「野菜カレー」の意味属性302は「料理」であり、出現位置303は「0」である。同様に、表記301「トマト」の意味属性302は「食材」であり、出現位置303は「31」である。ここで、出現位置303は、テキスト文字列の先頭からの文字数であるが、後述する閲覧文書全体における絶対位置を出現位置303とするなど、キーワードの出現位置が特定できる方法であれば何でもよい。
次に、表示領域Rの中にあるキーワードの相対位置の概念について図4を参照して詳細に説明する。
相対位置(rx,ry)は、表示領域Rの左上の点(以下、始点位置ともいう)である(R,R)からキーワードを囲む矩形の中心点までの位置を示す。例えば、図4の例では、閲覧文書全体における左上の点からキーワード「科学館」を囲む矩形の中心点までの位置(以下、絶対位置ともいう)が(px,py)だとすると、(rx,ry)=(px−R,py−R)のように表せる。なお、(px,py)は、例えば閲覧文書がWeb文書であれば、DOM(Document Object Model)の機能を利用することによって求めることができる。
また、スクロールを行った後の表示領域Rの始点位置RおよびRは、スクロール部102によって定められるスクロール量によって決まる。例えば、1回のスクロール量を(S,S)で表す場合、現在のスクロール位置が文書の先頭から(S,S)であれば、表示領域Rの始点位置(R,R)は、(R,R)=(S,S)である。その後、もう1度スクロールすると、次の表示領域Rの始点位置(R’,R’)は、(R’,R’)=(S+R,S+R)となる。表示領域算出部104は、ユーザがスクロール操作を行うたびに表示領域Rを更新する。
次に、スクロール情報生成部105で生成されるスクロール情報の一例について図5を参照して詳細に説明する。
スクロール情報生成部105は、ユーザが行うスクロールに応じて、スクロール前の表示領域の座標を示す表示領域Rbeforeと、スクロール後の現在の表示領域の座標を示す表示領域Rとを1組にした情報であるスクロール情報U 501を生成する。
文書を読み込んだ時点では、スクロール操作が行われていないため表示領域Rbeforeには情報が入っていない状態(Empty)であり、表示領域Rには表示領域算出部104によって算出された現在の表示領域R=(0,0,480,640)が与えられる。ここで表示領域Rの4つのパラメータはそれぞれ、表示領域Rの始点位置RおよびR、表示領域Rの幅Rおよび高さRを示す。図5に示す例では、文書を読み込んだ直後であるため始点位置R、Rはともに0である。
次に、例として240pixelだけ下へスクロール(y軸の正の方向へ240pixel移動)した後のスクロール情報U 501を示す。このときのスクロール情報U 501は、表示領域Rbefore=(0,0,480,640)となり、表示領域R=(0,240,480,640)となる。よって、表示領域Rbeforeにはスクロール前の表示領域Rの情報が与えられる。すなわち、表示領域Rbeforeと表示領域Rとを比較することにより1回のスクロール量を計算することができる。
次に、周辺領域Dについて説明する。本実施形態では、周辺領域Dは1つの矩形領域で構成される。最初に文書が文書表示部101に読み込まれた時、周辺領域Dはその時の表示領域Rと同一の領域である。
ユーザがスクロールを行うと、周辺領域算出部106は、スクロール情報Uを参照してスクロール前の表示領域Rbeforeと現在の表示領域Rとを包含するように、周辺領域Dを更新する。具体的に、図5に示すスクロール後のスクロール情報U 501を参照して説明する。表示領域Rbefore=(0,0,480,640)と表示領域R=(0,240,480,640)とを比較すると、240pixelだけ下へスクロールしているので、表示領域の高さR=640にスクロール量である「240」を加算した「880」が周辺領域Dの高さになる。よって周辺領域Dは、表示領域Rbeforeと表示領域Rとを包含するので、周辺領域D=(0,0,480,880)と表せる。
なお、周辺領域Dは1つの矩形であってもよいし、複数の矩形が組み合わさった領域や矩形でない領域であってもよい。例えば、スクロール前の表示領域Rbeforeと現在の表示領域Rを包含する最小の凸多角形とすることもできる。
次に、スコアリング方法の一例について図6を参照して詳細に説明する。
図6では、簡単のためスクロールは縦方向のみとしているが、横、斜めにスクロールを行っても同様にスコアリングが可能である。
まず、表示領域Rの中にあるキーワードの方が、周辺領域Dの中にあるキーワードよりも、スコアのベースを高く設定する。これは、現在表示領域Rに表示されている文章にユーザは注目していると考えられるからである。このスコアのベースを基準にして、相対位置に応じてスコア加算を行う。
最初に読み込んだ後のキーワードのスコア加算は、表示領域Rの上部の領域に位置するキーワードほど高いスコアにし、表示領域Rの外にあるキーワードについては「0」とする。これは、文書を読み込んだ当初は、ユーザは文書の先頭部分を最初に読むと考えられるためである。
スクロールを行った後のスコア加算は、表示領域Rの下部の領域に位置するキーワードほど高いスコアに設定する。これは、ユーザがスクロールをした際に、ユーザは新しく表示画面に表示された文章に注目すると考えられるためである。また、表示領域Rの外であるが、周辺領域Dの中にあるキーワードに対しては、表示領域Rに近い領域から遠い領域へ順にスコアが下がっていく。これは文書を読み進めるにつれ、表示領域Rから離れた文章に対してはユーザの関心が薄れていくと考えられるからである。具体的なスコアリングについては、図8のフローチャートを参照して後述する。
ここで、本実施形態に係るキーワード抽出装置が最初に文書を読み込んだときの動作を図7のフローチャートを参照して詳細に説明する。
ステップS701では、表示領域算出部104が表示領域Rを算出する。
ステップS702では、スクロール情報生成部105がスクロール情報Uを初期化する。
ステップS703では、キーワード抽出部103が、Web文書全体からキーワードの抽出を行い、キーワードごとにキーワード情報、すなわちキーワードの閲覧文書中での絶対位置(px,py)と意味属性とを算出する。
ステップS704では、周辺領域算出部106が周辺領域Dを表示領域Rと同一領域になるように初期化する。
ステップS705では、スコアリング部107が、キーワードwについて表示領域Rに対する相対位置(rx,ry)を算出する。
ステップS706では、スコアリング部107が、算出したキーワードwの相対位置(rx,ry)に基づいてキーワードwの初期スコアを算出する。初期スコアの算出処理については図8を参照して後述する。
そして、ステップS705およびステップS706の処理を、抽出されたキーワード全てに対して行う。
ステップS707では、キーワード選択画面生成部108がキーワード選択画面を生成する。以上で文書読み込み時の処理を終了する。
次に、図7のステップS706における初期スコアの算出処理について図8のフローチャートを参照して詳細に説明する。
ステップS801では、キーワードwが表示領域Rの中にあるキーワードであるかどうかを判定する。表示領域Rの中にあるキーワードであると判定された場合は、ステップS802へ進む。表示領域Rの中にあるキーワードでないと判定された場合は、ステップS803へ進む。
ステップS802では、キーワードwの初期スコアを算出する。初期スコアwsは、例えば式(1)のような計算を行って算出する。
ws=wb+f(rx,ry) (1)
wbは表示領域Rの中でのスコアのベース値であり、f(rx,ry)は式(2)に示すように表示領域Rを分割してスコアを割り当てる関数である。
またf(rx,ry)は、式(3)のような相対位置(rx,ry)を用いる任意の式から算出してもよい。
ステップS803では、キーワードwが表示領域Rの中に入っていないため、キーワードwの初期スコアを「0」とする。
次に、本実施形態に係るキーワード抽出装置のスクロール後の動作について図9のフローチャートを参照して詳細に説明する。
ステップS901では、表示領域算出部104が表示領域Rを更新する。
ステップS902では、スクロール情報生成部105がスクロール情報Uを更新する。
ステップS903では、周辺領域算出部106が周辺領域Dを更新する。
ステップS904では、スコアリング部107が、キーワードwについて表示領域Rに対する相対位置(rx,ry)を算出する。
ステップS905では、スコアリング部107がキーワードwのスコアの更新処理を行う。そして、ステップS904およびステップS905の処理を、抽出されたキーワード全てに対して行う。スコアの更新処理については図10を参照して後述する。
ステップS906では、キーワード選択画面生成部108が更新されたスコアに応じてキーワード選択画面を更新する。
次に、スコアの更新処理について図10のフローチャートを参照して詳細に説明する。以下ではスコア算出のための処理を、簡単のために縦方向にのみスクロールが行われると想定しているが、これに限らず、横方向または斜め方向にもスクロールが行われる場合は、これを拡張して同様にスコア算出を行うことができる。
ステップS1001では、キーワードwが表示領域Rの中にあるキーワードであるかどうかを判定する。表示領域Rの中にあるキーワードであると判定された場合は、ステップS1002へ進む。表示領域Rの中にあるキーワードでないと判定された場合は、ステップS1003へ進む。
ステップS1002では、キーワードwの更新スコアを算出する。更新スコアwsは、例えば式(4)のような計算を行って算出する。
ws=wb+f(rx,ry) (4)
ここで、f(rx,ry)は式(2)および式(3)と同様の式を用いればよい。但し、表示領域Rの下の領域ほどスコアが高くなるように定数を(0<a<b<c)と調整する。
ステップS1003では、キーワードwが表示領域Rの中には入っていないが、周辺領域Dの中にあるキーワードであるかどうかを判定する。キーワードwが周辺領域Dの中にあるキーワードであると判定された場合は、ステップS1004へ進む。キーワードwが周辺領域Dの中にあるキーワードでないと判定された場合は、ステップS1005へ進む。
ステップS1004では、ステップS1002同様、キーワードwの更新スコアを算出する。更新スコアwsは、例えば式(5)のような計算を行って算出する。
ws=wb+g(rx,ry) (5)
ここで、wbは周辺領域Dの中でのスコアのベース値であり、g(rx,ry)はf(rx,ry)と同様の式を用いればよい。
ステップS1005では、キーワードwが表示領域Rの中に入っておらず、さらに周辺領域Dの中にも入っていないため、キーワードwの更新スコアを「0」とする。
キーワード選択画面生成部108が生成する選択画面の一例を図11Aおよび図11Bに示す。
図11Aに示すように、文書読み込み時では、表示領域Rの中に出現するキーワードについては文書表示部101上でハイライト表示する。なお、よりキーワードが選択可能であることがわかりやすいようにボタンのような形状にして表示してもよい。さらに、キーワードのスコアに応じてハイライトの色を変える(スコアが高いキーワードほど目立たせる等)ようにしてもよい。
図11Bにスクロール後のキーワード選択画面の例を示す。表示領域Rの中に出現するキーワードについては、図11Aと同様に文書表示部101上でハイライト表示する。一方、周辺領域Dに出現したキーワード(以下、周辺キーワードともいう)については、文書表示部101の上下の少なくとも一方に周辺キーワード表示領域1101を設け、そこに表示する。周辺キーワードはすべて表示するのではなく、スコアの上位N件(Nは任意の自然数)などに絞って表示する。このとき、キーワードは横1列などのリスト状に並べてもよいし、図11Bに示すように、できるだけ元の位置関係に近くなるような配置をしてもよい。
なお、文書読み込み時には周辺領域Dが表示領域Rと同一のため、周辺キーワード表示領域1101は表示しなくともよい。また、キーワードのハイライト表示は常に行っていてもよいが、「検索」ボタンのようなボタンを用意しておき、ユーザがそのボタンを押すことで表示または非表示を切り替えられるようにしてもよい。
さらに、ユーザはキーワード選択画面上で、上下左右方向へ移動させるボタンやスクリーンへのタッチによる直接操作でキーワードを選択することがあり得るため、ユーザのアクションによりメニューを選択できるようにしてもよい。
キーワードに対するアクションによりメニューを選択する表示例を図12に示す。
メニュー項目1201は、選択されたキーワードの意味属性によって生成される。図12の例では、「湯剥き」は意味属性「手法」のキーワードであるため、単なるWeb検索を行うメニューのほかに、動画で湯剥きのやり方を見るための検索メニューなどを表示してもよい。他には、意味属性が「料理」である「野菜カレー」が選択された場合は、野菜カレーを食べられる店の検索メニューなどを表示してもよい。
以上に示した第1の実施形態によれば、ユーザのスクロールを考慮して閲覧している表示領域のみでなく、表示領域外であるが未だユーザが興味を持っていると推測される領域からキーワード抽出を行い、ユーザに提示することで、ユーザが興味を持ったキーワードを過不足無く簡単に選択できるようにする。
(第2の実施形態)
第1の実施形態では、閲覧する文書全体に対してキーワード抽出を行うため、大きなファイルサイズの文書では抽出するキーワードの数が多くなる。そのため、文書を閲覧するときにユーザがキーワードを選択できるようになるまでに時間がかかってしまう。よって、本実施形態では、大きなファイルサイズの文書から必要となる領域に対して抽出処理を行う点が第1の実施形態と異なる。
また、本実施形態では、ユーザがスクロール操作後に表示領域内で文章を読み進めるのに対応させて、スクロール情報に時間情報を追加し、ユーザごとの、スクロール量および次のスクロールまでの時間間隔に合わせてキーワードのスコアを更新する点が第1の実施形態と異なる。
本実施形態に係るキーワード抽出装置の構成について図13を参照して詳細に説明する。
本実施形態に係るキーワード抽出装置1300は、第1の実施形態に係るキーワード抽出装置100の構成に加え、さらに、抽出判定領域算出部1301、抽出単位算出部1302、抽出対象領域判定部1303、およびキーワード情報蓄積部1304を含む。また、スコアリング部107は、誘目性算出部1305、スクロール特性管理部1306を含む。
抽出判定領域算出部1301は、スクロール情報生成部105からスクロール情報を受け取り、抽出判定領域Cを算出する。抽出判定領域Cは、新しくキーワード抽出を行う必要があるかどうかを判定するための領域であり、表示領域Rよりも大きく設定する。そして、抽出判定領域Cは、次にユーザが閲覧すると予測される領域内にあるキーワードの抽出を前もって行うために必要である。抽出判定領域Cの大きさは文書読み込み時に決定し、ユーザがスクロールを行うとともにその位置が更新される。
抽出単位算出部1302は、抽出判定領域算出部1301から抽出判定領域Cを受け取り、キーワード抽出を行う抽出単位領域(以下、抽出単位ともいう)I(iは任意の正の整数)を算出する。抽出単位は文書読み込み時に全て算出される。
抽出対象領域判定部1303は、抽出判定領域算出部1301から抽出判定領域Cを、抽出単位算出部1302から単位領域をそれぞれ受け取り、抽出判定領域Cが、まだキーワード抽出を行っていない抽出単位にかかっているかどうかを判定する。キーワード抽出を行っていない抽出単位にかかっていれば、その抽出単位についてキーワード抽出を行うようにキーワード抽出部103へ指示を送る。
キーワード情報蓄積部1304は、キーワード抽出部103からキーワードを受け取り、抽出されたキーワードのID、意味属性、文書中での絶対位置と、現在の表示領域R中での相対位置、およびスコアをキーワード情報として蓄積する。なお、抽出されたキーワードは、キーワード抽出部103がキーワードを抽出するたびにキーワード情報蓄積部1304へ蓄積してもよいし、抽出単位ごとに、抽出単位の領域の中にあるキーワードを抽出し終えたら、まとめてキーワード情報蓄積部1304へ蓄積してもよい。キーワード情報蓄積部1304に蓄積されるキーワード情報については、図16を参照して後述する。
誘目性算出部1305は、キーワードの文字色、背景色、大きさ等、デザイン上の特性から、キーワードの誘目性を算出してスコア加算を行う。誘目性は、キーワードがどれほど目立つかを示す指標である。例えば、キーワードの文字色と背景色の明度差Vdiffと文字の大きさSize、文字列長Lengthから、誘目性をa×Vdiff×Size×Length(aは定数)などとして求めることができる。また、この誘目性の値をキーワード情報として追加してもよい。
スクロール特性管理部1306は、文書閲覧時に選択されたキーワードの表示位置と、そのときのスクロール情報の履歴からキーワードのスコア加算を行う。例えば、以前のスクロール情報Uのスクロール速度vがある一定値vth以上で、選択されたキーワードの相対位置のy座標ryが表示領域の下の領域(例えば2*R/3)のことが多いのであれば、スクロール速度vが大きなときは、ユーザは表示領域の下の領域に興味を持ちやすいと考えられる。このため、スクロール速度vが大きいときは表示領域の下の領域に位置するキーワードにスコア加算を行う。
本実施形態に係るスクロール情報生成部105が生成するスクロール情報について図14を参照して詳細に説明する。
スクロール情報U 1401として、スクロール前の表示領域Rbefore、スクロール後の現在の表示領域R、スクロールが終了した時刻t、スクロール速度v(x方向の速度v,y方向の速度v)を含む。スクロール速度vとは、1秒間にx方向またはy方向に何pixel表示領域が移動したかを示す速度である。なお、時刻tは、文書読み込み時には文書読み込みが完了した時刻とする。また。スクロール速度vについては、x成分およびy成分の速度を算出するので、縦方向に移動した場合のスクロール速度を算出できるのに限らず、横へまたは斜めに移動した場合のスクロール速度も算出することができる。
文書読み込み時には、まだスクロールを行っていないため、スクロール前の表示領域Rbeforeは空(Empty)である。表示領域Rは、現在表示される領域(0,0,480,640)である。また、スクロール時刻tは文書読み込みが完了した時刻「2009−06−16T12:34:50」とし、スクロール速度vはx軸方向、y軸方向共に0である。
次に、スクロール後の例として、8秒間で240pixel分下へスクロール(y軸の正の方向へ240pixel移動)を行った場合を考える。スクロール前の表示領域Rbeforeとしては、文書読み込み時の表示領域R(0,0,480,640)が与えられる。また現在の表示領域Rは、y軸の正の方向に240pixelスクロールしたため、表示領域Rの始点位置Rが変化して、(0,240,480,640)となる。またスクロール時刻tは、スクロールが終了した時刻「2009−06−16T12:34:58」となる。スクロール速度vは、スクロールの開始時刻(文書読み込み時は文書の読み込みが完了した時刻)から終了時刻までの時間と、スクロールしたpixel量とによって算出することができる。ここでは、y軸の正の方向に240pixelを8秒間でスクロールしたので、スクロール速度vは、(0,30)pixel/secとなる。
なお、スクロール情報U 1401については、スクロール前の表示領域Rbeforeの代わりに最後のスクロール量S、スクロール速度vの代わりにスクロール開始時刻tstartを含んでもよい。
ここで、抽出判定領域Cについて図15を参照して詳細に説明する。
文書全体Pの幅および高さを(P,P)とすると、文書全体を少なくとも1つ以上の抽出単位を含む単位領域に分割する。図15の例では、文書全体Pが4つの抽出単位I(n=0,1,2,4)に分割される。それぞれの抽出単位Iは、表示領域Rと同様に、始点位置IixおよびIiy、抽出単位の幅Iiwおよび高さIih4つのパラメータで規定することができる。例えば、1つの抽出単位の幅および高さを(1000,1500)とすると、抽出単位Iは、(I0x,I0y,I0w,I0h)=(0,0,1000,1500)で表される。同様に、抽出単位Iは(I2x,I2y,I2w,I2h)=(0,1500,1000,1500)で表される。
抽出判定領域Cは、ユーザのスクロールを先読みしてキーワード抽出を行うために、表示領域Rより大きい領域として設定すればよい。
キーワード情報蓄積部1304に蓄積されるキーワード情報の一例について図16を参照して詳細に説明する。
キーワード情報は、1度抽出されたら変化しないキーワードのID、表記301、文書中での意味属性302、および絶対位置1601(px,py)と、ユーザがスクロールを行うことによって更新される表示領域Rからの相対位置1602(rx,ry)と、後述する定期スコア更新処理によって更新されるスコア1603(ws)とを含む。キーワード抽出部103によりキーワード抽出が行われ、それまでにキーワード情報蓄積部1304に蓄積されていないキーワードが抽出されたら、キーワードとこのキーワードに対応するキーワード情報とをキーワード情報蓄積部1304に追加して蓄積する。具体例としては、ID「0」の表記301「野菜カレー」は、意味属性302が「料理」であり、絶対位置1601(px,py)は「294,69」であり、これらは1度抽出されたら変化しないフィールドである。また、スクロールごとに更新されるフィールドである表示領域Rからの相対位置1602(rx,ry)は「294,−11」であり、定期的にスコア更新処理によって更新されるスコア1603(ws)は「5.0」である。相対位置のy成分がマイナスの値となっているのは、文書読み込み位置から表示領域Rが下方向(図5に示すy軸の正の方向)に80pixel分スクロールしており、キーワードである「野菜カレー」の文字列が表示領域Rから外れているため、相対位置がマイナスの値となっている。
本実施形態に係るスコアリング方法の一例について図17を参照して詳細に説明する。
図6と同様に、簡単のためスクロールの方向は縦方向のみとしている。また、スコアのベースについても第1の実施形態と同様に表示領域Rの中にあるキーワードの方が、表示領域Rの中にはないが周辺領域Dの中にあるキーワードよりもスコアのベースを高く設定する。
文書読み込み時またはスクロール直後において、表示領域Rの中にあるキーワードのスコアリング方法は第1の実施形態と同様であるが、読み込み後時間が経過したときまたはスクロール後時間が経過したときには、表示領域Rの中にあるキーワードのスコア加算は、領域全体で同じ値となるように設定する。ここで、文書読み込み時とは、文書を読み込んだ後一定の期間内のことを示す。また同様に、スクロール直後とは、スクロール後一定の期間内のことを示す。
一方、表示領域Rの中にはないが周辺領域Dの中にあるキーワードのスコア加算は、スクロールを行った直後には領域全体で同じ値となるように設定する。そして、スクロール後一定の時間が経過すると、表示領域Rに近いキーワードほどスコアが高くなるように設定する。この理由としては、表示領域Rから外れたキーワードは、スクロール直後にはそれまで表示領域Rに表示されていた領域であるため、表示領域Rに近い領域か遠い領域かを問わずユーザが同じ程度に関心があると考えられるが、一定時間が経過すると表示領域Rから離れたキーワードは関心が薄れると考えられるためである。
ここで、本実施形態に係るキーワード抽出装置が最初に文書を読み込んだときの動作を図18のフローチャートを参照して詳細に説明する。
ステップS1801では、表示領域算出部104が表示領域Rを算出する。
ステップS1802では、スクロール情報生成部105がスクロール情報Uを初期化する。
ステップS1803では、抽出判定領域算出部1301が抽出判定領域Cを算出する。抽出判定領域Cの算出方法としては、例えば、抽出判定領域Cの幅Cおよび高さCは、ある任意の定数で表される固定幅k および固定高さk を用いて(C=R+k ,C=R+k )とすればよい。このとき、k およびk は、例えば表示領域Rの大きさの倍数としてもよいし、M回のスクロール単位量としてもよい。スクロール単位量は予め定数で定めてもよいが、これまでのユーザのスクロール速度(または速度の平均値等)に応じて変化させて、(k =a×v_avg.,k =b×v_avg.)としてもよい。このように設定することで、普段スクロール速度が速いユーザについては、より大きな抽出判定領域Cを設けることができ、頻繁にキーワード抽出が行われないようにすることが可能である。
ステップS1804では、抽出単位算出部1302が抽出単位Iを算出する。抽出単位I〜Iは例えば、図15に示すように、抽出判定領域Cと同じ大きさの抽出単位がタイル状に並ぶように定める。なお、Web文書であれば矩形に区切られた領域でなく、Web文書のDOMツリー構造を解析し、HTML要素の固まりごとに抽出単位Iとしてもよいし、文書のページごとに抽出単位Iとしてもよい。
ステップS1805では、周辺領域算出部106が周辺領域Dを初期化する。本実施形態においては、周辺領域Dは2つの矩形領域D,Dから構成される。また、第1の実施形態と同様、初期化時の周辺領域Dは表示領域Rと同一領域とする。また、周辺領域Dは空(Empty)とする。
ステップS1806では、抽出対象領域判定部1303が抽出単位Iのそれぞれに対して、キーワード抽出が行われたかどうかを判定する。ステップS1806の抽出対象領域チェック処理については、図19を参照して後述する。
ステップS1807では、スコアリング部107が、キーワード情報蓄積部1304に蓄積されたキーワードwのそれぞれに対して、表示領域Rに対する相対位置(rx,ry)を更新する。相対位置の算出方法については図7に示すステップS705と同様の処理を行えばよい。
ステップS1808では、キーワードのスコアを更新する。ステップS1808の処理については図20を参照して後述する。
次に、ステップS1806の抽出対象チェック処理について図19のフローチャートを参照して詳細に説明する。
ステップS1901では、抽出対象領域判定部1303が、抽出単位Iに対してキーワード抽出処理がまだ実行されていないかどうかを判定する。キーワード抽出処理がまだ実行されていない場合は、ステップS1902へ進む。キーワード抽出処理が実行されているときは、その抽出単位Iに対しての処理を終了して、次の抽出単位Iについて処理を行う。
ステップS1902では、抽出対象領域判定部1303が抽出単位Iと抽出判定領域Cとの一部の領域が重なり合うかどうかを判定する。重なり合う領域がある場合は、ステップS1903へ進み、重なり合う領域がない場合は、その抽出単位Iに対しての処理を終了して、次の抽出単位Iについて処理を行う。
ステップS1903では、キーワード抽出部103が抽出単位Iに対してキーワード抽出処理を実行する。なお抽出単位内の文字列が文章の途中で切れている場合は、対象文字列を切りのよい範囲まで拡張してもよい。例えば、文の切れ目まで拡張する、Web文書であればその要素全体まで拡張する等が考えられる。
ステップS1904では、キーワード抽出部103がステップS1903において抽出されたキーワードをキーワード情報蓄積部1304に蓄積する。このとき、キーワード情報の相対位置およびスコアについては、抽出されたキーワードが表示領域Rの外であるため未定義とする。以上に示したステップS1901からステップS1904までの処理を、各抽出単位I=I…Iに対して同様に行う。このように、新しく抽出対象となった抽出単位に対するキーワード抽出処理が実行される。
次に、キーワードの定期スコア更新処理について図20のフローチャートを参照して詳細に説明する。
ステップS2001では、1度でもスクロール操作を行ったどうかを判定する。この判定処理は、スコアリング部107がスクロール情報生成部105からのスクロール情報を参照して判定する。1度もスクロール操作を行っていない場合には、ステップS2002へ進み、1度でもスクロール操作を行っていれば、ステップS2003へ進む。文書読み込み時には、1度もスクロール操作を行っていない状態のため、ステップS2002の処理が行われる。
ステップS2002では、スコアリング部107が未スクロール時のスコア更新処理を行う。ステップS2002の処理については図21を参照して後述する。
ステップS2003では、スコアリング部107がスクロール後のスコア更新処理を行う。ステップS2003の処理については図24を参照して後述する。
上述したステップS2001からステップS2003までの処理を、各キーワードwについて行う。
ステップS2004では、更新した各キーワードのスコアをもとに、キーワード選択画面を更新する。以上で定期スコア更新処理を終了する。
ここで、ステップS2002におけるスコアリング部107の未スクロール時スコア更新処理について図21のフローチャートを参照して詳細に説明する。
ステップS2101では、キーワードwが表示領域Rの中に含まれるかどうかを判定する。キーワードwが表示領域Rの中に含まれると判定される場合は、ステップS2102へ進み、キーワードwが表示領域Rの中に含まれないと判定される場合は、ステップS2103へ進む。
ステップS2102では、表示領域Rの中に含まれるキーワードwに関して、式(6)に基づいてスコアを計算する。
ここで、wbは表示領域R中に出現するキーワードwのスコアのベース、(rx,ry)はキーワードwの相対位置、Uはスクロール情報である。f(rx,ry,U)は、例えば、スクロール情報Uの中のスクロール時刻tからの経過時間tが閾値tthよりも小さい場合、表示領域Rの上の領域にあるキーワードwほどスコアを高くするため、式(7)のように計算する。
また、経過時間tが閾値tth以上である場合は、表示領域Rのどの領域でも同じスコアとするためf=dとする。文書読み込み時には経過時間tは「0」であるため、経過時間tが閾値tthよりも小さいので、第1の実施形態と同じく表示領域Rの上部に位置するキーワードほど高いスコアとなる。
ステップS2103では、キーワードwのスコアを0に設定する。以上で未スクロール時のスコア更新処理を終了する。
次に、本実施形態に係るキーワード抽出装置のスクロール後の動作について図22のフローチャートを参照して詳細に説明する。
ステップS2201では、表示領域算出部104が表示領域Rを更新する。
ステップS2202では、スクロール情報生成部105がスクロール情報Uを更新する。
ステップS2203では、抽出判定領域算出部1301が抽出判定領域Cを更新する。抽出判定領域Cの大きさは初期化時のままでもよいし、スクロール情報Uに応じて更新してもよい。例えば、抽出判定領域Cの幅Cおよび高さCを式(8)のように算出してもよい。
式(8)によれば、スクロール速度が速い時は抽出判定領域Cを大きく設定することができる。また抽出判定領域Cの位置は、その中心点(Ccx,Ccy)=(C+C/2,C+C/2)を式(9)により算出する。
但し、抽出判定領域Cが表示領域Rを包含するように調整する。これによって、抽出判定領域Cは表示領域Rのスクロール方向の少し先の領域と表示領域Rとを含む矩形領域として更新することができる。
ステップS2204では、抽出対象領域のチェック処理について図18に示すステップS1806と同様の処理を行い、必要であれば、キーワード抽出部103がスクロールによって新しく抽出対象となる抽出単位に対してキーワード抽出を行う。
ステップS2205では、周辺領域算出部106が周辺領域Dの更新処理を行う。ステップS2205については、図23を参照して後述する。
ステップS2206では、図8に示すステップS1807同様に、キーワード情報蓄積部1304に蓄積されたキーワードwのそれぞれに対して、スコアリング部107が表示領域Rに対する相対位置(rx,ry)を更新する。
ステップS2207では、キーワードのスコアを更新する。ステップS2207の処理については図24を参照して後述する。以上がスクロール後の動作であり、スクロールが行われるたびに、ステップS2201からステップS2207までの処理が行われる。
次に、ステップS2205における周辺領域算出部106の周辺領域Dの更新処理について図23のフローチャートを参照して詳細に説明する。周辺領域Dは、スクロール速度vが速いときはスクロールされた間の領域を無視し、スクロール速度が遅い時はスクロールされた間の領域のうち、現在の表示領域Rの少し上の領域を含めるような処理を行う。
ステップS2301では、スクロール情報Uが保持するスクロール速度vの絶対値が一定値vth以上であるかどうかを判定する。スクロール速度vの絶対値が一定値vth以上である場合、ステップS2302に進み、スクロール速度vの絶対値が一定値vth以上でない、つまり一定値vth未満の場合、ステップS2303に進む。
ステップS2302では、スクロール情報Uに含まれるスクロール速度vの絶対値が一定値vth以上である場合、Dは表示領域Rと同一領域とし、Dはスクロール前の表示領域Rbeforeと同一領域とし、RとRbeforeとの間の領域は周辺領域Dに含めない。これにより、ユーザが意図的に見ていない文章からのキーワードを提示しないようにすることができる。
ステップS2303では、スクロール速度vの絶対値がvth未満の場合、まず点dpを式(10)のように求める。
但し、ここでdは、表示領域Rに含まれないようにd>Rの対角線長/2とする。
ステップS2304では、周辺領域Dについては点dpを含むように表示領域Rを拡張し、Dを空にする。点dpを含むように周辺領域Dを設定することで、スクロールされた間の領域のうち、現在の表示領域Rの少し上の領域を含めることができる。例えば、式(11)のようにDおよびDを算出することで周辺領域Dを得ることができる。
以上で周辺領域Dの更新処理を終了する。
ステップS2003に示したスクロール後のスコア更新処理について図24を参照して詳細に説明する。なお、図10に示すステップS1001からステップS1005までと同様の処理である。以下ではスコア算出のための処理を、簡単のために縦方向にのみスクロールが行われると想定しているが、これに限らず、横方向または斜め方向にもスクロールが行われる場合は、これを拡張して同様にスコア算出を行うことができる。
ステップS2401では、キーワードwが表示領域Rの中にあるキーワードであるかどうかを判定する。表示領域Rの中にあるキーワードであると判定された場合は、ステップS2402へ進む。表示領域Rの中にあるキーワードでないと判定された場合は、ステップS2403へ進む。
ステップS2402では、キーワードwの更新スコアを算出する。更新スコアwsは、例えば式(12)のような計算を行って算出する。
ws=wb+f(rx,ry,U) (12)
(rx,ry,U)は、例えばスクロール情報Uの中のスクロール時刻tからの経過時間tがある閾値tthよりも小さい場合、式(13)のように計算する。
thよりも大きい場合はf=dとする。スクロール時にはt=0であるため、第1の実施形態と同じく表示領域Rの下部の領域に位置するキーワードほど高いスコアとなる。
ステップS2403では、キーワードwが表示領域Rには入っていないが、周辺領域Dの中にあるキーワードであるかどうかを判定する。周辺領域Dの中にあるキーワードであると判定された場合は、ステップS2404へ進む。周辺領域Dの中にあるキーワードでないと判定された場合は、ステップS2405へ進む。
ステップS2404では、周辺領域D中に出現するキーワードの更新スコアwsは、例えば式(14)から算出する。
ws=wb+g(rx,ry,U) (14)
(rx,ry,U)は、例えばスクロール情報Uの中のスクロール時刻tからの経過時間tが閾値tthよりも小さい場合、式(15)のように計算する。
経過時間tが閾値tth以上の場合は式(16)のようにスコア加算する。
なお、スクロール時にはt=0であるため、周辺領域中の全体が同じスコア加算される。
ステップS2405では、キーワードwが表示領域Rの中に入っておらず、さらに周辺領域Dの中にも入っていないため、キーワードwの更新スコアを「0」とする。以上でスクロール後のスコア更新処理を終了する。
文書読み込み時、スクロール時のほかに、タイマーなどを利用して定期的にスコアの更新処理を行う。例えば、周辺領域D中に出現するキーワードwの更新スコアwsは、式(13)中のgについてスクロール後に時間が経つと経過時間tが大きくなるので、周辺領域D中で表示領域Rに近い位置にあるキーワードwのスコアが高くなる。
このように、本実施形態において、更新されたキーワードのスコアに基づいて生成されたキーワード選択画面の一例を図25Aから図25Cまでを参照して詳細に説明する。
ユーザが何も操作をしていなくても、周辺領域Dに表示されるキーワードは時間経過と共に変化する。具体的には、図25Aは文書読み込み時の状態を示す。表示領域Rの中で抽出されたキーワードがハイライト表示されている。
次に、図25Bはスクロール操作を行った直後の状態を示す。周辺キーワード表示領域1101にはキーワードとして、「みじん切り」、「ナス」、および「野菜カレー」が表示されている。
最後にスクロール操作後から一定の時間が経過した状態を図25Cに示す。表示領域Rからy軸方向に遠い位置にあるこれらのキーワード「みじん切り」、「ナス」、および「野菜カレー」はスコアが低くなる。よって、表示領域Rに近い位置にある周辺領域Dの中のキーワード「ニンジン」、「ジャガイモ」についてのスコアが高く更新されるので、周辺キーワード表示領域1101に表示される。
以上に示した第2の実施形態によれば、必要となる領域に対してのみ抽出処理を行うことで、大きな文書を閲覧したときにもユーザがキーワードを選択できるようになるまでの時間を短縮できる。また、スクロール情報に時間に関する情報を追加し、スクロール後の時間が経過するのにつれてキーワードのスコアを変化させ、ユーザごとのスクロール量に合わせてキーワードを抽出することでユーザが文書閲覧中のその時々に欲しいキーワードを選択しやすくすることができる。
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したキーワード抽出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態のキーワード抽出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本願発明におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明に係るキーワード抽出装置は、例えばスクロール機能を有する文書閲覧可能な携帯電話、PCなどでキーワードの検索を行うのに有効である。
100,1300・・・キーワード抽出装置、101・・・文書表示部、102・・・スクロール部、103・・・キーワード抽出部、104・・・表示領域算出部、105・・・スクロール情報生成部、106・・・周辺領域算出部、107・・・スコアリング部、108・・・キーワード選択画面生成部、109・・・検索部、201・・・表示画面、202・・・スクロールバー、203・・・ノブ、301・・・表記、302・・・意味属性、303・・・出現位置、501,1401・・・スクロール情報、1101・・・周辺キーワード表示領域、1201・・・メニュー項目、1301・・・抽出判定領域算出部、1302・・・抽出単位算出部、1303・・・抽出対象領域判定部、1304・・・キーワード情報蓄積部、1305・・・誘目性算出部、1306・・・スクロール特性管理部、1601・・・絶対位置、1602・・・相対位置、1603・・・スコア。

Claims (11)

  1. 文書を表示する表示部と、
    前記表示部に表示される前記文書の領域を示す部分領域を算出する表示領域算出部と、
    前記部分領域外の文書の領域を該表示部でスクロールを行うスクロール部と、
    前記スクロールを行う以前に表示されていた部分領域である第1表示領域の位置情報と、該スクロールを行った後に表示される部分領域である第2表示領域の位置情報とを含むスクロール情報を生成するスクロール情報生成部と、
    前記文書に出現するキーワードを該文書中から抽出する抽出部と、
    前記スクロール情報から前記第1表示領域と前記第2表示領域とを含む部分領域を示す周辺領域を算出する周辺領域算出部と、
    前記文書中において、キーワードの出現する領域に応じて該キーワードのスコアを算出するスコアリング部と、
    前記スコアの高い順に、前記周辺領域内に出現するキーワードから少なくとも1つの前記キーワードを選択する画面を生成するキーワード選択画面生成部と、を具備することを特徴とするキーワード抽出装置。
  2. 前記キーワードについて外部の情報源から検索を行う検索部をさらに含むことを特徴とする請求項1に記載のキーワード抽出装置。
  3. 前記抽出部は、前記第1表示領域内および前記第2表示領域内に出現するキーワードを抽出することを特徴とする請求項1に記載のキーワード抽出装置。
  4. 前記スコアリング部は、前記第2表示領域内に出現する第1キーワードの初期値となる第1ベーススコアを、該第2表示領域外でありかつ前記周辺領域内に出現する第2キーワードの初期値となる第2ベーススコアよりも高く設定し、
    前記文書の読み込み時は、前記第1キーワードについて前記第2表示領域の上部の領域内に出現するキーワードほどスコアを高く設定して前記第1ベーススコアに加算し、
    前記文書のスクロール後は、前記第1キーワードについて前記第2表示領域の下部の領域内に出現するキーワードほどスコアを高く設定して前記第1ベーススコアに加算し、前記第2キーワードについて該第2表示領域に近い領域内に出現するキーワードほどスコアを高く設定して第2ベーススコアに加算することを特徴とする請求項1に記載のキーワード抽出装置。
  5. 前記文書を少なくとも2つ以上に分割する領域を示す抽出単位領域を算出する抽出単位算出部と、
    前記第2表示領域よりも大きい領域を示す抽出判定領域を算出する抽出判定領域算出部と、
    前記抽出判定領域と前記抽出単位領域との一部の領域が重なり合うかどうかを判定する抽出対象領域判定部と、をさらに具備し、
    前記抽出部は、前記抽出対象領域判定部により一部の領域が重なり合うと判定された場合、前記抽出単位領域からキーワードの抽出が行われていなければ、該抽出単位領域からキーワードの抽出を行うことを特徴とする請求項1に記載のキーワード抽出装置。
  6. 前記スクロール情報は、スクロール後の時刻、およびスクロール速度をさらに含むことを特徴とする請求項5に記載のキーワード抽出装置。
  7. 前記スコアリング部は、前記第2表示領域内に出現する第1キーワードの第1ベーススコアを、該第2表示領域外でありかつ前記周辺領域内に出現する第2キーワードの第2ベーススコアよりも高く設定し、
    前記文書の読み込み後一定の期間内では、前記第1キーワードについて前記第2表示領域の上部の領域内に出現するキーワードほどスコアを高く設定して前記第1ベーススコアに加算し、該文書読み込み後前記期間の経過後では、該第1キーワードのスコアを全て同一のスコアに設定して該第1ベーススコアに加算し、
    前記文書のスクロール後前記期間内では、前記第1キーワードについて前記第2表示領域の下部の領域内に出現するキーワードほどスコアを高く設定して前記第1ベーススコアに加算し、前記第2キーワードのスコアを全て同一のスコアに設定して前記第2ベーススコアに加算し、該文書のスクロール後前記期間の経過後では、該第1キーワードのスコアを全て同一のスコアに設定して該第1ベーススコアに加算し、前記第2キーワードについて該第2表示領域に近い領域内に出現するキーワードほどスコアを高く設定して該第2ベーススコアに加算することを特徴とする請求項5に記載のキーワード抽出装置。
  8. 前記抽出判定領域算出部は、前記スクロール速度が早いほど前記抽出判定領域を大きくすることを特徴とする請求項6に記載のキーワード抽出装置。
  9. 前記キーワードの文字色、背景色、およびフォントの大きさを含むデザイン上の特性から、該キーワードがどれほど目立つかを示す指標である誘目性を該キーワードごとに算出する誘目性算出部をさらに具備し、
    前記スコアリング部は、前記誘目性を前記第1ベーススコアまたは前記第2ベーススコアに加算することを特徴とする請求項7に記載のキーワード抽出装置。
  10. ユーザが選択したキーワードの前記第2表示領域内の位置情報と、該ユーザが該キーワードを選択するまでのスクロール速度とに基づいて、ユーザのスクロール特性を算出するスクロール特性管理部をさらに具備し、
    前記スコアリング部は、該スクロール速度に応じて該第2表示領域内の領域ごとにスコアを設定して前記第1ベーススコアまたは前記第2ベーススコアに加算することを特徴とする請求項7に記載のキーワード抽出装置。
  11. コンピュータを、
    文書を表示する表示手段と、
    前記表示手段に表示される前記文書の領域を示す部分領域を算出する表示領域算出手段と、
    前記部分領域外の文書の領域を前記表示手段でスクロールを行うスクロール手段と、
    前記スクロールを行う以前に表示されていた部分領域である第1表示領域の位置情報と、該スクロールを行った後に表示される部分領域である第2表示領域の位置情報とを含むスクロール情報を生成するスクロール情報生成手段と、
    前記文書に出現するキーワードを該文書中から抽出する抽出手段と、
    前記スクロール情報から前記第1表示領域と前記第2表示領域とを含む部分領域を示す周辺領域を算出する周辺領域算出手段と、
    前記文書中において、キーワードの出現する領域に応じて該キーワードのスコアを算出するスコアリング手段と、
    前記スコアの高い順に、前記周辺領域内に出現するキーワードから少なくとも1つの前記キーワードを選択する画面を生成するキーワード選択画面生成手段として機能させるためのキーワード抽出プログラム。
JP2011532834A 2009-09-24 2009-09-24 キーワード抽出装置、およびプログラム Expired - Fee Related JP5238886B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/066561 WO2011036755A1 (ja) 2009-09-24 2009-09-24 キーワード抽出装置、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2011036755A1 JPWO2011036755A1 (ja) 2013-02-14
JP5238886B2 true JP5238886B2 (ja) 2013-07-17

Family

ID=43795526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011532834A Expired - Fee Related JP5238886B2 (ja) 2009-09-24 2009-09-24 キーワード抽出装置、およびプログラム

Country Status (3)

Country Link
US (1) US8904285B2 (ja)
JP (1) JP5238886B2 (ja)
WO (1) WO2011036755A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5025808B1 (ja) * 2011-03-31 2012-09-12 株式会社東芝 情報処理装置及び情報処理プログラム
JP5248655B2 (ja) * 2011-05-18 2013-07-31 株式会社東芝 情報処理装置およびプログラム
US9519726B2 (en) * 2011-06-16 2016-12-13 Amit Kumar Surfacing applications based on browsing activity
WO2013158687A1 (en) * 2012-04-16 2013-10-24 Genesisone, Inc. Method for automated documentation of structured query language including workflow and data dependencies
US9128994B2 (en) 2013-03-14 2015-09-08 Microsoft Technology Licensing, Llc Visually representing queries of multi-source data
US9569536B2 (en) 2013-12-17 2017-02-14 Microsoft Technology Licensing, Llc Identifying similar applications
US9773073B1 (en) 2014-05-02 2017-09-26 tronc, Inc. Online information system with continuous scrolling and position correction
US11335080B2 (en) * 2015-09-21 2022-05-17 International Business Machines Corporation System for suggesting search terms
EP3444725A4 (en) * 2016-04-28 2019-04-24 Huawei Technologies Co., Ltd. MAN-MACHINE INTERACTION METHOD AND DEVICE THEREOF
US11526521B2 (en) * 2016-07-15 2022-12-13 Microsoft Technology Licensing, Llc Prefetching using dynamic user model to reduce latency
CN108090057A (zh) * 2016-11-21 2018-05-29 阿里巴巴集团控股有限公司 信息展示方法和装置
JP6852417B2 (ja) * 2017-01-25 2021-03-31 大日本印刷株式会社 情報処理装置、情報処理方法およびプログラム
JP6453943B2 (ja) * 2017-06-09 2019-01-16 楽天株式会社 表示装置、表示方法、ならびに、プログラム
JP6648210B2 (ja) * 2018-07-31 2020-02-14 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
JP7298248B2 (ja) * 2019-04-05 2023-06-27 富士フイルムビジネスイノベーション株式会社 文書処理装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063283A (ja) * 2003-08-19 2005-03-10 Ricoh Co Ltd 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体
JP2006215681A (ja) * 2005-02-02 2006-08-17 Matsushita Electric Ind Co Ltd 文書内容把握支援システム
JP2009037454A (ja) * 2007-08-02 2009-02-19 Konica Minolta Holdings Inc 電子表示装置、及び表示方法
JP2009211385A (ja) * 2008-03-04 2009-09-17 Nec Corp 関連情報推薦装置、関連情報推薦方法、関連情報推薦システムおよび関連情報推薦プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4810469B2 (ja) 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063283A (ja) * 2003-08-19 2005-03-10 Ricoh Co Ltd 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体
JP2006215681A (ja) * 2005-02-02 2006-08-17 Matsushita Electric Ind Co Ltd 文書内容把握支援システム
JP2009037454A (ja) * 2007-08-02 2009-02-19 Konica Minolta Holdings Inc 電子表示装置、及び表示方法
JP2009211385A (ja) * 2008-03-04 2009-09-17 Nec Corp 関連情報推薦装置、関連情報推薦方法、関連情報推薦システムおよび関連情報推薦プログラム

Also Published As

Publication number Publication date
WO2011036755A1 (ja) 2011-03-31
JPWO2011036755A1 (ja) 2013-02-14
US8904285B2 (en) 2014-12-02
US20120210213A1 (en) 2012-08-16

Similar Documents

Publication Publication Date Title
JP5238886B2 (ja) キーワード抽出装置、およびプログラム
US10185782B2 (en) Mode identification for selective document content presentation
US10318095B2 (en) Reader mode presentation of web content
US9436419B2 (en) Selectively printing portions of a web page based on user selection
US8751953B2 (en) Progress indicators for loading content
US9152730B2 (en) Extracting principal content from web pages
US20160292264A1 (en) Information processing device, information processing method, and information processing program
US8949109B2 (en) Device, method, and program to display, obtain, and control electronic data based on user input
JP2003162532A (ja) サムネイル生成方法
US9569420B2 (en) Image processing device, information processing method, and information processing program
JP2003132083A (ja) 文書表示方法
US8782049B2 (en) Keyword presenting device
JP2012014293A (ja) 情報検索装置および情報検索方法
Ahmadi et al. User-centric adaptation of Web information for small screens
JP2014215911A (ja) 注目領域推定装置、方法およびプログラム
JP2009245162A (ja) 表示制御装置、表示制御方法、及び、表示制御プログラム
Xiang et al. Effective page segmentation combining pattern analysis and visual separators for browsing on small screens
JP2004054588A (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
KR20130021482A (ko) Html 테이블의 셀 단위 편집 방법
JP2005084879A (ja) 情報処理装置および情報処理方法およびプログラムおよび記録媒体
JP2009199512A (ja) 情報処理装置、およびプログラム
JP3967230B2 (ja) 画像情報表示システム
JP2012113756A (ja) 情報処理装置及び情報処理方法
KR101355480B1 (ko) 돔 트리 기반 마우스를 이용한 웹문서 내 영역선택방법
JP2013069007A (ja) 電子ブック処理装置、電子ブック処理方法、およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees