JP4959032B1 - ウェブページ解析装置およびウェブページ解析用プログラム - Google Patents

ウェブページ解析装置およびウェブページ解析用プログラム Download PDF

Info

Publication number
JP4959032B1
JP4959032B1 JP2012501042A JP2012501042A JP4959032B1 JP 4959032 B1 JP4959032 B1 JP 4959032B1 JP 2012501042 A JP2012501042 A JP 2012501042A JP 2012501042 A JP2012501042 A JP 2012501042A JP 4959032 B1 JP4959032 B1 JP 4959032B1
Authority
JP
Japan
Prior art keywords
keyword
web page
point
information
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012501042A
Other languages
English (en)
Other versions
JPWO2013038519A1 (ja
Inventor
竜一 得上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mining Brownie, Inc.
Original Assignee
Mining Brownie, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mining Brownie, Inc. filed Critical Mining Brownie, Inc.
Application granted granted Critical
Publication of JP4959032B1 publication Critical patent/JP4959032B1/ja
Publication of JPWO2013038519A1 publication Critical patent/JPWO2013038519A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを行ごとに付与するとともに、キーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。そして、深さポイントとキーワードポイントとに基づいて、キーワードが含まれている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出し、抽出した対象ブロック内から所定の条件を満たす情報を抽出するようにすることにより、キーワードから近い距離に掲載されることが多い所望の情報をウェブページから自動的に抽出することができるようにする。
【選択図】図2

Description

本発明は、ウェブページ解析装置およびウェブページ解析用プログラムに関し、特に、HTML(HyperText Markup Language)等で記述されたウェブページの構造化文書を解析する装置およびプログラムに関するものである。
現在、インターネット上には多数のウェブページが存在し、多種多様な情報が提供されている。ユーザは、これらのウェブページを閲覧することにより、所望の情報を取得することが可能である。
従来、所望の情報が掲載されたウェブページを探し出すために、検索エンジンと呼ばれるプログラムが提供されている。基本的には、ユーザが所望の情報に関連するキーワードを検索サイトにて入力すると、当該検索サイトに組み込まれている検索エンジンが、入力されたキーワードを含むウェブページを検索し、検索された複数のウェブページをURLのリストとして提示するようになっている。
しかし、検索エンジンでは、単純にキーワードを含むウェブページを探索して抽出するだけなので、抽出されたウェブページの中には、ユーザが希望しないノイズとなるウェブページも多く含まれている。そのため、ユーザは、検索エンジンによってリストアップされたURLに対して順にアクセスして、ウェブページの内容を1つ1つ確認していく手作業が必要であった。
例えば、各種商品の価格調査をするために、商品と価格とが掲載されたEC(電子商取引)サイトのウェブページを検索エンジンで検索する場合を考える。例えば、どのECサイトにも記述されていそうな「価格」というキーワードを入力して検索すると、ECサイトのウェブページが多く抽出されるが、ECサイト以外のウェブページも抽出結果の中にノイズとして含まれてしまう。この場合ユーザは、多くのノイズも含めてウェブページを1つ1つ開いて内容を確認していく必要があるので、作業効率が悪化するという問題があった。
これに対して、ウェブページのような構造化文書の種別を判定する手法が提案されている(例えば、特許文献1,2参照)。この判定手法を用いれば、例えばECサイトのウェブページだけを検索することが可能となる。
特開2000−29902号公報 特開2003−308327号公報
特許文献1では、あらかじめHTML文書すべてについて、タグとキーワードによる特徴、イメージ情報による特徴、リンク情報による特徴、タグ構造による特徴から構造的な特徴を抽出し、ルールと照合することによって、分類する種別への適合度を計算する。そして、入力されたキーワードと種別を用いて、ある適合度以下の文書を削除して絞り込んだ結果を表示する。
しかしながら、この特許文献1に記載の技術では、構造的特徴ルールベースおよび調整ルールの構築や調整が必須である。このために、ルールのベースとなる特徴を選び出し、各ルールに与える点数を設定するなどのチューニングが必要であるので、精度のよい判定を行うには多くの手間と時間を要するという問題があった。
また、特許文献1に記載の技術では、インターネット上のウェブページの変化に即座に対応できないという問題もあった。すなわち、ウェブページの特徴は日々変化しており、この変化に応じて、最初に判定ルールベースを作成したのと同様に、経験知識を積み重ねながら試行錯誤を繰り返してルールを再構築する必要がある。
このような問題の解消を目的として、特許文献2では、ネットワークを介して収集された複数の構造化文書の種別を教師データとして入力する教師データ入力手段と、構造化文書および教師データに基づいて、複数の構造化文書の種別を判定するための判定ルールを作成する判定ルール作成手段と、判定ルール作成手段により作成された判定ルールに従って構造化文書の種別を判定する判定ルール実行手段とを備える。
しかしながら、上記特許文献1,2に記載の技術では、ウェブページの種別までは判定することができるものの、ウェブページの内容までは解析することができないという問題があった。通常、1つのウェブページの中にも多くの情報が含まれている。ユーザが所望する情報というのは、ウェブページ全体にある場合よりも、ウェブページの中の一部に存在している場合の方が多い。そのため、仮にユーザが希望する種別のウェブページに絞って抽出することができたとしても、更にウェブページの内容をユーザが目視により確認していく作業が必要となる。
例えば、上述のようにウェブページの情報を解析して各種商品の価格調査をしたい場合、特許文献1,2に記載の技術によれば、種別の判定によりECサイトのウェブページだけを抽出することまでは可能である。しかしながら、そのウェブページの中のどこに商品と価格が掲載されているかまでは解析することができない。そのため、ユーザは、抽出されたECサイトのウェブページを1つ1つ開いて内容を確認していく手作業が必要であり、作業効率が悪化するという問題があった。
本発明は、このような問題を解決するために成されたものであり、インターネット上のウェブサイトにある多くのウェブページから所望の情報を効率的に抽出できるようにすることを目的とする。
この目的を達成するために、本発明では、ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを構造化文書の行ごとに付与するとともに、キーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。そして、深さポイントとキーワードポイントとに基づいて、キーワードが含まれている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出し、抽出した対象ブロック内から所定の条件を満たす情報を抽出するようにしている。
このように構成した本発明によれば、ウェブページを構成している構造化文書において、キーワードが含まれている行から近い距離にある所定範囲の行の集合が対象ブロックとして抽出され、当該対象ブロックから所定の条件を満たす情報が抽出される。よって、所望の情報を抽出するために必要な条件を上記所定の条件として設定しておけば、キーワードから近い距離に掲載されることが多い所望の情報をウェブページから自動的に抽出することができる。これにより、インターネット上のウェブサイトにある多くのウェブページから所望の情報を効率的に抽出することができる。
本実施形態によるウェブページ解析装置を含むウェブページ解析システムの構成例を示す図である。 本実施形態によるウェブページ解析装置の機能構成例を示すブロック図である。 本実施形態のウェブページ解析装置により解析対象とするウェブページの一例を示す図である。 図3に示したウェブページのHTML文書の一例を示す図である。 図4に示したHTML文書の行ごとのポイントを示す図である。 図5に示したポイントをグラフ化して対象ブロックの抽出例を説明するための図である。 本実施形態によるウェブページ解析装置の動作例を示すフローチャートである。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態によるウェブページ解析装置を含むウェブページ解析システムの構成例を示す図である。図1に示すように、本実施形態のウェブページ解析システムは、ウェブページ収集部10、ウェブページ記憶部20、ウェブページ解析装置30、表示部40および操作部50を備えて構成されている。
ウェブページ収集部10は、インターネット上にある多くのウェブサイトから多くのウェブページを収集してくるものである。このウェブページ収集部10の機能は、例えば、「クローラ」と呼ばれるページ収集ロボットのプログラムにより実現される。ウェブページ記憶部20は、ウェブページ収集部10により収集された多くのウェブページを記憶する。
ウェブページ解析装置30は、ウェブページ記憶部20に記憶された多くのウェブページを解析して、ユーザが所望する情報をウェブページから抽出して出力する。本実施形態では、ウェブページ解析装置30が抽出した所望の情報をディスプレイ等の表示部40に出力する。ただし、出力先は表示部40に限定されない。例えば、プリンタ等の印刷部であってもよいし、ハードディスクや半導体メモリ等の記録媒体であってもよい。
操作部50は、ユーザがウェブページ解析装置30に対してキーワードを入力する際に使用するものであり、例えばキーボードやマウスにより構成される。また、操作部50は、所望の情報としてどのような種類の情報を抽出したいのかを表す情報タイプをユーザが指定する際にも使用する。
例えば、ユーザは、商品の価格情報を抽出したいのか、会社情報を抽出したいのか、求人情報を抽出したいのかといった情報の種類を所望の情報タイプとして指定する。また、ユーザは、指定した情報タイプとの関連性があると思われる単語をキーワードとして入力する。例えば、商品の価格情報であれば「税込」、会社情報であれば「代表」、求人情報であれば「勤務」などの単語をキーワードとして入力する。
なお、ここではユーザが所望の情報タイプとキーワードとの両方を操作部50の操作により入力する例について説明したが、本発明はこれに限定されない。例えば、情報タイプと所定のキーワードとをあらかじめ関連付けて記憶しておき、ユーザが操作部50を操作して所望の情報タイプを指定したら、その情報タイプに関連付けられたキーワードを自動的に入力するようにしてもよい。
ウェブページ解析装置30は、解析処理部31、キーワード設定部32およびキーワード記憶部33を備えて構成されている。解析処理部31は、ウェブページ記憶部20に記憶された多くのウェブページを解析し、ユーザが所望する情報をウェブページから抽出して出力する処理を実行する。なお、この解析処理部31の詳細な機能構成については、図2を用いて後述する。
キーワード設定部32は、解析処理部31がウェブページを解析する際に使用するキーワードを設定する。また、キーワード設定部32は、設定したキーワードに対して付与すべきキーワードポイント(詳細は後述する)の値も設定する。キーワード記憶部33は、キーワード設定部32により設定されたキーワードおよびそれに対応するキーワードポイントを記憶する。
本実施形態において、キーワード設定部32は、操作部50の操作を通じてユーザにより入力された単語をキーワードとして設定する。また、キーワード設定部32は、解析処理部31によるウェブページの解析処理の過程において、解析対象とされたウェブページの中から抽出された単語もキーワードとして追加設定する。
そして、キーワード設定部32は、このようにして設定したキーワードに対して付与すべきキーワードポイントの値を設定し、各キーワードおよびキーワードポイントを互いに関連付けてキーワード記憶部33に記憶する。
なお、キーワード設定部32は、ユーザが操作部50の操作を通じて入力したキーワードについては、その入力時点においては例えば所定の値をキーワードポイントとして初期設定する。一方、解析処理の過程でウェブページから追加設定されたキーワードについては、キーワード設定部32は、所定の計算によって求められる値をキーワードポイントとして初期設定する。このようにしてキーワードポイントを初期設定した後も、キーワード設定部32は、ウェブページの解析を進めるごとに、上記所定の計算を行ってキーワードポイントを随時更新する。
解析処理部31は、ウェブページ記憶部20に記憶されているウェブページのうち、キーワード記憶部33に記憶されたキーワードが含まれるウェブページを対象として解析処理を実行する。上述したように、解析処理の過程でウェブページの中から抽出された単語がキーワードとして追加設定されるので、キーワード記憶部33に記憶されるキーワードは学習効果により変化していく。また、キーワードに対して与えられらるキーワードポイントの値も学習効果により増減していく。
このため、キーワードが追加されていない解析当初は、操作部50の操作を通じてユーザにより入力されたキーワード(例えば、情報タイプが商品の価格情報の場合は「税込」という単語)だけがキーワード記憶部33に記憶されており、当該キーワードを含むウェブページだけが解析処理部31による解析対象とされる。これに対して、複数のウェブページに対する解析処理が進むにつれて、ウェブページから抽出されたキーワードがキーワード記憶部33に追加して記憶され、当初の「税込」というキーワードが含まれていないウェブページも解析処理部31による解析対象に含まれることとなる。
図2は、本実施形態によるウェブページ解析装置30の機能構成例を示すブロック図である。図3は、本実施形態のウェブページ解析装置により解析対象とするウェブページの一例を示す図である。図4は、図3に示したウェブページの構造化文書(HTML文書)の一例を示す図である。図5は、図4に示したHTML文書の行ごとのポイントを示す図である。図6は、図5に示したポイントをグラフ化して対象ブロックの抽出例を説明するための図である。
以下、これらの図2〜図6を用いて、本実施形態によるウェブページ解析装置30の機能構成について説明する。なお、図3および図4は、ウェブページの一例として、ECサイトのウェブページおよびそのHTML文書を示している。また、図5および図6は、図3および図4に示すウェブページの解析例を示している。
図2に示すように、本実施形態のウェブページ解析装置30は、その機能構成として、上述したキーワード設定部32およびキーワード記憶部33の他に、深さポイント付与部34、キーワードポイント付与部35、ブロック抽出部36、情報抽出部37およびフィルタリング部38を備えている。なお、深さポイント付与部34、キーワードポイント付与部35、ブロック抽出部36、情報抽出部37およびフィルタリング部38により図1の解析処理部31が構成される。
本実施形態のウェブページ解析装置30は、実際には各種演算処理を実行するCPU、ウェブページ解析用プログラムを格納するROM、データ格納やプログラム実行のためのワークエリアとして利用されるRAMおよびハードディスクを有し、ROMに格納されたウェブページ解析用プログラムに従ってCPUが動作することにより、各機能ブロック32〜38による処理を実行する。
ウェブページ解析用プログラムを記憶する記録媒体として、ROMの代わりに、CD−ROM、フレキシブルディスク、ハードディスク、磁気テープ、光ディスク、光磁気ディスク、DVD、不揮発性メモリカード等を用いることができる。また、ウェブページ解析用プログラムをインターネット等のネットワークを介してコンピュータにダウンロードするようにしてもよい。
深さポイント付与部34は、ウェブページ記憶部20に記憶されたウェブページのうち、解析対象とされたウェブページを構成している構造化文書(HTML文書)のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを構造化文書の行ごとに付与する。
通常、HTMLは、“<”および“>”の記号によって囲まれたタグと呼ばれる命令文を用いて、ウェブページ上に色々な表現をすることができるようになっている。タグには、命令の開始場所であることを示す開始タグと、命令の終了場所であることを示す終了タグとがある。原則として、開始タグは、“<”と“>”と命令文との組み合わせによって表記される。一方、終了タグは、“</”と“>”と命令文との組み合わせによって表記される。
また、HTML文書はタグによってツリー構造の形をとっている。通常、<html>タグの下階層(子階層)には<head>タグと<body>タグとがあり、<body>タグの下階層においてウェブページの内容に応じたツリー構造が展開される。1つの命令文に関する開始タグおよび終了タグは必ず同じ階層になるが、当該開始タグと終了タグとの間に別の命令文のタグが挿入されると、当該別の命令文のタグについては階層が1つ下がる。
例えば、図3に示すウェブページを記述した図4のHTML文書の例において、1行目の“<html>”は開始タグ、それに対応する終了タグは最終行にある“</html>”であり、この2つのタグは第1階層(ルート階層)に属する。また、2行目の“<head>”は開始タグ、それに対応する終了タグは6行目にある“</head>”であり、この2つのタグは第2階層に属する。
上述したように、深さポイント付与部34は、HTML文書のルートからの階層の深さに応じた深さポイントを行ごとに付与する。なお、本実施形態において「行ごと」というのは、「開始タグごと」ということと同義である。すなわち、HTML文書の表記において見かけ上は複数の開始タグが同じ行に存在していても、開始タグごとに行が変わったとみなして深さポイントを付与する。また、HTML文書において1つの命令文に関する開始タグおよび終了タグは必ず同じ階層になるので、開始タグの行に対して深さポイントを付与すれば十分である。
例えば、図4の例において、1行目の<html>タグは第1階層であるから、深さポイントは“1”である(図5参照。以下同様)。また、2行目の<head>タグは第2階層であるから、深さポイントは“2”である。さらに、第3行目の<meta>タグ、第4行目の<link>タグ、第5行目の<title>タグについては何れも深さポイントは“3”である。次の6行目にある“</head>”は終了タグであるから第2階層に上がる。そのため、7行目の<body>タグは第2階層となり、深さポイントは“2”である。
キーワードポイント付与部35は、HTML文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。ここで使用するキーワードおよびそれに対応するキーワードポイントは、キーワード設定部32により設定されキーワード記憶部33に記憶されたものである。
上述したように、キーワード記憶部33に記憶されるキーワードは、最初は操作部50の操作を通じてユーザにより入力されたものだけであるが、繰り返しの学習によって徐々に追加されていく。また、キーワード記憶部33に記憶されるキーワードポイントの値は、複数のウェブページの解析が進むにつれて随時更新される。
図4および図5の例では、24行目の<span>タグが属する第6階層に記述された「特価」というキーワードが学習によって追加設定されており、この「特価」というキーワードに対してキーワードポイントとして“2.31”が設定されている。そのため、キーワードポイント付与部35は、「特価」というキーワードに対して設定されているキーワードポイント“2.31”を<span>タグの深さポイント“6”に加算することによって、<span>タグがある24行目のポイントを“8.31”としている。
また、図4および図5の例では、28行目の<input>タグが属する第7階層に記述された「カート」というキーワードも学習によって追加設定されており、この「カート」というキーワードに対してキーワードポイントとして“2.02”が設定されている。そのため、キーワードポイント付与部35は、「カート」というキーワードに対して設定されているキーワードポイント“2.02”を<input>タグの深さポイント“7”に加算することによって、<input>タグがある28行目のポイントを“9.02”としている。
なお、キーワード設定部32が設定してキーワード記憶部33に記憶させるキーワードポイントの計算方法については後述する。
ブロック抽出部36は、キーワードポイントが加算されて深さポイントとの差分が生じている行(図4の例では、「特価」のキーワードが含まれる<span>タグの24行目および「カート」のキーワードが含まれる<input>タグの28行目)を含む所定範囲の行の集合を、所望の情報やキーワードを抽出する対象とすべきブロック(対象ブロックという)として抽出する。対象ブロックは、所望の情報が含まれている可能性が高い範囲を規定したものである。
対象ブロックを規定する所定範囲の終点は、上記差分が生じている行よりも後の行で、キーワードポイントが加算されておらず且つ深さポイントが極小となっている最初の行とする。また、所定範囲の始点は、上記差分が生じている行よりも前の行で、終点と同じ値で深さポイントが極小となっている行とする。
ここで、対象ブロックの始点および終点について、図6に示すグラフを参照して説明する。なお、図6は、図4に示すHTML文書の各行に対して付与されたポイント(図5に示す深さポイントおよびこれとキーワードポイントとの加算結果)を単純に折れ線グラフにしたものであり、横軸は行数、縦軸はポイントの値を示している。
図6において、破線の折れ線グラフ61が深さポイントをグラフ化したものであり、実線の折れ線グラフ62が深さポイントとキーワードポイントとの加算結果をグラフ化したものである。また、破線の四角で囲んだ範囲が対象ブロック63である。また、この対象ブロック63の対応箇所を図3に示すウェブページ上で示すと、破線の四角で囲んだ範囲63’が該当する。
図6に示すように、24行目と28行目でグラフの値に差分が生じている。そこで、ブロック抽出部36は、28行目よりも後の行で、キーワードポイントが加算されておらず(すなわち、深さポイントとの差分が生じておらず)、且つ深さポイントが極小となっている最初の行を所定範囲の終点とする。図6の例では29行目が終点となる。この終点における深さポイントの値は“3”である。一方、ブロック抽出部36は、24行目よりも前の行で、終点と同じ値“3”で深さポイントが極小となっている行を所定範囲の始点とする。図6の例では15行目が始点となる。
情報抽出部37は、ブロック抽出部36により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する。例えば、ユーザが操作部50の操作を通じて、ウェブページから抽出したい情報のタイプとして商品の価格情報を指定した場合、情報抽出部37は、所定の条件を満たす情報として、商品名および価格を抽出する。すなわち、情報抽出部37は、図3に示すECサイトのウェブページに設定された対象ブロック63内から商品名および価格を抽出する。
具体的には、情報抽出部37は、形態素解析によって商品名を抽出する。一般的に、商品名は未知語と名詞で構成されていることが多い。そこで、情報抽出部37は、商品名を含む文や単語を形態素解析して、形態素のうちの7割が未知語と名詞で占められていれば、それは商品名であると判断する。また、価格であれば、数値と,(カンマ)との羅列があり、その羅列の前または後に“¥”または“円”といった文字が含まれていることが多い。そこで、情報抽出部37は、こういった正規表現の条件を利用して価格を判別する。
なお、情報タイプとして会社情報が指定されている場合、情報抽出部37は、所定の条件を満たす情報として、所在地、代表者氏名、資本金、電話番号、従業員数、設立年月日などの情報を抽出する。例えば、情報抽出部37は、形態素解析をして地名と数値との組み合わせから成る部分を所在地であると判断する。また、数字と()または−との組み合わせから成る部分を電話番号であると判断する。また、数値と,(カンマ)との羅列があり、その羅列の近くに資本金という文字列がある場合はその数値が資本金であると判断する。他の情報についても、形態素解析や正規表現の条件、近くに存在する文字列の条件により判別する。
また、情報タイプとして求人情報が指定されている場合、情報抽出部37は、所定の条件を満たす情報として、勤務時間、給与、手当、勤務地などの情報を抽出する。これらの情報を抽出する際にも、情報抽出部37は、形態素解析や正規表現の条件、近くに存在する文字列の条件により所望の情報か否かを判別する。
フィルタリング部38は、情報抽出部37により対象ブロック内から抽出された情報について、情報タイプに応じてあらかじめ定めた1以上の種類の情報が揃っているか否かを判定し、揃っている場合にのみ、対象ブロック内から抽出された情報を表示部40に出力する。例えば、ユーザの指定した情報タイプが商品の価格情報である場合、フィルタリング部38は、商品名と価格の2つが揃っているか否かを判定する。対象ブロック内から抽出された情報がどちらか一方だけの場合は、フィルタリング部38はその情報を表示部40に出力しない。
なお、情報タイプとして会社情報が指定されている場合、フィルタリング部38は、例えば、所在地、代表者氏名および資本金の3つが揃っているか否かを判定する。また、情報タイプとして求人情報が指定されている場合、情報抽出部37は、例えば、給与、手当および勤務地の3つが揃っているか否かを判定する。そして、対象ブロック内から抽出された情報が3つとも揃っていない場合は、フィルタリング部38はその情報を表示部40に出力しない。
ここで、キーワード設定部32によるキーワードポイントの計算方法について説明する。上述のように、キーワード設定部32は、ウェブページ記憶部20に記憶されたウェブページの解析を開始する前の最初の段階では、操作部50の操作を通じてユーザにより入力された単語をキーワードとして設定し、キーワード記憶部33に記憶する。また、キーワード設定部32は、ウェブページの解析処理の過程において、ブロック抽出部36により抽出された対象ブロックの中に含まれる単語を抽出してキーワードとして追加設定し、キーワード記憶部33に記憶する。
例えば、商品の価格情報が情報タイプとして指定されている場合、キーワード設定部32は、対象ブロック内に含まれている商品名や価格以外の単語を対象ブロック内から抽出し、新しいキーワードとしてキーワード記憶部33に追加設定する。ここで、対象ブロック内に含まれている商品名および価格の情報については、その情報を抽出した情報抽出部37からキーワード設定部32が通知を受ける。キーワード設定部32は、この通知を受けて把握した商品名や価格以外の単語を対象ブロック内から抽出する。
また、キーワード設定部32は、既存のキーワードおよび新たに設定したキーワードを含めて、キーワード記憶部33に記憶されているキーワードに対応するキーワードポイントを計算して記憶する。例えば、キーワード設定部32は、解析対象とされたウェブページからブロック抽出部36により抽出された対象ブロックの総数と、キーワードとして設定された単語の出現数とを用い、対象ブロックの総数に対する単語の出現数の割合に応じた値を計算してキーワードポイントとして設定する。
以下に、この計算方法をもう少し詳しく説明する。すなわち、ブロック抽出部36によって、1つのウェブページから0個または1個以上の対象ブロックが抽出される。複数のウェブページを解析すれば、ブロック抽出部36により複数のウェブページから総数でN個の対象ブロックが抽出され得る。そして、キーワード設定部32によって、当該N個の対象ブロック内から様々な単語がキーワードとして抽出される。このとき、同じ単語が1個または複数の対象ブロックからM回抽出され得る。この場合、キーワード設定部32は、M/Nの値を計算してキーワードポイントとして設定する。
これにより、単語の出現数Mが多くなるほど、その単語に与えられるキーワードポイントは大きな値となる。また、単語の出現数Mが同じであれば、対象ブロックの総数Nが少ないほど、キーワードポイントは大きな値となる。本実施形態では、商品名や価格が含まれる可能性が高い対象ブロックをキーワードポイントと深さポイントとに基づいて特定し、その対象ブロック内から商品名や価格以外の新たな単語をキーワードとして抽出する仕組みとしている。そのため、商品名や価格と近い距離に置かれることが多い単語については出現数Mが多くなり、キーワードポイントも大きくなる傾向となる。
図3に示したECサイトのウェブページの例では、商品名や価格と近い距離に置かれることが多い単語の一例として、「特価」という単語に対して2.31ポイント、「カート」という単語に対して2.02ポイントがキーワードポイントとして与えられている。
ただし、これはある時点において設定されたキーワードポイントの値である。複数のウェブページの解析を進めていくと、複数のウェブページから抽出される対象ブロックの総数Nおよび対象ブロック内から抽出される単語の出現数Mは変動する。よって、キーワードポイントも絶えず変動する。そこで、キーワード設定部32は、キーワードとして抽出した単語に対して、その出現数Mと、抽出した対象ブロックの総数Nとを関連付けて記憶しておき、キーワードポイントの計算に使用する。
そして、キーワード設定部32は、計算したキーワードポイントを、キーワードに関連付けてキーワード記憶部33に記憶する。ここで、新しく設定されたキーワードについては、新規に計算されたキーワードポイントをキーワード記憶部33に記憶する。既存のキーワードについては、再計算されたキーワードポイントをキーワード記憶部33に更新して記憶する。
次に、上記のように構成した本実施形態によるウェブページ解析装置30の動作を説明する。図7は、本実施形態によるウェブページ解析装置30の動作例を示すフローチャートである。図7に示すフローチャートは、ユーザが操作部50を操作してウェブページ解析の指示をウェブページ解析装置30に与えたときに開始する。なお、図7に示すフローチャートの開始時点において、ウェブページ記憶部20には複数のウェブページが既に記憶されているものとする。
図7において、まずユーザが操作部50の操作を通じて、所望の情報としてどのような種類の情報を抽出したいのかを表す情報タイプを指定する(ステップS1)。ここでは一例として、商品の価格情報を情報タイプとして指定したとする。また、ユーザが操作部50の操作を通じて、指定した情報タイプとの関連性があると思われる単語をキーワードとして入力する(ステップS2)。ここでは、「税込」という単語を入力したとする。キーワード設定部32は、入力された単語をキーワードとして設定し、キーワード記憶部33に記憶する。
次に、深さポイント付与部34は、ウェブページ記憶部20に記憶されている複数のウェブページの中から何れか1つを取得し(ステップS3)、そのウェブページ中にキーワード(今の場合は「税込」)が含まれているか否かを判定する(ステップS4)。キーワードが含まれていなければ、処理はステップS13に進む。これにより、キーワードが全く含まれていないウェブページについては、解析対象から外されることとなる。
一方、ウェブページの中にキーワードが含まれている場合は、以下に説明する解析処理を実行する。すなわち、まず深さポイント付与部34は、現在解析対象とされているウェブページを構成しているHTML文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを行ごとに付与する(ステップS5)。
さらに、キーワードポイント付与部35は、キーワード記憶部33に記憶されているキーワードおよびそれに対応するキーワードポイントに基づいて、HTML文書の中でキーワードが含まれる行について、当該キーワードに応じたキーワードポイントを深さポイントに加算する(ステップS6)。1つ目のウェブページの解析では、「税込」というキーワードが含まれる行について、当該キーワードに応じたキーワードポイント(例えば、所定の値)を深さポイントに加算する。
次に、ブロック抽出部36は、深さポイントおよびキーワードポイントに基づいて、現在解析対象としているウェブページ内から対象ブロックを抽出する(ステップS7)。ここで、ブロック抽出部36は、キーワードポイントが加算されて深さポイントとの差分が生じている行を含み、その行よりも前および後の行でキーワードポイントが加算されておらず且つ深さポイントが極小となっている行を始点および終点とする所定範囲を対象ブロックとして抽出する。
次に、情報抽出部37は、ブロック抽出部36により抽出された対象ブロック内から、所定の条件を満たす所望の情報を抽出する(ステップS8)。ここでは、情報タイプとして商品の価格情報が指定されているので、情報抽出部37は、所定の条件を満たす所望の情報として、商品名および価格を対象ブロック内から抽出する。
そして、フィルタリング部38は、情報抽出部37により対象ブロック内から抽出された所望の情報について、情報タイプに応じてあらかじめ定めた1以上の種類の情報が揃っているか否かを判定する(ステップS9)。ここでは、商品の価格情報という情報タイプに応じてあらかじめ定められた商品名と価格の2つが揃っているか否かを判定する。
ここで、対象ブロック内から抽出された所望の情報として、必要な情報が揃っていない場合は、処理はステップS13に進む。一方、必要な情報が揃っている場合は、フィルタリング部38は、対象ブロック内から抽出された所望の情報(商品名と価格)を表示部40に出力する(ステップS10)。
その後、キーワード設定部32は、ブロック抽出部36により抽出された対象ブロックの中に含まれる単語(商品名および価格以外の単語)を抽出してキーワードとして追加設定し、キーワード記憶部33に記憶する(ステップS11)。また、キーワード設定部32は、新たに設定したキーワードを含めて、キーワード記憶部33に記憶されているキーワードに対応するキーワードポイントを計算し、キーワード記憶部33に記憶する(ステップS12)。
最後に、深さポイント付与部34は、ウェブページ記憶部20に記憶されている複数のウェブページを全て処理し終えたか否かを判定する(ステップS13)。全てのウェブページについて処理が終了した場合、図7に示すフローチャートの処理は終了する。一方、全てのウェブページについて処理がまだ終了していない場合は、ステップS3に戻り、別のウェブページを取得して以上と同様の処理を繰り返す。
ステップS3に戻って別のウェブページを取得する前に、ステップS11,S12で新たなキーワードが追加設定されていた場合は、ユーザが入力した「税込」というキーワードが当該別のウェブページ中に含まれていなくても、追加設定されたキーワードが当該別のウェブページ中に含まれていれば、その別のウェブページは所望の情報の抽出処理(ステップS5〜S10)およびキーワードの学習処理(ステップS11〜S12)の対象とされる。
なお、図7に示すフローチャートでは、ウェブページ記憶部20に記憶されている複数のウェブページの処理が一巡したところで処理を終了するようにしているが、本発明はこの例に限定されない。例えば、自動的に、あるいはユーザによる操作部50の操作を通じて、ウェブページ記憶部20に記憶されている複数のウェブページの処理を複数回行うようにしてもよい。
上述のように、複数のウェブページの解析処理を進めていくうちに、キーワードが学習効果によって徐々に増えていく。よって、一巡目で解析処理の対象とされなかった(ステップS4でキーワードが含まれないと判断された)ウェブページも、二巡目以降では解析処理の対象とされる可能性もある。これにより、より多くのウェブページから所望の情報を抽出できる可能性が高くなるというメリットがある。なお、二巡目以降では、一度も解析処理の対象とされていないウェブページだけに絞って解析を行うようにすれば、処理効率を上げることもできる。
以上詳しく説明したように、本実施形態では、ウェブページを構成しているHTML文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを行ごとに付与するとともに、キーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。そして、深さポイントとキーワードポイントとに基づいて、キーワードが含まれている行を含む前後の所定範囲を対象ブロックとして抽出し、抽出した対象ブロック内から所定の条件を満たす情報(例えば、商品名および価格)を抽出するようにしている。
このように構成した本実施形態によれば、ウェブページを構成しているHTML文書において、キーワードが含まれている行から近い距離にある所定範囲の行の集合が対象ブロックとして抽出され、当該対象ブロック内から所定の条件を満たす所望の情報が抽出される。例えば、形態素解析や正規表現を利用した所定の条件を満たす所望の情報として、商品名および価格が抽出される。
したがって、情報タイプ(商品の価格情報、会社情報、求人情報など)に応じて所望の情報を抽出するために必要な条件を所定の条件として設定しておけば、キーワードから近い距離に掲載されることが多い所望の情報をウェブページから自動的に抽出することができる。これにより、インターネット上のウェブサイトにある多くのウェブページから所望の情報を効率的に抽出することができる。
また、本実施形態では、ブロック抽出部36を設け、単に所定の条件を満たす情報をウェブページから抽出するのではなく、ウェブページの中から対象ブロックを抽出し、当該対象ブロックの中だけから所定の条件を満たす情報を抽出している。そのため、例えば商品名と価格が1つのウェブページ内に存在していても、両者が構造的に遠い位置に配置されていて互いの関連性が乏しいものについては、所望の情報には該当しないとして抽出の対象から外すことができる。
ある1つの商品に関して商品名と価格を表記したものであれば、図3に示したように両者は近い距離に配置されるのが通常である。本実施形態では、このようなケースだけを対象として商品名と価格を抽出することができるので、所望の情報ではないノイズの抽出を少なくすることができる。
また、本実施形態では、フィルタリング部38を設け、対象ブロック内から抽出される商品名や価格であっても、その両者が揃っていなければ所望の情報として出力しないようにしている。これにより、商品名と価格のどちらか一方だけがたまたま対象ブロック内に存在するケースについては、所望の情報には該当しないとして除外することができる。したがって、所望の情報ではないノイズの抽出をより少なくすることができる。
また、本実施形態では、キーワード設定部32を設け、対象ブロックの抽出に使用するキーワードを学習によって可変設定できるようにしている。そして、可変設定するキーワードは、対象ブロック内から抽出するようにしている。つまり、本実施形態では、対象ブロック内に含まれる既存のキーワードや所望の情報から近い距離にある単語をキーワードとして追加設定できるようにしている。
キーワードを固定で使用すると、所望の情報の抽出精度が殆どのそのキーワードの良し悪しに依存してしまうことになる。これに対して、本実施形態によれば、最初は所定のキーワードを設定する必要があるものの、ウェブページの解析を進めるにつれて、所望の情報を抽出するために好ましい単語(実際にインターネット上に存在する複数のウェブページにおいて所望の情報の近くで使用されている単語)が順次キーワードとして追加設定されていく。これにより、所望の情報の抽出精度を上げることができる。
なお、上記実施形態では、キーワードポイントの計算方法の一例として、対象ブロックの総数に対する単語の出現数の割合に応じた値を計算してキーワードポイントとして設定する例について説明したが、本発明はこれに限定されない。例えば、所望の情報から単語までの構造上の距離の大きさを更に加味してキーワードポイントを計算してもよい。具体的には、所望の情報からの構造上の距離が近い単語ほどキーワードポイントが大きくなるように係数を乗算するという方法が考えられる。ここで言う「構造上の距離」とは、例えば行数の差分としてもよいし、階層数の差分としてもよい。あるいは、階層のツリー構造を擬似的に家系図として見た場合の親等数の差分としてもよい。
また、上記実施形態では、情報抽出部37により対象ブロックから抽出された情報について、情報タイプとして必要な情報が揃っている場合にのみキーワードの学習を行う例について説明したが、必要な情報が揃っていない場合にもキーワードの学習を行うようにしてもよい。ただし、必要な情報が揃っている場合にのみ所望の情報を出力するようにフィルタリング部38で制御しているので、キーワードの学習も必要な情報が揃っている場合にのみ行うのが好ましい。
また、上記実施形態において、キーワード設定部32により計算されたキーワードポイントが閾値以下のときは、キーワードポイントを“0”とするようにしてもよい。キーワードとして設定された単語の出現頻度が極めて少なくてキーワードポイントが小さな値となる場合でも、それをそのまま設定しておくと、その単語が含まれる行に関しては、深さポイントとの差分が僅かではあるが存在することになる。
そのため、その僅かな差分しかない行を含む所定範囲も、対象ブロックの抽出対象となってしまう。この場合、その対象ブロック内には所望の情報が含まれていない可能性が高いため、抽出した対象ブロック自体がノイズとなってしまう可能性がある。これに対して、キーワードポイントが閾値以下のときは全て値を“0”に丸めるようにすれば、ノイズとなる対象ブロックの抽出を少なくすることができ、処理効率を上げることができる。
また、上記実施形態では、ブロック抽出部36による対象ブロックの抽出方法を一例として示したが、本発明はこれに限定されない。例えば、キーワードポイントが加算されて深さポイントとの差分が生じている行と、当該差分が生じている行から前の所定数の行と、当該差分が生じている行から後の所定数の行とを含む範囲を対象ブロックとして抽出するようにしてもよい。ただし、上記実施形態による抽出方法によれば、対象ブロックを過不足のない的確な範囲に絞って設定できる可能性が高くなるので、所望の情報の抽出漏れを低減しつつ処理効率を上げることができる。
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

Claims (7)

  1. ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを上記構造化文書の行ごとに付与する深さポイント付与部と、
    上記構造化文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを上記深さポイントに加算するキーワードポイント付与部と、
    上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出するブロック抽出部と、
    上記ブロック抽出部により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する情報抽出部とを備えたことを特徴とするウェブページ解析装置。
  2. 上記ブロック抽出部は、上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行を含み、当該差分が生じている行よりも後の行で上記キーワードポイントが加算されておらず且つ上記深さポイントが極小となっている最初の行を終点とし、上記差分が生じている行よりも前の行で上記終点と同じ値で深さポイントが極小となっている行を始点とする範囲を上記対象ブロックとして抽出することを特徴とする請求項1に記載のウェブページ解析装置。
  3. ユーザにより入力された単語を上記キーワードとして設定するキーワード設定部を更に備えたことを特徴とする請求項1に記載のウェブページ解析装置。
  4. 上記キーワード設定部は、上記ブロック抽出部により抽出された上記対象ブロックの中に含まれる単語を更に上記キーワードとして追加設定することを特徴とする請求項3に記載のウェブページ解析装置。
  5. 上記キーワード設定部は、解析対象とされたウェブページから上記ブロック抽出部により抽出された上記対象ブロックの総数と、上記キーワードとして設定された単語の出現数とを用い、上記対象ブロックの総数に対する上記単語の出現数の割合に応じた値を、上記キーワードに対するキーワードポイントとして設定することを特徴とする請求項3または4に記載のウェブページ解析装置。
  6. 上記情報抽出部により上記対象ブロック内から抽出された情報について、あらかじめ定めた1以上の種類の情報が揃っているか否かを判定し、揃っている場合にのみ上記対象ブロック内から抽出された情報を出力するフィルタリング部を更に備えたことを特徴とする請求項1に記載のウェブページ解析装置。
  7. ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを上記構造化文書の行ごとに付与する深さポイント付与手段、
    上記構造化文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを上記深さポイントに加算するキーワードポイント付与手段、
    上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出するブロック抽出手段、および
    上記ブロック抽出手段により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する情報抽出手段、
    としてコンピュータを機能させるためのコンピュータ読み取り可能なウェブページ解析用プログラム。
JP2012501042A 2011-09-14 2011-09-14 ウェブページ解析装置およびウェブページ解析用プログラム Expired - Fee Related JP4959032B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/070978 WO2013038519A1 (ja) 2011-09-14 2011-09-14 ウェブページ解析装置およびウェブページ解析用プログラム

Publications (2)

Publication Number Publication Date
JP4959032B1 true JP4959032B1 (ja) 2012-06-20
JPWO2013038519A1 JPWO2013038519A1 (ja) 2015-03-23

Family

ID=46506035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012501042A Expired - Fee Related JP4959032B1 (ja) 2011-09-14 2011-09-14 ウェブページ解析装置およびウェブページ解析用プログラム

Country Status (2)

Country Link
JP (1) JP4959032B1 (ja)
WO (1) WO2013038519A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017006444A1 (ja) * 2015-07-07 2017-01-12 富士通株式会社 情報取得装置、情報取得プログラム及び情報取得方法
JP7146846B2 (ja) * 2020-06-04 2022-10-04 株式会社ソフマップ リユース商品販売システム、リユース商品販売システムのプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4624086B2 (ja) * 2004-11-29 2011-02-02 Kddi株式会社 コンテンツ変換システムおよびコンピュータプログラム
JP4649339B2 (ja) * 2006-01-20 2011-03-09 日本電信電話株式会社 XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP2008021270A (ja) * 2006-07-14 2008-01-31 Univ Of Tokyo データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法
JP4860416B2 (ja) * 2006-09-29 2012-01-25 株式会社ジャストシステム 文書検索装置、文書検索方法および文書検索プログラム
JP4801555B2 (ja) * 2006-09-29 2011-10-26 株式会社ジャストシステム 文書処理装置、文書処理方法および文書処理プログラム
JP5154109B2 (ja) * 2007-03-14 2013-02-27 株式会社ジャストシステム 文書検索装置、方法、及びプログラム
JP2011100403A (ja) * 2009-11-09 2011-05-19 Sony Corp 情報処理装置、情報抽出方法、プログラム及び情報処理システム

Also Published As

Publication number Publication date
WO2013038519A1 (ja) 2013-03-21
JPWO2013038519A1 (ja) 2015-03-23

Similar Documents

Publication Publication Date Title
US20220215063A1 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
US20150067476A1 (en) Title and body extraction from web page
JP5143057B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
US20120053927A1 (en) Identifying topically-related phrases in a browsing sequence
JP2014501988A5 (ja)
US20110246486A1 (en) Methods and Systems for Extracting Domain Phrases
JP2015144011A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
JP5056133B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP4959032B1 (ja) ウェブページ解析装置およびウェブページ解析用プログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
Annam et al. Entropy based informative content density approach for efficient web content extraction
CN105808761A (zh) 一种基于大数据Solr网页排序优化方法
JP2012104051A (ja) 文書インデックス作成装置
CN109388665B (zh) 作者关系在线挖掘方法及系统
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
KR100650151B1 (ko) 문서의 스타일 기반으로 추출한 키워드의 마이닝을 통해 생성된 프로파일을 이용한 웹 검색방법
JP5701830B2 (ja) 文書構造解析装置及びプログラム
US11275799B2 (en) Information processing device and non-transitory computer readable medium
JP2012128802A (ja) 検索アルゴリズム評価システム
Kumar et al. Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method
JP2005242807A (ja) 関連知識検索装置、文章ネットワーク生成装置、文章ネットワーク生成方法、およびプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4959032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees