JP6253041B1 - ウェブページ解析装置、ウェブページ解析方法、及びプログラム - Google Patents

ウェブページ解析装置、ウェブページ解析方法、及びプログラム Download PDF

Info

Publication number
JP6253041B1
JP6253041B1 JP2017080788A JP2017080788A JP6253041B1 JP 6253041 B1 JP6253041 B1 JP 6253041B1 JP 2017080788 A JP2017080788 A JP 2017080788A JP 2017080788 A JP2017080788 A JP 2017080788A JP 6253041 B1 JP6253041 B1 JP 6253041B1
Authority
JP
Japan
Prior art keywords
search
morpheme
web page
analysis
uniqueness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017080788A
Other languages
English (en)
Other versions
JP2018181007A (ja
Inventor
直也 榊原
直也 榊原
祐樹 廣部
祐樹 廣部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DATASCIENTIST INC.
Original Assignee
DATASCIENTIST INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DATASCIENTIST INC. filed Critical DATASCIENTIST INC.
Priority to JP2017080788A priority Critical patent/JP6253041B1/ja
Application granted granted Critical
Publication of JP6253041B1 publication Critical patent/JP6253041B1/ja
Publication of JP2018181007A publication Critical patent/JP2018181007A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】上位表示されるウェブページに共通する用語(形態素)の表示順位に対する特有度を算定し提示すること。【解決手段】ウェブページ解析装置は、ターゲット検索語を入力する入力手段と、ターゲット検索語を検索クエリとして含む検索リクエストの検索結果を取得する検索結果取得手段と、取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、解析対象ウェブページの各々についてコンテントを形態素ごとに分割する形態素解析処理と、各形態素の表示順位に対する特有度を所定の評価関数に基づき算定する特有度算定処理を実行し前記形態素ごとの特有度を提示する解析手段と、を具備する。【選択図】図1

Description

この発明は、検索エンジン利用者(検索者)が用いる様々な検索語に含まれる用語(形態素)の傾向と、検索結果に表示される各ウェブページに含まれる用語の傾向とをそれぞれ計測及び解析を行い、それら膨大な用語群の中から、検索対象を説明するのにふさわしい的確な業界用語及び専門用語を推定したり、検索対象を説明するのにふさわしくない無関係または一般的過ぎる用語を推定したりすることによって、ウェブサイト管理者等に提示する技術に関する。
近年、主要な検索エンジンにおいては、ウェブページのテキストデータを詳しく分析する自然文解析技術の向上が目覚ましい。最大手Google(登録商標)は、冊子『General Guidelines March14,2017』の中で、ウェブページ及びウェブサイトの「専門性(Expertise)」を、最重要要因(Most Important Factor)に挙げた。彼らは、今や数兆ページにも及ぶとされる世界中のウェブページを検索語ごとに序列化しなければならず、どのウェブページが検索語をより的確に説明しているかを判定する為に、それら各ウェブページに登場する1つ1つの用語の検索語に対する的確性について、数学的に計測・評価する必要性に迫られているものと考えられる。すでに一般論として、「業界特有の用語や専門用語を使って詳しく記述されているウェブページほど上位表示される傾向が強い」、「的外れまたは無関係な用語を使うと表示順位が低下する」などの主観的な論評があり、所謂「コンテンツマーケティング」と題される書籍やセミナーの需要を生み出している。ウェブサイト管理者らは、それらの概念的な情報を頼りに、膨大な用語群をスプレッドシートなどにリストアップし、重要と思われる用語と、一般的または無関係と思われる用語とを目視によって分類し、さらにそれら1つ1つの用語が含まれているサイトがどのような表示順位になっているかを確認することによって、それらの間に何らかの傾向や相関を見出そうとしたり、検索エンジンがどの用語を検索語の解説にふさわしい用語とみなしているかを見出そうとしたり等の、極めて主観的で煩雑な試みに苦慮している。
それらの試みによって、上位表示されやすいウェブページには、
1) 的確と思われる業界用語及び専門用語が網羅的に多く用いられている。
2) 的外れと思われる別業界の専門用語や無関係な用語が少ない。
等の傾向があることが確認されている。
検索語群の傾向と、上位表示されるウェブページに記載されている用語群の傾向とをそれぞれ解析することによって、客観的に、検索対象特有の業界用語及び専門用語とみられる用語を推定し、明示する装置が必要であると考えられる。
ここで、ウェブページを上位表示させる為の用語を発見することを趣旨としていると主張している技術としては、例えば、特定のウェブページが特定の用語で検索されたときに上位に表示するためのウェブページの改修にあたり、検索エンジンでの該用語の検索頻度及びウェブページ内での使用頻度及び該用語の類語を利用して挿入すべき用語を決定するプログラムを格納した記録媒体がある(例えば、特許文献1参照)。
特開2005−25508号公報
しかしながら、特許文献1に開示されたものは、膨大な該用語候補群の中から、検索対象に特有の専門用語及び業界用語だけを的確に見分けたり選出したりする具体的な推定方法については明示されていない。また、表示順位を低下させる可能性が高い他業界用語や無関係な用語を判別する方法についても明示されていない。
本発明は、このような課題に鑑みてなされたものであり、検索語群の傾向と、各上位ウェブページに記載されている用語群の傾向とをそれぞれ解析することによって、ウェブサイト管理者が、客観的かつ合理的に用語の的確さを見分け、ウェブページ利用者に対して的確かつ専門性の高い情報提供を行えるよう促すとともに、そのようなウェブページを高く評価しようとする検索エンジンからさらに高い評価を得られるよう支援することを目的とするものである。
上記課題を解決するため、本発明の一態様に係るウェブページ解析装置は、ターゲット検索語を入力する入力手段と、前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、前記解析手段は、前記特有度算定処理において、ある検索語w の検索上位Nサイトにおいて、ある形態素m が使用されているサイト数をn ij とし、その割合を次式により算出し、
全ての検索語W=(w 、w 、w …)それぞれの検索上位Nサイトにおいて、ある形態素m が使用される割合を次式により算出し、
任意の形態素m の任意の検索語w における検索語特有度s ij を次式に示される評価関数により算出する
ことを特徴とする。
本発明の他の態様に係るウェブページ解析装置は、ターゲット検索語を入力する入力手段と、前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、前記所定数の解析対象ウェブページの各々について、前記ウェブページ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義されることを特徴とする。
本発明の他の態様に係るウェブページ解析方法は、ウェブページ解析装置が、ターゲット検索語を入力するステップと、前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、前記ウェブページ解析装置は、前記特有度算定処理において、ある検索語w の検索上位Nサイトにおいて、ある形態素m が使用されているサイト数をn ij とし、その割合を次式により算出し、
全ての検索語W=(w 、w 、w …)それぞれの検索上位Nサイトにおいて、ある形態素m が使用される割合を次式により算出し、
任意の形態素m の任意の検索語w における検索語特有度s ij を次式に示される評価関数により算出する
ことを特徴とする。
本発明の他の態様に係るウェブページ解析方法は、ウェブページ解析装置が、ターゲット検索語を入力するステップと、前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義されることを特徴とする。
本発明の他の態様に係るプログラムは、コンピュータを、ターゲット検索語を入力する入力手段と、前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能させ、前記解析手段は、前記特有度算定処理において、ある検索語w の検索上位Nサイトにおいて、ある形態素m が使用されているサイト数をn ij とし、その割合を次式により算出し、
全ての検索語W=(w 、w 、w …)それぞれの検索上位Nサイトにおいて、ある形態素m が使用される割合を次式により算出し、
任意の形態素m の任意の検索語w における検索語特有度s ij を次式に示される評価関数により算出する
ことを特徴とする。
本発明の他の態様に係るプログラムは、コンピュータを、ターゲット検索語を入力する入力手段と、前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、前記所定数の解析対象ウェブページの各々について、前記ウェブページ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能させ、前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義されることを特徴とする。
本発明によれば、上位表示されるウェブページに共通する用語(形態素)の業界用語としての特有度を算定し提示することで、合理的な工数で対象ウェブページの検索エンジンにおける競争力を高めるウェブページ解析装置、ウェブページ解析方法、及びプログラムを提供することができる。
本発明の第1実施形態であるウェブページ解析装置を含むウェブページ解析システムの全体構成を示す図である。 ウェブページ解析装置の処理を示すフローチャートである。 入力処理の詳細な処理手順を示す図である。 検索結果取得処理の詳細な処理手順を示す図である。 ウェブページデータ取得処理の詳細な処理手順を示す図である。 解析処理の詳細な処理手順を示す図である。 評価結果ページの表示画面の表示例を示す図である。 評価結果ページの表示画面の表示例を示す図である。 評価結果ページの表示画面の表示例を示す図である。 本発明の第2実施形態に係るウェブページ評価装置による処理の一部を説明する図である。 特有度に基づく形態素の領域分けについて説明する図である。
以下、図面を参照しつつ本発明の実施形態について説明する。
<第1実施形態>
図1は、本発明の第1実施形態であるウェブページ解析装置20を含むウェブページ解析システム1の全体構成を示す図である。
このシステム1は、検索エンジン対策を支援するためのものである。より詳細には、検索エンジンでの検索で上位表示されるために不足している形態素をユーザに提示するものである。このシステム1のウェブページ解析装置20は、ユーザから所望の検索キーワードをターゲット検索語として受け取り(画面上でのテキスト入力又は提示された候補からの選択などによる)、ターゲット検索語の検索結果の上位に現れるウェブページ内のどの語がその順位の獲得に寄与しているのかを解析する。そして、検索エンジン対策で評価ページに不足している形態素をユーザに提示する。
図1に示すように、ウェブページ解析システム1は、利用者端末10、検索エンジンサーバ装置50、及び、ウェブページ解析装置20を有する。利用者端末10、検索エンジンサーバ装置50、及び、ウェブページ解析装置20は、ネットワーク90を介して接続される。
利用者端末10は、パーソナルコンピュータである。利用者には、固有のIDとパスワードが付与されている。ユーザは、自らの利用者端末10からウェブページ解析装置20にアクセスして認証手続きを行い、サービスを利用する。
検索エンジンサーバ装置50は、検索エンジンサービスを提供する役割を果たす装置である。検索エンジンサーバ装置50は、インターネット90に接続されているコンピュータから検索クエリを含むHTTP(Hypertext Transfer Protocol)リクエスト(検索リクエスト)を受信し、インターネット90内のウェブサイトWSの中からクエリに含まれる検索語との関連性が高いものを検索し、検索したウェブサイトWSのタイトル、URL(Uniform Resource Location)、スニペット(ウェブサイトの抜粋)のセットを検索順が上位のものから順に配した検索結果を返信する。
ウェブページ解析装置20は、検索エンジン対策支援サービスを提供する役割を果たす装置である。ウェブページ解析装置20は、通信インターフェース21、CPU21、RAM23、ROM24、ハードディスク25を有する。通信インターフェース21は、インターネット90に接続された装置との間でデータを送受信する。CPU21は、RAM23をワークエリアとして利用しつつ、ROM24やハードディスク25に記憶された各種プログラムを実行する。ROM24には、IPL(Initial Program Loader)などが記憶されている。ハードディスク25には、本実施形態に特有の機能を有する解析プログラム26が記憶されている。
次に、本実施形態の動作について説明する。
図2は、ウェブページ解析装置20の処理を示すフローチャートである。
図2に示す処理は、解析プログラム26により実現されるものである。CPU21は、プログラムを実行することで、入力手段と、検索結果取得手段と、ウェブページデータ取得手段と、解析手段として機能する。
先ず、ウェブページ解析装置20のCPU21は、入力処理を行う(S100)。
図3に示すように、入力処理では、CPU21は、認証手続きを済ませた利用者端末10に対し、入力画面の構造をHTML(Hyper Text Markup Language)により記述したウェブページデータを送信する。利用者端末10は、このウェブページデータを受信すると、入力画面をユーザに提示する。入力画面には、「ターゲット検索語を入力してください」という文字列が表示される。その下には、キーワード入力欄51がある。その下には、「上位何位のウェブページを解析対象とするかを入力してください」という文字列が入力される。その下には、上位10位と上位20位のうち一方を解析範囲として選択する解析範囲選択欄52がある。その下には、送信ボタン53がある。利用者は、入力画面のキーワード入力欄51に所望のキーワードを入力すると共に解析範囲入力欄52の2つの選択肢の何れかを選択し、送信ボタン53を選択する。
キーワード入力欄51に入力するキーワードは、一つの語であってもよいし、複数の語を間にスペースを挟んで並べたものであってもよい。送信ボタン53が選択されると、利用者端末10は、キーワード入力欄51内と解析範囲入力欄52内の情報を入力情報としてウェブページ解析装置20に送信する。CPU21は、利用者端末10から入力情報を受信すると、それをRAM23に記憶させる。
次に、CPU22は、検索結果取得処理を行う(S110)。
図4に示すように、検索結果取得処理では、CPU21は、RAM23に入力情報として記憶されているターゲット検索語(図4の例では、化粧品 通販)を検索クエリとして含むHTTPリクエスト(検索リクエスト)をネットワーク90に送信する。検索エンジンサーバ装置50は、このリクエストを受信すると、検索アルゴリズムに従った検索を行い、検索結果をウェブページ解析装置20に送信する。CPU22は、検索エンジンサーバ装置50から検索結果を受信し、それをRAM23に記憶させる。
次に、CPU22は、ウェブページデータ取得処理を行う(S120)。
図5に示すように、ウェブページデータ取得処理では、CPU21は、RAM23の検索結果内の各ウェブページのうちRAM23の入力情報に応じた上位N位のウェブページを解析対象ウェブページWP(i=1〜N、iは、検索結果内における順位を示すインデックス)とする。CPU22は、解析対象ウェブページWP(i=1〜N)の各々のURL(Uniform Resource Locator)を宛先とするHTTPリクエストをネットワーク90に送信する。各HTTPリクエストを受信したウェブサーバ装置は、解析対象ウェブページWP(i=1〜N)の構造をHTMLにより記述したウェブページデータをウェブページ解析装置20に返信する。そして、CPU22は、ウェブサーバ装置から解析対象ウェブページWP(i=1〜N)のウェブページデータを受信し、それらをRAM23に記憶する。
次に、CPU22は、解析処理を行う(S130)。
この解析処理では、ある検索語wに係るRAM23内の解析対象ウェブページWP(i=1〜N)のウェブページデータの各々について、特有度算定処理を行い、全ての解析対象ウェブページWP(i=1〜N)の処理結果を得た後、算定結果提示処理を行う。
より詳細には、図6に示されるように、解析処理では、CPU22は、第1処理、第2処理、第3処理及び第4処理の4つの処理を行う。
第1処理では、RAM23内の解析対象ウェブページWP(i=1〜N)のウェブページデータ内の要素における開始タグと終了タグに挟まれたコンテントを抽出し、抽出したコンテントに形態素解析処理を施し、形態素毎に分解する(S131)。このとき、形態素の基本形が同じものは同じ形態素とみなしている。
第2処理乃至第4処理では、各形態素の業界用語としての特有度を算定する特有度算定処理を行う(S132)。
先ず、第2処理では、ある検索語wの検索上位Nサイトにおいて、ある形態素mが使用されているサイト数をnijとすると、その割合を数式1により算出する。
例えば、検索語「歩行」の上位10サイトで“歩く”が10サイトの全てに使用されているときは、割合は、p(「歩行」、“歩く”)=1.0となる。一方、検索語「洋服」の上記10サイトで“歩く”が3サイトのみで使用されているときは、割合は、p(「洋服」、“歩く”)=0.3となる。
続く第3処理では、全ての検索語W=(w、w、w…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を数式2により算出する。
そして、第4処理では、特有度算定を行う。より詳細には、任意の形態素mの任意の検索語wにおける検索語特有度sijを数式3に示される評価関数により算出する。ここで、「検索語特有度」とは、各形態素が業界用語として汎用されているのか、あるいは業界用語としては一般的には汎用されていないのかを指標する特有度を意味する。
こうして、解析結果提示処理(S133)では、形態素毎に算定された特有度を、ユーザに対して提示する。
ここで、任意の形態素mの任意の検索語wにおける検索語特有度sijが低くなる要因として、大きく2通りの傾向が考えられる。一つは、全業界における登場頻度であるp(W,m)が大きくなることである。これは、その形態素が対象となる業界、検索語に特有の表現、語句ではなく一般的な語句であることを意味する。一方、p(W,m)が小さいがp(w,m)も小さい値を取ることもsijが低くなる要因として挙げられる。このような形態素は、一般的でも業界特有でもない表現、語句であると考えられる。
従って、sijが低い形態素に対して、これら2通りの傾向のいずれに属しているかを判定することで、その形態素が対象となる業界用語として的外れな表現となっているのか、それとも業界用語として特有ではないが一般表現となっているのか等を推定することも可能となる。
以上をふまえて、sijとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),sij)=0と第2の評価関数f(p(W,mj),sij)=0となる領域境界により領域分けを行う。
そして、第1の評価関数f1に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を「業界特有の形態素」とし、第1の評価関数f1に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が負になる形態素のうち、第2の評価関数fに任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を「一般的な形態素」とし、負となる形態素を「業界から外れた形態素」とするようにしてもよい。第2の評価関数fの特質から、数式上、評価関数の出力値の正負によって一般的な形態素の属する領域か、業界から外れた形態素の属する領域かを判別することができる。
また、第1の評価関数f及び第2の評価関数fに任意の特有度sijとp(W,mj)を入力したときの出力値の絶対値の大小によって、一般的な形態素と分類された形態素においてどの程度一般的なのかを定量的に示すことも可能となる。例えば、第2の評価関数についていえば、絶対値が大きくなれば大きくなるほど境界線から離れるため、一般的な語句とみなすことができ、逆に業界から外れた形態素と分類された形態素においても、絶対を見ることで、どの程度外れているかを判断できるようになる。
図7は、提示画面の表示例を示す図である。
この表示例では、ターゲット検索語を「化粧品 通販」とし、解析範囲を「上位10位」とした場合のものである。図7に示されるように、表示画面の左上には、ターゲット検索語が表示される。表示画面の中央には、解析結果リストがある。解析結果リストは、1位からN(図7の例ではN=10)位の解析対象ウェブページWP毎の解析結果が左から右に向かって配列したものである。図8に示されるように、提示画面に重ねられるようにして、各形態素mについて表示順位に対する検索語特有度を列挙した形式で表示する。尚、図9は、特有度順にソートした結果を示している。
この解析結果リストを参照することにより、ユーザは検索エンジンでの上位表示に効果的な形態素であって、自己の評価ページに不足している用語を把握可能となる。
以上が、本実施形態の詳細である。本実施形態によると、次の効果が得られる。
第1に、所定のターゲットワードに対する検索上位のウェブページを解析して、検索上位に寄与している形態素のそれぞれについて検索語特有度を定量的に把握することができるので、検索エンジン対策に寄与する形態素を効率よく見出すことが可能となる。
第2に、検索上位のウェブページの形態素群の中から、自己の評価ページに不足しているものを提示されたリストの中から迅速に見出すことが可能となる。
<第2実施形態>
第2実施形態に係るウェブページ解析システムの基本構成は第1実施形態と同様であるので、同一構成、フローチャート上のステップ番号については同一符号を用いて、アルゴリズム上、異なる解析処理を中心に説明する。
解析処理(S130)では、ある検索語wに係るRAM23内の解析対象ウェブページWP(i=1〜N)のウェブページデータの各々について、特有度算定処理を行い、全ての解析対象ウェブページWP(i=1〜N)の処理結果を得た後、算定結果提示処理を行う。
より詳細には、図10に示されるように、解析処理では、CPU22は、第1処理、第2処理、第3処理、第5処理、及び第6処理の5つの処理を行う。
第1処理では、RAM23内の解析対象ウェブページWP(i=1〜N)のウェブページデータ内の要素における開始タグと終了タグに挟まれたコンテントを抽出し、抽出したコンテントに形態素解析処理を施し、形態素毎に分解する(S131)。このとき、形態素の基本形が同じものは同じ形態素とみなしている。
第2処理、第3処理、第5処理、及び第6処理では、各形態素が業界用語、更には業界の中の一市場における市場用語としての特有度を算定する市場特有度算定処理を行う(S132)。
先ず、第2処理では、ある検索語wの検索上位Nサイトにおいて、ある形態素mが使用されているサイト数をnijとすると、その割合を数式4により算出する。
続く第3処理では、全ての検索語W=(w、w、w…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を数式5により算出する。
第5処理では、関連がある検索語をまとめ市場を定義する。例えば、検索語「特許」、「特許情報プラットフォーム」、「特許事務所」、「特許申請」、「特許事務所 求人」などをまとめて「特許」市場が形成される。そして、任意の市場aに含まれる検索語Wa=(wa1、wa2、wa3…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を数式6により算定する。
そして、第6処理では、特有度算定を行う。より詳細には、任意の形態素mの任意市場aにおける市場特有度sajを数式7に示される評価関数により算出する。ここで、「市場特有度」とは、各形態素の業界の中の一市場において市場用語として汎用されているのか、市場用語としては一般的に汎用されていないのかを指標する特有度を意味する。
こうして、解析結果提示処理(S133)では、形態素毎に算定された特有度を、ユーザに対して提示する。
ここで、任意の検索語wjにおいて形態素mjの業界での市場特有度sajが低くなる要因として、大きく2通りの傾向が考えられる。一つは、全業界における登場頻度であるp(W,m)が大きくなることである。これは、その形態素が対象となる業界、検索語に特有の表現、語句ではなく一般的な語句であることを意味する。一方、p(W,m)が小さいがp(w,m)も小さい値を取ることもsajが低くなる要因として挙げられる。このような形態素は、一般的でも業界特有でもない表現、語句であると考えられる。
従って、sajが低い形態素に対して、これら2通りの傾向のいずれに属しているかを判定することで、その形態素が対象となる業界に対して的を外した表現となっているのか、それとも業界特有ではないが一般表現となっているのかを推定することも可能となる。
以上をふまえて、sajとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),saj)=0、第2の評価関数f(p(W,mj),saj)=0となる領域境界により領域分けを行う。
そして、第1の評価関数f1に任意の特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を「業界特有の形態素」とし、第1の評価関数f1に任意の特有度sajとp(W,mj)とを入力したときに、その出力値が負になる形態素のうち、あるいは、第2の評価関数fに任意の特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とするようにしてもよい。第2の評価関数fの特質から、数式上、評価関数の出力値の正負によって一般的な形態素の属する領域か、業界から外れた形態素の属する領域かを判別することができる。
また、第1の評価関数f及び第2の評価関数fに任意の特有度sajとp(W,mj)を入力したときの出力値の絶対値の大小によって、一般的な形態素と分類された形態素においてどの程度一般的なのかを定量的に示すことも可能となる。例えば、第2の評価関数についていえば、絶対値が大きくなれば大きくなるほど境界線から離れるため、一般的な語句とみなすことができ、逆に業界から外れた形態素と分類された形態素においても、絶対を見ることで、どの程度外れているかを判断できるようになる。
以上が、本実施形態の詳細である。本実施形態によると、解析の精度をより高めることができる。尚、「特有度」という場合には、前述した検索語特有度と市場特有度の双方を含む広い概念を意味する。
以上説明した第1乃至代2実施形態は、コンピュータを、入力手段と、検索結果取得手段と、ウェブページデータ取得手段と、解析手段として機能させるプログラムとしても実現される。さらに、当該プログラムを記憶したコンピュータにより読み取り可能な記憶媒体としても実現されることは勿論である。
以上、本発明の第1乃至第2実施形態について説明したが、本発明はこれに限定されることなく、その趣旨を逸脱しない範囲で種々の改良が可能である。
1…ウェブページ解析システム、10…利用者端末、20…ウェブページ解析装置、21…通信インターフェース、22…CPU、23…RAM、24…ROM、25…ハードディスク、26…解析プログラム、50…検索エンジンサーバ装置、90…ネットワーク。

Claims (15)

  1. ターゲット検索語を入力する入力手段と、
    前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
    前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
    前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、
    前記解析手段は、
    前記特有度算定処理において、
    ある検索語w の検索上位Nサイトにおいて、ある形態素m が使用されているサイト数をn ij とし、その割合を次式により算出し、
    全ての検索語W=(w 、w 、w …)それぞれの検索上位Nサイトにおいて、ある形態素m が使用される割合を次式により算出し、
    任意の形態素m の任意の検索語w における検索語特有度s ij を次式に示される評価関数により算出する
    ことを特徴とするウェブページ解析装置。
  2. 上記検索語特有度sijとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),sij)=0、第2の評価関数f(p(W,mj),sij)=0となる領域境界により領域分けを行い、
    第2の評価関数f(p(W,mj),sij)に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
    請求項に記載のウェブページ解析装置。
  3. ターゲット検索語を入力する入力手段と、
    前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
    前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
    前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、
    前記解析手段は、
    前記特有度算定処理において、
    ある検索語wの検索上位Nサイトにおいて、ある形態素mが使用されているサイト数をnijとし、その割合を次式により算出し、
    全ての検索語W=(w、w、w…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を次式により算出し、
    関連がある検索語を取りまとめて市場を定義し、任意の市場aに含まれる検索語Wa=(wa1、wa2、wa3…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を次式により算出し、
    任意の形態素mの任意市場aにおける市場特有度sajを次式で示される評価関数により算出する
    ことを特徴とするウェブページ解析装置。
  4. 上記市場特有度sajとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),saj)=0、第2の評価関数f(p(W,mj),saj)=0となる領域境界により領域分けを行い、
    第2の評価関数f(p(W,mj),saj)に任意の市場特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
    請求項に記載のウェブページ解析装置。
  5. ターゲット検索語を入力する入力手段と、
    前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
    前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
    前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、
    前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義される
    ことを特徴とするウェブページ解析装置。
  6. ウェブページ解析装置が、
    ターゲット検索語を入力するステップと、
    前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、
    前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、
    前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、
    前記ウェブページ解析装置は、
    前記特有度算定処理において、
    ある検索語w の検索上位Nサイトにおいて、ある形態素m が使用されているサイト数をn ij とし、その割合を次式により算出し、
    全ての検索語W=(w 、w 、w …)それぞれの検索上位Nサイトにおいて、ある形態素m が使用される割合を次式により算出し、
    任意の形態素m の任意の検索語w における検索語特有度s ij を次式に示される評価関数により算出する
    ことを特徴とするウェブページ解析方法。
  7. 上記検索語特有度sijとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),sij)=0、第2の評価関数f(p(W,mj),sij)=0となる領域境界により領域分けを行い、
    第2の評価関数f(p(W,mj),sij)に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
    請求項に記載のウェブページ解析方法。
  8. ウェブページ解析装置が、
    ターゲット検索語を入力するステップと、
    前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、
    前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、
    前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、
    前記ウェブページ解析装置は、
    前記特有度算定処理において、
    ある検索語wの検索上位Nサイトにおいて、ある形態素mが使用されているサイト数をnijとし、その割合を次式により算出し、
    全ての検索語W=(w、w、w…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を次式により算出し、
    関連がある検索語を取りまとめて市場を定義し、任意の市場aに含まれる検索語Wa=(wa1、wa2、wa3…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を次式により算出し、
    任意の形態素mの任意市場aにおける市場特有度sajを次式で示される評価関数により算出する
    ことを特徴とするウェブページ解析方法。
  9. 上記市場特有度sajとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),saj)=0、第2の評価関数f(p(W,mj),saj)=0となる領域境界により領域分けを行い、
    第2の評価関数f(p(W,mj),saj)に任意の市場特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
    請求項に記載のウェブページ解析方法。
  10. ウェブページ解析装置が、
    ターゲット検索語を入力するステップと、
    前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、
    前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、
    前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、
    前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義される
    ことを特徴とするウェブページ解析方法。
  11. コンピュータを、
    ターゲット検索語を入力する入力手段と、
    前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
    前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
    前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能させ、
    前記解析手段は、
    前記特有度算定処理において、
    ある検索語w の検索上位Nサイトにおいて、ある形態素m が使用されているサイト数をn ij とし、その割合を次式により算出し、
    全ての検索語W=(w 、w 、w …)それぞれの検索上位Nサイトにおいて、ある形態素m が使用される割合を次式により算出し、
    任意の形態素m の任意の検索語w における検索語特有度s ij を次式に示される評価関数により算出する
    ことを特徴とするプログラム。
  12. 上記検索語特有度sijとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),sij)=0、第2の評価関数f(p(W,mj),sij)=0となる領域境界により領域分けを行い、
    第2の評価関数f(p(W,mj),sij)に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
    請求項11に記載のプログラム。
  13. コンピュータを、
    ターゲット検索語を入力する入力手段と、
    前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
    前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
    前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能させ、
    前記解析手段は、
    前記特有度算定処理において、
    ある検索語wの検索上位Nサイトにおいて、ある形態素mが使用されているサイト数をnijとし、その割合を次式により算出し、
    全ての検索語W=(w、w、w…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を次式により算出し、
    関連がある検索語を取りまとめて市場を定義し、任意の市場aに含まれる検索語Wa=(wa1、wa2、wa3…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を次式により算出し、
    任意の形態素mの任意市場aにおける市場特有度sajを次式で示される評価関数により算出する
    ことを特徴とするプログラム。
  14. 上記市場特有度sajとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f(p(W,mj),saj)=0、第2の評価関数f(p(W,mj),saj)=0となる領域境界により領域分けを行い、
    第2の評価関数f(p(W,mj),saj)に任意の市場特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
    請求項13に記載のプログラム。
  15. コンピュータが、
    ターゲット検索語を入力する入力手段と、
    前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
    前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
    前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能し、
    前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義される
    ことを特徴とするプログラム。
JP2017080788A 2017-04-14 2017-04-14 ウェブページ解析装置、ウェブページ解析方法、及びプログラム Active JP6253041B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017080788A JP6253041B1 (ja) 2017-04-14 2017-04-14 ウェブページ解析装置、ウェブページ解析方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017080788A JP6253041B1 (ja) 2017-04-14 2017-04-14 ウェブページ解析装置、ウェブページ解析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP6253041B1 true JP6253041B1 (ja) 2017-12-27
JP2018181007A JP2018181007A (ja) 2018-11-15

Family

ID=60860019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017080788A Active JP6253041B1 (ja) 2017-04-14 2017-04-14 ウェブページ解析装置、ウェブページ解析方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6253041B1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192010A (ja) * 1993-12-27 1995-07-28 Canon Inc 文書処理装置
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192010A (ja) * 1993-12-27 1995-07-28 Canon Inc 文書処理装置
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
佐藤 理史,外1名: ""ウェブを利用した関連用語の自動収集"", 情報処理学会研究報告, vol. 第2003巻,第4号, JPN6017032951, 20 January 2003 (2003-01-20), pages pp.57−64 *
小原 恭介,外3名: ""ウェブを利用した関連用語収集"", FIT2004 第3回情報科学技術フォーラム 一般講演論文集, vol. 第2分冊, JPN6017032952, 20 August 2004 (2004-08-20), pages pp.183−184 *
木田 充洋,外3名: ""ウェブを利用した専門用語の分野判定"", 電子情報通信学会論文誌, vol. 第J89−D巻,第11号, JPN6017032948, 1 November 2006 (2006-11-01), pages pp.2470−2482 *

Also Published As

Publication number Publication date
JP2018181007A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
TWI437452B (zh) 使用查詢相關性資料的垃圾網頁分類
RU2691840C1 (ru) Фильтры результатов поиска из содержимого ресурсов
US8819006B1 (en) Rich content for query answers
US20090259646A1 (en) Method for Calculating Score for Search Query
US8326836B1 (en) Providing time series information with search results
US9177057B2 (en) Re-ranking search results based on lexical and ontological concepts
US20090313286A1 (en) Generating training data from click logs
JP2007188352A (ja) ページリランキング装置、ページリランキングプログラム
JP6164436B1 (ja) ウェブページ解析装置、ウェブページ解析方法、及びプログラム
US10296924B2 (en) Document performance indicators based on referral context
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
US20130268833A1 (en) Apparatus and method for visualizing hyperlinks using color attribute values
JP2011248762A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
JP6253041B1 (ja) ウェブページ解析装置、ウェブページ解析方法、及びプログラム
JP4834118B2 (ja) ファセットクエリを利用したサービス誘導入札装置及び方法
JP7078569B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6228425B2 (ja) 広告生成装置および広告生成方法
JP2019057110A (ja) 検索目的推察支援装置、検索目的推察支援システム、及び検索目的推察支援方法
JP2008171110A (ja) サイト検索システム、検索サーバ、プログラム
JP5222691B2 (ja) 検索情報提供システム
JP6971209B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2013109514A (ja) 関連ワード表示制御装置、関連ワード表示方法、及びプログラム
JP2017033114A (ja) ユーザ情報収集装置、ユーザ情報収集システム及びユーザ情報の収集方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171120

R150 Certificate of patent or registration of utility model

Ref document number: 6253041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250