JP6253041B1 - ウェブページ解析装置、ウェブページ解析方法、及びプログラム - Google Patents
ウェブページ解析装置、ウェブページ解析方法、及びプログラム Download PDFInfo
- Publication number
- JP6253041B1 JP6253041B1 JP2017080788A JP2017080788A JP6253041B1 JP 6253041 B1 JP6253041 B1 JP 6253041B1 JP 2017080788 A JP2017080788 A JP 2017080788A JP 2017080788 A JP2017080788 A JP 2017080788A JP 6253041 B1 JP6253041 B1 JP 6253041B1
- Authority
- JP
- Japan
- Prior art keywords
- search
- morpheme
- web page
- analysis
- uniqueness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
1) 的確と思われる業界用語及び専門用語が網羅的に多く用いられている。
2) 的外れと思われる別業界の専門用語や無関係な用語が少ない。
等の傾向があることが確認されている。
Claims (15)
- ターゲット検索語を入力する入力手段と、
前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、
前記解析手段は、
前記特有度算定処理において、
ある検索語w i の検索上位Nサイトにおいて、ある形態素m j が使用されているサイト数をn ij とし、その割合を次式により算出し、
- 上記検索語特有度sijとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f1(p(W,mj),sij)=0、第2の評価関数f2(p(W,mj),sij)=0となる領域境界により領域分けを行い、
第2の評価関数f2(p(W,mj),sij)に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
請求項1に記載のウェブページ解析装置。 - ターゲット検索語を入力する入力手段と、
前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、
前記解析手段は、
前記特有度算定処理において、
ある検索語wiの検索上位Nサイトにおいて、ある形態素mjが使用されているサイト数をnijとし、その割合を次式により算出し、
- 上記市場特有度sajとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f1(p(W,mj),saj)=0、第2の評価関数f2(p(W,mj),saj)=0となる領域境界により領域分けを行い、
第2の評価関数f2(p(W,mj),saj)に任意の市場特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
請求項3に記載のウェブページ解析装置。 - ターゲット検索語を入力する入力手段と、
前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段と、を具備し、
前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義される
ことを特徴とするウェブページ解析装置。 - ウェブページ解析装置が、
ターゲット検索語を入力するステップと、
前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、
前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、
前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、
前記ウェブページ解析装置は、
前記特有度算定処理において、
ある検索語w i の検索上位Nサイトにおいて、ある形態素m j が使用されているサイト数をn ij とし、その割合を次式により算出し、
- 上記検索語特有度sijとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f1(p(W,mj),sij)=0、第2の評価関数f2(p(W,mj),sij)=0となる領域境界により領域分けを行い、
第2の評価関数f2(p(W,mj),sij)に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
請求項6に記載のウェブページ解析方法。 - ウェブページ解析装置が、
ターゲット検索語を入力するステップと、
前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、
前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、
前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、
前記ウェブページ解析装置は、
前記特有度算定処理において、
ある検索語wiの検索上位Nサイトにおいて、ある形態素mjが使用されているサイト数をnijとし、その割合を次式により算出し、
- 上記市場特有度sajとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f1(p(W,mj),saj)=0、第2の評価関数f2(p(W,mj),saj)=0となる領域境界により領域分けを行い、
第2の評価関数f2(p(W,mj),saj)に任意の市場特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
請求項8に記載のウェブページ解析方法。 - ウェブページ解析装置が、
ターゲット検索語を入力するステップと、
前記入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得するステップと、
前記取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するステップと、
前記所定数の解析対象ウェブページの各々について、前記取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示するステップと、を有し、
前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義される
ことを特徴とするウェブページ解析方法。 - コンピュータを、
ターゲット検索語を入力する入力手段と、
前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能させ、
前記解析手段は、
前記特有度算定処理において、
ある検索語w i の検索上位Nサイトにおいて、ある形態素m j が使用されているサイト数をn ij とし、その割合を次式により算出し、
- 上記検索語特有度sijとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f1(p(W,mj),sij)=0、第2の評価関数f2(p(W,mj),sij)=0となる領域境界により領域分けを行い、
第2の評価関数f2(p(W,mj),sij)に任意の特有度sijとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
請求項11に記載のプログラム。 - コンピュータを、
ターゲット検索語を入力する入力手段と、
前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能させ、
前記解析手段は、
前記特有度算定処理において、
ある検索語wiの検索上位Nサイトにおいて、ある形態素mjが使用されているサイト数をnijとし、その割合を次式により算出し、
- 上記市場特有度sajとp(W,mj)とにより定義される2次元平面に全ての形態素をプロットした後、第1の評価関数f1(p(W,mj),saj)=0、第2の評価関数f2(p(W,mj),saj)=0となる領域境界により領域分けを行い、
第2の評価関数f2(p(W,mj),saj)に任意の市場特有度sajとp(W,mj)とを入力したときに、その出力値が正になる形態素を一般的な形態素とし、負となる形態素を業界から外れた形態素とする
請求項13に記載のプログラム。 - コンピュータが、
ターゲット検索語を入力する入力手段と、
前記入力手段により入力されたターゲット検索語を検索クエリとして含む検索リクエストをネットワークに送信し、前記検索リクエストの検索結果を前記ネットワーク上の検索エンジンサーバ装置から取得する検索結果取得手段と、
前記検索結果取得手段が取得した検索結果内における表示順が上位の所定数のウェブページを解析対象ウェブページとし、前記所定数の解析対象ウェブページのURLを宛先とするリクエストを前記ネットワークに送信し、前記所定数の解析対象ウェブページの各々の構造を所定のマークアップ言語により記述したウェブページデータを取得するウェブページデータ取得手段と、
前記所定数の解析対象ウェブページの各々について、前記ウェブページデータ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントを形態素ごとに分割する形態素解析処理と、形態素解析処理により得られた当該解析対象ウェブページ内の各形態素の業界用語としての特有度を所定の評価関数に基づき算定する特有度算定処理とを実行し、前記形態素ごとの特有度を提示する解析手段として機能し、
前記評価関数とは、ある検索語の検索上位Nサイトにおいて、ある形態素が使用されているサイト数の割合と、全ての検索語それぞれの検索上位Nサイトにおいて、ある形態素が使用される割合とに基づいて定義される
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017080788A JP6253041B1 (ja) | 2017-04-14 | 2017-04-14 | ウェブページ解析装置、ウェブページ解析方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017080788A JP6253041B1 (ja) | 2017-04-14 | 2017-04-14 | ウェブページ解析装置、ウェブページ解析方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6253041B1 true JP6253041B1 (ja) | 2017-12-27 |
JP2018181007A JP2018181007A (ja) | 2018-11-15 |
Family
ID=60860019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017080788A Active JP6253041B1 (ja) | 2017-04-14 | 2017-04-14 | ウェブページ解析装置、ウェブページ解析方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6253041B1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07192010A (ja) * | 1993-12-27 | 1995-07-28 | Canon Inc | 文書処理装置 |
JP2004178421A (ja) * | 2002-11-28 | 2004-06-24 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
-
2017
- 2017-04-14 JP JP2017080788A patent/JP6253041B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07192010A (ja) * | 1993-12-27 | 1995-07-28 | Canon Inc | 文書処理装置 |
JP2004178421A (ja) * | 2002-11-28 | 2004-06-24 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Non-Patent Citations (3)
Title |
---|
佐藤 理史,外1名: ""ウェブを利用した関連用語の自動収集"", 情報処理学会研究報告, vol. 第2003巻,第4号, JPN6017032951, 20 January 2003 (2003-01-20), pages pp.57−64 * |
小原 恭介,外3名: ""ウェブを利用した関連用語収集"", FIT2004 第3回情報科学技術フォーラム 一般講演論文集, vol. 第2分冊, JPN6017032952, 20 August 2004 (2004-08-20), pages pp.183−184 * |
木田 充洋,外3名: ""ウェブを利用した専門用語の分野判定"", 電子情報通信学会論文誌, vol. 第J89−D巻,第11号, JPN6017032948, 1 November 2006 (2006-11-01), pages pp.2470−2482 * |
Also Published As
Publication number | Publication date |
---|---|
JP2018181007A (ja) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI524193B (zh) | 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法 | |
TWI437452B (zh) | 使用查詢相關性資料的垃圾網頁分類 | |
RU2691840C1 (ru) | Фильтры результатов поиска из содержимого ресурсов | |
US8819006B1 (en) | Rich content for query answers | |
US20090259646A1 (en) | Method for Calculating Score for Search Query | |
US8326836B1 (en) | Providing time series information with search results | |
US9177057B2 (en) | Re-ranking search results based on lexical and ontological concepts | |
US20090313286A1 (en) | Generating training data from click logs | |
JP2007188352A (ja) | ページリランキング装置、ページリランキングプログラム | |
JP6164436B1 (ja) | ウェブページ解析装置、ウェブページ解析方法、及びプログラム | |
US10296924B2 (en) | Document performance indicators based on referral context | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5151368B2 (ja) | 情報処理装置および情報処理プログラム | |
US20130268833A1 (en) | Apparatus and method for visualizing hyperlinks using color attribute values | |
JP2011248762A (ja) | 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム | |
JP6253041B1 (ja) | ウェブページ解析装置、ウェブページ解析方法、及びプログラム | |
JP4834118B2 (ja) | ファセットクエリを利用したサービス誘導入札装置及び方法 | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6228425B2 (ja) | 広告生成装置および広告生成方法 | |
JP2019057110A (ja) | 検索目的推察支援装置、検索目的推察支援システム、及び検索目的推察支援方法 | |
JP2008171110A (ja) | サイト検索システム、検索サーバ、プログラム | |
JP5222691B2 (ja) | 検索情報提供システム | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2013109514A (ja) | 関連ワード表示制御装置、関連ワード表示方法、及びプログラム | |
JP2017033114A (ja) | ユーザ情報収集装置、ユーザ情報収集システム及びユーザ情報の収集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6253041 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |