JP7355452B2 - 情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7355452B2
JP7355452B2 JP2023511770A JP2023511770A JP7355452B2 JP 7355452 B2 JP7355452 B2 JP 7355452B2 JP 2023511770 A JP2023511770 A JP 2023511770A JP 2023511770 A JP2023511770 A JP 2023511770A JP 7355452 B2 JP7355452 B2 JP 7355452B2
Authority
JP
Japan
Prior art keywords
morphemes
attention
attention word
web page
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023511770A
Other languages
English (en)
Other versions
JPWO2023007561A1 (ja
Inventor
直也 榊原
祐樹 廣部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DATASCIENTIST INC.
Original Assignee
DATASCIENTIST INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DATASCIENTIST INC. filed Critical DATASCIENTIST INC.
Publication of JPWO2023007561A1 publication Critical patent/JPWO2023007561A1/ja
Application granted granted Critical
Publication of JP7355452B2 publication Critical patent/JP7355452B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理システム、情報処理方法及びプログラムに関する。
近年、検索エンジンにおいては、ウェブページのテキストデータを分析して検索順位を付けることが行われている。ウェブページを上位表示させることを目的とする技術として、例えば特許文献1には、所定数の解析対象ウェブページの各々についてウェブページ取得手段が取得した当該解析対象ウェブページのウェブページデータの要素のコンテントに形態素解析処理を施す第1処理、第1処理により得られた形態素群における同じ種類の形態素毎の含有数を集計する第2処理、及び、第2処理により得られた当該解析対象ウェブページ内の各形態素の含有数を所定の評価関数に作用させることにより、ターゲットキーワードを検索クエリとする検索の検索結果に占める当該解析対象ページの順位に対する各形態素の寄与の度合いを示す形態素別評価値を求める第3処理を実行し、所定数の解析対象ウェブページの各々について得られた形態素別評価値を解析対象ウェブページ毎に並べたリストを解析結果として提示することが開示されている。
特許第6164436号公報
特許文献1の発明の手段は有用な技術であるが、依然として、検索順位向上に寄与する形態素、または検索順位落下する恐れがある形態素を容易に把握することが求められている。
本発明は、上記問題に鑑みてなされたものであり、検索順位向上に寄与する形態素または検索順位落下する恐れがある形態素の把握を容易化することを可能とする情報処理システム、情報処理方法及びプログラムを提供することを目的とする。
本発明の第1の態様に係る情報処理システムは、検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データに含まれる形態素それぞれに対する第1評価スコア、第2評価スコア、または第3評価スコアに応じて、当該形態素第1注目語群、第2注目語群、または第3注目語群のうち一つの注目語群を抽出する抽出手段と、前記抽出された注目語群を少なくとも表示するためのデータを出力する出力手段と、を備え、前記第1評価スコアは、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるように設定されたスコアであり、前記第2評価スコアは、前記上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素ほど抽出されるように設定されたスコアであり、前記第3評価スコアは、前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるように設定されたスコアである。
この構成によれば、第1注目語群が出力された場合において、第1注目語群は、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるので、ユーザが検索順位向上に寄与する形態素の把握を容易化することができる。また第2注目語群が出力された場合において、第2注目語群は、前記検索クエリに関する重要度が閾値より高く且つ上位ウェブページの使用頻度が低い形態素ほど抽出されるので、ユーザが検索順位向上に寄与する形態素、とりわけ上位ウェブページと差別化しやすい形態素の把握を容易化することができる。また第3注目語群が出力された場合において、第3注目語群は前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるので、ユーザが検索順位落下する恐れがある形態素の把握を容易化することができる。
本発明の第2の態様に係る情報処理システムは、第1の態様に係る情報処理システムであって、前記出力手段は、前記抽出された注目語群に含まれる注目語それぞれについて各ウェブページにおける含有数を表示するための情報を出力してもよい。
本発明の第3の態様に係る情報処理システムは、第1または第2の態様に係る情報処理システムであって、前記抽出手段は、前記注目語群を抽出する際に、対象のウェブページで未使用または使用中の形態素群の中から前記第1注目語群、前記第2注目語群、または前記第3注目語群を抽出し、前記出力手段は、前記抽出された第1注目語群、前記第2注目語群、または前記第3注目語群を少なくとも表示するためのデータを出力してもよい。
本発明の第4の態様に係る情報処理システムは、第3の態様に係る情報処理システムであって、対象ウェブページで未使用または使用中の形態素で且つ第1注目語、第2注目語、第3注目語でソートするリクエストを受け付ける受付手段を更に備え、前記抽出手段は、対象のウェブページで未使用または使用中の形態素について、第1注目語、第2注目語、第3注目語の評価スコアでソートされた第1注目語群、第2注目語群、第3注目語群を抽出してもよい。
本発明の第5の態様に係る情報処理システムは、第1から4のいずれかの態様に係る情報処理システムであって、前記出力手段が出力するデータには、ウェブページ毎の注目語の含有度も含まれており、前記注目語の含有度でソートするための操作をユーザから受け付ける受付手段と、前記操作を受け付けた場合、前記出力手段は、前記検索結果に含まれるウェブページが前記注目語の含有度順にソートされたデータを出力してもよい。
本発明の第6の態様に係る情報処理システムは、第1の態様に係る情報処理システムであって、前記出力手段は、上位ウェブページにおける注目語の含有数に応じて注目語がソートされた状態で各注目語について各ウェブページにおける注目語の含有数を表示するための情報を出力してもよい。
本発明の第7の態様に係る情報処理システムは、第1の態様に係る情報処理システムであって、出力手段は、抽出された注目語群のうち上位ページ及び/または下位ページに含まれる注目語群を表示するためのデータを出力してもよい。
本発明の第8の態様に係る情報処理システムは、第7の態様に係る情報処理システムであって、前記出力手段は、前記注目語に加えて、前記抽出された注目語について上位ページ及び/または下位ページに含まれる形態素の含有数、前記抽出された注目語の重要度、前記抽出された注目語の経済規模もしくは経済規模率、前記抽出された注目語の検索数もしくは検索数占有率、前記抽出された注目語のクエリ数もしくはクエリ占有率のうち少なくとも一つを表示するためのデータを出力してもよい。
本発明の第9の態様に係る情報処理システムは、第7または第8のいずれかの態様に係る情報処理システムであって、前記出力手段は、前記抽出された注目語について、前記上位ウェブページ及び/または下位ページにおける含有数順、重要度順、経済規模順、検索数順、またはクエリ数順に表示するためのデータを出力してもよい。
本発明の第10の態様に係る情報処理システムは、第7から第9のいずれかの態様に係る情報処理システムであって、前記出力手段は、前記抽出された注目語について、前記上位ウェブページ及び/または下位ページにおける含有数、重要度、経済規模、検索数、クエリ数に応じて、注目語の表示サイズをスケールして表示するためのデータを出力してもよい。
本発明の第11の態様に係る情報処理システムは、第7から第10のいずれかの態様に係る情報処理システムであって、前記出力手段は、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語を表示するためのデータを出力してもよい。
本発明の第12の態様に係る情報処理システムは、第11のいずれかの態様に係る情報処理システムであって、前記出力手段は、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語の含有度合いをユーザが設定可能に表示するためのデータを出力し、設定された含有度に応じて、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語を変更してもよい。
本発明の第13の態様に係る情報処理システムは、第7から第12のいずれかの態様に係る情報処理システムであって、前記出力手段は、前記上位ウェブページに含まれる注目語の表示数の上限、前記下位ウェブページに含まれる注目語の表示数の上限、前記下位ウェブページに共通して含まれる注目語の表示数の上限をユーザが設定可能に表示するためのデータを出力してもよい。
本発明の第14の態様に係る情報処理システムは、第1から第13のいずれかの態様に係る情報処理システムであって、前記上位ウェブページから、前記注目語が登場する前及び/または後の少なくとも一つ以上の文字ともに当該注目語を文字列として抽出する文字列抽出手段を更に備え、前記出力手段は、前記抽出された文字列を表示するためのデータを出力してもよい。
本発明の第15の態様に係る情報処理方法は、検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データから決定される第1注目語に対する評価スコア、第2注目語に対する評価スコア、または第3注目語に対する評価スコアに応じて、第1注目語、第2注目語、または第3注目語のうち一つの注目語を複数抽出する抽出手順と、前記抽出された注目語それぞれを少なくとも表示するためのデータを出力する出力手順を有し、前記第1注目語に対する評価スコアは、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるように設定されたスコアであり、前記第2注目語に対する評価スコアは、前記検索クエリに関する重要度が閾値より高く且つ上位ウェブページの使用頻度が低い形態素ほど抽出されるように設定されたスコアであり、前記第3注目語に対する評価スコアは、前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるように設定されたスコアである。
本発明の第16の態様に係るプログラムは、コンピュータに、検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データから決定される第1注目語に対する評価スコア、第2注目語に対する評価スコア、または第3注目語に対する評価スコアに応じて、第1注目語、第2注目語、または第3注目語のうち一つの注目語を複数抽出する抽出手順、前記抽出された注目語それぞれを少なくとも表示するためのデータを出力する出力手順、を実行させるためのプログラムであって、前記第1注目語に対する評価スコアは、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるように設定されたスコアであり、前記第2注目語に対する評価スコアは、前記上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素ほど抽出されるように設定されたスコアであり、前記第3注目語に対する評価スコアは、前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるように設定されたスコアであるプログラムである。
本発明の一態様によれば、第1注目語が出力された場合において、第1注目語は、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるので、ユーザが検索順位向上に寄与する形態素の把握を容易化することができる。また第2注目語が出力された場合において、第2注目語は、前記検索クエリに関する重要度が閾値より高く且つ上位ウェブページの使用頻度が低い形態素ほど抽出されるので、ユーザが検索順位向上に寄与する形態素の把握を容易化することができる。また第3注目語が出力された場合において、第3注目語は前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるので、ユーザが検索順位落下する恐れがある形態素の把握を容易化することができる。
本実施形態に係る情報処理システムの概略構成図である。 本実施形態に係る端末の概略構成図である。 本実施形態に係るコンピュータシステムの概略構成図である。 形態素miがj位のウェブページに含まれる数cijを表す表である。 端末に表示される解析結果画面の一例である。 比較例1において重要度順にソートした結果の画面の一例である。 比較例2において上位ページ網羅優先で含有量順にソートした結果の画面の一例である。 注目語Aの評価スコアでソートした結果の画面の一例である。 ソート前の共通処理の一例を示すシーケンス図である。 解析結果画面表示後、注目語Aの評価スコアでソートする場合の処理の一例を示すシーケンス図である。 対象ウェブページで未使用の形態素であり且つ注目語Aでソートした結果の画面である。 解析結果画面表示後、対象ウェブページで未使用の形態素且つ注目語Aの評価スコアでソートする場合の処理の一例を示すシーケンス図である。 注目語Bの評価スコアでソートした結果の画面の一例である。 解析結果画面表示後、注目語Bの評価スコアでソートする場合の処理の一例を示すシーケンス図である。 注目語Cの評価スコアでソートした結果の画面の一例である。 解析結果画面表示後、注目語Cの評価スコアでソートする場合の処理の一例を示すシーケンス図である。 注目語Aについて単純化した画面の例である。 上位ページにおける形態素の用例表示例を示す画面の例である。
以下、各実施形態について、図面を参照しながら説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。本実施形態では、検索クエリは、ユーザが検索エンジンを使って検索窓に入力した語句(単語、フレーズ、複合語など)であるものとして説明する。
本実施形態に係る情報処理システムSは、検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データに含まれる形態素それぞれに対する第1評価スコア、第2評価スコア、または第3評価スコアに応じて、注目語A(以下、第1注目語ともいう)群、注目語B(以下、第2注目語ともいう)群、または注目語C(以下、第3注目語ともいう)群のうち一つの注目語群を抽出する。ここで注目語は形態素である。そして情報処理システムSは、抽出された注目語群を少なくとも表示するためのデータを出力する。
ここで、第1評価スコアは、第1注目語を抽出するためのスコアであって検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるように設定されたスコアである。
第2評価スコアは、第2注目語を抽出するためのスコアであって前記上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素ほど抽出されるように設定されたスコアである。
第3評価スコアは、第3注目語を抽出するためのスコアであって前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるように設定されたスコアである。
図1は、本実施形態に係る情報処理システムの概略構成図である。図1に示すように、情報処理システムSは、端末1-1~1-K(Kは自然数)と、端末1-1~1-Kと通信回路網CNを介して接続されたコンピュータシステム2とを備える。検索エンジンの一例である検索エンジンサーバ3は、通信回路網CNを介して通信可能にコンピュータシステム2に接続されている。
端末1-1~1-Kは、別々のユーザによって使用されるもので、例えば、多機能携帯電話(いわゆるスマートフォン)などの携帯電話、タブレット、ノートパソコン、またはデスクトップパソコンなどである。本実施形態では一例として、端末1-1~1-Nには、例えばウェブブラウザを介して、コンピュータシステム2から送信された情報が表示されるものとして以下説明する。以下、端末1-1~1-Kを総称して端末1とも呼ぶ。
コンピュータシステム2は、本実施形態に係る情報処理システムSを管理する管理団体によって使用されるものである。コンピュータシステム2は端末1-1~1-Nに対して情報を提供する。コンピュータシステム2は、一台のコンピュータで構成されてもよいし、複数のコンピュータで構成されてもよい。本実施形態では一例として、コンピュータシステム2は、一台のコンピュータであるものとして説明する。
図2は、本実施形態に係る端末の概略構成図である。図2に示すように、端末1は例えば、入力インタフェース11と、通信モジュール12と、ストレージ13と、メモリ14と、出力インタフェース15と、プロセッサ16とを備える。
入力インタフェース11は、ユーザからの入力を受け付け、受け付けた入力に応じた入力信号をプロセッサ16へ出力する。
通信モジュール12は、通信回路網CNに接続されており、コンピュータシステム2と通信する。この通信は有線であっても無線であってもよいが、無線であるものとして説明する。
ストレージ13には、プロセッサ16が読み出して実行するためのプログラム及び各種のデータが格納されている。
メモリ14は、データ及びプログラムを一時的に保持する。メモリ14は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
出力インタフェース15は、ディスプレイ17に接続されており、プロセッサ16の指令に従って映像信号をディスプレイ17に出力する。
プロセッサ16は、ストレージ13からプログラムをメモリ14にロードし、当該プログラムに含まれる一連の命令を実行することによって、処理を実行する。
ディスプレイ17は、プロセッサ16の指令に従って情報を表示する。なおディスプレイ17は端末1に外付けで接続されているだけではなく、端末1に内蔵であってもよい。
図3は、本実施形態に係るコンピュータシステムの概略構成図である。図3に示すように、コンピュータシステム2は、入力インタフェース21と、通信モジュール22と、ストレージ23と、メモリ24と、出力インタフェース25と、プロセッサ26とを備える。
入力インタフェース21は、コンピュータシステム2の管理者(例えば、管理団体の従業員)からの入力を受け付け、受け付けた入力に応じた入力信号をプロセッサ26へ出力する。
通信モジュール22は、通信回路網CNに接続されており、端末1-1~1-Nと通信する。この通信は有線であっても無線であってもよいが、有線であるものとして説明する。
ストレージ23は、プロセッサ26が読み出して実行するためのプログラム及び各種のデータが格納されている。
メモリ24は、データ及びプログラムを一時的に保持する。メモリ24は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
出力インタフェース25は、外部の装置と接続可能であり、当該外部の装置へ信号を出力可能である。
プロセッサ26は、ストレージ23からプログラムをメモリ24にロードし、当該プログラムに含まれる一連の命令を実行することによって、抽出手段261、出力手段262、文字列抽出手段263、受付手段264として機能する。抽出手段261は、検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データを用いて、第1注目語、第2注目語、または第3注目語のうち一つの注目語を複数抽出する。出力手段262は、前記抽出された注目語それぞれを少なくとも表示するためのデータを出力する。文字列抽出手段263は、検索結果の上位に現れる上位ウェブページから、前記注目語が登場する前及び/または後の少なくとも一つ以上の文字ともに当該注目語を文字列として抽出する。受付手段264は、検索クエリ、ユーザからの要求(具体的には例えば端末1からの要求)を受け付ける。それぞれの処理については後述する。
<注目語Aの抽出方法の一例>
続いて注目語Aの抽出方法について説明する。図4は、形態素miがj位のウェブページに含まれる数cijを表す表である。検索クエリqの検索結果の上位ウェブページについて、形態素mi(iは形態素のインデックス)がj位(jは自然数)のページに含まれる数cijは、図4の表が成り立つ。ここでは、1、2、…、N位(Nは2以上の整数)、…、M位(Mは整数)、M+1位、…、M+N位それぞれのウェブページにおいて、形態素miがj位のページに含まれる数cijが示されている。
検索結果の上位ウェブページでは使用されているが下位ウェブページでは使用されていない形態素を抽出するために、抽出手段261は一例として以下の評価スコアを、検索結果に表れるウェブページ内の形態素mi毎に算出する。
Figure 0007355452000001
ここで、score1は対象の形態素miを一つも含まない下位ページ数と上位ページ数の差である。ここで、{ x | C(x) }は条件C(x)を満たす要素xの集合であり、n(A)は集合Aの要素数を表すため、右辺第1項は、検索順位がM~N+M位のうち対象の形態素miを含まないウェブページ数、右辺第2項は、2検索順位が1~N位のうち対象の形態素miを含まないウェブページ数である。score1は例えば、対象の形態素miを一つも含まない下位ページ数が多いほど大きくなり、対象の形態素miを一つも含まない上位ページが少ないほど大きくなる。
Figure 0007355452000002
ここで、score2は含有形態素の順位による重み付き上位レンジ合計と下位レンジ合計の差である。ここで、wh(j)、wl(j)は順位jによる重みである。wh(j)は例えば順位がより高いページに含まれていることが重要であるとみなすとより上位ページになるほど大きくなるのが好ましい。wl(j)は順位がより低いページに含まれていないことが重要であるとみなすとより下位ページになるほど大きくなることが好ましい。f(cij)は形態素含有数に対する評価関数であり、例えば対象の形態素の含有数に対して対数をとるなどで、0と10の差と100と110の差を等価に扱わないなどが可能である。右辺第1項は、ウェブページにおける重みwh(j)と、対象の形態素miのウェブページに含まれる数の評価関数f(cij)の積について、検索順位1~N位までのウェブページで和を取ったものである。右辺第2項は、ウェブページにおける重みwl(j)と、対象の形態素miのウェブページに含まれる数の評価関数f(cij)の積について、検索順位M~M+N-1位までのウェブページで和を取ったものである。
Figure 0007355452000003
ここで、score3は、検索順位1位と2位の評価関数f(cij)の差、検索順位2位と3位の評価関数f(cij)の差、…である。
まず、抽出手段261は、形態素mi毎にscore1を算出し、形態素miの間でscore1を比較してscore1が高いものほど上位になるように形態素miを順位付けする。複数の形態素でscore1が同点の場合、抽出手段261は、その複数の形態素についてscore2を比較し、その複数の形態素の間でscore2が高いほど、その複数の形態素の間では順位を高くする。更にscore1が同点の場合で且つscore2も同点の場合、抽出手段261は、score1が同点の場合で且つscore2も同点の複数の形態素についてscore3として、まず検索順位1位と2位の評価関数f(cij)の差を比較し、その複数の形態素の間でscore3が高いほど,その複数の形態素の間では順位を高くする。もし検索順位1位と2位の評価関数f(cij)の差も同点の場合、抽出手段261は、検索順位2位と3位の評価関数f(cij)の差を比較して差があれば順位を付け、同点ならば更に一つ検索順位を下げて比較を繰り返して形態素miを順位付けする。
抽出手段261は、順位付けの結果、予め決められた順位(例えば、50位)までの形態素を抽出してもよい。
出力手段262は、形態素miを順位付けされた後、その順位で形態素miが並べ替えた表を表示するためのデータを出力する。
<注目語Bの抽出方法の一例>
続いて注目語Bの抽出方法について説明する。抽出手段261は、上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素ほど抽出するために、以下の評価スコアを算出する。
Figure 0007355452000004
ここで、score1は、対象の形態素miを一つも含まない上位ウェブページの数であり、より詳細には、検索順位1~N位までのウェブページの中で対象の形態素miを一つも含まないウェブページの数である。また{ x | C(x) }は条件C(x)を満たす要素xの集合であり、n(A)は集合Aの要素数を表す。
Figure 0007355452000005
ここで、score2は、検索順位1~N位までのウェブページ毎に算出される。score21miは、検索順位1位のウェブページが対象の形態素を含む場合に0、含まない場合に1である。検索順位1位のウェブページが対象の形態素を含む場合に0、含まない場合に1である。同様にscore2Nmi、検索順位N位のウェブページが対象の形態素を含む場合に0、含まない場合に1である。検索順位N位のウェブページが対象の形態素を含む場合に0、含まない場合に1である。
Figure 0007355452000006
ここで、score3は、検索順位1~N位までのウェブページの評価関数f(cij)の重みづけ和をマイナスした値であり、f(cij)は、上述した形態素含有数に対する評価関数である。w(j)は例えば重みであり、例えばjが小さいほど(すなわち順位が上位であるほど)大きい。これにより、より上位のウェブページの評価関数の重みが大きくなり、より上位のウェブページの形態素含有数が多いほどマイナスが大きくなりscore3が下がる。
Figure 0007355452000007
ここでsiは検索クエリqにおける形態素miの重要度である。この重要度は検索クエリによる検索結果の上位ページ群で登場頻度が高いほど高く且つ他の検索クエリ群の検索結果の上位ページ群で頻度が低いほど高くなるように設定されたパラメータである。形態素の重要度は、一例として特許文献1(特許第6253041号公報)の特有度であってもよく、具体的には例えば当該形態素の業界用語としての特有度を所定の評価関数に基づき算定されたものであってもよいが、これに限らない。
ここで重要度の一例として特許文献1の特有度について説明する。ある検索語wの検索上位Nサイトにおいて、ある形態素mが使用されているサイト数をnijとし、その割合を次式により算出されてもよい。
Figure 0007355452000008
全ての検索語W=(w、w、w…)それぞれの検索上位Nサイトにおいて、ある形態素mが使用される割合を次式により算出されてもよい。
Figure 0007355452000009
そして任意の形態素mの任意の検索語wにおける特有度sijを次式に示される評価関数により算出されてもよい。ここで、「特有度」とは、各形態素が業界用語として汎用されているのか、あるいは業界用語としては一般的には汎用されていないのかを指標する特有度を意味する。
Figure 0007355452000010
まず、抽出手段261は例えば、形態素miの重要度を算出し、重要度が閾値を超える形態素miそれぞれについて、形態素mi毎にscore1を算出し、形態素miの間でscore1を比較してscore1が高いものほど上位になるように形態素miを順位付けする。複数の形態素でscore1が同点の場合、抽出手段261は、その複数の形態素についてscore2を順に比較し、その複数の形態素の間でscore2が高いほど、その複数の形態素の間では順位を高くする。更にscore1が同点の場合で且つscore2も同点の場合、抽出手段261は、score1が同点の場合で且つscore2も同点の複数の形態素についてscore3を比較し、その複数の形態素の間でscore3が高いほど、その複数の形態素の間では順位を高くする。score1~score3で同点の場合、抽出手段261は、同点の複数の形態素についてscore4が大きいほどすなわち重要度が高いほど、順位を高くする。
<注目語Cの抽出方法の一例>
続いて、注目語Cの抽出方法について説明する。この注目語Cは、検索順位を押し下げてしまうリスクがある形態素である。抽出手段261は、該当テーマで頻度が低いが、他テーマで頻度が高い形態素を抽出するために、以下の評価スコアを算出する。
Figure 0007355452000011
ここで、giは形態素miの一般度(例えばすべてのテーマでの使用頻度等)であり、Cgは定数、Csは定数、siは上述した重要度である。
抽出手段261は、上記の評価スコアscoreが高いものほど上位になるようになら並び替えられた(すなわちソートされた)複数の形態素miを抽出する。
以下、検索結果に表示されるウェブページだけの形態素を解析し、それらのウェブページのリンク先ウェブページの形態素は解析しない「単ページ分析結果」の例について説明する。図5は、端末に表示される解析結果画面の一例である。図5に示すように、解析結果画面G1には、一例として検索クエリ「cad」を用いた検索エンジンでの検索結果に含まれる検索順位1~10位までのウェブページが、そのウェブページのタイトルとURLとともに示されている。図5に示すように、解析結果画面G1には、検索順位1~10位までのウェブページ全体に含まれる形態素が重要度順に並んでおり、検索順位1~10位までのウェブページ毎に、当該ウェブページに含まれる形態素の数が表で示されている。
更に図5において、注目語A含有度、注目語B含有度、注目語C含有度がウェブページ毎に表示されている。ここで注目語A含有度は、対応するウェブページに含まれる注目語Aそれぞれ毎の含有数を合計したものであってもよいし、含有数の対数値(log)であってもよいし、特許文献1の式(1)のような評価関数(例えば、所定の値を最大値とする対数関数)であってもよいし、含有数を規格化したものであってもよい。同様に、注目語B含有度は、対応するウェブページに含まれる注目語Bそれぞれ毎の含有数を合計したものであってもよいし、含有数の対数値(log)であってもよいし、特許文献1の式(1)のような評価関数(例えば、所定の値を最大値とする対数関数)であってもよいし、含有数を規格化したものであってもよい。同様に、注目語C含有度は、対応するウェブページに含まれる注目語Cそれぞれ毎の含有数を合計したものであってもよいし、含有数の対数値(log)であってもよいし、特許文献1の式(1)のような評価関数(例えば、所定の値を最大値とする対数関数)であってもよいし、含有数を規格化したものであってもよい。
図5の画面G1において「注目語A含有度」が操作(例えば押下)された場合、「注目語A含有度」の大きい順(もしくは小さい順)にウェブページの表示順を並び替えられてもよい。同様に図5の画面G1において「注目語B含有度」が操作(例えば押下)された場合、「注目語B含有度」の大きい順(もしくは小さい順)にウェブページの表示順を並び替えられてもよい。同様に図5の画面G1において「注目語C含有度」が操作(例えば押下)された場合、「注目語C含有度」の大きい順(もしくは小さい順)にウェブページの表示順を並び替えられてもよい。
この処理を実現するために、出力手段262が出力するデータ(例えば、画面G1を表示するためのデータ)には、ウェブページ毎の注目語の含有度も含まれており、受付手段264は、注目語の含有度でソートするための操作をユーザから受け付け、出力手段は、262は当該操作を受け付けた場合、前記検索結果に含まれるウェブページが前記注目語の含有度順にソートされたデータを出力してもよい。
なお、注目語A含有度、注目語B含有度、注目語C含有度の表示及び操作時のアクションについては以降の図6~8、10、12、14でも同様である。
更に図5において形態素それぞれについて重要度が示されている。この形態素毎の重要度は、例えば、検索順位1~N位までのウェブページに含まれる当該形態素の数の総数であってもよいし、この総数を指数化したものであってもよい。
例えば、重要度の文字R1をクリックした場合、メニューR2が表示される。メニューでは、何でソートするかを選択することが可能である。例えば、形態素について、重要度、上位〇ページ含有量、下位〇ページ含有量、注目語A、注目語B、注目語Cのいずれで形態素をソートするかをユーザが選択可能なように表示される。具体的には例えば、重要度、上位〇ページ含有量、下位〇ページ含有量については、昇順(もしくは上矢印)または降順(もしくは下矢印)をユーザがクリックすることによってソート可能である。また注目語AのボタンB1、注目語BのボタンB2、注目語CのボタンB3をユーザが押すことによってソート可能である。
また例えば、重要度の範囲を最小値と最大値でユーザが指定することにより形態素をフィルタ可能になるように表示され、形態素をユーザが指定することにより形態素が注目語A、注目語B、または注目語Cに該当するか否かでフィルタ可能になるように表示されている。例えば、重要度についてはテキストボックスR3で最小値を指定可能であり、テキストボックスR4で最大値を指定可能である。例えば、注目語AのチェックボックスB4をチェックすることによって形態素が注目語Aに該当するか否かでフィルタ可能であり、注目語BのチェックボックスB5をチェックすることによって形態素が注目語Bに該当するか否かでフィルタ可能であり、注目語CのチェックボックスB6をチェックすることによって形態素が注目語Cに該当するか否かでフィルタ可能である。ユーザは、上記のフィルタなしでソートしてもよいし、上記のフィルタありでソートしてもよい。
<比較例1:重要度順のソート>
図6は、比較例1において重要度順にソートした結果の画面の一例である。図6の画面G2に示すように、上位3つのウェブページ中に含まれる形態素の数と、下位3つのウェブページ中に含まれる形態素の数を比較すると、下位3つのウェブページ中にも形態素が含まれているため、その差が若干不明瞭である。
<比較例2:上位ページ網羅優先で含有量順にソート>
図7は、比較例2において上位ページ網羅優先で含有量順にソートした結果の画面の一例である。図7の画面G3は、上位3つのウェブページのいずれにも含まれている形態素が優先で且つ上位3つのウェブページに含まれる数が多い順にソートした結果である。上位3つのウェブページ中に含まれる形態素の数と、下位3つのウェブページ中に含まれる形態素の数を比較すると、下位3つのウェブページ中にも形態素が含まれているため、その差が若干不明瞭である。
<注目語Aの評価スコアでソート>
図8は、注目語Aの評価スコアで形態素をソートした結果の画面の一例である。上位3つのウェブページ中に含まれる形態素の数と、下位3つのウェブページ中に含まれる形態素の数を比較すると、下位3つのウェブページ中に含まれる形態素の数がほぼ0であるため、差が明瞭である。このように、注目語Aでソートした場合、上位ページにあって下位ページにない形態素を抽出できるため、検索上位に押し上げる要因となっている形態素を把握することができる。
図9Aは、ソート前の共通処理の一例を示すシーケンス図である。
(ステップS110)コンピュータシステム2は、端末1からの要求に応じて検索クエリ入力画面データを端末1に送信する。これにより、検索クエリ入力画面が端末1に表示される。
(ステップS120)次に端末1は、検索クエリ入力画面においてユーザによって入力された検索クエリをコンピュータシステム2へ送信する。
(ステップS130)次にコンピュータシステム2は、検索クエリとともに検索要求を検索エンジンサーバ3へ送信する。
(ステップS140)検索エンジンサーバ3は、検索クエリとともに検索要求を受信し、検索要求に応じて検索クエリで検索を実行する。
(ステップS150)検索エンジンサーバ3は、検索結果をコンピュータシステム2へ送信する。
(ステップS160)コンピュータシステム2は、検索結果を受信し、検索結果の例えば1位から10位の各URL(Uniform Resource Locator)を宛先とするHTTPリクエストを通信回路網CNに順次送信する。
(ステップS170)各HTTPリクエストを受信したウェブサーバは、該当するウェブページデータをコンピュータシステム2に返信する。
(ステップS180)コンピュータシステム2は、これらのウェブページデータを受信した場合、各ウェブページに含まれる形態素毎に計数し、解析結果画面データを生成して、解析結果画面データを端末1へ送信する。これにより、解析結果画面(例えば、図5の画面G1)が端末1に表示される。
続いて、解析結果画面表示後において、注目語Aの評価スコアでソートする場合の処理について図9Bを用いて説明する。図9Bは、解析結果画面表示後、注目語Aでソートする場合の処理の一例を示すシーケンス図である。
(ステップS210)ユーザによって注目語Aでソートすることが選択された場合、端末1は注目語Aでソートをリクエストする。
(ステップS220)コンピュータシステム2は、形態素を注目語Aの評価スコアでソートする。
(ステップS230)コンピュータシステム2は、ソート後の形態素を表示するためのソート処理後画面データを送信する。これにより、端末1には、ソート処理後画面が表示される。
なお、コンピュータシステム2は、ソート表示画面データの代わりに、ソート後の形態素の並び順を送信し端末1がその並び順で形態素を表示してもよい。
<対象ウェブページで未使用の形態素且つ注目語Aの評価スコアでソート>
図10は、対象ウェブページで未使用の形態素であり且つ注目語Aの評価スコアでソートした結果の画面である。図10の画面G5において、例えば対象ウェブページ(ここでは一例として検索順位8位のウェブページ)の列でユーザからの所定の操作(例えば右クリック)を受け付けた場合、対象ウェブページの形態素の表示に対する操作をするためのメニューR11が表示される。メニューR11に記載の「フィルタ」において、「未使用のみ」が選択されると、対象ウェブページにおいて未使用の形態素の中で注目語Aの評価スコアで形態素がソートされた結果が表示される。また、メニューR11に記載の「フィルタ」において、「使用のみ」が選択されると、対象ウェブページにおいて使用されている形態素の中で注目語Aの評価スコアで形態素がソートされた結果が表示される。
また、メニューR11に記載の「フィルタ」において、形態素の出現回数の最小値を設定するための入力欄(例えばセレクトボックス)B12と、形態素の出現回数最大値を設定するための入力欄(例えばセレクトボックス)B13が表示されている。メニューR11に記載の「フィルタ」において形態素の出現回数の最小値と最大値を設定されると、対象ウェブページにおいて使用されている形態素の出現回数が最小値から最大値の範囲に収まる形態素の中で注目語Aの評価スコアで形態素がソートされた結果が表示される。メニューR11に記載の「ソート」において多い順が選択された場合、対象ウェブページにおける出現回数が多い順に形態素が表示される。一方、メニューR11に記載の「ソート」において少ない順が選択された場合、対象ウェブページにおける出現回数が少ない順に形態素が表示される。
図10の画面G5では、検索順位8位のウェブページに対するメニューR11のフィルタ「未使用のみ」が選択されて、この検索順位8位のウェブページで未使用の形態素の中で注目語Aの評価スコアで形態素がソートされた結果が示されている。上位3つのウェブページ中に含まれる形態素の数と、対象ウェブページである検索順位8位のウェブページ中に含まれる形態素の数を比較すると、その差が明瞭である。
図11は、解析結果画面表示後、対象ウェブページで未使用の形態素且つ注目語Aの評価スコアでソートする場合の処理の一例を示すシーケンス図である。
(ステップS310)端末1は、対象ウェブページで未使用且つ注目語Aでソートをリクエストする。
(ステップS320)コンピュータシステム2は、対象のウェブページで未使用の形態素を注目語Aの評価スコアでソートする。この処理を実行するために、受付手段264は、対象ウェブページで未使用且つ注目語Aでソートのリクエストを受け付け、抽出手段261は、対象のウェブページで未使用の形態素を注目語Aの評価スコアでソートした注目語A群を抽出する。
なお、ソートすることが好ましいが、必ずしも評価スコアでソートしなくてもよく、ソートせずに注目語Aの評価スコアが基準を満たすものを抽出してもよい。すなわち、抽出手段261は、前記注目語を抽出する際に、対象のウェブページで未使用または使用中の形態素の中から第1注目語を抽出してもよい。この場合、出力手段262は、前記抽出された第1注目語それぞれを少なくとも表示するためのデータを出力してもよい。
また、出力手段262は、前記抽出された注目語群に含まれる注目語それぞれについて各ウェブページにおける含有数を表示するための情報を出力してもよい。これにより、図8に示すように、抽出された注目語群に含まれる注目語それぞれについて各ウェブページにおける含有数が端末1に表示される。
また、出力手段262は、上位ウェブページにおける注目語の含有数に応じて注目語がソートされた状態で各注目語について各ウェブページにおける注目語の含有数を表示するための情報を出力してもよい。これにより、図8に示すように、上位ウェブページにおける注目語の含有数に応じて注目語がソートされた状態で抽出された注目語群に含まれる注目語それぞれについて各ウェブページにおける含有数が端末1に表示される。
(ステップS330)コンピュータシステム2は、ソート後の形態素を表示するためのソート処理後画面データを送信する。これにより、端末1には、ソート処理後画面が表示される。
なお、コンピュータシステム2は、ソート表示画面データの代わりに、ソート後の形態素の並び順を送信し端末1がその並び順で形態素を表示してもよい。
これにより、例えば対象ウェブページがユーザのウェブページであれば、ユーザのウェブページで未使用の形態素であって、検索上位に押し上げる要因となっている形態素を把握することができる。
<注目語Bの評価スコアでソート>
図12は、注目語Bの評価スコアでソートした結果の画面の一例である。図12の画面G6は、数4のscore1のNが3の場合の例であり、上位3つのウェブページ中に含まれる形態素の数が0である。このように、数4のscore1のNを任意に設定することにより、任意の上位ページが使用していない重要な形態素を把握することができる。
続いて、解析結果画面表示後において、注目語Bの評価スコアでソートする場合の処理について図13を用いて説明する。図13は、解析結果画面表示後、注目語Bの評価スコアでソートする場合の処理の一例を示すシーケンス図である。
(ステップS410)ユーザによって注目語Bでソートすることが選択された場合、端末1は注目語Bでソートをリクエストする。
(ステップS420)コンピュータシステム2は、形態素を注目語Bの評価スコアでソートする。
(ステップS430)コンピュータシステム2は、ソート後の形態素を表示するためのソート処理後画面データを送信する。これにより、端末1には、ソート処理後画面が表示される。
なお、コンピュータシステム2は、ソート表示画面データの代わりに、ソート後の形態素の並び順を送信し端末1がその並び順で形態素を表示してもよい。
これにより、任意の上位ページが使用していない重要な形態素をユーザは把握することができるので、検索順位向上に寄与する形態素の把握を容易化することができる。
なお、図10及び図11で説明した注目語Aの場合の処理と同様に、注目語Bについても、対象のウェブページで未使用または使用中の形態素の中から注目語B群が抽出されて表示されてもよい。その場合、抽出手段261は、前記注目語B群を抽出する際に、対象のウェブページで未使用または使用中の形態素群の中から注目語B群を抽出してもよい。この場合において、出力手段262は、前記抽出された注目語B群それぞれを少なくとも表示するためのデータを出力してもよい。この構成により、対象のウェブページ(例えば自社のウェブページ)で未使用で且つ上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素群を把握できるので、対象のウェブページで未使用の形態素群を対象のウェブページに入れることで検索順位を効率的に上げることができる。また対象のウェブページ(例えば自社のウェブページ)で使用されていて且つ上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素群を把握できるので、対象のウェブページにその形態素の種類が少ないようであれば対象のウェブページを改善する手がかりを与えることができる。
更なる詳細な具体例として、受付手段264は、対象ウェブページで未使用または使用中の形態素で且つ注目語Bでソートするリクエストを受け付けてもよい。この場合において、抽出手段261は、対象のウェブページで未使用または使用中の形態素について、注目語Bの評価スコアでソートされた注目語B群を抽出してもよい。これにより、出力手段262によって、ソートされた注目語B群を表示するためのデータが出力されるので、評価スコアの順に注目語B群が表示される。このため、対象のウェブページ(例えば自社のウェブページ)で未使用の場合、評価スコアが高いものから順に対象のウェブページに入れることで検索順位を効率的に上げることができる。一方、対象のウェブページ(例えば自社のウェブページ)で使用中の場合、対象のウェブページに評価スコアが高い形態素の種類が少ないようであれば対象のウェブページを改善する手がかりを与えることができる。
<注目語Cの評価スコアでソート>
図14は、注目語Cの評価スコアでソートした結果の画面の一例である。図14の画面G7は、数11の評価スコアに従って、ソートされた形態素の一例である。図14の画面G7には、対象の検索クエリに関するテーマで出現頻度が低く且つ他テーマで出現頻度が高い形態素が表示される。
続いて、解析結果画面表示後において、注目語Cの評価スコアでソートする場合の処理について図15を用いて説明する。図15は、解析結果画面表示後、注目語Cの評価スコアでソートする場合の処理の一例を示すシーケンス図である。
(ステップS510)ユーザによって注目語Cでソートすることが選択された場合、端末1は注目語Cでソートをリクエストする。
(ステップS520)コンピュータシステム2は、形態素を注目語Cの評価スコアでソートする。
(ステップS530)コンピュータシステム2は、ソート後の形態素を表示するためのソート処理後画面データを送信する。これにより、端末1には、ソート処理後画面が表示される。
なお、コンピュータシステム2は、ソート表示画面データの代わりに、ソート後の形態素の並び順を送信し端末1がその並び順で形態素を表示してもよい。
なお、図10及び図11で説明した注目語Aの場合の処理と同様に、注目語Cについても、対象のウェブページで未使用または使用中の形態素の中から注目語C群が抽出されて表示されてもよい。その場合、抽出手段261は、前記注目語C群を抽出する際に、対象のウェブページで未使用または使用中の形態素の中から注目語C群を抽出してもよい。この場合において、出力手段262は、前記抽出された注目語C群それぞれを少なくとも表示するためのデータを出力してもよい。この構成により、対象のウェブページ(例えば自社のウェブページ)で使用中で且つ検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素を把握できる。この形態素は検索順位を押し下げる可能性があるので、この形態素群を対象のウェブページから除外することで検索順位を効率的に上げることができる。また対象のウェブページ(例えば自社のウェブページ)で未使用で且つ検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素を把握できる。この形態素群は検索順位を押し下げる可能性があるので、この形態素群が対象のウェブページで使用されていないことを確認することで、検索順位を押し下げる可能性がある形態素を使用していないことを即座に確認することができる。
更なる詳細な具体例として、受付手段264は、対象ウェブページで未使用または使用中の形態素で且つ注目語Cでソートするリクエストを受け付けてもよい。この場合において、抽出手段261は、対象のウェブページで未使用または使用中の形態素について、注目語Cの評価スコアでソートされた注目語C群を抽出してもよい。これにより、出力手段262によって、ソートされた注目語C群を表示するためのデータが出力されるので、評価スコアの順に注目語C群が表示される。
この構成により、評価スコアの順に注目語C群が表示されるので、対象のウェブページ(例えば自社のウェブページ)で使用中で且つ検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素を容易に把握できる。この形態素は検索順位を押し下げる可能性があるので、この形態素群を対象のウェブページから除外することで検索順位を効率的に上げることができる。
また対象のウェブページ(例えば自社のウェブページ)で未使用で且つ検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素を容易に把握できる。この形態素群は検索順位を押し下げる可能性があるので、この形態素群が対象のウェブページで使用されていないことを確認することで、検索順位を押し下げる可能性がある形態素を使用していないことを即座に確認することができる。
<注目語Aの表示の単純化例>
続いて、注目語Aの表示の単純化例について図16を用いて説明する。図16は、注目語Aについて単純化した画面の例である。図16の画面G8では、セレクトボックスB111で1位が選択され且つセレクトボックスB112で3位が選択されることによって、上位1~3位のウェブページに含まれる形態素が表示される。また、ここでは一例としてセレクトボックスB113で8位が選択され且つセレクトボックスB114で10位が選択されることによって、下位8~10位のウェブページに含まれる形態素が表示されていない。上位1~3位のウェブページ、下位8~10位のウェブページに共通して含まれる形態素が表示される。
これを実現するために、出力手段262は、抽出された注目語群のうち上位ページに含まれる注目語群を表示するためのデータを出力する。また出力手段262は、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語を表示するためのデータを出力する。
なお、このような検索順位の範囲をユーザが指定するだけでなく、検索結果に含まれる任意のウェブページをユーザが選択可能であってもよい。具体的には例えば、ユーザは、上位ページとしてユーザが検索順位1位と3位のウェブページだけを選択可能とし、下位ページとして検索順位8位と10位のウェブページだけを選択可能としてもよい。この構成により、例えば、ユーザの保有サイトがECサイトだった場合、例えば競合サイトでない順位(例えば、2位のウィキペディアのページ)を表示対象から除外し、1位と3位のECサイトだけを上位ページとしての表示対象にして、下位である自社ページとの形態素の差異を表示することができる。
また画面G8には、設定メニューR81が表示され、表示カテゴリにおいて表示されるカテゴリを選択可能である。ここで設定メニューR81は、表示、非表示を任意に切り替えられてもよい。具体的には、はじめから画面上にこのような設定メニュー(設定パネルともいう)を表示しておくケースだけでなく、特定の操作がされた場合(例えばアイコンなどをクリックされた場合)にだけ表示してもよい。例えば、表示されるカテゴリとして上位ページに含まれる形態素を選択可能なチェックボックスB81、上位ページに含まれる形態素を表示する場合であって且つ下位ページに含まれる形態素を表示しないことを選択可能なチェックボックスB82が表示されている。また表示されるカテゴリとして下位ページに含まれる形態素を選択可能なチェックボックスB83、下位ページに含まれる形態素であって且つ上位ページに含まれる形態素を表示しないことを選択可能なチェックボックスB84が表示されている。また共通して含まれる形態素の表示有無を選択可能なチェックボックスB85が表示されている。
これを実現するために、出力手段262は、上位ページに含まれる形態素の表示有無、上位ページに含まれる形態素を表示する場合であって且つ下位ページに含まれる形態素の表示有無、下位ページに含まれる形態素の表示有無、下位ページに含まれる形態素であって且つ上位ページに含まれる形態素の表示有無、共通して含まれる注目語の表示有無の少なくとも一つが選択可能であるデータを出力する。そして出力手段262は、ユーザの選択に応じて表示するためのデータを出力する。
画面G8には、画面G8に表示する表示データとして、形態素の表示有無を選択可能なチェックボックスB86が表示され、含有数の表示有無を選択可能なチェックボックスB87が表示され、重要度の表示有無を選択可能なチェックボックスB88が表示されている。また対象の形態素の経済規模または経済規模率を選択可能なチェックボックスB89が表示されている。対象の形態素の経済規模とは、その形態素が使用されている単数または複数の検索クエリに関する単位期間(例えば月)あたりの検索数(検索ボリュームともいう)と、CPC広告のクリック単価と、CPC広告の競合性と、のうち、いずれか2つまたは3つを乗じた値である。対象の形態素(例えば、「ソフト」)の経済規模率とは、ある検索クエリ(例えば「CAD」)を含む複数の検索クエリ(例えば「無料CADソフト」、「CAD おすすめ」など)の経済規模の合計に対する、上記対象の形態素の経済規模の割合である。
また対象の形態素の検索数または検索占有率を選択可能なチェックボックスB90が表示されている。対象の形態素の検索数は、その形態素が使用されている単数または複数の検索クエリに関する単位期間(例えば月)あたりの検索数(検索ボリュームともいう)の合計である。例えば、検索クエリが「CAD」であるときに、「ソフト」という形態素は、「無料CADソフト」、「CADフリーソフト」など多くの検索クエリで使用されている。それら検索クエリそれぞれの検索数を単位期間(例えば月)で合計したものが形態素ごとの検索数である。また、対象の形態素の検索占有率とは、対象の検索クエリ(例えば「CAD」)が含まれる複数の検索クエリ(例えば「無料CADソフト」、「CAD おすすめ」など)の検索数の合計に対する、上記対象の形態素(例えば、「ソフト」)を含む検索クエリの検索数合計の割合を表す値である。
また対象の形態素のクエリ数、クエリ数占有率を選択可能なチェックボックスB91が表示されている。対象の検索クエリが「CAD」であるときに、対象の検索クエリ「CAD」を含む検索クエリには、例えば「無料CADソフト」、「CAD おすすめ」など、例えば1000種類程度存在する。対象の形態素のクエリ数は、対象の形態素「ソフト」が対象の検索クエリ「CAD」とともに使用される場合に、何種類あるかを示す数である。仮に例えば、「無料CADソフト」、「無料CADフリーソフト」だけで使用されている場合、対象の形態素「ソフト」のクエリ数は2である。クエリ数占有率は、対象の検索クエリが「CAD」を含む検索クエリの種類の数の合計に対する、上記対象の形態素のクエリ数の割合である。なお、チェックボックスB86~B91は一つだけの選択だけでなく複数選択されてもよい。また、チェックボックスB86~B91をラジオボタンに置き替えて、一つだけ選択することが可能であってもよい。
出力手段262は、ユーザによる選択に応じて、前記注目語に加えて、前記抽出された注目語について上位ページに含まれる形態素の含有数、前記抽出された注目語の重要度、前記抽出された注目語の経済規模もしくは経済規模率、前記抽出された注目語の検索数もしくは検索数占有率、前記抽出された注目語のクエリ数もしくはクエリ占有率のうち少なくとも一つを表示するためのデータを出力してもよい。
また形態素の表示順を含有数順で決定することを選択可能なチェックボックスB92が表示されている。図16の画面G8の例では一例としてチェックボックスB92がチェックされていることによって、形態素が含有数順で表示されている。
また形態素の表示順を重要度順で決定することを選択可能なチェックボックスB93が表示されている。また形態素の表示順を経済規模順で決定することを選択可能なチェックボックスB94が表示されている。また形態素の表示順を検索数順で決定することを選択可能なチェックボックスB95が表示されている。また形態素の表示順をクエリ数順で決定することを選択可能なチェックボックスB96が表示されている。なお、チェックボックスB92~B96は一つだけの選択だけでなく複数選択されてもよく、その場合、複数のパラメータを加味した表示順で形態素が表示されてもよい。また、チェックボックスB92~B96をラジオボタンに置き替えて、一つだけ選択することが可能であってもよい。
出力手段262は、ユーザによる選択に応じて、前記抽出された注目語について、前記上位ウェブページにおける含有数順、重要度順、経済規模順、検索数順、またはクエリ数順に表示するためのデータを出力してもよい。
また形態素の表示サイズを、スケール無し(すなわち全て同じ大きさ)で表示することを選択可能なチェックボックスB97が表示されている。また形態素の表示サイズを、その形態素の含有数でスケールして表示することを選択可能なチェックボックスB98が表示されている。図16の画面G8の例では一例としてチェックボックスB98がチェックされていることによって、形態素の表示サイズが形態素の含有数でスケールされて表示されている。なお、チェックボックスB97~B102は一つだけの選択だけでなく複数選択されてもよく、その場合、複数のパラメータを加味してスケールされてもよい。また、チェックボックスB97~B102をラジオボタンに置き替えて、一つだけ選択することが可能であってもよい。
これらを実現するために、出力手段262は、前記抽出された注目語について、前記上位ウェブページにおける含有数、重要度、経済規模、検索数、クエリ数に応じて、注目語の表示サイズをスケールして表示するためのデータを出力してもよい。
また形態素の表示サイズを、その形態素の重要度でスケールして表示することを選択可能なチェックボックスB99が表示されている。また形態素の表示サイズを、その形態素の経済規模でスケールして表示することを選択可能なチェックボックスB100が表示されている。また形態素の表示サイズを、その形態素の検索数でスケールして表示することを選択可能なチェックボックスB101が表示されている。また形態素の表示サイズを、その形態素のクエリ数でスケールして表示することを選択可能なチェックボックスB102が表示されている。
また上位ページに含まれる形態素の表示数を選択可能なセレクトボックスB103が表示されている。また下位ページに含まれる形態素の表示数を選択可能なセレクトボックスB104が表示されている。また共通して含まれる形態素の表示数を選択可能なセレクトボックスB105が表示されている。
これを実現するために、出力手段262は、前記上位ウェブページに含まれる注目語の表示数の上限、前記下位ウェブページに含まれる注目語の表示数の上限、前記下位ウェブページに共通して含まれる注目語の表示数の上限をユーザが設定可能に表示するためのデータを出力する。
またオプションとして、上位ページと下位ページに共通して含まれる形態素の度合いを選択可能なセレクトボックスB106が表示されている。これを実現するために、出力手段262は、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語の含有度合いをユーザが設定可能に表示するためのデータを出力し、設定された含有度に応じて、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語を変更する。
<形態素の用例表示例>
続いて、形態素の用例表示例について図17を用いて説明する。図17は、上位ページにおける形態素の用例表示例を示す画面の例である。図17の画面G9において、各形態素が含まれる文章の一部または全部が、それぞれのウェブページから抽出されて表示されている。
これを実現するために、文字列抽出手段263は、上位ウェブページから、前記注目語が登場する前及び/または後の少なくとも一つ以上の文字ともに当該注目語を文字列として抽出する。そして、出力手段262は、前記抽出された文字列を表示するためのデータを出力する。その際、出力手段262は、ユーザが形態素を識別しやすいように他の文字列とは視覚的に異なる態様(例えば、文字色を変える、及び/または文字の太さを変える、及び/または文字の背景色を変える)で表示されるようにデータを出力する。
これにより、上位ページが重要な形態素をどのような文脈で用いているかを表示することができる。これによって、ユーザがこの文脈を参照することで、ユーザのページ(例えば自社ページ)に重要な形態素を含む文章を新たに作ることが容易になり、重要な形態素を含む文章を追加しやすくなる。
なお、上記の実施形態では、コンピュータシステム2が、ソート条件(例えば注目語A、B、Cいずれか等)を端末1から受信し、このソート条件に応じて処理を実行し、表データを含むデータあるいは形態素の並び順を結果として端末1へ送信したが、これに限ったものではない。表データを端末1で受け取り、ソート条件に応じた処理をすべて端末1で行ってもよい。また抽出手段261、出力手段262、または文字列抽出手段263の少なくとも一つは、端末1が有してもよい。
以上、本実施形態に係る情報処理システムは、検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データに含まれる形態素それぞれに対する第1評価スコア、第2評価スコア、または第3評価スコアに応じて、第1注目語群、第2注目語群、または第3注目語群のうち一つの注目語群を抽出する抽出手段261と、前記抽出された注目語群を少なくとも表示するためのデータを出力する出力手段262と、を備える。
この構成により、第1注目語群が出力された場合において、第1注目語群は、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるので、ユーザが検索順位向上に寄与する形態素の把握を容易化することができる。
また第2注目語が出力された場合において、第2注目語群は、前記検索クエリに関する重要度が閾値より高く且つ上位ウェブページの使用頻度が低い形態素ほど抽出されるので、ユーザが検索順位向上に寄与する形態素の把握を容易化することができる。
また第3注目語が出力された場合において、第3注目語は前記検索クエリの検索結果に表示されるウェブページや、それらとハイパーテキストリンクまたはサイトディレクトリまたは自然言語処理的な判定によって関連性が強いとみなされる他のウェブページにおいて出願頻度が低く且つ関連性が低いとみなされる他の検索クエリの検索結果に表示されるウェブページや、それらとハイパーテキストリンクまたはサイトディレクトリまたは自然言語処理的な判定によって関連性が強いとみなされる他のウェブページにおいて出願頻度が高い形態素ほど抽出されるので、ユーザが検索順位落下する恐れがある形態素の把握を容易化することができる。
<ウェブページ毎の注目語A、B、Cのスコア>
なお、抽出手段262は、注目語A、B、Cそれぞれをどの程度満たしているのかについてウェブページ毎にスコアリングし、出力手段263は、そのスコアを表示するためのデータを出力してもよい。スコアの表示位置は例えばウェブページ名それぞれの近傍である。
ここでスコアは具体的には例えば、注目語として抽出された対象形態素を単純にカウントした値、またはそのカウントにウェブページに含まれる対象形態素それぞれの含有数を加味した値、または対象形態素を含んだ検索クエリの検索数の合計、もしくは対象形態素の経済規模の合計、または上記の「対象形態素のクエリ数」の合計であってもよい。
<複ページ分析>
なお、ここまで対象のウェブページだけの形態素を解析する単ページ分析結果に対する処理の例について説明したが、これに限ったものではない。対象のウェブページだけでなく対象のウェブページのリンク先・リンク元のページを含めて形態素を解析する複ページ分析結果に対して同様の処理が実行されてもよい。
なお、図5、6、7、8、10、12、14では一例として検索順位1~10位までの範囲を表示したが、これに限らず表示範囲は任意に変更してもよい。また図17では一例として検索順位1~5位までの範囲を表示したが、これに限らず表示範囲は任意に変更してもよい。
なお、図5、6、7、8、10、12、14、17の各要素の表示位置は一例であって、これに限ったわけではなく、各要素の表示位置は任意に変更可能である。また図5、6、7、8、10、12、14、17では一例として縦方向に形態素、横方向に検索順位を表示したが、これに限ったものではなく、例えば縦方向と横方向の表示データを入れ替えて、縦方向に検索順位、横方向に形態素を表示してもよい。
なお、上述した実施形態で説明したコンピュータシステム2の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、コンピュータシステム2の少なくとも一部の機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、コンピュータシステム2の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
さらに、一つまたは複数の情報機器によってコンピュータシステム2を機能させてもよい。複数の情報機器を用いる場合、そのうちの1つをコンピュータとし、当該コンピュータが所定のプログラムを実行することによりコンピュータシステム2の少なくとも1つの手段として機能が実現されてもよい。
また、方法の発明においては、全ての工程(ステップ)をコンピュータによって自動制御で実現するようにしてもよい。また、各工程をコンピュータに実施させながら、工程間の進行制御を人の手によって実施するようにしてもよい。また、さらには、全工程のうちの少なくとも一部を人の手によって実施するようにしてもよい。
以上、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1 端末
11 入力インタフェース
12 通信モジュール
13 ストレージ
14 メモリ
15 出力インタフェース
16 プロセッサ
17 ディスプレイ
2 コンピュータシステム
21 入力インタフェース
22 通信モジュール
23 ストレージ
24 メモリ
25 出力インタフェース
26 プロセッサ
261 抽出手段
262 出力手段
263 文字列抽出手段
264 受付手段
3 検索エンジンサーバ

Claims (16)

  1. 検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データに含まれる形態素それぞれに対する第1評価スコア、第2評価スコア、または第3評価スコアに応じて、第1注目語群、第2注目語群、または第3注目語群のうち一つの注目語群を抽出する抽出手段と、
    前記抽出された注目語群を少なくとも表示するためのデータを出力する出力手段と、
    を備え、
    前記第1評価スコアは、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるように設定されたスコアであり、
    前記第2評価スコアは、前記上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素ほど抽出されるように設定されたスコアであり、
    前記第3評価スコアは、前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるように設定されたスコアである
    情報処理システム。
  2. 前記出力手段は、前記抽出された注目語群に含まれる注目語それぞれについて各ウェブページにおける含有数を表示するための情報を出力する
    請求項1に記載の情報処理システム。
  3. 前記抽出手段は、前記注目語群を抽出する際に、対象のウェブページで未使用または使用中の形態素群の中から前記第1注目語群、前記第2注目語群、または前記第3注目語群を抽出し、
    前記出力手段は、前記抽出された第1注目語群、前記第2注目語群、または前記第3注目語群を少なくとも表示するためのデータを出力する
    請求項1または2に記載の情報処理システム。
  4. 対象ウェブページで未使用または使用中の形態素で且つ第1注目語、第2注目語、第3注目語でソートするリクエストを受け付ける受付手段を更に備え、
    前記抽出手段は、対象のウェブページで未使用または使用中の形態素について、第1注目語、第2注目語、第3注目語の評価スコアでソートされた第1注目語群、第2注目語群、第3注目語群を抽出する
    請求項3に記載の情報処理システム。
  5. 前記出力手段が出力するデータには、ウェブページ毎の注目語の含有度も含まれており、
    前記注目語の含有度でソートするための操作をユーザから受け付ける受付手段と、
    前記操作を受け付けた場合、前記出力手段は、前記検索結果に含まれるウェブページが前記注目語の含有度順にソートされたデータを出力する
    請求項1から4のいずれか一項に記載の情報処理システム。
  6. 前記出力手段は、上位ウェブページにおける注目語の含有数に応じて注目語がソートされた状態で各注目語について各ウェブページにおける注目語の含有数を表示するための情報を出力する
    請求項1に記載の情報処理システム。
  7. 前記出力手段は、抽出された注目語群のうち上位ページ及び/または下位ページに含まれる注目語群を表示するためのデータを出力する
    請求項1に記載の情報処理システム。
  8. 前記出力手段は、前記注目語に加えて、前記抽出された注目語について上位ページ及び/または下位ページに含まれる形態素の含有数、前記抽出された注目語の重要度、前記抽出された注目語の経済規模もしくは経済規模率、前記抽出された注目語の検索数もしくは検索数占有率、前記抽出された注目語のクエリ数もしくはクエリ占有率のうち少なくとも一つを表示するためのデータを出力する
    請求項7に記載の情報処理システム。
  9. 前記出力手段は、前記抽出された注目語について、前記上位ウェブページ及び/または下位ページにおける含有数順、重要度順、経済規模順、検索数順、またはクエリ数順に表示するためのデータを出力する
    請求項7または8に記載の情報処理システム。
  10. 前記出力手段は、前記抽出された注目語について、前記上位ウェブページ及び/または下位ページにおける含有数、重要度、経済規模、検索数、クエリ数に応じて、注目語の表示サイズをスケールして表示するためのデータを出力する
    請求項7から9のいずれか一項に記載の情報処理システム。
  11. 前記出力手段は、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語を表示するためのデータを出力する
    請求項7から10のいずれか一項に記載の情報処理システム。
  12. 前記出力手段は、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語の含有度合いをユーザが設定可能に表示するためのデータを出力し、設定された含有度に応じて、前記上位ウェブページ及び前記下位ウェブページに共通して含まれる注目語を変更する
    請求項11に記載の情報処理システム。
  13. 前記出力手段は、前記上位ウェブページに含まれる注目語の表示数の上限、前記下位ウェブページに含まれる注目語の表示数の上限、前記下位ウェブページに共通して含まれる注目語の表示数の上限をユーザが設定可能に表示するためのデータを出力する
    請求項7から12のいずれか一項に記載の情報処理システム。
  14. 前記上位ウェブページから、前記注目語が登場する前及び/または後の少なくとも一つ以上の文字ともに当該注目語を文字列として抽出する文字列抽出手段を更に備え、
    前記出力手段は、前記抽出された文字列を表示するためのデータを出力する
    請求項1から13のいずれか一項に記載の情報処理システム。
  15. 抽出手段が、検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データに含まれる形態素それぞれに対する第1評価スコア、第2評価スコア、または第3評価スコアに応じて、第1注目語群、第2注目語群、または第3注目語群のうち一つの注目語群を抽出する抽出手順と、
    出力手段が、前記抽出された注目語群を少なくとも表示するためのデータを出力する出力手順を有し、
    前記第1評価スコアは、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるように設定されたスコアであり、
    前記第2評価スコアは、前記上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素ほど抽出されるように設定されたスコアであり、
    前記第3評価スコアは、前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるように設定されたスコアである情報処理方法。
  16. コンピュータに、
    検索クエリを用いた検索エンジンによる検索結果に含まれるウェブページそれぞれに掲載されている文字データに含まれる形態素それぞれに対する第1評価スコア、第2価スコア、または第3評価スコアに応じて、第1注目語群、第2注目語群、または第3注目語群のうち一つの注目語群を抽出する抽出手順、
    前記抽出された注目語群を少なくとも表示するためのデータを出力する出力手順、
    を実行させるためのプログラムであって、
    前記第1評価スコアは、検索結果の上位に現れる上位ウェブページの含有数が高く且つ検索結果の下位に現れる下位ウェブページの含有数が低い形態素ほど抽出されるように設定されたスコアであり、
    前記第2評価スコアは、前記上位ウェブページの使用頻度が低いが前記検索クエリに関する重要度が高い形態素ほど抽出されるように設定されたスコアであり、
    前記第3評価スコアは、前記検索クエリに関連するテーマにおけるウェブページで出願頻度が低く且つ他のテーマにおけるウェブページで出願頻度が高い形態素ほど抽出されるように設定されたスコアであるプログラム。
JP2023511770A 2021-07-26 2021-07-26 情報処理システム、情報処理方法及びプログラム Active JP7355452B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/027598 WO2023007561A1 (ja) 2021-07-26 2021-07-26 情報処理システム、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2023007561A1 JPWO2023007561A1 (ja) 2023-02-02
JP7355452B2 true JP7355452B2 (ja) 2023-10-03

Family

ID=85086414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023511770A Active JP7355452B2 (ja) 2021-07-26 2021-07-26 情報処理システム、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20240004905A1 (ja)
JP (1) JP7355452B2 (ja)
WO (1) WO2023007561A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242647A (ja) 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2005010899A (ja) 2003-06-17 2005-01-13 Sakai Iron Works Co Ltd ウェブサイト診断・支援装置、該方法及び該プログラム
JP2012073877A (ja) 2010-09-29 2012-04-12 Mitsubishi Space Software Kk 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法
JP6164436B1 (ja) 2016-01-18 2017-07-19 データ・サイエンティスト株式会社 ウェブページ解析装置、ウェブページ解析方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346598A (ja) * 2004-06-07 2005-12-15 Sangaku Renkei Kiko Kyushu:Kk ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
US20090063464A1 (en) * 2007-08-29 2009-03-05 Chi-Chao Chang System and method for visualizing and relevance tuning search engine ranking functions
US8938438B2 (en) * 2012-10-11 2015-01-20 Go Daddy Operating Company, LLC Optimizing search engine ranking by recommending content including frequently searched questions
JP6930136B2 (ja) * 2017-03-02 2021-09-01 富士通株式会社 推定プログラム、推定方法及び推定装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242647A (ja) 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2005010899A (ja) 2003-06-17 2005-01-13 Sakai Iron Works Co Ltd ウェブサイト診断・支援装置、該方法及び該プログラム
JP2012073877A (ja) 2010-09-29 2012-04-12 Mitsubishi Space Software Kk 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法
JP6164436B1 (ja) 2016-01-18 2017-07-19 データ・サイエンティスト株式会社 ウェブページ解析装置、ウェブページ解析方法、及びプログラム

Also Published As

Publication number Publication date
US20240004905A1 (en) 2024-01-04
WO2023007561A1 (ja) 2023-02-02
JPWO2023007561A1 (ja) 2023-02-02

Similar Documents

Publication Publication Date Title
JP4587236B2 (ja) 情報検索装置、情報検索方法、およびプログラム
US8555182B2 (en) Interface for managing search term importance relationships
US9336279B2 (en) Hidden text detection for search result scoring
CN101154224B (zh) 一种网址导航方法及系统
CA2702651C (en) System and method for searching for documents
US20100228738A1 (en) Adaptive document sampling for information extraction
WO2014002512A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20180285331A1 (en) Method, server, browser, and system for recommending text information
CN112632359A (zh) 信息推荐方法、装置、电子设备和存储介质
CN101303698A (zh) 信息处理设备和信息处理方法
CN108717469B (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质
CN103106234A (zh) 一种网页内容搜索方法和装置
JP4640554B2 (ja) サーバ装置、情報処理方法およびプログラム
US9697281B1 (en) Autocomplete search methods
JP7355452B2 (ja) 情報処理システム、情報処理方法及びプログラム
KR101908073B1 (ko) 관심도 높은 단어를 검색어로 추천하는 문장완성형 검색시스템 및 방법
JP2015036923A (ja) 評価集計装置、評価順位作成装置、評価集計方法及びプログラム
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
US20120191725A1 (en) Document ranking system with user-defined continuous term weighting
JP5139883B2 (ja) 検索システム
JP2009271794A (ja) 検索システム
CN116070028A (zh) 基于页面的内容信息推送方法、装置、设备及存储介质
CN110826310B (zh) 一种应用内容质量分析方法及应用内容质量分析装置
JP2011100191A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2008250625A (ja) 検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230215

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230913

R150 Certificate of patent or registration of utility model

Ref document number: 7355452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150