JP5116738B2 - 文字列評価装置、方法及びプログラム - Google Patents

文字列評価装置、方法及びプログラム Download PDF

Info

Publication number
JP5116738B2
JP5116738B2 JP2009207540A JP2009207540A JP5116738B2 JP 5116738 B2 JP5116738 B2 JP 5116738B2 JP 2009207540 A JP2009207540 A JP 2009207540A JP 2009207540 A JP2009207540 A JP 2009207540A JP 5116738 B2 JP5116738 B2 JP 5116738B2
Authority
JP
Japan
Prior art keywords
morpheme
character string
evaluation
score
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009207540A
Other languages
English (en)
Other versions
JP2011059902A (ja
Inventor
一誠 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009207540A priority Critical patent/JP5116738B2/ja
Publication of JP2011059902A publication Critical patent/JP2011059902A/ja
Application granted granted Critical
Publication of JP5116738B2 publication Critical patent/JP5116738B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Webサイトを用いた文字列評価装置、方法及びプログラムに関する。
従来、キーワードを入力することで、そのキーワードが使用されているWebページのURL(Uniform Resource Locator)を検索結果として表示する検索システムが普及している。そのような中で、キーワードの検索対象情報中での相対的な出現頻度を示すスコアを算出して表示する情報検索装置が開示されている(例えば、特許文献1)。
特開2009−157865号公報
例えば、特許文献1に記載の情報検索装置のような検索装置は、一般に、キーワード等の検索対象をユーザが入力して検索ボタンを選択することで、検索ボタンに対応する検索エンジンを実行して、検索結果を出力する。しかし、検索エンジンの特性、つまり、どのような内容のWebサイトを検索対象にしているのか、によって、出力される検索結果が異なる。現状では、入力に対してどの検索エンジンを用いるのが相応しいか、をユーザが判断するには、材料に乏しい。
本発明は、文字列に対する複数のWebサイトの評価を出力可能な文字列評価装置、方法及びプログラムを提供することを目的とする。
本発明者らは、文字列を構成する形態素に対して複数の検索エンジンを呼び出して、その各々の検索エンジンでの評価を算出して出力することを見出し、本発明を完成するに至った。
(1) 文字列を受け付ける文字列受付部と、
複数の評価先Webサイトの指定を受け付ける評価先指定部と、
前記文字列受付部が受け付けた前記文字列を複数の形態素に分割する形態素分割部と、
前記形態素分割部によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出部と、
前記形態素抽出部により抽出された前記処理対象の形態素に対して、前記評価先指定部により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出部と、
前記検索API呼出部により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出部と、
前記スコア算出部により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力部と、
を備えること、
を特徴とする文字列評価装置。
本発明のこのような構成によれば、文字列を受け付けてその文字列を複数の形態素に分割して、処理対象の形態素を抽出することができる。よって、ユーザが文字列を入力するだけで、その文字列に含まれる処理対象の形態素を抽出できる。また、複数の評価先Webサイトから、ユーザは、評価を欲する複数の評価先Webサイトを自由に選んで指定できる。そして、文字列を構成する処理対象の形態素に対して指定された複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出して、処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出して出力するので、文字列に対する評価先Webサイトごとの評価を、スコアという数値で多面的に算出してユーザに提供できる。よって、処理対象の形態素に対してどの検索APIを用いるのが相応しいかを、スコアという客観的な評価によりユーザが判断することができる。
(2) 前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素を再結合させて、前記処理対象の形態素を抽出すること、
を特徴とする(1)に記載の文字列評価装置。
本発明のこのような構成によれば、分割された複数の形態素を再結合させて、処理対象の形態素を抽出することができる。よって、2つ以上の形態素の結合によってできる複合語等は、形態素に分割することで分断されるが、それを再結合することで、複合語等を処理対象にして、各評価先Webサイトでのスコアを算出できる。
(3) 前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素をフィルタリングすることで、前記処理対象の形態素を選別して抽出すること、
を特徴とする(1)又は(2)に記載の文字列評価装置。
本発明のこのような構成によれば、分割された複数の形態素をフィルタリングして、不要な形態素を除いて、必要な形態素を抽出することができる。よって、ユーザが文字列を入力するだけで、その文字列に含まれる形態素のうち真に必要な形態素に対して、各評価先Webサイトでのスコアを算出できる。また、フィルタリングの条件を変更することで、処理対象の形態素を変更できる。
(4) 前記複数の評価先Webサイトの各々に対応する重み付けの入力を受け付け、前記重み付けを参照して、前記スコア算出部により算出された前記スコアに、そのスコアを算出した前記検索APIに対応する評価先Webサイトの前記重み付けを付与する重み付け付与部を備え、
前記スコア出力部は、前記スコア算出部により算出した前記スコアに代えて、前記重み付け付与部により重み付けが付与された付与後のスコアを出力すること、
を特徴とする(1)から(3)までのいずれかに記載の文字列評価装置。
本発明のこのような構成によれば、検索APIに対応する評価先Webサイトごとに重み付けを有するので、処理対象の形態素に対するスコアに、その評価先Webサイトに対応する重み付けを付与することができる。よって、検索APIの重要視の度合いに対応する重み付けを付与することで、ユーザの意向に即した評価を得ることができる。
(5) 前記スコア出力部は、前記スコア算出部により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIの前記評価先Webサイトとを対応付けて記憶部に記憶すること、
を特徴とする(1)から(4)までのいずれかに記載の文字列評価装置。
本発明のこのような構成によれば、検索APIを実行することで算出された処理対象の形態素のスコアを、処理対象の形態素のスコアを算出する前提の情報に対応させて記憶するので、処理対象の形態素のスコアを、形態素を用いた辞書データベースとして記憶して、各種の処理に用いることができる。
(6) 前記評価先Webサイトは、カテゴリごとに分類されたサービスを提供するWebサイトであること、
を特徴とする(1)から(5)までのいずれかに記載の文字列評価装置。
本発明のこのような構成によれば、評価先Webサイトは、カテゴリごとに分類されたサービスを提供するWebサイトであるので、多種多様のWebページを含む評価先Webサイトを対象にして、処理対象の形態素のスコアを多面的に算出できる。
(7) コンピュータを用いた文字列評価方法であって、
文字列を受け付ける文字列受付ステップと、
複数の評価先Webサイトの指定を受け付ける評価先指定ステップと、
前記文字列受付ステップが受け付けた前記文字列を複数の形態素に分割する形態素分割ステップと、
前記形態素分割ステップによって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出ステップと、
前記形態素抽出ステップにより抽出された前記処理対象の形態素に対して、前記評価先指定ステップにより指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出ステップと、
前記検索API呼出ステップにより呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出ステップと、
前記スコア算出ステップにより算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力ステップと、
を含むこと、
を特徴とする文字列評価方法。
(8) コンピュータを、
文字列を受け付ける文字列受付手段と、
複数の評価先Webサイトの指定を受け付ける評価先指定手段と、
前記文字列受付手段が受け付けた前記文字列を複数の形態素に分割する形態素分割手段と、
前記形態素分割手段によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された前記処理対象の形態素に対して、前記評価先指定手段により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出手段と、
前記検索API呼出手段により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出手段と、
前記スコア算出手段により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力手段と、
して機能させること、
を特徴とする文字列評価プログラム。
本発明によれば、処理対象の形態素に対する複数の評価先Webサイトごとの評価をスコアとして多面的に算出して、ユーザに提供できる。
本実施形態に係る文字列評価システムの全体構成及び文字列評価装置の機能構成を示す図である。 本実施形態に係る文字列評価装置での評価処理の概要を説明する図である。 本実施形態に係るXMLリストの例を示す図である。 本実施形態に係る辞書DBの例を示す図である。 本実施形態に係る重み付けテーブルの例を示す図である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
[文字列評価システム100の全体構成及び文字列評価装置1の機能構成]
図1は、本実施形態に係る文字列評価システム100の全体構成及び文字列評価装置1の機能構成を示す図である。
文字列評価システム100は、文字列評価装置1と、Webサーバ2と、クライアント端末3と、通信ネットワーク5とにより構成される。
文字列評価装置1は、受け付けた文字列を形態素に分割して、複数の評価先Webサイトでの処理対象の形態素の出現度合いをスコアとして各々算出して、出力するサーバである。文字列評価装置1は、制御部10と、記憶部20とを備える。
制御部10は、文字列受付部11と、評価先指定部12と、形態素分割部13と、形態素抽出部14と、検索API(Application Program Interface)呼出部15と、スコア算出部16と、重み付け付与部17と、スコア出力部18とを備える。
文字列受付部11は、例えば、文字列評価装置1に対して通信ネットワーク5を介して接続されたクライアント端末3で入力された文字列を受け付ける制御部である。文字列は、例えば、ニュース、ブログ等のタイトルや、文書の要約等であってよい。
評価先指定部12は、複数の評価先Webサイトの中から、任意の指定を受け付ける制御部である。Webサイトは、クライアント端末3でのユーザによる入力によって、2つ以上の複数の評価先Webサイトを指定してもよい。また、ユーザからの指定がない場合には、予め用意された複数の評価先Webサイトの全てが指定されたものとしてもよい。評価先Webサイトとは、Webページを集めたサイトをいい、例えば、ブログサービスやオークションサービス等のカテゴリごとに分類されたものをいう。また、評価先Webサイトに格納されたWebページは、更新日付を有してもよい。そうすることで、更新日付が本日日付までの例えば1ヶ月以内のWebページを処理対象にする等、新しい情報のみを用いて評価を行うことができる。
形態素分割部13は、文字列受付部11で受け付けた文字列を、複数の形態素に分割する制御部である。形態素とは、文章の要素のうち、意味を持つ最小の単位をいう。形態素は、単語を含む概念である。単語は、形態素そのもの、又は複数の形態素の組み合わせである。例えば、形態素分割部13は、日本語辞書(図示せず)と、公知の形態素分割ツールとを用いて品詞を判別しながら、文字列を複数の形態素に分割することができる。
形態素抽出部14は、形態素分割部13により分割された複数の形態素から、処理対象の形態素を抽出する制御部である。形態素抽出部14は、フィルタリングをすることで、処理対象の形態素を抽出する。フィルタリングは、例えば、特定の品詞を抽出するような設定や、特定のキーワードを除く設定であってよい。また、形態素抽出部14は、複数の形態素を再結合させて、処理対象の形態素を抽出する。例えば、「○○の××」という文字列は、形態素分割部13による分割処理で「○○/の/××」(/は区切り記号)に分割される。しかし、「○○の××」が一連となった商品名である場合に、再結合により複数の形態素を結合させることで処理対象にする。ここで、処理対象の形態素とは、一般的な意味での形態素の他に、複数の形態素の組み合わせの複合語等をも含む。
検索API呼出部15は、形態素抽出部14により抽出された処理対象の形態素を入力して、評価先指定部12で指定された評価先Webサイトに対応する検索APIを呼び出す制御部である。評価先Webサイトに対応する検索APIは、例えば、Webサーバ2に記憶されている。複数の評価先Webサイトの各々に対応する複数の検索APIは、一般的なWeb検索用のプログラムであり、同じプログラムであってよい。
スコア算出部16は、検索API呼出部15により呼び出された検索APIを実行して、処理対象の形態素の出現度合いに対応した数値をスコアとして算出する制御部である。
重み付け付与部17は、スコア算出部16で算出したスコアに、検索APIに対応する評価先Webサイトの重み付けを付与して、重み付け付与後のスコアを算出する制御部である。
スコア出力部18は、スコア算出部16で算出したスコアと、そのスコアに対応する処理対象の形態素と、その形態素に対して実行した検索API又は評価先Webサイトとを対応付けてスコア記憶部25に記憶させる制御部である。
記憶部20は、プログラム記憶部21と、スコア記憶部25とを備える。
プログラム記憶部21は、プログラムを記憶する記憶領域であり、文字列評価プログラム23を備える。
文字列評価プログラム23は、上述の制御部10の各部の機能を実現するためのプログラムである。
スコア記憶部25は、スコア算出部16によって算出されたスコアと、そのスコアに対応する処理対象の形態素及び評価先Webサイトとを対応付けて記憶する。
本実施形態の文字列評価装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)、光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線、無線LAN装置を、表示装置として、ディスプレイ(液晶ディスプレイ、プラズマディスプレイ等)を、入力装置として、キーボード、マウス等を適宜備え、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、文字列評価装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
Webサーバ2は、複数のWebページを記憶しており、クライアント端末3からの要求を受け付けてWebページ検索等を行うサーバである。Webサーバ2は、検索APIを有する。
クライアント端末3は、Webページを表示するブラウザを搭載した端末である。クライアント端末3は、文字列評価装置1で処理する文字列を入力したり、評価先Webサイトを指定したりすることができる。
通信ネットワーク5は、文字列評価装置1と、Webサーバ2と、クライアント端末3との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク5は、有線であってもよいし、その一部又は全部が無線であってもよい。
[文字列評価装置1の処理概要]
次に、文字列評価装置1の処理について説明する。図2は、本実施形態に係る文字列評価装置1での評価処理の概要を説明する図である。
まず、図中(1)において、文字列評価エンジン30は、例えば、オークションのタイトル、ブログのタイトル、ニュースのタイトル等の文字列の入力を受け付ける。以下、文字列評価エンジン30は、文字列評価装置1の制御部10で実行される本発明に関する各機能を実現する。この図中(1)は、文字列受付部11によって処理される。
次に、図中(2)において、文字列評価エンジン30(形態素分割部13)は、入力された文字列に対して、形態素解析サービス31を実行することで、文字列を複数の形態素に分割する。分割された形態素は、それぞれ、順番に形態素A,B,C,D,・・・とする。例えば、「のらねこミィの気ままな1日」という文字列に対して、形態素解析サービス31を実行することで、文字列は、「のらねこ/ミィ/の/気まま/な/1/日」(/は区切り記号)の7つの形態素に分割される。
図中(3)において、文字列評価エンジン30(形態素抽出部14)は、形態素結合フィルタ32により、処理対象の形態素A,C’,F,・・・を抽出する。
まず、文字列評価エンジン30(形態素抽出部14)は、形態素結合フィルタ32により、複数の形態素を結合する。文字列評価エンジン30は、例えば、上記の「のらねこ/ミィ/の/気まま/な/1/日」のうち、「のらねこ」と「ミィ」とを結合して「のらねこミィ」の複合語を作成する。また、文字列評価エンジン30は、「1」と「日」とを結合する。文字列評価エンジン30は、クライアント端末3に、文字列が形態素に分割された状態を表示して、ユーザに結合処理を行わせてもよい。また、予め結合対象になる形態素を記憶部20に記憶しておき、文字列評価エンジン30が結合処理をしてもよい。
また、文字列評価エンジン30(形態素抽出部14)は、形態素結合フィルタ32により、形態素をフィルタリングする。形態素結合フィルタ32に、例えば、助詞及び助動詞を除く指定がされていた場合には、上記の処理後の「のらねこミィ/の/気まま/な/1日」は、「の」(助詞)と、「な」(助動詞)とが除かれて、「のらねこミィ」(複合語)、「気まま」(名詞)、「1日」(複合語)、の3つの処理対象の形態素が抽出される。この文字列評価エンジン30によるフィルタリングの条件は、ユーザがカスタマイズできるように、そのフィルタリング条件をクライアント端末3に出力できるようにしてもよい。つまり、ユーザが、文字列を入力する際に、抽出する形態素に関する情報(例えば、品詞)をあわせて入力することで、ユーザによるカスタマイズが実現できる。
このように、文字列評価装置1は、文字列を受け付けることで、その文字列を複数の形態素に分割して、さらに形態素を結合及びフィルタリングして、所望の処理対象の形態素を抽出することができる。よって、ユーザが文字列を入力するだけで、その文字列に含まれる処理対象の形態素を抽出できるので、その処理対象の形態素ごとに後述の処理ができる。また、処理対象の形態素は、フィルタリング等の条件によって、つまり、形態素結合フィルタ32の設定によって、変更できる。
図中(4)において、文字列評価エンジン30(スコア算出部16)は、抽出された処理対象の形態素A,C’,F,・・・を検索サービス33の入力にして、検索サービス33を実行する。検索サービス33は、全てのWebサイトを対象にした一般Webサービス33a、オークションのWebサイトを対象にしたオークション内検索サービス33b、ブログのWebサイトを対象にしたブログ内検索サービス33c、・・・等の、カテゴリごとに分類されたサービスを含む。検索サービス33は、それぞれの検索サービス33に対応する検索APIを実行する。
文字列評価装置1は、検索サービス33のサービス名を出力することで、ユーザに複数のサービスを選択させて、評価先指定部12が、選択された検索サービス33を受け付けることで、スコア算出部16が、選択された検索サービス33のみを対象にスコア算出処理を実行することができる。よって、ユーザは、欲する検索サービス33を自由に選ぶことができる。
図中(5)において、文字列評価エンジン30(スコア算出部16)は、処理対象の形態素A,C’,F,・・・に対して検索サービス33の実行結果としてスコアを算出する。スコアは、対象のWebサイト中のWebページ数に対して、処理対象の形態素がヒットしたWebページの数の割合であってもよい。また、TF(Term Frequency:処理対象の形態素の出現頻度)とIDF(Inverse Document Frequency:逆出現頻度)との2つの指標で計算されるTF・IDF値を用いて、対象のWebページでの出現の偏りによる調整をした後の数値であってもよい。
図中(6)において、文字列評価エンジン30(スコア出力部18)は、算出したスコアを出力する。スコアの出力は、例えば、XML(Extensible Markup Language)リスト34として出力してもよい。また、XMLリスト34を用いて、辞書DB35(DB:データベース)を作成して記憶してもよい。XMLリスト34及び辞書DB35は、スコア記憶部25の一例である。
ここで、XMLリスト34及び辞書DB35について説明する。図3は、本実施形態に係るXMLリスト34の例を示す図である。図4は、本実施形態に係る辞書DB35の例を示す図である。
図3に示すXMLリスト34は、検索サービス33ごとに、処理対象の形態素及びそのスコアをXML形式で出力するデータである。XMLリスト34は、次に示す辞書DB35を作成する等、そのデータ形式の汎用性により、様々な用途に用いることができる。
図4に示す辞書DB35は、検索サービス33と、各処理対象の形態素とに対応するスコアを記憶している。また、辞書DB35は、月ごとに、更新日付が新しいWebページに対して処理をして算出したデータを、履歴として保有している。図4(a)に示す辞書DB35は、月ごとに検索サービス33と処理対象の形態素とのスコアを記憶する例である。例えば、形態素Aは、「2009年8月」更新分において、オークション内検索サービス33bでの出現度合いが高い形態素であることがわかる。また、形態素Fは、一般Webサービス33aでの出現度合いが高い形態素であることがわかる。図4(b)に示す辞書DB35は、検索サービス33ごとに処理月と処理対象の形態素とのスコアを記憶する例であり、図4(c)に示す辞書DB35は、処理対象の形態素ごとに検索サービス33と処理月とのスコアを記憶する例である。
より具体的な例を示して説明する。例えば、ある洋服のブランド名「○&○」を含む文字列を、ユーザが文字列評価装置1に入力した場合であって、評価先Webサイトとして、「オークション内検索サービス」と、「ニュース記事内検索サービス」との2つを指定した場合を考える。「オークション内検索サービス」は、そのブランド名「○&○」の洋服を商品として提供しているので、その洋服のブランド名を含むWebページ数が、「ニュース記事検索サービス」よりも多い。よって、その洋服のブランド名である形態素「○&○」のスコアは、「オークション内検索サービス」の方が、「ニュース記事検索サービス」よりも高くなる。
このように、文字列評価装置1は、文字列を構成する処理対象の形態素に対して内容の異なる複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出して実行し、処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出して出力する。よって、文字列評価装置1は、ユーザが入力する文字列に対する評価先Webサイトごとの評価を、スコアという数値で多面的にユーザに提供できる。結果として、処理対象の形態素に対してどの検索APIを用いるのが相応しいかを、スコアという客観的な評価によりユーザが判断することができる。そして、スコアを、処理対象の形態素と検索サービス33とに対応させて、例えば、辞書DB35に格納することで、この辞書DB35の情報を、後述するような各種の処理に用いることができる。そして、辞書DB35は、用途に応じて、様々な切り口で格納できる。
[評価(スコア)の重み付け]
次に、スコアの重み付けについて説明する。図5は、本実施形態に係る重み付けテーブル40の例を示す図である。
重み付けテーブル40は、評価先Webサイトの各々に対応した重み付けを格納するテーブルであり、記憶部20に記憶されている。検索API名41には、評価先Webサイトに対応する検索API名を格納する。重み付け42には、スコアに対する重み付けとしての掛率を格納する。そして、スコア算出部16により処理対象の形態素のスコアが算出されたことに応じて、重み付け付与部17は、算出されたスコアに対して、該当の検索API名41に対応する重み付け42に格納された掛率をかけることで、重み付け付与後のスコアを算出できる。
このように、文字列評価装置1が重み付けテーブル40を有することで、処理対象の形態素に対するスコアに、その評価先Webサイト用の検索APIに対応する重み付けを付与することができる。よって、検索APIの重要視の度合いに対応する重み付けを付与でき、ユーザの意向に即した評価を得ることができる。
[評価(スコア)の使用方法]
次に、上述で算出したスコアの他の使用方法について説明する。スコアは、様々なサービスに利用できる。例えば、辞書DB35は、辞書として用いることができるものであったが、商品名データベースとしても利用することができる。
また、スコアは、ブログの記事の内容に基づき、自動的に関連性の高い商品をアフィリエイトすることに利用できる。具体的には、文字列評価装置1は、ブログの記事を形態素分割して、分割した形態素から処理対象の形態素を抽出してショッピング内検索サービスで検索する。そして、スコアが上位のWebページの商品を、ブログの記事を含むWebページにアフィリエイトすることで、自動的に関連性の高い商品のアフィリエイトが実現できる。
さらに、スコアの高い処理対象の形態素を使って、オークションやショッピング等で今見ている商品の類似品をリコメンドすることに利用できる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 文字列評価装置
10 制御部
11 文字列受付部
12 評価先指定部
13 形態素分割部
14 形態素抽出部
15 検索API呼出部
16 スコア算出部
17 重み付け付与部
18 スコア出力部
20 記憶部
23 文字列評価プログラム
25 スコア記憶部
33 検索サービス
34 XMLリスト
35 辞書DB
40 重み付けテーブル
100 文字列評価システム

Claims (8)

  1. 利用者が閲覧するWebページに含まれる文字列を受け付ける文字列受付部と、
    Webページを集めた複数のWebサイトの中から評価先Webサイトの指定を受け付ける評価先指定部と、
    前記文字列受付部が受け付けた前記文字列を複数の形態素に分割する形態素分割部と、
    前記形態素分割部によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出部と、
    前記形態素抽出部により抽出された前記処理対象の形態素に対して、前記評価先指定部により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出部と、
    前記検索API呼出部により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出部と、
    前記スコア算出部により算出された前記スコアが上位の形態素を用いて、指定を受付けた前記評価先Webサイトに含まれるWebページを検索して取得する情報に対するリンク先のアドレスを生成し、前記利用者が閲覧するWebページに該生成したリンク先のアドレスを出力する出力部と、
    を備えること、
    を特徴とする文字列評価装置。
  2. 前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素を再結合させて、前記処理対象の形態素を抽出すること、
    を特徴とする請求項1に記載の文字列評価装置。
  3. 前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素をフィルタリングすることで、前記処理対象の形態素を選別して抽出すること、
    を特徴とする請求項1又は請求項2に記載の文字列評価装置。
  4. 前記複数の評価先Webサイトの各々に対応する重み付けの入力を受け付け、前記重み付けを参照して、前記スコア算出部により算出された前記スコアに、そのスコアを算出した前記検索APIに対応する評価先Webサイトの前記重み付けを付与する重み付け付与部を備え、
    前記スコア出力部は、前記スコア算出部により算出した前記スコアに代えて、前記重み付け付与部により重み付けが付与された付与後のスコアを出力すること、
    を特徴とする請求項1から請求項3までのいずれかに記載の文字列評価装置。
  5. 前記スコア出力部は、前記スコア算出部により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIの前記評価先Webサイトとを対応付けて記憶部に記憶すること、
    を特徴とする請求項1から請求項4までのいずれかに記載の文字列評価装置。
  6. 前記評価先Webサイトは、カテゴリごとに分類されたサービスを提供するWebサイトであること、
    を特徴とする請求項1から請求項5までのいずれかに記載の文字列評価装置。
  7. コンピュータを用いた文字列評価方法であって、
    利用者が閲覧するWebページに含まれる文字列を受け付ける文字列受付ステップと、
    Webページを集めた複数のWebサイトの中から評価先Webサイトの指定を受け付ける評価先指定ステップと、
    前記文字列受付ステップが受け付けた前記文字列を複数の形態素に分割する形態素分割ステップと、
    前記形態素分割ステップによって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出ステップと、
    前記形態素抽出ステップにより抽出された前記処理対象の形態素に対して、前記評価先指定ステップにより指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出ステップと、
    前記検索API呼出ステップにより呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出ステップと、
    前記スコア算出ステップにより算出された前記スコアが上位の形態素を用いて、指定を受付けた前記評価先Webサイトに含まれるWebページを検索して取得する情報に対するリンク先のアドレスを生成し、前記利用者が閲覧するWebページに該生成したリンク先のアドレスを出力する出力ステップと、
    を含むこと、
    を特徴とする文字列評価方法。
  8. コンピュータを、
    利用者が閲覧するWebページに含まれる文字列を受け付ける文字列受付手段と、
    Webページを集めた複数のWebサイトの中から評価先Webサイトの指定を受け付ける評価先指定手段と、
    前記文字列受付手段が受け付けた前記文字列を複数の形態素に分割する形態素分割手段と、
    前記形態素分割手段によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出手段と、
    前記形態素抽出手段により抽出された前記処理対象の形態素に対して、前記評価先指定手段により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出手段と、
    前記検索API呼出手段により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出手段と、
    前記スコア算出手段により算出された前記スコアが上位の形態素を用いて、指定を受付けた前記評価先Webサイトに含まれるWebページを検索して取得する情報に対するリンク先のアドレスを生成し、前記利用者が閲覧するWebページに該生成したリンク先のアドレスを出力する出力手段と、
    して機能させること、
    を特徴とする文字列評価プログラム。
JP2009207540A 2009-09-08 2009-09-08 文字列評価装置、方法及びプログラム Active JP5116738B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009207540A JP5116738B2 (ja) 2009-09-08 2009-09-08 文字列評価装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009207540A JP5116738B2 (ja) 2009-09-08 2009-09-08 文字列評価装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011059902A JP2011059902A (ja) 2011-03-24
JP5116738B2 true JP5116738B2 (ja) 2013-01-09

Family

ID=43947469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009207540A Active JP5116738B2 (ja) 2009-09-08 2009-09-08 文字列評価装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5116738B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11550937B2 (en) * 2019-06-13 2023-01-10 Fujitsu Limited Privacy trustworthiness based API access

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132060A (ja) * 2001-10-23 2003-05-09 Just Syst Corp 検索支援装置、検索支援方法、及び検索支援プログラム
JP2009037501A (ja) * 2007-08-03 2009-02-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム

Also Published As

Publication number Publication date
JP2011059902A (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
US10929487B1 (en) Customization of search results for search queries received from third party sites
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
US20060190446A1 (en) Web search system and method thereof
JP5541049B2 (ja) データ生成装置、データの生成方法及びデータ生成プログラム
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2002245061A (ja) キーワード抽出
JP2009048408A (ja) ドキュメント作成システム、ユーザ端末、サーバ装置、およびプログラム
JP5056133B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP6960253B2 (ja) 商品等評価装置、商品等評価方法、およびプログラム
JP5116738B2 (ja) 文字列評価装置、方法及びプログラム
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
JP4834118B2 (ja) ファセットクエリを利用したサービス誘導入札装置及び方法
JP6960553B2 (ja) ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム
US20130311449A1 (en) Identifying Referred Documents Based on a Search Result
JP5408623B2 (ja) 検索式提供方法、プログラム、及び、検索式提供システム
JP7064871B2 (ja) テキストマイニング装置およびテキストマイニング方法
JP5002631B2 (ja) 単語情報収集装置、単語情報収集方法および単語情報収集プログラム
JP6235632B2 (ja) リアルタイム・ライティング支援装置
JP2005316590A (ja) 情報検索装置
JP2008250893A (ja) 情報検索装置、情報検索方法およびそのプログラム
JP5165704B2 (ja) 有害文書判定方法、有害文書判定装置および有害文書判定プログラム
JP5792871B1 (ja) 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
JP5083627B2 (ja) 少数意見抽出装置
JP6814093B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113190753B (zh) 数据采集方法和装置、电子设备、计算机可读介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120918

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121016

R150 Certificate of patent or registration of utility model

Ref document number: 5116738

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350