JP6415619B2 - 解析装置、解析方法、およびプログラム - Google Patents

解析装置、解析方法、およびプログラム Download PDF

Info

Publication number
JP6415619B2
JP6415619B2 JP2017053541A JP2017053541A JP6415619B2 JP 6415619 B2 JP6415619 B2 JP 6415619B2 JP 2017053541 A JP2017053541 A JP 2017053541A JP 2017053541 A JP2017053541 A JP 2017053541A JP 6415619 B2 JP6415619 B2 JP 6415619B2
Authority
JP
Japan
Prior art keywords
parameter
unit
page
evaluation value
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017053541A
Other languages
English (en)
Other versions
JP2018156473A (ja
Inventor
隼人 小林
隼人 小林
伸幸 清水
伸幸 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017053541A priority Critical patent/JP6415619B2/ja
Priority to US15/912,995 priority patent/US20180268307A1/en
Publication of JP2018156473A publication Critical patent/JP2018156473A/ja
Application granted granted Critical
Publication of JP6415619B2 publication Critical patent/JP6415619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、解析装置、解析方法、およびプログラムに関する。
従来、検索エンジンの検索結果を表示するページSERPs(Search Engine Result Pages)には、検索結果として提示されるコンテンツの文章のタイトルやその文章の要約文が掲載されている。これに関連し、ウェブページの要約を自動生成する技術が知られている(例えば、特許文献1参照)。
特開2005−322245号公報
しかしながら、従来の技術では、ウェブページなどに掲載されるテキストベースのコンテンツから自動生成された要約情報が、どの程度ユーザの興味関心を引き寄せたのかを判断できなかった。この結果、効果的にコンテンツを要約することができなかった。
本発明は、上記の課題に鑑みてなされたものであり、効果的にコンテンツを要約することができる解析装置、解析方法、およびプログラムを提供することを目的としている。
本発明の一態様は、コンテンツの要約情報が掲載された電子ページを閲覧したユーザによってとられた行動が評価された評価値を取得する取得部と、前記コンテンツが前記要約情報へと変換される際に使用された要約パラメータと、前記取得部により取得された評価値とに基づいて、未知関数の最適化手法により、前記要約の際に使用する要約パラメータとして好ましい改善パラメータを決定する決定部と、を備える解析装置である。
本発明の一態様によれば、効果的にコンテンツを要約することができる解析装置、解析方法、およびプログラムを提供することができる。
第1実施形態における解析装置300を含む解析システム1の一例を示す図である。 サービス提供装置100により提供される電子ページの一例を示す図である。 サービス提供装置100により提供される電子ページの他の例を示す図である。 サービス提供装置100により提供される電子ページの他の例を示す図である。 第1実施形態におけるサービス提供装置100の構成の一例を示す図である。 リンク元ページログ情報D1の一例を示す図である。 リンク先ページログ情報D2の一例を示す図である。 評価情報D4の一例を示す図である。 第1実施形態における学習装置200の構成の一例を示す図である。 要約履歴情報D6の一例を示す図である。 第1実施形態における解析装置300の構成の一例を示す図である。 第1実施形態における解析側制御部310により実行される処理の一例を示すフローチャートである。 パラメータ情報D7の一例を示す図である。 ベイズ的最適化手法による改善パラメータの決定方法を説明するための図である。 改善パラメータを再決定する方法を説明するための図である。 関数情報D8の一例を示す図である。 第1実施形態における解析システム1全体の処理の流れの様子を模式的に示す図である。 第2実施形態における解析システム1A全体の処理の流れの様子を模式的に示す図である。 実施形態のサービス提供装置100、学習装置200および解析装置300のハードウェア構成の一例を示す図である。
以下、本発明を適用した解析装置、解析方法、およびプログラムを、図面を参照して説明する。
[概要]
解析装置は、一以上のプロセッサによって実現される。解析装置は、コンテンツの要約情報が掲載された電子ページを閲覧したユーザによってとられた行動が評価された評価値を取得する。コンテンツの要約情報とは、コンテンツから変換された情報であり、例えば、コンテンツに含まれる文章が要約されたものである。そして、解析装置は、コンテンツが要約情報へと変換される際に使用される要約パラメータと、取得した評価値とに基づいて、未知関数の最適化手法により、コンテンツから要約情報への変換の際に用いるパラメータとして好ましい改善パラメータを決定し、決定した改善パラメータを出力する。これによって、自身が、或いは他装置が効果的にコンテンツを要約することができる。
未知関数の最適化手法とは、事前に形状が分からない未知関数(未知の目的関数)を最適化する手法であり、例えば、ベイズ的最適化手法、遺伝的アルゴリズム、差分進化法、焼きなまし法、グリッドサーチ法などである。以下の実施形態では、未知関数の最適化手法としてベイズ的最適化手法を適用した場合の例について説明するが、遺伝的アルゴリズムや差分進化法などの他の手法を用いてもよい。この場合、更に、分布推定アルゴリズム(Estimation of Distribution Algorithms)などを利用して、最適化手法として行われる探索処理の過程で得られるパラメータ(探索点)を基に、ある確率モデルに従う関数(分布)を求めてもよい。
ベイズ的最適化手法とは、上述したように、ある未知関数を導出する際に、何かしらの事前分布を仮定し、関数の事後分布を基に未知関数を最適化する手法である。本実施形態では、一例として、ガウス過程(Gaussian process)と呼ばれる確率過程(確率変数の集合)を用いて事前分布を仮定するベイズ的最適化手法について説明するが、他の確率過程を用いて事前分布を仮定してもよい。
<第1実施形態>
[全体構成]
図1は、第1実施形態における解析装置300を含む解析システム1の一例を示す図である。第1実施形態における解析システム1は、例えば、一以上の端末装置10と、サービス提供装置100と、学習装置200と、解析装置300とを備える。これらの装置は、ネットワークNWを介して接続される。なお、サービス提供装置100および学習装置200は、解析装置300内に集約されていてもよい。
図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、無線基地局、Wi‐Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。
端末装置10は、ユーザによって使用される装置である。端末装置10は、例えば、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータなどのコンピュータ装置である。
端末装置10は、ユーザから所定の操作を受け付けると、ウェブブラウザを介して、サービス提供装置100が提供するウェブサイトにアクセスする。例えば、サービス提供装置100により提供されるウェブサイトは、検索サイトやショッピングサイト、SNS(Social Networking Service)、メールサービス、情報提供サービス(例えばニュースや天気予報など)などを享受可能なウェブサイトである。
また、端末装置10は、ユーザから所定の操作を受け付けると、予めインストールされたアプリケーションを介してサービス提供装置100と通信を行い、アプリケーション上で表示或いは再生するコンテンツを取得する。コンテンツは、例えば、動画データや、画像データ、音声データ、テキストデータなどである。これによって、端末装置10には、アプリケーションを介して、上述した各種ウェブサイトにより提供されるサービスと同様のサービスが提供される。
サービス提供装置100は、インターネット上において、ショッピングサイトや検索サイトなどのウェブサイトを提供するウェブサーバ装置であってよいし、アプリケーションが起動された端末装置10と通信を行って、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよい。
以下、サービス提供装置100によりサービスとして提供されるウェブページまたはアプリケーション用のページを、電子ページと総称して説明する。
図2は、サービス提供装置100により提供される電子ページの一例を示す図である。図示の例の電子ページは、あるクエリによる検索結果を表示するSERPsを表している。SERPsには、例えば、検索結果である各コンテンツに含まれる文章を要約したタイトルTTLや、その文章の要約文ABSが掲載される。このタイトルTTLには、コンテンツを含む電子ページへのリンク(例えばハイパーリンク等)が対応付けられる。すなわち、タイトルTTLは、リンク名を表す。
図3は、サービス提供装置100により提供される電子ページの他の例を示す図である。図示の例の電子ページは、あるニュースサイトの一ページを表している。このような電子ページには、各ニュース記事の内容を要約した見出しがタイトルTTLとして表示される。
図4は、サービス提供装置100により提供される電子ページの他の例を示す図である。図示の例の電子ページは、ある登録ページを表している。図示のような登録ページには、SNSを介してお気に入りの情報などを共有するために、共有したい情報が登録される。このような電子ページに登録する情報として、例えばURL(Uniform Resource Locator)が入力された場合、電子ページには、入力されたリンク先のページに応じて、そのページに掲載されるコンテンツの文章を要約したタイトルTTLが表示される。サービス提供装置100は、上記のような種々の電子ページを提供する。
サービス提供装置100は、上述したタイトルTTLまたは要約文ABSを生成し、生成したタイトルTTLまたは要約文ABSを掲載した電子ページを端末装置10に提供する。以下、電子ページに掲載されるタイトルTTLおよび要約文ABSのうち、少なくともタイトルTTLを含むもの(好ましくは双方を含むもの)を、「要約情報」と称して説明する。要約情報であるタイトルTTLまたは要約文ABSは、例えば、必ずしも主語述語を含む文章として成り立つ必要はなく、単に、名詞や助詞などから構成された単語の集合であってよい。
学習装置200は、例えば、サービス提供装置100により提供される電子ページに要約情報が掲載される場合、その要約情報が生成される際に使用されるパラメータ(以下、要約パラメータと称する)を機械学習により決定する。要約パラメータについては後述する。
解析装置300は、例えば、サービス提供装置100により要約情報が生成される際に使用されるパラメータ(以下、要約パラメータと称する)として好ましい改善パラメータを、ベイズ的最適化手法により決定する。「好ましい」とは、現在のパラメータを改善パラメータに変更するのを推奨する、という意味である。
また、解析装置300は、学習装置200により行われる機械学習において設定されるハイパーパラメータとして好ましい改善パラメータを、ベイズ的最適化手法により決定してもよい。以下、一例として、ベイズ的最適化手法により要約パラメータとして好ましい改善パラメータを決定する例について説明する。
[サービス提供装置の構成]
以下、サービス提供装置100、学習装置200および解析装置300の各構成について説明する。図5は、第1実施形態におけるサービス提供装置100の構成の一例を示す図である。図示のように、サービス提供装置100は、例えば、サービス提供側通信部102と、サービス提供側制御部110と、サービス提供側記憶部130とを備える。
サービス提供側通信部102は、例えば、NIC(Network Interface Card)などの通信インターフェースやDMA(Direct Memory Access)コントローラを含む。サービス提供側通信部102は、ネットワークNWを介して、端末装置10、学習装置200、または解析装置300などと通信する。
サービス提供側制御部110は、例えば、サービス提供部112と、要約生成部114と、評価値導出部116とを備える。サービス提供側制御部110の構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサがサービス提供側記憶部130に格納されたプログラムを実行することにより実現される。また、サービス提供側制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
サービス提供側記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより実現される。サービス提供側記憶部130は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、後述するリンク元ページログ情報D1や、リンク先ページログ情報D2、要約生成モデル情報D3、評価情報D4などを記憶する。これらの情報については後述する。
サービス提供部112は、例えば、サービス提供側通信部102を用いて、サービスとし電子ページを端末装置10に提供する。例えば、サービス提供装置100がウェブサーバ装置である場合、サービス提供部112は、サービス提供側通信部102により端末装置10からHTTP(Hypertext Transfer Protocol)リクエストが受信されると、このリクエストに対応したウェブページとして、HTML形式のテキストデータや、CSS(Cascading Style Sheets)などのスタイルシート、画像データ、動画データ、音声データなどを、HTTPリクエストの送信元である端末装置10に送信する。テキストデータには、上述した要約情報が含まれる。これを受けて、端末装置10の画面には、ウェブブラウザの機能によりウェブページが描画される。
また、例えば、サービス提供装置100がアプリケーションサーバ装置である場合、サービス提供部112は、アプリケーションが起動された端末装置10からサービス提供側通信部102により所定のリクエストが受信されると、このリクエストに応じて、要約情報を含むテキストデータなどのコンテンツを、リクエストの送信元である端末装置10に送信する。端末装置10は、コンテンツを受信すると、例えば、アプリケーションのインストール時に合わせて取得しておいたスタイルシートなどに基づいて、受信したコンテンツを画面上に配置することで、アプリ用のページを描画する。
また、サービス提供部112は、要約情報のうちタイトルTTLがリンクとして掲載された各電子ページ(以下、リンク元ページと称する)について、例えば、各ページの所定期間におけるインプレッション数などの指標値を収集することで、リンク元ページログ情報D1を生成する。インプレッションとは、例えば、リンク元ページに対してアクセス(訪問)があり、アクセス要求元(例えばHTTPリクエストの送信元)である端末装置10の画面にリンク元ページが表示されることである。
また、サービス提供部112は、リンク元ページのリンクからアクセス可能な各電子ページ(以下、リンク先ページと称する)について、例えば、リンク元ページからのアクセス数などの指標値を収集することで、リンク先ページログ情報D2を生成する。
図6は、リンク元ページログ情報D1の一例を示す図である。図示の例のように、リンク元ページログ情報D1は、リンク元ページごとに、リンク元ページにリンクとして掲載されるリンク先ページのページIDと、そのリンク先ページに掲載されるコンテンツのIDと、リンクに対応付けられた要約情報(例えば上述したタイトルTTLや要約文ABSなど)と、リンク元ページのインプレッション数とが対応付けられた情報である。
図7は、リンク先ページログ情報D2の一例を示す図である。図示の例のように、リンク先ページログ情報D2は、リンク先ページのページIDごとに、そのリンク先ページに掲載されるコンテンツのIDと、リンク元ページからのアクセス数とが対応付けられた情報である。
要約生成部114は、リンク先ページにおいて掲載されるコンテンツの要約情報を生成する。例えば、要約生成部114は、要約生成モデル情報D3が示す要約生成モデルに従って、リンク先ページに含まれるコンテンツのうち、テキストデータのコンテンツ(例えばニュース記事など)を入力として、要約情報を生成する。
要約生成モデル情報D3は、所定の要約生成モデルを示す情報である。例えば、要約生成モデルは、入力されたコンテンツを変換して要約情報を出力する所定の数式モデルであり、各種数式や条件式を定める要約パラメータを含む。要約パラメータには、後述する重みや、要約情報の長さ(文字数)、要約情報に含める助詞の数などが含まれる。
例えば、要約生成部114は、入力対象のコンテンツをニュース記事とした場合、このニュース記事を、n−gramや形態素解析により複数の文(例えば句読点単位での文)に分割し、分割した各文をTF(Term Frequency)‐IDF(Inverse Document Frequency)などで重み付けることにより、複数の文の中から重みが大きい文を優先的に抽出すると共に、抽出した文同士が重複せずに、より自然な文体となるように文を順序付けることで、要約情報を生成する。なお、重みは、文単位に限られず、単語ごとであってもよいし、文節ごとであってもよい。単語、文、文節は、「所定単位」の一例である。
また、要約生成部114は、上述した重みの他に、例えば、要約情報の長さ(要約情報の大きさまたは情報量)や要約情報に含める助詞の数、といった要約生成モデルとして予め決められた要約パラメータに従って要約情報を生成する。
評価値導出部116は、要約生成部114により生成された要約情報がリンクとして掲載されたリンク元ページがサービス提供部112によって提供されると、このリンク元ページを閲覧したユーザによってとられた行動が評価された評価値を導出する。
例えば、評価値導出部116は、リンク元ページログ情報D1とリンク先ページログ情報D2とを参照して、あるリンク先ページのアクセス数を、そのリンク先ページへのリンクとして要約情報が掲載されたリンク元ページのインプレッション数で除算したCTR(Click Through Rate)を評価値として導出する。例えば、評価値導出部116は、上述した図6および図7において、ページIDが「P_A」のリンク先ページについて、その評価値を、100/100000=0.001として導出する。
なお、評価値導出部116は、評価値としてCTRを導出するのに代えて、或いは加えて、リンク先ページでの滞在時間や、リンク先ページでの所定のコンバージョンの成立回数に基づくCVR(Conversion Rate)などを評価値として導出してもよい。所定のコンバージョンとは、例えば、リンク先ページに掲載される広告を閲覧したり、リンク先ページに掲載されるリンクから更に他のページへとアクセスしたりすることである。
そして、評価値導出部116は、導出した評価値と、その評価の対象としたリンク先ページへのリンク名(タイトルTTL)、およびリンク先ページの要約文ABSを含む要約情報とを対応付けた情報を生成し、この生成した情報を評価情報D4としてサービス提供側記憶部130に記憶させる。
図8は、評価情報D4の一例を示す図である。図示の例のように、評価情報D4は、要約情報ごとに、その要約情報によってリンクが付与されたリンク先ページのページIDと、そのページに掲載されたコンテンツのIDと、そのページの評価値とが対応付けられた情報である。例えば、各要約情報には、互いに異なる評価値が対応付けられてもよいし、同じ評価値が対応付けられてもよい。また、各要約情報には、互いに異なる複数の評価値(図の例では(CTR,滞在時間,CVR,…))が対応付けられてもよい。
また、評価情報D4において、評価値が対応付けられたリンク元ページが改変された場合、評価値導出部116は、改変されたリンク元ページの評価値を再度導出してよい。リンク元ページの「改変」とは、例えば、リンク元ページに掲載される要約情報が変更されることである。
例えば、プログラマーやデザイナーなどのリンク元ページの設計者が、評価値導出部116により導出された評価値を参照して、現状のリンク元ページからリンク先ページへのアクセスを促すため(評価値を向上させるため)に、リンク先ページに掲載されたコンテンツのタイトルや要約文を変更することが想定される。
また、リンク元ページの「改変」は、設計者が行う代わりに、サービス提供側制御部110のいずれかの構成要素(例えば、要約生成部114など)が行ってもよい。
例えば、リンク元ページが改変されると、サービス提供部112は、サービス提供側通信部102を用いて、改変されたリンク元ページ(以下、改変済みリンク元ページと称する)を、所定のユーザが操作する端末装置10へと送信する。所定のユーザとは、例えば、不特定多数のユーザにより構成されたクラウドソーシング形式のワーキンググループに参加するユーザである。クラウドソーシングとは、依頼した業務の協力を募ることである。例えば、サービス提供部112は、クラウドソーシングに参加するユーザの端末装置10に対して、改変済みリンク元ページを提供する。これを受けて、クラウドソーシングに参加するユーザは、端末装置10を操作して、提供された改変済みリンク元ページにアクセスし、興味や関心があればリンク先ページへとアクセスする。
そして、評価値導出部116は、改変済みリンク元ページがサービス提供部112により端末装置10へと提供され、その端末装置10を操作するユーザによってリンク先ページにアクセスされると、この改変済みリンク元ページの評価値を導出する。例えば、評価値導出部116は、評価情報D4において、その改変済みリンク元ページのページIDに対応付けられた評価値を更新してもよいし、改変済みリンク元ページのページIDを新たなページIDとして扱うことで、評価情報D4に改変済みリンク元ページごとに評価値のログをレコードとして追加してもよい。
[学習装置の構成]
図9は、第1実施形態における学習装置200の構成の一例を示す図である。図示のように、学習装置200は、例えば、学習側通信部202と、学習側制御部210と、学習側記憶部230とを備える。
学習側通信部202は、例えば、NICなどの通信インターフェースやDMAコントローラを含む。学習側通信部202は、例えば、ネットワークNWを介して、サービス提供装置100や解析装置300などと通信する。
学習側制御部210は、例えば、学習側取得部212と、学習部214とを備える。学習側制御部210の構成要素は、例えば、CPUやGPUなどのプロセッサが学習側記憶部230に格納されたプログラムを実行することにより実現される。また、学習側制御部210の構成要素の一部または全部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
学習側記憶部230は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、RAMなどにより実現される。学習側記憶部230は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、上述した評価情報D4と、機械学習モデル情報D5と、要約履歴情報D6などを記憶する。機械学習モデル情報D5および要約履歴情報D6については後述する。
学習側取得部212は、例えば、学習側通信部202の通信相手であるサービス提供装置100から、学習側通信部202を介して評価情報D4を取得し、これを学習側記憶部230に記憶させる。
学習部214は、予め学習側記憶部230に記憶された機械学習モデル情報D5が示す機械学習モデルに従って、要約生成部114が参照する要約生成モデルに使用される要約パラメータを学習する。
機械学習モデル情報D5は、所定の機械学習モデルを示す情報である。例えば、機械学習モデルは、ニューラルネットワーク、サポートベクターマシーン、ベイジアンネットワーク、各種教師あり学習または教師なし学習である。これらの学習モデルには、例えば、学習率、学習の複雑さ、学習手法などのパラメータが予めハイパーパラメータとして設定される。ハイパーパラメータの一つである学習率は、例えば、機械学習モデルによる学習速度(解が収束するまでの速さ)と学習精度(誤差の大小)とを指定するパラメータであり、例えば、学習率が小さくなるほど学習精度は向上するものの学習速度が低下し、学習率が大きくなるほど学習精度は低下するものの学習速度が向上する。ハイパーパラメータの一つである学習の複雑さは、例えば、機械学習モデルがニューラルネットワークの場合、入力層および出力層の間の隠れ層の層数や、各層に含まれるニューラルネットワークの数(ユニット数)を指定するパラメータである。また、学習の複雑さは、例えば、機械学習モデルがサポートベクターマシーンの場合、正規化項の数を指定するパラメータである。ハイパーパラメータの一つである学習手法は、上述したニューラルネットワーク、サポートベクターマシーン、ベイジアンネットワークなどの手法のうちいずれかを指定するパラメータである。以下、一例として機械学習モデルがニューラルネットワークである例について説明する。なお、ハイパーパラメータは、上述した例の他に、例えば、要約情報に含める文字として、漢字、ひらがな、アルファベットなどの各文字の文字数を指定するものであってもよいし、これらの文字の混合の割合を指定するものであってもよい。
例えば、学習部214は、学習側取得部212により取得された評価情報D4において、リンク先ページに掲載されたコンテンツ(例えばニュース記事のようなテキストデータ)を、機械学習モデルの入力とし、その機械学習モデルから出力される要約情報を出力としたときに、出力である要約情報と、ある教師データとの差分である誤差を導出する。
教師データは、例えば、過去の時点でコンテンツから生成された複数の要約情報の集合である。このような教師データとして用いられる要約情報の集合は、予め要約履歴情報D6として学習側記憶部230に記憶されていてよい。
図10は、要約履歴情報D6の一例を示す図である。図示の例のように、要約履歴情報D6は、過去に提供された要約情報ごとに、その要約情報によってタイトルTTLや要約文ABSが付与されたリンク先ページのページIDと、そのページに掲載された提供済みのコンテンツのIDと、過去の提供日時とが対応付けられた情報である。例えば、ある過去の日時に、コンテンツXXXがリンク先ページP_Xに掲載されて提供された場合に、そのリンク先ページP_Xのリンク名を示すタイトルがTTL_Xであったことを表し、コンテンツXXXの要約文がABS_Xであったことを表している。
学習部214は、入力として用いたコンテンツに類似するコンテンツから生成された要約情報を教師データとしたときに、この教師データと機械学習モデルにより出力として返される要約情報との差分を最小化するように、誤差逆伝播法を用いてニューラルネットワークの各隠れ層の活性化関数のパラメータを決定する。
コンテンツが「類似する」とは、例えば、入力として用いたコンテンツが「野球」に関連した記事であれば、記事の内容が同じカテゴリー(例えば「野球」や「スポーツ」、「球技」などのカテゴリー)」であることである。また、コンテンツが「類似する」とは、比較対象の一方のコンテンツに含まれる文章を構成する複数の形態素のうち、例えばTF‐IDFに基づく重みが大きい形態素が比較対象の他方のコンテンツの文章に含まれること(コンテンツ間で文章の形態素が共通していること)であってもよい。
活性化関数は、例えば、入力に応じた出力を返す関数であり、例えば、正規化線形関数(ReLU関数)やシグモイド関数、ステップ関数などである。活性化関数のパラメータ(すなわち機械学習による学習対象のパラメータ)は、要約生成部114の要約パラメータを想定して設定されたパラメータであり、例えば、TF‐IDFなどに基づく重みである。
学習部214は、学習側通信部202を用いて、ニューラルネットワークにおいて決定した活性化関数のパラメータを、要約生成部114の要約パラメータとして送信する。これを受けて、要約生成部114は、要約生成モデルの要約パラメータを、学習部214により決定されたパラメータへと変更する。このように、既にコンテンツから生成した実績のある要約情報を教師データとして、要約生成モデルの要約パラメータとする活性化関数のパラメータを決定するため、要約生成部114は、過去に生成された要約情報と似たような傾向で、要約情報を生成することができる。例えば、過去に生成された要約情報が30文字程度であれば、今回生成される要約情報も同程度の文字数となる。また、過去に生成された要約情報において、文の最後が名詞や代名詞などで終わる場合、今回生成される要約情報も、文の最後が体言止めで終わりやすくなる。
[解析装置の構成]
図11は、第1実施形態における解析装置300の構成の一例を示す図である。図示のように、解析装置300は、例えば、解析側通信部302と、解析側制御部310と、解析側記憶部330とを備える。
解析側通信部302は、例えば、NICなどの通信インターフェースやDMAコントローラを含む。解析側通信部302は、例えば、ネットワークNWを介して、サービス提供装置100や学習装置200などと通信する。
解析側制御部310は、例えば、解析側取得部312と、パラメータ抽出部314と、パラメータ決定部316と、出力部318とを備える。解析側制御部310の構成要素は、例えば、CPUやGPUなどのプロセッサが解析側記憶部330に格納されたプログラムを実行することにより実現される。また、解析側制御部310の構成要素の一部または全部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
解析側記憶部330は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、RAMなどにより実現される。解析側記憶部330は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、上述した要約生成モデル情報D3および評価情報D4と、パラメータ情報D7と、関数情報D8などを記憶する。パラメータ情報D7および関数情報D8については後述する。
[処理フロー]
以下、フローチャートに即して解析側制御部310の各構成要素について説明する。図12は、第1実施形態における解析側制御部310により実行される処理の一例を示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われる。
まず、解析側取得部312は、解析側通信部302の通信相手であるサービス提供装置100から、解析側通信部302を介して要約生成モデル情報D3および評価情報D4を取得し(S100)、これを解析側記憶部330に記憶させる。
次に、パラメータ抽出部314は、解析側取得部312により取得された要約生成モデル情報D3から、要約生成モデルのパラメータである要約パラメータを、ベイズ的最適化手法により改善パラメータが決定される際に用いられるパラメータとして抽出する(S102)。このとき、パラメータ抽出部314は、学習部214が機械学習により決定するパラメータ(学習対象のパラメータ)を除く要約パラメータを抽出する。例えば、機械学習により各文の重みが学習される場合、パラメータ抽出部314は、要約情報の長さや要約情報に含める助詞の数などの他のパラメータを要約パラメータとして抽出する。これによって、機械学習と、ベイズ的最適化手法とにおいて調整されるパラメータが共通しなくなることから、過学習などにより生じる汎化能力の低下を防ぐことができる。
次に、パラメータ抽出部314は、抽出した要約パラメータと、そのパラメータが用いられて要約情報が生成されたときのリンク先ページとを対応付けたパラメータ情報D7を生成し(S104)、この情報を解析側記憶部330に記憶させる。
図13は、パラメータ情報D7の一例を示す図である。図示のように、例えば、パラメータ情報D7は、各リンク先ページのページIDに対して、そのリンク先ページに掲載されたコンテンツのIDと、そのコンテンツから生成された要約情報と、要約情報生成時に用いられた要約生成モデルの要約パラメータとが対応付けられた情報である。
このとき、抽出された要約パラメータは、その値が0〜1の数値範囲となるように正規化される。例えば、要約パラメータが「要約情報(タイトルTTLなど)の長さ」である場合、パラメータ抽出部314は、要約パラメータとして抽出した「要約情報(タイトルTTLなど)の長さ」を、その長さが取り得る最大値(例えばリンク元ページの横幅の最大値)で除算することで正規化する。
パラメータ情報D7に含まれる要約パラメータは、例えば、n−gramや形態素解析により分割された各文の重み、要約情報の長さ、要約情報に含める助詞の数、といったパラメータのうちいずれか一つであってもよいし、複数であってもよい。すなわち、パラメータ抽出部314により抽出される要約パラメータは、一次元のパラメータであってもよいし、多次元のパラメータであってもよい。
次に、パラメータ決定部316は、評価情報D4を参照し、パラメータ抽出部314により抽出された要約パラメータの抽出元であるコンテンツが掲載されたリンク先ページを特定し、その特定したリンク先ページに対応付けられた評価値と、パラメータ抽出部314により抽出された要約パラメータとに基づいて、ベイズ的最適化手法により、要約パラメータとして好ましい改善パラメータを決定する(S106)。なお、パラメータ決定部316は、上述したように、ベイズ的最適化手法に代えて、遺伝的アルゴリズムや差分進化法などの探索手法と分布推定アルゴリズムとを組み合わせることで、改善パラメータを決定してもよい。
図14は、ベイズ的最適化手法による改善パラメータの決定方法を説明するための図である。例えば、要約パラメータをXとした場合、評価値は、要約パラメータXを要素とした、ある未知関数(以下、ブラックボックス関数F(X)と称する)として表すことができる。
ブラックボックス関数F(X)を導出するために、パラメータ決定部316は、パラメータ情報D7の評価値を初期値として利用する。図示の例では、初期値として評価値F(Xa)およびF(Xa)が与えられている。この評価値F(Xa)およびF(Xa)の其々の要約パラメータは、Xa、Xbである。図中μは、この2点の初期値を基にガウス過程(確率変数である要約パラメータXがN次元のガウス分布N(μ,σ)に従う)により推定されるブラックボックス関数F(X)の平均を表している。また、図中CBは、ブラックボックス関数F(X)の平均μに標準偏差σ(分散σ)を加算した信頼区間(μ±σ)を表している。例えば、標準偏差σ(分散σ)は、ガウス過程を基に求められてよく、1σ、2σ、3σのように任意に決定されてよい。
例えば、パラメータ決定部316は、ブラックボックス関数F(X)の信頼区間CBの大きさ(絶対値)を表すacquisition function(以下、a(X)と称する)が最も大きくなる要約パラメータX(不確実性の高いパラメータX)を、改善パラメータとして決定する。a(X)は、例えば、以下の数式(1)に基づいて求められてよい。式中Kは、カーネル関数を表す。
a(X)=(μ(X)+Kσ(X))…(1)
図示の例では、改善パラメータXcのときにa(X)が最大となるため、パラメータ決定部316は、パラメータXcを改善パラメータに決定する。このように、改善パラメータは、a(X)の大きさに応じて決定される。
次に、出力部318は、解析側通信部302を用いて、パラメータ決定部316により決定された改善パラメータを、サービス提供装置100に出力(送信)する(S108)。
これを受けて、サービス提供装置100の要約生成部114は、要約生成モデル情報D3が示す要約生成モデルの要約パラメータを、解析装置300により出力された改善パラメータに変更することで、各コンテンツから新たな要約情報を生成する。そして、サービス提供装置100のサービス提供部112は、例えば、クラウドソーシングに参加するユーザの端末装置10からHTTPリクエストなどがサービス提供側通信部102により受信されると、このリクエストのレスポンスとして、リンク先ページのタイトルTTLまたは要約文ABSが、新たに生成された要約情報に変更されたリンク元ページ(改変済みリンク元ページ)を提供する。このとき、タイトルTTLまたは要約文ABSの変更前後において、それらに関連付けられたリンク先ページは同じページであるものとする。なお、リンク元ページにおけるリンク先ページのタイトルTTLまたは要約文ABSは、上述したように、リンク元ページの設計者などによって変更されてもよい。
そして、サービス提供部112は、タイトルTTLまたは要約文ABSを変更した改変済みリンク元ページを、サービス提供側通信部102を用いて、リクエストの送信元である端末装置10に送信する。そして、サービス提供装置100の評価値導出部116は、改変済みリンク元ページの評価値を導出する。
次に、解析装置300の解析側取得部312は、解析側通信部302を用いて、サービス提供装置100から改変済みリンク元ページの評価値を取得する(S110)。
次に、パラメータ決定部316は、改変済みリンク元ページの評価値(実測値)を用いて、ベイズ的最適化手法により、改善パラメータを再決定する(S112)。
図15は、改善パラメータを再決定する方法を説明するための図である。例えば、上述した図14において例示したように、パラメータXcが改善パラメータに決定され、このパラメータXcを要約パラメータに適用した要約生成モデルに従って新たに生成された要約情報がリンク元ページに掲載されることで、リンク元ページが改変された場合、パラメータ決定部316は、評価値の初期値F(Xa)およびF(Xb)と、前回改善パラメータとして決定したパラメータXcの実測値として取得された評価値F(Xc)とを固定点(確率的に求めた推測値ではなく観測したい事象の実測値)として用いて、ガウス過程によりブラックボックス関数F(X)の平均μを推定する。そして、パラメータ決定部316は、a(X)が最も大きくなるパラメータXを、改善パラメータとして再度決定する。図示の例では、パラメータXdのときにa(X)が最大となるため、パラメータ決定部316は、パラメータXdを改善パラメータに決定する。
次に、出力部318は、解析側通信部302を用いて、パラメータ決定部316により再度決定された改善パラメータを、サービス提供装置100に対して出力する(S114)。
次に、解析側制御部310は、改善パラメータを決定する演算処理の回数が所定回数に達したか否かを判定し(S116)、演算回数が所定回数に達していない場合、上述したS110に処理を移す。これによって、演算回数が所定回数に達するまでの間に、改善パラメータが繰り返し決定されるのに応じて、リンク元ページからアクセス可能なリンク先ページのタイトルTTLまたは要約文ABSが変更され、その変更の都度、改変済みリンク元ページが生成される。改善パラメータが繰り返し決定されるのに応じて生成される改変済みリンク元ページは、「各世代の電子ページ」の一例である。例えば、改善パラメータを決定する演算処理が一回繰り返される毎に、リンク元ページの「世代」が一世代分増える。
サービス提供装置100のサービス提供部112は、改変済みリンク元ページが生成される度に、各世代の改変済みリンク元ページをクラウドソーシングに参加するユーザの端末装置10に送信する。そして、評価値導出部116は、各世代の改変済みリンク元ページごとに評価値を導出する。
これによって、パラメータXに応じてどの程度の評価値が得られるのかが判明するため、ブラックボックス関数F(X)がどういった傾向の関数であるのかが決定される。
一方、演算回数が所定回数に達した場合、解析側制御部310は、解析対象のリンク元ページと、ブラックボックス関数F(X)とを対応付けた情報を、関数情報D8として解析側記憶部330に記憶させる(S118)。
図16は、関数情報D8の一例を示す図である。例えば、関数情報D8は、各リンク元ページのページIDに対して、そのリンク元ページの各リンク先ページのコンテンツから要約情報を生成する際の要約パラメータXと、所定回数演算することにより導出されたブラックボックス関数F(X)とが対応付けられた情報である。
次に、出力部318は、解析側通信部302を用いて、所定回数演算することにより導出されたブラックボックス関数F(X)において、評価値F(X)が閾値以上となるパラメータX(以下、最適パラメータと称する)を、サービス提供装置100に対して出力する(S120)。
これを受けて、サービス提供装置100の要約生成部114は、要約生成モデルの要約パラメータを最適パラメータに変更し、各コンテンツの要約情報を生成する。サービス提供部112は、リンク元ページに掲載するリンク先ページのタイトルTTLおよび要約文ABSを、最適パラメータを基に生成された要約情報に変更することで、改変済みリンク元ページを生成し、この改変済みリンク元ページを、クラウドソーシングに参加するユーザが操作する端末装置10に限らず、リクエストを受けた全ての端末装置10に提供する。これによって、本フローチャートの処理が終了する。
図17は、第1実施形態における解析システム1全体の処理の流れの様子を模式的に示す図である。サービス提供装置100の要約生成部114は、要約生成モデルの要約パラメータ(例えば、要約情報の長さや助詞の数、文の重みなど)に従って、リンク先ページのコンテンツから要約情報を生成する。この要約情報は、リンク先ページのタイトルTTLおよび要約文ABSとしてリンク元ページに掲載され、リンク元ページを閲覧したユーザの行動に応じてCTRなどの評価値が導出される。
学習装置200の学習部214は、機械学習モデルのハイパーパラメータに従って、要約生成モデルの要約パラメータのうち、例えば、文の重みを学習により決定する。例えば、機械学習モデルに対する入力は、要約情報が生成されたときに用いられたコンテンツであり、そのコンテンツを入力としたときに機械学習モデルにより返される出力は、要約情報である。機械学習モデルの出力である要約情報に対する教師データは、ある過去の時点において入力および出力の関係であった要約情報およびコンテンツの集合を示す要約履歴情報D6である。学習部214は、機械学習モデルの出力を教師データに近づけるように文の重みを学習する。そして、学習部214は、学習により決定した要約パラメータ(重み)を、サービス提供装置100に出力する。これを受けて、要約生成部114は、要約生成モデルの要約パラメータのうち、学習部214において学習対象であったパラメータについては、学習結果に基づいて変更する。
一方、解析装置300の解析側取得部312は、要約情報が掲載されたリンク元ページを閲覧したユーザの行動に応じた評価値を取得する。また、パラメータ抽出部314は、コンテンツから要約情報が生成される際に使用された要約パラメータのうち、学習対象のパラメータを除くパラメータを抽出する。そして、パラメータ決定部316は、抽出されたパラメータと取得された評価値を基に、ベイズ的最適化手法により改善パラメータを決定する。出力部318は、改善パラメータをサービス提供装置100へと出力する。これを受けて、要約生成部114は、要約生成モデルの要約パラメータのうち、ベイズ的最適化手法の対象であったパラメータを、改善パラメータに変更する。
このように、二つのアプローチから、要約情報を生成する際に使用される要約パラメータを調整するため、リンク先ページへのアクセスを促す要約情報を効果的に生成することができる。
なお、上述した第1実施形態では、ブラックボックス関数におけるパラメータが、一次元または多次元のパラメータであるものとして説明したがこれに限られず、例えば、多次元のパラメータによって表される意味ベクトルであってもよい。意味ベクトルとは、単語の意味をベクトル表現したものである。例えば、ある単語が複数の意味で用いられる場合、その単語の意味ベクトルVは、各意味を次元(基底)としたベクトル(意味A,意味B,意味C,…)として表すことができる。
また、ブラックボックス関数におけるパラメータは、単一の意味ベクトルであってもよいし、複数の意味ベクトルの集合であってもよい。複数の意味ベクトルの集合を、ブラックボックス関数におけるパラメータとする場合、例えば、各意味ベクトルの重みを次元とした多次元ベクトルをブラックボックス関数におけるパラメータとしてもよいし、各意味ベクトルそのものを次元とした多次元ベクトルをブラックボックス関数におけるパラメータとしてもよい。
また、上述した第1実施形態では、要約生成部114は、パラメータ決定部316により改善パラメータが決定される度に、要約生成モデルの要約パラメータを変更した上で要約情報を生成するものとして説明したがこれに限られず、改善パラメータが決定される前に予め複数の要約情報を生成してもよい。例えば、要約生成部114は、要約情報であるタイトルTTLの長さ(文字数)として、10文字、20文字、30文字、40文字、といったようにある程度分散させた要約パラメータを用いて、複数の要約情報を生成する。そして、サービス提供部112は、要約生成部114により生成された複数の要約情報のうち、いずれかの要約情報を含めたリンク元ページを提供する。
パラメータ決定部316により改善パラメータが決定された場合、要約生成部114は、事前に生成した複数の要約情報のうち、この改善パラメータと同じまたは近いパラメータを用いて生成された要約情報を選択する。例えば、要約情報の長さを20文字として生成した要約情報がリンク元ページに掲載され、そのときのリンク先ページの評価値に基づいて、要約情報の長さを38文字とする改善パラメータが決定されたとする。この場合、要約生成部114は、事前に生成した複数の要約情報のうち、要約情報の長さを40文字として生成した要約情報を選択する。これによって、改善パラメータの決定に応じてなされる要約情報の生成処理を省略することができるため、ブラックボックス関数を確定するまでに要する処理時間を短縮することができる。
また、ブラックボックス関数におけるパラメータを意味ベクトルとし、更に、事前に複数の要約情報を生成しておく場合、要約生成部114は、事前に生成した複数の要約情報のうち、この改善パラメータの意味ベクトルと同じまたは近い意味ベクトルのパラメータを用いて生成された要約情報を選択してよい。意味ベクトルが近いとは、例えば、ベクトル同士の内積が小さいことである。
また、上述した第1実施形態では、パラメータ決定部316は、未知関数の最適化手法として、ベイズ的最適化手法を用いることで改善パラメータを決定したがこれに限られず、上述したように遺伝的アルゴリズムや、差分進化法、焼きなまし法、グリッドサーチ法などの他の手法を用いて改善パラメータを決定してもよい。
以上説明した第1実施形態によれば、コンテンツの要約情報が掲載された電子ページ(リンク元ページ)を閲覧したユーザによってとられた行動が評価された評価値を取得する解析側取得部312と、コンテンツが要約情報へと変換される際に使用された要約パラメータと、解析側取得部312により取得された評価値とに基づいて、ベイズ的最適化手法などの未知関数の最適化手法により、コンテンツから要約情報への変換の際に使用する要約パラメータとして好ましい改善パラメータを決定するパラメータ決定部316とを備えることにより、例えば、サービス提供装置100が効果的にコンテンツを要約することができる。
また、上述した第1実施形態によれば、ベイズ的最適化手法などの未知関数の最適化手法により改善パラメータを決定することから、設計者がこれまで思いもしなかったタイトルTTLや要約文ABSを生成することができ、従来の常識を覆すような革新的な電子ページを生成することができる。
また、上述した第1実施形態によれば、例えば、未知関数の最適化手法として、ベイズ的最適化手法を用いた場合、ガウス過程に基づくブラックボックス関数(連続性のある関数)を仮定し、そのブラックボックス関数において不確実性の高いパラメータを改善パラメータに決定するため、上述したような、電子ページの改変に対してユーザがどういった行動をとったのかという一連の試行処理(ライブテスト)に時間を要する場合、試行処理の結果が大量に必要な遺伝的アルゴリズムなどの他の未知関数の最適化手法と比べて、より速く目的関数であるブラックボックス関数を最適化することができる。
また、上述した第1実施形態によれば、導出したブラックボックス関数を、要約情報の生成時に使用する要約パラメータに対応付けて記憶するため、ベイズ的最適化手法などの未知関数の最適化手法により得られた知見として、どのような要約パラメータでコンテンツを要約すれば評価値を向上させることができるのかを、設計者間で共有することができる。これによって、例えば、電子ページの設計知識の乏しい設計者であっても、高い評価値を得ることが可能な電子ページを設計することができる。
<第2実施形態>
以下、第2実施形態について説明する。上述した第1実施形態では、解析装置300がベイズ的最適化手法により、要約生成モデルの要約パラメータとして好ましい改善パラメータを決定した。第2実施形態では、解析装置300が、機械学習モデルのハイパーパラメータとして好ましい改善パラメータを決定する点で、上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。要約生成モデルの要約パラメータは、「解析対象のパラメータ」の一例である。
図18は、第2実施形態における解析システム1A全体の処理の流れの様子を模式的に示す図である。第2実施形態におけるサービス提供装置100の要約生成部114は、要約生成モデルの要約パラメータ(例えば、要約情報の長さや助詞の数、文の重みなど)に従って、リンク先ページのコンテンツから要約情報を生成する。この要約情報は、リンク先ページのタイトルTTLおよび要約文ABSとしてリンク元ページに掲載され、リンク元ページを閲覧したユーザの行動に応じてCTRなどの評価値が導出される。
第2実施形態における学習装置200の学習部214は、機械学習モデルのハイパーパラメータに従って、要約生成モデルの要約パラメータのうち、例えば、文の重みを学習により決定する。例えば、機械学習モデルに対する入力は、要約情報が生成されたときに用いられたコンテンツであり、そのコンテンツを入力としたときに機械学習モデルにより返される出力は、要約情報である。機械学習モデルの出力である要約情報に対する教師データは、ある過去の時点において入力および出力の関係であった要約情報およびコンテンツの集合を示す要約履歴情報D6である。学習部214は、機械学習モデルの出力を教師データに近づけるように文の重みを学習する。そして、学習部214は、学習により決定した要約パラメータ(重み)を、サービス提供装置100に出力する。これを受けて、要約生成部114は、要約生成モデルの要約パラメータのうち、学習部214において学習対象であったパラメータについては、学習結果に基づいて変更する。
一方、第2実施形態における解析装置300の解析側取得部312は、解析側通信部302の通信相手であるサービス提供装置100から、要約情報が掲載されたリンク元ページを閲覧したユーザの行動に応じた評価値、すなわち評価情報D4を取得すると共に、解析側通信部302の通信相手である学習装置200から、機械学習モデル情報D5を取得する。パラメータ抽出部314は、取得された機械学習モデル情報D5から、学習部214において参照される機械学習モデルのハイパーパラメータを抽出する。そして、パラメータ決定部316は、抽出されたハイパーパラメータと取得された評価値とを基に、ベイズ的最適化手法により、ハイパーパラメータとして好ましい改善パラメータを決定する。出力部318は、改善パラメータを学習装置200へと出力する。
これを受けて、学習装置200の学習部214は、機械学習モデルのハイパーパラメータを、改善パラメータに変更する。そして、学習部214は、改善パラメータに変更した機械学習モデルに従って、要約生成モデルに使用される要約パラメータを学習する。これによって、要約生成モデルの要約パラメータの一部(学習対象のパラメータ)は、ベイズ的最適化手法によって間接的に決定される。
以上説明した第2実施形態によれば、機械学習モデルのハイパーパラメータとして好ましい改善パラメータを決定するため、効果的にコンテンツを要約することができる。
なお、上述した第2実施形態では、機械学習モデルのハイパーパラメータとして好ましい改善パラメータを決定すると共に、更に、要約生成モデルの要約パラメータとして好ましい改善パラメータを決定してもよい。これによって、更に効果的にコンテンツを要約することができる。
<その他の実施形態>
以下、その他の実施形態について説明する。上述した第1および第2実施形態では、サービス提供装置100が、リンク先ページに掲載されるコンテンツから、そのコンテンツの要約情報(タイトルTTLや要約文ABS)を生成し、生成した要約情報を含むリンク先ページを端末装置10に提供する、という例について説明したがこれに限られない。
例えば、サービス提供装置100のサービス提供部112は、ユーザインターフェースUIとして機能する電子ページを提供してもよい。この電子ページは、例えば、検索サイトにおいて検索窓にクエリを入力することが可能なページである。この場合、解析装置300の解析側取得部312は、電子ページを閲覧したユーザの行動に応じた評価値(例えば、検索窓にクエリが入力されて検索された回数に基づく評価値)を取得する。また、解析装置300のパラメータ抽出部314は、電子ページを構成する一以上のコンポーネントのパラメータ(例えば検索窓の位置や大きさなど)を抽出する。そして、解析装置300のパラメータ決定部316は、取得された評価値と、抽出されたパラメータとに基づいて、ベイズ的最適化手法により、電子ページのコンポーネントのパラメータとして好ましい改善パラメータを決定する。コンポーネントのパラメータは、「解析対象のパラメータ」の他の例である。
また、例えば、サービス提供装置100のサービス提供部112は、ゲームなどのアプリケーションが起動された画面をキャプチャしたキャプチャ画像が掲載された電子ページを提供してもよい。この電子ページは、例えば、アプリケーションがインストール可能な配信ページである。この場合、解析装置300の解析側取得部312は、キャプチャ画像が掲載された電子ページを閲覧したユーザの行動に応じた評価値(例えば、配信ページからアプリケーションがインストールされた回数に基づく評価値)を取得する。また、解析装置300のパラメータ抽出部314は、電子ページに掲載されたキャプチャ画像から、画像の特徴に関するパラメータ(例えばHaar−Like特徴やHOG(Histograms of Oriented Gradients)など)を抽出する。そして、解析装置300のパラメータ決定部316は、取得された評価値と、抽出された画像特徴のパラメータとに基づいて、ベイズ的最適化手法により、電子ページに掲載するキャプチャ画像の特徴のパラメータとして好ましい改善パラメータを決定する。画像の特徴に関するパラメータは、「解析対象のパラメータ」の他の例である。
また、例えば、サービス提供装置100のサービス提供部112は、ニュース記事と、その記事の内容に関連した画像とが掲載された電子ページを提供してもよい。例えば、ニュース記事が特定の人物を紹介するような記事の場合、電子ページに掲載される画像は、特定の人物の全体画像(例えば頭から足先までを収めた全身の画像)から、上半身や頭部のみを切り出したクロッピング画像である。この場合、解析装置300の解析側取得部312は、ニュース記事とクロッピング画像とが掲載された電子ページを閲覧したユーザの行動に応じた評価値(例えば、当該ページから、記事のより詳細な内容が掲載された電子ページへとアクセスされた回数に基づく評価値)を取得する。また、解析装置300のパラメータ抽出部314は、原画像においてクロッピング画像が切り出された領域に関するパラメータ(例えば、切り出し位置の座標や領域の大きさ、アスペクト比など)を抽出する。そして、解析装置300のパラメータ決定部316は、取得された評価値と、抽出されたパラメータとに基づいて、ベイズ的最適化手法により、電子ページに掲載するクロッピング画像の切り出し領域のパラメータとして好ましい改善パラメータを決定する。クロッピング画像が切り出された領域に関するパラメータは、「解析対象のパラメータ」の他の例である。
<ハードウェア構成>
上述した実施形態の解析システム1、1Aに含まれる複数の装置のうち、サービス提供装置100、学習装置200および解析装置300は、例えば、図19に示すようなハードウェア構成により実現される。図19は、実施形態のサービス提供装置100、学習装置200および解析装置300のハードウェア構成の一例を示す図である。
サービス提供装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることでサービス提供側制御部110が実現される。CPU100−2が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
学習装置200は、NIC200−1、CPU200−2、RAM200−3、ROM200−4、フラッシュメモリやHDDなどの二次記憶装置200−5、およびドライブ装置200−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置200−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置200−5、またはドライブ装置200−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM200−3に展開され、CPU200−2によって実行されることで学習側制御部210が実現される。CPU200−2が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
解析装置300は、NIC300−1、CPU300−2、RAM300−3、ROM300−4、フラッシュメモリやHDDなどの二次記憶装置300−5、およびドライブ装置300−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置300−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置300−5、またはドライブ装置300−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM300−3に展開され、CPU300−2によって実行されることで、解析側制御部310が実現される。CPU300−2が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1、1A…解析システム、10…端末装置、100…サービス提供装置、102…サービス提供側通信部、110…サービス提供側制御部、112…サービス提供部、114…要約生成部、116…評価値導出部、130…サービス提供側記憶部、200…学習装置、202…学習側通信部、210…学習側制御部、212…学習側取得部、214…学習部、230…学習側記憶部、300…解析装置、302…解析側通信部、310…解析側制御部、312…解析側取得部、314…パラメータ抽出部、316…パラメータ決定部、318…出力部、330…解析側記憶部、NW…ネットワーク

Claims (7)

  1. コンテンツの要約情報が掲載された電子ページを閲覧したユーザによってとられた行動が評価された評価値を取得する取得部と、
    前記コンテンツが前記要約情報へと変換される際に使用された要約パラメータと、前記取得部により取得された評価値とに基づいて、未知関数の最適化手法により、前記変換の際に使用する要約パラメータとして好ましい改善パラメータを決定する決定部と、
    を備える解析装置。
  2. 前記取得部は、前記決定部により決定された改善パラメータを用いて生成された前記要約情報が掲載された電子ページを閲覧したユーザによってとられた行動が評価された評価値を取得し、
    前記決定部は、前記改善パラメータを繰り返し決定するのに応じて生成された各世代の電子ページに関する前記評価値を固定点として、前記未知関数の最適化手法により、前記改善パラメータを新たに決定する、
    請求項1に記載の解析装置。
  3. 前記コンテンツを分割した所定単位の重みに基づいて、前記コンテンツを変換した要約情報を生成する生成部と、
    前記コンテンツと、前記生成部により生成された要約情報とに基づいて、前記重みを機械学習モデルに従って学習する学習部と、を備え、
    前記生成部は、前記学習部により学習された重みに基づいて、前記要約情報を新たに生成する、
    請求項1または2に記載の解析装置。
  4. 前記決定部は、前記学習部が前記学習を行う際に用いた前記機械学習モデルのハイパーパラメータと、前記取得部により取得された評価値とに基づいて、前記機械学習モデルのハイパーパラメータとして好ましい改善パラメータを決定する、
    請求項3に記載の解析装置。
  5. 電子ページを閲覧したユーザによってとられた行動が評価された評価値を取得する取得部と、
    前記電子ページに関連した解析対象のパラメータを決定する手法が機械学習される際に用いられたハイパーパラメータと、前記取得部により取得された評価値とに基づいて、未知関数の最適化手法により、前記機械学習の際に用いるハイパーパラメータとして好ましい改善パラメータを決定する決定部と、
    を備える解析装置。
  6. コンピュータが、
    コンテンツの要約情報が掲載された電子ページを閲覧したユーザによってとられた行動が評価された評価値を取得し、
    前記コンテンツが前記要約情報へと変換される際に使用された要約パラメータと、前記取得した評価値とに基づいて、未知関数の最適化手法により、前記変換の際に使用する要約パラメータとして好ましい改善パラメータを決定する、
    解析方法。
  7. コンピュータに、
    コンテンツの要約情報が掲載された電子ページを閲覧したユーザによってとられた行動が評価された評価値を取得させ、
    前記コンテンツが前記要約情報へと変換される際に使用された要約パラメータと、前記取得させた評価値とに基づいて、未知関数の最適化手法により、前記変換の際に使用する要約パラメータとして好ましい改善パラメータを決定させる、
    プログラム。
JP2017053541A 2017-03-17 2017-03-17 解析装置、解析方法、およびプログラム Active JP6415619B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017053541A JP6415619B2 (ja) 2017-03-17 2017-03-17 解析装置、解析方法、およびプログラム
US15/912,995 US20180268307A1 (en) 2017-03-17 2018-03-06 Analysis device, analysis method, and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017053541A JP6415619B2 (ja) 2017-03-17 2017-03-17 解析装置、解析方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018156473A JP2018156473A (ja) 2018-10-04
JP6415619B2 true JP6415619B2 (ja) 2018-10-31

Family

ID=63715721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017053541A Active JP6415619B2 (ja) 2017-03-17 2017-03-17 解析装置、解析方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6415619B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7301801B2 (ja) * 2018-10-09 2023-07-03 株式会社Preferred Networks ハイパーパラメータチューニング方法、装置及びプログラム
JP6621514B1 (ja) * 2018-10-26 2019-12-18 楽天株式会社 要約作成装置、要約作成方法、及びプログラム
JPWO2020189235A1 (ja) * 2019-03-20 2020-09-24
JP7409781B2 (ja) * 2019-04-01 2024-01-09 Lineヤフー株式会社 出力プログラム、出力装置及び出力方法
WO2020255634A1 (ja) * 2019-06-17 2020-12-24 ソニー株式会社 情報処理システム及び情報処理方法
JP7207571B2 (ja) * 2019-12-18 2023-01-18 日本電信電話株式会社 学習データ生成方法、学習データ生成装置及びプログラム
JP7457545B2 (ja) * 2020-03-19 2024-03-28 Lineヤフー株式会社 評価装置、評価方法及び評価プログラム
US20230259704A1 (en) * 2020-07-06 2023-08-17 Nec Corporation Information processing device, information processing method and recording medium
JP7178390B2 (ja) * 2020-07-31 2022-11-25 株式会社朝日新聞社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP4187213B2 (ja) * 2004-06-07 2008-11-26 独立行政法人情報通信研究機構 自動要約処理装置および自動要約処理方法
US20110099134A1 (en) * 2009-10-28 2011-04-28 Sanika Shirwadkar Method and System for Agent Based Summarization
CN102163229B (zh) * 2011-04-13 2013-04-17 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
JP2016161967A (ja) * 2015-02-26 2016-09-05 日本電信電話株式会社 パラメタ学習装置、テキスト要約装置、方法、及びプログラム
JP6368683B2 (ja) * 2015-05-12 2018-08-01 日本電信電話株式会社 要約長推定装置、方法、及びプログラム
US20170055014A1 (en) * 2015-08-21 2017-02-23 Vilynx, Inc. Processing video usage information for the delivery of advertising

Also Published As

Publication number Publication date
JP2018156473A (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
JP6415619B2 (ja) 解析装置、解析方法、およびプログラム
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US20180268307A1 (en) Analysis device, analysis method, and computer readable storage medium
JP7160980B2 (ja) 情報提供装置、情報提供方法、およびプログラム
US9208441B2 (en) Information processing apparatus, information processing method, and program
JP6745384B2 (ja) 情報をプッシュするための方法及び装置
CN106095845B (zh) 文本分类方法和装置
JP6719399B2 (ja) 解析装置、解析方法、およびプログラム
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
US11651255B2 (en) Method and apparatus for object preference prediction, and computer readable medium
US20190026361A1 (en) Method and apparatus for providing information by using degree of association between reserved word and attribute language
JP6714268B1 (ja) 質問文出力方法、コンピュータプログラム及び情報処理装置
JP2022035314A (ja) 情報処理装置及びプログラム
KR101955920B1 (ko) 속성 언어를 이용한 검색 방법 및 장치
JP6960838B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP7144558B2 (ja) 検索システム、および検索方法
JP6985181B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7088795B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6879982B2 (ja) 情報処理装置、学習装置、情報処理方法、生成方法、およびプログラム
US20160196619A1 (en) Homogenizing time-based seniority signal with transition-based signal
JP6494679B2 (ja) 解析装置、情報提供装置、解析方法、およびプログラム
JP2009187384A (ja) 検索装置、検索方法、検索プログラム、および、記録媒体
JP6456423B2 (ja) 解析装置、解析方法、およびプログラム
JP7297855B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
KR102644588B1 (ko) 시각장애인이 포함된 평가 그룹을 지원하는 관능 평가 시스템 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181002

R150 Certificate of patent or registration of utility model

Ref document number: 6415619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350