JP6668410B2 - 熟読率提供装置および方法 - Google Patents

熟読率提供装置および方法 Download PDF

Info

Publication number
JP6668410B2
JP6668410B2 JP2018095083A JP2018095083A JP6668410B2 JP 6668410 B2 JP6668410 B2 JP 6668410B2 JP 2018095083 A JP2018095083 A JP 2018095083A JP 2018095083 A JP2018095083 A JP 2018095083A JP 6668410 B2 JP6668410 B2 JP 6668410B2
Authority
JP
Japan
Prior art keywords
stay time
content
rate
perusal
expected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018095083A
Other languages
English (en)
Other versions
JP2018195313A (ja
Inventor
東權 李
東權 李
仁宰 成
仁宰 成
晟源 文
晟源 文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kakao Corp
Original Assignee
Kakao Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kakao Corp filed Critical Kakao Corp
Publication of JP2018195313A publication Critical patent/JP2018195313A/ja
Application granted granted Critical
Publication of JP6668410B2 publication Critical patent/JP6668410B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、熟読率に関するものである。
一般に、インターネットニュース、ブログ、広告などのコンテンツの生産者/提供者はクリック数またはクリック率(Click through Rate、CTR)のような反応情報を基に該当コンテンツを評価する。しかし、このような評価では実際使用者が本文をどれくらい精読したか測定しにくく、本文満足度がどれくらい高いか把握しにくい。よって、コンテンツがクリックされたことによってのみ使用者が内容を消費したと評価される問題点を補完するために、使用者が内容を熱心に読んだのか流し読みしたのか、読まなかったのかを評価する技術に関する要求が次第に生じている。
現在、コンテンツ本文に対する満足度を測定する方法として、ウェブページ中のどの部分で使用者が見ることを止めたかを把握して、使用者がウェブページ全体を見たか途中でウェブページを閉じたかを判断するか、ウェブページでの滞在時間で熱心に読んだかを計算する方法がある。しかし、二つのニュース記事の滞在時間が50秒として同一であっても、本文が800字の文字列と5個のイメージである記事1と、本文が1000字である記事2から使用者が取得する情報量が異なることがある。したがって、滞在時間のみで本文を読む程度を計るのは難しい。
一方、本文の長さによって滞在時間を異にして算定しても、全般的に短い長さのニュース記事は完読にかかる時間自体が長くないためコンテンツ本文の質と関係なく熟読率が高く示されることがある。したがって、コンテンツ長さと所要時間を線形的に対比してコンテンツ消費質を測定することによっては多様な長さのコンテンツに対する熟読率を正確に評価しにくい。
また、最近生産されるコンテンツは文字列だけでなくイメージ、動画像などの多様な要素から構成されるが、単純にコンテンツ長さ(文字列長さ)のみでコンテンツ本文満足度を測定することでは、多様なコンテンツ特性を反映しにくい限界がある。
本発明が解決しようとする課題は、コンテンツ代表滞在時間と該当コンテンツ本文に含まれる文字列、イメージ、動画像のマルチメディア、カードニュース、広告、コメントなどの複数の本文構成要素を学習データとして収集し、学習データを基に学習された期待滞在時間関数を獲得し、期待滞在時間関数を基に特定コンテンツの熟読率を測定および提供することである。
一実施形態による少なくとも一つのプロセッサーによって動作する熟読率提供装置であって、閲覧された大量のコンテンツを収集し、各コンテンツの代表滞在時間、そして該当コンテンツの本文構成要素情報を抽出して学習データを生成する学習データ生成部と、複数の学習データで学習された期待滞在時間関数を生成する期待滞在時間学習部と、前記期待滞在時間関数を基に評価対象コンテンツの熟読率を評価する熟読率評価部とを含む。前記代表滞在時間は、複数の使用者が該当コンテンツの本文を閲覧する間に該当コンテンツで滞在した時間を代表する値である。
前記本文構成要素情報は、本文文字列情報、イメージ情報、マルチメディア情報、そしてカードニュース情報のうちの複数の情報を含んでもよい。
前記期待滞在時間学習部は、各学習データに含まれている情報の間の関係を回帰分析して前記期待滞在時間関数を生成してもよい。
前記学習データに含まれている本文文字列情報と期待滞在時間は、前記期待滞在時間関数で非線形関係であってもよい。
前記学習データ生成部は、カテゴリー別に閲覧された大量のコンテンツを収集してカテゴリー別に学習データを生成し、前記期待滞在時間学習部は、カテゴリー別に生成された学習データを基にカテゴリー別期待滞在時間関数を生成してもよい。
前記熟読率評価部は、前記評価対象コンテンツの本文構成要素情報と実際滞在時間を抽出し、前記期待滞在時間関数を基に前記評価対象コンテンツの本文構成要素情報から期待される期待滞在時間を獲得し、前記実際滞在時間と前記期待滞在時間を比較して前記熟読率を評価し、前記実際滞在時間は、複数の使用者が前記評価対象コンテンツの本文を閲覧するために滞在した時間を代表する値であってもよい。
前記熟読率提供装置は、複数の評価対象コンテンツを熟読率順に整列して使用者端末に提供する熟読率提供部をさらに含んでもよい。
前記熟読率提供部は、各評価対象コンテンツの熟読率と閲覧回数に関わる指標を総合して各評価対象コンテンツの推薦順位を計算し、推薦順位によるコンテンツを前記使用者端末に推薦してもよい。
他の実施形態による、熟読率提供装置による熟読率提供方法であって、閲覧された大量のコンテンツそれぞれで、複数の使用者が各コンテンツの本文を閲覧する間に該当コンテンツで滞在した時間を代表する各コンテンツの代表滞在時間を決定する段階と、前記閲覧された大量のコンテンツそれぞれで、滞在時間に影響を与える各コンテンツの本文構成要素情報を抽出する段階と、各コンテンツの代表滞在時間と本文構成要素情報を基に代表滞在時間と本文構成要素情報の間の関係を示す期待滞在時間関数を生成する段階とを含む。
前記本文構成要素情報は、本文文字列情報、イメージ情報、マルチメディア情報、そしてカードニュース情報のうちの複数の情報を含んでもよい。
前記期待滞在時間関数を生成する段階では、従属変数である滞在時間と独立変数である本文構成要素情報の間の関係を回帰分析して前記期待滞在時間関数を生成してもよい。
前記本文構成要素情報に含まれている本文文字列情報と期待滞在時間は、前記期待滞在時間関数で非線形関係であってもよい。
前記閲覧された大量のコンテンツは、カテゴリー別に分類されたコンテンツの集合であり、前記期待滞在時間関数は、カテゴリー別に生成されてもよい。
前記熟読率提供方法は、評価対象コンテンツの本文構成要素情報と実際滞在時間を抽出する段階と、前記期待滞在時間関数を基に前記評価対象コンテンツの本文構成要素情報から期待される期待滞在時間を獲得する段階と、前記実際滞在時間と前記期待滞在時間を比較して前記評価対象コンテンツの熟読率を評価する段階とをさらに含み、前記実際滞在時間は、複数の使用者が前記評価対象コンテンツの本文を閲覧する間に前記評価対象コンテンツで滞在した時間を代表する値であってもよい。
また他の実施形態による、熟読率提供装置による熟読率提供方法であって、閲覧された大量のコンテンツを基にコンテンツの期待滞在時間と本文構成要素情報の間の関係を示す期待滞在時間関数を生成する段階と、複数の使用者が閲覧した評価対象コンテンツを受信する段階と、前記評価対象コンテンツの本文構成要素情報と実際滞在時間を抽出する段階と、前記期待滞在時間関数を基に前記評価対象コンテンツの本文構成要素情報から期待される期待滞在時間を獲得する段階と、前記実際滞在時間と前記期待滞在時間を比較して前記評価対象コンテンツの熟読率を評価する段階とを含む。
前記本文構成要素情報は、本文文字列情報、イメージ情報、マルチメディア情報、そしてカードニュース情報のうちの複数の情報を含んでもよい。
前記期待滞在時間関数を生成する段階では、前記大量のコンテンツのカテゴリー別に前記期待滞在時間関数を生成してもよい。前記期待滞在時間を獲得する段階では、カテゴリー別に生成された期待滞在時間関数の中から、前記評価対象コンテンツに関わるカテゴリーの期待滞在時間関数を抽出して期待滞在時間を獲得してもよい。
前記期待滞在時間関数を生成する段階では、従属変数である滞在時間と独立変数である本文構成要素情報の間の関係を回帰分析して前記期待滞在時間関数を生成し、前記本文構成要素情報に含まれている文字列情報と期待滞在時間は、前記期待滞在時間関数で非線形関係であってもよい。
前記熟読率提供方法は、複数の評価対象コンテンツを熟読率順に整列して使用者端末に提供する段階をさらに含んでもよい。
前記使用者端末に提供する段階では、各評価対象コンテンツの熟読率と閲覧回数に関わる指標を総合して各評価対象コンテンツの推薦順位を計算し、推薦順位によるコンテンツを前記使用者端末に推薦してもよい。
本発明の実施形態によれば、使用者がコンテンツを熱心に読んだのか流し読みしたのか、読まなかったのかを評価することができ、本当の意味の読む(read)行為を測定することができる。
本発明の実施形態によれば、熟読率を基にコンテンツ質を測定することができ、本文満足度の高いコンテンツを提供することができる。したがって、本発明の実施形態によれば、熟読率を通じて本文が充実でないか題目と本文が一致しないコンテンツを選別することができる。
また、本発明の実施形態によれば、本文の質を示す熟読率とクリック率(CTR)などの定量的反応情報を結合して題目および本文満足度の高いコンテンツを推薦することができる。
本発明の一実施形態による熟読率提供装置の概略的な構成図である。 本発明の一実施形態による期待滞在時間関数の例示である。 本発明の一実施形態による熟読率順位画面の例示である。 本発明の一実施形態による非線形期待滞在時間関数生成方法のフローチャートである。 本発明の一実施形態による熟読率評価方法のフローチャートである。
以下、添付した図面を参照して本発明の実施形態について本発明の属する技術分野における通常の知識を有する者が容易に実施できるように詳しく説明する。しかし、本発明は様々な形態に実現でき、ここで説明する実施形態に限定されない。そして、図面で本発明を明確に説明するために説明上不必要な部分は省略し、明細書全体にわたって類似の部分については類似の図面符号を付けた。
明細書全体で、ある部分がある構成要素を「含む」という時、これは特に反対になる記載がない限り、他の構成要素を除くのではなく他の構成要素をさらに含むことができるのを意味する。また、明細書に記載された「…部」、「…機」、「モジュール」などの用語は少なくとも一つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェアまたはハードウェアおよびソフトウェアの結合で実現できる。
本発明では学習データに含まれている情報の間の関係を回帰分析してコンテンツの期待滞在時間関数を生成すると説明するが、同一の学習データで人工神経網をはじめとする多様な機械学習(machine learning)を用いて期待滞在時間を求めることができる。
図1は本発明の一実施形態による熟読率提供装置の概略的な構成図であり、図2は本発明の一実施形態による非線形期待滞在時間関数の例示であり、図3は本発明の一実施形態による熟読率順位画面の例示である。
図1を参照すれば分かるように、少なくとも一つのプロセッサーによって動作する熟読率提供装置100は、学習データ生成部110、期待滞在時間学習部130、熟読率評価部150、そして熟読率提供部170を含む。
学習データ生成部110は、閲覧された(page viewed)大量の(すなわち複数の)コンテンツを収集して、大量のコンテンツから期待滞在時間学習部130でコンテンツの期待滞在時間(expected duration time)を学習することに使用される学習データを生成する。コンテンツは使用者端末で閲覧できる多様な形態のデジタルコンテンツであって、インターネットニュース、ブログ、ソーシャルメディアなどのウェブページであり得る。学習データは、コンテンツの代表滞在時間、そしてコンテンツ本文の構成要素情報を含む。学習データ生成部110は、閲覧回数が基準値以上であるコンテンツを収集することができる。
学習データ生成部110は、コンテンツ別に複数の使用者が該当コンテンツ本文を閲覧する間に該当コンテンツで留まった滞在時間を獲得し、複数の使用者の滞在時間を基に該当コンテンツの代表滞在時間を決定する。例えば、代表滞在時間は複数の使用者の滞在時間の平均値であるか、中間値または最頻値であり得る。
学習データ生成部110は、コンテンツ別に本文に含まれている構成要素を抽出する。コンテンツ本文の構成要素は本文文字列情報、イメージ情報、マルチメディア情報、カードニュース情報、コメント情報または広告情報のように多様な形態の情報を含むことができる。
本文文字列情報は文字列長さ、単語数などを含むことができ、説明では文字列長さと仮定して説明する。
イメージ情報はイメージ数、イメージ大きさ、イメージ種類などを含むことができ、説明ではイメージ数を仮定して説明する。
マルチメディア情報は動画像やオーディオファイル有無、動画像やオーディオファイルの再生時間などを含むことができ、説明ではマルチメディア有無を仮定して説明する。
カードニュースはテキストを含むイメージであって、主にニュースを提供することに使用されるためカードニュースと称するが、必ずしもニュースに限定されるのではない。カードニュース情報はカードニュース有無、カードニュースを構成するイメージ数、カードニュースに含まれているテキストの文字列情報(文字列長さまたは単語数など)などを含むことができ、説明では簡単にカードニュース有無と仮定して説明する。この時、カードニュースに含まれているテキストの文字列情報は前で言及した本文文字列情報と認識され得る。学習データ生成部110は題目やタグに含まれているカードニュース識別情報を通じてカードニュースを含むか否かを確認することができ、またはコンテンツ本文のイメージ分析を通じてイメージに一定数以上の文字列が含まれている場合、カードニュースと判別することができる。
コメント情報は、コメントの数、コメントの長さ、コメントのイメージ情報、コメントのマルチメディア情報などを含むことができる。
広告情報は、広告有無、広告数などを含むことができる。
学習に使用されるコンテンツ本文の構成要素が文字列長さ、イメージ数、マルチメディア有無、カードニュース有無に決定された場合、学習データ生成部110は表1のように、各コンテンツの本文を分析して学習データを生成することができる。各コンテンツの代表滞在時間は該当コンテンツを使用した複数使用者の平均滞在時間(平均値)であるか、複数使用者のうちの中間使用者の滞在時間(中間値、複数の使用者数が偶数である場合、二中間使用者の平均値)または複数使用者のうちの最も多い使用者が滞在した時間(最頻値)であり得る。
Figure 0006668410
コンテンツ本文の構成要素は、コンテンツの滞在時間を増やす構成要素と滞在時間を減らす構成要素を含むことができる。例えば、文字列情報、イメージ情報、マルチメディア情報、カードニュース情報、コメント情報はコンテンツに含まれるほどコンテンツの滞在時間を増やし、広告情報はコンテンツに含まれるほどコンテンツの滞在時間を減らすことができる。
一方、特定コンテンツに対する期待滞在時間は該当コンテンツ特性によって変わることがある。例えば、ニュースコンテンツは演芸コンテンツに比べて文字列は長く、イメージ数は少ないこともあり、ニュース記事を読む使用者と演芸記事を読む使用者のコンテンツ消費特性が異なることもある。また、性別や年齢によってコンテンツでの滞在時間が異なることもある。結局、コンテンツの期待滞在時間はコンテンツ特性と消費する使用者特性によって異なるため、熟読率の正確性を高めるためにコンテンツ特性と使用者特性によって期待滞在時間関数を生成することが必要であり、このために学習データを分類することができる。
具体的に、学習データ生成部110は、収集した大量のコンテンツをカテゴリー別に分類し、カテゴリー別に学習データを生成することができる。この時、学習データ生成部110は、収集した大量のコンテンツを階層構造のカテゴリーに詳細に分類するか、性別、年齢、地域などの使用者分類カテゴリーに分類することができる。階層構造のカテゴリーは例えば、上位カテゴリーはコンテンツ内容によってニュース、演芸、スポーツなどに分類し、上位カテゴリーから複数の下位カテゴリー(例えば、演芸の下位カテゴリーとして映画、TVなど)に細分化することができる。
カテゴリーは、単発性イベント(例えば、大統領選挙、オリンピックなど)を含むことができる。
期待滞在時間学習部130は、学習データに含まれている変数の間の関係を回帰分析してコンテンツの期待滞在時間をモデリングする。学習データはコンテンツの代表滞在時間とコンテンツ本文の構成要素情報を含み、コンテンツ本文の構成要素情報は、文字列情報、イメージ情報、マルチメディア情報、カードニュース情報、コメント情報、広告情報のうちの複数の構成要素の組み合わせであり得る。期待滞在時間学習部130は、期待滞在時間(従属変数)が複数の構成要素(独立変数)の影響で変わる多重回帰モデルで期待滞在時間をモデリングすることができる。
期待滞在時間(従属変数)と複数の構成要素(独立変数)の関係を示す関係式は多様であり、例えば、数式1のように期待滞在時間と複数の構成要素の関係を関数化することができる。数式1で、a、b、c、d、e、f、gは回帰係数であって、期待滞在時間学習部130が学習データから変数の関係を示す回帰係数を推定する。
Figure 0006668410
数式1で、文字列情報は文字列長さであり得、非線形回帰モデル(nonlinear regression model)に生成される。図2を参照すれば分かるように、本文長さが長くなるほど滞在時間増加幅が非線形に減るので、文字列長さに対しては指数型非線形回帰モデルが適合する。
数式1で、イメージ情報はイメージ数であってもよいが、イメージ大きさやイメージ種類に関わる値であってもよい。
数式1で、マルチメディア情報およびカードニュース情報はマルチメディア有無およびカードニュース有無であってもよいが、動画像やオーディオファイルの再生時間、カードニュースのカード数であってもよい。コンテンツにマルチメディアまたはカードニュースが含まれている場合、マルチメディア情報またはカードニュース情報は「1」と設定され、コンテンツにマルチメディアまたはカードニュースが含まれていない場合、マルチメディア情報またはカードニュース情報は「0」と設定される。
数式1で、コメント情報はコメント数やコメント長さであってもよく、もし学習データにコメント情報がない場合、「0」と入力されるか、回帰分析変数として使用されなくてもよい。
数式1で、広告情報は広告数であってもよく、もし学習データに広告情報がない場合、「0」と入力されるか、回帰分析変数として使用されなくてもよい。
他の実施形態によれば、カードニュースは一種のイメージであるので、イメージとカードニュースが相互作用項として表現され得る。数式2のように、カードニュースがイメージの調節変数として使用され得る。
Figure 0006668410
期待滞在時間学習部130は、学習データ生成部110で生成した学習データから回帰係数を推定して、期待滞在時間関数を生成する。この時、期待滞在時間学習部130は表2のように、カテゴリー別(例えば、ニュース、演芸、スポーツ)に分類された学習データ別に期待滞在時間関数を個別的に生成することができる。また、期待滞在時間学習部130は、学習データが使用者分類カテゴリー(性別、年齢など)に細分化された場合、表3のように使用者分類カテゴリー別に期待滞在時間関数を細分化して生成することができる。
表2の期待滞在時間関数で、文字列長さと期待滞在時間は図2のように非線形関係にモデリングされる。
Figure 0006668410
Figure 0006668410
表2を参照すれば分かるように、ニュースカテゴリーに属したコンテンツ(例えば、ニュース記事)では文字列長さによって滞在時間が非線形に増加し、カードニュースの場合、滞在時間を30秒ほど増やし、マルチメディア(動画像)が含まれている場合、滞在時間を15秒ほど増やし、イメージが追加される度に1秒ずつ滞在時間が増えるのに影響を与えることを意味する。したがって、文字列長さが相対的に短くてもマルチメディア(動画像)、イメージ、ニュースカードなどが含まれている場合、期待滞在時間が増えることがある。
演芸カテゴリーに属したコンテンツ(例えば、演芸記事)では文字列長さ以外にイメージ、マルチメディア、カードニュースが滞在時間に及ぼす影響がニュースに比べて小さいということが分かる。スポーツカテゴリーに属したコンテンツ(例えば、スポーツ記事)ではイメージ個数とマルチメディアが滞在時間に及ぼす影響がニュースカテゴリーと類似していることが分かる。このように、コンテンツ特性によって滞在時間に影響を与える本文構成要素が互いに異なるため、カテゴリー別に期待滞在時間関数を生成して熟読率の正確性を高めることができる。
熟読率評価部150は、熟読率評価のための大量のコンテンツを収集する。熟読率評価部150は、閲覧回数が基準値以上(例えば、50回)であるコンテンツを評価対象コンテンツとして収集することができる。熟読率評価部150は評価対象コンテンツを多様なカテゴリーに分類して熟読率を評価することができる。
熟読率評価部150は、評価対象コンテンツの実際滞在時間と評価対象コンテンツ本文の構成要素情報を評価データとして抽出する。熟読率評価部150は、複数の使用者が評価対象コンテンツの本文を閲覧するために消費した滞在時間を獲得し、複数使用者の滞在時間を基に該当コンテンツを代表する実際滞在時間を決定する。例えば、実際滞在時間は複数使用者の滞在時間の平均値であるか、中間値または最頻値であり得る。熟読率評価部150は各評価対象コンテンツから、期待滞在時間関数を構成する変数(例えば、文字列長さ、イメージ個数、マルチメディア有無、カードニュース有無)に対応する本文構成要素情報を抽出する。
熟読率評価部150は、評価対象コンテンツ本文の構成要素情報を表2のような期待滞在時間関数の変数に入力して評価対象コンテンツの期待滞在時間を獲得する。カテゴリー別に期待滞在時間関数が生成された場合、熟読率評価部150は評価対象コンテンツに該当するカテゴリーの期待滞在時間関数を選択して期待滞在時間を獲得することができる。
熟読率評価部150は、評価対象コンテンツの期待滞在時間と実際滞在時間を比較して熟読率を評価する。熟読率評価式は多様であり得る。例えば、熟読率は、数式3のように実際滞在時間と期待滞在時間の差と期待滞在時間の比率で計算できる。例えば、評価対象コンテンツの期待滞在時間が50秒であり、実滞在時間が120秒である場合、熟読率は1.4または140%と計算される。期待滞在時間に比べて実際滞在時間が短い場合、熟読率は負の値を有し得る。
Figure 0006668410
数式3以外にも、実際滞在時間と期待滞在時間の比率(2.4=120秒/50秒)が熟読率評価式として使用され得る。
表4に示すのは、熟読率評価部150が実際ニュース記事を基に計算した熟読率である。コンテンツbはコンテンツaに比べてページビューが多いが、熟読率は低く、コンテンツaはコンテンツbに比べてページビューが少なく文字列も長いが、熟読率は高い。したがって、熟読率を通じてコンテンツbはコンテンツaに比べてページビューを高める題目で露出されてクリックを誘導したが、実際に本文は期待に及ばないことが分かる。コンテンツcは熟読率が負の値であるので、本文満足度が低いのを意味することになる。
Figure 0006668410
熟読率提供部170は、評価対象コンテンツを熟読率順に整列して順位を付ける。図3を参照すれば分かるように、熟読率提供部170は、熟読率順位(念入りに見たニュース、熱心に見たニュース)を使用者端末に提供することができる。熟読率順位に含まれているコンテンツは期待滞在時間に比べてコンテンツを閲覧した使用者の実際滞在時間が長いコンテンツであるので、刺激的題目でクリックを誘導したコンテンツや本文内容が不十分なコンテンツが除外され得る。
熟読率提供部170は、熟読率が一定基準以下であるコンテンツの露出を制御することができる。
熟読率提供部170は、性別、年齢、地域などの使用者分類カテゴリー別に熟読率を評価した後、使用者の特性情報(性別、年齢、地域など)に合わせて熟読率の高いコンテンツを推薦することができる。
熟読率提供部170は、多様な本文構成要素から作成されたコンテンツを露出することができる。例えば、数式2のニュースカテゴリーの期待滞在時間関数で評価された熟読率順位では、文字列の長さが長いルポ/解説/インタビュー記事だけでなく、文字列長さが相対的に短くてもマルチメディア、イメージ、ニュースカードなどが含まれている記事も順位に露出され得る。数式2の演芸カテゴリーの期待滞在時間関数で評価された熟読率順位では、写真を多く活用する演芸記事の特性上文字列長さは短いが写真が多く添付された記事が順位に露出され得る。
熟読率提供部170は、閲覧回数に関わる指標と本文満足度を示す熟読率を結合して、題目関心度と本文満足度が全て高い高品質のコンテンツを抽出することができる。例えば、熟読率提供部170は閲覧回数に関わるCTRと熟読率を結合したアンサンブル指数(Ensemble Score)を計算し、アンサンブル指数を基に使用者にコンテンツを推薦することができる。閲覧回数に関わる指標はCTR以外にもページビュー数など多様な指標であり得る。アンサンブル指数によって推薦順位が計算できる。
アンサンブル指数は例えば、数式4と数式5で計算できる。コンテンツiの正規化された熟読率はシグモイド関数(Sigmoid function)でコンテンツiの熟読率を0と1の間の値に変換(projection)してアンサンブルを容易にする値である。
Figure 0006668410
Figure 0006668410
このように、熟読率評価部150は学習データを通じて学習された期待滞在時間関数から期待滞在時間を推定し、期待滞在時間に比べて実際滞在時間が長いほど熟読率を高く評価する。この時、熟読率評価部150は多様な本文構成要素を反映して期待滞在時間を推定するので、コンテンツの期待滞在時間の正確度を高めることができ、コンテンツ特性を反映した熟読率を評価することができる。特に、実際滞在時間が長ければ熟読率が高いと評価する従来技術や、文字列長さに比例して滞在時間を期待する従来技術は、多様なコンテンツ構成要素を反映しない短所があった。本発明は同一な文字列長さのコンテンツといっても、本文に追加されたイメージ、マルチメディア、カードニュース、コメント、広告などによって期待滞在時間を異にして推定し、このように推定した期待滞在時間と実際滞在時間を比較するので、多様なコンテンツ構成要素を反映して熟読率を計算することができる。また、性別や年齢層によっても期待滞在時間が変わるので、熟読率評価を高度化することができる。
図4は、本発明の一実施形態による期待滞在時間関数生成方法のフローチャートである。
図4を参照すれば分かるように、熟読率提供装置100は閲覧された大量のコンテンツを収集する(S110)。
熟読率提供装置100は、収集した大量のコンテンツから各コンテンツの代表滞在時間、そして該当コンテンツの本文構成要素情報を抽出する(S120)。代表滞在時間は複数の使用者が該当コンテンツ本文を閲覧するために該当コンテンツで滞在した時間を代表する値であって、複数の使用者の滞在時間の平均値または中間値であり得る。本文の構成要素情報は、文字列情報、イメージ情報、マルチメディア情報、カードニュース情報、コメント情報、広告情報のうちの少なくとも一部を含むことができる。
熟読率提供装置100は、各コンテンツの代表滞在時間、そして該当コンテンツの本文構成要素情報を学習データとして生成する(S130)。熟読率提供装置100は閲覧された大量のコンテンツを内容によるカテゴリー(ニュース、演芸、スポーツなど)および/または使用者によるカテゴリー(性別、年齢、地域など)に分類した後、分類されたコンテンツで学習データを生成することができる。
熟読率提供装置100は、学習データに含まれている変数の間の関係を回帰分析してコンテンツの期待滞在時間関数を生成する(S140)。学習データに含まれている期待滞在時間が従属変数であり、複数の本文構成要素が独立変数として入力されて回帰分析される。複数の本文構成要素は、文字列情報、イメージ情報、マルチメディア情報、カードニュース情報、コメント情報、広告情報のうちの少なくとも一部である。期待滞在時間関数は数式1または数式2のような関数式で表現され、表2のように回帰係数が推定される。複数の変数のうちの文字列情報は非線形回帰モデルが適用され得る。
熟読率提供装置100は図2のように、分類されたコンテンツで学習された複数の期待滞在時間関数を生成することができる。例えば、3個のカテゴリー(ニュース、演芸、スポーツ)それぞれに対して男/女性別(2種)と20代/30代/40代/50代以上年齢(4種)に区分して収集したコンテンツを区分する場合、計24個(=3*2*4)の互いに異なる期待滞在時間関数が生成され得る。
図5は、本発明の一実施形態による熟読率評価方法のフローチャートである。
図5を参照すれば分かるように、熟読率提供装置100は、閲覧されたコンテンツの中で熟読率の評価対象コンテンツを収集する(S210)。熟読率提供装置100は、閲覧回数が基準値以上(例えば、50回)であるコンテンツを評価対象コンテンツとして収集することができる。
熟読率提供装置100は、収集した評価対象コンテンツから各評価対象コンテンツを代表する実際滞在時間、そして該当評価対象コンテンツの本文構成要素情報を評価データとして抽出する(S220)。実際滞在時間は複数の使用者が該当評価対象コンテンツ本文を閲覧するために消費した滞在時間を代表する値であって、複数の使用者の滞在時間の平均値であるか、中間値または最頻値であり得る。熟読率提供装置100は、期待滞在時間関数を構成する変数(例えば、文字列長さ、イメージ個数、マルチメディア有無、カードニュース有無)に対応する本文構成要素情報を抽出する。
熟読率提供装置100は、評価対象コンテンツに関わる期待滞在時間関数を抽出する(S230)。複数の期待滞在時間関数が存在する場合、熟読率提供装置100は評価対象コンテンツ(例えば、ニュース記事)に該当する期待滞在時間関数を選択する。
熟読率提供装置100は、評価対象コンテンツの本文構成要素情報を期待滞在時間関数の変数に入力して評価対象コンテンツの期待滞在時間を獲得する(S240)。
熟読率提供装置100は、評価対象コンテンツの期待滞在時間と実際滞在時間を比較して熟読率を評価する(S250)。熟読率は例えば、数式3のように実際滞在時間と期待滞在時間の差と期待滞在時間の比率で計算できる。
熟読率提供装置100は、評価対象コンテンツを熟読率順に整列して使用者端末に提供する(S260)。評価対象コンテンツリストは、熟読率順位によって使用者端末に提供され得る。
熟読率提供装置100は、熟読率の低いコンテンツをフィルタリングして本文満足度の低いコンテンツの露出を制御することができる。熟読率提供装置100は、使用者の特性情報(性別、年齢、地域など)に合わせて熟読率の高いコンテンツを推薦することができる。熟読率提供部170は、CTRと本文満足度を示す熟読率を結合したアンサンブル指数を基に題目関心度と本文満足度が全て高い高品質のコンテンツを推薦することができる。
以上で説明した本発明の実施形態は装置および方法を通じてのみ実現されるのではなく、本発明の実施形態の構成に対応する機能を実現するプログラムまたはそのプログラムが記録された記録媒体を通じて実現されることも可能である。
以上で本発明の実施形態について詳細に説明したが、本発明の権利範囲はこれに限定されるのではなく、次の請求範囲で定義している本発明の基本概念を用いた当業者の様々な変形および改良形態も本発明の権利範囲に属するものである。
100 熟読率提供装置
110 学習データ生成部
130 期待滞在時間学習部
150 熟読率評価部
170 熟読率提供部

Claims (20)

  1. 少なくとも一つのプロセッサーによって動作する熟読率提供装置であって、
    閲覧された複数のコンテンツを収集し、各コンテンツの代表滞在時間、そして該当コンテンツの本文構成要素情報を抽出して学習データを生成する学習データ生成部と、
    複数の学習データで学習された期待滞在時間関数を生成する期待滞在時間学習部と、
    評価対象コンテンツの本文構成要素情報と実際滞在時間を抽出し、前記期待滞在時間関数を基に前記評価対象コンテンツの本文構成要素情報から期待される期待滞在時間を獲得し、前記実際滞在時間と前記期待滞在時間とを比較して前記評価対象コンテンツの熟読率を評価する熟読率評価部とを含み、
    前記代表滞在時間は、複数の使用者が該当コンテンツの本文を閲覧する間に該当コンテンツで滞在した時間を代表する値である、熟読率提供装置。
  2. 前記本文構成要素情報は、本文文字列情報、イメージ情報、およびマルチメディア情報のうちの複数の情報を含む、請求項1に記載の熟読率提供装置。
  3. 前記期待滞在時間学習部は、
    各学習データに含まれている情報の間の関係を回帰分析して前記期待滞在時間関数を生成する、請求項1に記載の熟読率提供装置。
  4. 前記学習データに含まれている本文文字列情報と期待滞在時間は、前記期待滞在時間関数で非線形関係である、請求項3に記載の熟読率提供装置。
  5. 前記学習データ生成部は、カテゴリー別に閲覧された複数のコンテンツを収集してカテゴリー別に学習データを生成し、
    前記期待滞在時間学習部は、カテゴリー別に生成された学習データを基にカテゴリー別期待滞在時間関数を生成する、請求項1に記載の熟読率提供装置。
  6. 記実際滞在時間は、複数の使用者が前記評価対象コンテンツの本文を閲覧するために滞在した時間を代表する値である、請求項1に記載の熟読率提供装置。
  7. 複数の評価対象コンテンツを熟読率順に整列して使用者端末に提供する熟読率提供部をさらに含む、請求項1に記載の熟読率提供装置。
  8. 前記熟読率提供部は、
    各評価対象コンテンツの熟読率と閲覧回数に関わる指標を総合して各評価対象コンテンツの推薦順位を計算し、推薦順位によるコンテンツを前記使用者端末に推薦する、請求項7に記載の熟読率提供装置。
  9. 熟読率提供装置による熟読率提供方法であって、
    閲覧された複数のコンテンツそれぞれで、複数の使用者が各コンテンツの本文を閲覧する間に該当コンテンツで滞在した時間を代表する各コンテンツの代表滞在時間を決定する段階と、
    前記閲覧された複数のコンテンツそれぞれで、滞在時間に影響を与える各コンテンツの本文構成要素情報を抽出する段階と、
    各コンテンツの代表滞在時間と本文構成要素情報を基に代表滞在時間と本文構成要素情報の間の関係を示す期待滞在時間関数を生成する段階と
    評価対象コンテンツの本文構成要素情報と実際滞在時間を抽出する段階と、
    前記期待滞在時間関数を基に前記評価対象コンテンツの本文構成要素情報から期待される期待滞在時間を獲得する段階と、
    前記実際滞在時間と前記期待滞在時間とを比較して前記評価対象コンテンツの熟読率を評価する段階と
    を含む熟読率提供方法。
  10. 前記本文構成要素情報は、本文文字列情報、イメージ情報、およびマルチメディア情報のうちの複数の情報を含む、請求項9に記載の熟読率提供方法。
  11. 前記期待滞在時間関数を生成する段階では、
    従属変数である滞在時間と独立変数である本文構成要素情報の間の関係を回帰分析して前記期待滞在時間関数を生成する、請求項9に記載の熟読率提供方法。
  12. 前記本文構成要素情報に含まれている本文文字列情報と期待滞在時間は、前記期待滞在時間関数で非線形関係である、請求項11に記載の熟読率提供方法。
  13. 前記閲覧された複数のコンテンツは、カテゴリー別に分類されたコンテンツの集合であり、
    前記期待滞在時間関数は、カテゴリー別に生成される、請求項9に記載の熟読率提供方法。
  14. 記実際滞在時間は、複数の使用者が前記評価対象コンテンツの本文を閲覧する間に前記評価対象コンテンツで滞在した時間を代表する値である、請求項9に記載の熟読率提供方法。
  15. 熟読率提供装置による熟読率提供方法であって、
    閲覧された複数のコンテンツを基にコンテンツの期待滞在時間と本文構成要素情報の間の関係を示す期待滞在時間関数を生成する段階と、
    複数の使用者が閲覧した評価対象コンテンツを受信する段階と、
    前記評価対象コンテンツの本文構成要素情報と実際滞在時間を抽出する段階と、
    前記期待滞在時間関数を基に前記評価対象コンテンツの本文構成要素情報から期待される期待滞在時間を獲得する段階と、
    前記実際滞在時間と前記期待滞在時間を比較して前記評価対象コンテンツの熟読率を評価する段階と
    を含む熟読率提供方法。
  16. 前記本文構成要素情報は、本文文字列情報、イメージ情報、およびマルチメディア情報のうちの複数の情報を含む、請求項15に記載の熟読率提供方法。
  17. 前記期待滞在時間関数を生成する段階では、前記複数のコンテンツのカテゴリー別に前記期待滞在時間関数を生成し、
    前記期待滞在時間を獲得する段階では、カテゴリー別に生成された期待滞在時間関数の中から、前記評価対象コンテンツに関わるカテゴリーの期待滞在時間関数を抽出して期待滞在時間を獲得する、請求項15に記載の熟読率提供方法。
  18. 前記期待滞在時間関数を生成する段階では、従属変数である滞在時間と独立変数である本文構成要素情報の間の関係を回帰分析して前記期待滞在時間関数を生成し、
    前記本文構成要素情報に含まれている文字列情報と期待滞在時間は、前記期待滞在時間関数で非線形関係である、請求項15に記載の熟読率提供方法。
  19. 複数の評価対象コンテンツを熟読率順に整列して使用者端末に提供する段階をさらに含む、請求項15に記載の熟読率提供方法。
  20. 前記使用者端末に提供する段階では、
    各評価対象コンテンツの熟読率と閲覧回数に関わる指標を総合して各評価対象コンテンツの推薦順位を計算し、推薦順位によるコンテンツを前記使用者端末に推薦する、請求項19に記載の熟読率提供方法。
JP2018095083A 2017-05-17 2018-05-17 熟読率提供装置および方法 Active JP6668410B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0061015 2017-05-17
KR1020170061015A KR101909267B1 (ko) 2017-05-17 2017-05-17 열독률 제공 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2018195313A JP2018195313A (ja) 2018-12-06
JP6668410B2 true JP6668410B2 (ja) 2020-03-18

Family

ID=64099360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018095083A Active JP6668410B2 (ja) 2017-05-17 2018-05-17 熟読率提供装置および方法

Country Status (2)

Country Link
JP (1) JP6668410B2 (ja)
KR (1) KR101909267B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102389219B1 (ko) * 2021-10-19 2022-04-21 주식회사 노티플러스 콘텐츠 정독 시간의 예측을 통한 추천 콘텐츠 제공 방법, 장치 및 시스템

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005322172A (ja) * 2004-05-11 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> コンテンツ閲覧評価装置およびコンテンツ閲覧評価プログラム
JP2007213586A (ja) * 2004-07-07 2007-08-23 Defacto:Kk 広告システム、及び、広告制御方法
JP2007316934A (ja) * 2006-05-25 2007-12-06 Fujitsu Ltd 情報処理装置、情報処理方法及びプログラム
JP2012118773A (ja) * 2010-12-01 2012-06-21 Dainippon Printing Co Ltd 電子書籍閲覧システム、電子書籍閲覧方法、プログラム及び記憶媒体
JP6039287B2 (ja) 2011-08-01 2016-12-07 ネイバー コーポレーションNAVER Corporation ブログを推薦するシステム及び方法
JP5668010B2 (ja) 2012-03-29 2015-02-12 日本電信電話株式会社 情報推薦方法、装置及びプログラム
JP5771573B2 (ja) * 2012-07-19 2015-09-02 日本電信電話株式会社 コンテンツ評価値予測装置、方法、及びプログラム
JP2014170438A (ja) * 2013-03-05 2014-09-18 Yahoo Japan Corp 情報処理装置及び方法
JP6055567B1 (ja) * 2016-03-17 2016-12-27 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP5988345B1 (ja) * 2016-05-24 2016-09-07 ランサーズ株式会社 評価装置、評価方法、評価プログラム、レコメンド装置、レコメンド方法およびレコメンドプログラム
CN106056316A (zh) * 2016-07-06 2016-10-26 佛山市恒南微科技有限公司 一种电商经理绩效考核方法

Also Published As

Publication number Publication date
KR101909267B1 (ko) 2018-10-17
JP2018195313A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
Li et al. Video mining: Measuring visual information using automatic methods
JP6745857B2 (ja) 学習装置、学習システム、および学習方法
JP2022508163A (ja) ユーザタグ生成方法並びにその、装置、コンピュータプログラム及びコンピュータ機器
KR101827345B1 (ko) 다중 알고리즘 및 자기학습기능을 적용한 개인화 추천 시스템 및 추천 방법
CN109511015B (zh) 多媒体资源推荐方法、装置、存储介质及设备
US9177341B2 (en) Determining search relevance from user feedback
JP2013517563A (ja) ユーザ通信の解析システムおよび方法
KR20130090344A (ko) Tv 프로그램 콘텐츠와 웹 콘텐츠의 연계추천 장치, 시스템, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
KR100970335B1 (ko) 사용자의 관심 키워드를 업데이트 하는 방법과 그 방법을수행하기 위한 시스템
Kang et al. Eva: An explainable visual aesthetics dataset
Yamasaki et al. Social popularity score: Predicting numbers of views, comments, and favorites of social photos using only annotations
CN105338408B (zh) 基于时间因子的视频推荐方法
CN111858969B (zh) 多媒体数据推荐方法、装置、计算机设备和存储介质
US20150120634A1 (en) Information processing device, information processing method, and program
CN111581435B (zh) 一种视频封面图像生成方法、装置、电子设备及存储介质
Yoon et al. What content and context factors lead to selection of a video clip? The heuristic route perspective
CN112464100A (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
Cher et al. The Factors Affecting the Effectiveness of Online Video Advertising: A Study on Malaysian Consumers' Perspective towards Ads on Youtube.
JP6668410B2 (ja) 熟読率提供装置および方法
WO2019236560A1 (en) Pair-wise or n-way learning framework for error and quality estimation
Toma et al. To read or not to read: Modeling online newspaper reading satisfaction and its impact on revisit intention and word-of-mouth
CN117056619A (zh) 确定用户行为特征的方法和装置
KR102438104B1 (ko) 맞춤형 학습 문제풀이 컨텐츠 제공 시스템, 방법 및 컴퓨터 프로그램
Kannan et al. Modeling the impact of review dynamics on utility value of a product
JP6945212B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200226

R150 Certificate of patent or registration of utility model

Ref document number: 6668410

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250