JP7024663B2 - 評価更新装置、方法、及びプログラム - Google Patents

評価更新装置、方法、及びプログラム Download PDF

Info

Publication number
JP7024663B2
JP7024663B2 JP2018158676A JP2018158676A JP7024663B2 JP 7024663 B2 JP7024663 B2 JP 7024663B2 JP 2018158676 A JP2018158676 A JP 2018158676A JP 2018158676 A JP2018158676 A JP 2018158676A JP 7024663 B2 JP7024663 B2 JP 7024663B2
Authority
JP
Japan
Prior art keywords
evaluation
information
posted
user
evaluation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018158676A
Other languages
English (en)
Other versions
JP2020035022A (ja
Inventor
直人 阿部
宏志 小西
仁志 瀬下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018158676A priority Critical patent/JP7024663B2/ja
Priority to PCT/JP2019/032041 priority patent/WO2020045107A1/ja
Priority to US17/271,565 priority patent/US12013908B2/en
Publication of JP2020035022A publication Critical patent/JP2020035022A/ja
Application granted granted Critical
Publication of JP7024663B2 publication Critical patent/JP7024663B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/909Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C13/00Voting apparatus

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、評価更新装置、方法、及びプログラムに関する。
ある対象物に対して調査又は計測が行われ、その結果が対象物に対する評価情報として設定される場合がある。評価情報としては、例えば、評価対象の店舗に関する店舗情報、評価対象の料理の口コミ情報、及び評価対象の設備に関する設備情報等が挙げられる。
最近では、SNS(Social Networking Service)等を通して様々な情報がインターネット上へ投稿又は投票されており、様々な対象物についての評価情報がインターネット上に存在する。そのため、SNSにおける投稿又は投票を利用することにより、例えば、広範囲の道路の混雑状況、店舗の評判、及び料理の評判等の評価情報を容易に参照することができる。
SNSにおいては、ユーザによってコンテンツが投稿される。また、コンテンツを投稿したユーザに対して他のユーザから人物評価がなされる。信頼度の高いユーザによる投稿には適切な評価情報が含まれているという仮説に基づく場合がある。また、ユーザの信頼度を、ユーザの人物評価から推定する手法が存在する。
例えば、Twitter(登録商標)を用いてユーザを評価する技術が知られている(例えば、非特許文献1を参照)。この技術は、ツイート数以外にフォロー数、フォロワー数、リツイート数、及びURL付きツイート数を用いて、情報発信者であるユーザの信頼度を評価する。
また、Hits(Hypertext Induced Topic Selection)(登録商標)やPageRankなどのユーザ間距離に、ネットワーク上の位置情報を加味し、友人数などのSNS特有のパラメータを加えてユーザの評価を行う技術が知られている(例えば、非特許文献2を参照)。
また、Twitter(登録商標)のリツイート(再共有)の機能に着目し、リツイートの回数と反応速度とに着目したネットワークに基づいて、ユーザの重要度を推定する技術が知られている(例えば、非特許文献3を参照)。この技術は、hub-authorityを見つける研究に関するものである。
佐藤 澪、「ソーシャルメディアから発信された情報の信頼度について」、[online]、会津大学短期大学部産業情報学科経営情報コース、2011年度卒業研究論文要旨集、[平成 30 年 8 月 13 日検索]、インターネット〈URL:http://www.jc.u-aizu.ac.jp/department/management/youshi/2011/09.pdf〉 大塚 孝信 他2名、「ユーザー間実距離を用いたSNSユーザー評価手法とパラメータ評価」、人工知能学会第11回知識流通ネットワーク研究会、インターネット〈URL:http://sigksn.html.xdomain.jp/conf11/SIG-KSN-011-06.pdf〉 石垣 藍睦、沼尾 雅之、「Twitter 特有のネットワーク構造を用いたユーザ重要度評価法の提案」、DEIM Forum 2016 B7-4、インターネット〈URL:http://db-event.jpn.org/deim2016/papers/302.pdf〉
上記非特許文献1~3に記載されているように、ソーシャルメディアから発信された情報を評価する技術は存在する。これらの先行技術においては、ツイート数及びフォロー数等を用いて情報発信者であるユーザ自体の評価が行われる。
しかし、評価対象となる評価情報(例えば、各地点の状態、広範囲の道路の混雑状況、店舗の評判、及び料理の評判等)は、時間の経過に伴い変化する場合がある。
例えば、先行技術では、信頼度が高いユーザによって発せられた情報は信頼度が高いと評価されるが、時間の経過に伴い、発せられた情報が表す評価対象の評価情報は変化する。このため、ユーザによって過去に発せられた情報が表す評価情報は現在とは異なってしまう場合がある。
このため、時間の経過に従い不適切となってしまった評価情報について、適切に更新する技術が求められている。現在、スマートフォン等により誰でもいつでも簡単に投稿できるようになり、現在から過去に至る大量の投稿が蓄積されている。そこで、大量に蓄積された投稿から評価対象の現在の評価情報を示す投稿を適切に抽出し、評価情報を更新する必要がある。
本発明は、上記の事情に鑑みてなされたもので、ユーザからの評価対象に関する投稿に応じて、評価対象に関する評価情報を適切に更新することができる、評価更新装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る評価装置は、評価対象に関する投稿内容を表す投稿情報と、前記投稿情報を投稿したユーザを表す投稿者情報とを有する投稿データを複数含む投稿データ群から、前記投稿者情報が表す前記ユーザによる過去の前記投稿情報の数が多いほど高くなり、かつ前記ユーザの前記投稿情報が、所定以上の信頼度を有する情報であるとして採用された数が多いほど高くなる、前記ユーザに関する指標を表すユーザ指標に基づいて、前記ユーザ指標が閾値以上である、前記投稿データを選別する選別部と、前記選別部によって選別された前記投稿データに基づいて、前記評価対象が存在するか否かを評価する評価部と、を含む。
また、前記評価部は、前記選別部によって選別された前記投稿データに基づいて、前記評価対象の性質の尤もらしさを評価するようにすることができる。
また、前記投稿データの各々は、前記評価対象の位置情報を更に含み、前記投稿データ群の前記投稿データの前記位置情報及び前記投稿情報の少なくとも一方に基づいて、複数の前記投稿データを、複数のクラスタにクラスタリングするクラスタリング部を更に含み、前記選別部は、前記クラスタリング部によってクラスタリングされた前記クラスタ毎に、前記クラスタに属する複数の前記投稿データの前記ユーザ指標の平均を算出し、前記クラスタの前記ユーザ指標の平均が、ユーザ指標に関する閾値以上である前記クラスタに属する前記投稿データを選別するようにすることができる。
また、前記クラスタリング部は、少なくとも1つの前記クラスタが複数のクラスタを含む階層的クラスタリングを用いて、複数の前記投稿データの各々の間の類似度合いに基づいて、複数の前記投稿データをクラスタリングするようにすることができる。
また、前記評価部は、前記選別部によって選別された前記投稿データの投稿情報に基づいて、前記評価対象の性質の尤もらしさとして、前記投稿情報に関する指標を表すコンテンツ指標を算出し、前記選別部によって選別された前記投稿データから、前記投稿データの前記投稿情報の前記コンテンツ指標が、コンテンツ指標に関する閾値以上である前記投稿データを、所定以上の信頼度を有する情報としての評価情報として採用するようにすることができる。
また、前記評価部は、前記評価対象に関する事象の情報と前記投稿情報が指し示す前記評価対象に関する情報との組み合わせ毎に求められる確率に基づいて、前記コンテンツ指標を算出するようにすることができる。
また、第2の発明に係る評価方法は、選別部及び評価部を含む評価装置における評価方法であって、前記選別部が、評価対象に関する投稿内容を表す投稿情報と、前記投稿情報を投稿したユーザを表す投稿者情報とを有する投稿データを複数含む投稿データ群から、前記投稿者情報が表す前記ユーザによる過去の前記投稿情報の数が多いほど高くなり、かつ前記ユーザの前記投稿情報が、所定以上の信頼度を有する情報であるとして採用された数が多いほど高くなる、前記ユーザに関する指標を表すユーザ指標に基づいて、前記ユーザ指標が閾値以上である、前記投稿データを選別するステップと、前記評価部が、前記選別部によって選別された前記投稿データに基づいて、前記評価対象が存在するか否かを評価するステップと、を含む。
また、第3の発明に係るプログラムは、コンピュータを、上記の評価装置が備える各部として機能させるためのプログラムである。
また、第4の発明に係る評価更新装置は、評価対象に対する評価を表す評価情報が生成されたときに前記評価情報に対して付与される指標を表す評価情報指標であって、かつ前記評価情報が生成されたときからの時間が経過するほど低くなり、かつ前記評価情報が適切であるか否かを表す投票情報が低いほど低くなる前記評価情報指標が、評価情報指標に関する閾値以下となった場合に、前記評価対象に対する前記評価情報の生成の際に用いられた評価対象に関する投稿内容を表す投稿情報とは異なる前記投稿情報に基づいて、前記評価対象に対する前記評価情報を再度生成する評価部を含む。
また、前記評価更新装置は、前記評価情報が、前記評価情報指標に関する閾値以下となった場合に、複数のユーザに対して前記投稿情報の投稿を要求する要求部を更に含むようにすることができる。
また、前記評価情報指標は、前記評価情報が適切であるか否かを表す投票情報に基づき生成される前記評価情報の信頼度であるようにすることができる。
また、前記評価情報指標は、所定の領域内における前記評価情報の数に基づき生成される前記評価情報の収集度であるようにすることができる。
また、第5の発明に係る評価更新方法は、評価部を含む評価更新装置における評価更新方法であって、前記評価部が、評価対象に対する評価を表す評価情報が生成されたときに前記評価情報に対して付与される指標を表す評価情報指標であって、かつ前記評価情報が生成されたときからの時間が経過するほど低くなり、かつ前記評価情報が適切であるか否かを表す投票情報が低いほど低くなる前記評価情報指標が、評価情報指標に関する閾値以下となった場合に、前記評価対象に対する前記評価情報の生成の際に用いられた評価対象に関する投稿内容を表す投稿情報とは異なる前記投稿情報に基づいて、前記評価対象に対する前記評価情報を再度生成するステップを含む。
また、第6の発明に係るプログラムは、コンピュータを、上記の評価更新装置が備える各部として機能させるためのプログラムである。
以上説明したように、本発明に係る評価更新装置、方法、及びプログラムによれば、ユーザからの評価対象に関する投稿に応じて、評価対象に関する評価を適切に更新することができる、という効果を有する。
本実施形態の概要を説明するための説明図である。 本実施形態に係る評価システムの構成の一例を示すブロック図である。 本実施形態の投稿データ群を説明するための説明図である。 本実施形態のクラスタリングを説明するための説明図である。 クラスタリングルールの一例を示す図である。 クラスタリングの具体例を示す図である。 クラスタリングの具体例を示す図である。 クラスタリングの具体例を示す図である。 本実施形態のユーザ信頼度を説明するための説明図である。 本実施形態のユーザ信頼度を説明するための説明図である。 ユーザがbotであるか否かの検出方法について説明するための説明図である。 投稿情報のカウントを説明するための説明図である。 コンテンツ信頼度を求めるための確率を説明するための説明図である。 コンテンツ信頼度の算出の具体例を示す図である。 評価情報の統合を説明するための説明図である。 ユーザによる投稿情報の投稿数及び評価情報として採用された数を説明するための説明図である。 評価情報の信頼度を説明するための説明図である。 ユーザの投票情報に基づく評価情報の信頼度の算出を説明するための説明図である。 ユーザ信頼度に応じた投票情報の重みの算出方法を説明するための説明図である。 評価情報の信頼度を説明するための説明図である。 本実施形態の評価処理ルーチンの一例を示す図である。 本実施形態の評価更新処理ルーチンの一例を示す図である。 第2実施形態の収集度の具体例を示す図である。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
<本実施形態の概要>
図1に、本発明の実施形態を説明するための説明図を示す。本実施形態では、複数のユーザによって作成された評価対象に関する投稿情報を評価する。本実施形態では、評価対象の一例である地点P,P,Pの各々について、当該地点に対して投稿が行われる。例えば、地点Pに対して、ユーザA,B,Cからの投稿情報S,S,Sがあるものとする。本実施形態において投稿情報を評価する際には、投稿情報をクラスタリングし、投稿したユーザに関する指標の一例であるユーザ信頼度U,U,Uと、ユーザによって投稿された投稿情報に関する指標の一例であるコンテンツ信頼度C,C,Cとを考慮して、各クラスタについて正しい投稿情報の集まりであるかどうか評価する。そして、該当クラスタが正しい内容の集まりであると判断された場合、該当クラスタの投稿情報を評価情報として採用する。また、抽出結果に応じてユーザ信頼度を更新し、任意の評価対象に対する評価情報が適切に生成されるようにする。
また、所定以上の信頼度を有する情報であるとして採用された評価情報は、時間の経過と共に正しくない内容に変わる可能性も考えられる。そこで、本発明では複数のユーザによる投票(○又は×の投票)と時間の経過を考慮して評価情報を再評価する。例えば、図1に示される例では、ユーザDによって地点Pの評価情報に対する○又は×の投票が行われる。本実施形態では、この投票情報と経過時間を考慮して評価情報の信頼度Eを更新し、信頼度Eが所定の閾値以下になった場合、地点Pに対してユーザからの更なる投稿を呼びかけ、現時点で適切である可能性が高い評価情報のみを用いて再評価する。これにより、任意の評価対象に対する評価情報を適切なものに維持することができる。
本実施形態では、投稿情報から評価情報を生成する評価処理と、投稿を呼び掛け評価情報を更新する評価更新処理とが繰り返される。以下、具体的に説明する。
<第1実施形態>
<評価システムの構成>
図2は、第1実施形態に係る評価システム10の構成の一例を示すブロック図である。図2に示すように、本実施形態に係る評価システム10は、複数のユーザ端末12と、評価装置14とを備えている。複数のユーザ端末12と評価装置14とは、所定の通信手段30(例えば、インターネット回線等)によって接続されている。
複数のユーザ端末12及び評価装置14は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する学習処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。
ユーザ端末12は、任意のユーザによって操作される。ユーザは、ユーザ端末12を操作し、評価対象に関する投稿内容を表す投稿情報を生成する。そして、ユーザ端末12は、通信手段30を介して、例えば、投稿情報をサイト13へ投稿する。なお、投稿情報が投稿される際には、ユーザ端末12のユーザを表す投稿者情報と、投稿情報が生成された評価対象の位置情報とが、併せてサイト13へ投稿される。
また、ユーザ端末12は、ユーザからの操作に応じて、投稿情報(又は後述する評価情報)に対する投票内容を表す投票情報を、サイト13に投稿された投稿情報へ付与する。このように、投稿情報に対して〇又は×の投票を行うことができるし、評価情報に対して〇又は×の投票を行うことができる(図1参照)。投票情報に関しては後述する。
評価装置14は、複数のユーザ端末12によって投稿された投稿情報と投稿者情報と位置情報との組み合わせを表す投稿データを収集する。そして、評価装置14は、投稿データのうちの投稿情報が指し示す評価対象を評価する。
図2に示されるように、評価装置14は、機能的には、通信部16と、データ取得部18と、データ記憶部20と、クラスタリング部22と、取得部24と、評価部26と、要求部28とを備えている。
通信部16は、通信処理を行う。具体的には、通信部16は、複数のユーザ端末12からサイト13へ投稿された投稿データの各々を受信する。
本実施形態の投稿データは、評価対象に関する投稿内容を表す投稿情報と、当該投稿情報を投稿したユーザを表す投稿者情報と、評価対象の位置情報とを含む。本実施形態では、評価対象が地点である場合を例に説明する。
データ取得部18は、通信部16によって受信した投稿データを取得する。そして、データ取得部18は、取得した投稿データをデータ記憶部20に格納する。
データ記憶部20には、データ取得部18によって取得された複数の投稿データを含む投稿データ群が格納される。図3に、本実施形態の投稿データ群を説明するための説明図を示す。
本実施形態の投稿データ群は、例えば、図3に示されるように、テーブル形式によって管理される。具体的には、図3に示されるように、投稿したユーザを表す投稿者情報と、評価対象である地点の位置情報と、当該地点の投稿情報との組み合わせを含むデータが1つの投稿データとして格納される。また、図3に示されるテーブルには、投稿データに対する投票情報と、投稿データの格納日と、投稿データのチェックとが併せて格納される。投稿データのチェックについては後述する。
なお、投稿者情報は文字列(例えば、ID又は番号等)によって表される。また、位置情報は、連続値又は文字列によって表される。位置情報が文字列の場合にはIDや番号等によって表され、連続値の場合は座標(緯度と経度との組)によって表される。また、投稿情報及び投票情報は、文字列によって表される。
なお、投稿データを格納する際には、投稿者情報及び位置情報は必須であり、投稿情報及び投票情報の何れか一方には値が格納されているものとする。また、投稿情報をサイト13へ投稿する際には、投稿情報のうちの各項目に対して必須入力とオプション入力とを指定できるものとする。このため、必須入力については値が必ずあるものとし、オプション入力については値が無い場合があるものとする。
また、投稿データの格納日は、投稿を収集する際に用いられる。また、投稿データのチェックは、投稿者であるユーザによる投稿数をカウントする際、ユーザによる投稿情報が後述する評価情報として採用された数をカウントする際、及び投稿を集める際等に使用される。チェック欄に関しては後述する。
クラスタリング部22は、データ記憶部20に格納された投稿データ群を取得する。そして、クラスタリング部22は、投稿データ群の投稿データの位置情報及び投稿情報の少なくとも一方に基づいて、複数の投稿データを、複数のクラスタにクラスタリングする。
クラスタリング手法として、階層的クラスタリング及び非階層的クラスタリングが知られている。階層的クラスタリングにおいては、デンドログラム(樹形図)が生成され、クラスタ数を予め決める必要はない。階層的クラスタリングとしては、ウォード法及び群平均法等がある。一方、非階層的クラスタリングにおいては、クラスタ数を予め決める必要がある。非階層的クラスタリングとしては、k-means及びfuzzy c-means等が知られている。なお、クラスタリングを行う前においては、一般的にクラスタ数は不明であることが多い。
そこで、本実施形態では、階層的クラスタリングを用いてクラスタリングを行う。図4に、階層的クラスタリングを説明するための説明図を示す。図4に示されるように、階層的クラスタリングでは、少なくとも1つのクラスタが複数のクラスタを含む。また、階層的クラスタリングでは、複数の投稿データの各々の間の類似度合いに基づいてクラスタリングが行われる。このため、図4に示されるように、投稿データの間の類似度合いを表す距離が近いものは、同一のクラスタに分類される。例えば、距離に関する閾値を1と設定した場合には、図4に示される樹形図において、ユーザAの投稿データとユーザBの投稿データとは同一のクラスタに分類される。また、例えば、距離に関する閾値を3と設定した場合には、図4に示される樹形図において、ユーザA,B,C,Dの投稿データが同一のクラスタに分類される。
次に、図5に、本実施形態の階層的クラスタリングのクラスタリングルールの一例を説明するための説明図を示す。本実施形態では、投稿データのうちの、位置情報及び投稿情報の少なくとも一方を利用して、閾値を変えることによって同一の階層的クラスタリング手法によってクラスタリングを行う。
具体的には、本実施形態では、以下の(1)~(3)の要件を満たしたうえでクラスタリングが行われる。
(1)クラスタリングルールはNo.1,2,3と管理し、指定された順にクラスタリングを行う。
(2)利用項目と値、閾値の指定は必須とする。
(3)値が文字列の場合は数値化処理を行ってクラスタリングを行う。
なお、図5に示されるように、利用項目が投稿情報であって、かつ値に文字列が指定されている場合、重み付けの優先順位(第1~nカテゴリ)を指定することができる。
図5に示されるように、本実施形態のクラスタリングの際の利用項目としては、投稿データのうちの位置情報又は投稿情報が用いられる。図5に示される例において、例えばNo.1の識別情報が付与されたルールでは、位置情報がクラスタリングの利用項目として用いられ、位置情報を表す文字列に応じてクラスタリングが行われることを示している。なお、この場合の閾値は「1.0」に設定されている。
また、例えばNo.3の識別情報が付与されたルールでは、投稿情報がクラスタリングの利用項目として用いられ、投稿情報を表す文字列に応じてクラスタリングが行われることを示している。なお、この場合の閾値は「12.0」に設定されている。
図6に、階層的クラスタリングの具体例を説明するための説明図を示す。図6は、上記図5に示されるNo.1のルールを適用した場合のクラスタリングの例である。上記図5に示されるように、No.1のルールでは、位置情報が利用項目に設定されているため、位置情報に応じてクラスタリングが行われる。
図6に示される例では、ユーザA~Dに対応する位置情報は「10001」であり、ユーザEに対応する位置情報は「10350」である。この場合、これらの位置情報が数値化されると、図6に示されるように、「10001」と「10350」とに分類され、何れに属するのかが「1」及び「0」によって表される。この位置情報に基づけば、ユーザAによる投稿データとユーザBによる投稿データとは、例えばマンハッタン距離=0となり、距離が近いと判定される。一方、ユーザDによる投稿データとユーザEによる投稿データとは、マンハッタン距離=1となる。この場合、閾値を1と設定すると、図6に示される右側のように、A,B,C,Dは同一のクラスタに分類され、A,B,C,Dが属するクラスタと、Eが属するクラスタとの2つのクラスタにクラスタリングされる。
次に、図7に、上記図5に示されるNo.2のルールを適用した場合のクラスタリングの例を示す。No.2のルールでは、位置情報が利用項目に設定されているため、位置情報に応じてクラスタリングが行われる。なお、No.2のルールでは、位置情報が連続値によって表現されている。
図7に示される例では、ユーザA~Dに対応する位置情報が連続値によって表現される。この場合、位置情報に基づけば、ユーザBによる投稿データとユーザCによる投稿データとは、マンハッタン距離=0.01となり、距離が近いと判定される。一方、ユーザDによる投稿データとユーザEによる投稿データとは、マンハッタン距離=10.88となる。この場合、閾値を10と設定すると、図7に示される右側のように、A,B,C,Dは同一のクラスタに分類され、A,B,C,Dが属するクラスタと、Eが属するクラスタとの2つのクラスタにクラスタリングされる。
次に、図8に、上記図5に示されるNo.3のルールを適用した場合のクラスタリングの例を示す。No.3のルールでは、投稿情報が利用項目に設定されており、第1カテゴリに項目1が設定され、第2カテゴリに項目2が設定され、第3カテゴリに項目3が設定されているものとする。この場合、投稿情報の各項目1,2,3に応じてクラスタリングが行われる。
図8に示される例において、投稿情報の項目1,2,3には、評価対象である地点を表す情報が格納されている。この場合、投稿情報の項目1,2,3が数値化されると、図8に示されるように、第3カテゴリは「1」又は「0」によって表され、第2カテゴリは「3」又は「0」によって表され、第1カテゴリは「12」又は「0」によって表される。なお、下位カテゴリの最大距離+1の重みが上位カテゴリに付与される。
この場合、ユーザAによる投稿データとユーザBによる投稿データとは、マンハッタン距離=2となり、距離が近いと判定される。一方、ユーザBによる投稿データとユーザCによる投稿データとは、マンハッタン距離=6となる。この場合、閾値を12未満に設定すると第1カテゴリによって分類されることになり、閾値を3未満に設定すると第2カテゴリによって分類されることとなる。例えば、閾値を3と設定してクラスタリングが行われると、図8に示される右側のように、A,Bは同一のクラスタに分類され、A,Bが属するクラスタと、Cが属するクラスタと、Dが属するクラスタとの3つのクラスタにクラスタリングされる。一方、閾値を12と設定してクラスタリングが行われると、図8に示される右側のように、A,B,Cは同一のクラスタに分類され、A,B,Cが属するクラスタと、Dが属するクラスタとの2つのクラスタにクラスタリングされる。
取得部24は、クラスタリング部22によってクラスタリングされたクラスタ毎に、当該クラスタに属する複数の投稿データのユーザ信頼度の平均を算出する。そして、取得部24は、クラスタのユーザ信頼度の平均が、ユーザ信頼度に関する閾値以上であるクラスタを取得する。なお、ユーザ信頼度はユーザ指標の一例である。
本実施形態のユーザ信頼度は、ユーザによる過去の投稿情報の数が多いほど高くなり、かつユーザの投稿情報が、所定以上の信頼度を有する情報であるとして採用された数が多いほど高くなる。なお、所定以上の信頼度を有する情報であるとして採用された投稿情報は、後述する評価情報となる。本実施形態のユーザ信頼度の算出式を、以下の式(1)に示す。
ユーザ信頼度=δ×2×(寄与率)×(採用率)/{(寄与率)+(採用率)}
(1)
なお、上記式(1)における、寄与率及び採用率は、以下の式(2)によって表される。
Figure 0007024663000001

Figure 0007024663000002

(2)
なお、δは1又はbot検出のための判定スコアである。bot検出のための判定スコアについては後述する。aは予め設定された定数を表し、μは複数のユーザによる投稿情報の数の平均を表し、mはユーザiの投稿数を表し、σは投稿数の標準偏差を表す。また、nはユーザiの投稿情報が評価情報として採用された個数を表す。
図9に、上記式(1)における寄与率を説明するための説明図を示す。投稿情報の投稿数が多いユーザほど高いユーザ信頼度を割り当てることが好ましい。そのため、図9に示されるように、本実施形態では、平均よりも投稿数が多いユーザに対しては1に近い寄与率が割り当てられるようにし、平均よりも投稿数が少ないユーザに対しては0に近い寄与率が割り当てられるようにする。
図10に、ユーザ信頼度を説明するための説明図を示す。図10に示される例では、各ユーザA,B,C,Dについての、投稿数、評価情報として採用された採用数、寄与率、採用率、及びユーザ信頼度が示されている。なお、図10に示される例では、ユーザ全体の平均投稿数μ=1.0であり、分散σ=0.8、a=2.0である。
図10に示されるように、寄与率及び採用率が高いほど、ユーザ信頼度は1に近い値をとることがわかる。また、投稿情報の投稿数が多い場合であっても、評価情報として採用された採用数が少ない場合には、ユーザ信頼度は低くなる。なお、初回(例えば、投稿数=0,採用数=0)のときには、ユーザ信頼度は定数(例えば、0.7)とする。また、ユーザ信頼度を算出する際に、投稿数の平均及び投稿数の分散等を、各地点が存在するエリア毎に算出することで、エリア毎のユーザ信頼度を求めることもできる。
次に、図11に、ユーザがbotであるか否かを表す判定スコアの算出方法について説明するための説明図を示す。なお、以下で説明するbot検出は、参考文献(蔵内 雄貴、他4名、「ベンフォードの法則を応用したbotアカウント検出」、日本データベース学会論文誌、DBSJ journal 12(1), 19-24, 2013-06、[平成 30 年 8 月 13 日検索]、インターネット〈URL:http://db-event.jpn.org/deim2013//proceedings/pdf/b1-2.pdf〉)に基づくものである。
図11に示されるように、参考文献に記載の技術においては、投稿内容と投稿日時とからbotであるか人であるかが判定される。参考文献に記載の技術は、日々の投稿により推定精度が向上するモデルであるため、本実施形態のユーザ信頼度として利用することも可能である。参考文献の技術では、最大で直近N回の投稿が利用されており、投稿が40件くらいある場合に8割程度の推定精度であることが報告されている。
ユーザによる投稿を数値化(例えば、単語頻度の最上位桁の数をカウント及び時間間隔の最上位桁の数をカウント)した場合、図11の左側に示されるように、人とbotとではグラフの形状が異なる。図11の左側に示される2つのグラフの横軸は、単語頻度の最上位桁の数値又は時間間隔の最上位桁の数値を表す。例えば、時間間隔が16、24、37である場合、時間間隔の最上位桁の数値は、「1」、「2」、「3」となる。また、任意の単語頻度が、17、25、48である場合、単語頻度の最上位桁の数値は、「1」、「2」、「4」となる。
図11の左側に示される2つのグラフのうちの左側のグラフは、人による投稿の時間間隔又は単語頻度に関する出現確率を表す。また、図11の左側に示される2つのグラフのうちの右側のグラフは、botによる投稿の時間間隔又は単語頻度に関する出現確率を表す。図11の左側に示される2つのグラフのうちの左側のグラフの形状は、点線に近い形状となるのに対し、図11の左側に示される2つのグラフのうちの右側のグラフの形状は、左側のグラフに比べ、点線と乖離した形状となる。このため、特定の分布を表す点線と近い形状であるのか、特定の分布を表す点線と異なる形状であるのかに応じて、人による投稿か又はbotによる投稿であるのかを判定することができる。
この場合、図11の右側のグラフに示されるように、特定の分布と、投稿の時間間隔の出現確率の分布又は単語頻度の出現確率の分布との間の誤差は、投稿数が増加するにつれて減少する。このとき、投稿数が増加するにつれて、人による投稿に関しての誤差は、botによる投稿に関しての誤差よりも小さくなる。
そのため、本実施形態では、この誤差に基づいて、人物らしさを表す判定スコアδを算出する。具体的には、図11に示されるように、人物らしさを表す判定スコアδを、δ=axの算出式によって算出する。なお、ここでのxは誤差を表す。これにより、人物らしさを表す判定スコアδを適切に算出することができる。
なお、本実施形態においては、投稿情報の各クラスタに含まれるユーザの人数によって投稿情報のカウントが行われる。例えば、図12の下段に示されるように、同じ人であるユーザDが同じ投稿を繰り返した場合であっても、全体のユーザ数は4人とカウントされ、かつ地点について「段差」と答えたユーザは3人、「階段」と答えたユーザは1人とカウントする。これにより、第1カテゴリで考える場合には、全体のユーザ数は4人(n=4)、「段差」と答えたユーザは3人(r=3)、「階段」と答えたユーザは1人とカウントされる。
評価部26は、取得部24によって取得されたクラスタの投稿データに基づいて、評価対象の対象物が存在するか否かを評価する。例えば、投稿情報に「階段」と「段差」のみが含まれている場合には、「階段」又は「段差」を表す評価対象が存在していることがわかり、「トイレ」は存在していないことがわかる。
また、評価部26は、取得部24によって取得されたクラスタの投稿データに基づいて、評価対象の性質の尤もらしさを評価する。具体的には、評価部26は、取得部24によって取得されたクラスタの投稿データの投稿情報に基づいて、評価対象の性質の尤もらしさとして、投稿情報に関する指標を表すコンテンツ指標の一例であるコンテンツ信頼度を算出する。
より詳細には、評価部26は、評価対象に関する事象の情報と投稿情報が指し示す評価対象に関する情報との組み合わせ毎に求められる確率に基づいて、コンテンツ信頼度を算出する。
図13に、本実施形態のコンテンツ信頼度を求めるための各確率を説明するための説明図を示す。本実施形態では、確率統計を用いてコンテンツ信頼度を算出する。具体的には、図13に示されるように、事象Aを「a:バリアθがある」、事象Bを「b:バリアθがない」とする。
そして、任意の地点において事象Aである確率P、任意の地点において事象Bである確率をPとする。また、事象A,Bが発生する地点において投稿者であるユーザがa,bと判定し、投稿情報にa,bが表れる確率を、それぞれp(a),p(b),p(a),p(b)とする。なお、事象A,Bに関する情報は、オープンデータ等の情報から設定される。また、ユーザ数nは計測により得られる。また、p(a),p(b),p(a),p(b)は、トライアル等のユーザの評価の精度に応じて予め設定される。
上記の条件下で、ある地点でn人中、事象Aと判定したユーザがr人のとき、その地点が実際にAである確率q(A)を考える。この場合、ベイズの定理により、以下の式(3)によって確率q(A)を算出することができる。
Figure 0007024663000003

(3)
次に、図14を参照して、コンテンツ信頼度の算出例を説明する。図14に示されるように、例えば、任意の場所で事象A(段差)である確率をP=0.3とする。この場合、任意の場所で事象Aではない確率、すなわち、段差が無い確率はP=0.7となる。
また、事象Aである地点でaと予測(例えば、「段差」の地点で「段差」と判定される)確率をP(a)=0.9とする。また、事象Bである地点でaと予測する(「段差」ではない地点で「段差」と判定される)確率をP(a)=0.1とする。また、図14に示されるように、4人のユーザの内、aと判定したユーザが3人(r=3)であるとする。この場合の各確率は、図14に示されるようなものとなる。
この場合、コンテンツ信頼度は、以下の式(4)によって計算される。
Figure 0007024663000004

(4)
なお、図14に示される各確率は、日々の更新状況に合わせて値を少しずつ更新することもできる。例えば、以下の式(5)に従って、確率P(a)を更新することができる。なお、αは予め設定された係数である。
(a)←P(a)+α
(5)
そして、評価部26は、取得部24によって取得されたクラスタの投稿データから、投稿データの投稿情報のコンテンツ信頼度が、コンテンツ信頼度に関する閾値以上である投稿情報を評価情報として採用する。
なお、本実施形態の評価情報は、評価情報を識別するためのIDと、評価情報として採用された投稿データの位置情報と、評価情報として採用された投稿データの投稿情報を表す抽出情報と、評価情報として採用された投稿データの投稿者情報と、評価情報に対する投票情報との組み合わせを表す情報である。評価情報のデータ構造については後述する。
次に、評価部26は、1つの地点に対して1つの評価情報を生成する。図15に、1つの地点に対する1つの評価情報の生成を説明するための説明図を示す。例えば、評価部26は、投稿された投稿情報が1つである場合、(投稿情報)=(評価情報)とする。一方、図15に示されるように、ユーザA,B,Cの投稿情報が評価情報として採用された場合のような、投稿情報が2つ以上存在する場合、評価部26は、複数の投稿情報から1つの評価情報を生成する。例えば、図15に示されるように、評価部26は、複数の投稿情報の中からどれか一つをランダムに選択する。または、例えば、図15に示されるように、評価部26は、複数の投稿を1つに統合する。
そして、評価部26は、評価情報をデータ記憶部20に格納する。図16に、データ記憶部20に格納される評価情報の一例を示す。図16に示されるように、評価情報を識別するためのID及び投稿者情報は、文字列(例えば、英数字等)によって表される。また、位置情報は、連続値又は文字列であり、抽出情報及び投票情報は文字列であるとする。なお、抽出情報は、投稿データのうちの投稿情報に相当する。文字列の場合はIDや番号等によって表され、連続値の場合は座標(例えば、緯度と経度との組)によって表される。投稿者情報、位置情報、及び抽出情報は必須であり、投票情報は、○、×、又は値無しとする。また、抽出情報は値がある項目とない項目とが存在する。本実施形態の評価情報は、図16に示されるようなテーブルによって管理される。なお、評価情報が格納されるテーブル内の格納日及びチェックは、後述する評価情報の信頼度の算出の際に用いられる。
図17に、データ記憶部20に格納される、投稿データ及び評価情報を示す。本実施形態では、図17に示されるようなデータ構造によって、投稿データ及び評価情報が管理される。
次に、評価部26は、ユーザ信頼度を算出する際に用いられる、ユーザによる投稿情報の投稿数及び評価情報として採用された採用数を更新する。評価部26による更新処理により、上記図10に示される投稿数及び採用数が更新され、寄与率、採用率、及びユーザ信頼度も更新される。
図18に、ユーザによる投稿情報の投稿数及び評価情報として採用された数を説明するための説明図を示す。図18に示されるように、本実施形態では、投稿情報の各クラスタに含まれる各ユーザの投稿情報をカウントする。
図18に示される例では、ユーザA,B,Cの投稿情報が評価情報として採用され、ユーザDの投稿情報は不採用となった場合が示されている。この場合、ユーザA,B,Cは投稿情報の投稿数は+1となり、評価情報として採用されたことを表す採用数も+1となる。一方、ユーザDは投稿情報の投稿数は+1となり、評価情報として採用されたことを表す採用数は+0となる。
また、図18の下段には、同じユーザが同じ投稿情報を複数投稿した場合が示されている。この場合、ユーザA,B,Cによる投稿情報の投稿数は+1となり、評価情報として採用されたことを表す採用数も+1となる。一方、ユーザDによる投稿情報の投稿数は+6、評価情報として採用されたことを表す採用数は+0となる。
なお、図18の下段におけるユーザDの複数の投稿情報が評価情報として採用された場合は、ユーザDによる投稿情報の投稿数は+6となるが、投稿情報は同じ内容であるため、評価情報として採用されたことを表す採用数は+1となる(但し、投稿日が異なっている場合には、別カウントとなる。)。
ユーザによる投稿情報の投稿数と、ユーザの投稿情報が評価情報として採用された数を表す採用数の更新が終了した後に、評価部26は、採用となった投稿情報をチェック済みとし、データ記憶部20に格納された投稿データ群のテーブルを更新する(なお、採用されなかった投稿情報は未チェックのままとする)。
次に、評価部26は、複数のユーザからの評価情報に対する投票内容を表す投票情報に基づいて、評価情報の信頼度を算出する。本実施形態の評価情報の信頼度は、以下の式(6)によって表される。
Figure 0007024663000005

(6)
なお、上記式(6)におけるtは、投稿情報の投稿からの経過日数を表す。また、r は、予め定められた定数を表す。cは投票情報の内容(適切であることを表す○、不適切であることを表す×)に応じた重みを表す。e-λtは投票情報の鮮度を表す項となり、λは予め設定された定数である。定数r の初期値としては、評価情報として採用された際のコンテンツ信頼度が設定される。
複数のユーザからの評価情報に対する投票情報の重みcは、評価情報jに対する○×投票の個数に応じて評価情報の信頼度の減衰割合を決定するものである。重みcは、例えば、以下の式(7)によって表される。
Figure 0007024663000006

(7)
なお、評価部26は、ユーザ信頼度が所定の閾値以上であるユーザの投票情報に基づいて、評価情報の信頼度を算出する。
例えば、図19に示されるように、ユーザAのユーザ信頼度が0.649であり、ユーザBのユーザ信頼度が0.889であり、ユーザCのユーザ信頼度が0.0であり、ユーザDのユーザ信頼度が0.333である場合を例に説明する。この場合、所定の閾値を0.5としたときには、評価部26は、ユーザ信頼度が0.5以上であるユーザA及びユーザBの投票情報に基づいて、評価情報の信頼度を算出する。
上記図19に示される例では、ユーザAの投票情報は「○」であり、ユーザBの投票情報は「×」であるため、投票情報の重みcは以下の式(8)によって算出される。
Figure 0007024663000007

(8)
そして、評価部26は、以下の式(9)によって評価情報の信頼度rを算出する。なお、ユーザの総数N=0の場合は、c=1とする。
Figure 0007024663000008

(9)
また、評価部26は、評価情報の信頼度が計算された後、r ←r ×cとして定数を更新し、投票情報はチェック済みとなる。
本実施形態の評価情報の信頼度は、評価情報が生成されたときに評価情報に対して付与される指標を表す評価情報指標の一例である。評価情報の信頼度は、評価情報が生成されたときからの時間が経過するほど低くなり、かつ評価情報が適切であるか否かを表す投票情報に応じて求まる。
本実施形態の評価情報の信頼度は、評価情報が生成されたときに当該評価情報に対して付与される。図20に示されるように、評価情報の信頼度は、評価情報が生成されたときからの時間が経過するほど低くなる。また、本実施形態の評価情報の信頼度は、評価情報が適切であるか否かを表す投票情報が低いほど低くなる。例えば、評価情報の信頼度は、複数のユーザからの投票情報が不適切であることを表す投票(例えば、×)が付与された場合に減少する。
そこで、本実施形態では、評価情報の信頼度が、評価情報の信頼度に関する閾値以下となった場合(図20に示される「呼び掛けライン」となった場合)に、複数のユーザに対して投稿情報の投稿を要求する。
要求部28は、評価情報の信頼度が、評価情報の信頼度に関する閾値以下となった場合に、複数のユーザに対して投稿情報の投稿を要求する。具体的には、要求部28は、複数のユーザ端末12に対して投稿情報の投稿を呼び掛ける。
複数のユーザの各々は自身のユーザ端末12を操作し、評価装置14からの要求に応じて、評価対象に関する投稿内容を表す投稿情報をサイト13へ投稿する。
評価装置14は、複数のユーザ端末12によって投稿された投稿情報を収集する。具体的には、評価装置14の通信部16は、複数のユーザ端末12によって投稿された投稿情報を受信する。また、データ取得部18は、通信部16によって受信した投稿情報をデータ記憶部20へ格納する。
そして、評価部26は、前回の評価情報の生成の際に用いられた評価対象に関する投稿内容を表す投稿情報とは異なる新たな投稿情報に基づいて、当該評価対象に対する評価情報を再度生成する。具体的には、データ記憶部20に格納された新たな評価情報を用いて、当該評価対象に対する評価情報を再度生成する。
なお、データ記憶部20に格納される各テーブルには、上記図17に示されるように、「チェック」項目が含まれている。そのため、評価部26は、未チェックの投稿情報を用いて、評価情報を再度生成する。なお、未チェックの投稿情報を用いる際には、現時点からD日以内の投稿情報又は最新のP件分の投稿情報を抽出し、件数が多い方を投稿情報として利用することとする。DとPとは指定可能とする。
なお、評価情報として採用されなかった投稿情報は未チェックのままとなっている。このため、評価部26は、未チェックの投稿情報ではなく、投稿の呼び掛けによって新たなに投稿された投稿情報のみに基づいて、当該評価対象に対する評価情報を再度生成するようにしてもよい。
<評価システム10の作用>
次に、本実施形態に係る評価システム10の作用について説明する。まず、評価システム10の複数のユーザ端末12によってサイト13に対する投稿が行われると、データ取得部18は、通信部16を介して投稿データの各々を取得する。そして、データ取得部18は、取得した投稿データの各々をデータ記憶部20へ格納する。そして、評価装置14は、評価情報生成の指示信号を受け付けると、図21に示す評価処理ルーチンを実行する。図21に示す評価処理ルーチンは、評価情報生成の指示信号を受け付ける毎に実行される。
<評価処理ルーチン>
ステップS100において、クラスタリング部22は、データ記憶部20に格納された投稿データ群を取得する。
ステップS102において、クラスタリング部22は、上記ステップS100で取得された投稿データ群の投稿データの位置情報及び投稿情報の少なくとも一方に基づいて、複数の投稿データを、複数のクラスタにクラスタリングする。
ステップS104において、取得部24は、上記ステップS102でクラスタリングされたクラスタ毎に、当該クラスタに属する複数の投稿データのユーザ信頼度の平均を算出する。そして、取得部24は、クラスタのユーザ信頼度の平均が、ユーザ信頼度に関する閾値以上であるクラスタを取得する。
ステップS106において、評価部26は、上記ステップS104で取得されたクラスタの投稿データに基づいて、コンテンツ信頼度を算出する。
ステップS108において、評価部26は、上記ステップS104で取得されたクラスタの投稿データから、上記ステップS106で算出された投稿データの投稿情報のコンテンツ信頼度が、コンテンツ信頼度に関する閾値以上である投稿情報を評価情報として生成する。
ステップS110において、評価部26は、上記ステップS108で生成された評価情報をデータ記憶部20に格納して、評価処理ルーチンを終了する。
<評価更新処理ルーチン>
評価情報が生成された後、複数のユーザによって評価情報に対する投票が行われる。そして、評価装置14は、予め定められたタイミングで図22に示す評価更新処理ルーチンを実行する。
ステップS200において、評価部26は、ユーザ信頼度が所定の閾値以上であるユーザの投票情報に基づいて、評価情報の信頼度を算出する。
ステップS201において、要求部28は、上記ステップS200で算出された評価情報の信頼度が、評価情報の信頼度に関する閾値以下であるか否かを判定する。評価情報の信頼度が評価情報の信頼度に関する閾値以下である場合には、ステップS202へ進む。一方、評価情報の信頼度が、評価情報の信頼度に関する閾値より大きい場合には、評価更新処理ルーチンを終了する。
ステップS202において、要求部28は、複数のユーザに対して投稿情報の投稿を要求する。
ステップS204において、通信部16は、複数のユーザ端末12によって投稿された投稿情報を受信する。また、データ取得部18は、通信部16によって受信した投稿情報をデータ記憶部20へ格納する。
ステップS206において、評価部26は、前回の評価情報の生成の際に用いられた投稿情報とは異なる、上記ステップS204でデータ記憶部20へ格納された、新たな投稿情報に基づいて、当該評価対象に対する評価情報を再度生成して、評価更新処理ルーチンを終了する。
評価装置14は、上記図21に示される評価処理ルーチンと上記図22に示される評価更新処理ルーチンとを繰り返し実行する。
以上説明したように、本実施形態に係る評価装置によれば、投稿情報と当該投稿情報を投稿したユーザを表す投稿者情報とを有する投稿データを複数含む投稿データ群から、ユーザによる過去の投稿情報の数が多いほど高くなり、かつユーザの投稿情報が評価情報であるとして採用された数が多いほど高くなるユーザ信頼度に基づいて、投稿データを取得し、取得された投稿データに基づいて、評価対象が存在するか否かを評価することにより、ユーザからの評価対象に関する投稿に応じて評価対象を適切に評価することができる。
また、一般のユーザの投稿情報を利用することで、専門の調査員の情報を利用することなく、広範囲及び低コストで評価情報を生成及び更新することができる。
また、所定の管理者が投稿内容をその都度チェックする必要がなく、統計処理によって適切な評価情報を自動的に抽出することができる。
また、本実施形態のユーザ端末12等にスマートフォン用アプリ等で提供することで、広範囲のユーザからの投稿を容易に収集することができる。この場合、アプリ配布のコストは調査員の募集コストより少なく、かつユーザはスマートフォンを用いて投稿することができるため、専門の計測機器を使用する必要はない。
<第2実施形態>
次に、第2実施形態について説明する。なお、第2実施形態に係る評価システムの構成は、第1実施形態と同様の構成となるため、同一符号を付して説明を省略する。
第2実施形態では、評価情報の信頼度に代えて、所定の領域内における評価情報の数に基づき生成される評価情報の収集度を用いる。
一般のユーザの投稿情報に基づき広範囲の評価情報を効率的に集める場合、時間が経過すれば投稿情報は集まると期待される。しかし、評価情報の収集にかかる期間を短縮するためには、どの地点の情報が必要であるのかを適切に提示する必要がある。
そこで、第2実施形態では、評価情報が存在していない地点又は評価情報の信頼度が低下した地点を検知するための収集度を定義する。
具体的には、所定の領域内として、緯度及び経度に応じて矩形のエリアを予め設定する。そして、第2実施形態の評価部26は、エリアA(i=1,2,・・・,M)内に対応する位置情報に存在する評価情報の個数及び評価情報の信頼度の平均を以下の式(10)で算出する。
Figure 0007024663000009

Figure 0007024663000010

(10)
なお、N(A)は評価情報の個数を表し、M(A)は投稿情報の個数を表す。そして、評価部26は、上記式(10)によって算出された値に基づいて、以下の式(11)に従って、収集度を算出する。
Figure 0007024663000011

(11)
なお、rは、エリアA内の評価情報jの信頼度を表す。
図23に、収集度の具体例を示す。図23には、N(A),M(A),enum(A),eavg(A),H(A)が示されている。この場合、図23に示される、どの項目が0に近いかによって、投稿の呼び掛け内容を変えることもできる。
例えば、呼び掛けラインに関する閾値=0.3とした場合を例に考える。この場合、要求部28は、エリアAには評価情報が1つもないため新規の投稿を呼びかける一方で、エリアA4においては評価情報の信頼度が低下しているため、当該地点で何か変わっていないかに関する投稿を呼びかける。
なお、第2実施形態に係る評価装置の他の構成及び作用については、第1実施形態と同様であるため、説明を省略する。
以上説明したように、第2実施形態に係る評価装置によれば、所定の領域内における評価情報の数に応じて生成される評価情報の収集度に基づいて、評価対象に関する投稿を適切に呼び掛けることができる。
また、収集度を用いることで、投稿者であるユーザに、どこのエリアの評価情報が少ないか又は古いかを適切に通知できるため、投稿者であるユーザは、どのエリアで投稿するべきか把握することができる。また、評価装置14の管理者は、収集したいエリアの評価情報を効率的に得ることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記実施形態では、評価装置14が、投稿情報から評価情報を生成する評価処理と、複数のユーザに対して投稿を要求し評価情報を更新する評価更新処理とを実行する場合を例に説明したが、これに限定されるものではない。例えば、評価処理と評価更新処理とが別々の装置によって実行されてもよい。この場合には、例えば、評価処理を実行する評価装置と、評価更新処理を実行する評価更新装置とによってシステムを構築するようにしてもよい。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
また、上述の装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 評価システム
12 ユーザ端末
13 サイト
14 評価装置
16 通信部
18 データ取得部
20 データ記憶部
22 クラスタリング部
24 取得部
26 評価部
28 要求部
30 通信手段

Claims (5)

  1. 評価対象に関する投稿内容を表す複数の投稿情報に基づいて前記評価対象に対する評価を表す評価情報が生成されたときに前記評価情報に対して付与される指標を表す評価情報指標であって、かつ前記評価情報が生成されたときからの時間が経過するほど低くなり、かつ前記評価情報が適切であるか否かを表す複数のユーザからの投票情報が低いほど低くなる前記評価情報指標を生成する評価部と、
    前記評価情報指標が、評価情報指標に関する閾値以下となった場合に、複数のユーザのユーザ端末に対して前記投稿情報の投稿を要求する要求部とを含み、
    前記評価部は、前記投稿の要求後に投稿された複数のユーザからの投稿情報に基づいて前記評価対象に対する評価情報を再度生成する、
    を含む評価更新装置。
  2. 前記評価情報指標は、前記評価情報が適切であるか否かを表す投票情報に基づき生成される前記評価情報の信頼度である、
    請求項に記載の評価更新装置。
  3. 前記評価情報指標は、所定の領域内における前記評価情報の数に基づき生成される前記評価情報の収集度である、
    請求項1又は請求項2に記載の評価更新装置。
  4. 評価部と要求部とを含む評価更新装置における評価更新方法であって、
    前記評価部が、評価対象に関する投稿内容を表す複数の投稿情報に基づいて前記評価対象に対する評価を表す評価情報が生成されたときに前記評価情報に対して付与される指標を表す評価情報指標であって、かつ前記評価情報が生成されたときからの時間が経過するほど低くなり、かつ前記評価情報が適切であるか否かを表す複数のユーザからの投票情報が低いほど低くなる前記評価情報指標を生成するステップと、
    前記要求部が、前記評価情報指標が、評価情報指標に関する閾値以下となった場合に、複数のユーザのユーザ端末に対して前記投稿情報の投稿を要求するステップと、
    前記評価部が、前記投稿の要求後に投稿された複数のユーザからの投稿情報に基づいて前記評価対象に対する評価情報を再度生成するステップと、
    を含む評価更新方法。
  5. コンピュータを、請求項1~請求項のいずれか1項に記載の評価更新装置が備える各部として機能させるためのプログラム。
JP2018158676A 2018-08-27 2018-08-27 評価更新装置、方法、及びプログラム Active JP7024663B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018158676A JP7024663B2 (ja) 2018-08-27 2018-08-27 評価更新装置、方法、及びプログラム
PCT/JP2019/032041 WO2020045107A1 (ja) 2018-08-27 2019-08-15 評価更新装置、方法、及びプログラム
US17/271,565 US12013908B2 (en) 2018-08-27 2019-08-15 Evaluation updating device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018158676A JP7024663B2 (ja) 2018-08-27 2018-08-27 評価更新装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020035022A JP2020035022A (ja) 2020-03-05
JP7024663B2 true JP7024663B2 (ja) 2022-02-24

Family

ID=69643860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018158676A Active JP7024663B2 (ja) 2018-08-27 2018-08-27 評価更新装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US12013908B2 (ja)
JP (1) JP7024663B2 (ja)
WO (1) WO2020045107A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023148947A1 (ja) * 2022-02-07 2023-08-10 日本電信電話株式会社 評価装置、評価方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015172856A (ja) 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 情報収集評価装置、情報収集評価方法および情報収集評価プログラム
JP2017027579A (ja) 2016-04-19 2017-02-02 ヤフー株式会社 提示装置、提示方法、提示プログラム、端末装置、表示方法、及び表示プログラム
JP2018049504A (ja) 2016-09-23 2018-03-29 エイミー株式会社 投稿情報管理システム、投稿情報管理方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665655B1 (en) * 2000-04-14 2003-12-16 Rightnow Technologies, Inc. Implicit rating of retrieved information in an information search system
US7519562B1 (en) * 2005-03-31 2009-04-14 Amazon Technologies, Inc. Automatic identification of unreliable user ratings
US8843481B1 (en) * 2005-09-30 2014-09-23 Yongyong Xu System and method of forming action based virtual communities and related search mechanisms
EP2304660A4 (en) * 2008-06-19 2013-11-27 Wize Technologies Inc SYSTEM AND METHOD FOR ENHANCING AND SUMMING A FEELING FOR A PRODUCT / SUBJECT
US20130007238A1 (en) * 2011-06-30 2013-01-03 Sandholm Thomas E Recommending resources
JP2013168021A (ja) * 2012-02-15 2013-08-29 Nifty Corp イベント検出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015172856A (ja) 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 情報収集評価装置、情報収集評価方法および情報収集評価プログラム
JP2017027579A (ja) 2016-04-19 2017-02-02 ヤフー株式会社 提示装置、提示方法、提示プログラム、端末装置、表示方法、及び表示プログラム
JP2018049504A (ja) 2016-09-23 2018-03-29 エイミー株式会社 投稿情報管理システム、投稿情報管理方法、およびプログラム

Also Published As

Publication number Publication date
WO2020045107A1 (ja) 2020-03-05
JP2020035022A (ja) 2020-03-05
US20210182353A1 (en) 2021-06-17
US12013908B2 (en) 2024-06-18

Similar Documents

Publication Publication Date Title
Balaanand et al. An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter
CN103793484B (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN110210508B (zh) 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质
US9069872B2 (en) Relating web page change with revisitation patterns
CN107862022B (zh) 文化资源推荐系统
CN103823888B (zh) 一种基于节点亲密度的社交网站好友推荐方法
CN106682686A (zh) 一种基于手机上网行为的用户性别预测方法
CN104281882A (zh) 基于用户特征的预测社交网络信息流行度的方法及系统
CN104133817A (zh) 网络社区交互方法、装置及网络社区平台
WO2005104436A1 (en) Method and system for generating a population representative of a set of users of a communication network
CN107203901A (zh) 向用户推送产品信息的方法及装置
CN114756764A (zh) 基于企业的内容信息流推荐方法、装置、电子设备及存储介质
CN116521936B (zh) 一种基于用户行为分析的课程推荐方法、装置及存储介质
CN117494885A (zh) 一种评论情感流数据模拟生成方法
CN113869931A (zh) 广告投放策略确定方法、装置、计算机设备和存储介质
Chen et al. The best answers? think twice: online detection of commercial campaigns in the CQA forums
CN105447148B (zh) 一种Cookie标识关联方法及装置
JP7024663B2 (ja) 評価更新装置、方法、及びプログラム
JP7020345B2 (ja) 評価装置、方法、及びプログラム
WO2019234827A1 (ja) 情報処理装置、判定方法、プログラムが格納された非一時的なコンピュータ可読媒体および情報処理システム
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN108388652B (zh) 一种发送歌单标识的方法和装置
CN113449184B (zh) 触达渠道的推荐方法、装置、计算机设备和存储介质
Jenson et al. Mining location information from users' spatio-temporal data
JP2010079325A (ja) モデルの構築方法、構築システム及び構築用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220124

R150 Certificate of patent or registration of utility model

Ref document number: 7024663

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150