JP2018124966A - ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング - Google Patents

ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング Download PDF

Info

Publication number
JP2018124966A
JP2018124966A JP2017155651A JP2017155651A JP2018124966A JP 2018124966 A JP2018124966 A JP 2018124966A JP 2017155651 A JP2017155651 A JP 2017155651A JP 2017155651 A JP2017155651 A JP 2017155651A JP 2018124966 A JP2018124966 A JP 2018124966A
Authority
JP
Japan
Prior art keywords
social media
media account
account
accounts
author
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017155651A
Other languages
English (en)
Other versions
JP7003481B2 (ja
Inventor
ワン・ジュヌ
Ju-Nu Wang
内野 寛治
Kanji Uchino
寛治 内野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/422,383 external-priority patent/US20170235835A1/en
Priority claimed from US15/424,730 external-priority patent/US20170235836A1/en
Priority claimed from US15/653,356 external-priority patent/US10776885B2/en
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018124966A publication Critical patent/JP2018124966A/ja
Application granted granted Critical
Publication of JP7003481B2 publication Critical patent/JP7003481B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ソーシャル・メディア・アカウント及びコンテンツの相互に補強するランキングを提供する。【解決手段】ソーシャル・メディア・アカウントと各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間の相互に補強する関係は、ソーシャル・メディア・アカウントと各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされる。各プロモーション・リンクについて基本リンク強さを計算する段階において、基本リンク強さは、複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての一般型重みおよび個別重みに基づく段階と、複数のソーシャル・メディア・アカウント及びコンテンツの相互に補強するランキングを、基本リンク強さに基づいて計算する段階とを含む。【選択図】図19

Description

関連出願への相互参照
本願は2016年2月12日に出願された米国特許出願第15/043,406号の部分継続である2017年2月1日に出願された米国特許出願第15/422,383号の部分継続である2017年2月3日に出願された米国特許出願第15/424,730号の部分継続である。上記出願の内容はここに参照によってその全体において組み込まれる。
分野
本稿で論じられる実施形態は情報の識別および抽出に関する。
インターネットのようなコンピュータ・ネットワークの到来および技術の成長により、ますます多くの情報がますます多くの人々に利用可能になっている。たとえば、多くの主導的な研究者はソーシャル・メディアを使ってタイムリーに情報を共有し、アイデアを交換している。
本願で特許請求される主題は、何らかの欠点を解決するまたは上記のような環境でのみ動作する実施形態に限定されない。むしろ、この背景は、本稿に記載されるいくつかの実施形態が実施されうる一つの例示的な技術領域を示すために与えられているだけである。
本開示の一つまたは複数の実施形態は、ソーシャル・メディア・アカウントとコンテンツとの間の相互に補強し合う関係に基づいてソーシャル・メディア・アカウントおよびコンテンツをランク付けするコンピュータ実装される方法を含んでいてもよい。本方法は、複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについて一般型重みを決定することを含んでいてもよい。一般型重みは、そのソーシャル・メディア・アカウントに対応するソーシャル・メディア・アカウント型に基づいていてもよい。本方法はさらに、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての個別重みを決定することを含んでいてもよい。本方法はまた、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされているコンテンツとの間の相互に補強する関係をエンコードすることをも含んでいてもよい。相互に補強する関係は、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされてもよい。本方法はさらに、基本リンク強さを計算することを含んでいてもよい。基本リンク強さは各プロモーション・リンクについて計算されてもよく、基本リンク強さは前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記一般型重みと、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記個別重みとに基づいていてもよい。本方法はまた、前記複数のソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを、前記基本リンク強さに基づいて計算することを含んでいてもよい。
実施形態の目的および利点は、少なくとも、請求項において具体的に指摘される要素、特徴および組み合わせによって実現され、達成されるであろう。
以上の概括的な記述および以下の詳細な記述はいずれも単に例であり説明的なものであり、特許請求される発明を制約するものではないことは理解しておくべきである。
例示的実施形態について、付属の図面を使って、さらに具体的かつ詳細に記述し、説明する。
情報を識別し、抽出するよう構成された例示的システムを表わす図である。 情報の識別および抽出に関して使われてもよい例示的なフローの図である。 情報の識別および抽出の例示的な方法のフローチャートの前半である。 情報の識別および抽出の例示的な方法のフローチャートの後半である。 情報の識別および抽出のもう一つの例示的な方法のフローチャートである。 情報の識別および抽出のもう一つの例示的な方法のフローチャートである。 情報の識別および抽出に関して使われてもよいもう一つの例示的なフローの図である。 情報の識別および抽出の例示的な方法のフローチャートである。 個人学術ウェブページを識別する例示的方法のフローチャートである。 情報の識別および抽出において使われてもよいもう一つの例示的な方法のフローチャートの前半である。 情報の識別および抽出において使われてもよいもう一つの例示的な方法のフローチャートの後半である。 ソーシャル・メディア・アカウントおよび個人学術ウェブページの候補を相互検証することにおいて使われてもよい例示的な方法のフローチャートである。 ソーシャル・メディア・アカウントおよび個人学術ウェブページの候補を相互検証することにおいて使われてもよいもう一つの例示的な方法のフローチャートである。 ソーシャル・メディア・アカウントおよび個人学術ウェブページの候補を相互検証することにおいて使われてもよいもう一つの例示的な方法のフローチャートである。 ソーシャル・メディア・アカウントおよび個人学術ウェブページの候補を相互検証することにおいて使われてもよいもう一つの例示的な方法のフローチャートである。 ソーシャル・メディア・アカウントおよび個人学術ウェブページの候補を相互検証することにおいて使われてもよいもう一つの例示的な方法のフローチャートである。 ソーシャル・メディア・アカウントの候補集合を生成する処理の例示的な概略的表現を示す図である。 ソーシャル・メディア・アカウントをセンサーとして使いながらの情報の識別および抽出の例示的方法のフローチャートの前半である。 ソーシャル・メディア・アカウントをセンサーとして使いながらの情報の識別および抽出の例示的方法のフローチャートの後半である。 ソーシャル・メディア・アカウントをセンサーとして使いながらの情報の識別および抽出において使用されうる例示的方法のフローチャートである。 ソーシャル・メディア・アカウントをセンサーとして使いながらの情報の識別および抽出において使用されうるもう一つの例示的方法のフローチャートである。 ソーシャル・メディア・アカウント型に基づくソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングに関して使用されうる例示的フローの図である。 ソーシャル・メディア・アカウント型の決定に関して使用されうる例示的フローの図の前半である。 ソーシャル・メディア・アカウント型の決定に関して使用されうる例示的フローの図の後半である。 ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを計算する例示的方法のフローチャートである。 アカウントとコンテンツの間の相互に補強する関係をエンコードする例示的な二部グラフを表わす図である。 情報を識別および抽出しうる例示的システムを示す図である。
本稿に記載されるいくつかの実施形態は、情報の識別および抽出の方法およびシステムに関する。技術、研究および一般的な知識の生成の現在の速さの結果、知識頒布の従前および現在の方法では、最近の発展について最新の知識および情報を十分に提供しない。さらに、知識はもはや選ばれた地域における少数の選ばれた個人によって生成されるのではない。むしろ、本開示において知識ある人々と称される所与のトピックの知識をもつ研究者、教授、専門家その他は世界中に位置しており、たえず新たなアイデアを生成し、共有している。
しかしながら、インターネットの結果、この世界中からの膨大な新たに生成される知識は、たえず世界規模で共有されている。いくつかの状況では、この膨大な知識はソーシャル・メディアを通じて共有されている。たとえば、知識ある人々は、最近得た知識をブログ、マイクロブログおよび他のソーシャル・メディアを通じて共有してもよい。
現行情報がソーシャル・メディアで共有されていることを知っても、現行情報が簡単にアクセスできることや個人が現実的に該情報にアクセスできることにはならない。いくつかの分野では、何千、何万または何十万もの知識ある人々がいることがある。特定の分野からの知識ある人々の名前を含むデータベースはない。しかしながら、たとえデータベースが名前を含んでいたとしても、該知識ある人々がソーシャル・メディア・アカウントをもっているかどうかを人が特定するために費やされる時間は、誰も考えられないほど不相応なものであろう。さらに、たとえある知識ある人がソーシャル・メディア・アカウントを有していたかどうかをある人が特定できたとしても、常時それらのソーシャル・メディア・アカウントにアクセスし、パースして、そこで共有されている新たな知識を得るための時間は現実的ではないであろう。
つまるところ、コンピュータおよびインターネットの台頭のため、大量の情報が利用可能になっているが、人が合理的に該情報にアクセスするための現実的なすべがない。本稿に記載されるいくつかの実施形態は、従前には利用可能でなかった、あるいは技術の支援なくしては人間によって、さらには人間のグループによってでも合理的に取得可能ではなかった情報に人々がアクセスするのを助けうる、情報の識別および抽出の方法およびシステムに関する。
本開示において記載される情報の識別および抽出の方法およびシステムは、刊行物およびレクチャーの著作者を判別することによって知識ある人々を判別することを含む。それら複数の著作者についてのメタデータが刊行物およびレクチャーから抽出される。著作者メタデータは、それらの著作者のソーシャル・メディア・アカウントを判別するために、ソーシャル・メディア・アカウントを検索するために使われる。たとえば、いくつかの実施形態では、著作者メタデータは、著作者の名前、著作者のプロフィールおよび共著者についての情報を含んでいてもよい。ソーシャル・メディア・アカウントからの情報は、著作者をソーシャル・メディア・アカウントとマッチさせるために、著作者メタデータと比較されてもよい。いくつかの実施形態では、本開示におけるシステムおよび方法はさらに、ソーシャル・メディア・アカウント上で提供される情報のトピックを考慮してもよい。こうして、ある著作者がソーシャル・メディア・アカウントをもっているがその著作者が公表した前記トピックに関係した知識を共有しない場合には、ソーシャル・メディア・アカウントは考慮されなくてもよい。
ソーシャル・メディア・アカウントを同定した後、同定されたソーシャル・メディア・アカウント上の情報が収集され、組織化され、呈示されてもよい。たとえば、該情報は、トピックに基づいて組織化されてもよく、それにより選択されたトピックに関心のある人が、複数の異なる知識ある人々からの現行知識を、現行の更新をもって、呈示されることができる。このようにして、人が合理的に識別または管理できない数の源からの新情報がアクセスされ、共有されることができる。こうして、本開示におけるシステムおよび方法は、人によって合理的には実行できない、技術から生じる問題に対する技術的解決策を提供する。
さらに、たとえソーシャル・メディア・アカウントが同定できたとしても、知識ある人に関連したソーシャル・メディア・アカウントを同定する自動化されたシステムまたはプロセスは正しくないことがあり、あるいはソーシャル・メディア・アカウントの複数の潜在的な候補の間で見きわめをすることができないことがある。たとえば、70%を超える名前が、その名前に関連付けられた複数のツイッター(登録商標)・アカウントをもつ。コンピューティング・システムがどのソーシャル・メディア・アカウントが特定の知識ある人に関連しているかを自動的に見きわめることは非常に難しいことがありうる。また、多くの知識ある人々は個人学術ウェブページをもつ。あるウェブサイトがある知識ある人の学術ウェブページであるかどうかを識別することも難しいことがある。
本開示は、知識ある人のソーシャル・メディア・アカウントと個人学術ウェブページとの相互検証に関しうる。たとえば、ソーシャル・メディア・アカウントおよび個人学術ウェブページのさまざまな側面を使うことによって、両者の間のさまざまな一貫した特徴または側面が、両者が同じ知識ある人に関連していることを確認しうる。本開示と整合して、候補ソーシャル・メディア・アカウントおよび候補個人学術ウェブページの集合が同定されてもよい。各候補は、ソーシャル・メディア・アカウント候補および/または個人学術ウェブページ候補のさまざまな特徴または側面を同定するためにパースされ、あるいは他の仕方で解析されてもよい。それらのさまざまな特徴および/または側面は、その個人学術ウェブページおよびそのソーシャル・メディア・アカウントの両方がある特定の著作者に正しく関連付けられていることを確証するために、両者の間で相互検証されてもよい。本開示によれば、ソーシャル・メディア・アカウントが個人学術ウェブページと相互検証された後、それらのソーシャル・メディア・アカウントの投稿がトピックに基づいて組織化されてもよく、それにより、選択されたトピックに関心のある人が、複数の異なる知識ある人々からの現行知識を、現行の更新をもって、呈示されることができる。このようにして、人が合理的に識別または管理できない数の源からの新情報がアクセスされ、共有されることができる。こうして、本開示におけるシステムおよび方法は、人によって合理的には実行できない、技術から生じる問題に対する技術的解決策を提供する。さらに、以前にはコンピュータによって実行されなかったタスクの自動化された処理を許容する。
この空間におけるさらなる困難は、所与のトピックについての知識のあるソーシャル・メディア・アカウントを識別することである。個々人が何千またはさらには何百万ものソーシャル・メディア・アカウントをかきわけてあるトピックについて知識があるさまざまなアカウントを識別しようとすることは現実的ではなく、事実上実施不可能である。さらに、どんな所与のトピックでも、知識のあるソーシャル・メディア投稿を認識することだけでもできる知識のある人々の集合は完全に異なることがある。同様に、コンピュータによって実行される単純なキーワード検索は、単にあるトピックに言及しているだけであったり、あるいは論じているトピックについて実際に知識があるのではないかもしれないアカウントの膨大な数の偽陽性を引き出すことがありうる。さらに、より高度なコンピュータ・ベースの解析も、所与のトピックについて別の人が知識があると考えられうるかどうかに関して知識のある人の人間判断に頼ることほど効果的ではないことがありうる。
本開示は、ソーシャル・メディア・アカウントをセンサーとして使うことに関しうる。それにより、所与のソーシャル・メディア・アカウントが知識のあるアカウントでありうるか否かを判定するための基礎として、人間判断が間接的に使用されうる。具体的には、所与のトピックについて知識がある人々は、他のどの人々が同じトピックについて知識があるかを知っており、認識する可能性が高い。さらに、所与のトピックについて知識がある人々は、やはりそのトピックについて知識がある他者からの情報を、たとえばその刊行物を読んだりそのソーシャル・メディア投稿をフォローしたりすることにより、求める可能性が高い。たとえば、あるトピックについて知識があるとわかっているアカウントである一つまたは複数のシード・ソーシャル・メディア・アカウントから出発して、フォローしているおよびフォローされているアカウントのリストが集積されてもよい。任意的に、一般的なおよび/または個人でないソーシャル・メディア・アカウントは該リストから除去されてもよい。すでにシード・アカウントになっているのでない、シード・アカウントによってフォローされているアカウントについて、それが知識のあるアカウントであるかどうかを判定するために、そのアカウントに対して解析が実行されてもよい。それが知識のあるアカウントであれば(たとえば、そのアカウントが問題のトピックについての学術刊行物の著者に関連付けられている場合)、そのアカウントはシード・アカウントとして追加されてもよい。このようにして、あるトピックについて実際に知識のある人々が、やはり知識がある他のアカウントを識別するために、(その人々がフォローしているソーシャル・メディア・アカウントを介して)間接的に使用される。さらに、これは、人間ではできない仕方でコンピュータを使う様式で行なわれる。こうして、本開示におけるシステムおよび方法は、人によって合理的には実行できない、技術から生じる問題に対する技術的解決策を提供する。さらに、人の判断および知識を活用するハイブリッド・システムの実装を通じて、コンピュータによって以前には実行されなかったタスクの自動化された処理を許容する。
上記で論じたように、所与のトピックの知識をもつ研究者、教授、専門家その他は世界中に位置しており、たえず新たなアイデアを生成し、共有している。これらの知識のある人の多くはツイッターのようなソーシャル・メディアを、最新の分野固有知識を学ぶために利用可能な情報資源と見なす。ソーシャル・メディアを通じて共有される情報および知識の豊富さのため、特定分野の学習者のような人にとって、あるトピックについて知識があるさまざまなアカウントを識別することは難しいことがある。
本開示は、ソーシャル・メディア・アカウント型に基づくソーシャル・メディア・アカウントおよびソーシャル・メディア・コンテンツの相互に補強するランキングに関しうる。前提は、分野固有の専門知識をもつ(すなわち所与のトピックにおいて知識のある)ソーシャル・メディア・ユーザーはその分野における高品質のコンテンツをプロモーションする可能性が高く、ある分野における高品質のコンテンツは分野固有の専門知識をもつソーシャル・メディア・ユーザーによってプロモーションされるということである。具体的には、コンテンツ(たとえば記事)が分野固有の専門知識をもつより多くの良質のソーシャル・メディア・アカウントによって公開または共有される場合、そのコンテンツはその分野における良質のまたは高品質のコンテンツであると結論しうる。さらに、あるソーシャル・メディア・アカウントがある分野における良質なコンテンツ(たとえば良質の記事)を一貫して公開しているまたは共有している場合には、そのソーシャル・メディア・アカウントは、分野固有の専門知識をもつ良質のソーシャル・メディア・アカウントであると結論しうる。本開示のいくつかの実施形態は、ソーシャル・メディア・アカウント型に基づいて、ある分野における良質または高品質のコンテンツと、分野固有の専門知識をもつ良質のソーシャル・メディア・アカウントとの相互に補強するランキングを提供する。
本開示の実施形態は、付属の図面を参照して説明される。
図1は、本開示に記載される少なくとも一つの実施形態に従って構成された、情報を識別し、抽出するよう構成された例示的システム100を表わす図である。システム100は、ネットワーク102、情報収集システム110、刊行物システム120、ソーシャル・メディア・システム130、装置140およびウェブ・ホスティング・システム150を含んでいてもよい。
ネットワーク102は、情報収集システム110、刊行物システム120、ソーシャル・メディア・システム130、装置140およびウェブ・ホスティング・システム150を通信上結合するよう構成されていてもよい。いくつかの実施形態では、ネットワーク102は、装置間で通信を送受信するよう構成された任意のネットワークまたは諸ネットワークの構成を含んでいてもよい。いくつかの実施形態では、ネットワーク102は通常型ネットワーク、有線もしくは無線ネットワークを含んでいてもよく、数多くの異なる構成を有しうる。さらに、ネットワーク102は、ローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)(たとえばインターネット)または他の相互接続されたデータ経路であってそれを通じて複数の装置および/またはエンティティが通信しうるものを含んでいてもよい。いくつかの実施形態では、ネットワーク102は、ピアツーピア・ネットワークを含んでいてもよい。ネットワーク102は、多様な異なる通信プロトコルでデータを送るために遠隔通信ネットワークの諸部分に結合されていてもよく、あるいは該諸部分を含んでいてもよい。いくつかの実施形態では、ネットワーク102は、通信および/またはデータを送受信するためにブルートゥース(登録商標)通信ネットワークまたはセルラー通信ネットワークを含んでいてもよい。そのような送受信は、ショート・メッセージ・サービス(SMS)、マルチメディア・メッセージング・サービス(MMS)、ハイパーテキスト転送プロトコル(HTTP)、直接データ接続、無線アプリケーション・プロトコル(WAP)、電子メールおよび/またはその他を介してのものを含む。ネットワーク102は、第三世代(3G)、第四世代(4G)、ロングタームエボリューション(LTE)、ロングタームエボリューションアドバンスト(LTE-A)、LTEを通じた音声(「VoLTE」)または他の任意のモバイル・データ・ネットワークもしくは諸モバイル・データ・ネットワークの組み合わせを含んでいてもよい。さらに、ネットワーク102は、一つまたは複数のIEEE802.11無線ネットワークを含んでいてもよい。
いくつかの実施形態では、情報収集システム110、刊行物システム120、ソーシャル・メディア・システム130およびウェブ・ホスティング・システム150の任意のものは、ハードウェアの任意の構成、たとえば一緒にネットワーク接続されタスクを実行するよう構成されている諸サーバーおよび諸データベースを含んでいてもよい。たとえば、情報収集システム110、刊行物システム120、ソーシャル・メディア・システム130およびウェブ・ホスティング・システム150はそれぞれ複数のコンピューティング・システム、たとえば複数のサーバーであって、一緒にネットワーク接続されて本開示において記載される動作を実行するおよび/または該動作の実行を制御するよう構成されたものを含んでいてもよい。いくつかの実施形態では、情報収集システム110、刊行物システム120、ソーシャル・メディア・システム130およびウェブ・ホスティング・システム150の任意のものは、本開示において記載される動作を実行するおよび/または該動作の実行を制御するよう一つまたは複数の装置によって実行されるよう構成されているコンピュータ可読命令を含んでいてもよい。
情報収集システム110は、データ記憶部112を含んでいてもよい。データ記憶部112は、データ・オブジェクトに基づく構造をもつ、情報収集システム110内のデータベースを含んでいてもよい。たとえば、データ記憶部112は、種々のフィールドをもつ複数のデータ・オブジェクトを含んでいてもよい。いくつかの実施形態では、データ記憶部112は、著作者オブジェクト114、ソーシャル・メディア・アカウント・オブジェクト116および個人ウェブページ・オブジェクト118を含んでいてもよい。
一般に、情報収集システム110は、刊行物、たとえば刊行物システム120からの論文、レクチャーおよび他の刊行物の著作者情報を取得するよう構成されていてもよい。その著作者情報を使って、情報収集システム110は、該著作者に関連したソーシャル・メディア・アカウントを判別し、ソーシャル・メディア・システム130から該ソーシャル・メディア・アカウントからの情報をプルすることができるとともに、該著作者に関連した個人学術ウェブページを判別し、ウェブ・ホスティング・システム150から該個人学術ウェブページからの情報をプルすることができる。情報収集システム110は、ソーシャル・メディア・アカウントおよび/または個人学術ウェブページからの情報を組織化し、装置140に提供してもよい。それにより該情報は装置140のディスプレイ142に呈示されうる。
刊行物システム120は、論文、刊行物、ジャーナル、レクチャーおよび他のデジタル文書をホストする複数のシステムを含んでいてもよい。刊行物システム120の複数のシステムは、みな情報を提供するメディアをホストするというほかは関係していなくてもよい。たとえば、刊行物システム120のあるシステムは、大学の教授のレクチャーおよび論文をホストする大学ウェブサイトを含んでいてもよい。刊行物システム120の別のシステムは、ジャーナルで発表された論文をホストするウェブサイトを含んでいてもよい。これらおよび他の実施形態において、諸刊行物システム120は、ウェブサイト、サーバー、ホスティング・ドメインまたは所有者を共有していてもいなくてもよい。
いくつかの実施形態では、情報収集システム110は、諸刊行物システム120の一つまたは複数にアクセスして、刊行物システム120からデジタル文書を取得してもよい。それらのデジタル文書を使って、情報収集システム110はデジタル文書の著作者およびデジタル文書のトピックについての情報を取得してもよい。いくつかの実施形態では、デジタル文書の各著作者について、情報収集システム110はデータ記憶部112において著作者オブジェクト114を生成してもよい。生成された著作者オブジェクト114において、情報収集システム110はデジタル文書から得られた著作者についての情報を格納してもよい。該情報は、名前、プロフィール、画像、デジタル文書の共著者、著作者の所属(たとえば著作者が所属する大学または著作者が雇用されている企業)を含んでいてもよい。情報収集システム110は、デジタル文書のトピックを判別してもよい。デジタル文書のトピックは著作者オブジェクト114に格納されてもよい。
いくつかの実施形態では、刊行物システム120からの複数のデジタル文書が同じ著作者を含むことがある。これらおよび他の実施形態において、その著作者についての著作者オブジェクト114が、他のデジタル文書からの情報をもって更新および/または補足されてもよい。たとえば、他のデジタル文書からのトピックが著作者オブジェクト114に格納されてもよい。いくつかの実施形態では、情報収集システム110によって得られたある著作者のデジタル文書全部のトピックが著作者オブジェクト114に格納されてもよい。
著作者オブジェクト114を生成した後、情報収集システム110は著作者オブジェクト114における各著作者についてのソーシャル・メディア・アカウントを判別するよう構成されていてもよい。情報収集システム110は、ソーシャル・メディア・システム130にアクセスすることによってソーシャル・メディア・アカウントを判別してもよい。追加的または代替的に、情報収集システム110は、著作者オブジェクト114における各著作者について個人学術ウェブページを判別するよう構成されていてもよい。情報収集システム110は、ウェブ・ホスティング・システム150にアクセスすることによってソーシャル・メディア・アカウントを判別してもよい。これらおよび他の実施形態において、情報システム110は、ある著作者のソーシャル・メディア・アカウントと個人学術ウェブページを相互検証してもよい。
いくつかの実施形態では、各ソーシャル・メディア・システム130は、異なるソーシャル・メディアをホストするよう構成されたシステムを含んでいてもよい。たとえば、ソーシャル・メディア・システム130の一つは、マイクロブログ・ソーシャル・メディア・システムを含んでいてもよい。ソーシャル・メディア・システム130の別のものは、ブログ・ソーシャル・メディア・システムを含んでいてもよい。ソーシャル・メディア・システム130の別のものは、ソーシャル・ネットワークまたは他の型のソーシャル・メディア・システムを含んでいてもよい。ソーシャル・メディア・システム130の別のものは、刊行物収集ソーシャル・メディア・システムを含んでいてもよい。
情報収集システム110は、各ソーシャル・メディア・システム130に、それぞれのソーシャル・メディア・アカウントで著作者オブジェクト114における各著作者の名前を検索するよう要求してもよい。たとえば、情報収集システム110は何千、何万または何十万の著作者オブジェクト114を含んでいてもよく、各著作者オブジェクト114は一人の著作者の名前を含む。この例では、著作者らが情報を共有しうるソーシャル・メディア・システム130が四つあってもよい。ソーシャル・メディア・システム130の数は四つより多かったり、あるいは少なかったりしてもよい。これらおよび他の実施形態において、情報収集システム110は、四つのソーシャル・メディア・システム130のそれぞれにおいて、各著作者オブジェクト114に関連付けられた著作者の名前を使って検索が実行されることを要求してもよい。こうして、四つのソーシャル・メディア・システム130および10万人の著作者があったとすると、ソーシャル・メディア・システム110は40万の検索を要求しうる。ソーシャル・メディア・システム130は検索の結果を情報収集システム110に提供してもよい。これらおよび他の実施形態において、検索の結果は、著作者オブジェクト114の著作者の名前に少なくとも部分的に一致する名前をもつ所有者のソーシャル・メディア・アカウントのリンクおよび/またはネットワーク・アドレスを含んでいてもよい。
検索からのソーシャル・メディア・アカウントのリンクおよび/またはネットワーク・アドレスを使って、情報収集システム110はソーシャル・メディア・アカウントを要求してもよい。情報収集システム110はまた、各ソーシャル・メディア・アカウントについてソーシャル・メディア・アカウント・オブジェクト116を生成してもよい。ソーシャル・メディア・アカウント・オブジェクト116を生成するために、情報収集システム110はソーシャル・メディア・アカウントから情報をプルし、ソーシャル・メディア・アカウント・オブジェクト116に該情報を格納してもよい。ソーシャル・メディア・アカウント・オブジェクト116は、ソーシャル・メディア・アカウントに関連付けられている人についての情報、たとえば名前、プロフィール・データ、画像および/またはソーシャル・メディア連絡先を含んでいてもよい。情報収集システム110は、ソーシャル・メディア・アカウントにおける投稿のトピックをも取得してもよく、それもソーシャル・メディア・アカウント・オブジェクト116に格納されてもよい。
いくつかの実施形態では、各ウェブ・ホスティング・システム150は種々のウェブページをホストするよう構成されたシステムを含んでいてもよい。たとえば、ウェブ・ホスティング・システム150の一つは、大学またはカレッジに関連する教員または他の人に割かれた一つまたは複数のウェブページを含む大学またはカレッジのウェブ・ホスティング・システムを含んでいてもよい。ウェブ・ホスティング・システム150の別のものは、企業または私的エンティティに雇用されているまたは他の仕方で関連している人に割かれた一つまたは複数のウェブページを含む企業または他の私的なエンティティのウェブ・ホスティング・システムを含んでいてもよい。ウェブ・ホスティング・システム150の別のものは、個人のウェブ・ホスティング・システムを含んでいてもよい。
情報収集システム110は、著作者オブジェクト114における各著作者の名前に基づいて、ウェブページの検索を実行するよう、一般的な検索エンジンに要求してもよい。追加的または代替的に、情報収集システム110は、著作者オブジェクト114における各著作者の名前およびその著作者の所属に基づいて、ウェブページの検索を実行するよう、一般的な検索エンジンに要求してもよい。たとえば、情報収集システム110は、何千、何万または何十万の著作者オブジェクト114を含んでいてもよく、各著作者オブジェクト114は、一人の著作者の名前および任意的にはその著作者の所属を含む。よって、10万人の著作者がいたとすると、情報収集システム110は20万の検索を要求してもよい(著作者の名前についての検索10万と著作者の名前および所属についての検索10万)。ウェブ・ホスティング・システム150は検索の結果を情報収集システム110に提供してもよい。これらおよび他の実施形態において、検索の結果は、個人学術ウェブページ候補のリンクおよび/または一様リソース位置指定子(URL)を含んでいてもよい。
個人学術ウェブページ候補のリンクおよび/またはURLを使って、情報収集システム110は、個人学術ウェブページ候補を要求してもよい。情報収集システム110は、個人学術ウェブページ候補のそれぞれについて個人学術ウェブページ・オブジェクト118を生成してもよい。個人学術ウェブページ・オブジェクト118を生成するために、情報収集システム110は、個人学術ウェブページ候補から情報をプルして、該情報を個人学術ウェブページ・オブジェクト118に格納してもよい。個人学術ウェブページ・オブジェクト118は、個人学術ウェブページ候補に関連付けられた人についての情報、たとえば名前、刊行物、キーワード、トピック、所属、ソーシャル、画像および/またはその他を含んでいてもよい。いくつかの実施形態では、個人学術ウェブページ候補は、たとえば図9aおよび図9bの方法900において記述されるようなさまざまな属性についてパースされ、あるいは他の仕方で解析されてもよい。
情報収集システム110は、著作者オブジェクト114からの情報を、ソーシャル・メディア・アカウント・オブジェクト116および/または個人学術ウェブページ・オブジェクト118からの情報と比較して、著作者オブジェクト114における著作者に関連するソーシャル・メディア・アカウントおよび/または個人学術ウェブページを判別してもよい。たとえば、所与の著作者オブジェクト114について、ソーシャル・メディア・システム130の検索は25個のアカウントを返してもよい。25個のアカウントのソーシャル・メディア・アカウント・オブジェクト116が所与の著作者オブジェクト114および個人ウェブページ・オブジェクト118と比較されて、25個のソーシャル・メディア・アカウントのうちのどれと個人学術ウェブページ候補のどれが所与の著作者オブジェクト114の著作者に関連しているかを判別してもよい。いくつかの実施形態では、著作者がソーシャル・メディア・アカウントに関連していることがありうるのは、その著作者がそのソーシャル・メディア・アカウントの所有者であるときである。いくつかの実施形態では、著作者オブジェクト114の著作者に関連したソーシャル・メディア・アカウントおよび個人ウェブページは、そのソーシャル・メディア・アカウントおよびその個人ウェブページの両方がその著作者に関連していることがありうることを、より高い信頼レベルで確認するために、相互検証されてもよい。そのような相互検証のさまざまな例は図7および図10〜図14に関してより詳細に述べる。
ソーシャル・メディア・アカウントを刊行物システム120からのデジタル文書からの著作者と、個人ウェブページとの相互検証によることも含めてマッチングさせた後、情報収集システム110は、マッチするソーシャル・メディア・アカウントから情報を得てもよい。これらおよび他の実施形態において、情報収集システム110は、ソーシャル・メディア・アカウントを要求し、該ソーシャル・メディア・アカウントをパースして、ソーシャル・メディア・アカウントからの情報を得てもよい。情報収集システム110は、ソーシャル・メディア・アカウントからの情報を照合し、該情報をトピックに基づいて組織化して、該情報を情報収集システム110のユーザーに提供してもよい。たとえば、情報収集システム110は該情報を装置140に提供してもよい。
装置140は、情報収集システム110のユーザーに関連付けられていてもよい。これらおよび他の実施形態において、装置140はいかなる型のコンピューティング・システムを含んでいてもよい。たとえば、装置140はデスクトップ・コンピュータ、タブレット・コンピュータ、携帯電話、スマートフォンまたは他の何らかのコンピュータ・システムを含んでいてもよい。装置140は、ウェブ・ブラウザーをサポートしうるオペレーティング・システムを含んでいてもよい。ウェブ・ブラウザーを通じて、装置140は、情報収集システム110がソーシャル・メディア・システム130のソーシャル・メディア・アカウントから収集した情報を含むウェブページを情報収集システム110に要求してもよい。要求されたウェブページは、装置140のユーザーへの呈示のために装置140のディスプレイ142に表示されてもよい。
いくつかの実施形態では、情報収集システム110は、所与のトピックについての著作者の部分集合のソーシャル・メディア・アカウントから情報を取得し、著作者の前記部分集合に基づいてその情報を呈示してもよい。これらおよび他の実施形態において、ソーシャル・メディア・アカウントは、どのソーシャル・メディア・アカウントがその部分集合に含められてもよいかを識別するためのセンサーとして使われてもよい。たとえば、所与のトピックについて知識がある人物であるとわかっている人々に関連付けられた一つまたは複数のシード・ソーシャル・メディア・アカウントから始めて、それらの知識のある人物によってフォローされているソーシャル・メディア・アカウントのリストが得られてもよい。そのリストから、すでにシード・アカウントであるソーシャル・メディア・アカウントが除去されてもよい。任意的にはまた、全般的なソーシャル・メディア・アカウントを除去する。これらおよび他の実施形態において、リストにおける残りのソーシャル・メディア・アカウントが、知識のあるソーシャル・メディア・アカウントであるかどうかを判定するために解析され、もしそうであれば、シード・ソーシャル・メディア・アカウントとして追加されてもよい。本開示と整合するそのようなプロセスは図16aから図18においてさらに詳細に述べる。
これらおよび他の実施形態において、学習者アカウントであるソーシャル・メディア・アカウントの別の集合が生成されてもよい。たとえば、所与のトピックについて知識のある人物であるとわかっている人々に関連する一つまたは複数のシード・ソーシャル・メディア・アカウントから始めて、それらの知識のある人物をフォローしているソーシャル・メディア・アカウントのリストが得られてもよい。そのリストから、すでにシード・アカウントであるソーシャル・メディア・アカウントが除去されてもよい。任意的にはまた、全般的なソーシャル・メディア・アカウントを除去する。これらおよび他の実施形態において、リストにおける残りのソーシャル・メディア・アカウントが、当該トピックに関心をもっているかどうかを判定するために解析され、もしそうであれば、そのトピックについて学習しようとしている者に関連するソーシャル・メディア・アカウントの第二のリストに追加されてもよい。
いくつかの実施形態では、アカウントが一部をなしているそれぞれのグループに基づいて、第一のコンテンツがシード・ソーシャル・メディア・アカウントに送達されてもよく、第二のコンテンツが前記第二のリストのソーシャル・メディア・アカウントに送達されてもよい。たとえば、シード・ソーシャル・メディア・アカウントは知識ある人物に関連していることがあり、当該トピックについての学術刊行物や書籍の章がシード・ソーシャル・メディア・アカウントには最も好適でありうる。一方、前記第二の集合の学習ソーシャル・メディア・アカウントについては、レクチャー・ノートまたはデモ・ビデオのような、それほど厳格でない素材がより好適であることがある。
いくつかの実施形態では、情報収集システム110は、ソーシャル・メディア・アカウント型に基づいてソーシャル・メディア・アカウントおよびソーシャル・メディア・コンテンツの相互に補強するランキングを決定してもよい。情報収集システム110は、分野固有の知識(たとえば所与のトピックにおける知識)をもつ拡張されたシード・ソーシャル・メディア・アカウントを入力として受けてもよい。拡張されたシード・ソーシャル・メディア・アカウントは、所与のトピックについて知識のある人であることがわかっている人々に関連付けられたシード・ソーシャル・メディア・アカウントと、該知識のある人によってフォローされていてすでにシード・ソーシャル・メディア・アカウントになっているのではないソーシャル・メディア・アカウントとを含む。該知識のある人によってフォローされていてすでにシード・ソーシャル・メディア・アカウントになっているのではないソーシャル・メディア・アカウントは、組織、刊行物、ソフトウェア・ベンダーを含むベンダー、会議などに関連付けられていてもよい。情報収集システム110は、分野固有の知識をもつ前記入力の拡張されたシード・ソーシャル・メディア・アカウントから、ソーシャル・メディア・アカウントのさまざまな型を判別してもよい。たとえば、情報収集システム110は、分野固有の知識をもつソーシャル・メディア・アカウントのさまざまな型を判別するために、判断木のような機械学習ツールを利用してもよい。
いくつかの実施形態では、情報収集システム110は、ランキングを、ソーシャル・メディア・アカウントと、ソーシャル・メディア・アカウントによってプロモーションされるソーシャル・メディア・コンテンツとの間の相互に補強する関係に基づかせてもよい。たとえば、有用情報に富む(informative)ソーシャル・メディア・アカウントは新鮮で良質なコンテンツをプロモーションすることがあり、良質なコンテンツは有用情報に富むソーシャル・メディア・アカウントによってプロモーションされることがある。情報収集システム110は、ソーシャル・メディア・アカウントと該ソーシャル・メディア・アカウントによってプロモーションされるソーシャル・メディア・コンテンツとの間のリンク強さを、相互に補強する関係の基礎として、決定または計算してもよい。たとえば、それぞれのソーシャル・メディア・アカウントおよびそのソーシャル・メディア・アカウントによってプロモーションされるソーシャル・メディア・コンテンツについて、情報収集システム110はリンク強さ(たとえば該プロモーションの強さ)を計算してもよく、ランキングをそのリンク強さに基づかせてもよい。いくつかの実施形態では、情報収集システム110は、前記リンク強さを使ってソーシャル・メディア・アカウントおよびソーシャル・メディア・コンテンツのランキングを決定するために、判断木のような機械学習ツールを利用してもよい。いくつかの実施形態では、情報収集システム110は、リンクを含むプロモーションを考慮するが、リンクを含まないプロモーションは考慮しないのでもよい。
いくつかの実施形態では、情報収集システム110は、リンク強さを決定する際に前記プロモーションのタイムラインを考慮してもよい。たとえば、時間的により早いプロモーションが、時間的により遅いプロモーションよりも高い重みを与えられてもよい。すなわち、より早いプロモーションに関連するリンク強さは、より遅いプロモーションに関連するリンク強さに比べて、より高い重みを与えられてもよい。もう一つの例として、時間的により近時のプロモーションが、時間的により古いプロモーションよりも、より高い重みを与えられてもよい。さらにもう一つの例として、より新しいまたはより近時のコンテンツのプロモーションが、より古いコンテンツのプロモーションよりも、より高い重みを与えられてもよい。
いくつかの実施形態では、情報収集システム110は、リンク強さを決定する際にプロモーションの型を考慮してもよい。たとえば、初期のまたはもとのプロモーションは、初期のプロモーションをプロモーションするプロモーションよりも高い重みを与えられてもよい。いくつかの実施形態では、初期のプロモーションをプロモーションするプロモーションからの重みの一部が、初期のプロモーションに与えられ、あるいは移転されてもよい。
本開示の範囲から外れることなく、システム100に修正、追加または省略がなされてもよい。たとえば、システム100は、情報収集システム110から情報を取得する複数の他の装置を含んでいてもよい。代替的または追加的に、システム100は一つのソーシャル・メディア・システムを含んでいてもよい。
図2は、本稿に記載される少なくとも一つの実施形態に基づく、情報を識別し、抽出するために使用されうる例示的なフロー200の図である。いくつかの実施形態では、フロー200は、ソーシャル・メディア・アカウントから情報を識別および抽出するよう構成されていてもよい。特に、フロー200は、あるソーシャル・メディア・アカウントがあるデジタル文書の著作者に関連しているかどうかを判定するよう構成されていてもよい。これらおよび他の実施形態において、フロー200の一部または全部は、図1のシステム100の動作の例でありうる。
フロー200はブロック210で始まってもよい。ここで、デジタル文書212が取得されてもよい。デジタル文書212は一つまたは複数の源、たとえばウェブサイトまたは他の源から取得されてもよい。デジタル文書212は刊行物、レクチャー、論文または他の文書を含んでいてもよい。いくつかの実施形態では、デジタル文書212は最近の文書、たとえばここ一週間、一か月または数か月など特定の期間内に公表された文書を含んでいてもよい。
ブロック220では、デジタル文書212の全部または一部の著作者プロフィール・データおよびトピックが、トピック・モデル解析のような方法を使って抽出されてもよい。デジタル文書212の一つまたは複数における著作者についての著作者プロフィール・データは、抽出され、著作者オブジェクト222に格納されてもよい。いくつかの実施形態では、著作者プロフィール・データは、著作者のフルネーム、著作者の所属、著作者の肩書き、共著者、著作者の文書画像および著作者の専門分野もしくは関心領域の記述を含んでいてもよい。著作者の所属は、著作者が関係している企業、大学または他のエンティティに関係していてもよい。著作者の肩書きは、著作者の等級または地位を含んでいてもよい。たとえば、著作者は博士、研究マネージャー、上級研究員、教授、講師および/または他の肩書きを有することがありうる。著作者プロフィール・データを抽出するために、デジタル文書212は、著作者プロフィール・データに関連するキーワードについて、パースされ、検索されてもよい。
いくつかの実施形態では、デジタル文書212に対してトピック・モデル解析が実行されてもよい。いくつかの実施形態では、トピック・モデル解析は、判別されうるいくつかのトピックを含んでいてもよく、デジタル文書212はそれらのトピックのうちのどれがデジタル文書212にあるかを判別するために解析されてもよい。これらおよび他の実施形態において、トピック・モデル解析は、各トピックについて、デジタル文書212からの単語分布を出力してもよい。代替的または追加的に、各デジタル文書についての単語分布が決定されてもよい。こうして、各デジタル文書212について一つまたは複数のトピックが決定されてもよい。いくつかの実施形態ではデジタル文書212の一つまたは複数が複数のトピックを含んでいてもよい。いくつかの実施形態では、各デジタル文書212についてのトピックは著作者オブジェクト222に格納されてもよい。
ブロック230において、著作者オブジェクト222からの著作者について、ソーシャル・メディアが検索されてもよい。いくつかの実施形態では、ソーシャル・メディアは、著作者のフルネームを使って検索されてもよい。著作者の検索は、デジタル文書212の著作者によって所有されている、運営されているまたは該著作者に関連していることがありうるソーシャル・メディア・アカウント232を同定しうる。
ブロック240では、ソーシャル・メディア・アカウント232からソーシャル・メディア・プロフィール・データが抽出されてもよい。ソーシャル・メディア・プロフィール・データは著作者データと同様であってもよい。たとえば、ソーシャル・メディア・プロフィール・データは、そのソーシャル・メディア・アカウントを所有している、運営しているまたはそのアカウントに関連付けられている人についての情報を含んでいてもよい。ソーシャル・メディア・アカウントを所有している、運営しているまたはそのアカウントに関連付けられている人は、ソーシャル・メディア・アカウント所有者と称されてもよい。ソーシャル・メディア・プロフィール・データは、ソーシャル・メディア・アカウント所有者についての名前、所属、位置、肩書き、専門分野、ソーシャル・メディア画像、関心領域の記述および/または他の情報を含んでいてもよい。いくつかの実施形態では、ソーシャル・メディア・プロフィール・データは、ソーシャル・メディア・アカウントを所有する人についてのバイオグラフィー、プロフィールまたは他の情報などといった、ソーシャル・メディア・アカウントへの投稿ではないソーシャル・メディア・アカウントからの単語をパースおよび解析することによって収集されてもよい。
いくつかの実施形態では、ソーシャル・メディア・アカウント232につながっているいくつかのソーシャル・メディア・アカウントが判別されてもよい。代替的または追加的に、ソーシャル・メディア・アカウント232につながっているそれらのソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者が同定されてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント232によって言及されているいくつかのソーシャル・メディア・アカウントが判別されてもよい。代替的または追加的に、ソーシャル・メディア・アカウント232によって言及されているそれらのソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者が同定されてもよい。ソーシャル・メディア・アカウント232につながっているおよび/または言及されているそれらの所有者についての情報は、ソーシャル・メディア相互作用データの一部であってもよい。
いくつかの実施形態では、ソーシャル・メディア・アカウント232に言及されているまたはつながっているソーシャル・メディア・アカウントのうちの一つまたは複数についてのソーシャル・メディア・アカウント所有者の専門分野が判別されてもよい。これらまたは他の実施形態において、言及されているまたはつながっているソーシャル・メディア・アカウントがアクセスされてもよい。言及されているまたはつながっているソーシャル・メディア・アカウントの所有者の専門分野が判別されてもよい。いくつかの実施形態では、専門分野は、ソーシャル・メディア・アカウント所有者のプロフィールにおける記述に基づいて判別されてもよい。代替的または追加的に、専門分野は、言及されているまたはつながっているソーシャル・メディア・アカウントの投稿のトピックに基づいて判別されてもよい。
いくつかの実施形態では、ソーシャル・メディア・アカウント232での投稿のトピックも判別されてもよい。投稿のトピックを判別するためには、閾値単語数より短い投稿は除去されてもよい。閾値単語数はソーシャル・メディアの形に依存してもよい。たとえば、ソーシャル・メディアがマイクロブログであれば、閾値数は、ブログについての閾値数より小さくてもよい。
ソーシャル・メディア・アカウント232での投稿に加えて、ソーシャル・メディア・アカウント232での投稿によってリンクされたコンテンツが、ソーシャル・メディア・アカウント232のトピック(複数または単数)を判別するために使われてもよい。これらおよび他の実施形態において、ソーシャル・メディア・アカウント232の投稿内のリンクがアクセスされて、コンテンツが収集されてもよい。具体的には、マイクロブログであるソーシャル・メディア・アカウント232の投稿内のリンクがアクセスされて、コンテンツが収集されてもよい。収集されたコンテンツおよび投稿はまとめられてもよい。まとめられたコンテンツのトピック分布を決定するためにトピック・モデル解析が適用されてもよい。トピック・モデルを使って、ソーシャル・メディア・アカウント232のトピック分布が決定されてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント232の投稿におけるリンクから収集されたコンテンツの著作者も収集されてもよい。ソーシャル・メディア・プロフィール・データ、ソーシャル・メディア相互作用データおよびトピックは、ソーシャル・メディア・アカウント・オブジェクト242として記憶されてもよい。
ブロック250では、著作者オブジェクト222からの著作者の名前を使う検索から帰結する、ソーシャル・メディア・アカウント232に関連付けられたソーシャル・メディア・アカウント・オブジェクト242は、著作者オブジェクト222と比較されて、さまざまなスコアを生成する。スコアは、名前スコア252、プロフィール・スコア254、コンテンツ・スコア256および相互作用スコア258を含む。
名前スコア252は、著作者オブジェクト222からの名前とソーシャル・メディア・アカウント・オブジェクト242からの名前の比較に基づいて決定されてもよい。それらの名前が完全に一致する場合、名前スコア252は第一の値であってもよい。それらの名前が部分的に一致する場合、名前スコア252は第二の値であってもよく、それらの名前の短縮が一致する場合には、名前スコア252は第三のスコアであってもよい。名前の間に一致がない場合には、名前スコア252は0であってもよい。第一、第二および第三のスコアについての値は、アドホックなヒューリスティック規則または統計的機械学習に基づいて決定されてもよい。
プロフィール・スコア254は、著作者オブジェクト222およびソーシャル・メディア・アカウント・オブジェクト242からの以下のもののうち一つまたは複数の比較に基づいて決定されてもよい:肩書き、所属、専門分野の記述、画像および位置。これらおよび他の実施形態において、著作者オブジェクト222からの著作者の位置およびソーシャル・メディア・アカウント・オブジェクト242からのソーシャル・メディア・アカウント所有者の位置はそれぞれの所属から推定されてもよい。これらおよび他の実施形態において、著作者およびソーシャル・メディア・アカウント所有者の肩書き、所属、画像、専門分野の記述および位置が比較されてもよい。
いくつかの実施形態では、著作者オブジェクト222からの文書画像が顔認識アルゴリズムを使って解析されてもよい。たとえば、著作者オブジェクト222からの文書画像は著作者の画像であることがある。ソーシャル・メディア・アカウント・オブジェクト242からのソーシャル・メディア画像も顔認識アルゴリズムを使って解析されてもよい。たとえば、ソーシャル・メディア・アカウント・オブジェクト242からのソーシャル・メディア画像は、ソーシャル・メディア・アカウント232の所有者の画像であることがある。いくつかの実施形態では、著作者オブジェクト222からの文書画像の解析からの結果が、ソーシャル・メディア・アカウント・オブジェクト242からのソーシャル・メディア画像の解析からの結果と比較されてもよい。比較は、それらの画像が同じ人物を含んでいる確からしさの指標を与えてもよい。それらの画像が同じ人物を含んでいる確からしさの該指標が、プロフィール・スコア254を生成するために使われてもよい。
いくつかの実施形態では、著作者オブジェクト222からの肩書き、所属、専門分野の記述、文書画像の解析および位置は、著作者プロフィール・ベクトルに入れられてもよい。同様に、ソーシャル・メディア・アカウント・オブジェクト242からの肩書き、所属、専門分野の記述、ソーシャル・メディア画像の解析および位置は、ソーシャル・メディア・アカウント・プロフィール・ベクトルに入れられてもよい。著作者プロフィール・ベクトルとソーシャル・メディア・プロフィール・ベクトルはベクトル空間モデリングを使って比較されてもよい。ベクトル空間モデリングの結果が前記プロフィール・スコア254であってもよい。いくつかの実施形態では、プロフィール・スコア254は肩書き、所属、専門分野および位置の間の比較の別の集積に基づいていてもよい。たとえば、各比較は同じまたは異なる重みを与えられてもよく、比較のスコアは線形結合において一緒に加算されてもよい。
コンテンツ・スコア256は、著作者オブジェクト222からの著作者に関連付けられた前記デジタル文書212のトピックと、ソーシャル・メディア・アカウント・オブジェクト242からのソーシャル・メディア・アカウントの主要トピックとの比較に基づいて決定されてもよい。いくつかの実施形態では、投稿においてリンクされたコンテンツの著作者が著作者オブジェクト222からの著作者および/または共著者に一致するときに、コンテンツ・スコア256が増大させられてもよい。
いくつかの実施形態では、著作者に関連付けられた前記デジタル文書212のトピックと、ソーシャル・メディア・アカウント・オブジェクトからのソーシャル・メディア・アカウントの主要トピックとを比較するために、著作者に関連付けられた各デジタル文書212が単語の集合(bag-of-words)ベクトルにおいて呈示されてもよい。著作者に関連付けられた諸デジタル文書212の重心ベクトルは、諸デジタル文書212についての諸単語の集合ベクトルの平均を使って決定されてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント232からの各投稿も単語の集合ベクトルとして呈示されてもよい。ソーシャル・メディア・アカウント232の投稿全部の重心ベクトルが、それらの投稿についての単語の集合ベクトル全部の平均を使って決定されてもよい。ソーシャル・メディア・アカウント232の投稿の重心ベクトルと著作者オブジェクト222のデジタル文書212の重心ベクトルとの間の類似性スコアS_bowを計算するために、ベクトル空間モデルが使われてもよい。
いくつかの実施形態では、著作者のデジタル文書232全部のトピック分布が、著作者トピック・ベクトルを形成するために使われてもよい。ソーシャル・メディア・アカウント232の投稿全部のトピック分布が投稿トピック・ベクトルを形成するために使われてもよい。ベクトル空間モデルは、著作者トピック・ベクトルと投稿トピック・ベクトルとの間の類似性スコアS_topicを計算するために使われてもよい。著作者オブジェクト212からの著作者がソーシャル・メディア・アカウントの投稿に埋め込まれたリンクから抽出された文書の著作者でもある回数が数N_authorであってもよい。いくつかの実施形態では、コンテンツ・スコアは次の式によって表わされてもよい:a*S_bow+b*S_topic+c*log(N_author+1)。ここで、a,b,cは数であり、a+b+c=1である。
相互作用スコア258は、デジタル文書212の共著者と、ソーシャル・メディア・アカウント232においてつながっているおよび言及されているソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者との間の相関に基づいて決定されてもよい。これらおよび他の実施形態では、ソーシャル・メディア・アカウント232において言及されているソーシャル・メディア・アカウント所有者であって共著者である人の数が決定され、言及アカウント数と称されてもよい。ソーシャル・メディア・アカウント232につながっているソーシャル・メディア・アカウント所有者であって共著者である人の数が決定され、つながりアカウント数と称されてもよい。いくつかの実施形態では、相互作用スコア258は、言及アカウント数とつながりアカウント数の線形結合であってもよい。いくつかの実施形態では、言及アカウント数およびつながりアカウント数のそれぞれは異なる重みをかけられてもよい。言及アカウント数およびつながりアカウント数についての重みは、アドホックなヒューリスティック規則および統計的機械学習に基づいて決定されてもよい。
いくつかの実施形態では、相互作用スコア258は、言及アカウント数と、つながりアカウント数と、その著作者の専門分野に比べたつながっているおよび言及されているソーシャル・アカウントのソーシャル・メディア・アカウント所有者の平均専門分野スコアおよび/またはコンテンツ・スコアとに基づいて決定されてもよい。
たとえば、いくつかの実施形態では、共著者として識別されたつながっているソーシャル・メディア・アカウントの数はN_connectedと表わされてもよい。共著者として識別された言及されたソーシャル・メディア・アカウントの数はN_mentionedと表わされてもよい。他のつながっているソーシャル・アカウントと当該著作者との間の平均専門分野スコアおよび/またはコンテンツ・スコアはS_average_connectedと表わされてもよい。他の言及されているソーシャル・アカウントと当該著作者との間の平均専門分野スコアおよび/またはコンテンツ・スコアはS_average_mentionedによって表わされてもよい。
これらおよび他の実施形態において、相互作用スコア258は次の式に基づいていてもよい:P1*log(N_connected+1)+P2*log(N_mentioned+1)+P3*S_average_connected+P4*S_average_mentioned。ここで、P1,P2,P3,P4は数であり、P1+P2+P3+P4=1である。
ブロック260では、ソーシャル・メディア・アカウント232のソーシャル・メディア・アカウント所有者が著作者オブジェクト222からの著作者と同じであるかどうかが、名前スコア252、プロフィール・スコア254、コンテンツ・スコア256および相互作用スコア258を使って判定されてもよい。いくつかの実施形態では、判定は、名前スコア252、プロフィール・スコア254、コンテンツ・スコア256および相互作用スコア258の線形結合に基づいて行なわれてもよい。たとえば、名前スコア252、プロフィール・スコア254、コンテンツ・スコア256および相互作用スコア258の線形結合が閾値より上であるとき、ソーシャル・メディア・アカウント232のソーシャル・メディア・アカウント所有者が著作者オブジェクト222からの著作者と同じであると判定されてもよい。いくつかの実施形態では、閾値は、諸一致の以前の認証(authentication)に基づいて決定されてもよい。たとえば、フロー200の複数の逐次反復が異なる著作者について決定されてもよく、フロー200の外部で一致が判定されてもよい。特定の信頼度での閾値スコアが、それら複数の逐次反復に基づいて選択されてもよい。
いくつかの実施形態では、名前スコア252、プロフィール・スコア254、コンテンツ・スコア256および相互作用スコア258のそれぞれは異なる重みをかけられてもよい。これらおよび他の実施形態において、異なるスコアについての重みは、統計的機械学習または他の何らかのアルゴリズムを使って決定されてもよい。たとえば、機械学習アルゴリズムが、あらかじめ判定された一致および非一致に基づいてトレーニングされてもよい。トレーニングされた後、機械学習アルゴリズムは個別のスコアのそれぞれを入力として受け取ってもよく、それらのスコアに重み付けして線形結合にしてもよく、ソーシャル・メディア・アカウント232のソーシャル・メディア・アカウント所有者が著作者オブジェクト222からの著作者と同じである確からしさを決定してもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント232のソーシャル・メディア・アカウント所有者が著作者オブジェクト222からの著作者と同じである確からしさが閾値より上であるとき、機械学習アルゴリズムは一致があることを示してもよい。いくつかの実施形態では、閾値は、フロー200の以前の経験または逐次反復に基づいてユーザー選択され、あるいは他の仕方で決定されてもよい。
本開示の範囲から外れることなくフロー200に修正、追加または省略がなされてもよい。たとえば、いくつかの実施形態では、フロー200は複数のソーシャル・メディア・アカウント232を含んでいてもよい。これらおよび他の実施形態において、それぞれのソーシャル・メディア・アカウント232についてソーシャル・メディア・アカウント・オブジェクト242が生成されてもよく、著作者オブジェクト222は、一致を判別するためにそれぞれのソーシャル・メディア・アカウント・オブジェクト242に個々に比較されてもよい。いくつかの実施形態では、著作者が単一のソーシャル・メディア・アカウント232のソーシャル・メディア・アカウント所有者であると判別される場合、その著作者についての検索から帰結する諸ソーシャル・メディア・アカウント232については他のソーシャル・メディア・アカウント・オブジェクト242は生成されなくてもよい。
いくつかの実施形態では、異なるソーシャル・メディア・アカウント232のそれぞれについてのソーシャル・メディア・アカウント・オブジェクト242は、著作者オブジェクト222との比較より前に決定されてもよい。代替的または追加的に、単一のソーシャル・メディア・アカウント232のソーシャル・メディア・アカウント・オブジェクト242が生成され、次いで該単一のソーシャル・メディア・アカウント232に帰結した著作者に関連付けられた著作者オブジェクト222と比較され、諸スコアが生成され、一致が判定されることが、他のソーシャル・メディア・アカウント・オブジェクト242が生成される前に行なわれてもよい。
いくつかの実施形態では、デジタル文書212は複数の著作者を含んでいてもよい。これらおよび他の実施形態において、各著作者についての著作者プロフィール・データが収集され、異なる著作者オブジェクト222を生成するために使われてもよい。異なる著作者オブジェクト222のそれぞれについてソーシャル・メディアの検索が行なわれてもよい。要するに、フロー200は、情報の識別および抽出のためのデータ・フローの単に一例であり、本開示はそれに限定されない。
図3aおよび図3bは、本稿に記載される少なくとも一つの実施形態に基づく情報の識別および抽出の例示的方法300のフローチャートを示している。いくつかの実施形態では、方法300に関連する動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法300はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法300に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法300のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
方法300はブロック302で始まってもよい。ここで、処理システムを使って、複数のデジタル文書が一つまたは複数の源から得られてもよい。デジタル文書は、最近の文書、たとえばここ一週間、一か月または数か月など特定の最近の時間期間内に公表された文書を含んでいてもよい。ブロック304では、各デジタル文書のトピックが、トピック・モデル解析を使って判別されてもよい。
ブロック306では、デジタル文書の著作者が判別されてもよい。いくつかの実施形態では、著作者の判別は、デジタル文書において著作者として示されている人々の名前を抽出することを含んでいてもよい。これらおよび他の実施形態において、デジタル文書は、ある名前がそのデジタル文書の著作者であることを示す単語を求めてパースおよび検索されてもよい。いくつかの実施形態では、各著作者についてデータベースから著作者オブジェクトが得られてもよい。いくつかの実施形態では、著作者オブジェクトを得ることは、著作者オブジェクトを生成すること、あるいは同じ名前をもつデータベース内の既存の著作者オブジェクトを検索し位置特定することを含んでいてもよい。
ブロック308では、著作者が選択されてもよい。ブロック310では、選択された著作者についてのメタデータが得られてもよい。いくつかの実施形態では、メタデータはその著作者を含む諸デジタル文書から得られてもよい。いくつかの実施形態では、メタデータは、著作者プロフィール・データおよびその著作者を含む諸デジタル文書のトピックであってもよい。メタデータは、その著作者に関連付けられた著作者オブジェクトにおいて保存されてもよい。
ブロック312では、ソーシャル・メディアが選択されてもよい。ブロック314では、選択されたソーシャル・メディアが選択された著作者の名前を使って検索されてもよい。検索はその著作者に関連していることがありうる複数のソーシャル・メディア・アカウントを返してもよい。ブロック316では、それらのソーシャル・メディア・アカウントの一つが選択されてもよい。
ブロック318では、選択されたソーシャル・メディア・アカウントのソーシャル・メディア・アカウント・メタデータが得られてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント・メタデータは、選択されたソーシャル・メディア・アカウントから得られてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント・メタデータは、選択されたソーシャル・メディア・アカウントのソーシャル・メディア・アカウント・プロフィール・データおよび投稿のトピック(単数または複数)、リンクされた文書および他の側面であってもよい。ソーシャル・メディア・アカウント・メタデータは、選択されたソーシャル・メディア・アカウントに関連付けられた著作者オブジェクトにおいて保存されてもよい。
ブロック320では、選択されたソーシャル・メディア・アカウントと選択された著作者との間の比較に基づいてスコアが生成されてもよい。いくつかの実施形態では、それらのスコアはソーシャル・メディア・アカウント・オブジェクトと著作者オブジェクトの比較に基づいて生成されてもよい。いくつかの実施形態では、スコアは、名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアのうちの一つまたは複数を含んでいてもよい。
ブロック322では、ブロック314でのソーシャル・メディアの検索から帰結した他のソーシャル・メディア・アカウントでまだ選択されていないものがあるかどうかが判定されてもよい。他の選択されていないソーシャル・メディア・アカウントがあるとき、方法300はブロック316に進んでもよく、選択されていないソーシャル・メディア・アカウントのうちのもう一つのものが選択されうる。他の選択されていないソーシャル・メディア・アカウントがないときは、方法300はブロック324に進んでもよい。
ブロック324では、選択された著作者が選択されたソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者であるかどうかが、ブロック320において各ソーシャル・メディア・アカウントについて生成されたスコアを使って判定されてもよい。いくつかの実施形態では、選択されたソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者のうちの誰が前記選択された著作者であるかが、各ソーシャル・メディア・アカウントについて生成されたスコアを比較することによって判定されてもよい。これらおよび他の実施形態において、最も高いスコアをもつソーシャル・メディア・アカウントが、選択された著作者のソーシャル・メディア・アカウントであると判定されてもよい。代替的または追加的に、ある選択閾値より高いスコアをもつソーシャル・メディア・アカウントが、選択された著作者のソーシャル・メディア・アカウントであると判定されてもよい。選択閾値は、他の型の解析もあるが、機械学習、以前の経験に基づいていてもよい。選択された著作者が選択されたソーシャル・メディア・アカウントのうちの一つのソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者である場合、選択された著作者および選択されたソーシャル・メディア・アカウントのうちの該一つのソーシャル・メディア・アカウントは、著作者オブジェクトおよびソーシャル・メディア・アカウント・オブジェクトを含むデータベースにおいて関連付けられてもよい。
ブロック326では、ブロック312でまだ選択されていない他のソーシャル・メディアがあるかどうかが判定されてもよい。たとえば、方法300は、著作者を、複数の異なるソーシャル・メディアにおけるソーシャル・メディア・アカウントと照合するよう構成されていてもよい。他の選択されていないソーシャル・メディアがあるときは、方法300はブロック312に進んでもよく、選択されていないソーシャル・メディアのうちの別のものが選択されてもよい。他の選択されていないソーシャル・メディアがないときは、方法300はブロック328に進んでもよい。
ブロック328では、ブロック306において判別されたデジタル文書からの他の著作者であってまだ選択されていない人があるかどうかが判定されてもよい。他の選択されていない著作者があるときは、方法300はブロック308に進んでもよく、選択されていない著作者のうち別の人が選択されてもよい。他の選択されていない著作者がないときは、方法300はブロック330に進んでもよい。
ブロック330では、データベースにおいて著作者に関連付けられているソーシャル・メディア・アカウントでの新たな投稿が抽出されてもよい。新たな投稿を抽出するために、データベースはソーシャル・メディア・アカウントについてのネットワーク・アドレスを含んでいてもよい。システムは、そのネットワーク・アドレスを使ってソーシャル・メディア・アカウントまでナビゲートして、最近の時間期間からの投稿を、あるいはソーシャル・メディア・アカウントから以前に抽出された投稿がある場合には最後の投稿抽出以降の投稿を、抽出してもよい。
ブロック332では、新たな投稿から抽出された情報が組織化されてもよい。いくつかの実施形態では、該情報は、該情報が抽出されたソーシャル・メディア・アカウントに関連付けられた著作者の専門分野に基づいて組織化されてもよい。
ブロック334では、組織化されたデータが、それらのソーシャル・メディア・アカウントに関連付けられた著作者の専門分野に基づいて提供されてもよい。いくつかの実施形態では、該情報は、ウェブページを通じて提供されてもよい。
当業者は、このプロセスおよび方法ならびに本稿に開示される他のプロセスおよび方法のために、それらのプロセスおよび方法において実行される機能が異なる順序で実装されてもよいことを理解するであろう。さらに、概説された段階および動作は単に例として与えられているのであって、開示される実施形態の本質を損なうことなく、段階および動作のいくつかが任意的であったり、より少数の段階および動作に組み合わされたり、あるいは追加的な段階および動作に展開されたりしてもよい。
図4は、本稿に記載される少なくとも一つの実施形態に基づく、情報の識別および抽出の例示的方法400のフローチャートである。いくつかの実施形態では、方法400に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法400はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法400に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法400のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
方法400はブロック402で始まってもよい。ここで、複数のデジタル文書の各著作者について、データベースにおいて著作者オブジェクトが生成されてもよい。複数のデジタル文書は一つまたは複数の源から得られてもよい。いくつかの実施形態では、著作者プロフィール・データは、著作者の肩書き、著作者の所属、著作者の専門分野および著作者の位置を含んでいてもよい。いくつかの実施形態では、著作者オブジェクトの生成は、名前、著作者プロフィール・データおよび共著者をデジタル文書から抽出することを含んでいてもよい。
ブロック404では、あるソーシャル・メディアにおける諸ソーシャル・メディア・アカウントの指示(an indication)が得られてもよい。該指示は、前記ソーシャル・メディアにおける著作者オブジェクト内の著作者の名前の検索に基づいていてもよい。
ブロック406では、著作者オブジェクトからの名前と、ソーシャル・メディア・アカウントに基づいて生成されたソーシャル・メディア・アカウント・オブジェクトからのソーシャル・メディア名前との比較に基づいて、名前スコアが生成されてもよい。
ブロック408では、著作者オブジェクトからの著作者プロフィール・データと、ソーシャル・メディア・アカウント・オブジェクトからのソーシャル・メディア・プロフィール・データとの比較に基づいて、プロフィール・スコアが生成されてもよい。いくつかの実施形態では、著作者プロフィール・データとソーシャル・メディア・プロフィール・データとの比較は、著作者プロフィール・データを使って著作者ベクトルを構築し、ソーシャル・メディア・プロフィール・データを使ってソーシャル・メディア・ベクトルを構築し、著作者ベクトルとソーシャル・メディア・ベクトルとの間の類似性を計算することを含んでいてもよい。ここで、計算された類似性がプロフィール・スコアである。
ブロック410では、ソーシャル・メディア・アカウントでの投稿からのトピックと、著作者オブジェクトからの著作者に関連付けられたデジタル文書のそれぞれについてのトピックとの比較に基づいて、コンテンツ・スコアが生成されてもよい。
ブロック412では、ソーシャル・メディア・アカウントにおけるソーシャルつながりと、著作者オブジェクトからの著作者に関連付けられたデジタル文書のそれぞれについての共著者との評価に基づいて、相互作用スコアが生成されてもよい。
ブロック414では、そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連しているかどうかが、名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアに基づいて判定されてもよい。いくつかの実施形態では、そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連しているかどうかを名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアに基づいて判定することは、名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアのそれぞれに重みを割り当てることを含んでいてもよい。判定はさらに、重み付けされた名前スコア、重み付けされたプロフィール・スコア、重み付けされたコンテンツ・スコアおよび重み付けされた相互作用スコアを線形結合して、該線形結合を機械学習アルゴリズムに適用して、そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連付けられているかどうかを判定することを含んでいてもよい。
ブロック416では、各著作者オブジェクトの著作者に関連したソーシャル・メディア・アカウントからの新たな投稿からデータが抽出されてもよい。ブロック418では、デジタル文書のトピックに基づいて組織化された該データが提供されてもよい。
たとえば、方法400はさらに、ソーシャル・メディア・アカウントでの投稿からトピックを判別することを含んでいてもよい。いくつかの実施形態では、トピックの判別は、閾値単語数より短い投稿を除去することと、投稿内の埋め込まれたリンクからコンテンツを取得することとを含んでいてもよい。トピックの判別はさらに、該コンテンツをまとめ、まとめコンテンツのトピック分布を判別することを含んでいてもよい。
いくつかの実施形態では、方法400はさらに、前記複数のデジタル文書を一つまたは複数の源から取得し、各デジタル文書のトピックをトピック・モデル解析を使って決定することを含んでいてもよい。
図5は、本稿に記載される少なくとも一つの実施形態に基づく、情報の識別および抽出の例示的方法500のフローチャートである。いくつかの実施形態では、方法500に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法500はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法500に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法500のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
方法500はブロック502で始まってもよい。ここで、複数のデジタル文書の各著作者について、データベースにおいて著作者オブジェクトが生成されてもよい。複数のデジタル文書は一つまたは複数の源から得られてもよい。いくつかの実施形態では、著作者プロフィール・データは、著作者の肩書き、著作者の所属、著作者の専門分野および著作者の位置を含んでいてもよい。いくつかの実施形態では、著作者オブジェクトの生成は、名前、著作者プロフィール・データおよび共著者をデジタル文書から抽出することを含んでいてもよい。
ブロック504では、あるソーシャル・メディアにおける諸ソーシャル・メディア・アカウントの指示(an indication)が、前記ソーシャル・メディアにおける著作者オブジェクト内の著作者の名前の検索に基づいて得られてもよい。
ブロック506では、そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連しているかどうかが、次のうちの二つ以上に基づいて判定されてもよい:名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコア。
いくつかの実施形態では、そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連しているかどうかを名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアに基づいて判定することは、名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアのそれぞれに重みを割り当て、重み付けされた名前スコア、重み付けされたプロフィール・スコア、重み付けされたコンテンツ・スコアおよび重み付けされた相互作用スコアを線形結合することを含んでいてもよい。判定はまた、該線形結合を機械学習アルゴリズムに適用して、そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連しているかどうかを判定することを含んでいてもよい。
いくつかの実施形態では、名前スコアは、著作者オブジェクトからの名前と、ソーシャル・メディア・アカウントに基づいて生成されたソーシャル・メディア・アカウント・オブジェクトからのソーシャル・メディア名前との比較に基づいて生成されてもよい。
いくつかの実施形態では、プロフィール・スコアは、著作者オブジェクトからの著作者プロフィール・データと、ソーシャル・メディア・アカウント・オブジェクトからのソーシャル・メディア・プロフィール・データとの比較に基づいて生成されてもよい。いくつかの実施形態では、著作者プロフィール・データとソーシャル・メディア・プロフィール・データとの比較は、著作者プロフィール・データを使って著作者ベクトルを構築し、ソーシャル・メディア・プロフィール・データを使ってソーシャル・メディア・ベクトルを構築し、著作者ベクトルとソーシャル・メディア・ベクトルとの間の類似性を計算することを含んでいてもよい。いくつかの実施形態では、計算された類似性がプロフィール・スコアであってもよい。
いくつかの実施形態では、コンテンツ・スコアは、ソーシャル・メディア・アカウントでの投稿からのトピックと、著作者オブジェクトからの著作者に関連付けられたデジタル文書のそれぞれについてのトピックとの比較に基づいて生成されてもよい。
相互作用スコアは、ソーシャル・メディア・アカウントにおけるソーシャルつながりと、著作者オブジェクトからの著作者に関連付けられたデジタル文書のそれぞれについての共著者との評価に基づいて生成されてもよい。
たとえば、方法500はさらに、ソーシャル・メディア・アカウントでの投稿からトピックを判別することを含んでいてもよい。いくつかの実施形態では、トピックの判別は、閾値単語数より短い投稿を除去し、投稿内の埋め込まれたリンクからコンテンツを取得し、該コンテンツをまとめ、まとめコンテンツのトピック分布を判別することを含んでいてもよい。
〈ソーシャル・メディア・アカウントと個人学術ウェブページの相互検証〉
一つまたは複数の実施形態において、本開示はソーシャル・メディア・アカウントの、個人学術ウェブページとの相互検証を含んでいてもよい。たとえば、複数の候補ソーシャル・メディア・アカウントのうちのあるソーシャル・メディア・アカウントが実際にある人物に属するかどうかを判定する際に、その人物の個人学術ウェブページとその人物のソーシャル・メディア・アカウントが、両者を相互検証しうる共通の情報または他の側面を含むことがある。それにより、両者がたしかにその人物に関連していると確証されうる。そのような相互検証の使用の例示的な実装が図6〜図15においてさらに詳細に記述される。
図6は、本開示の一つまたは複数の実施形態に基づく、情報の識別および抽出に関して使用されうる例示的なフロー600の図を示している。いくつかの実施形態では、フロー600は、ソーシャル・メディア・アカウントからの情報を識別し、抽出するよう構成されていてもよい。特に、フロー600は、ソーシャル・メディア・アカウントおよび/または個人学術ウェブページがデジタル文書の著作者に関連付けられているかどうかを判定するよう構成されていてもよい。これらおよび他の実施形態において、フロー600の一部は図1のシステム100の動作の例であってもよい。
フロー600は、ブロック610、612、620、622、630および632を含んでいてもよく、これらはそれぞれ図2のブロック210、212、220、222、230および232と同様または同等であってもよい。図2を参照しての対応するブロックの全記述は図6のこれらのブロックにも等しく適用可能である。
ブロック640を参照するに、ソーシャル・メディア・アカウント632からソーシャル・メディア・プロフィール・データが抽出されてもよい。ソーシャル・メディア・プロフィール・データは著作者データと同様であってもよい。たとえば、ソーシャル・メディア・プロフィール・データは、ソーシャル・メディア・アカウントを所有する、運営するまたはそれに関連付けられている人についての情報を含んでいてもよい。ソーシャル・メディア・アカウントを所有している、運営しているまたはそのアカウントに関連付けられている人は、ソーシャル・メディア・アカウント所有者と称されてもよい。ソーシャル・プロフィール・データは、ソーシャル・メディア・アカウント所有者についての名前、所属、位置、肩書き、専門分野、ソーシャル・メディア画像、個人ウェブページURLまたは関心領域の記述および他の情報を含んでいてもよい。いくつかの実施形態では、ソーシャル・プロフィール・データは、ソーシャル・メディア・アカウントを所有する人についてのバイオグラフィー、プロフィールまたは他の情報などといった、ソーシャル・メディア・アカウントへの投稿ではないソーシャル・メディア・アカウントからの単語をパースおよび解析することによって収集されてもよい。
いくつかの実施形態では、ソーシャル・メディア・アカウント632につながっているいくつかのソーシャル・メディア・アカウントが判別されてもよい。代替的または追加的に、ソーシャル・メディア・アカウント632につながっているそれらのソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者が同定されてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント632から情報を得ているいくつかのソーシャル・メディア・アカウントが判別されてもよい。代替的または追加的に、ソーシャル・メディア・アカウント632によってフォローされているソーシャル・メディア・アカウントのソーシャル・メディア・アカウント所有者が同定されてもよい。いくつかの実施形態では、第二のソーシャル・メディア・アカウントから情報を得る第一のソーシャル・メディア・アカウントは、第一のソーシャル・メディア・アカウントが第二のソーシャル・メディア・アカウントをフォローし、第二の第一のソーシャル・メディア・アカウントが第一のソーシャル・メディア・アカウントによってフォローされていると称されてもよい。
いくつかの実施形態では、ソーシャル・メディア・アカウント632に言及されているまたはつながっているソーシャル・メディア・アカウントのうちの一つまたは複数についてのソーシャル・メディア・アカウント所有者の専門分野が判別されてもよい。これらまたは他の実施形態において、つながっているソーシャル・メディア・アカウントがアクセスされてもよい。つながっているソーシャル・メディア・アカウントの所有者の専門分野が判別されてもよい。いくつかの実施形態では、専門分野は、ソーシャル・メディア・アカウント所有者のプロフィールにおける記述に基づいて判別されてもよい。代替的または追加的に、専門分野は、つながっているソーシャル・メディア・アカウントの投稿のトピックに基づいて判別されてもよい。
いくつかの実施形態では、ソーシャル・メディア・アカウント632での投稿のトピックも判別されてもよい。投稿のトピックを判別するためには、閾値単語数より短い投稿は除去されてもよい。閾値単語数はソーシャル・メディアの形に依存してもよい。たとえば、ソーシャル・メディアがマイクロブログであれば、閾値数は、ブログについての閾値数より小さくてもよい。
ソーシャル・メディア・アカウント632での投稿に加えて、ソーシャル・メディア・アカウント632での投稿によってリンクされたコンテンツが、ソーシャル・メディア・アカウント632のトピック(複数または単数)を判別するために使われてもよい。これらおよび他の実施形態において、ソーシャル・メディア・アカウント632の投稿内のリンクがアクセスされて、コンテンツが収集されてもよい。具体的には、マイクロブログであるソーシャル・メディア・アカウント632の投稿内のリンクがアクセスされて、コンテンツが収集されてもよい。収集されたコンテンツおよび投稿はまとめられてもよい。まとめられたコンテンツのトピック分布を決定するためにトピック・モデル解析が適用されてもよい。トピック・モデルを使って、ソーシャル・メディア・アカウント632のトピック分布が決定されてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント632の投稿におけるリンクから収集されたコンテンツの著作者も収集されてもよい。ソーシャル・メディア・プロフィール・データ、ソーシャル・メディア相互作用データおよびトピックは、ソーシャル・メディア・アカウント・オブジェクト642として記憶されてもよい。
ブロック650では、著作者の個人学術ウェブページとしての候補でありうる個人学術ウェブページ652を求めて検索が実行されてもよい。たとえば、著作者オブジェクト622内の各著作者の名前に基づいてウェブページの検索を実行するよう、一般的な検索エンジンが要求されてもよい。追加的または代替的に、著作者オブジェクト622における各著作者の名前および著作者オブジェクト622における著作者の所属に基づいてウェブページの検索を実行するよう一般的な検索エンジンが要求されてもよい。たとえば、デジタル文書612をパースする際、アンドルー・ウー(Andrew Ng)の著作者名がスタンフォード大学(Stanford University)への所属とともにみつかったとすると、「アンドルー・ウー」(Andrew Ng)および「スタンフォード大学」(Stanford University)の組み合わせた項目に対して検索が実行されてもよい。上記二つの検索の結果は、二つのリストを組み合わせ、重複があれば除去して、可能性のある個人学術ウェブページ652のリストを生成することによってマージされてもよい。いくつかの実施形態では、各検索からの上位10個の結果のような限られた数の上位の結果が候補として含められてもよく、次いでそれらのリストがマージされてもよい。
いくつかの実施形態では、結果をマージした後、一つまたは複数の特定のソーシャル・メディアまたは他のプロフィール・ベースのページが同定されてもよい。たとえば、グーグル・スカラー(Google Scholar)のページ、リンクトイン(LinkedIn)のページ、リサーチゲート(ResearchGate)のページおよび/またはその他のためのテンプレートに基づいて、ソーシャル・メディアまたは他のプロフィール・ベースのページが同定されてもよい。そのような同定されたページは潜在的候補のリストから除去されてもよい。追加的または代替的に、そのようなページは相互検証においてソーシャル・メディア・アカウントとして使われてもよく、あるいは個人学術ウェブページについての潜在的候補として使われてもよい。いくつかの実施形態では、ウェブページのマージされた検索結果は、どんな結果が個人学術ウェブページ652であるかを同定するために解析されてもよい。たとえば、特定のウェブページの内容が該ページを分類し、それが個人学術ウェブページ652であるか否かを判定するために、パースされ、解析されてもよい。そのような解析を記述する例示的方法900は、図9aおよび図9bを参照して記述される。
ブロック660を参照するに、ブロック650において個人学術ウェブページ652として同定された候補サイトは、個人学術ウェブページ・オブジェクト662を生成するための情報を抽出するために使われてもよい。たとえば、個人学術ウェブページ652のさまざまな特徴または側面がパースされ、個人学術ウェブページ・オブジェクト662においてデータとして追加されてもよい。いくつかの実施形態では、個人学術ウェブページ・オブジェクト662におけるデータの一部は著作者オブジェクト622のものと同様または同等であってもよい。たとえば、個人学術ウェブページ・データは、ウェブページを所有している、運営しているまたはそれに関連付けられている人についての情報を含んでいてもよい。個人学術ウェブページ・データはさらに、個人学術ウェブページに関連付けられている人についての、名前、所属、位置、肩書き、専門分野、著作者の写真イメージ、刊行物、履歴書、担当クラスまたは行なったレクチャー、関心分野の記述、ソーシャル・メディア・アカウント、連絡先情報、URLおよび/または他の情報を含んでいてもよい。
ブロック670では、著作者オブジェクト622からの著作者の名前を使う検索から帰結するソーシャル・メディア・アカウント632に関連付けられたソーシャル・メディア・アカウント・オブジェクト642が、一つまたは複数の相互検証技法を使って、個人学術ウェブページ652に関連付けられた個人学術ウェブページ・オブジェクト662の一つまたは複数と相互検証されてもよい。たとえば、ソーシャル・メディア・アカウント・オブジェクト642および所与のウェブページ・オブジェクト662はURL一致671(その例示的方法は図10を参照して記載)、ソーシャル・メディア・アカウント一致672(その例示的方法は図11を参照して記載)、写真一致673(その例示的方法は図12を参照して記載)、キーワード一致674(その例示的方法は図13を参照して記載)および/またはリンクされたソーシャル・メディアのキーワードの一致675(その例示的方法は図14を参照して記載)を使って相互検証されてもよい。いくつかの実施形態では、これらの異なる相互検証技法は、相互検証が成立するまで逐次順、たとえば、ULR一致671、ソーシャル・メディア・アカウント一致672、写真一致673、キーワード一致674およびリンクされたソーシャル・メディアのキーワードの一致675で使われてもよい。これらおよび他の実施形態において、個人学術ウェブページ・オブジェクト662とソーシャル・メディア・アカウント・オブジェクト242が正しく所与の著作者オブジェクト222に関連していることを確認することにおいて、単一の相互検証技法が使われてもよく、あるいはすべての相互検証技法が使われてもよい。代替的または追加的に、上記の相互検証技法の二つ以上が並行して使われてもよい。
ブロック680を参照するに、ブロック670の相互検証に基づいて、著作者オブジェクト622、所与のソーシャル・メディア・アカウント・オブジェクト642および所与の個人学術ウェブページ・オブジェクト662の間で一致が判別されてもよい。ブロック680の一致は、所与のソーシャル・メディア・アカウント・オブジェクト642および所与の個人学術ウェブページ・オブジェクト662が著作者オブジェクト622に正しく関連付けられていることを示しうる。たとえば、上記の相互検証技術の一つまたは複数がその著作者が前記ソーシャル・メディア・アカウントおよび前記個人学術ウェブページを所有しているのと同じ人物であることを確証すれば、一致が見出されうる。いくつかの実施形態では、一致があるかどうかは、一致の、以前の相互検証に基づいて決定されてもよい。たとえば、フロー600の複数の逐次反復が異なる著作者について決定されてもよく、フロー600の外部で一致が判定されてもよい。いくつかの実施形態では、上記の相互検証技法のいずれもその著作者に関連付けられたソーシャル・メディア・アカウントおよび個人学術ウェブページを同定しない場合には、たとえば図2のフロー200に関して述べたように、ソーシャル・メディア・アカウントのみが著作者オブジェクトと比較されてもよい。
本開示の範囲から外れることなくフロー600に修正、追加または省略がなされてもよい。たとえば、いくつかの実施形態では、フロー600は複数のソーシャル・メディア・アカウント632および/または複数の個人学術ウェブページ・オブジェクト662を含んでいてもよい。これらおよび他の実施形態において、それぞれのソーシャル・メディア・アカウント632についてソーシャル・メディア・アカウント・オブジェクト642が生成されてもよく、それぞれの個人学術ウェブページ652について個人学術ウェブページ・オブジェクト662が生成されてもよく、一致を判別するためにさまざまな組み合わせが個々に相互検証されてもよい。たとえば、単一のソーシャル・メディア・アカウント・オブジェクト642が、一致がみつかるまで、前記個人学術ウェブページ・オブジェクト662と相互検証されてもよく、次に、次のソーシャル・メディア・アカウント・オブジェクト642が前記個人学術ウェブページ・オブジェクト662と相互検証されてもよく、逆でもよい(たとえば、個人学術ウェブページ・オブジェクト662が諸ソーシャル・メディア・アカウント・オブジェクト642と相互検証される)。
いくつかの実施形態では、異なるソーシャル・メディア・アカウント632のそれぞれについてのソーシャル・メディア・アカウント・オブジェクト642および/または異なる個人学術ウェブページ652のそれぞれについての個人学術ウェブページ・オブジェクト662は、相互検証より前に決定されてもよい。代替的または追加的に、単一のソーシャル・メディア・アカウント632のソーシャル・メディア・アカウント・オブジェクト642および/または単一の諸個人学術ウェブページ・オブジェクト662が生成され、次いで相互検証されることが、他のソーシャル・メディア・アカウント・オブジェクト642および/または個人学術ウェブページ・オブジェクト662が生成される前に行なわれてもよい。
いくつかの実施形態では、デジタル文書612は複数の著作者を含んでいてもよい。これらおよび他の実施形態において、各著作者についての著作者プロフィール・データが収集され、異なる著作者オブジェクト622を生成するために使われてもよい。異なる著作者オブジェクト622のそれぞれについてソーシャル・メディアの検索が行なわれてもよい。要するに、フロー600は、情報の識別および抽出のためのデータ・フローの単に一例であり、本開示はそれに限定されない。
図7は、本稿に記載される少なくとも一つの実施形態に基づく情報の識別および抽出の例示的方法700のフローチャートを示している。いくつかの実施形態では、方法700に関連する動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法700はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法700に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法700のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック710では、著作者オブジェクトがデータベースにおいて生成されてもよい。たとえば、情報収集システム(図1の情報収集システム110など)が刊行物システム(図1の刊行物システム120など)から一つまたは複数の刊行物を得てもよい。刊行物は、該刊行物の著作者および該著作者についての著作者プロフィール・データを抽出するためにパースされ、解析されてもよい。これらおよび他の実施形態において、著作者プロフィール・データは、著作者の肩書き、著作者の所属、著作者の専門分野の記述および著作者の位置のうちの一つまたは複数を含んでいてもよい。いくつかの実施形態では、著作者オブジェクトの生成は、名前、著作者プロフィール・データ、著作者の何らかの画像および共著者をデジタル文書から抽出することを含んでいてもよい。追加的または代替的に、著作者オブジェクトは、刊行物に関連するトピックをも含んでいてもよい。たとえば、刊行物の一つまたは複数のキーワードが、それについてその著作者が知識ある人であるトピックに加えられてもよい。
ブロック720では、所与の著作者について、その著作者に関連している可能性を含む個人学術ウェブページ候補が得られてもよい。たとえば、情報収集システムは、一般的な検索エンジンがウェブ・ホスティング・システム(たとえば図1のウェブ・ホスティング・システム150)にホストされているウェブページのうちでその著作者の名前および/またはその著作者の名前かつその著作者の所属に対する検索を実行することを要求してもよい。追加的または代替的に、その著作者の肩書き(たとえば学部長)、その著作者の専門分野の記述および/またはその他の項目といった、その著作者に関係した一つまたは複数の項目に基づく別の検索が使われてもよい。いくつの検索が実行されてもよい。いくつかの実施形態では、検索の数は5未満であってもよい。いくつかの実施形態では、それらの検索の結果がマージされて、グーグル・スカラーのページまたはリンクトインのページなど、一つまたは複数の型のウェブページがリストから除去されてもよい。残りの結果は、それらの結果のどれが個人学術ウェブページであるかを判定するためにパースされ、あるいは他の仕方で解析されてもよく、個人学術ウェブページである結果が個人学術ウェブページ候補として含められてもよい。これらおよび他の実施形態において、個人学術ウェブページ候補から、個人学術ウェブページ・オブジェクトを生成するために、データが抽出される。個人学術ウェブページを得る例示的方法が図8に示されており、結果のどれが個人学術ウェブページであるかを判別する例示的方法が図9aおよび図9bに示されている。
ブロック730では、所与の著作者について、その著作者に関連している可能性を含むソーシャル・メディア・アカウント候補が得られてもよい。たとえば、情報収集システムは、一つまたは複数のソーシャル・メディア・システム(たとえば図1のソーシャル・メディア・システム130)の間で検索が実行されることを要求してもよい。そのような検索は、著作者の名前に基づいて実行されてもよく、追加的または代替的に、他の仕方でその著作者に関係した一つまたは複数の項目を含めてもよい。さらに、そのような検索は、複数のソーシャル・メディア・システムにまたがる複数のソーシャル・メディア・プラットフォームについて実行されてもよい。返される結果は、ソーシャル・メディア・アカウント候補を含んでいてもよい。それらソーシャル・メディア・アカウント候補について、ソーシャル・メディア・アカウント・オブジェクトが生成されてもよい。これはたとえば、ソーシャル・メディア・アカウント候補のプロフィールをパースすることおよび/または他の仕方で情報のさまざまな成分をソーシャル・メディア・アカウント・データとして抽出することによる。
ブロック740では、個人学術ウェブページ候補の一つおよびソーシャル・メディア・アカウント候補の一つが、所与の著作者に関連しているとして相互検証されてもよい。たとえば、図10〜図14に記載されている相互検証技法のいずれかまたは他のものを使って、情報収集システムは、所与の個人学術ウェブページおよびソーシャル・メディア・アカウントが所与の著作者に正しく関連していることを確認しうる。いくつかの実施形態では、一連の相互検証技法が使われてもよい。たとえば、第一の技法を使い、第一の技法がソーシャル・メディア・アカウント候補と個人学術ウェブページ候補との間の一致を判別しない場合に次の技法に進む。たとえば、情報収集システムは、まずURL照合技法を使い、次いでソーシャル・メディア・アカウント照合技法、次いで写真照合技法、次いでキーワード照合技法、次いでリンクされたソーシャル・メディアのキーワードの照合技法となる。いくつかの実施形態では、ブロック740は複数の相互検証技法を通じて進み、相互検証に関する最終判定をする前に、各相互検証技法についての結果を得てもよい。これらおよび他の実施形態において、ブロック740は、図10〜図14の相互検証技法のそれぞれを含みうる。
いくつかの実施形態では、ブロック740は一つのソーシャル・メディア・アカウント候補で始まり、それを個人学術ウェブページ候補のそれぞれに対して相互検証することを、一致が見出されるまで行なってもよい。あるいはまた、ブロック740は、一つの個人学術ウェブページ候補で始まり、それをソーシャル・メディア・アカウント候補のそれぞれに対して相互検証することを、一致が見出されるまで行なってもよい。ブロック740の終わりには、ソーシャル・メディア・アカウントおよび個人学術ウェブページは所与の著作者に関連付けられうる。
いくつかの実施形態では、所与の著作者は、二つ以上の個人学術ウェブページおよび/または二つ以上のソーシャル・メディア・アカウントをもつことがある。たとえば、大学では教員であり企業ではコンサルタントである著作者について、その著作者は大学がホストしている個人学術ウェブページ、企業がホストしている個人学術ウェブページおよび個人でホストしている個人学術ウェブページをもつことがありうる。追加的または代替的に、著作者はツイッター・アカウント、インスタグラム・アカウントおよびフェイスブック・アカウントを有していてもよい。これらおよび他の実施形態において、本開示は、二つ以上の個人学術ウェブページを、二つ以上のソーシャル・メディア・アカウントに対して相互検証してもよい。これらおよび他の実施形態において、本開示において記述されている前記一つまたは複数のプロセスは、ひとたび一つのソーシャル・メディア・アカウントが一つの個人学術ウェブページに対して相互検証されても終了しなくてもよく、すべてのソーシャル・メディア・アカウント候補および/またはすべての個人学術ウェブページ候補を通じて進行してもよい。これらおよび他の実施形態において、ある著作者に関連しているとして相互検証されたすべてのソーシャル・メディア・アカウントおよび個人学術ウェブページが関連付けられてもよい。追加的または代替的に、単一のソーシャル・メディア・アカウントおよび/または単一の個人学術ウェブページが著作者と関連していることがある。たとえば、フェイスブック・アカウントよりもツイッター・アカウントへの選好が与えられてもよい。別の例として、大学がホストしているウェブページは、個人でホストしているウェブページよりも選好が与えられてもよい。
ブロック750では、ソーシャル・メディア・アカウントおよび個人学術ウェブページをさらなる著作者に関連付けるためにまだ解析がされていないさらなる著作者が残っているかどうかの判定がされてもよい。残っている著作者があるとの判定後、方法700はブロック720に戻って次の著作者についての個人学術ウェブページ候補を取得してもよい。残っている著作者はないとの判定後、方法700はブロック760に進んでもよい。
ブロック760では、著作者に関連付けられたソーシャル・メディア・アカウントからの新たなソーシャル・メディア投稿が抽出されてもよい。たとえば、新たな投稿を抽出するために、ソーシャル・メディア・オブジェクトおよび/または著作者オブジェクトは、ソーシャル・メディア・アカウントについてのネットワーク・アドレスを含んでいてもよい。情報収集システムは、そのネットワーク・アドレスを使ってソーシャル・メディア・アカウントまでナビゲートして、最近の時間期間からの投稿を、あるいはソーシャル・メディア・アカウントから以前に抽出された投稿がある場合には最後の投稿抽出以降の投稿を、抽出してもよい。これらおよび他の実施形態において、新たな投稿から抽出された情報は組織化されてもよい。いくつかの実施形態では、該情報は、該情報が抽出されたソーシャル・メディア・アカウントに関連付けられた著作者の専門分野、たとえば彼らが知識があるトピックに基づいて組織化されてもよい。
ブロック770では、組織化されたデータが、それらのソーシャル・メディア・アカウントに関連付けられた著作者の専門分野に基づいて、たとえばトピック別編成で、提供されてもよい。いくつかの実施形態では、該情報は、ウェブページを通じて提供されてもよい。追加的または代替的に、該情報は、収集され、著作者にリンクされているソーシャル・メディア・アカウントのようなソーシャル・メディア・アカウントの集合に、あるいは知識のあるソーシャル・メディア・アカウント所有者の別の集合に通信されてもよい。
図8は、本稿に記載される少なくとも一つの実施形態に基づく、個人学術ウェブページを同定する例示的方法800のフローチャートを示している。一人の著作者について説明するが、方法800は任意の数の著作者について繰り返されてもよい。方法800は、図7のブロック720の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法800に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法800はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法800に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法800のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック810につながる破線矢印は、方法800が図7の方法700のブロック710から続いているなど、別の方法の続きでありうることを示している。
ブロック810では、著作者の名前に基づいて、たとえばブロック710で生成された著作者オブジェクト内の著作者の名前に基づいて、可能性のある個人学術ウェブページに対する第一の検索が実行されてもよい。たとえば、情報収集システム(たとえば情報収集システム110)は、著作者の名前に基づいて一つまたは複数のウェブ・ホスティング・システム(たとえば図1のウェブ・ホスティング・システム150)によってホストされているウェブページの検索を実行するよう一般的な検索エンジンに要求してもよい。結果は第一のリストに入れられてもよい。第一のリストに入れられる結果の数は、数値または他の任意の基準に基づいて制限され、あるいは打ち切られてもよい。
ブロック820では、著作者の名前および著作者の所属に基づいて、可能性のある個人学術ウェブページに対する第二の検索が実行されてもよい。たとえば、情報収集システムは、著作者の名前および著作者の所属に基づいて一つまたは複数のウェブ・ホスティング・システムによってホストされているウェブページの検索を実行するよう一般的な検索エンジンに要求してもよい。結果は第二のリストに入れられてもよい。第二のリストに入れられる結果の数は、数値または他の任意の基準に基づいて制限され、あるいは打ち切られてもよい。いくつかの実施形態では、第一のリストと第二のリストのサイズは同じサイズであってもよく、あるいは異なるサイズであってもよい。追加的または代替的に、他の検索項目が使われてもよく、および/または追加的な検索が実行されて第一および第二のリストのほかに追加的なリストを生成してもよい。たとえば、刊行物のタイトルおよび著作者名を含む、あるいは著作者オブジェクトの他の任意の著作者データを使う検索が実行されてもよい。
ブロック830では、第一の検索および第二の検索からの結果がマージされてもよい。たとえば、結果は一つのおきの仕方(たとえば、第一のリストからの結果1、第二のリストからの結果1、第一のリストからの結果2、第二のリストからの結果2、第一のリストからの結果3および/またはその他)または他の任意の組み合わせ技法で組み合わされてもよい。いくつかの実施形態では、マージされたリストは複製されてもよい。
ブロック840では、一つまたは複数のソーシャル・メディア・アカウントが、ソーシャル・メディア・アカウントのプロフィール・ページのテンプレートに基づいて、プロフィール・ページであるとして識別されてもよい。たとえば、前記結果は、リンクトインのページ、リサーチゲートのページまたはグーグル・スカラーのページのようなソーシャル・メディア・アカウントについての一つまたは複数のソーシャル・メディア・アカウント・プロフィールのための既知のテンプレートと比較されてもよい。前記結果の一つまたは複数が、一つまたは複数のウェブ要素の位置およびスタイルを含むフォーマットを判別するために解析され、テンプレート・ソーシャル・メディア・ページの既知のレイアウトおよび/またはフォーマットと比較されてもよい。ページをそのようなソーシャル・メディア・ページとして識別した後、ソーシャル・メディア・ページは、個人学術ウェブページ候補のリストに加えられ、検索結果のマージされたリストから除去されてもよい。いくつかの実施形態では、そのようなソーシャル・メディア・アカウント・ページは、学術的なまたはビジネス・ベースのソーシャル・メディア・アカウントに限定されてもよい。
ブロック850では、結果の前記リストからの所与の結果がパースされて、該所与の結果が個人学術ウェブページであるか否かを識別してもよい。たとえば、所与の結果のさまざまなテキスト要素または視覚的要素が、それらのテキストおよび/または視覚的要素が個人学術ウェブページと整合するかどうかを判定するために、パースされ、解析されてもよい。所与の結果が個人学術ウェブページであることに基づいて、所与の結果は個人学術ウェブページ候補のリストに含められてもよい。結果が個人学術ウェブページであるか否かを識別するために該結果をパースするために利用されうる方法の一例が図9aおよび図9bに関して記載される。結果が個人学術ウェブページであるか否かを識別するために該結果をパースするために利用されうる方法のもう一つの例が米国特許出願第13/732,036号(たとえば図6を含む)に関して記載されている。米国特許出願第13/732,036号の全体はここに参照によって組み込まれる。
ブロック860では、何らかのさらなる結果がパースされるべく残っており該結果が個人学術ウェブページであるか否かについて判定がなされるべきかどうかについて判定がなされてもよい。さらなる結果があるとの判定後、方法800はブロック850に戻ってもよく、次の結果がパースされ、該結果が個人学術ウェブページであるか否かが判定されてもよい。まだパースされていない残っている結果がないとの判定後、方法800は、得られた結果的な個人学術ウェブページ候補を出力してもよい。
方法800の終わりの破線矢印は、それらの個人ウェブページ候補が、図7の方法700のブロック730などの一つまたは複数のさらなるプロセスまたはブロックによって使われてもよいことを示しうる。
いくつかの実施形態では、ブロック840でソーシャル・メディア・アカウントを識別するのではなく、方法800は結果をパースすることに直接進んでもよい。
図9aおよび9bは、本開示の一つまたは複数の実施形態に基づく、情報の識別および抽出において使われうるもう一つの例示的方法900のフローチャートを示している。たとえば、図9aおよび9bは、一つまたは複数のウェブページをパースして、そのウェブページが個人学術ウェブページであるかどうかを判定する例示的方法900のフローチャートを示している。一つのウェブページについて説明するが、方法900は任意の数のウェブページについて繰り返されてもよい。方法900は、図8のブロック850の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法900に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法900はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法900に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法900のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
図9aを参照するに、ブロック905につながる破線矢印は、方法900が図8の方法800のブロック840から続いているなど、別の方法の続きでありうることを示している。
ブロック905では、ウェブページ結果が解析されてもよい。ウェブページ解析は、該結果のコンテンツに関連付けられたキーワード・スコアを与えてもよい。ブロック905は、ブロック910、915、920および925のうちの一つまたは複数を含め、ウェブページ結果を解析することに含まれてもよい一つまたは複数の動作を含んでいてもよい。
ブロック910では、ウェブページが取ってこられてもよい。たとえば、情報収集システム(たとえば図1の情報収集システム110)が、ウェブ・ホスティング・システム(たとえば図1のウェブ・ホスティング・システム150のうちの一つ)にウェブページを要求するために、ネットワークを通じて通信してもよい。
ブロック915では、ウェブページのコンピュータ可読コードが、そのウェブページに含まれる一つまたは複数の情報ブロックを識別するために解析されてもよい。たとえば、ウェブページを表示するためにコンピュータによって使われるコードが解析されて、情報の諸ブロックを含みうるフィールドの位置を判別してもよい。いくつかの実施形態では、ウェブページは、ハイパーテキスト・マークアップ言語(HTML)、拡張可能ハイパーテキスト・マークアップ言語(XHTML)、拡張可能マークアップ言語(XML)、カスケーディングスタイルシート(CSS)、ジャバスクリプトおよび/またはウェブページを記述するコンピュータ可読コードを提供するために使われる他の任意の言語もしくは技法を使って呈示されてもよい。いくつかの実施形態では、コードは、閾値数より多くの単語をもつテキスト・ブロックを識別するために解析されてもよい。もう一つの例として、「刊行物(publications)」、「関心(interests)」、「連絡先情報(contact information)」、「概要(summary)」および/またはその他といったタイトルをもつテキスト・ブロックが検索されてもよい。
ブロック920では、ブロック915で識別された情報ブロックからキーワードが抽出されてもよい。たとえば、情報ブロックの単語が情報収集システムによって識別された一つまたは複数のトピックと、あるいは一つまたはトピックに関連付けられたキーワードの他のリストと、比較されてもよい。もう一つの例として、ある種の型の単語が情報ブロック中の単語から除去されてもよく(たとえば「ある(a)」「その(the)」「関心がある(interested)」「楽しむ(enjoy)」「大学(university)」「学部(department)」および/またはその他)、残りの単語がソートされてもよい。追加的または代替的に、他の任意のキーワード抽出技法が使われてもよい。
ブロック925では、キーワード・スコアが抽出されたキーワードに基づいて生成されてもよい。たとえば、キーワード・スコアは識別されたキーワードの数(8個のキーワードがみつかったことを反映するスコアなど)、全キーワードのうちの、識別されたあるトピックについてのキーワードの数(たとえばあるトピックについて12個中8個のキーワードがみつかったことを反映するスコアなど)、キーワードの頻度(情報ブロック中で使われる単語の四分の一があるトピックについてのキーワードであったことを反映するスコアなど)および/またはその他を表わしていてもよい。
ブロック930では、前記結果の一つまたは複数のアンカー・テキストが解析されてもよい。アンカー・テキストは、ハイパーリンクに関連付けられた可視テキストを含んでいてもよい。たとえば、アンカー・テキストはハイライトされ、ボールド体にされ、下線を付されあるいはそのテキストがハイパーリンクに関連していることを示すために他の仕方でフォーマットされうる。アンカー・テキスト解析は、アンカー・テキストに基づくアンカー・テキスト・スコアを与えうる。ブロック930は、ブロック935、940および945のうちの一つまたは複数を含め、アンカー・テキストを解析することに含められうる一つまたは複数の動作を含んでいてもよい。
ブロック935では、結果ウェブページ内で一つまたは複数のアンカー・テキストが識別されてもよい。たとえば、結果ウェブページは、前記結果におけるすべてのハイパーリンクを識別するようパースされてもよい。ハイパーリンクに関連する可視テキストは、アンカー・テキストとして識別されてもよい。
ブロック940では、結果ウェブページのアンカー・テキストは、一つまたは複数のテキスト要素を求めて検索されてもよい。たとえば、アンカー・テキストは、著作者の名前を求めて検索されてもよい。もう一つの例として、アンカー・テキストは一つまたは複数のトピックおよび/または該一つまたは複数のトピックに関連するキーワードを求めて検索されてもよい。これらおよび他の実施形態において、アンカー・テキストは、該アンカー・テキストが何を同定しているかに基づいて範疇分けされてもよい。たとえば、アンカー・テキストが人の名前である場合、それは「名前」として範疇分けされてもよい。
ブロック945では、アンカー・テキスト・スコアが生成されてもよい。いくつかの実施形態では、アンカー・テキスト・スコアは、著作者名に対応するアンカー・テキスト内の名前、アンカー・テキスト内のキーワード、アンカー・テキストが属する範疇および/またはその他に基づいていてもよい。たとえば、アンカー・テキスト・スコアは、著作者の名前をもつ一つのアンカー・テキスト、アンカー・テキスト内にキーワードをもつ二つのアンカー・テキストおよびトピックに関係した諸範疇内の二つの追加的キーワードがあることを反映してもよい。
図9bを参照するに、ブロック950では、前記結果のURLが解析されてもよい。URLは該URLに基づくURLスコアを与えてもよい。ブロック950は、ブロック955、960および965を含め、URLを解析することに含まれうる一つまたは複数の動作を含んでいてもよい。
ブロック955では、前記結果のURLが断片に分割されてもよい。たとえば、online.stanford.edu/instructors/andrew-ngを含むURLについては、このURLは「online」「stanford.edu」「instructors」および「andrew-ng」に分解されてもよい。これらおよび他の実施形態において、~、-、*および/またはその他のような特殊文字は断片から除去されてもよく、あるいは断片間の区切りとして使われてもよい。いくつかの実施形態では、URL断片はアンカー・テキストと同様の仕方で範疇分けされてもよい。たとえば、断片「andrew-ng」は名前範疇として範疇分けされてもよく、断片「stanford.edu」は所属またはエンティティとして範疇分けされてもよい。
ブロック960では、名前および/またはキーワードを求めて断片が検索されてもよい。たとえば、著作者の名前の全部または一部を求めて断片が検索されてもよい。追加的または代替的に、トピックまたはあるトピックに関連するキーワードを求めて断片が検索されてもよい。たとえば、著作者は該著作者がそれについて発表した一つまたは複数のトピックをもつことがあり、そのトピックに関連するキーワードが断片の間で検索されてもよい。
ブロック965では、URLスコアが生成されてもよい。いくつかの実施形態では、URLスコアは、著作者の名前に対応する断片内の名前、断片内のキーワード、断片が属する範疇および/またはその他に基づいていてもよい。たとえば、断片スコアは、著作者のラストネームをもつ一つの断片があることを反映してもよい。
ブロック970では、キーワード・スコア、アンカー・テキスト・スコアおよび/またはURLスコアに基づいて、結果ウェブページが個人学術ウェブページとして、あるいは別の型のウェブページとして範疇分けされてもよい。いくつかの実施形態では、キーワード・スコア、アンカー・テキスト・スコアおよびURLスコアはそれぞれ0から1までの間の数値を含んでいてもよく、すべての潜在的にありうるスコアの和は1に等しい。さらに、異なるスコアは異なる重みをかけられてもよい。たとえば、URLスコアはアンカー・テキスト・スコアより大きな重みがあってもよい。それらのスコアがみな等しい重みをかけられる場合には、各スコアは0.3333の可能な値をもちうる。いくつかの実施形態では、ウェブページの範疇分けにおいて機械学習エンジンが利用されてもよい。たとえば、機械学習エンジンが個人学術ウェブページのさまざまな特徴および/または共通性を識別しうるよう、既知の個人学術ウェブページの一つまたは複数のウェブページが、機械学習エンジンのための肯定的なトレーニング・データとして提供されてもよい。もう一つの例として、個人学術ウェブページではないことがわかっている一つまたは複数のウェブページが、機械学習エンジンのための否定的なトレーニング・データとして提供されてもよい。これらおよび他の実施形態において、受領された肯定的および/または否定的なトレーニング・データに基づいて、機械学習エンジンが分類アルゴリズムを生成してもよい。
いくつかの実施形態では、さまざまなスコアは、結果ウェブページの解析された側面が典型的な個人学術ウェブページにどのくらい類似しているかの表現でありうる。たとえば、たいていの学術ウェブページは、その人の研究プロジェクトおよび研究関心対象の記述、その人によって提供される科目およびレクチャーの記述、その人による刊行物の記述および/またはその他を含みうる。キーワード・スコア、アンカー・テキスト・スコアおよびURLスコアはまとめておよび/または個々に、結果ウェブページがそれらの型の特徴を含んでいることがどのくらい確からしいかを反映しうる。
いくつかの実施形態では、スコアを使うのではなく、前記結果は、ブロック920で抽出されたキーワード、ブロック935で識別されたアンカー・テキストまたはブロック955の断片の一つまたは複数に基づいて範疇分けされてもよい。追加的または代替的に、範疇分けは、キーワード、アンカー・テキストまたは断片が分類された範疇に基づいていてもよい。
いくつかの実施形態では、前記結果は、ソーシャル・メディア・ページ、個人学術ウェブページ、プロジェクト・ウェブサイト、ビジネス・エンティティ・ウェブサイト、学術部局ウェブサイトおよび/またはその他といった複数の範疇のうちの一つに範疇分けされてもよい。
ブロック975では、前記結果がブロック970で個人学術ウェブページとして範疇分けされたかどうかについて判定がなされてもよい。前記結果が個人学術ウェブページとして範疇分けされている場合、方法900はブロック980に進んでもよく、結果ウェブページは個人学術ウェブページ候補として追加される。前記結果が個人学術ウェブページとして範疇分けされてない場合、方法900は方法900の終わりの破線矢印に進んでもよい。
方法900の終わりの破線矢印は、方法900において同定された個人ウェブページ候補が、図8の方法800のブロック860などの一つまたは複数のさらなるプロセスまたはブロックによって使われてもよいことを示しうる。
図10は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントおよび個人学術ウェブページ候補を相互検証することにおいて使われうる例示的方法1000のフローチャートを示している。一つのソーシャル・メディア・アカウント候補に関して説明するが、方法1000は任意の数のソーシャル・メディア・アカウント候補について繰り返されてもよい。方法1000は、図7のブロック740の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法1000に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1000はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1000に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1000のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1010につながる破線矢印は、方法1000が図7の方法700のブロック730から続いているなど、別の方法の続きでありうることを示している。追加的または代替的に、破線矢印は、図11の方法1100、図12の方法1200、図13の方法1300または図14の方法1400の一つまたは複数からの続きであってもよい。
ブロック1010では、ソーシャル・メディア・アカウント候補のプロフィールが取ってこられてもよい。たとえば、情報収集システム(たとえば図1の情報収集システム110)はソーシャル・メディア・システム(たとえば図1のソーシャル・メディア・システムのうちの一つまたは複数)に問い合わせをして、ソーシャル・メディア・アカウント候補のプロフィールを取得してもよい。いくつかの実施形態では、プロフィールだけが取ってこられ、情報収集システムはソーシャル・メディア・アカウント全体を受け取る必要はない。
ブロック1020では、プロフィール中のURLが識別されてもよい。たとえば、ソーシャル・メディア・アカウントのプロフィールは、該プロフィールが個人ウェブページのためのフィールドを含んでいるかどうかを判定するためにパースまたは解析されてもよい。いくつかの実施形態では、特定のソーシャル・メディア・アカウントはそのようなフィールドを含まなくてもよく、あるいはそのようなフィールドにエントリーを含まなくてもよい。そのようなフィールドが存在し、エントリーを含むとき、対応するエントリーはプロフィール中のURLとして識別されてもよい。いくつかの実施形態では、そのようなフィールドやそのようなフィールド中のエントリーがない場合には、方法1000は終了し、方法1000の終わりにおける破線矢印に進んで別の相互検証技法に進んでもよい。
ブロック1030では、ソーシャル・メディア・アカウント候補のプロフィールのURLは、個人学術ウェブページ候補のURLと比較されてもよい。
ブロック1040では、ソーシャル・メディア・アカウント候補のプロフィールのURLと個人学術ウェブページ候補のURLとの間の一致があるかどうかについて、ブロック1030の比較に基づいて判定がされてもよい。いくつかの実施形態では、判定は厳密な一致の問い合わせであってもよい。追加的または代替的に、問い合わせは、URL間の、少なくとも95%の一致または少なくとも90%の一致など、閾値を超える類似性を要求してもよい。一致があれば、方法1000はブロック1060に進んでもよい。一致がなければ、方法1000はブロック1050に進んでもよい。いくつかの実施形態では、URLのプロトコルおよび/またはサブドメインは、一致の目的のためには無視されてもよい。たとえば、そのような実施形態では、stanford.edu/instructors/andrew-ngとhttp://online.stanford.edu/instructors/andrew-ngというURLは一致と見出されてもよい。
ブロック1050では、ソーシャル・メディア・アカウント候補のプロフィールのURLと比べるべきさらなる個人学術ウェブページ候補があるか否かについて判定がなされてもよい。比べるべき他の個人学術ウェブページ候補がない場合には、方法は方法1000の終わりの破線矢印に進んでもよい。比べるべきさらなる個人学術ウェブページ候補がある場合には、方法1000はブロック1030に戻ってもよい。
ブロック1060では、ブロック1040で見出された一致に基づいて、個人学術ウェブページおよびソーシャル・メディア・アカウント候補が両方とも、前記著作者に関連していると確認されうる。たとえば、ソーシャル・メディア・アカウント・プロフィールのURLおよび個人学術ウェブページのURLを介した相互検証は、ソーシャル・メディア・アカウント候補および個人学術ウェブページ両方が前記著作者に正しく関連している確からしさを高めうる。いくつかの実施形態では、ブロック1060は方法1000の終わりの破線矢印に進んでもよい。追加的または代替的に、方法1000はブロック1060からブロック1050に進んでもよい。たとえば、方法1000は、ソーシャル・メディア・アカウント候補のプロフィールにおける二つ以上のURLがある場合に、ブロック1050に戻ってもよい。
方法1000の終わりの破線矢印は、相互検証された個人ウェブページ候補およびソーシャル・メディア・アカウント候補が、図7の方法700のブロック750などの一つまたは複数のプロセスまたはブロックによって使われてもよいことを示しうる。追加的または代替的に、破線矢印は、図11の方法1100、図12の方法1200、図13の方法1300または図14の方法1400の一つまたは複数に進んでもよい。
図11は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントおよび個人学術ウェブページ候補を相互検証することにおいて使われうるもう一つの例示的方法1100のフローチャートを示している。一つの個人学術ウェブページ候補に関して説明するが、方法1100は任意の数の個人学術ウェブページ候補について繰り返されてもよい。方法1100は、図7のブロック740の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法1100に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1100はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1100に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1100のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1110につながる破線矢印は、方法1100が図7の方法700のブロック730から続いているなど、別の方法の続きでありうることを示している。追加的または代替的に、破線矢印は、図10の方法1000、図12の方法1200、図13の方法1300または図14の方法1400の一つまたは複数からの続きであってもよい。
ブロック1110では、個人学術ウェブページ候補が取ってこられてもよい。たとえば、情報収集システム(たとえば図1の情報収集システム110)はウェブ・ホスティング・システム(たとえば図1のウェブ・ホスティング・システムの一つ)に問い合わせをして、個人学術ウェブページ候補を取得してもよい。
ブロック1120では、個人学術ウェブページ候補に挙げられているソーシャル・メディア・アカウントを識別するために個人学術ウェブページ候補がパースされてもよい。たとえば、個人学術ウェブページ候補を表示するためにコンピュータによって使われるコードが、フィールドのタイトルまたはボディに一つまたは複数のソーシャル・メディア・プラットフォームを含むようなフィールドの位置を判別するために解析されてもよい。いくつかの実施形態では、そのようなフィールドやボディがなく、個人学術ウェブページ候補にソーシャル・メディア・アカウント識別子が見出されないような場合には、方法1100は終了してもよく、方法1100の終わりの破線矢印に進んで、別の相互検証技法に進んでもよい。
ブロック1130では、識別されたソーシャル・メディア・アカウントが諸ソーシャル・メディア・アカウント候補と比べられてもよい。たとえば、比較は、個人学術ウェブページに挙げられているツイッターのハンドル、フェイスブック・アカウントの名前または個人学術ウェブページに表わされるソーシャル・メディア・アカウントの他の何らかの一意的な識別子を比べることを含んでいてもよい。
ブロック1140では、ブロック1120において識別されたソーシャル・メディア・アカウントと諸ソーシャル・メディア・アカウント候補のうちのいずれかとの間に一致があるかどうかについて、ブロック1130での比較に基づいて判定がなされてもよい。いくつかの実施形態では、比較は厳密な一致の問い合わせであってもよい。追加的または代替的に、問い合わせは、少なくとも95%の一致または少なくとも90%の一致など、閾値を超える類似性を要求してもよい。一致があれば、方法1100はブロック1150に進んでもよい。一致がなければ、方法1100はブロック1100の終わりの破線矢印に進んでもよい。
ブロック1150では、ブロック1140で見出された一致に基づいて、個人学術ウェブページと、識別された個人学術ウェブページに一致するソーシャル・メディア・アカウント候補とが両方とも、前記著作者に関連していると確認されうる。たとえば、個人学術ウェブページおよび識別されたソーシャル・メディア・アカウントを介した相互検証は、ソーシャル・メディア・アカウント候補および個人学術ウェブページ両方が前記著作者に正しく関連している確からしさを高めうる。
方法1100の終わりの破線矢印は、相互検証された個人ウェブページ候補およびソーシャル・メディア・アカウント候補が、図7の方法700のブロック750などの一つまたは複数のプロセスまたはブロックによって使われてもよいことを示しうる。追加的または代替的に、破線矢印は、図10の方法1000、図12の方法1200、図13の方法1300または図14の方法1400の一つまたは複数に進んでもよい。
図12は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントおよび個人学術ウェブページ候補を相互検証することにおいて使われうるもう一つの例示的方法1200のフローチャートを示している。一つの個人学術ウェブページ候補に関して説明するが、方法1200は任意の数の個人学術ウェブページ候補について繰り返されてもよい。方法1200は、図7のブロック740の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法1200に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1200はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1200に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1200のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1210につながる破線矢印は、方法1200が図7の方法700のブロック730から続いているなど、別の方法の続きでありうることを示している。追加的または代替的に、破線矢印は、図10の方法1000、図11の方法1100、図13の方法1300または図14の方法1400の一つまたは複数からの続きであってもよい。
ブロック1210では、個人学術ウェブページ候補が取ってこられてもよい。たとえば、情報収集システムがウェブ・ホスティング・システムに問い合わせをして、個人学術ウェブページ候補を取得してもよい。
ブロック1220では、第一写真と称される、個人学術ウェブページ候補の一つまたは複数の写真を識別し、抽出するために個人学術ウェブページ候補がパースされてもよい。たとえば、個人学術ウェブページ候補を表示するためにコンピュータによって使われるコードが、個人学術ウェブページ内の画像の位置を判別するために解析されてもよい。いくつかの実施形態では、抽出された写真は、該写真が人の写真であるかどうかを判定するために画像認識を使って解析されてもよい。いくつかの実施形態では、個人学術ウェブページ候補に写真がない場合には、方法1200は終了してもよく、方法1200の終わりの破線矢印に進んで、別の相互検証技法に進んでもよい。
ブロック1230では、ソーシャル・メディア・アカウント候補のプロフィールが取ってこられてもよい。たとえば、情報収集システムがソーシャル・メディア・システムに問い合わせをして、ソーシャル・メディア・アカウント候補のプロフィールを取得してもよい。いくつかの実施形態では、プロフィールだけが取ってこられ、情報収集システムはソーシャル・メディア・アカウント全体を受け取る必要はない。
ブロック1240では、ソーシャル・メディア・アカウント候補のプロフィールは、第二写真と称される、ソーシャル・メディア・アカウント・プロフィール内の一つまたは複数の写真を識別し、抽出するためにパースされてもよい。たとえば、ソーシャル・メディア・アカウント・プロフィールはしばしば、ソーシャル・メディア・アカウントの視覚的な識別子として、ソーシャル・メディア・アカウントに関連付けられた写真または他の画像を含む。いくつかの実施形態では、ソーシャル・メディア・アカウント候補プロフィールに写真がない場合には、方法1200は終了してもよく、方法1200の終わりの破線矢印に進んで、別の相互検証技法に進んでもよい。
ブロック1250では、第一写真と第二写真が比較されてもよい。特徴比較技法、点ごとの技法および/またはその他など、いかなる画像比較技法が使われてもよい。いくつかの実施形態では、第一写真および/または第二写真は第一写真および第二写真の配向、スケール、クロッピングおよび/または他の特徴を揃えるために前処理されてもよい。いくつかの実施形態では、ブロック1250の比較は人の画像についてのみ実行されてもよい。追加的または代替的に、ブロック1250の比較は、任意の写真について実行されてもよい。一部の研究者は自分の研究プロジェクトの写真または他の同様の写真を自分のソーシャル・メディア・プロフィールおよび自分の個人学術ウェブページにおいて投稿することがあるからである。複数の第一写真および/または第二写真がある場合、第一写真の任意のものまたは全部が、第二写真の任意のものまたは全部と比較されてもよい。
いくつかの実施形態では、第一写真および/または第二写真は、顔認識アルゴリズムを使って解析されてもよい。たとえば、第一写真は個人学術ウェブページ候補の所有者の写真を含んでいることがあり、第二写真はソーシャル・メディア・アカウント候補の所有者の写真を含んでいることがある。いくつかの実施形態では、第一写真の顔認識解析からの結果が、第二写真の顔認識解析からの結果と比較されてもよい。比較は、それらの画像が同じ人物を含んでいる確からしさの指標を与えてもよい。
ブロック1260では、第一写真と第二写真の間に一致があるかどうかについて判定がなされてもよい。いくつかの実施形態では、比較は厳密な一致の問い合わせであってもよい。追加的または代替的に、問い合わせは、第一写真と第二写真の間の少なくとも95%の一致または少なくとも90%の一致など、閾値を超える類似性を要求してもよい。一致があれば、方法1200はブロック1280に進んでもよい。一致がなければ、方法1200はブロック1270に進んでもよい。
ブロック1270では、写真を抽出するために取ってこられるべきさらなるソーシャル・メディア・アカウント候補があるか否かについて判定がなされてもよい。写真を抽出するために取ってこられるべき他のソーシャル・メディア・アカウント候補がない場合には、方法は方法1200の終わりの破線矢印に進んでもよい。写真を抽出するために取ってこられるべきさらなるソーシャル・メディア・アカウント候補がある場合には、方法1200はブロック1230に戻ってもよい。
ブロック1280では、ブロック1260で見出された一致に基づいて、個人学術ウェブページ候補とソーシャル・メディア・アカウント候補が両方とも、前記著作者に関連していると確認されうる。たとえば、個人学術ウェブページの第一写真およびソーシャル・メディア・アカウント・プロフィールの第二写真を介した相互検証は、ソーシャル・メディア・アカウント候補および個人学術ウェブページ候補両方が前記著作者に正しく関連している確からしさを高めうる。いくつかの実施形態では、ブロック1280は方法1200の終わりの破線矢印に進んでもよい。追加的または代替的に、方法1200はブロック1280からブロック1270に進んでもよい。たとえば、著作者が複数のソーシャル・メディア・アカウントをもっていることがありうるので、方法1200はブロック1270に戻ってもよい。
方法1200の終わりの破線矢印は、相互検証された個人ウェブページ候補およびソーシャル・メディア・アカウント候補が、図7の方法700のブロック750などの一つまたは複数のプロセスまたはブロックによって使われてもよいことを示しうる。追加的または代替的に、破線矢印は、図10の方法1000、図11の方法1100、図13の方法1300または図14の方法1400の一つまたは複数に進んでもよい。
図13は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントおよび個人学術ウェブページ候補を相互検証することにおいて使われうるもう一つの例示的方法1300のフローチャートを示している。一つの個人学術ウェブページ候補に関して説明するが、方法1300は任意の数の個人学術ウェブページ候補について繰り返されてもよい。方法1300は、図7のブロック740の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法1300に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1300はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1300に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1300のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1310につながる破線矢印は、方法1300が図7の方法700のブロック730から続いているなど、別の方法の続きでありうることを示している。追加的または代替的に、破線矢印は、図10の方法1000、図11の方法1100、図12の方法1200または図14の方法1400の一つまたは複数からの続きであってもよい。
ブロック1310では、個人学術ウェブページ候補が取ってこられてもよい。たとえば、情報収集システム(たとえば図1の情報収集システム110)がウェブ・ホスティング・システム(たとえば図1のウェブ・ホスティング・システムの一つ)に問い合わせをして、個人学術ウェブページ候補を取得してもよい。
ブロック1320では、情報ブロックを識別するために個人学術ウェブページ候補がパースされてもよい。たとえば、個人学術ウェブページを表示するためにコンピュータによって使われるコードが解析されて、情報の諸ブロックを含みうるフィールドの位置を判別してもよい。いくつかの実施形態では、コードは、閾値数より多くの単語をもつテキスト・ブロックを識別するために解析されてもよい。もう一つの例として、「刊行物(publications)」、「関心(interests)」、「連絡先情報(contact information)」、「概要(summary)」および/またはその他といったタイトルをもつテキスト・ブロックが検索されてもよい。
ブロック1330では、ブロック1320で識別された情報ブロックからキーワードが抽出されてもよい。たとえば、情報ブロックの単語が情報収集システムによって識別された一つまたは複数のトピックと、あるいは一つまたはトピックに関連付けられたキーワードの他のリストと、比較されてもよい。いくつかの実施形態では、キーワードは、あるトピックについての学術刊行物から自動的に抽出されてもよい。追加的または代替的に、他のいかなるキーワード抽出技法が使われてもよい。いくつかの実施形態では、キーワードは、「研究物理学者(research physicist)」または「ポスドクの志願者(post-doctoral candidate)」といった職業用語を含んでいてもよい。
ブロック1340では、ソーシャル・メディア・アカウント候補のプロフィールが取ってこられてもよい。たとえば、情報収集システムはソーシャル・メディア・システム(たとえば図1のソーシャル・メディア・システム)に問い合わせをして、ソーシャル・メディア・アカウント候補のプロフィールを取得してもよい。いくつかの実施形態では、プロフィールだけが取ってこられ、情報収集システムはソーシャル・メディア・アカウント全体を受け取る必要はない。
ブロック1350では、抽出されたキーワードが、ソーシャル・メディア・アカウント候補プロフィール内のテキストと比較されてもよい。たとえば、ソーシャル・メディア・アカウント・プロフィール内の任意のテキストから、ブロック1330で抽出されたキーワードが検索されてもよい。いくつかの実施形態では、任意のオーバーラップがスコアを与えられてもよく、スコアは連続する一致する用語とともに上昇してもよく、あるいは同じ文における一致する用語の数の増大とともに上昇してもよい。
ブロック1360では、個人学術ウェブページ候補から抽出されたキーワードがプロフィールからのテキストとの類似性閾値を超えるかどうかについて判定がなされてもよい。たとえば、オーバーラップに関連するスコアが、キーワードにおける高いレベルのオーバーラップを示す閾値を超えるかどうかについて判定がなされてもよい。いくつかの実施形態では、閾値は、どのキーワードがソーシャル・メディア・アカウント候補と個人学術ウェブページ候補両方に現われることが見出されるかに基づいて変わってもよい。たとえば、より一般的なキーワードについては、それほど一般的でないキーワードについてよりも閾値が高くてもよい。類似性閾値を超えているとの判定後、方法1300はブロック1380に進んでもよい。類似性閾値を超えていないとの判定後、方法1300はブロック1370に進んでもよい。
ブロック1370では、前記キーワードと比較するために取ってこられるべきさらなるソーシャル・メディア・アカウント候補があるか否かについて判定がなされてもよい。取ってこられるべき他のソーシャル・メディア・アカウント候補がないとの判定後は、方法は方法1300の終わりの破線矢印に進んでもよい。取ってこられるべきさらなるソーシャル・メディア・アカウント候補があるとの判定後には、方法1300はブロック1340に戻ってもよい。
ブロック1380では、ブロック1360での判定に基づいて、個人学術ウェブページ候補とソーシャル・メディア・アカウント候補が両方とも、前記著作者に関連していると確認されうる。たとえば、個人学術ウェブページのキーワードおよびソーシャル・メディア・アカウント・プロフィールのプロフィールのテキストを介した相互検証は、ソーシャル・メディア・アカウント候補および個人学術ウェブページ候補両方が前記著作者に正しく関連している確からしさを高めうる。いくつかの実施形態では、ブロック1380は方法1300の終わりの破線矢印に進んでもよい。追加的または代替的に、方法1300はブロック1380からブロック1370に進んでもよい。たとえば、著作者が複数のソーシャル・メディア・アカウントをもっていることがありうるので、方法1300はブロック1370に戻ってもよい。
方法1300の終わりの破線矢印は、相互検証された個人ウェブページ候補およびソーシャル・メディア・アカウント候補が、図7の方法700のブロック750などの一つまたは複数のプロセスまたはブロックによって使われてもよいことを示しうる。追加的または代替的に、破線矢印は、図10の方法1000、図11の方法1100、図12の方法1200または図14の方法1400の一つまたは複数に進んでもよい。
図14は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントおよび個人学術ウェブページ候補を相互検証することにおいて使われうるもう一つの例示的方法1400のフローチャートを示している。一つの個人学術ウェブページ候補に関して説明するが、方法1400は任意の数の個人学術ウェブページ候補について繰り返されてもよい。方法1400は、図7のブロック740の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法1400に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1400はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1400に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1400のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1410につながる破線矢印は、方法1400が図7の方法700のブロック730から続いているなど、別の方法の続きでありうることを示している。追加的または代替的に、破線矢印は、図10の方法1000、図11の方法1100、図12の方法1200または図13の方法1300の一つまたは複数からの続きであってもよい。
ブロック1410では、個人学術ウェブページ候補が取ってこられてもよい。ブロック1410は図13のブロック1310と同様または同等であってもよい。
ブロック1420では、情報ブロックを識別するために個人学術ウェブページ候補がパースされてもよい。ブロック1420は図13のブロック1320と同様または同等であってもよい。
ブロック1430では、ブロック1420で識別された情報ブロックからキーワードが抽出されてもよい。ブロック1430は図13のブロック1330と同様または同等であってもよい。
ブロック1440では、あるソーシャル・メディア・アカウント候補にリンクされた諸ソーシャル・メディア・アカウントのプロフィールが取ってこられてもよい。たとえば、前記ソーシャル・メディア・アカウント候補から情報を得ている(たとえば前記ソーシャル・メディア・アカウント候補をフォローしている)ソーシャル・メディア・アカウントおよび/または前記ソーシャル・メディア・アカウント候補がそこから情報を得ている(たとえば、前記ソーシャル・メディア・アカウント候補がフォローしている)ソーシャル・メディア・アカウントを識別するために、情報処理システムはソーシャル・メディア・システムに問い合わせしてもよい。ソーシャル・メディア・システムはさらに、それらのフォローしているおよび/またはフォローされているソーシャル・メディア・アカウントのプロフィールを送るよう要求されてもよい。いくつかの実施形態では、要求されるプロフィールの数は数値的に打ち切られてもよく、たとえば50個のプロフィールまたは100個のプロフィールまたは200個のプロフィールおよび/またはその他で打ち切られてもよい。
ブロック1450では、抽出されたキーワードがソーシャル・メディア・アカウント・プロフィールのテキストと比較されてもよい。いくつかの実施形態では、ブロック1450は図13のブロック1350と同様または同等であってもよいが、比較が、前記ソーシャル・メディア・アカウント候補自身のプロフィールではなく、前記ソーシャル・メディア・アカウント候補にリンクされているソーシャル・メディア・アカウントのプロフィールについて実行されるという相違がある。
ブロック1460では、個人学術ウェブページ候補から抽出されたキーワードがリンクされたソーシャル・メディア・アカウントのプロフィールのうち一つまたは複数のプロフィールのテキストとの類似性閾値を超えるかどうかについて判定がなされてもよい。いくつかの実施形態では、判定は各プロフィールについて、あるいはすべてのプロフィールのテキストを横断してなされてもよい。類似性閾値を超えているとの判定後、方法1400はブロック1480に進んでもよい。類似性閾値を超えていないとの判定後、方法1400はブロック1470に進んでもよい。いくつかの実施形態では、方法1400がブロック1470ではなくブロック1480に進む前に、前記類似性閾値を超えるリンクされたソーシャル・メディア・アカウント・プロフィールの最小限の数および/または割合があってもよい。
ブロック1470では、前記キーワードと比較するために取ってこられるべきリンクされたアカウントのプロフィールをもつさらなるソーシャル・メディア・アカウント候補があるか否かについて判定がなされてもよい。取ってこられるべき他のソーシャル・メディア・アカウント候補がない場合は、方法は方法1400の終わりの破線矢印に進んでもよい。取ってこられるべきさらなるソーシャル・メディア・アカウント候補がある場合には、方法1400はブロック1440に戻ってもよい。
ブロック1480では、ブロック1460での判定に基づいて、個人学術ウェブページ候補とソーシャル・メディア・アカウント候補が両方とも、前記著作者に関連していると確認されうる。たとえば、個人学術ウェブページのキーワードおよびソーシャル・メディア・アカウント候補のリンクされたソーシャル・メディア・アカウントのプロフィールのテキストを介した相互検証は、ソーシャル・メディア・アカウント候補および個人学術ウェブページ両方が前記著作者に正しく関連している確からしさを高めうる。いくつかの実施形態では、ブロック1480は方法1400の終わりの破線矢印に進んでもよい。追加的または代替的に、方法1400はブロック1480からブロック1470に進んでもよい。たとえば、著作者は複数のソーシャル・メディア・アカウントをもつことがあるので、方法1400はブロック1470に戻ってもよい。
方法1400の終わりの破線矢印は、相互検証された個人ウェブページ候補およびソーシャル・メディア・アカウント候補が、図7の方法700のブロック750などの一つまたは複数のプロセスまたはブロックによって使われてもよいことを示しうる。追加的または代替的に、破線矢印は、図10の方法1000、図11の方法1100、図12の方法1200または図13の方法1300の一つまたは複数に進んでもよい。
〈センサーとしてのソーシャル・メディア・アカウント〉
一つまたは複数の実施形態において、本開示は、ソーシャル・メディア・アカウントを、他の知識のあるソーシャル・メディア・アカウントを識別するためのセンサーとして使うことを含みうる。たとえば、あるソーシャル・メディア・アカウントが知識のある人物に関連しているかどうかを判定する際、ソーシャル・メディア・アカウントをフォローしているおよび/またはソーシャル・メディア・アカウントによってフォローされているソーシャル・メディア・アカウントが解析されてもよい。本開示の一つまたは複数の実施形態は、知識のある人々が、特定のトピックについて知識のある他者を認識し、該他者からの情報を求めることができることを利用しうる。たとえば、機械学習について著作のある教授は、機械学習について知識のある他の人々をソーシャル・メディア上でフォローし、該他の人々によってフォローされることがありうる。さらに、知識のある人々によってフォローされるアカウントは、知識のある人物をフォローしているアカウントより、所与のトピックについて知識のある人物のアカウントである可能性が高いことがありうる。たとえば、大学院生は所与のトピックについて知識があると知られている特定の教授をフォローすることがあるが、そのことはその特定の教授がその大学院生からの識見を知識があると考えていることは意味しないことがある。既知の知識のある人々のシード・ソーシャル・メディア・アカウントにおけるリンクを解析し、利用することにより、シード・ソーシャル・メディア・アカウントは、他の知識のある人々のソーシャル・メディア・アカウントを識別する際のセンサーとして機能しうる。いくつかの実施形態では、候補ソーシャル・メディア・アカウントのさまざまな集合が生成され、次いで該候補が知識のあるアカウントであるか否か、あるいは学習者ソーシャル・メディア・アカウントのような他の何らかの範疇に含められうるかどうかを判定するために解析されてもよい。知識のあるソーシャル・メディア・アカウントは、所与のトピックについて知識のある人物に関連しているソーシャル・メディア・アカウントを参照することがありうる。学習者ソーシャル・メディア・アカウントは、所与のトピックに関心があるが該所与のトピックについて知識があるかもしれないしないかもしれない人物に関連したソーシャル・メディア・アカウントを参照することがありうる。
図15は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントの候補集合の生成の例示的な概略表現1500を示している。いくつかの実施形態では、概略表現1500は、ソーシャル・メディア・アカウントを知識のあるソーシャル・メディア・アカウントおよび/または学習者ソーシャル・メディア・アカウントについての候補として識別するプロセスまたはプロセスの一部を示しうる。これらおよび他の実施形態において、概略表現1500によって示されるプロセスまたはプロセスの一部の一部は、図1のシステム100の動作の例であってもよい。たとえば、いくつかの実施形態では、情報収集システム110が概略表現1500に示されるように候補集合を生成するよう構成されてもよい。
図15に示されるように、シード・ソーシャル・メディア・アカウントの集合1510は一つまたは複数のソーシャル・メディア・アカウント1512a〜1512g(概括的にシード・ソーシャル・メディア・アカウント(単数または複数)1512と称される)を含んでいてもよい。シード・ソーシャル・メディア・アカウントの集合1510は、所与のトピックについて知識のあるソーシャル・メディア・アカウントであることがわかっているシード・ソーシャル・メディア・アカウント1512を含んでいてもよい。たとえば、(図2および/または図6に示されるような)本開示のプロセスを使って、所与のトピックについての刊行物の著作者がその著作者に関連付けられたソーシャル・メディア・アカウントを有していてもよい。該著作者に関連付けられたソーシャル・メディア・アカウントは、その刊行物のトピックについて知識のある人物のソーシャル・メディア・アカウントでありうる。そのようなソーシャル・メディア・アカウントは、シード・ソーシャル・メディア・アカウント1512の一つとして含められてもよい。追加的または代替的に、ユーザーが、自分自身または別のソーシャル・メディア・アカウントを、シード・ソーシャル・メディア・アカウント1512の一つとして含まれるべきソーシャル・メディア・アカウントとして提出してもよい。シード・ソーシャル・メディア・アカウント1512を同定するために、ピアレビュー、ピア推薦、大学学部識別、組織識別などといった他のいかなる方法またはプロセスが利用されてもよい。
シード・ソーシャル・メディア・アカウント1512に付随する矢印は、シード・ソーシャル・メディア・アカウント1512にリンクされているソーシャル・メディア・アカウントを示しうる。たとえば、所与のソーシャル・メディア・アカウントから出て行く矢印は、該所与のソーシャル・メディア・アカウントがそこから情報を得ているソーシャル・メディア・アカウントまたは該所与のソーシャル・メディア・アカウントによってフォローされているソーシャル・メディア・アカウントを示しうる。所与のソーシャル・メディア・アカウントに向かう矢印は、該所与のソーシャル・メディア・アカウントから情報を得ているソーシャル・メディア・アカウントまたは該所与のソーシャル・メディア・アカウントをフォローしているソーシャル・メディア・アカウントを示しうる。たとえば、シード・ソーシャル・メディア・アカウント1512aについて、シード・ソーシャル・メディア・アカウント1512aはソーシャル・メディア・アカウント1522a、1512b、1512cおよび1512eをフォローしており、ソーシャル・メディア・アカウント1512bおよび1532eによってフォローされている。もう一つの例として、ソーシャル・メディア・アカウント1522aについて、ソーシャル・メディア・アカウント1522aはソーシャル・メディア・アカウント1512cをフォローしており、ソーシャル・メディア・アカウント1512a、1512bおよび1512eによってフォローされている。
いくつかの実施形態では、ソーシャル・メディア・アカウントの第一の候補集合1520が生成されてもよい。たとえば、第一の候補集合1520は、シード・ソーシャル・メディア・アカウント1512のソーシャル・メディア・アカウント・プロフィールを取ってきて、シード・ソーシャル・メディア・アカウント1512によってフォローされているすべてのソーシャル・メディア・アカウントを識別することによって生成されてもよく、これらのアカウントは、ソーシャル・メディア・アカウント1522aおよび1522b(ソーシャル・メディア・アカウント1522と称される)として第一の候補集合1520に加えられてもよい。
いくつかの実施形態では、一つまたは複数のソーシャル・メディア・アカウントが第一の候補集合1520から除去されてもよい。たとえば、第一の候補集合1520は解析されて、すでにシード・ソーシャル・メディア・アカウントの集合1510にはいっているソーシャル・メディア・アカウントがあればそれを同定してもよい。たとえば、シード・ソーシャル・メディア・アカウント1512aはソーシャル・メディア・アカウント1512bをフォローしているが、ソーシャル・メディア・アカウント1512bはすでにシード・ソーシャル・メディア・アカウントの集合1510にはいっており、よってソーシャル・メディア・アカウント1512bは第一の候補集合1520から除去されてもよい。
もう一つの例として、ソーシャル・メディア・アカウント1522の一つまたは複数が解析されて、人物、組織、刊行物、ソフトウェア・ベンダー、会議またはその他によって所有されているかどうかが判別されてもよい。たとえば、いくつかの会議は、所与のトピックに関連しうるが前記所与のトピックについて知識のある人物に関連しないことがあるソーシャル・メディア投稿を生成するツイッター・アカウントを含むことがある。いくつかの実施形態では、実際の人々によって所有されているソーシャル・メディア・アカウントが第一の候補集合1520に含められる。
第一の候補集合1520から除去されるソーシャル・メディア・アカウント1522のもう一つの例は、一般的に適用可能なソーシャル・メディア・アカウントまたは一般的ソーシャル・メディア・アカウントを含みうる。たとえば、人気のある映画スターまたは政治家はあるトピックについて多数の知識ある人々によってフォローされることがありうるが、そのことは、その映画スターや政治家が必ずそのトピックについて知識があることを示すのではないことがある。本開示の一つまたは複数の実施形態は、そのような一般的なソーシャル・メディア・アカウントを除去してもよい。そのような手法の例示的な方法は図18に示される。
いくつかの実施形態では、第一の候補集合1520のソーシャル・メディア・アカウント1522が解析されて、ソーシャル・メディア・アカウント1522がシード・ソーシャル・メディア・アカウント1512として含まれているかどうかが判定されてもよい。いくつかの実施形態では、そのような解析は、第一の候補集合1520からさまざまなソーシャル・メディア・アカウントを除去することを含んでいてもよく、残りのソーシャル・メディア・アカウント1522がシード・ソーシャル・メディア・アカウント1510に追加されてもよい。追加的または代替的に、ソーシャル・メディア・アカウント1522に対して追加的な解析が実行されてもよい。これらおよび他の実施形態において、追加的なシード・ソーシャル・メディア・アカウント1512を含めることで、それらの新たに追加されたシード・ソーシャル・メディア・アカウントを使って、さらなるシード・ソーシャル・メディア・アカウントを識別するプロセスが実行されうる。
第一の候補集合1520への追加または代替として、いくつかの実施形態では、ソーシャル・メディア・アカウントの第二の候補集合1530が生成されてもよい。たとえば、第二の候補集合1530は、シード・ソーシャル・メディア・アカウント1512のソーシャル・メディア・アカウント・プロフィールを取ってきて、シード・ソーシャル・メディア・アカウント1512をフォローするすべてのソーシャル・メディア・アカウントを識別することによって生成されてもよく、該フォローしているソーシャル・メディア・アカウントは、ソーシャル・メディア・アカウント1532a〜1532c(ソーシャル・メディア・アカウント1532と称される)として第二の候補集合1530に加えられてもよい。
いくつかの実施形態では、一つまたは複数のソーシャル・メディア・アカウントが第二の候補集合1530から除去されてもよい。たとえば、第二の候補集合1530は解析されて、シード・ソーシャル・メディア・アカウントの集合1510にはいっているソーシャル・メディア・アカウントがあればそれを識別してもよい。たとえば、シード・ソーシャル・メディア・アカウント1512aはソーシャル・メディア・アカウント1512bによってフォローされているが、ソーシャル・メディア・アカウント1512bはすでにシード・ソーシャル・メディア・アカウントの集合1510にはいっており、よってソーシャル・メディア・アカウント1512bは第二の候補集合1530から除去されてもよい。追加的または代替的に、第二の候補集合1530は解析されて、すでに第一の候補集合1520にはいっているソーシャル・メディア・アカウントがあればそれを同定してもよい。たとえば、ソーシャル・メディア・アカウント1522aはシード・ソーシャル・メディア・アカウント1512cをフォローしているが、シード・ソーシャル・メディア・アカウントの集合1510にははいっていない。しかしながら、ソーシャル・メディア・アカウント1522aはすでに第一の候補集合1520にはいっており、よってソーシャル・メディア・アカウント1522aは第二の候補集合1530から除去されてもよい。
第二の候補集合1530から除去されるソーシャル・メディア・アカウント1532のもう一つの例は、一般的に適用可能なソーシャル・メディア・アカウントまたは一般的ソーシャル・メディア・アカウントを含みうる。そのようなアカウントを第一の候補集合1520から除去することを参照して述べたのと同様である。そのような手法の例示的な方法は図23に示される。
いくつかの実施形態では、第二の候補集合1530のソーシャル・メディア・アカウント1532が解析されて、ソーシャル・メディア・アカウント1532が学習者ソーシャル・メディア・アカウントの集合に含められてもよいかどうかが判定されてもよい。いくつかの実施形態では、そのような解析は、第二の候補集合1530からさまざまなソーシャル・メディア・アカウントを除去することを含んでいてもよく、残りのソーシャル・メディア・アカウント1532が学習者ソーシャル・メディア・アカウントの集合に追加されてもよい。追加的または代替的に、ソーシャル・メディア・アカウント1532に対してさらなる解析が実行されてもよい。たとえば、所与のトピックに対するそのソーシャル・メディア・アカウントの関心レベルを判別するために解析が実行されてもよい。
いくつかの実施形態では、シード・ソーシャル・メディア・アカウントの集合1510および学習者ソーシャル・メディア・アカウントの集合に対して、前記ソーシャル・メディア・アカウントがどちらの集合に属するかに基づいて、ある種のコンテンツが送達されてもよい。たとえば、シード・ソーシャル・メディア・アカウントの集合1510には新たな刊行物が提供されてもよく、学習者ソーシャル・メディア・アカウントの集合にはレクチャー・ビデオまたは授業サマリーが提供されてもよい。いくつかの実施形態では、シード・ソーシャル・メディア・アカウントの集合1510には、学習者ソーシャル・メディア・アカウントの集合に提供されるよりも、進んだ内容が提供されてもよい。そのようにして、ソーシャル・メディア・アカウントは、ソーシャル・メディア・アカウントの所有者の知識レベルの人間知覚に間接的に基づいて、ある種のソーシャル・メディア・アカウントを識別し、分類するためにセンサーとして利用されうる。
本開示の範囲から外れることなく概略表現1500に修正、追加または省略がなされてもよい。たとえば、概略表現1500は、学習者ソーシャル・メディア・アカウントの集合のような、ソーシャル・メディア・アカウントの他の集合またはグループを含んでいてもよい。代替的または追加的に、図15に関して述べた解析の追加的な特徴または詳細は、図16a〜図18を参照して記述されうる。
図16aおよび図16bは、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントをセンサーとして使いながらの情報の識別および抽出の例示的方法1600のフローチャートを示している。たとえば、いくつかの実施形態では、方法1600に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1600はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1600に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1600のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1602では、シード・ソーシャル・メディア・アカウントが取得されてもよい。たとえば、情報収集システム(たとえば図1の情報収集システム110)が、所与のトピックについて知識のある、あらかじめ決定されたソーシャル・メディア・アカウントの集合を与えられてもよい。追加的または代替的に、情報収集システムは、たとえば図2および/または図6のフローのような本開示のプロセス、システムまたは装置の一つまたは複数を使って、刊行物の著作者に関連する一つまたは複数のソーシャル・メディア・アカウントを識別してもよい。
ブロック1604では、所与のシード・ソーシャル・メディア・アカウントについて、ソーシャル・メディア・アカウント・プロフィールが取ってこられてもよい。たとえば、情報収集システムはソーシャル・メディア・システム(たとえば図1のソーシャル・メディア・システムの一つまたは複数)に問い合わせして、ソーシャル・メディア・アカウント候補のプロフィールを取得してもよい。いくつかの実施形態では、プロフィールだけが取ってこられ、情報収集システムはソーシャル・メディア・アカウント全体を取得する必要はない。
ブロック1606では、前記プロフィールから、ソーシャル・メディア・アカウントの第一の集合が、シード・ソーシャル・メディア・アカウントによってフォローされているソーシャル・メディア・アカウントとして抽出されてもよい。たとえば、シード・ソーシャル・メディア・アカウントによってフォローされているソーシャル・メディア・アカウントを識別するフィールドを含む前記プロフィールの部分が識別されてもよく、そこに挙げられているソーシャル・メディア・アカウントが、ソーシャル・メディア・アカウントの前記第一の集合として抽出されてもよい。
ブロック1608では、前記第一の集合のソーシャル・メディア・アカウントがシード・ソーシャル・メディア・アカウントと比較されてもよい。たとえば、そのような比較は、ソーシャル・メディア・アカウントの前記第一の集合および前記シード・ソーシャル・メディア・アカウントの両方にはいっているソーシャル・メディア・アカウントがあればそれを識別しうる。
ブロック1610では、ソーシャル・メディア・アカウントの第一の候補集合が、ブロック1608の比較に基づいて構築されてもよい。たとえば、ソーシャル・メディア・アカウントの前記第一の候補集合は、ソーシャル・メディア・アカウントの前記第一の集合にはいっているが、前記シード・ソーシャル・メディア・アカウントにははいっていないソーシャル・メディア・アカウントを含んでいてもよい。いくつかの実施形態では、ブロック1608および1610は同時に行なわれてもよく、これはたとえば、ソーシャル・メディア・アカウントの前記第一の集合および前記シード・ソーシャル・メディア・アカウントの両方にあるソーシャル・メディア・アカウントをそれが識別される都度除去し、前記第一の集合の残りのソーシャル・メディア・アカウントがソーシャル・メディア・アカウントの前記第一の候補集合となることによる。
ブロック1612では、一つまたは複数の一般的ソーシャル・メディア・アカウントがソーシャル・メディア・アカウントの前記第一の候補集合から除去されてもよい。たとえば、有名人のソーシャル・メディア・アカウントはシード・アカウントの一つまたは複数によってフォローされることがあるが、シード・ソーシャル・メディア・アカウントが知識があるトピックに関して知識があるのではないことがありうる。一つまたは複数の一般的ソーシャル・メディア・アカウントを除去することの例は図18を参照して述べる。
ブロック1614では、前記第一の候補集合の候補ソーシャル・メディア・アカウントが解析されて、ソーシャル・メディア・アカウントの型を判別してもよい。たとえば、解析は、候補ソーシャル・メディア・アカウントが人物によって所有されているか組織(たとえばジャーナル、会議、ソフトウェア・ツール、団体など)によって所有されているかを判定するために実行されてもよい。もう一つの例として、解析は、候補ソーシャル・メディア・アカウントが所与のトピックについて、候補ソーシャル・メディア・アカウントが知識のあるアカウントであるかどうかを判定するための閾値より上の関心スコアをもつかどうかを判定するために実行されてもよい。もう一つの例として、解析は、候補ソーシャル・メディア・アカウントの関心レベルが閾値より上であるかどうかを判定するために実行されてもよい。そのような解析の例示的方法はたとえば図17において記述される。
ブロック1616では、候補ソーシャル・メディア・アカウントが知識のあるソーシャル・メディア・アカウントであるかどうかについて判定がなされてもよい。たとえば、判定は、ブロック1614において実行される解析に基づいていてもよい。候補ソーシャル・メディア・アカウントが知識のあるアカウントであるとの判定後、方法1600はブロック1618に進んでもよい。候補ソーシャル・メディア・アカウントが知識のあるアカウントではないとの判定後、方法1600はブロック1620に進んでもよい。
ブロック1618では、候補ソーシャル・メディア・アカウントはシード・ソーシャル・メディア・アカウントとして追加されてもよい。
ブロック1620では、ソーシャル・メディア・アカウント候補の前記第一の集合内にさらなる候補ソーシャル・メディア・アカウントがあるかどうかについて判定がなされてもよい。さらなる候補がある場合には、方法1600はブロック1614に戻ってもよい。さらなる候補がない場合には、方法1600はブロック1622に進んでもよい。
図16bを参照するに、ブロック1622において、シード・ソーシャル・メディア・アカウントをフォローしているソーシャル・メディア・アカウントの第二の集合が抽出されてもよい。たとえば、シード・ソーシャル・メディア・アカウントをフォローしているソーシャル・メディア・アカウントを同定するフィールドを含んでいる前記プロフィールの部分が識別されて、そこに挙げられているソーシャル・メディア・アカウントがソーシャル・メディア・アカウントの前記第二の集合として抽出されてもよい。
ブロック1624では、ソーシャル・メディア・アカウントの第二の候補集合が構築されてもよい。たとえば、ソーシャル・メディア・アカウントの第二の候補集合は、ブロック1622で抽出されたソーシャル・メディア・アカウントの前記第二の集合にはいっているが、ソーシャル・メディア・アカウントの前記第一の集合および前記シード・ソーシャル・メディア・アカウントには含まれないソーシャル・メディア・アカウントを含んでいてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウントの前記第二の集合におけるソーシャル・メディア・アカウントは、前記シード・ソーシャル・メディア・アカウントおよびソーシャル・メディア・アカウントの前記第一の集合と比較されてもよく、重なっているアカウントはソーシャル・メディア・アカウント前記第二の集合から除去されて、ソーシャル・メディア・アカウントの前記第二の候補集合を与えてもよい。
ブロック1626では、一つまたは複数の一般的ソーシャル・メディア・アカウントが候補ソーシャル・メディア・アカウントの前記第二の集合から除去されてもよい。ブロック1626はブロック1612と同様または同等であってもよいが、候補ソーシャル・メディア・アカウントの第一の集合ではなく第二の集合に対して実行される。
ブロック1628では、ソーシャル・メディア・アカウントの前記第二の候補集合の候補に関連している名前が取得されてもよい。たとえば、ソーシャル・メディア・システムが、候補ソーシャル・メディア・アカウントのプロフィールを提供するよう要求されてもよい。もう一つの例として、特定のソーシャル・メディア・アカウントに関連付けられた名前を、そのソーシャル・メディア・アカウントに関する追加的なデータを要求したり受け取ったりすることなく、提供するよう、ソーシャル・メディア・システムが問い合わせされてもよい。
ブロック1630では、候補アカウントに関連付けられた名前が組織アカウントであるか人物名であるかについての判定がなされてもよい。たとえば、ブロック1628で得られた名前に対してテキスト解析が実行されて、組織の一つまたは複数の指標、たとえば単語「ジャーナル(journal)」「the」「社(inc.)」「会社(co.)」「パッケージ(package)」「グループ(group)」などが存在するかどうかが判定されてもよい。追加的または代替的に、ブロック1628で取得された名前は、「ジョン(John)」「アンドルー(Andrew)」または「サラ(Sarah)」のような名前として典型的に使われるテキスト項目を識別するための名前データベースと比較されてもよい。いくつかの実施形態では、情報収集システムは、あるトピックに関係した既知の組織(たとえば会議、ジャーナル、大学、ソフトウェア・ベンダーおよび/または標準設定団体)のデータベースを維持していてもよく、名前を既知の組織のデータベース中のエントリーと比較してもよい。これらおよび他の実施形態において、名前が組織であるとの判定後、方法1600はブロック1632に進んでもよい。追加的または代替的に、名前が組織であるとの判定後、その組織は既知の組織の前記データベース中のもう一つのエントリーとして追加されてもよい。名前が人物であるとの判定後、方法1600はブロック1634に進んでもよい。
ブロック1632では、名前が組織名であることに基づいて、候補ソーシャル・メディア・アカウントは、候補ソーシャル・メディア・アカウントの前記第二の集合から除去されてもよい。ブロック1632の後、方法1600はブロック1640に進んでもよい。
ブロック1634では、名前が人物名であることに基づいて、その人物の所与のトピックに対する関心を表わす関心スコアが同定されてもよい。たとえば、関心スコアは、候補ソーシャル・メディア・アカウントのソーシャル・メディア投稿において現われる所与のトピックに関係したキーワードの数に基づいていてもよい。追加的または代替的に、関心スコアは、候補ソーシャル・メディア・アカウントの、所与のトピックに関係した閾値数のキーワードを含むソーシャル・メディア投稿の割合に基づいていてもよい。追加的または代替的に、関心スコアは、候補ソーシャル・メディア・アカウントの、所与のトピックに関係した一つまたは複数のキーワードを含む一つまたは複数のソーシャル・メディア投稿との相互作用に基づいていてもよい。いくつかの実施形態では、前記候補の関心スコアは、上記の任意の組み合わせまたはソーシャル・メディア・アカウントの関心ある一つまたは複数のトピックを識別するための他の任意の方法に基づいていてもよい。
ブロック1636では、関心スコアが閾値より上であるかどうかについて判定がなされてもよい。いくつかの実施形態では、閾値レベルは、トピックの人気に基づいていてもよい。追加的または代替的に、閾値レベルは、当該トピックに関係したキーワードがどのくらい頻繁に当該トピックのコンテキストの外部で使われるかに基づいていてもよい。たとえば、用語「機械」および「学習」は学術コンテキストの外でも頻繁に使われることがあり、一方、「単純ベイズ」は学術コンテキストの外ではまれにしか使われない。関心スコアが閾値を超えているとの判定後、方法1600はブロック1638に進んでもよい。関心スコアが閾値を超えないとの判定後、方法1600はブロック1640に進んでもよい。
ブロック1638では、関心スコアが閾値を超えているというブロック1636でなされた判定に基づいて、候補ソーシャル・メディア・アカウントが、ソーシャル・メディア・アカウントの第二の集合に追加されてもよい。たとえば、ソーシャル・メディア・アカウントの前記第二の集合は、学習者ソーシャル・メディア・アカウントの集合であってもよい。ソーシャル・メディア・アカウントの前記第二の集合は、特定のトピックについての情報を得ることを望んでいるが、必ずしもそのトピックに関する専門知識またはピアに認識されている知識をもつのではないアカウントであってもよい。
ブロック1640では、まだ解析されていない、候補ソーシャル・メディア・アカウントの前記第二の集合内のさらなる候補ソーシャル・メディア・アカウントがあるかどうかについて判定がなされてもよい。残っている候補アカウントがあるとの判定後、方法1600はブロック1628に戻ってもよい。さらなる候補ソーシャル・メディア・アカウントがないとの判定後、方法1600はブロック1642に進んでもよい。
ブロック1642では、まだ解析されていないさらなるシード・ソーシャル・メディア・アカウントがあるかどうかについて判定がなされてもよい。さらなるシード・ソーシャル・メディア・アカウントがあるとの判定後、方法1600はブロック1604に戻ってもよい。さらなるシード・ソーシャル・メディア・アカウントがない場合には、方法1600はブロック1644に進んでもよい。
ブロック1644では、シード・ソーシャル・メディア・アカウントと前記第二の集合のソーシャル・メディア・アカウントに異なるコンテンツが提供されてもよい。いくつかの実施形態では、該異なるコンテンツは、同じトピックに関係していてもよいが、それら二つのグループについて異なっていてもよい。たとえば、シード・ソーシャル・メディア・アカウント(これは所与のトピックについて知識があるとわかっている)は、当該トピックに関係した新たな刊行物、発見などのような第一のコンテンツを提供されてもよい。前記第二の集合のソーシャル・メディア・アカウント(これはそのトピックに関心があることはわかっているが、必ずしもそのトピックについて知識があるわけではない)は、当該トピックに関係したレクチャー・ノート、レクチャーのビデオ、授業呈示、概要などを提供されてもよい。
いくつかの実施形態では、候補ソーシャル・メディア・アカウントの前記第一および/または第二の集合は、候補ソーシャル・メディア・アカウントの前記第一および/または第二の集合が解析される前に、すべてのシード・ソーシャル・メディア・アカウントについて生成されてもよい。そのような手法は、候補ソーシャル・メディア・アカウントの潜在的に重複した解析を避けうる。これらおよび他の実施形態において、それらの候補を解析した後、さらなるシード・アカウントがあればそれが処理されて、追加的な候補ソーシャル・メディア・アカウントを生成することがありうる。もう一つの例として、ブロック1622ないし1640のいずれも省略されてもよく、前記第一の候補集合のみが構築されて解析されてもよい。追加的または代替的に、前記第二の候補集合のみが構築されて解析されてもよい。
図17は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントをセンサーとして使いながらの情報の識別および抽出において使用されうる例示的方法1700のフローチャートを示している。一つのソーシャル・メディア・アカウントに関して説明するが、方法1700は任意の数のソーシャル・メディア・アカウントについて繰り返されてもよい。方法1700は、図16のブロック1614の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法1700に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1700はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1700に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1700のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1705につながる破線矢印は、方法1700が図16の方法1600のブロック1612または1620から続いているなど、別の方法の続きでありうることを示している。
ブロック1705では、候補ソーシャル・メディア・アカウントの集合におけるある候補ソーシャル・メディア・アカウントであるソーシャル・メディア・アカウントについて名前が取得されてもよい。ブロック1705は図16のブロック1628と同様または同等であってもよい。
ブロック1710では、前記名前が組織名であるか人物名であるかについて判定がなされてもよい。ブロック1710は図16のブロック1630と同様または同等であってもよい。前記名前が組織名であるとの判定後、方法1700はブロック1740に進んでもよい。前記名前が人物名であるとの判定後、方法1700はブロック1715に進んでもよい。
ブロック1715では、前記名前が人物名であることに基づき、前記名前は、刊行物のデータベースにおける一つまたは複数の著作者名と比較されてもよい。たとえば、情報収集システム(たとえば図1の情報システム110)が刊行物および/または刊行物の著者のデータベースを含んでいてもよく、前記名前は、前記名前が一つまたは複数の刊行物の著作者として出現するかどうかを判定するために、そのようなデータベースと比較されてもよい。
ブロック1720では、前記人物名と刊行物の前記データベースにおける著作者の間に一致があるかどうかについて判定がなされてもよい。いくつかの実施形態では、一致は厳密な一致、厳密な姓の一致、近似割合一致(たとえば80%一致)または他の何らかのその変形を含んでいてもよい。たとえば、Andrew Ng〔アンドルー・ウー〕という著作者名について、さまざまな実施形態において、一致基準に依存して、次のうちの任意のものが一致と考えられてもよい:Andy Ng〔アンディー・ウー〕、A. Ng〔A・ウー〕、Drew Ng〔ドルー・ウー〕、Andi Ng〔アンディ・ウー〕、Andrew G. Ng〔アンドルー・G・ウー〕、Dr. Ng〔ウー博士〕、Doctor Ng〔ドクター・ウー〕など。名前が一致するとの判定後、方法1700はブロック1725に進んでもよい。名前が一致しないとの判定後、方法1700はブロック1730に進んでもよい。
ブロック1725では、前記名前が前記データベースにおけるある著作者名と一致することに基づいて、候補アカウントが知識のあるアカウントとして範疇分けされてもよく、方法1700は方法1700の終わりの破線に進んでもよい。
ブロック1730では、前記名前が前記データベース中の著作者に一致しないことに基づいて、その候補アカウントについて関心スコアが同定されてもよい。ブロック1730は図16bのブロック1634と同様または同等であってもよい。
ブロック1735では、候補の関心スコアが閾値を超えているかどうかについて判定がなされてもよい。いくつかの実施形態では、閾値はトピックの希少さ、所与のトピックについての刊行物の数または多様な因子のうちの他の任意のものに基づいていてもよい。関心スコアが閾値を超えているとの判定後、方法はブロック1725に進んでもよい。関心スコアが閾値を超えないとの判定後、方法1700はブロック1740に進んでもよい。
ブロック1740では、候補はソーシャル・メディア・アカウントの前記集合から除去されてもよい。たとえば、関心スコアが閾値より低いということは、そのアカウントがその所与のトピックについて知識のあるアカウントではないことを示すことがありうる。したがって、そのアカウントは知識のあるアカウントの潜在的な候補としては除去されてもよい。ブロック1740の後、方法1700はブロック1740から、当該方法に続く前の方法に戻ることに進んでもよい。たとえば、方法1700はブロック1745から図16のブロック1620に進んでもよい。
方法1700の終わりの破線矢印は、範疇分けされたソーシャル・メディア・アカウント候補が、アカウントが知識のあるソーシャル・メディア・アカウントであるかどうかについて判定がなされる図16の方法1600のブロック1616および/またはブロック1620など一つまたは複数のプロセスまたはブロックによって使用されてもよいことを示しうる。追加的または代替的に、破線矢印は、ソーシャル・メディア・アカウントが知識のあるものではなく、前記候補リストから除去されたことを示してもよい。
図18は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントをセンサーとして使いながらの情報の識別および抽出において使用されうるもう一つの例示的方法1800のフローチャートを示している。一つの候補ソーシャル・メディア・アカウントに関して説明するが、方法1800は、たとえば候補ソーシャル・メディア・アカウントの集合からすべての一般的ソーシャル・メディア・アカウントを除去するために、任意の数のソーシャル・メディア・アカウントについて繰り返されてもよい。追加的または代替的に、方法1800はソーシャル・メディア・アカウントの前記第一の候補集合または前記第二の候補集合の一方または両方について実行されてもよい。方法1800は、図16のブロック1612および/または1626の一つまたは複数の動作を実行する一つの実施形態を反映しうる。いくつかの実施形態では、方法1800に関連付けられた動作の一つまたは複数は情報収集システム110によって実行されてもよい。代替的または追加的に、方法1800はいかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が、方法1800に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで図示されているが、方法1800のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
ブロック1810につながる破線矢印は、方法1800が図16の方法1600のブロック1610または1624から続いているなど、別の方法の続きでありうることを示している。
ブロック1810では、候補ソーシャル・メディア・アカウント・プロフィールが取ってこられてもよい。ブロック1810はブロック1604と同様または同等であってもよいが、シード・ソーシャル・メディア・アカウント・プロフィールではなく、候補ソーシャル・メディア・アカウント・プロフィールが取ってこられてもよい。
ブロック1820では、候補ソーシャル・メディア・アカウントのグローバル・フォロワーの第一の数が数えられてもよい。たとえば、候補ソーシャル・メディア・アカウントの全フォロワーの一般的計数がなされてもよい。いくつかの実施形態では、プロフィールを取ってきてプロフィールに挙げられているフォロワーの数を数えるのではなく、特定のソーシャル・メディア・アカウントのフォロワーの数の数値を提供するよう一つまたは複数のソーシャル・メディア・システムが問い合わせされてもよい。たとえば、候補アカウントが130万人のフォロワーをもつ場合、グローバル・フォロワー数は130万となりうる。もう一つの例として、候補アカウントが410人のフォロワーをもつ場合、グローバル・フォロワー数は410となりうる。
ブロック1830では、候補ソーシャル・メディア・アカウントのローカル・フォロワーの第二の数が数えられてもよい。たとえば、ローカル・フォロワー・ソーシャル・メディア・アカウントは、候補ソーシャル・メディア・アカウントの前記第一の集合および/またはシード・ソーシャル・メディア・アカウントの前記集合からの候補ソーシャル・メディア・アカウントであって、当該候補ソーシャル・メディア・アカウントをフォローしているものを含みうる。いくつかの実施形態では、ローカル・フォロワー・ソーシャル・メディア・アカウントはさらに、候補ソーシャル・メディア・アカウントの前記第二の集合を含んでいてもよい。たとえば、あるソーシャル・メディア・アカウントをフォローしている50のシード・アカウントがあり、そのソーシャル・メディア・アカウントをフォローしている候補ソーシャル・メディア・アカウントの前記第一の集合からの20のアカウントがある場合、ローカル・フォロワーの数は70であってもよい。
ブロック1840では、トピック関連性(relevancy)スコアが生成されてもよい。トピック関連性スコアは、候補ソーシャル・メディア・アカウントのフォロワーのどのくらいの割合が、所与のトピックについて知識があるまたは潜在的に知識があるかを表わしうる。たとえば、トピック関連性スコアは、ローカル・フォロワー数をグローバル・フォロワー数で割った商として生成されてもよい。上記の二つの例の第一のものを使うと、トピック関連性スコアは70/130万、あるいは約5.384×10-5と決定されうる。第二の例については、トピック関連性スコアは70/410、あるいは約0.1707と決定されうる。
ブロック1850では、関連性スコアが閾値より上かどうかについて判定がなされてもよい。いくつかの実施形態では、閾値はトピックに基づいていてもよく、あるいはトピックとは独立であってもよい。たとえば、いくつかのトピックはより人気があることがあり、よってそのトピックをフォローする、より多くの人々がいることがありうる。これは関連性スコアを高くしうる。いくつかの実施形態では、上記の数値例を使うと、閾値は0.01から0.0001の間であってもよい。ただし、閾値はより一般には任意の値を取りうる。関連性スコアが閾値より上であるとの判定後、方法1800は方法1800の終わりの破線矢印に進んでもよい。関連性スコアが閾値より低いとの判定後、方法1800はブロック1860に進んでもよい。
ブロック1860では、候補ソーシャル・メディア・アカウントは、候補ソーシャル・メディア・アカウントの集合から除去されてもよい。たとえば、関連性スコアが閾値より上でないことに基づいて、候補ソーシャル・メディア・アカウントは一般的ソーシャル・メディア・アカウントとして範疇分けされてもよい。そのような一般的ソーシャル・メディア・アカウントは候補ソーシャル・メディア・アカウントの前記第一および/または第二の集合から除去されてもよい。追加的または代替的に、そのような候補ソーシャル・メディア・アカウントは学習者ソーシャル・メディア・アカウントの集合および/またはシード・ソーシャル・メディア・アカウントから除去されてもよい。
方法1800の終わりの破線矢印は、候補ソーシャル・メディア・アカウントの短縮された集合が、図16の方法1600のブロック1614および/またはブロック1628など一つまたは複数のプロセスまたはブロックによって使用されてもよいことを示しうる。
一つまたは複数の実施形態において、本開示は、ソーシャル・メディア・アカウント型に基づいてソーシャル・メディア・アカウントとソーシャル・メディア・コンテンツとの間の相互に補強する関係をモデル化することによってソーシャル・メディア・アカウントおよびソーシャル・メディア・コンテンツのランキングを提供する。本開示は、ソーシャル・メディア・アカウント型を考慮に入れる相互に補強するランキングに基づいて、分野固有の知識をもつ良質のソーシャル・メディア・アカウントを識別し、良質な分野固有のコンテンツを推薦しうる。ソーシャル・メディア・サービスの例としてツイッターを取ると、ツイッター・アカウントは、個人、企業、学術機関、通商会議(trade conference)、学術会議、組織、刊行物、ソフトウェア・ベンダーなどによって生成されうる(たとえば所有されうる)。特定の分野での良質なコンテンツを繰り返してまたは一貫してツイートするまたはリツイートするツイッター・アカウントは、その特定の分野の専門知識をもつ良質なツイッター・アカウントと考えられてもよい。また、特定分野での多くの良質なツイッター・アカウントによってツイートまたはリツイートされるコンテンツはその特定の分野での良質なコンテンツと考えられてもよい。本開示の一つまたは複数の実施形態は、ツイッター型に基づいて分野固有の専門知識をもつ良質のツイッター・アカウントおよび良質な分野固有のコンテンツをランク付けするために、分野固有の専門知識をもつ良質のツイッター・アカウントと良質な分野固有のコンテンツとの間の関係を活用しうる。以下の記述では、ツイッター・アカウントが例示的なソーシャル・メディア・アカウントとして使われ、ツイートおよびリツイートが例示的なソーシャル・メディア投稿またはプロモーションとして使われる。ツイッターに言及してのこうした例にもかかわらず、当業者は、本稿に記載されるさまざまな実施形態は数多くのソーシャル・メディア・サービスの任意のものに適用可能であることを理解するであろう。
図19は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウント型に基づく、ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランク付けに関して使用されうる例示的なフロー1900の図である。いくつかの実施形態では、フロー1900は、ソーシャル・メディア・アカウント型に基づく、ソーシャル・メディア・アカウントおよびソーシャル・メディア・コンテンツの相互に補強するランクキングを決定するプロセスまたはプロセスの一部を示していてもよい。これらおよび他の実施形態において、フロー1900の一部または全部は、図1のシステム100の動作の例であってもよい。たとえば、いくつかの実施形態では、情報収集システム110がフロー1900に示される、ソーシャル・メディア・アカウント型に基づく、ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランクキングを生成するよう構成されてもよい。
フロー1900はブロック1910で始まってもよく、拡張されたアカウントがセンサーとして得られてもよい。アカウントはソーシャル・メディア・アカウントであってもよく、拡張されたアカウントは、分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントであってもよい。分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントは、所与のトピックについての知識のある人であるとわかっている人々に関連付けられたシード・ソーシャル・メディア・アカウント(たとえば図15のシード・ソーシャル・メディア・アカウント1510)と、該知識のある人によってフォローされているソーシャル・メディア・アカウントであってすでにシード・ソーシャル・メディア・アカウントになっているのではないもの(たとえば図15の第一の候補集合1520)とを含んでいてもよい。いくつかの実施形態では、分野固有の専門知識をもつ拡張されたシード・ソーシャル・メディア・アカウントは、分野固有のコンテンツを識別または発見するためおよびソーシャル・メディア・アカウントのさまざまな型を識別または判別するためのセンサーとして使われてもよい。相互に補強する方法は、ソーシャル・メディア・アカウント型に基づいて有用情報に富むソーシャル・メディア・アカウントを識別し、ソーシャル・メディア内の分野固有のコンテンツを推薦するために適用されてもよい。
ブロック1920では、拡張されたソーシャル・メディア・アカウントから生成された、共有されたおよび/またはコメントされた最近のコンテンツが抽出され、まとめられてもよい。いくつかの実施形態では、コンテンツへのリンクを含むソーシャル・メディア投稿またはプロモーションが考慮されてもよく、コンテンツへのリンクを含まないソーシャル・メディア投稿またはプロモーションは破棄されてもよい(たとえば、ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを生成する際に考慮されない)。拡張されたソーシャル・メディア・アカウントからのソーシャル・メディア投稿内に含まれるリンクがアクセスされ、コンテンツが抽出されてもよい。抽出されたコンテンツはまとめられてもよい。ソーシャル・メディア・サービスとしてのツイッターの例では、拡張されたツイッター・アカウント(たとえば分野固有の知識をもつツイッター・アカウント)からのツイートまたはリツイートであってリンクを含むものが考慮されてもよく、リンクを含まないツイートまたはリツイートは破棄されてもよい。各ツイートについて、ツイート内でのリンクが目標ウェブページまでたどられてもよく、該目標ウェブページからのコンテンツが抽出されてもよい。ツイートからの抽出されたコンテンツはまとめられてもよい。よって、リンクを含むツイートまたはリツイート(たとえばツイートまたはリツイートすること)は、より多くの人々によってツイートまたはリツイートされる(たとえば投票される)コンテンツ(たとえば記事、刊行物など)が良質なコンテンツと考えられうるという意味で、一種の票(たとえば投票)と考えられてもよい。逆に、より少数の人々によってツイートまたはリツイートされるコンテンツは良質なコンテンツとは考えられなくてもよい。
いくつかの実施形態において、前記拡張されたソーシャル・メディア・アカウントの各拡張されたソーシャル・メディア・アカウントについて、最も最近の特定数の投稿(たとえば最も最近の1000の投稿、最も最近の1100の投稿など)から生成、共有および/またはコメントされたコンテンツが抽出され、まとめられてもよい。ツイッターの例では、それぞれの拡張されたツイッター・アカウントについて、最も最近の特定数のツイートまたはリツイートからのコンテンツが抽出され、まとめられてもよい。すなわち、最も最近の特定数のツイートまたはリツイートに含まれるリンクが対応する目標ウェブページまでたどられてもよく、該目標ウェブページからのコンテンツが抽出され、まとめられてもよい。前記拡張されたソーシャル・メディア・アカウントの各拡張されたソーシャル・メディア・アカウントについて、特定の時間期間または時点内になされた投稿から生成、共有および/またはコメントされたコンテンツ(たとえば、直前の一週間以内の投稿、直前の二週間以内の投稿、直前の一か月以内の投稿など)が抽出され、まとめられてもよい。
ブロック1930では、分野固有の知識をもつ拡張されたソーシャル・メディア・アカウントに含まれるソーシャル・メディア・アカウントのさまざまな型について判別がなされてもよい。所与のトピックについて知識のある人であるとわかっている人々に関連付けられたシード・ソーシャル・メディア・アカウント(たとえば図15のシード・ソーシャル・メディア・アカウント1510)は個人によって作られたソーシャル・メディア・アカウントであってもよい。たとえば、所与のトピックまたは分野についての刊行物の著作者はその著作者に関連付けられたソーシャル・メディア・アカウントを有することがある。その著作者に関連付けられたソーシャル・メディア・アカウントは、その刊行物のトピックまたは分野について知識のある人のソーシャル・メディア・アカウントでありうる。そのようなソーシャル・メディア・アカウントは、個人ソーシャル・メディア・アカウント(たとえば、個人ソーシャル・メディア・アカウント型)と考えられてもよい。知識のある人によってフォローされるソーシャル・メディア・アカウントであってすでにシード・ソーシャル・メディア・アカウントになっているのではないもの(たとえば図15の第一の候補集合1520)は、個人、企業、学術機関、通商会議(trade conference)、学術会議、組織、刊行物、ソフトウェア・ベンダーなどによって生成されたソーシャル・メディア・アカウントであってもよい。知識のある人によってフォローされるソーシャル・メディア・アカウントであってすでにシード・ソーシャル・メディア・アカウントになっているのではないものの型について判別がなされてもよい。たとえば、知識のある人によってフォローされるソーシャル・メディア・アカウントであってすでにシード・ソーシャル・メディア・アカウントになっているのではないものに含まれる各ソーシャル・メディア・アカウントについて、その特定のソーシャル・メディア・アカウントが個人、企業、学術機関、通商会議(trade conference)、学術会議、組織、刊行物、ソフトウェア・ベンダーまたはその他によって所有されているかどうか(たとえば、個人ソーシャル・メディア・アカウント型、企業ソーシャル・メディア・アカウント型、学術機関ソーシャル・メディア・アカウント型、通商会議ソーシャル・メディア・アカウント型など)を判別するために解析が実行されてもよい。分野固有の知識をもつ拡張されたソーシャル・メディア・アカウントに含まれるソーシャル・メディア・アカウントのさまざまな型を判別するための例示的技法は、図20aおよび図20bに示される。
ブロック1940では、ソーシャル・メディア・アカウント型に基づいて、ソーシャル・メディア・アカウントおよびソーシャル・メディア・コンテンツの相互に補強するランキングが生成されてもよい。たとえば、相互に補強する方法が適用されて、相互に補強するランキングに基づいて、分野固有の知識をもつ拡張されたソーシャル・メディア・アカウントを識別し(たとえば有用情報に富むソーシャル・メディア・アカウントを識別し)、分野固有の知識をもつ拡張されたソーシャル・メディア・アカウントから生成、共有および/またはコメントされたコンテンツを推薦してもよい。特に、相互に補強するランキングは、分野固有の知識をもつ拡張されたソーシャル・メディア・アカウントのソーシャル・メディア・アカウント型に基づいていてもよい。本開示と整合するそのようなプロセスは、図21に関してさらに詳細に述べる。
図20aおよび図20bは、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウント型の判別に関して使用されうる例示的フロー2000の図を示している。いくつかの実施形態では、フロー2000は、ソーシャル・メディア・アカウントについてのソーシャル・メディア・アカウント型を判別するためのプロセスまたはプロセスの一部を示していてもよい。すなわち、フロー2000は、ソーシャル・メディア・アカウントがどの型のソーシャル・メディア・アカウントであるかを識別するためのプロセスまたはプロセスの一部を示していてもよい。これらおよび他の実施形態において、フロー2000の一部または全部は、図1のシステム100の動作の例であってもよい。たとえば、いくつかの実施形態では、情報収集システム110がフロー2000に示されるように、分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントに含まれる各ソーシャル・メディア・アカウントについて、ソーシャル・メディア・アカウントの型を判別するよう構成されてもよい。
フロー2000はブロック2010で始まってもよく、ソーシャル・メディア・アカウント2002に対応するアカウント・プロフィールが取得されてもよい。ソーシャル・メディア・アカウント2002は、分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントに含まれるソーシャル・メディア・アカウントであってもよく、ソーシャル・メディア・アカウント2002は、フロー2000に従ってソーシャル・メディア・アカウント2002に対応するソーシャル・メディア・アカウント型を決定するために取得または検索されてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウント2002は、分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントに含まれる、知識のある人によってフォローされるソーシャル・メディア・アカウントであってすでにシード・ソーシャル・メディア・アカウントになっているのではないもの(たとえば図15の第一の候補集合1520)のうちの一つであってもよい。この事例では、分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントに含まれる、所与のトピックについて知識があるとわかっている人々に関連付けられたシード・ソーシャル・メディア・アカウント(たとえば図15のシード・ソーシャル・メディア・アカウント1510)は、個人によって作られたソーシャル・メディア・アカウントであってもよく、個人ソーシャル・メディア・アカウント(たとえば個人ソーシャル・メディア・アカウント型)と考えられてもよい。
アカウント・プロフィールは、ソーシャル・メディア・アカウント2002を所有する、運営するまたはそれに関連付けられているエンティティに関する情報を含んでいてもよい。ソーシャル・メディア・アカウントを所有する、運営するまたはそれに関連付けられているエンティティはソーシャル・メディア・アカウント所有者と称されてもよい。アカウント・プロフィールは、ソーシャル・メディア・アカウント所有者に関する名前、写真、記述、リンクURLおよび他の情報を含んでいてもよい。たとえば、アカウント・プロフィールはウェブページであってもよい。
ブロック2020では、ソーシャル・メディア・アカウント2002に関連付けられた名前が、取得されたアカウント・プロフィールから抽出されてもよい。名前は、アカウント・プロフィール・ウェブページに含まれる文字列またはキャラクタ・ストリングであってもよい。たとえば、アカウント・プロフィール・ウェブページは、名前を示しうるキャラクタ・ストリングを求めてパースおよび/または検索されてもよい。抽出された名前は、ソーシャル・メディア・アカウント所有者(たとえば、ソーシャル・メディア・アカウント2002の所有者)の名前であってもよい。たとえば、名前は個人の名前、ジャーナルの名前、企業の名前、会議の名前などであってもよい。
ブロック2022では、抽出された名前が検査されて名前特徴2024を生成してもよい。名前特徴2024は抽出された名前を表わす数値的な特徴または信号のベクトルであってもよい。すなわち、名前特徴2024は抽出された名前の数値的表現であってもよい。いくつかの実施形態では、抽出された名前は、著作者名データベース、一般的な名前のデータベース、会議名データベース、企業名データベース、名前キーワード・データベースなどといった既知の名前の一つまたは複数のデータベースに対して検査されてもよい。著作者名データベースは、計算機科学、電気工学、機械学習などといった特定の分野またはトピックの公表された論文または刊行物の著作者の名前を含んでいてもよい。一般的な名前のデータベースは、「デイヴ(Dave)」、「ダイアナ(Diana)」、「スーザン(Susan)」などといった人の一般的な名前を含んでいてもよい。企業名データベースは、企業、会社などの名称を含んでいてもよい。名前キーワード・データベースは、「機械(machines)」、「研究(research)」、「会議(conference)」などといったさまざまなソーシャル・メディア・アカウント型の既存の名前から蓄積された個別的なキーワードを含んでいてもよい。抽出された名前とデータベースの一つにある名前との間に一致が見出されたら、名前特徴2024は名前のその特定の型を示すまたは表わすよう設定されてもよい。たとえば、抽出された名前が著作者データベースにおけるある著作者の名前と一致する場合、名前特徴2024は、抽出された名前が著作者の名前であることを示すよう設定されてもよい。もう一つの例では、抽出された名前が一般的な名前のデータベースにおけるある一般的な名前と一致する場合、名前特徴2024は、抽出された名前が一般的な名前であることを示すよう設定されてもよい。さらにもう一つの例では、抽出された名前が名前キーワード・データベースにおけるある特定のキーワードを含むまたは包含する場合、名前特徴2024は、抽出された名前が特定のキーワードを含んでいることを示すよう設定されてもよい。抽出された名前と前記データベースのうちの一つにおける名前との間に一致がみつかる場合、名前特徴2024は、抽出された名前がどの名前データベースにもみつからないことを示すよう設定されてもよい。
ブロック2030では、ソーシャル・メディア・アカウント2002に関連する写真が、取得されたアカウント・プロフィールから抽出されてもよい。写真は、アカウント・プロフィール・ウェブページに含まれる画像であってもよい。アカウント・プロフィール・ウェブページは、アカウント・プロフィール内の一つまたは複数の写真を識別し、抽出するためにパースされてもよい。たとえば、ソーシャル・メディア・アカウント・プロフィールはしばしば該ソーシャル・メディア・アカウントに関連する写真または他の画像を、該ソーシャル・メディア・アカウントを視覚的に識別するものとして含んでいる。
ブロック2032では、抽出された写真が検査されて、写真特徴2034を生成してもよい。写真特徴2034は、抽出された写真を表わす数値的な特徴または信号のベクトルであってもよい。いくつかの実施形態では、抽出された写真は、該写真が人物の顔であるまたは人物の顔を含んでいるかどうかを判定するために検査されてもよい。たとえば、抽出された写真は、該写真が人物の顔であるまたは人物の顔を含むかどうかを判定するために、顔認識アルゴリズムを使って解析されてもよい。該写真が人物の顔であるまたは人物の顔を含む場合、写真特徴2024は該写真が人物の顔であるまたは人物の顔を含むことを示すまたは表わすよう設定されてもよい。逆に、該写真が人物の顔でないまたは人物の顔を含まない場合、写真特徴2024は該写真が人物の顔でないまたは人物の顔を含まないことを示すまたは表わすよう設定されてもよい。
ブロック2040では、ソーシャル・メディア・アカウント2002に関連する記述が、取得されたアカウント・プロフィールから抽出されてもよい。記述は、アカウント・プロフィール・ウェブページに含まれるテキスト・ストリングまたはコンテンツであってもよく、ソーシャル・メディア・アカウント所有者(たとえばソーシャル・メディア・アカウント2002の所有者)を記述してもよい。たとえば、アカウント・プロフィール・ウェブページは、記述を示しうるテキスト・ストリングまたはコンテンツを求めてパースおよび/または検索されてもよい。個人ソーシャル・メディア・アカウントの例では、記述は、ソーシャル・メディア・アカウント所有者(たとえば当該人物)を「スタンフォード大の機械学習の博士課程の学生」と記述してもよい。会議に関連するソーシャル・メディア・アカウントの例では、記述はソーシャル・メディア・アカウント所有者(たとえば当該会議)を「ニューヨーク市で2016年6月19〜24日開催の機械学習の研究者のための最高の国際会議」と記述してもよい。
ブロック2042では、抽出された記述は、記述特徴2044を生成するよう検査されてもよい。記述特徴2044は、抽出された記述を表わす数値的な特徴または信号のベクトルであってもよい。いくつかの実施形態では、抽出された記述は、該抽出された記述が記述キーワード・データベース内の一つまたは複数の個別的キーワードを含むまたは包含するかどうかを判定するために、記述キーワード・データベースに対して照合される。記述キーワード・データベースは、さまざまなソーシャル・メディア・アカウント型の既存の記述から蓄積された個別的キーワードを含んでいてもよい。抽出された記述が記述キーワード・データベースにおける一つまたは複数の個別的キーワードを含むまたは包含する場合、記述特徴2044は、抽出された記述が前記一つまたは複数の個別的キーワードを含むことを示すよう設定されてもよい。逆に、抽出された記述が記述キーワード・データベースにおけるキーワードを含まない場合、記述特徴2044は、抽出された記述がキーワードを含まないことを示すよう設定されてもよい。
ブロック2050では、ソーシャル・メディア・アカウント2002に関連するリンクURLが、取得されたアカウント・プロフィールから抽出されてもよい。たとえば、アカウント・プロフィール・ウェブページは、アカウント・プロフィールがリンクURLを含んでいるかどうかを判定するためにパースおよび/または解析されてもよい。アカウント・プロフィールがリンクURLを含む場合には、そのリンクURLがアカウント・プロフィール・ウェブページから抽出されてもよい。
ブロック2052では、抽出されたリンクURLは、プロフィールURL特徴2054を生成するために検査されてもよい。プロフィールURL特徴2054は、抽出されたリンクURLを表わす数値的な特徴または信号のベクトルであってもよい。いくつかの実施形態では、抽出されたリンクURLはアクセスされて、該リンクURLによってポイントされるコンテンツ(たとえばHTMLページ)が取得またはダウンロードされてもよい。ダウンロードされたコンテンツ(たとえばHTMLページ)は解析されて、キーワード特徴ベクトルを生成してもよい。キーワード特徴ベクトルは、プロフィールURL特徴2054に含められてもよく、あるいはプロフィールURL特徴2054の一部であってもよい。いくつかの実施形態では、ダウンロードされたHTMLページは解析されて、該HTMLページに含まれる一つまたは複数の情報ブロックを識別してもよい。たとえば、ダウンロードされたHTMLページを表示するためにコンピュータによって使われるコードが解析されて、情報のブロック(たとえばテキスト・ブロック)を含みうるフィールドの位置を判別してもよい。識別された情報ブロックからキーワードが抽出されてもよい。個人に関連付けられたソーシャル・メディア・アカウント(個人ソーシャル・メディア・アカウント)の例では、キーワードの例は「志願者(Candidate)」、「刊行物(Publications)」、「教授(Teaching)」、「学生(Student)」などを含んでいてもよい。企業に関連付けられたソーシャル・メディア・アカウントの例では、キーワードの例は「当社について(About Us)」、「職種(Careers)」、「採用情報(Join Us)」などを含みうる。会議に関連付けられたソーシャル・メディア・アカウントの例では、キーワードの例は「登録(Registration)」、「論文募集(Call for Papers)」、「編者(Editors)」、「著者(Authors)」、「査読者(Reviewers)」などを含みうる。抽出されたキーワードは、一致があるかどうかについてキーワード・データベースに対して照合されてもよい。キーワード・データベースは、さまざまなソーシャル・メディア・アカウント型の既存のウェブページから蓄積された個別的キーワードを含んでいてもよい。キーワード特徴ベクトルは、抽出されたキーワードと個別的キーワードとの間の一致があればそれを示すよう設定されてもよい。
いくつかの実施形態では、抽出されたリンクURLはトークンに分割されてもよく、トークンは解析されてURL特徴ベクトルを生成してもよい。URL特徴ベクトルはプロフィールURL特徴2054に含められてもよく、あるいはプロフィールURL特徴の一部であってもよい。トークンは、一致があるかどうかについてキーURLトークン・データベースに対して照合されてもよい。キーURLトークン・データベースは、さまざまなソーシャル・メディア・アカウント型の既存のリンクURLから蓄積された個別的URLトークンを含んでいてもよい。キーURLトークンの例は「.com」「.org」「.net」「.edu」「.gov」などを含んでいてもよい。URL特徴ベクトルは、前記トークンとキーURLトークン・データベース内の個別的なURLトークンとの間に一致があればそれを示すよう設定されてもよい。
ブロック2060では、ソーシャル・メディア・アカウント2002に関連付けられた最近のソーシャル・メディア・コンテンツが取得されてもよい。たとえば、ソーシャル・メディア・アカウント2002からの最近のソーシャル・メディア投稿が取得されてもよい。いくつかの実施形態では、取得されたソーシャル・メディア投稿の数は、最も最近のソーシャル・メディア投稿の特定の数であってもよい。いくつかの実施形態では、取得されたソーシャル・メディア投稿の数は、特定の時間期間もしくは時点の間にまたは特定の時間期間もしくは時点にわたってなされたソーシャル・メディア投稿(たとえば直前の一週間以内の投稿、直前の二週間以内の投稿、直前の一か月以内の投稿など)であってもよい。
ブロック2070では、取得された最近のソーシャル・メディア・コンテンツのテキストが抽出されてもよい。ブロック2072では、抽出されたソーシャル・メディア・テキストが検査されて、コンテンツ・テキスト特徴2074を生成してもよい。ある型のソーシャル・メディア・アカウントは、自己プロモーションをしたり自分のコンテンツをプロモーションしたりする傾向がより強いことがある。たとえば、会議に関連付けされたソーシャル・メディア・アカウントは、個人に関連付けられたソーシャル・メディア・アカウントよりも自己プロモーションする傾向が強いことがある。よって、抽出されたソーシャル・メディア・テキストが検査されてもよく、コンテンツ・テキスト特徴2074は自己プロモーションの程度を表わす数値的な特徴または信号のベクトルであってもよい。いくつかの実施形態では、抽出されたソーシャル・メディア・テキストは検査されて、該ソーシャル・メディア・テキストに当該ソーシャル・メディア・アカウント名があるまたはみつかるかどうかが判定されてもよい。ソーシャル・メディア・テキスト内に当該ソーシャル・メディア・アカウント名がみつかる場合には、当該ソーシャル・メディア・アカウント名を含むソーシャル・メディア・コンテンツ項目の割合(たとえば、ソーシャルメディア投稿の割合)について判別がなされてもよい。コンテンツ・テキスト特徴2074は、当該ソーシャル・メディア・アカウント名を含むソーシャル・メディア・コンテンツの割合を示すよう設定されてもよい。追加的または代替的に、抽出されたソーシャル・メディア・テキストは、該ソーシャル・メディア・テキストにハッシュタグがあるまたはみつかるかどうかを判定するために検査されてもよい。ソーシャル・メディア・テキスト内にハッシュタグがみつかる場合、該ハッシュタグの統計または該ハッシュタグに関連した統計が決定されてもよく、コンテンツ・テキスト特徴2074はハッシュタグ特徴を示すよう設定されてもよい。
ブロック2080では、取得された最近のソーシャル・メディア・コンテンツからリンクURLが抽出されてもよい。ブロック2082では、ソーシャル・メディア・コンテンツからのリンクURLが検査されて、コンテンツURL特徴2084を生成してもよい。上記で論じたように、ある型のソーシャル・メディア・アカウントは、自己プロモーションをしたり自分のコンテンツをプロモーションしたりする傾向がより強いことがある。たとえば、コンテンツから抽出されたリンクURLは検査されてもよく、コンテンツURL特徴2084は自己プロモーションの程度を表わす数値的な特徴または信号のベクトルであってもよい。いくつかの実施形態では、コンテンツから抽出されたリンクURLは検査されて、該抽出されたリンクURLが当該ソーシャル・メディア・アカウント(たとえばソーシャル・メディア・アカウント2002)の同じドメインにリンクするものであるかどうかを判定してもよい。たとえば、コンテンツから抽出されたリンクURLは検査されて、コンテンツから抽出されたリンクURLのいずれかが前記アカウント・プロフィールにおけるリンクURL(たとえば上記のブロック2050を参照)の同じドメインにリンクしているかどうかを判定してもよい。コンテンツURL特徴2084は、コンテンツから抽出されたリンクURLのうち、当該ソーシャル・メディア・アカウントの同じドメインにリンクする割合を示すよう設定されてもよい。
ブロック2090では、ソーシャル・メディア・アカウント2002を表わす数値的な特徴または信号(たとえば名前特徴2024、写真特徴2034、記述特徴2044、プロフィールURL特徴2054、コンテンツ・テキスト特徴2074およびコンテンツURL特徴2084)が、該ソーシャル・メディア・アカウントのソーシャル・メディア・アカウント型2092を判別するために、機械学習ツールに入力されてもよい。入力された数値的な特徴または信号は、たとえばウェブページ内に、特定の特徴(たとえば側面)が存在するか存在しないかを示す。分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントに含まれる、知識のある人によってフォローされるソーシャル・メディア・アカウントであってすでにシード・ソーシャル・メディア・アカウントになっているのではないもの(たとえば図15の第一の候補集合1520)のうちの各ソーシャル・メディア・アカウントについてのソーシャル・メディア・アカウント型が、フロー2000に従って決定されうる。
図21は、本開示の一つまたは複数の実施形態に基づく、ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを計算する例示的方法2100のフローチャートを示している。いくつかの実施形態では、方法2100は、情報収集システム110によって実行されてもよい。代替的または追加的に、方法2100は、いかなる好適なシステム、装置またはデバイスによって実行されてもよい。たとえば、図23のシステム2300のプロセッサ2310が方法2100に関連する動作の一つまたは複数を実行してもよい。離散的なブロックで示されているが、方法2100のブロックの一つまたは複数に関連する段階および動作は、所望される実装に依存して、追加的なブロックに分割されたり、より少数のブロックに組み合わされたり、あるいはなくされたりしてもよい。
方法2100はブロック2102で始まってもよく、各ソーシャル・メディア・アカウントについて、ソーシャル・メディア・アカウント型に基づいて一般型重み(general type weight)(gtw)が決定されてもよい。gtwは、分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントのうちの各ソーシャル・メディア・アカウントについて決定されてもよい。いくつかの実施形態では、gtwは、たとえばユーザー選好に基づいて、各ソーシャル・メディア・アカウントに任意に割り当てられてもよい。たとえば、gtwを割り当てることにおける一つの考慮または因子は、自分自身のコンテンツをプロモーションする可能性がより低いソーシャル・メディア・アカウントに対して、より高いgtwを割り当てることであってもよい。すなわち、自分自身のコンテンツをプロモーションする可能性がより低いソーシャル・メディア・アカウントに、より多くの信頼が与えられてもよい。この考慮に基づき、個人、会議、ジャーナル、報道機関、キュレーション、ソフトウェア・ツールなどに関連するソーシャル・メディア・アカウントのような、自分自身のコンテンツをプロモーションする可能性がより低いソーシャル・メディア・アカウントは高いgtwを割り当てられてもよい。逆に、企業、学術機関などに関連するソーシャル・メディア・アカウントのような、自分自身のコンテンツをプロモーションする可能性がより高いソーシャル・メディア・アカウントは低いgtwを割り当てられてもよい。結果は、高いまたはより高いgtwをもつソーシャル・メディア・アカウントによってプロモーションされるコンテンツは、低いまたはより低いgtwをもつソーシャル・メディア・アカウントによってプロモーションされるコンテンツより、重視されるまたは高く評価されるということであってもよい。
ブロック2104では、個別重み(individual weight)(iw)が、各ソーシャル・メディア・アカウントについて、そのアカウント信用(たとえば、各ソーシャル・メディア・アカウントに関連付けられた信用(credit))に基づいて決定されてもよい。iwは、分野固有の知識をもつ拡張されたシード・ソーシャル・メディア・アカウントのうちの各ソーシャル・メディア・アカウントについて決定されてもよい。いくつかの実施形態では、ソーシャル・メディア・アカウントに割り当てられるiwは、再投稿(re-post)の数、いいねの数、ブックマークの数、閲覧数などといった因子に基づいていてもよい。iwを決定する際に使われるこれらおよび他の因子は、アドホックなヒューリスティックな規則または統計的な機械学習に基づいて決定されてもよい。たとえば、前提として、一部のソーシャル・メディア・アカウントはより人気があり、他のソーシャル・メディア・アカウントはそれほど人気がないということがあってもよい。より人気があるソーシャル・メディア・アカウントは高いまたはより高いiwを割り当てられてもよく、それほど人気のないソーシャル・メディア・アカウントは低いまたはより低いiwを割り当てられてもよい。いくつかの実施形態では、各因子は、それぞれの重みを割り当てられてもよく、ソーシャル・メディア・アカウントに割り当てられるiwは各因子に割り当てられたそれぞれの重みの線形結合であってもよい。
ブロック2106では、ユーザー選好に基づいて各コンテンツ型について一般型重みが決定されてもよい。一般型重みは、たとえばユーザー選好に基づいて、ソーシャル・メディア・コンテンツのそれぞれの型に対して任意に割り当てられてもよい。ソーシャル・メディア・コンテンツの型は、記事、論文、スライド(たとえばプレゼンテーション)、ビデオ、写真、オーディオなどを含んでいてもよい。さまざまなソーシャル・メディア・コンテンツ型に割り当てられる一般型重みは、種々の型のコンテンツについての選好(たとえばユーザー選好)を示しうる。
ブロック2108では、ソーシャル・メディア・アカウントとコンテンツとの間の相互に補強する関係がエンコードされてもよい。相互に補強する関係は、ソーシャル・メディア・アカウントと該ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間のリンクまたはプロモーション・リンクとしてエンコードされてもよい。たとえば、コンテンツは、図19のブロック1920を参照して上記で論じたようなソーシャル・メディア・アカウントから生成、共有および/またはコメントされた最近のコンテンツであってもよい。いくつかの実施形態では、相互に補強する関係は、図22に示される二部グラフを構築することによってエンコードされてもよい。
図22は、本開示の一つまたは複数の実施形態に基づく、アカウントとコンテンツとの間の相互に補強する関係をエンコードする例示的な二部グラフを表わす図である。より具体的には、諸ソーシャル・メディア・アカウントUと諸コンテンツCとの間の例示的な相互に補強する関係が示されている。あるソーシャル・メディア・アカウントuについて、uによってプロモーションされる(たとえば投稿される)すべてのコンテンツ項目の集合がC_uとして定義されてもよく、あるコンテンツ項目cについて、cをいつかプロモーションする(たとえば投稿する)すべてのソーシャル・メディア・アカウントの集合がU_cとして定義されてもよい。
図のように、この二部グラフは二つのソーシャル・メディア・アカウントu1およびu2と、五つのコンテンツ項目c1、c2、c3、c4、c5とを含む。ソーシャル・メディア・アカウントu1は、それぞれプロモーション・リンク2202、2204、2206、2208によって示されるコンテンツ項目c1、c2、c3、c4をプロモーションしたことがある。ソーシャル・メディア・アカウントu2は、それぞれプロモーション・リンク2210、2212、2214によって示されるコンテンツ項目c3、c4、c5をプロモーションしたことがある。各プロモーション・リンクは、つながっているソーシャル・メディア・アカウントからのプロモーション(たとえば投稿)を表わしていてもよい。すなわち、各プロモーション・リンクは、つながっているソーシャル・メディア・アカウントとコンテンツ項目との間の相互に補強する関係を表わしうる。
簡単のため、二つのソーシャル・メディア・アカウントおよび五つのコンテンツ項目だけが図22で示され、この例において使われているが、当業者は、異なる数のソーシャル・メディア・アカウントおよびコンテンツ項目があってもよいことを理解するであろう。たとえば、数百、数千、数万または数十万のソーシャル・メディア・アカウントおよび/またはコンテンツ項目があってもよい。
再び図21を参照するに、ブロック2110において、ソーシャル・メディア・アカウントとコンテンツとの間の基本リンク強さが計算されてもよい。各プロモーション・リンクは、それぞれのプロモーションまたは投票強さを有していてもよく、あるいはそれに関連付けられていてもよい。プロモーションまたは投票強さは、そのプロモーションの強さまたは重みの指標でありうる。すなわち、プロモーションまたは投票強さは、つながっているソーシャル・メディア・アカウントとコンテンツとの間の相互に補強する関係の強さまたは重みの指標であってもよい。たとえば、いくつかの実施形態では、基本リンク強さは、ある分野における良質なコンテンツがその分野における多くの良質な(たとえば知識のある)ソーシャル・メディア・アカウントによってプロモーションされ、特定の分野における良質なソーシャル・メディア・アカウントはその分野における良質なコンテンツをプロモーションするという前提に基づいて決定されてもよい。よって、あるソーシャル・メディア・アカウントとそのソーシャル・メディア・アカウントによってプロモーションされるコンテンツ項目との間の基本リンク強さは、そのソーシャル・メディア・アカウントに割り当てられるgtw、そのソーシャル・メディア・アカウントに割り当てられるiwおよび/またはそのコンテンツ項目のコンテンツ型に割り当てられる一般型重みに基づいて計算されてもよい。
いくつかの実施形態では、基本リンク強さは、プロモーションの適時性(timeliness)または新鮮さ(freshness)といった適時性因子を考慮に入れてもよい。たとえば、ソーシャル・メディア・アカウントuがコンテンツ項目cをプロモーションし、プロモーション・リンクが(u,c)として定義されるとすると、基本リンク強さはs(u,c)=t(u,c)*a(u)として定義されてもよい。ここで、t(u,c)はプロモーション適時性であり、a(u)はuのアカウント・スコアである。uのアカウント・スコアa(u)は、uに割り当てられた一般型重みgtw(u)およびuに割り当てられた個別重みiw(u)に依存してもよい。たとえば、アカウント・スコアa(u)は、gtw(u)*iw(u)として定義されてもよい。プロモーションの適時性t(u,c)は、早いプロモーションほど高い重みを与えるよう、単調減少関数を使って定義されてもよい。たとえば、プロモーションの適時性はt(u,c)=exp(−β*k(u,c))として定義されてもよい。ここで、βはスケーリング定数であり、k(u,c)は(u,c)がcのk番目のプロモーションであることを表わすタイムスタンプ関数である。よって、時間的により早いプロモーション(たとえば投稿)が、時間的により遅いプロモーションよりも、より高い基本リンク強さを与えられるまたは割り当てられることができる。いくつかの実施形態では、時間的により最近のプロモーションは、時間的により古いプロモーションよりも、より高い基本リンク強さを与えられるまたは割り当てられるのでもよい。いくつかの実施形態では、より新しいまたはより最近のコンテンツのプロモーションが、より古いコンテンツのプロモーションよりも、より高い基本リンク強さを与えられるまたは割り当てられるのでもよい。
ブロック2112では、ソーシャル・メディア・アカウントとコンテンツとの間の調整されたリンク強さが計算されてもよい。いくつかの実施形態では、基本リンク強さは、プロモーションされたコンテンツに関連するコンテンツ型の選好(たとえばユーザー選好)に基づいて調整されてもよい。たとえば、選好因子f_pがコンテンツの異なる型のそれぞれに対して割り当てられてもよく、調整されたリンク強さがs(u,c)_new=s(u,c)*f_pとして定義されてもよい。追加的または代替的に、基本リンク強さは、リンクまたはプロモーション型(たとえばリンクの型またはプロモーションの型)に基づいて調整されてもよい。たとえば、初期のまたはもとのプロモーション(たとえばコンテンツ項目を新たに生成またはプロモーションするプロモーション)について計算された基本リンク強さが調整されて、結果として得られる調整されたリンク強さが、該初期のまたはもとのプロモーションを再プロモーションするまたは好むプロモーションの調整されたリンク強さよりも、高くなるようにされてもよい。同様に、初期のまたはもとのプロモーションをプロモーションするまたは好むプロモーションについて計算された基本リンク強さが調整されて、結果として得られる調整されたリンク強さが、該初期のまたはもとのプロモーションの調整されたリンク強さよりも、低くなるようにされてもよい。いくつかの実施形態では、初期のまたはもとのプロモーションをプロモーションするまたは好むプロモーション(たとえばツイッターの場合、リツイート)からのリンク強さのいくらかまたは一部が、初期のまたはもとのプロモーションに与えられ、あるいは移転されてもよい。たとえば、ソーシャル・メディア・アカウントuが別のソーシャル・メディア・アカウントu'によってもともと生成またはプロモーションされたコンテンツ項目cを再プロモーションするまたは好むとする。uについての調整されたリンク強さはs(u,c)_new=(1−f_t)*s(u,c)として定義されてもよく、u'についての調整されたリンク強さはs(u',c)_new=s(u',c)+(f_t*s(u,c))として定義されてもよい。ここで、f_tは移転因子である。この事例では、s(u,c)はそのリンク強さの一部を移転因子f_tによってs(u',c)に移転してもよい。いくつかの実施形態では、移転因子f_tはアドホックに割り当てられてもよい。たとえば、f_tは再プロモーションについて10%の移転または割り引き因子を示す0.1を割り当てられてもよく、f_tは再プロモーションについて10%の移転または割引因子を示す0.2を割り当てられてもよい、などとなる。同様に、f_tは初期のまたはもとのプロモーションについて10%の移転または振り込み因子を示す0.1を割り当てられてもよく、f_tは初期のまたはもとのプロモーションについて10%の移転または振り込み因子を示す0.2を割り当てられてもよい、などとなる。
ブロック2114では、ソーシャル・メディア・アカウントとコンテンツの相互に補強するランキングが計算されてもよい。ソーシャル・メディア・アカウントとコンテンツの相互に補強するコンテンツは、(たとえばブロック2110で計算された)ソーシャル・メディア・アカウントとコンテンツとの間の基本リンク強さおよび/または(たとえばブロック2112で計算された)ソーシャル・メディア・アカウントとコンテンツとの間の調整されたリンク強さに基づいて計算されてもよい。たとえば、ソーシャル・メディア・アカウントとコンテンツの相互に補強するランキングを計算するために、相互に補強する学習ランク付け技法が使われてもよい。
当業者は、このプロセスおよび方法ならびに本稿に開示される他のプロセスおよび方法のために、それらのプロセスおよび方法において実行される機能が異なる順序で実装されてもよいことを理解するであろう。さらに、概説された段階および動作は単に例として与えられているのであって、開示される実施形態の本質を損なうことなく、段階および動作のいくつかが任意的であったり、より少数の段階および動作に組み合わされたり、あるいは追加的な段階および動作に展開されたりしてもよい。
図23は、本稿に記載される少なくとも一つの実施形態に基づく例示的システム2300を示している。システム2300は、情報を識別し、抽出するよう構成されたいかなる好適なシステム、装置またはデバイスを含んでいてもよい。システム2300は、プロセッサ2310、記憶装置2320、データ記憶部2330および通信装置2340を含んでいてもよい。これらはみな通信上結合されていてもよい。データ記憶部2330は、著作者オブジェクトおよびソーシャル・メディア・アカウント・オブジェクトのようなさまざまな型のデータを含みうる。
一般に、プロセッサ2310は、さまざまなコンピュータ・ハードウェアまたはソフトウェア・モジュールを含むいかなる好適な専用または汎用コンピュータ、コンピューティング・エンティティまたは処理装置を含んでいてもよく、いかなる適用可能なコンピュータ可読記憶媒体上に記憶された命令を実行するよう構成されていてもよい。たとえば、プロセッサ2310はマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)またはプログラム命令をインタープリットおよび/または実行するおよび/またはデータを処理するよう構成された他の任意のデジタルもしくはアナログ回路を含んでいてもよい。
図23では単一のプロセッサとして示されているが、プロセッサ2310は、本開示に記載される任意の数の動作を個々にまたは集団的に実行するよう構成された任意の数のネットワーク位置もしくは物理的位置にまたがって分散された任意の数のプロセッサを含んでいてもよい。いくつかの実施形態では、プロセッサ2310は、プログラム命令をインタープリットおよび/または実行するおよび/またはメモリ2320、データ記憶部2330またはメモリ2320とデータ記憶部2330に記憶されたデータを処理することを行なってもよい。いくつかの実施形態では、プロセッサ2310はデータ記憶部2330からプログラム命令を取ってきて、該プログラム命令をメモリ2320にロードしてもよい。
プログラム命令がメモリ2320にロードされた後、プロセッサ2310はプログラム命令、たとえばそれぞれ図2、図6、図19、図20、図3、図4、図5、図7、図8、図9、図10、図11、図12、図13、図14、図16、図17、図18および図21のフロー200、600、1900および/または2000および/または方法300、400、500、700、800、900、1000、1100、1200、1300、1400、1600、1700、1800および/または2100を実行してもよい。たとえば、プロセッサ2310はそれぞれ刊行物システムおよびソーシャル・メディア・システムからの情報を使って、著作者オブジェクトおよびソーシャル・メディア・アカウント・オブジェクトを生成してもよい。プロセッサ2310は、著作者オブジェクトおよびソーシャル・メディア・アカウント・オブジェクトからの情報を比較して、著作者オブジェクトからの著作者に関連付けられたソーシャル・メディア・アカウントを識別してもよい。
メモリ2320およびデータ記憶部2330は、コンピュータ実行可能な命令またはデータ構造を担持するまたは記憶する一つまたは複数のコンピュータ可読記憶媒体を含んでいてもよい。そのようなコンピュータ可読記憶媒体は、プロセッサ2310のような汎用または特殊目的コンピュータによってアクセスされうるいかなる利用可能な媒体を含んでいてもよい。
限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、電気的に消去可能なプログラム可能型読み出し専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD-ROM)または他の光ディスク記憶、磁気ディスク記憶または他の磁気記憶デバイス、フラッシュメモリ・デバイス(たとえば半導体メモリ・デバイス)またはコンピュータ実行可能な命令またはデータ構造の形で所望されるプログラム・コードを担持または記憶するために使用されうる、汎用または特殊目的コンピュータによってアクセスされうる他の任意の記憶媒体を含む、非一時的なコンピュータ可読記憶媒体を含んでいてもよい。上記のものの組み合わせも、コンピュータ可読記憶媒体の範囲内に含まれうる。コンピュータ実行可能な命令はたとえば、プロセッサ2310に、ある動作または動作群を実行させるよう構成された命令およびデータを含んでいてもよい。
通信ユニット2340は、ネットワークを通じて情報を送信または受信するよう構成された任意のコンポーネント、装置、システムまたはそれらの組み合わせを含みうる。いくつかの実施形態では、通信ユニット2340は、他の位置、同じ位置にある他の装置、またはさらには同じシステム内の他のコンポーネントと通信してもよい。たとえば、通信ユニット2340は、モデム、ネットワーク・カード(無線または有線)、赤外線通信装置、光通信装置、無線通信装置(たとえばアンテナ)および/またはチップセット(たとえばブルートゥース装置、802.6装置(たとえば都市圏ネットワーク(MAN))、Wi-Fi装置、WiMAX装置、セルラー通信設備および/またはその他)などを含んでいてもよい。通信ユニット2340は、本開示に記載されるネットワークおよび/または他の任意の装置もしくはシステムとデータが交換されることを許容してもよい。たとえば、通信ユニット2340は、システム2300が、図1の刊行物システム120、ソーシャル・メディア・システム130、装置140およびウェブ・ホスティング・システム150のような他のシステムと通信することを許容しうる。
本開示の範囲から外れることなく、システム2300に修正、追加または省略がなされてもよい。たとえば、データ記憶部2330は、複数の位置に位置しており、ネットワークを通じてプロセッサ2310によってアクセスされる、複数の異なる記憶媒体であってもよい。
上記のように、本稿に記載される実施形態は、下記でより詳細に論じるような、さまざまなコンピュータ・ハードウェアまたはソフトウェア・モジュールを含む特殊目的または汎用のコンピュータ(たとえば図23のプロセッサ2310)の使用を含んでいてもよい。さらに上記で示したように、本稿に記載される実施形態は、コンピュータ実行可能命令またはデータ構造を担持または記憶しているコンピュータ可読媒体(たとえば図23のメモリ2320またはデータ記憶部2330)を使って実装されてもよい。
本開示での用法では、用語「モジュール」または「コンポーネント」は、該モジュールまたはコンポーネントのアクションを実行するよう構成された特定のハードウェア実装および/またはコンピューティング・システムの汎用ハードウェア(たとえばコンピュータ可読媒体、処理装置および/またはその他)に記憶および/または実行さうれるソフトウェア・オブジェクトまたはソフトウェア・ルーチンを指しうる。いくつかの実施形態では、本稿に記載される種々のコンポーネント、モジュール、エンジンおよびサービスは、(たとえば別個のスレッドとして)コンピューティング・システム上で実行されるオブジェクトまたはプロセスとして実装されてもよい。本稿に記載されるシステムおよび方法のいくつかは、一般に、(汎用ハードウェアに記憶および/または実行される)ソフトウェアで実装されるものとして記述されるが、個別のハードウェア実装またはソフトウェアと個別のハードウェア実装の組み合わせも可能であり、考えられている。本開示において、「コンピューティング・エンティティ」は、本稿で先に定義したような任意のコンピューティング・システムまたはコンピューティング・システム上で走る任意のモジュールもしくはモジュールの組み合わせでありうる。
本稿および特に付属の請求項(たとえば付属の請求項の本文)において使われる用語は一般に「オープン」な用語として意図されている(たとえば、用語「含む」は「含むがそれに限られない」と解釈されるべきであり、用語「もつ」は「少なくとも…をもつ」と解釈されるべきであり、用語「含む」は「含むがそれに限られない」と解釈されるべきであるなど)。
さらに、導入される請求項の記載の特定の数が意図される場合、そのような意図は請求項において明示的に記載される。そのような記載のない場合には、そのような意図はない。たとえば、理解の助けとして、以下の付属の請求項は、請求項の記載を導入するために「少なくとも一つの」および「一つまたは複数の」という導入句の使用を含むことがありうる。しかしながら、たとえ同じ請求項が導入句「一つまたは複数の」または「少なくとも一つの」および「a」または「an」のような不定冠詞を含むときでも、そのような句の使用は、不定冠詞「a」または「an」による請求項の記載の導入が、そのように導入された請求項の記載を含む何らかの特定の請求項を、そのような記載を一つだけ含む実施形態に限定することを含意していると解釈されるべきではない(たとえば、「a」および/または「an」は、「少なくとも一つの」または「一つまたは複数の」を意味するものと解釈されるべきである)。同じことは、請求項の記載を導入する定冠詞の使用についても成り立つ。
さらに、たとえ導入される請求項の記載の特定の数が明示的に記載されていたとしても、当業者は、そのような記載が、少なくともその記載された数を意味すると解釈されるべきであることを認識するであろう(たとえば、他の修飾語なしで単に「二つの記載」という記載は、少なくとも二つの記載または二つ以上の記載を意味する)。さらに、「A、BおよびCなどのうちの少なくとも一つ」または「A、BおよびCなどの一つまたは複数」に類似する慣用句が使われる事例においては、一般に、そのような構文はAだけ、Bだけ、Cだけ、AおよびB両方、AおよびC両方、BおよびC両方またはA、BおよびC全部などを含むことが意図される。
さらに、明細書であれ請求項であれ図面であれ、二つ以上の代替的な用語を呈示するあらゆる離接的な語句は、該用語の一つを含む、該用語のいずれかを含むまたは該用語の両方を含む可能性を考えているものと理解されるべきである。たとえば、「AまたはB」という句は、「A」または「B」または「AおよびB」の可能性を含むと理解されるべきである。
本稿に記載されるすべての例および条件付きの言辞は、本発明および発明者によって当技術分野の発展のために寄与される概念の理解において読者を助ける教育目的を意図されており、そのような特定的に挙げられる例および条件に限定することなく解釈されるものとする。本開示の実施形態について詳細に述べてきたが、本開示の精神および範囲から外れることなく、これにさまざまな変化、代替および変更をなすことができることは理解しておくべきである。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
ソーシャル・メディア・アカウントとコンテンツとの間の相互に補強する関係に基づいてソーシャル・メディア・アカウントおよびコンテンツをランク付けするコンピュータ実装される方法であって:
複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについて一般型重みを決定する段階であって、前記一般型重みは、そのソーシャル・メディア・アカウントに対応するソーシャル・メディア・アカウント型に基づく、段階と;
前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての個別重みを決定する段階と;
前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間の相互に補強する関係をエンコードする段階であって、前記相互に補強する関係は、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされる、段階と;
基本リンク強さを計算する段階であって、基本リンク強さは各プロモーション・リンクについて計算され、該基本リンク強さは複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記一般型重みと、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記個別重みとに基づく、段階と;
前記複数のソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを、前記基本リンク強さに基づいて計算する段階とを含む、
方法。
(付記2)
前記基本リンク強さはさらにプロモーション適時性に基づく、付記1記載の方法。
(付記3)
前記プロモーション適時性は単調減少関数を含む、付記2記載の方法。
(付記4)
調整されたリンク強さを計算する段階であって、各プロモーション・リンクについての調整されたリンク強さは、そのプロモーション・リンクについて計算された前記基本リンク強さの調整である、段階と;
前記複数のソーシャル・メディア・アカウントおよびコンテンツの前記相互に補強するランキングを、前記調整されたリンク強さに基づいて計算する段階とをさらに含む、
付記1記載の方法。
(付記5)
前記調整されたリンク強さが選好因子に基づく、付記4記載の方法。
(付記6)
前記調整されたリンク強さがプロモーションの型に基づく、付記4記載の方法。
(付記7)
前記調整されたリンク強さが移転因子に基づく、付記4記載の方法。
(付記8)
一つまたは複数のプロセッサによって実行されたときに動作を実行するおよび/またはその実行を制御するよう構成されている命令を含んでいる非一時的なコンピュータ可読媒体であって、前記動作は:
複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについて一般型重みを決定する段階であって、前記一般型重みは、そのソーシャル・メディア・アカウントに対応するソーシャル・メディア・アカウント型に基づく、段階と;
前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての個別重みを決定する段階と;
前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間の相互に補強する関係をエンコードする段階であって、前記相互に補強する関係は、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされる、段階と;
基本リンク強さを計算する段階であって、基本リンク強さは各プロモーション・リンクについて計算され、該基本リンク強さは複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記一般型重みと、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記個別重みとに基づく、段階と;
前記複数のソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを、前記基本リンク強さに基づいて計算する段階とを含む、
コンピュータ可読媒体。
(付記9)
前記基本リンク強さはさらにプロモーション適時性に基づく、付記8記載のコンピュータ可読媒体。
(付記10)
前記プロモーション適時性は単調減少関数を含む、付記9記載のコンピュータ可読媒体。
(付記11)
前記動作がさらに:
前記基本リンク強さを調整し;
前記複数のソーシャル・メディア・アカウントおよびコンテンツの前記相互に補強するランキングを、調整された基本リンク強さに基づいて計算することをさらに含む、
付記8記載のコンピュータ可読媒体。
(付記12)
前記基本リンク強さの調整が選好因子に基づく、付記11記載のコンピュータ可読媒体。
(付記13)
前記基本リンク強さの調整がプロモーションの型に基づく、付記11記載のコンピュータ可読媒体。
(付記14)
前記基本リンク強さの調整が移転因子に基づく、付記11記載のコンピュータ可読媒体。
(付記15)
一つまたは複数のソーシャル・メディア・サーバー;および
一つまたは複数のプロセッサと、前記一つまたは複数のプロセッサによって実行されたときに動作を実行するおよび/またはその実行を制御するよう構成されている命令を含んでいる非一時的なコンピュータ可読媒体とを含むコンピューティング装置を有するシステムであって、
前記動作は:
複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについて一般型重みを決定する段階であって、前記一般型重みは、そのソーシャル・メディア・アカウントに対応するソーシャル・メディア・アカウント型に基づく、段階と;
前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての個別重みを決定する段階と;
前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間の相互に補強する関係をエンコードする段階であって、前記相互に補強する関係は、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされる、段階と;
基本リンク強さを計算する段階であって、基本リンク強さは各プロモーション・リンクについて計算され、該基本リンク強さは複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記一般型重みと、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記個別重みとに基づく、段階と;
前記複数のソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを、前記基本リンク強さに基づいて計算する段階とを含む、
システム。
(付記16)
前記基本リンク強さはさらに、単調減少関数を含むプロモーション適時性に基づく、付記15記載のシステム。
(付記17)
前記動作がさらに:
前記基本リンク強さを調整し;
前記複数のソーシャル・メディア・アカウントおよびコンテンツの前記相互に補強するランキングを、調整された基本リンク強さに基づいて計算することをさらに含む、
付記15記載のシステム。
(付記18)
前記基本リンク強さの調整が選好因子に基づく、付記17記載のシステム。
(付記19)
前記基本リンク強さの調整がプロモーションの型に基づく、付記17記載のシステム。
(付記20)
前記基本リンク強さの調整が移転因子に基づく、付記17記載のシステム。
110 情報収集システム
112 データ記憶部
114 著作者オブジェクト
116 ソーシャル・メディア・アカウント・オブジェクト
118 個人ウェブページ・オブジェクト
140 装置
142 ディスプレイ
150 ウェブ・ホスティング・システム
120 刊行物システム
130 ソーシャル・メディア・システム

210 デジタル文書を取得
212 デジタル文書
220 著作者プロフィール・データおよびトピックを抽出
222 著作者オブジェクト
230 ソーシャル・メディアを検索
232 ソーシャル・メディア・アカウント
240 ソーシャル・メディア・プロフィール・データおよびトピックを抽出
242 ソーシャル・メディア・アカウント・オブジェクト
250 ソーシャル・メディア・オブジェクトと著作者オブジェクトを比較してスコアを生成
252 名前スコア
254 プロフィール・スコア
256 コンテンツ・スコア
258 相互作用スコア
260 一致を判別

302 デジタル文書を取得
304 トピックを判別
306 諸著作者を判別
308 著作者を選択
310 著作者メタデータを取得
312 ソーシャル・メディアを選択
314 ソーシャル・メディアを検索
316 ソーシャル・メディア・アカウントを選択
318 ソーシャル・メディア・アカウント・メタデータを取得
320 スコアを生成
322 他のソーシャル・メディア・アカウント?
324 著作者がソーシャル・メディア・アカウントの所有者であるかどうかをスコアに基づいて判定
326 他のソーシャル・メディア?
328 他の著作者?
330 新規投稿を抽出
332 情報を組織化
334 組織化された情報を提供

402 複数のデジタル文書の各著作者について、データベースにおいて著作者オブジェクトを生成
404 あるソーシャル・メディアにおける諸ソーシャル・メディア・アカウントの指示を、そのソーシャル・メディアにおける著作者オブジェクト内の著作者の名前の検索に基づいて取得
406 著作者オブジェクトからの名前と、ソーシャル・メディア・アカウントに基づいて生成されたソーシャル・メディア・アカウント・オブジェクトからのソーシャル・メディア名前との比較に基づいて名前スコアを生成
408 著作者オブジェクトからの著作者プロフィール・データと、ソーシャル・メディア・アカウント・オブジェクトからのソーシャル・メディア・プロフィール・データとの比較に基づいてプロフィール・スコアを生成
410 ソーシャル・メディア・アカウントでの投稿からのトピックと、著作者オブジェクトからの著作者に関連付けられたデジタル文書のそれぞれについてのトピックとの比較に基づいてコンテンツ・スコアを生成
412 ソーシャル・メディア・アカウントにおけるソーシャルつながりと、著作者オブジェクトからの著作者に関連付けられたデジタル文書のそれぞれについての共著者との評価に基づいて相互作用スコアを生成
414 そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連しているかどうかを、名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアに基づいて判定
416 各著作者オブジェクトの著作者に関連したソーシャル・メディア・アカウントからの新規投稿からデータを抽出
418 該データをデジタル文書のトピックに基づく編成において提供

502 複数のデジタル文書の各著作者についてデータベースにおいて著作者オブジェクトを生成
504 あるソーシャル・メディアにおける諸ソーシャル・メディア・アカウントの指示を、前記ソーシャル・メディアにおける著作者オブジェクト内の著作者の名前の検索に基づいて取得
506 そのソーシャル・メディア・アカウントがその著作者オブジェクトの著作者に関連しているかどうかを、名前スコア、プロフィール・スコア、コンテンツ・スコアおよび相互作用スコアのうち二つ以上に基づいて判定

610 デジタル文書を取得
612 デジタル文書
620 著作者プロフィール・データおよびトピックを抽出
622 著作者オブジェクト
630 ソーシャル・メディアを検索
632 ソーシャル・メディア・アカウント
640 ソーシャル・メディア・プロフィールのデータおよび写真を抽出
642 ソーシャル・メディア・アカウント・オブジェクト
650 個人学術ウェブページを検索
652 個人学術ウェブページ
660 個人学術ウェブページのデータおよび写真を抽出
662 個人学術ウェブページ・オブジェクト
670 ソーシャル・メディア・オブジェクトと個人学術ウェブページを相互検証
671 URL一致
672 ソーシャル・メディア・アカウント一致
673 写真一致
674 キーワード一致
675 リンクされたソーシャル・メディア・キーワード一致
680 一致を判別

710 データベースにおいて著作者オブジェクトを生成
720 著作者について個人学術ウェブページ候補を取得
730 該著作者についてソーシャル・メディア・アカウント候補を取得
740 一つの個人学術ウェブページ候補と一つのソーシャル・メディア・アカウントを、その著作者に関連しているとして相互検証
750 さらなる著作者?
760 諸著作者の諸ソーシャル・メディア・アカウントからソーシャル・メディア投稿を抽出
770 前記データをトピックに基づく編成で提供

810 著作者の名前に基づいて個人学術ウェブページに対する第一の検索を実行
820 著作者の名前および著作者の所属に基づいて個人学術ウェブページに対する第二の検索を実行
830 第一の検索および第二の検索からの結果をマージ
840 テンプレートに基づいて個々のプロフィール・ページを識別
850 結果をパースして、結果を個人学術ウェブページとして識別
860 さらなる結果?

905 ウェブページ結果を解析
910 ウェブページを取得
915 ウェブページのコードを、情報ブロックを識別するために解析
920 情報ブロックからキーワードを抽出
925 抽出されたキーワードに基づいてキーワード・スコアを生成
930 前記結果のアンカー・テキストを解析
935 結果ウェブページ内でアンカー・テキストを識別
940 結果ウェブページ内のアンカー・テキストを検索
945 前記アンカー・テキストと前記著作者に一致する前記アンカー・テキスト内の名前とに基づいて、アンカー・テキスト・スコアを生成
950 前記結果のURLを解析
955 URLを断片に分割
960 名前またはキーワードを求めて断片を検索
965 断片内の名前およびキーワードに基づいてURLスコアを生成
970 キーワード・スコア、アンカー・テキスト・スコアおよびURLスコアに基づいて、前記結果を範疇分け
975 前記結果は個人学術ウェブページか?
980 結果を個人学術ウェブページ候補に追加

1010 ソーシャル・メディア・アカウント候補のプロフィールを取得
1020 プロフィール内のURLを識別
1030 個人学術ウェブページ候補のURLをプロフィール中のURLと比較
1040 一致あり?
1050 別の個人学術ウェブページ候補があるか?
1060 その個人学術ウェブページ候補およびそのソーシャル・メディア・アカウント候補が両方とも前記著作者に関連していると確認

1110 個人学術ウェブページ候補を取得
1120 個人学術ウェブページ候補をパースしてソーシャル・メディア・アカウントを識別
1130 識別されたソーシャル・メディア・アカウントを諸ソーシャル・メディア・アカウント候補と比較
1140 一致あり?
1150 その個人学術ウェブページ候補とそのソーシャル・メディア・アカウント候補が両方とも当該著作者に関連していると確認

1210 個人学術ウェブページ候補を取得
1220 個人学術ウェブページ候補をパースして第一写真を抽出
1230 ソーシャル・メディア・アカウント候補のプロフィールを取得
1240 プロフィールをパースして第二写真を抽出
1250 第一写真と第二写真を比較
1260 一致あり?
1270 さらなるソーシャル・メディア・アカウント候補があるか?
1280 個人学術ウェブページ候補とソーシャル・メディア・アカウント候補が両方とも当該著作者に関連していると確認

1310 個人学術ウェブページ候補を取得
1320 個人学術ウェブページ候補のコードをパースして情報ブロックを識別
1330 情報ブロックからキーワードを抽出
1340 ソーシャル・メディア・アカウント候補のプロフィールを取得
1350 抽出されたキーワードをプロフィール内のテキストと比較
1360 それらのワードが類似性閾値を超えるか?
1370 さらなるソーシャル・メディア・アカウント候補があるか?
1380 個人学術ウェブページ候補とソーシャル・メディア・アカウント候補が両方とも当該著作者に関連していると確認

1410 個人学術ウェブページ候補を取得
1420 個人学術ウェブページ候補のコードをパースして情報ブロックを識別
1430 情報ブロックからキーワードを抽出
1440 あるソーシャル・メディア・アカウント候補にリンクされた諸ソーシャル・メディア・アカウントのプロフィールを取得
1450 抽出されたキーワードを、リンクされたソーシャル・メディア・アカウントのプロフィール内のテキストと比較
1460 それらのワードが類似性閾値を超えるか?
1470 さらなるソーシャル・メディア・アカウント候補があるか?
1480 個人学術ウェブページ候補とソーシャル・メディア・アカウント候補が両方とも当該著作者に関連していると確認

1520 第一の候補集合
1510 シード
1530 第二の候補集合

1602 シード・ソーシャル・メディア・アカウントを取得
1604 シード・ソーシャル・メディア・アカウントについて、ソーシャル・メディア・アカウント・プロフィールを取得
1606 シード・ソーシャル・メディア・アカウントによってフォローされているソーシャル・メディア・アカウントの第一の集合を抽出
1608 前記第一の集合のソーシャル・メディア・アカウントをシード・ソーシャル・メディア・アカウントと比較
1610 ソーシャル・メディア・アカウントの前記第一の集合にはいっているが前記シード・ソーシャル・メディア・アカウントにははいっていないソーシャル・メディア・アカウントの第一の候補集合を構築
1612 一般的ソーシャル・メディア・アカウントを除去
1614 前記第一の候補集合の候補ソーシャル・メディア・アカウントを解析して、ソーシャル・メディア・アカウントの型を判別
1616 候補ソーシャル・メディア・アカウントは知識のあるソーシャル・メディア・アカウントか?
1618 候補ソーシャル・メディア・アカウントをシード・ソーシャル・メディア・アカウントとして追加
1620 さらなる第一の候補ソーシャル・メディア・アカウント?
1622 シード・ソーシャル・メディア・アカウントをフォローしているソーシャル・メディア・アカウントの第二の集合を抽出
1624 ソーシャル・メディア・アカウントの前記第二の集合にはいっているが前記シード・ソーシャル・メディア・アカウントにははいっていないソーシャル・メディア・アカウントの第二の候補集合を構築
1626 一般的ソーシャル・メディア・アカウントを除去
1628 候補アカウントに関連している名前を取得
1630 名前か人物名かを判定
1632 候補としては除去
1634 関心スコアを同定
1636 関心スコアが閾値より上か?
1638 候補ソーシャル・メディア・アカウントをソーシャル・メディア・アカウントの第二の集合に追加
1640 さらなる第二の候補ソーシャル・メディア・アカウントがあるか?
1642 さらなるシード・ソーシャル・メディア・アカウント?
1644 シード・ソーシャル・メディア・アカウントと前記第二の集合のソーシャル・メディア・アカウントに異なるコンテンツを提供

1705 ソーシャル・メディア・アカウントの名前を取得
1710 組織か人物名かを判定
1715 刊行物の著作者データベースと比較
1720 一致?
1725 知識のあるアカウントとして範疇分け
1730 関心スコアを同定
1735 スコアが閾値を超えているか?
1740 候補としては除去

1810 候補ソーシャル・メディア・アカウント・プロフィールを取得
1820 候補ソーシャル・メディア・アカウントのグローバル・フォロワーの第一の数を計数
1830 シード・ソーシャル・メディア・アカウントおよび前記第一の集合のソーシャル・メディア・アカウントであって当該候補ソーシャル・メディア・アカウントをフォローしているものを含む候補ソーシャル・メディア・アカウントのローカル・フォロワーの第二の数を計数
1840 トピック関連性スコアを生成
1850 関連性スコアが閾値より上か?
1860 候補ソーシャル・メディア・アカウントを候補、学習者アカウントおよび/またはシード・アカウントとしては除去

1910 拡張アカウントをセンサーとして取得
1920 ソーシャル・メディア・アカウントから生成、共有および/またはコメントされた最近のコンテンツを抽出し、総合
1930 さまざまなソーシャル・メディア・アカウント型を判別
1940 ソーシャル・メディア・アカウント型に基づく、ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング

2002 ソーシャル・メディア・アカウント
2010 アカウント・プロフィールを取得
2020 アカウント・プロフィール中の名前を抽出
2022 アカウント・プロフィール中の名前を検査
2024 名前特徴
2030 アカウント・プロフィール中の写真を抽出
2032 アカウント・プロフィール中の写真を検査
2034 写真特徴
2040 アカウント・プロフィール中の記述を抽出
2042 アカウント・プロフィール中の記述を検査
2044 記述特徴
2050 アカウント・プロフィール中のリンクURLを抽出
2052 アカウント・プロフィール中のリンクURLを検査
2054 プロフィールURL特徴
2060 最近のソーシャル・メディア・コンテンツを取得
2070 テキスト・コンテンツを抽出
2072 コンテンツ中のテキストを検査
2074 コンテンツ・テキスト特徴
2080 リンクURLを抽出
2072 コンテンツ中のリンクURLを検査
2074 コンテンツURL特徴
2090 機械学習ツール
2092 ソーシャル・メディア・アカウント型

2102 各アカウントについてアカウント型に基づいて一般型重み(gtw)を決定
2104 各アカウントについてそのアカウント信用に基づいて個別重み(iw)を決定
2106 各コンテンツ型についてユーザー選好に基づいて一般型重みを決定
2108 アカウントとコンテンツの間の相互に補強する関係をエンコード
2110 アカウントとコンテンツの間の基本リンク強さを計算
2112 アカウントとコンテンツの間の調整されたリンク強さを計算
2114 アカウントおよびコンテンツの相互に補強するランキングを計算

2300 システム
2310 プロセッサ
2320 メモリ
2330 データ記憶部
2340 通信ユニット

Claims (20)

  1. ソーシャル・メディア・アカウントとコンテンツとの間の相互に補強する関係に基づいてソーシャル・メディア・アカウントおよびコンテンツをランク付けするコンピュータ実装される方法であって:
    複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについて一般型重みを決定する段階であって、前記一般型重みは、そのソーシャル・メディア・アカウントに対応するソーシャル・メディア・アカウント型に基づく、段階と;
    前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての個別重みを決定する段階と;
    前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間の相互に補強する関係をエンコードする段階であって、前記相互に補強する関係は、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされる、段階と;
    基本リンク強さを計算する段階であって、基本リンク強さは各プロモーション・リンクについて計算され、該基本リンク強さは複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記一般型重みと、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記個別重みとに基づく、段階と;
    前記複数のソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを、前記基本リンク強さに基づいて計算する段階とを含む、
    方法。
  2. 前記基本リンク強さはさらにプロモーション適時性に基づく、請求項1記載の方法。
  3. 前記プロモーション適時性は単調減少関数を含む、請求項2記載の方法。
  4. 調整されたリンク強さを計算する段階であって、各プロモーション・リンクについての調整されたリンク強さは、そのプロモーション・リンクについて計算された前記基本リンク強さの調整である、段階と;
    前記複数のソーシャル・メディア・アカウントおよびコンテンツの前記相互に補強するランキングを、前記調整されたリンク強さに基づいて計算する段階とをさらに含む、
    請求項1記載の方法。
  5. 前記調整されたリンク強さが選好因子に基づく、請求項4記載の方法。
  6. 前記調整されたリンク強さがプロモーションの型に基づく、請求項4記載の方法。
  7. 前記調整されたリンク強さが移転因子に基づく、請求項4記載の方法。
  8. 一つまたは複数のプロセッサによって実行されたときに動作を実行するおよび/またはその実行を制御するよう構成されている命令を含んでいる非一時的なコンピュータ可読媒体であって、前記動作は:
    複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについて一般型重みを決定する段階であって、前記一般型重みは、そのソーシャル・メディア・アカウントに対応するソーシャル・メディア・アカウント型に基づく、段階と;
    前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての個別重みを決定する段階と;
    前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間の相互に補強する関係をエンコードする段階であって、前記相互に補強する関係は、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされる、段階と;
    基本リンク強さを計算する段階であって、基本リンク強さは各プロモーション・リンクについて計算され、該基本リンク強さは複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記一般型重みと、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記個別重みとに基づく、段階と;
    前記複数のソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを、前記基本リンク強さに基づいて計算する段階とを含む、
    コンピュータ可読媒体。
  9. 前記基本リンク強さはさらにプロモーション適時性に基づく、請求項8記載のコンピュータ可読媒体。
  10. 前記プロモーション適時性は単調減少関数を含む、請求項9記載のコンピュータ可読媒体。
  11. 前記動作がさらに:
    前記基本リンク強さを調整し;
    前記複数のソーシャル・メディア・アカウントおよびコンテンツの前記相互に補強するランキングを、調整された基本リンク強さに基づいて計算することをさらに含む、
    請求項8記載のコンピュータ可読媒体。
  12. 前記基本リンク強さの調整が選好因子に基づく、請求項11記載のコンピュータ可読媒体。
  13. 前記基本リンク強さの調整がプロモーションの型に基づく、請求項11記載のコンピュータ可読媒体。
  14. 前記基本リンク強さの調整が移転因子に基づく、請求項11記載のコンピュータ可読媒体。
  15. 一つまたは複数のソーシャル・メディア・サーバー;および
    一つまたは複数のプロセッサと、前記一つまたは複数のプロセッサによって実行されたときに動作を実行するおよび/またはその実行を制御するよう構成されている命令を含んでいる非一時的なコンピュータ可読媒体とを含むコンピューティング装置を有するシステムであって、
    前記動作は:
    複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについて一般型重みを決定する段階であって、前記一般型重みは、そのソーシャル・メディア・アカウントに対応するソーシャル・メディア・アカウント型に基づく、段階と;
    前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての個別重みを決定する段階と;
    前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツとの間の相互に補強する関係をエンコードする段階であって、前記相互に補強する関係は、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントと前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントによってプロモーションされるコンテンツのコンテンツ項目との間のプロモーション・リンクとしてエンコードされる、段階と;
    基本リンク強さを計算する段階であって、基本リンク強さは各プロモーション・リンクについて計算され、該基本リンク強さは複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記一般型重みと、前記複数のソーシャル・メディア・アカウントの各ソーシャル・メディア・アカウントについての前記個別重みとに基づく、段階と;
    前記複数のソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキングを、前記基本リンク強さに基づいて計算する段階とを含む、
    システム。
  16. 前記基本リンク強さはさらに、単調減少関数を含むプロモーション適時性に基づく、請求項15記載のシステム。
  17. 前記動作がさらに:
    前記基本リンク強さを調整し;
    前記複数のソーシャル・メディア・アカウントおよびコンテンツの前記相互に補強するランキングを、調整された基本リンク強さに基づいて計算することをさらに含む、
    請求項15記載のシステム。
  18. 前記基本リンク強さの調整が選好因子に基づく、請求項17記載のシステム。
  19. 前記基本リンク強さの調整がプロモーションの型に基づく、請求項17記載のシステム。
  20. 前記基本リンク強さの調整が移転因子に基づく、請求項17記載のシステム。
JP2017155651A 2017-02-01 2017-08-10 ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング Active JP7003481B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US15/422383 2017-02-01
US15/422,383 US20170235835A1 (en) 2016-02-12 2017-02-01 Information identification and extraction
US15/424730 2017-02-03
US15/424,730 US20170235836A1 (en) 2016-02-12 2017-02-03 Information identification and extraction
US15/653356 2017-07-18
US15/653,356 US10776885B2 (en) 2016-02-12 2017-07-18 Mutually reinforcing ranking of social media accounts and contents

Publications (2)

Publication Number Publication Date
JP2018124966A true JP2018124966A (ja) 2018-08-09
JP7003481B2 JP7003481B2 (ja) 2022-01-20

Family

ID=63108945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017155651A Active JP7003481B2 (ja) 2017-02-01 2017-08-10 ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング

Country Status (1)

Country Link
JP (1) JP7003481B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035148A (ja) * 2018-08-29 2020-03-05 国立大学法人 東京大学 情報分析装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289191A (ja) * 2008-05-30 2009-12-10 Nippon Telegr & Teleph Corp <Ntt> 投稿情報提供装置、投稿情報閲覧方法、プログラム及び記憶媒体
WO2012118087A1 (ja) * 2011-03-03 2012-09-07 日本電気株式会社 レコメンダシステム、レコメンド方法、及びプログラム
JP2016509289A (ja) * 2012-12-27 2016-03-24 フェイスブック,インク. ソーシャルグラフにおける黙示的なつながり
US20160179805A1 (en) * 2014-12-17 2016-06-23 International Business Machines Corporation Calculating expertise confidence based on content and social proximity

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289191A (ja) * 2008-05-30 2009-12-10 Nippon Telegr & Teleph Corp <Ntt> 投稿情報提供装置、投稿情報閲覧方法、プログラム及び記憶媒体
WO2012118087A1 (ja) * 2011-03-03 2012-09-07 日本電気株式会社 レコメンダシステム、レコメンド方法、及びプログラム
JP2016509289A (ja) * 2012-12-27 2016-03-24 フェイスブック,インク. ソーシャルグラフにおける黙示的なつながり
US20160179805A1 (en) * 2014-12-17 2016-06-23 International Business Machines Corporation Calculating expertise confidence based on content and social proximity

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035148A (ja) * 2018-08-29 2020-03-05 国立大学法人 東京大学 情報分析装置及びプログラム
WO2020045526A1 (ja) * 2018-08-29 2020-03-05 国立大学法人 東京大学 情報分析装置及びプログラム
JP7266838B2 (ja) 2018-08-29 2023-05-01 国立大学法人 東京大学 情報分析装置及びプログラム

Also Published As

Publication number Publication date
JP7003481B2 (ja) 2022-01-20

Similar Documents

Publication Publication Date Title
US10776885B2 (en) Mutually reinforcing ranking of social media accounts and contents
US10936959B2 (en) Determining trustworthiness and compatibility of a person
US10839157B2 (en) Candidate identification and matching
US9147154B2 (en) Classifying resources using a deep network
US20160203221A1 (en) System and apparatus for an application agnostic user search engine
US20170235836A1 (en) Information identification and extraction
US20190251422A1 (en) Deep neural network architecture for search
Andryani et al. Social media analytics: data utilization of social media for research
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
US20180046628A1 (en) Ranking social media content
JP2017142796A (ja) 情報の特定及び抽出
Jung ContextGrid: A contextual mashup-based collaborative browsing system
US11651039B1 (en) System, method, and user interface for a search engine based on multi-document summarization
US20170235835A1 (en) Information identification and extraction
KR20180096341A (ko) 소셜 플랫폼상에서 mooc와 플립드러닝을 지원하는 온톨로지 기반 교육 콘텐츠 소셜 큐레이터 구현 시스템 및 그 방법
EP2613275A1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Cantador et al. Semantic contextualisation of social tag-based profiles and item recommendations
Kim et al. IoT-based personalized NIE content recommendation system
Pak News organizations’ selective link sharing as gatekeeping: A structural topic model approach
Jung Collaborative browsing system based on semantic mashup with open apis
JP7003481B2 (ja) ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング
Liao et al. TIRR: A code reviewer recommendation algorithm with topic model and reviewer influence
Mfenyana et al. Development of a Facebook crawler for opinion trend monitoring and analysis purposes: case study of government service delivery in Dwesa
Tossavainen et al. Implementing a system enabling open innovation by sharing public goals based on linked open data
Bhalerao et al. Social Media Mining Using Machine Learning Techniques as a Survey

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211213

R150 Certificate of patent or registration of utility model

Ref document number: 7003481

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150