JP2016181252A

JP2016181252A - ソーシャルメディアにおける言語識別

Info

Publication number: JP2016181252A
Application number: JP2016044486A
Authority: JP
Inventors: マティアス・ガレ; Galle Matthias; ウィリアム・ラドフォード; Radford William
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2015-03-24
Filing date: 2016-03-08
Publication date: 2016-10-13
Anticipated expiration: 2036-03-08
Also published as: JP6749110B2; US9645995B2; EP3073433A1; US20160283462A1

Abstract

【課題】ソーシャルメディア投稿における言語識別を向上させるために方法、コンピュータプログラム製品及びシステムを提供する。【解決手段】ソーシャルネットワーク投稿の言語予測のための方法は、エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することを含む。ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、ノードの一部はソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードである。言語ラベルは、グラフを介して言語ラベルを伝搬することを含む少なくとも１つのラベル化されていないソーシャルネットワーク投稿ノードに対して予測される。ソーシャルネットワーク投稿の言語は、当該のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードに対する予測された言語ラベルに基づいて、さらに、コンテンツベースの特徴に選択的に基づいて、予測される。【選択図】図２

Description

例示的な実施形態は、言語識別のためのシステムおよび方法に関し、ソーシャルメディアを背景として特定の用途を見出す。

ソーシャルメディア投稿のテキストコンテンツは、企業が自社の製品およびサービスに関する顧客の意見を理解するのを助け、企業は顧客ケアを向上させると共に、製品およびサービスを改良することができる。意見マイニング技術は、意見または感情を、特定のテキストコメントに割り当てるために使用されている。一般的に、使用され得る言語に制限はないので、そのような文書を分析する第１の段階は、文書の言語を識別することである。

書かれた文書の言語を識別する方法は、翻訳や情報検索などを含む多くの用途において使用される。一般的に、既存の方法の精度は相当に高く、一部の事例において１００％に近似し得る。ＰａｕｌＭｃＮａｍｅｅによる「Ｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎ：Ａｓｏｌｖｅｄｐｒｏｂｌｅｍｓｕｉｔａｂｌｅｆｏｒｕｎｄｅｒｇｒａｄｕａｔｅｉｎｓｔｒｕｃｔｉｏｎ（言語識別：学部教育に適した解決済みの問題）」（Ｊ．Ｃｏｍｐｕｔ．Ｓｃｉ．Ｃｏｌｌ．，２０（３）：９４−１０１（２００５））；および、ＴｈｏｍａｓＧｏｔｔｒｏｎらによる「Ａｃｏｍｐａｒｉｓｏｎｏｆｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎａｐｐｒｏａｃｈｅｓｏｎｓｈｏｒｔ，ｑｕｅｒｙ−ｓｔｙｌｅｔｅｘｔｓ（短い問い合わせ形式テキストにおける言語識別手法の比較）」（Ａｄｖ．ｉｎｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ，ｐｐ．６１１−６１４（２０１０））を、参照されたい。しかしながら、ソーシャルメディア文書などの一部の背景において、精度は大幅に低くなり得る。ソーシャルメディアテキストは、従来の構造化および編集された文書と比較して、体系化および形式化という点で非常に劣っている手法で書かれることが多い。そのようなテキストは、スラング、略語、コード切り替え（１つの会話の文脈において、２つ以上の言語または言語多様性が交錯）を包含することが多く、かつ、極端に短い可能性がある。使用可能な言語のリストが制限されている場合でさえ、そのようなテキストに対しては、最大で約７０〜８０％の言語予測精度しかないのが、より典型的である。

従来の言語識別方法は、文書を各言語の識別情報と、例えば、バッグオブｎグラム（文字または単語レベル）または機能言語を使用して、比較することを含むことが多い。ツイッターにおける言語識別は、ＥｒｉｋＴｒｏｍｐらによる「Ｇｒａｐｈ−ｂａｓｅｄｎ−ｇｒａｍｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｎｓｈｏｒｔｔｅｘｔｓ（短いテキストにおけるグラフベースのｎグラム言語識別）」（Ｐｒｏｃ．２０ｔｈＭａｃｈｉｎｅＬｅａｒｎｉｎｇＣｏｎｆ．ｏｆＢｅｌｇｉｕｍａｎｄＴｈｅＮｅｔｈｅｒｌａｎｄｓ，ｐｐ．２７−３４（２０１１））に記載されるように、グラフにおける文字３グラム（言語ごとに１つのグラフ）を接続し、このグラフにおけるツイートのパスを見出すことにより、追加的な連続情報で向上された文字または単語ｎグラムの基準を使用して、試みられている。ＪｏｈｎＶｏｇｅｌらによる「Ｒｏｂｕｓｔｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｉｎｓｈｏｒｔ，ｎｏｉｓｙｔｅｘｔｓ：ＩｍｐｒｏｖｅｍｅｎｔｓｔｏＬＩＧＡ（短い乱雑なテキストにおける頑健な言語識別：ＬＩＧＡの改良）」（３ｒｄＩｎｔ‘ｌＷｏｒｋｓｈｏｐｏｎＭｉｎｉｎｇＵｂｉｑｕｉｔｏｕｓａｎｄＳｏｃｉａｌＥｎｖｉｒｏｎｍｅｎｔｓ，ｐ．４３（２０１２））に記載されるように、いくつかの改良が良好な前処理により達成され得る。

ソーシャルメディアコンテンツは、一般的に、メタデータと関連付けられる。例えば、ツイッターにより、ユーザは、追加的な信号として含まれ得る、ユーザが拠点とする地理的位置を識別できる。ＭｏｉｓｅｓＧｏｌｄｓｚｍｉｄｔらによる「Ｂｏｏｔ−ｓｔｒａｐｐｉｎｇｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｅｒｓｆｏｒｓｈｏｒｔｃｏｌｌｏｑｕｉａｌｐｏｓｔｉｎｇｓ（短い口語体の投稿のためのブートストラップ言語識別）」（Ｐｒｏｃ．ＥｕｒｏｐｅａｎＣｏｎｆ．ｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＰｒｉｎｃｉｐｌｅｓａｎｄＰｒａｃｔｉｃｅｏｆＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａｂａｓｅｓ（２０１３））を、参照されたい。しかしながら、自己報告の地理的位置は、ツイッターユーザ全体のうちの低い割合のユーザのみにより使用されているのに加え、不十分な予測因子であることが分かっている。ＭａｒｋＧｒａｈａｍらによる「Ｗｈｅｒｅｉｎｔｈｅｗｏｒｌｄａｒｅｙｏｕ？ＧｅｏｌｏｃａｔｉｏｎａｎｄｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｉｎＴｗｉｔｔｅｒ（あなたは世界のどこにいる？ツイッターにおける地理的位置および言語識別）」（ＴｈｅＰｒｏｆｅｓｓｉｏｎａｌＧｅｏｇｒａｐｈｅｒ（２０１４））；ＧｒｅｇｏｒｙＧｒｅｆｅｎｓｔｅｔｔｅによる「Ｃｏｍｐａｒｉｎｇｔｗｏｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｓｃｈｅｍｅｓ（２つの言語識別構想の比較）」（３ｒｄＩｎｔ’ｌＣｏｎｆ．ｏｎＳｔａｔｉｓｔｉｃａｌＡｎａｌｙｓｉｓｏｆＴｅｘｔｕａｌＤａｔａ（ＪＡＤＴ１９９５），ｐｐ．２６３−２６８（１９９５））（以降、「Ｇｒｅｆｅｎｓｔｅｔｔｅ１９９５」）；および、ＳｉｍｏｎＣａｒｔｅｒらによる「Ｍｉｃｒｏｂｌｏｇｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎ：Ｏｖｅｒｃｏｍｉｎｇｔｈｅｌｉｍｉｔａｔｉｏｎｓｏｆｓｈｏｒｔ，ｕｎｅｄｉｔｅｄａｎｄｉｄｉｏｍａｔｉｃｔｅｘｔ（ミニブログの言語識別：短い編集されていない慣用的なテキストの制限の克服）」（Ｌａｎｇ．Ｒｅｓｏｕｒ．Ｅｖａｌ．，４７（１）：１９５−２１５（Ｍａｒｃｈ２０１３））（以降、「Ｃａｒｔｅｒ２０１３」）を、参照されたい。

ソーシャルメディア投稿における言語識別を向上させるために検討されてきた他の特徴は、ユーザ名、さらに接頭辞、ホスト名およびトップレベルのドメイン名を抽出するためのＵＲＬのスクリプトおよび特別なトークナイザに関する二値特徴、作者の事前に推測された言語（作者の言語ヒストグラム）、投稿で言及されたユーザの言語ヒストグラム、および、議論の前後関係（返信先はメタデータとして保存される）、文字レベルにおける最大反復などを含む。さらに、重み付けメカニズムが、２つ以上の既存のツールを組み合わせるために提案されている。Ｃａｒｔｅｒ２０１３；ＳｈａｎｅＢｅｒｇｓｍａらによる「Ｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｆｏｒｃｒｅａｔｉｎｇｌａｎｇｕａｇｅ−ｓｐｅｃｉｆｉｃＴｗｉｔｔｅｒｃｏｌｌｅｃｔｉｏｎｓ（言語特有のツイッターコレクションを作成するための言語識別）」（Ｐｒｏｃ．２ｎｄＷｏｒｋｓｈｏｐｏｎＬａｎｇｕａｇｅｉｎＳｏｃｉａｌＭｅｄｉａ，ＬＳＭ ’１２，ｐｐ．６５−７４（２０１２））（以降、「Ｂｅｒｇｓｍａ２０１２」）；ＳｈｕｍｅｅｔＢａｌｕｊａらによる「ＶｉｄｅｏＳｕｇｇｅｓｔｉｏｎａｎｄＤｉｓｃｏｖｅｒｙｆｏｒＹｏｕｔｕｂｅ：ＴａｋｉｎｇＲａｎｄｏｍＷａｌｋｓＴｈｒｏｕｇｈｔｈｅＶｉｅｗＧｒａｐｈ（ユーチューブの映像提案および発見：ビューグラフのランダムな手引き）」（Ｐｒｏｃ．１７ｔｈＩｎｔ’ｌＣｏｎｆ．ｏｎＷｏｒｌｄＷｉｄｅＷｅｂ（ＷＷＷ ’０８），ｐｐ．８９５−９０４（２００８））（以降、「Ｂａｌｕｊａ２００８」）を、参照されたい。しかしながら、調査は、ミニブログ投稿での言語および国のメタデータフィールドが、言語識別には不十分な信号を、真の基本的な言語分布を大幅に過大または過小に見積もる言語フィールドで作成する傾向があること、および、地理的位置フィールドが、一般的に、言語識別に関して信頼するには、わずかしか使用されていないことを、示唆している。

ソーシャルメディアテキストに対する言語識別の精度を向上させるシステムおよび方法の必要性が、いまだに存在している。

例示的な実施形態の１つの態様によると、ソーシャルネットワーク投稿の言語予測のための方法は、エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することを含む。グラフのノードの一部は、ソーシャルネットワークのユーザを表すユーザノードである。ユーザの一部は、ソーシャルネットワーク投稿の作者である。それ以外のノードは、作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードである。ソーシャルネットワーク投稿ノードのうちの少なくとも１つは、ラベル化されていない。グラフのエッジは、各々の重みと関連付けられる。言語ラベルは、ラベル化されていないソーシャルネットワーク投稿ノードのうちの少なくとも１つに対して、予測される。これは、言語ラベルを、グラフを介してラベル化されていないノードへ、ラベル伝搬を使用して各々のエッジの重みの関数として伝搬することを含む。ソーシャルネットワーク投稿の言語は、ソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードに対して生成された予測言語ラベルに基づいて、予測される。

ソーシャルネットワークグラフの生成、言語ラベルを伝搬すること、および、ソーシャルネットワーク投稿の言語を予測すること、のうちの少なくとも１つは、プロセッサで行われてよい。

例示的な実施形態の別の態様によると、ソーシャルネットワーク投稿の言語予測のためのシステムは、ソーシャルネットワークグラフを生成するグラフ生成コンポーネントを含む。グラフは、エッジにより接続されるノードを含む。ノードの一部は、ソーシャルネットワークのユーザを表すユーザノードである。ユーザの一部は、ソーシャルネットワーク投稿の作者である。それ以外のノードは、作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードである。ソーシャルネットワーク投稿ノードのうちの少なくとも１つは、ラベル化されていない。グラフのエッジは、各々の重みと関連付けられる。グラフ予測コンポーネントは、少なくとも１つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルを、グラフを介して言語ラベルをエッジの重みの関数として伝搬することにより予測する。背景特徴抽出コンポーネントは、特徴を、ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出する。背景予測コンポーネントは、ソーシャルネットワーク投稿に対する言語ラベルを、抽出された特徴に基づいて予測する。一体化コンポーネントは、ソーシャルネットワーク投稿の言語を、グラフ予測コンポーネントおよび背景予測コンポーネントにより、当該のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードに対して予測された言語ラベルの関数として、予測する。プロセッサは、グラフ生成コンポーネント、グラフ予測コンポーネント、背景特徴抽出コンポーネント、背景予測コンポーネント、および、一体化コンポーネントを実装する。

例示的な実施形態の別の態様によると、ソーシャルネットワーク投稿の言語予測のための方法は、エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することを含み、ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、ユーザの少なくとも一部はソーシャルネットワーク投稿の作者であり、ノードの一部は作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、グラフのエッジは各々の重みと関連付けられ、ソーシャルネットワーク投稿ノードのうちの少なくとも１つはラベル化されていない。特徴は、ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出される。言語ラベルのセットにおける１つ以上の言語ラベルは、ラベル化されていないソーシャルネットワーク投稿に対して、抽出された特徴に基づいて予測される。言語ラベルのセットにおける１つ以上の言語ラベルは、ラベル化されていないソーシャルネットワーク投稿ノードに対して、グラフを介して言語ラベルをエッジの重みの関数として伝搬することにより予測される。予測された言語ラベルは一体化され、ラベル化されていないソーシャルメディア投稿に対する言語は一体化に基づいて出力される。

ソーシャルネットワークグラフを生成すること、特徴を抽出すること、第１および第２の言語ラベルを予測すること、一体化すること、および、出力すること、のうちの少なくとも１つは、プロセッサで行われる。

図１は、例示的な実施形態の１つの態様による、言語識別のためのシステムの機能ブロック図である。図２は、例示的な実施形態の別の態様による、言語識別のための方法のフローチャートである。図３は、ラベル化されていないソーシャルネットワーク投稿のラベルを、ラベル伝搬を介して予測するための、ソーシャルネットワーク投稿ノードおよびユーザノードを含むグラフを図示する。

例示的な実施形態の態様は、言語識別のためのシステムおよび方法に関する。例示的なシステムおよび方法において、ソーシャルメディア投稿と関連付けられる非公式の言語の欠点は、少なくとも部分的に、ソーシャルメディア投稿と関連付けられる情報の他のソースを使用することにより克服される。

本明細書に開示される例示的な実施形態において、ツイートなどのソーシャルネットワーク投稿の言語は、テキストコンテンツに基づいて、さらに、過去に作者により「読まれた」ツイートの言語に基づいて、予測される。作者が実際に読んだツイートは不明であるため、作者がニュースフィードにおいて受信するツイートは、ツイート読み込みの代わりに使用される。ツイッターなどのソーシャルネットワークの登録ユーザは、他の登録ユーザのツイートに同意してよく、それにより、他のユーザの「フォロワー」として知られるようになり、それ以降、それらの他のユーザのツイートがユーザのニュースフィードに現れるようになる。次に、ユーザは、ツイートを自身のフォロワーへ投稿または報告（リツイート）し得る。フォローする側および／または他方によりフォローされる側の２人のユーザは、本明細書において「フォロー」関係にあると称される。ツイートの「作者」は、ツイート（リツイートを含む）を投稿する登録ユーザである。

図１を参照すると、言語識別システム１０は、図２を参照して詳細に記載される方法を行うための命令１４を保存するメモリ１２、および、命令１４を実行するためにメモリと通信する処理デバイス（または、「プロセッサ」）１６を含む。

システムは、入力として、テキストコンテンツ２０および関連情報２２を含むソーシャルメディア投稿１８を、例えば、メタデータの形式で受信する。そのような投稿は、一般的に、テキストコンテンツの最大文字数に、例えば１４０字などの制限があるため、ソーシャルメディア投稿１８はミニブログと称されてよい。テキストコンテンツ２０は、一般的に、英語またはフランス語（または、コードシフトが使用される場合、言語の組み合わせ）などの自然言語の単語を含むが、表示される投稿のコンテンツは、さらに、グラフィカルな感情、画像などを含んでもよい。投稿１８は、サービスの登録ユーザがツイートと呼ばれることが多い短い投稿１８を広めることができる、ツイッターなどのミニブログサービスに、もともと投稿されたと推測され得る。そのような投稿１８のセットは、投稿を分析して組織の製品および／またはサービスに関する意見などの情報を抽出したいと望む企業または他の組織により、収集されている可能性がある。そのような情報をテキストコンテンツ２０から抽出するために、自然言語またはテキストコンテンツ２０の主たる言語（複数可）を予測することが有利である。

関連情報２２は、例えば、地理的位置、タイムスタンプ、および、作者のソーシャルネットワークを含んでよい。例えば、各ツイートは、最大文字数が１４０字に制限されているが、それに加えて、ツイートに対する独自の数値ＩＤ、および、受け取るリプライ、お気に入り、およびリツイートの全てに対するＩＤを含む、１５０メタデータポイントを包含する。さらに、タイムスタンプ、位置スタンプ、言語、アカウントが作成された日付、作者のＵＲＬ、ウェブサイトが参照された場合、フォロワーの数などを含むが、これらのソースのうちの一部は重複している。例示的な実施形態において、作者が過去に読んだ（すなわち、受信した）ツイート（受信ツイート）と関連付けられる情報の少なくとも一部は、ツイートを特定の言語で書く可能性にバイアスをかけるために使用されてよい。例えば、作者により過去に「読まれた」異なる言語のツイートの数は、（例えば早期融合を使用する）統計的な分類器への特徴入力として利用されてよく、または、言語を予測した後にコンテンツベースの予測と後期融合手法で組み合わせるために別個に使用されてよい。

システム１０は、予測された言語、または、それらに基づく情報など、投稿１８に対する言語ベースの情報２４を出力する。

システム１０は、図示されたサーバコンピュータ２６など、１つ以上のコンピュータデバイスによりホストされてよい。サーバコンピュータは、１つ以上のクライアントデバイス２８などの外部デバイスと、例えば、インターネットなどの有線および／または無線ネットワークなど、リンク３０を介して通信してよい。

システム１０は、クライアント計算デバイスなどの外部デバイスと通信するための１つ以上の入力／出力デバイス３２，３４を含む。システムのハードウェアコンポーネント１２，１６，３２，３４は、データ／制御バス３６により通信可能に接続される。

言語識別のための例示的なハイブリッドシステムおよび方法は、投稿１８の言語を、背景モデル４０およびグラフモデル４２の関数として予測する。背景モデルは、ツイート１８自体のみのコンテンツ（テキストコンテンツ２０および／またはメタデータ２２）に基づいており、一方でグラフモデル４２は、社会的背景（他のツイートおよびユーザ）を考慮に入れる。これらのモデルは、所与のツイート１８の言語を識別するために組み合わされる。例えば、言語ｌａｎｇ（ｔ）は、考慮される言語ｌに対して背景モデル４０により出力された背景予測ｐ（ｌ｜ｔ，θ_{ｂａｃｋｇｒｏｕｎｄ}）、および、グラフモデル４２により出力されたグラフ予測ｐ（ｌ｜ｔ，θ_{ｇｒａｐｈ}）の集合（例えば、重み付けされた合計）の最大値を、考慮される言語全体に与えるものとして、例えば式１に示されるように、ツイートｔに対して予測される：

ここで、θ_{ｂａｃｋｇｒｏｕｎｄ}は、考慮される各言語に対して学習される識別情報（例えば、ｎグラムの確率）など、背景モデル４０のパラメータである。

θ_{ｇｒａｐｈ}は、ソーシャルネットワークグラフ４４から抽出された、グラフモデル４２のパラメータであり、例示的な実施形態において、ラベル伝搬を介してラベルが学習されるノードを含む。

λ_１およびλ_２は、それぞれ背景およびグラフモデル４０，４２に対する重みである。

図示された命令１４は、背景特徴抽出コンポーネント５０、背景予測コンポーネント５２、グラフ生成コンポーネント５４、グラフ予測コンポーネント５６、一体化コンポーネント５８、情報出力コンポーネント６０、および、選択的に学習コンポーネント６２を含む。背景特徴抽出コンポーネント５０は、背景特徴を、投稿１８のテキストコンテンツおよび／またはメタデータから抽出する。背景予測コンポーネント５２は、言語のセットの各々に対して、ツイートに対する第１（背景ベース）の言語ラベル予測（スコア）を計算する。これらの予測は、抽出された背景特徴および背景モデル４０のパラメータに基づく。グラフ生成コンポーネント５４は、投稿１８の言語を予測するためのグラフ４４を生成する。グラフは、ニュースフィードなど、ツイート１８の作者により受信されたツイートのコレクション６４から抽出される情報に基づいてよい。グラフ予測コンポーネント５６は、言語のセットの各々に対して、ラベル化されていないツイート１８に対する第２（グラフベース）の言語ラベル予測（スコア）を、グラフ４４に基づいて計算する。一体化コンポーネント５８は、セットにおける言語の各々（または、少なくとも一部）に対して、全体のスコアを生成する。全体のスコアは、背景スコアおよびグラフスコアの関数として生成される。一体化コンポーネント５８は、最高スコア（複数可）を与える言語（複数可）を識別する。出力コンポーネント６０は、識別された言語（複数可）に基づく情報を出力する。学習コンポーネント６２は、例えば、コンテンツベースの分類器のセットなど、背景スコアを予測するための背景モデル４０を学習する。分類器学習は、スーパーバイズされた手法において、各々が手動でそれぞれの言語でラベル化された、投稿のセット６６を使用して行われてよい。分類器のパラメータが学習されると、学習コンポーネント６２はシステムから省略され得る。

言語のスコア化により、作者のソーシャルネットワークが統合され、ソーシャルメディア投稿１８の言語識別が向上する。システムおよび方法は、例えば、カタロニア語で投稿するユーザと良好に接続されたユーザは、当該の言語で投稿する確率が高いと推測する。例示的な実施形態において、コンテンツベースの分類器４０の言語予測スコアは、ソーシャルネットワークをグラフ４４としてモデル化する方法のスコアと組み合わされる。ネットワークにおける他の作者の言語が常に既知であるとは限らないので、ラベル伝搬（ＬＰ）のグラフベースの半スーパーバイズ手法が適用され、グラフ４４の全域における少数のラベル化されたインスタンスから、事前にラベル化されていないインスタンスへラベルを伝搬する。結果は、既存の方法全体で有用な向上を示す。

コンピュータシステム１０は、デスクトップなどのＰＣ、ラップトップ、パームトップコンピュータ、携帯デジタル補助装置（ＰＤＡ）、サーバコンピュータ、セルラー電話、タブレットコンピュータ、ポケットベル、それらの組み合わせ、または、例示的な方法を行うための命令を実行可能な他の計算デバイスなど、１つ以上の計算デバイス２６を含んでよい。

メモリ１２は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、磁気ディスクまたはテープ、光ディスク、フラッシュメモリ、または、ホログラムメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。１つの実施形態において、メモリ１２は、ランダムアクセスメモリと読み取り専用メモリとの組み合わせを備える。一部の実施形態において、プロセッサ１６およびメモリ１２は、単一チップに統合されてよい。メモリ１２は、処理されたデータ４０，４２，４４と共に、例示的な方法を行うための命令を保存する。

ネットワークインタフェース３２，３４により、コンピュータは、他のデバイスと、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）などのコンピュータネットワーク、または、インターネットを介して、通信することができる。ネットワークインタフェース３２，３４は、変調器／復調器（モデム）、ルータ、ケーブル、および／または、イーサネット（登録商標）ポートを備えてよい。

デジタルプロセッサデバイス１６は、単一コアプロセッサ、デュアルコアプロセッサ（または、より一般的には、多重コアプロセッサ）、デジタルプロセッサおよび協働する数値演算コプロセッサ、デジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ１６は、命令１４を実行することに加えて、さらに、コンピュータ２６の動作を制御してよい。

本明細書において使用される「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意のコレクションまたはセットを網羅し、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成することを意図する。本明細書において使用される「ソフトウェア」という用語は、ＲＡＭ、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を包含することを意図し、さらに、ＲＯＭなどに保存されるソフトウェアである、いわゆる「ファームウェア」を網羅することを意図する。そのようなソフトウェアは様々な手法で体系化され、ライブラリ、遠隔サーバなどに保存されるインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接的に実行可能なコードなどとして体系化されたソフトウェアコンポーネントを含んでよい。ソフトウェアは、システムレベルのコードまたはコールを、サーバまたは他の位置に常駐する他のソフトウェアへ呼び出し、特定の機能を行ってよいことが予期される。

留意されるように、図１は、コンピュータシステム１０内へ統合されるコンポーネントの一部分のみのハイレベルな機能ブロック図である。プログラマブルコンピュータの構成および動作は既知であるため、詳細には記載されない。

ここで図２を参照すると、図１のシステムで行われ得る、作者により投稿されたツイート１８の言語を識別するための方法が示されている。本方法は、Ｓ１００で開始される。

Ｓ１０２で、選択的に、背景モデル４０（例えば、考慮される各言語に対する分類モデル）のパラメータは、学習コンポーネント６２を使用して学習される。

Ｓ１０４で、背景モデルパラメータが保存される。

Ｓ１０６で、作者のニュースフィードにおけるツイートのセット６４へのアクセスが提供される。

Ｓ１０８で、言語が予測される、作者によるツイート１８が識別され、一時的にメモリに保存されてよい。

Ｓ１１０で、背景モデル予測が行われる。具体的には、背景特徴は、ツイート１８から背景特徴抽出コンポーネント５０により抽出される。その後、ツイートの言語（複数可）の背景予測が、背景予測コンポーネント５２により、抽出された背景特徴に基づいて、訓練された背景モデル４０を使用して計算される。

Ｓ１１２で、ソーシャルネットワークグラフ４４が、コンポーネント５４により構築される。グラフは、ツイート１８、および、その作者を、グラフのノードとして、他のユーザおよび他のユーザのツイートに対するノードと共に含む。重みが、ノードを接続するグラフのエッジへ割り当てられる。

Ｓ１１４で、ラベル伝搬がグラフ４４上で、コンポーネント５６により、例えば、ＭＡＤアルゴリズムを使用して行われる。アルゴリズムの各反復で、言語ラベルが、隣接するラベル化されていないノードへ、ノードを接続する各々のエッジの重みに比例して伝搬される。

１つの実施形態において、Ｓ１１４より訓練フェーズＳ１１６が先行する。その場合、初期グラフ６８のラベル化されていないノードに対するラベル（ソーシャルネットワークグラフ４４と類似しているが、ツイート１８を伴わない）は、ラベル伝搬により予測され（すなわち、ステップＳ１１４と同じ手法）、ノードラベル予測が保存される（Ｓ１１８）。その後、ラベル化されていないツイート１８が初期グラフに追加され、ソーシャルネットワークグラフ４４を生成して（Ｓ１１２）、アルゴリズムが戻る（Ｓ１１４）。

Ｓ１２０で、グラフモデル４２（すなわち、グラフ４４におけるラベル伝搬）および背景モデル４０により生成される、ツイート１８に対して予測されたラベル（複数可）（スコア）が、保存される。これは、各々の事例において、言語の一部または全部に対する最高スコア（複数可）を伴う言語であり得る。

Ｓ１２２で、ツイートに対する各言語の背景スコアおよびグラフスコアが、例えば、式１を使用して一体化される。最高スコアを有する言語が識別される。

Ｓ１２４で、投稿１８に対して最も可能性の高い言語、または、言語の一部または全部に対する予測など、情報が一体化に基づいて出力される。

一部の実施形態において、Ｓ１２６で、プロセスが、ソーシャルメディア投稿１８の予測された言語に基づいて実施されてよい。例えば、ツイートのテキストが意見ごとに取り出されてよく、または、例えば、特定された言語（複数可）に対して開発された構文解析技術を使用して、他の情報が抽出されてよい。

本方法はＳ１２８で終了する。

図２に図示される方法は、コンピュータ上で実行されてよいコンピュータプログラム製品において実装されてよい。コンピュータプログラム製品は、ディスク、ハードドライブなど、制御プログラムが記録（保存）される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の共通形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気保存媒体、ＣＤ−ＲＯＭ、ＤＶＤ、または任意の他の光媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、または他のメモリチップまたはカートリッジ、または、コンピュータが読み込みまたは使用し得る任意の他の持続性媒体を含む。コンピュータプログラム製品は、コンピュータ２６に統合されてよく（例えば、ＲＡＭの内部ハードドライブ）、または、分離されていてよく（例えば、コンピュータ２６と動作可能に接続される外部ハードドライブ）、または、分離されていて、ローカルエリアネットワーク（ＬＡＮ）などのデジタルデータネットワークまたはインターネットを介してアクセスされてよい（例えば、安価な独立したディスクの冗長アレイ（ＲＡＩＤ）、または、コンピュータ２６によりデジタルネットワークを介して間接的にアクセスされる他のネットワークサーバストレージとして）。

代替的に、本方法は、制御プログラムがデータ信号として、電波および赤外線通信中に生成される音波または光波などの伝送媒体を使用して具現化される、伝送可能な搬送波などの一時媒体において、実装されてよい。

例示的な方法は、１つ以上の汎用コンピュータ、専用コンピュータ（複数可）、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺集積回路素子、ＡＳＩＣまたは他の集積回路、デジタル信号プロセッサ、個別素子回路などのハードワイヤードの電子または論理回路、ＰＬＤ、ＰＬＡ、ＦＰＧＡ、グラフィカルカードＣＰＵ（ＧＰＵ）、またはＰＡＬなどのプログラマブル論理デバイスなどにおいて、実装されてよい。一般的に、有限状態機器を実装可能な、すなわち、図２に示されるフローチャートを実装可能な、任意のデバイスが、ラベル化方法を実装するために使用され得る。留意されるように、本方法のステップが全てコンピュータ実装であってよい一方で、一部の実施形態において、１つ以上のステップは、少なくとも部分的に手動で行われてよい。留意されるように、本方法のステップは、図示される順番で進む必要はなく、より少ない、より多い、または異なるステップが、含まれてよい。

ここで、システムおよび方法の詳細が提供される。

１．背景モデル
背景モデル４０を生成するために（Ｓ１０２）、手動でラベル化された投稿のセット６６におけるツイートのコンテンツが、学習コンポーネント６２により使用され、マルチクラス分類器または考慮される各言語に対する分類器を学習し得る。

任意の適切な学習方法が、ロジスティック回帰、線形回帰、様々なカーネルの選択を伴うサポートベクターマシン（ＳＶＭ）、圧縮ベースの分類器（例えば、Ｂｅｒｇｓｍａ２０１２およびＢｒｉａｎＯ．Ｂｕｓｈによる「ＬａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｔｗｅｅｔｓｕｓｉｎｇＬＺＷｃｏｍｐｒｅｓｓｉｏｎ（ＬＺＷ圧縮を使用するツイートの言語識別）」（ＰａｃｉｆｉｃＮｏｒｔｈｗｅｓｔＲｅｇｉｏｎａｌＮＬＰＷｏｒｋｓｈｏｐ（２０１４））を参照）などの背景モデル分類器（複数可）を学習するために、使用され得る。例えば、言語のセットの各々に対して、一対全ｌ_２正規化ロジスティック回帰（すなわち、最大エントロピー）分類器が、学習される。

分類器（複数可）は、セット６６における投稿のテキスト２０から抽出されるｎグラム特徴で学習される。ｎグラムは、１０個まで、または５個までのシンボルなど、ｎ個のシンボルの配列であり、ここで、シンボルは、例えば、単語または文字であり、ｎは、例えば、少なくとも２であり得る。１つの実施形態において、ｎグラムは、単語の境界全体に及ばない文字２〜５グラムである（すなわち、各ｎグラムは、単一の単語のみから抽出される）。文字ｎグラムは、投稿のテキストの長さが短いため、さらに、単語が短縮されることが多いため、単語ｎグラムより適切である傾向がある。例として、各言語に対して、例えば、米国特許第６，１６７，３６９号に記載されるように、当該の言語のソースから抽出される最も顕著な文字ｎグラムを含む識別情報が生成される。例えば、ソースはウィキペディアであり得る。英語で、顕著な３グラム文字ｎグラムは、典型的には英語で、まれに他の言語で使用される、ｔｈｅ、ｓｈｅ、ｗｈａなどの文字の配列を含んでよい。識別情報は多数の文字ｎグラムを含んでよく、選択された言語における所与のツイートに対して、ｎグラムの少なくとも一部は、テキストコンテンツにおいて見られる可能性がある。良好な言語予測性能を与えるｎグラムの適切なセットを識別するために、実験が行われてよい。

その後、ツイート１８の特徴ベース表現が生成され得る。各特徴は、ツイートに現れるｎグラムの各々の発生数または単に有無に基づく。簡素化された例において、識別情報は、ｎグラムの（限定された）セットｄａｙ、ｈｅｒ、ｈｉｍ、ｏｌｄ、ｏｒｄ、ｔｈｅ、ｃｏｌｄ、ｆｒｅｅ、ｈｅｒｅ、ｒｅｃｅ、ｗｈａｔ、ｔｏｄａｙを含むと仮定する。その後、コンテンツを伴うツイートを考える：
Ｒｅｃｏｒｄｃｏｌｄｈｅｒｅｔｏｄａｙ！＃２０１５ｆｒｅｅｚｅ

表現（１，１，０，１，１，０，１，１，１，０，０，１）が生成され得る。ここで、各要素は、リストにおける各々のｎグラムの有（１）または無（０）を示す。もちろん、実際には、表現は、より多くの特徴を包含し、非常に希薄な傾向がある。

各言語に対して、分類器モデル４０は、セット６６におけるツイートの特徴表現および言語ラベル（例えば、考慮中の言語ｌに対して１、および、「他」の言語に対して０）において学習される。これは、例えば、ｓｃｉｋｉｔ−ｌｅａｒｎにより実装される、ＣおよびＣｙｔｈｏｎを使用して覆われるｌｉｂｌｉｎｅａｒを使用して、実装され得る（ｈｔｔｐ：／／ｓｃｉｋｉｔ−ｌｅａｒｎ．ｏｒｇ／ｓｔａｂｌｅ／ｍｏｄｕｌｅｓ／ｓｖｍ．ｈｔｍｌ＃ｓｖｍを参照）。

その後、訓練された分類器でスコア化されるツイート１８を考えると、表現が抽出され、各々の訓練された背景分類器を使用して各言語に対するスコアが計算される。その後、各ツイートに対する最終的なスコアは、確率分布を取得するために全てのクラス全体で正規化され得る。

留意されるように、第１（背景）のラベル予測の一部は０であってよく、または、０に近似してよい。一部の実施形態において、少なくとも閾値スコアを有する言語ラベルのみが保持され（および／または、トップｋスコアを伴う言語ラベルのみが保持され）、残りの言語は無視される。

背景モデルスコアを割り当てるための他の方法が、例えば、米国特許第６，１６７，３６９号に記載されている。

２．グラフベースのモデル
例示的な方法において、ソーシャルネットワークグラフ４４は、ソーシャルメディアの背景、互いに関連するツイート、ツイートに対する作者および他の作者をモデル化するために使用される。エッジは、ノード間で作成される。

図３に示される小さい例示的なグラフに図示されるように、例えば、グラフベースのモデル４２を生成するために、受信された投稿のコレクション６４が、無向グラフ４４を生成するために使用される。コレクションにおける各ツイート１８は、例えば、テキストコンテンツ２０において、および／または、そのメタデータ２２において、その作者を特定する。グラフは、各々が単一のツイートのみを表す、ソーシャルメディア投稿ノードまたは「ツイートノード」（Ｔ１，Ｔ２，Ｔ３，Ｔ４，他）７０，７２，７４，７６，他を含むノードのセットを、最初に含む。さらに、グラフは、各々の作者ノードが単一の作者のみを表す、ユーザ（例えば、作者）ノード（Ｕ１，Ｕ２，Ｕ３，他）８０，８２，８４，他を含む。ツイートノード７０のうちの１つは、ラベル化されるツイート１８に対応する。作者ノード８０のうちの１つは、当該のツイートの作者Ｕ１に対応する。他のユーザノード（複数可）８２，８４は、ニュースフィードにおけるツイート７２，７４，７６の作者Ｕ２，Ｕ３に対応してよい。ワールドノード（Ｗ）８６は、１つの実施形態において、グラフの接続性を維持する。ノードは、各々がそれぞれの重みと関連付けられるエッジ９０，９２，９４，他により接続される。

最初に、テキストノード７２，７４の一部が、初期分布で言語ラベル（例えば、スペイン語（ｅｓ），カタロニア語（ｃａ））全体でラベル化され、一方で他のノード７０，７６はラベル化されない。１つの実施形態において、ラベル化されたツイートの少なくとも一部は、手動でラベル化されていてよい。別の実施形態において、ラベル化されたツイートの少なくとも一部に対して、ツイートの作者は、ツイートのメタデータから検索される言語を規定していてよい。別の実施形態において、ラベル化されたツイートの少なくとも一部は、先のグラフ６８を生成する際に事前にラベル化されていてよい。別の実施形態において、背景予測は、予測が非常に高い確実性を有する場合、ツイートのサブセットに対するラベルとして使用されてよい。確実性の閾値は、ラベル化されていないノードの２０％未満または１０％未満など、少ない割合のみが、この手法で割り当てられたラベルであるように設定されてよい。したがって、ラベル化されていないノードの過半数は、背景方法によるものと共に、ラベル伝搬（Ｓ１１４）に基づいて割り当てられたラベルである。ラベル化方法の組み合わせは、初期ラベルを生成するために適用されてよい。

ラベル伝搬（Ｓ１１４）は、ラベルをグラフの至る所で、エッジの重みの関数として伝搬するために使用される。ラベル伝搬手法は、本明細書における本事例のように、ドメインが無向グラフを使用して自然に記載され得る、半スーパーバイズの問題に対する有益な技術であることを、証明している。ＸｉａｏｊｉｎＺｈｕらによる「Ｌｅａｒｎｉｎｇｆｒｏｍｌａｂｅｌｅｄａｎｄｕｎｌａｂｅｌｅｄｄａｔａｗｉｔｈｌａｂｅｌｐｒｏｐａｇａｔｉｏｎ（ラベル伝搬によるラベル化および未ラベル化データからの学習）」（Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ，ＣＭＵ−ＣＡＬＤ−０２−１０７，ＣａｒｎｅｇｉｅＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙ，ｐｐ．１−１７（２００２））を、参照されたい。グラフ周囲の１つの確立質量を伝搬する（その後、ランクを生成するために使用される）よりも、グラフ４４のノードは複数のラベル全体に分布をもたらす。各反復で、ノードは、隣接する分布の各々の組み合わせを使用して、隣接するノードとの間のエッジの重みに比例して、その分布を更新する。アルゴリズムが収束すると、事前にラベル化されていないノードは、ラベル分布を有する。修飾吸着（ＭＡＤ）は、グラフを介する無作為な実地検証の制御が、例えば、高度なノード（多数のエッジを有するノード）を介するラベル質量の伝搬を疎んじることにより可能となる、標準的なラベル伝搬方法の修正である。この手法は、例えば、Ｔａｌｕｋｄａｒらによる「ＮｅｗＲｅｇｕｌａｒｉｚｅｄＡｌｇｏｒｉｔｈｍｓｆｏｒＴｒａｎｓｄｕｃｔｉｖｅＬｅａｒｎｉｎｇ（変換学習のための新しい規定アルゴリズム）」（Ｐｒｏｃ．ＥｕｒｏｐｅａｎＣｏｎｆ．ｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａｂａｓｅｓ：ＰａｒｔＩＩｉｎＥＣＭＬＰＫＤＤ ’０９，ｐｐ．４４２−４５７（２００９））（以降、「Ｔａｌｕｋｄａｒ２００９」）に、記載されている。さらに、ＬＰおよびＭＡＤ手法の用途は、Ｂａｌｕｊａ２００８、Ｓｐｅｒｉｏｓｕらによる「ＴｗｉｔｔｅｒＰｏｌａｒｉｔｙＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＬａｂｅｌｐｒｏｐａｇａｔｉｏｎｏｖｅｒＬｅｘｉｃａｌＬｉｎｋｓａｎｄｔｈｅＦｏｌｌｏｗｅｒＧｒａｐｈ（語彙的結束およびフォロワーグラフ全体でのラベル伝搬を伴うツイッター極性分類）」（Ｐｒｏｃ．１ｓｔＷｏｒｋｓｈｏｐｏｎＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｉｎＮＬＰ，ｐｐ．５３−６３（２０１１））、Ｃｈｅｎらによる「Ｓｅｍｉ−ｓｕｐｅｒｖｉｓｅｄＲｅｌａｔｉｏｎＥｘｔｒａｃｔｉｏｎｗｉｔｈＬａｂｅｌＰｒｏｐａｇａｔｉｏｎ（ラベル伝搬での半スーパーバイズされた関係抽出）」（Ｐｒｏｃ．ＨｕｍａｎＬａｎｇ．Ｔｅｃｈｎｏｌ．Ｃｏｎｆ．ｏｆｔｈｅＮＡＡＣＬ，ＣｏｍｐａｎｉｏｎＶｏｌｕｍｅ：ＳｈｏｒｔＰａｐｅｒｓ，ｐｐ．２５−２８（２００６））、および、Ｔａｌｕｋｄａｒらによる「ＥｘｐｅｒｉｍｅｎｔｓｉｎＧｒａｐｈ−ＢａｓｅｄＳｅｍｉ−ｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇＭｅｔｈｏｄｓｆｏｒＣｌａｓｓ−ＩｎｓｔａｎｃｅＡｃｑｕｉｓｉｔｉｏｎ（クラスインスタンス取得のためのグラフベースの半スーパーバイズ学習方法における実験）」（Ｐｒｏｃ．４８ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓ’ｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ｐｐ．１４７３−１４８１（２０１０））に、記載されている。ラベルをグラフ全体で伝搬または滑らかにする能力は、スーパーバイズされるデータが限定される事例において有益であることが証明されている。

ＭＡＤは、反復してトークンまたは文章に注釈を付けた後、ラベルをラベル化されていないインスタンスへ伝搬する期限付き品詞情報付与に使用されている。ＤａｎＧａｒｒｅｔｔｅらによる「ＬｅａｒｎｉｎｇａＰａｒｔ−ｏｆ−ＳｐｅｅｃｈＴａｇｇｅｒｆｒｏｍＴｗｏＨｏｕｒｓｏｆＡｎｎｏｔａｔｉｏｎ（２時間の情報付与による品詞タグ付け学習）」（Ｐｒｏｃ．２０１３Ｃｏｎｆ．ｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓ’ｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ，ｐｐ．１３８−１４７（２０１３））を、参照されたい。

エッジは、接続するノードの種類に基づいて、異なる重みと一致する。例えば、エッジは、以下のように重みと一致する。

Ｔ−Ｔエッジ（２つのツイートを接続するエッジ）は、例えば、ツイートの単語ユニグラム間のコサイン類似性で重み付けされたコンテンツ類似性に基づいて、重み付けされる。したがって、Ｔ−Ｔエッジは、（ツイートが同一でない限り）０より大きく１より小さい値を有する。文字ｎグラム（例えば、背景モデルに対して抽出される）に基づいた類似性など、他の類似性測定が、代替的に適用され得る。

ツイートと作者との間のＴ−Ｕエッジは、例えば、１００の最大重みが全てに与えられる。

「フォロー」関係にある２人のユーザのＵ−Ｕエッジは、１などの同じ中間重み（Ｔ−Ｕより小さいが、Ｕ−ＷおよびＴ−Ｔより大きい）で全てが一致する。エッジは無向であり、その場合、エッジにより接続される２人のユーザのうちの片方（または、両方）は、「フォロワー」であり得る。フォローの相関関係の情報は、例えば、ツイッターのＡＰＩから検索され得る。

ユーザノードとワールドノードとの間のＵ−Ｗエッジは、例えば、０．００１などの同じ低い重み（Ｔ−ＵおよびＵ−Ｕより小さく、一般的にＴ−Ｔより小さい）が全てに与えられ、グラフの接続を確実なものとする。

留意されるように、エッジＴ−Ｕ、Ｕ−Ｕ、およびＵ−Ｗに対する重みは、ラベル化された訓練セットを使用して最適化されることができ、したがって、例示的な重みと異なり得る。より広範には、グラフのエッジは、これらの種類のうちの少なくとも２つに対して異なって重み付けされる。

グラフは、可能な限り多くの利用可能データを使用して構築され、利用可能な場合、ノードは言語ラベル全体での分布を包含する。一部の実施形態において、訓練データセット６６からのツイートは、グラフに含まれることができ、手動で適用されたラベルで、ツイートが１つより多い言語でラベル化されたラベル全体での均一の分布を使用して、ラベル化され得る。グラフのツイート対ツイートコンポーネントを構築するための１つの手法は、ｏ（ｎ^２）比較を伴って、各ツイートと全ての他のツイートとの類似性を測定する。計算量を削減するために、各々がバグオブワードユニグラムとして表されるツイートのセット全体におけるｋ最近傍分類が、行われ得る。その後、各ツイートとトップｋ近傍のみとの間の類似性比較が、例えば、コサイン類似性または他の類似性測定を使用して計算される。ｋは、例えば、ツイートの総数の約２５％であってよく、それにより、可能な限り多くの実リンクを捕捉し、一方で徹底した比較を回避する。

ツイッターは、非対称の「友達」関係を使用して、友達（「自分がフォローするアカウント」）とフォロワー（自分をフォローするアカウント）とを区別する。例示的な実施形態において、フォロワーと友達は「フォロー」関係にあると見なされるが、フォロワーが追加的な言語を話す可能性がある際、いくつかのエラーを導く場合がある。別の実施形態において、所与の作者の友達により作成されたツイートの言語のみが、グラフを生成する際に考慮される。

さらに、グラフにおけるツイートにおいて言及されている登録ユーザへのエッジに対する特定の重みを含むことが、有用である可能性がある。例えば、図３に図示されるグラフにおいて、ツイートＴ２がテキストにおいてユーザＵ３に言及する場合、言及の重み（例えば、０．２）を伴って破線により示される「言及」エッジ９６は、Ｔ２とＵ３との間で作成されてよい。

例えば、Ｔａｌｕｋｄａｒ２００９のＭＡＤアルゴリズムを使用するラベル伝搬（Ｓ１１４）は、ラベルを、ラベル化されたノードからラベル化されていないノードへ、反復の手法で伝搬する。ラベル化されていないユーザノードおよびラベル化されていないツイートノードの両方は、ラベル伝搬段階でラベルを受信するが、ユーザノードラベルは、その後に使用されない。アルゴリズムは、全てのラベル化されていないノードを、第２のラベル予測を生成するのと同じ目的で扱う。各反復で、フルパスがグラフ４４全体で作成される。例えば、無作為に選択されたノードで始まり、ノードからノードへ、ノードを接続するエッジを介して、全てのノードが確認されるまで連続して通過する。グラフにおいて横断される、各々の初期にラベル化されていないノード７０，７６，８０，８２，８４，８６に対して、ラベルは、単一エッジにより直接的に接続されるノードのラベルおよびエッジの重みに基づいて、計算される。

例示的な実施形態において、各ノードは２つの属性を有する：ｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎおよびｔｅｍｐ＿ｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎである。各反復で、本方法は、以下のように進んでよい：
ａ．各ノードを訪問：ｔｅｍｐ＿ｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎを、ノードの近傍のｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎのエッジ重み付けされた組み合わせに更新
ｂ．各ノードを訪問：ノードのｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎを、ｔｅｍｐ＿ｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎの値に設定し、ｔｅｍｐ＿ｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎをクリア

例えば、第１の反復において、選択された第１のノードはＴ２であってよい。それは最初にラベル化されたノードであるので、その言語予測は決して更新されない。その後、グラフを介するパスがノードＴ１へ進むと仮定する。ラベル化されていないノードＴ１は、ラベル化されたノードＴ２のｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎから生じるラベルｅｓおよびｃａに対する確率を含むｔｅｍｐ＿ｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎを、類似して生じる、それらを接続するエッジ９２の重み０．４に比例して、受信してよい。すなわち、ｅｓ＝０．５×０．４＝０．２およびｃａ＝０．５×０．４＝０．２である。その後、確率は正規化され、１へと合計する。すなわち、この事例において、ｅｓ＝０．５およびｃａ＝０．５のｔｅｍｐ＿ｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎを与え、その後、第１のパスの終端でＴ１のｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎになる。この反復において、Ｔ１が接続される他のノード（ノードＵ１）のみがラベル化されず、したがって、Ｔ１のラベルはこの反復においてノードＵ２に影響されない。その後、第１のパスがノードＵ１へ進むと仮定する。周囲のノードＴ１、Ｕ２、およびＷは、まだｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎを有していないため、第１のパスにおいて予測は受信されない。後続の反復がＵ１からＴ１へ進むと仮定する。その後、Ｕ１に対する更新されたｌａｂｅｌ＿ｄｉｓｔｒｉｂｕｔｉｏｎ予測が、Ｔ１に対する予測を、Ｔ２からエッジ９２を介して生じる予測と同様に、エッジ９０の重みと比例して、更新するために使用される。

各々の最初にラベル化されていないノードに対して、中間近傍のラベルのみが、ノードのラベルを更新する際に考慮される。収束下で、事前にラベル化されていないノードのラベル分布が識別され、投稿１８に対するθ_{ｇｒａｐｈ}の値、すなわち、１つ以上の言語全体でのラベル分布ｐ（ｌ｜ｔ，θ_{ｇｒａｐｈ}）を見出す。各ラベル全体での分布は、確率分布を取得するために正規化され得る。一部の実施形態において、反復の終端で、ノードは、閾値確率を超える言語のみに対するスコアでラベル化されてよい。

例示的な方法において、アルゴリズムの少ない反復のみが、収束を達成するために必要である（すなわち、ラベル化されていないノードのラベル分布に対する変化がほとんどないか、または、全くない）。例えば、１〜５回の反復が使用されてよい。

留意されるように、図３に示されるグラフ４４は簡略化されたグラフであり、実際には、少なくとも２０、または少なくとも５０、または少なくとも１００、または少なくとも１０００個のノードなど、多くのノードを含んでよい。追加的に、グラフは、同じ作者（および／または、異なる作者）の多くのラベル化されていないツイートに対するラベルスコアを予測するために、使用され得る。さらに、図３が一部のツイートに対する初期のラベルを含むのみである一方で、他のユーザノードのうちの１つ以上が、同じ手法で最初にラベル化されてよいことが予期される。

１つの実施形態において、例えばＳ１１６で初期グラフ６８が生成され、１つ以上の反復が行われると、１つ以上のラベル化された／ラベル化されていないツイートノード１８、および／または、１つ以上のラベル化された／ラベル化されていないユーザノードなど、１つ以上の追加的なノードが、Ｓ１１２でグラフに追加されてよい。その後、Ｓ１１４で、ＬＰアルゴリズムが、１つ以上の反復の間、実施され、追加的なラベル化されていないノード（複数可）に対するラベル確率ｐ（ｌ｜ｔ，θ_{ｇｒａｐｈ}）を生成し得る。この実施形態において、訓練段階Ｓ１１６で、ＬＰアルゴリズムが、ラベル化されるツイート１８を含む必要がない、ラベル化されていないノードのセットに対するラベルを生成するために、使用される。その後、ラベル化段階Ｓ１１４において、アルゴリズムが１回以上の反復の間、実施され、ラベル化されていないツイートに対するラベル確率を提供してよい。この実施形態において、訓練段階Ｓ１１６においてラベル化されていないノードに与えられるラベルは、訓練段階の終端で固定されてよく、すなわち、ラベル化段階Ｓ１１４に対するラベル化されたノードとして扱われる。

留意されるように、第２（グラフ）のラベル予測は、０であってよく、または、０に近似してよい。一部の実施形態において、ラベル伝搬の後、少なくとも閾値スコアを有する言語ラベルのみが保持され（および／または、トップｋスコアを伴う言語ラベルのみが保持され）、残りは無視される。

スコアの一体化
背景およびグラフモデルからのスコアは、式１で一体化されてよく、例えば、合計されてよい。１つの実施形態において、１つの言語のみが、すなわち、一体化されたスコアが最も高い言語に対応する言語が、ツイートごとに報告される。背景およびグラフモデルの両方が、確率分布ではないスコアを与えるので、マルチラベル設定において使用され得る。ツイートに対する複数のラベルを予測することで、一部の用途に対する性能が向上し得る。

言語識別のための例示的なハイブリッド方法は、背景モデル４０およびソーシャル背景を考慮するグラフモデル４２の両方を使用する。したがって、例示的な実施形態において、式１におけるλ_１およびλ_２は、どちらもゼロではない。一部の実施形態において、λ_１＝λ_２である一方で、他の実施形態において、等しくない適切なλ_１およびλ_２の値が適用される。１つの実施形態において、λ_１およびλ_２は、コレクション６４と類似して開発セットにおいて学習される。別の実施形態において、λパラメータの適応重み付けが、所与のツイート１８の接続性および／または予測された言語（複数可）に基づいて行われる。例えば、最近ソーシャルネットワークに加わったユーザは、多くのフォロワーを有していない可能性がある。そのような事例において、背景モデルは、多くのフォロワーを有するユーザに対する場合よりも大きい重みλ_１を与えられ、したがって、ソーシャルグラフ４４において上位に接続される。一部の実施形態において、グラフが非常に希薄である場合、背景モデルは、グラフモデルよりも大きい重みλ_１が与えられてよく、または、一部の事例において、λ_２が０に設定されてよい。

例示的な方法が、コンテンツベースおよびソーシャルネットワークベースのスコアを一体化することに関して記載される一方で、他の実施形態において、コンテンツベースのスコアは使用されず、すなわち、式１においてλ_１＝０と同等である。

一部の実施形態において、投稿１８の他の特徴は、言語を予測する際に使用され、統一資源位置指定子（ＵＲＬ）などのコンテンツに埋め込まれる情報と共に、例えば、地理的位置など、投稿のメタデータから生じる可能性がある。これらの特徴は、背景モデル予測に含まれてよい。

本方法の１つの用途の例として、Ａ〜Ｅと表示される、セットにおける５つの言語があると仮定する。背景モデルは、言語Ａ＝０．３、言語Ｂ＝０．５、および言語Ｃ＝０．２を予測し、全ての他の言語は０であり、グラフモデルは、言語Ａ＝０．２、言語Ｂ＝０．３、言語Ｃ＝０．４、および言語Ｄ＝０．１を予測し、全ての他の言語が０であると仮定する。その後、λ_１＝０．４およびλ_２＝０．６である場合、一体化されたスコアは以下である：
Ａ＝０．３×０．４＋０．２×０．６＝０．２４
Ｂ＝０．５×０．４＋０．３×０．６＝０．３８
Ｃ＝０．２×０．４＋０．４×０．６＝０．３２
Ｄ＝０．０×０．４＋０．１×０．６＝０．０６

システムにより出力される情報は、最高スコア（言語Ｂ）、トップｋ言語の各々に対する一体化されたスコア（ｋは少なくとも１または少なくとも２）、言語のうちの少なくとも一部の各々に対するランク（例えば、１＝Ｂ、２＝Ｃ、３＝Ａ、４＝Ｄ、５＝Ｅ）、またはそれらの組み合わせ、を伴う言語であってよい。

一部の実施形態において、予測された言語は、例えば、ツイートを正しい言語処理システムへ送ることにより、情報をツイートから抽出するために使用されてよい（Ｓ１２６）。言語処理システムは、識別された言語に対する構文解析ツールを含んでよい。処理システムは、エンティティ認識（例えば、２０１４年６月１２日に公開された、ＶａｓｓｉｌｉｎａＮｉｋｏｕｌｉｎａらによる、米国公開番号第２０１４／０１６３９５１号「ＨＹＢＲＩＤＡＤＡＰＴＡＴＩＯＮＯＦＮＡＭＥＤＥＮＴＩＴＹＲＥＣＯＧＮＩＴＩＯＮ（ネームドエンティティ認識のハイブリッド適応化）」を参照）、処理ハッシュタグ（例えば、２０１３年１０月２８日に出願された、ＣａｒｏｌｉｎｅＢｒｕｎらによる、出願番号第１４／０６４，３２７号「ＣＬＡＳＳＩＦＩＣＡＴＩＯＮＯＦＨＡＳＨＴＡＧＳＩＮＭＩＣＲＯ−ＢＬＯＧＳ（ミニブログにおけるハッシュタグの分類）」の方法を使用する）、意見マイニング（例えば、２０１４年１２月１１に公開された、ＧｒｅｇｏｒｉｏＣｏｎｖｅｒｔｉｎｏらによる、米国公開番号第２０１４０３６５２０７号「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＬＡＳＳＩＦＹＩＮＧＲＥＶＩＥＷＥＲＳ’ ＣＯＭＭＥＮＴＳＡＮＤＲＥＣＯＭＭＥＮＤＩＮＧＲＥＬＡＴＥＤＡＣＴＩＯＮＳＩＮＩＤＥＡ−ＧＥＮＥＲＡＴＩＮＧＳＯＣＩＡＬＭＥＤＩＡＰＬＡＴＦＯＲＭＳ（レビュアーのコメントを分類しソーシャルメディアプラットフォームのアイデア生成における関連アクションを推薦する方法およびシステム）」を参照）、推薦の提供（例えば、２０１３年８月２２日に公開された、ＡｎｎａＳｔａｖｒｉａｎｏｕらによる、米国公開番号第２０１３０２１８９１４号「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＰＲＯＶＩＤＩＮＧＲＥＣＯＭＭＥＮＤＡＴＩＯＮＳＢＡＳＥＤＯＮＩＮＦＯＲＭＡＴＩＯＮＥＸＴＲＡＣＴＥＤＦＲＯＭＲＥＶＩＥＷＥＲＳ’ ＣＯＭＭＥＮＴＳ（レビュアーのコメントから抽出される情報に基づく推薦を提供するシステムおよび方法）」を参照）、提案マイニング（２０１４年５月２７日に発行された、ＣａｒｏｌｉｎｅＢｒｕｎらによる、米国特許番号第８，７３８，３６３号「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＳＵＧＧＥＳＴＩＯＮＭＩＮＩＮＧ（提案マイニングのためのシステムおよび方法）」を参照）、機械翻訳などに、適用されてよい。

例示的な実施形態の範囲を限定することを意図せずに、以下の例は、ツイートに対する言語識別の方法の用途を図示する。

例
イベリア半島でツイートされた異なる言語のツイートのコレクションが、本方法の評価のために使用された（ｈｔｔｐ：／／ｋｏｍｕｎｉｔａｔｅａ．ｅｌｈｕｙａｒ．ｏｒｇ／ｔｗｅｅｔｌｉｄを参照）。コレクションは、訓練出力およびテストコーパスを含む。

表１は、これらのコーパスの言語分布を示す。

例えば、ツイートがコード切り替えを使用する場合、または、レビュアーが、ツイートが書かれている言語に確信がない場合、ツイートに１つより多い言語で注釈が付けられてよい。頻繁に使用される言語（ツイートの約６０％はスペイン語）のバイアスを補正するために、コーパスの形成体により提供される評価スクリプトが適用される。これにより、マクロ平均が計算され、多言語から成るツイートに対する部分的なヒットが考慮される。

評価のために、ツイートが前処理され、ＵＲＬが削除された。

上述された方法は、式１を使用して続く。ここで、背景（基準）方法に対してλ_１＝１、λ_２＝０、背景＋グラフ方法に対してλ_１＝λ_２である。単語をまたがない２〜５文字ｎグラムが、ラベル化された訓練セットを使用して分類器を生成するために使用された。その後、訓練された分類器が、テストセットにおけるツイートに対する背景確率を、それぞれ２〜５文字ｎグラム表現に基づいて計算するために、使用された。グラフ確率に対して、Ｔ−Ｔエッジは、ツイートの単語ユニグラム間のコンテンツ類似性に基づいて、重み付けされる；Ｔ−Ｕエッジは、全て１００の重みが与えられる；Ｕ−Ｕエッジは、１の重みを有する；Ｕ−Ｗエッジは、０．００１の重みを有する。グラフモデルは、訓練セットおよびテストセットの両方において訓練された。

両方の事例において、ｌｉｂｌｉｎｅａｒライブラリにより実施される（および、パイソンのｓｃｉｋｉｔパッケージを介して呼び出される）ように、ロジスティック回帰（最大エントロピー）モデル（ｌ_２規制化）が、使用された。背景モデルスコアに対して、各々の訓練された分類器（言語ごとに１つ）が起動され、ラベル予測が０．５の閾値より高い限り、ノードは割り当てられたラベルを受信した。

表２は、取得された結果を示す。不明瞭な（ａｍｂ）ツイートは、言語のセットのうちの任意の言語で書かれた可能性があるツイートである：任意の応答は、評価スクリプトにより、正しいと見なされる。不明の言語（ｕｎｄ）ツイートは、他の言語であるか、または、判定できなかった言語である。これらは、追加的なクラスとして扱われ得る。

表２における結果は、背景モデルのみを使用することが、言語のセット（例えば、英語およびバスク語）において明確に区別される言語に対して、より効率的であり得ることを意味している。より近い関係の言語に対して、ソーシャルグラフを追加することが、少数言語を類似する多数言語（カタロニア語−スペイン語、および、ガリシア語−ポルトガル語）と区別する助けになる。これは、社会的状況を含むことの利得が最も高いこれらの少数言語におけるものである。

概して、本方法は、ツイートＬＩＤ競合に対して同じデータにおいて評価される１２個の方法全体で向上をもたらす（２０１４年ＳＥＰＬＮでのツイッター言語識別ワークショップ）。ｈｔｔｐ：／／ｋｏｍｕｎｉｔａｔｅａ．ｅｌｈｕｙａｒ．ｏｒｇ／ｔｗｅｅｔｌｉｄ／ｐａｒｔｉｃｉｐａｔｉｏｎ／＃Ｒｅｓｕｌｔｓを参照されたい。ＬＰ段階の別の利点は、ユーザが、独立した対象の言語分布に割り当てられることである。

本結果は、投稿の言語を判定する際にユーザのソーシャルネットワークを含むことで、よく使用される類似の言語（スペイン語およびポルトガル語）と区別し難いリソースの低い言語（カタロニア語およびガリシア語）に大きく影響して、Ｆ_１測定の向上が達成されることを示す。

留意されるように、本結果は適正な基本設定で取得された。例えば、λ_１およびλ_２の適切な値を学習することにより、向上する可能性がある。

この例において、訓練セットにおけるツイートに注釈を付けたフォロワーのみが、考慮される。実際の例において、これらが予測され得る：これはエラーを取り込む可能性がある一方で、支援を大幅に増大させてヒストグラムを計算する。

追加的な簡易化として、各言語に対して、全てのツイートの合計が当該の言語で読める早期融合手法のみが、評価された。後期融合手法（重み付けされた投票）または各投票の信頼性を含むことさえも、より大きな向上を与える可能性がある。

Claims

エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することであって、前記ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、前記ユーザのうちの少なくとも一部はソーシャルネットワーク投稿の作者であり、および、前記ノードの一部は前記作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、前記ソーシャルネットワーク投稿ノードのうちの少なくとも１つはラベル化されておらず、前記グラフの前記エッジは各々の重みと関連付けられる、生成することと、
言語ラベルを、前記グラフを介してラベル伝搬を使用して前記各々の重みの関数として伝搬することを含む、前記少なくとも１つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルを予測することと、
前記ソーシャルネットワーク投稿の言語を、当該のソーシャルネットワーク投稿を表す前記ソーシャルネットワーク投稿ノードに対して生成される前記予測された言語ラベルに基づいて予測することと、
を備え、
前記ソーシャルネットワークグラフの前記生成すること、言語ラベルを伝播すること、および、前記ソーシャルネットワーク投稿の前記言語を予測すること、のうちの少なくとも１つは、プロセッサで行われる、
ソーシャルネットワーク投稿の言語予測のための方法。
前記ソーシャルネットワーク投稿ｔの前記予測された言語ｌａｎｇ（ｔ）は、

の関数であり、
θ_{ｂａｃｋｇｒｏｕｎｄ}は背景モデルのパラメータであり、θ_{ｇｒａｐｈ}は前記ソーシャルネットワークグラフから抽出されるグラフモデルの前記パラメータであり、λ_１およびλ_２は前記背景および前記グラフモデルの各々に対する重みである、請求項１に記載の方法。
前記方法は、前記ソーシャルネットワークグラフを、前記グラフにおけるノードにより表される前記ユーザのうちの１人のニュースフィードにおけるソーシャルメディア投稿に基づいて生成することを、さらに含み、ニュースフィードは前記ソーシャルメディア投稿を含む、請求項１に記載の方法。
前記ソーシャルネットワークグラフの前記生成することは、
ユーザを表すノードおよびソーシャルネットワーク投稿を表すノードを含む初期グラフを生成することであって、前記ノードはエッジにより接続され、前記初期グラフは前記ソーシャルメディア投稿を含まない、生成することと、
ラベルを、前記初期グラフを介してラベル伝搬を使用して伝搬して、前記初期グラフのラベル化されていないノードに対する言語ラベルを予測することと、
前記伝搬の後、前記ソーシャルネットワーク投稿を表す初期グラフへのノードをソーシャルネットワークグラフに追加することと、
を含む、請求項１に記載の方法。
請求項１の前記方法を行うための命令を保存するメモリと、前記命令を実行するために前記メモリと通信するプロセッサと、を備えるシステム。
コンピュータにより実行されると請求項１の前記方法を行う命令を保存する持続性メモリを備える、コンピュータプログラム製品。
エッジにより接続されるノードを含むソーシャルネットワークグラフを生成するグラフ生成コンポーネントであって、前記ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、前記ユーザのうちの少なくとも一部はソーシャルネットワーク投稿の作者であり、前記ノードの一部は前記作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、前記ソーシャルネットワーク投稿ノードのうちの少なくとも１つはラベル化されておらず、前記グラフの前記エッジは各々の重みと関連付けられる、グラフ生成コンポーネントと、
前記少なくとも１つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルを、言語ラベルを、前記グラフを介して前記重みの関数として伝搬することにより予測するグラフ予測コンポーネントと、
特徴を、前記ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出する背景特徴抽出コンポーネントと、
前記ソーシャルネットワーク投稿に対する言語ラベルを前記抽出された特徴に基づいて予測する背景予測コンポーネントと、
前記ソーシャルネットワーク投稿の言語を、当該のソーシャルネットワーク投稿を表す前記ソーシャルネットワーク投稿ノードに対して予測された前記言語ラベルの関数として、前記グラフ予測コンポーネントおよび背景予測コンポーネントにより予測するための一体化コンポーネントと、
前記グラフ生成コンポーネント、グラフ予測コンポーネント、背景特徴抽出コンポーネント、背景予測コンポーネント、および一体化コンポーネントを実装するプロセッサと、
を備える、ソーシャルネットワーク投稿の言語予測のためのシステム。
前記背景予測コンポーネントは、ラベル化されたソーシャルメディア投稿から抽出された特徴において学習される言語のセットの各々のための分類器を含む、請求項７に記載のシステム。
前記特徴は文字ｎグラムを含む、請求項７に記載のシステム。
エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することであって、前記ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、前記ユーザのうちの少なくとも一部はソーシャルネットワーク投稿の作者であり、前記ノードの一部は前記作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、前記ソーシャルネットワーク投稿ノードのうちの少なくとも１つはラベル化されておらず、前記グラフの前記エッジは各々の重みと関連付けられる、生成することと、
特徴を、前記ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出することと、
第１の言語ラベルを、前記ラベル化されていないソーシャルネットワーク投稿に対する言語ラベルのセットから、前記抽出された特徴に基づいて予測することと、
第２の言語ラベルを、言語ラベルを、前記グラフを介して前記重みの関数として伝搬することを備える、前記少なくとも１つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルの前記セットから予測することと、
前記予測された第１および第２の言語ラベルを一体化することと、
前記ラベル化されていないソーシャルメディア投稿に対する言語を前記一体化に基づいて出力することと、
を備え、
ソーシャルネットワークグラフを前記生成すること、特徴を抽出すること、第１および第２の言語ラベルを予測すること、一体化すること、および出力すること、のうちの少なくとも１つは、プロセッサにより行われる、
ソーシャルネットワーク投稿の言語予測のための方法。