JP6749110B2 - ソーシャルメディアにおける言語識別 - Google Patents

ソーシャルメディアにおける言語識別 Download PDF

Info

Publication number
JP6749110B2
JP6749110B2 JP2016044486A JP2016044486A JP6749110B2 JP 6749110 B2 JP6749110 B2 JP 6749110B2 JP 2016044486 A JP2016044486 A JP 2016044486A JP 2016044486 A JP2016044486 A JP 2016044486A JP 6749110 B2 JP6749110 B2 JP 6749110B2
Authority
JP
Japan
Prior art keywords
social network
graph
language
nodes
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016044486A
Other languages
English (en)
Other versions
JP2016181252A (ja
Inventor
マティアス・ガレ
ウィリアム・ラドフォード
Original Assignee
コンデュエント ビジネス サービシーズ エルエルシー
コンデュエント ビジネス サービシーズ エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コンデュエント ビジネス サービシーズ エルエルシー, コンデュエント ビジネス サービシーズ エルエルシー filed Critical コンデュエント ビジネス サービシーズ エルエルシー
Publication of JP2016181252A publication Critical patent/JP2016181252A/ja
Application granted granted Critical
Publication of JP6749110B2 publication Critical patent/JP6749110B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

例示的な実施形態は、言語識別のためのシステムおよび方法に関し、ソーシャルメディアを背景として特定の用途を見出す。
ソーシャルメディア投稿のテキストコンテンツは、企業が自社の製品およびサービスに関する顧客の意見を理解するのを助け、企業は顧客ケアを向上させると共に、製品およびサービスを改良することができる。意見マイニング技術は、意見または感情を、特定のテキストコメントに割り当てるために使用されている。一般的に、使用され得る言語に制限はないので、そのような文書を分析する第1の段階は、文書の言語を識別することである。
書かれた文書の言語を識別する方法は、翻訳や情報検索などを含む多くの用途において使用される。一般的に、既存の方法の精度は相当に高く、一部の事例において100%に近似し得る。Paul McNameeによる「Language identification: A solved problem suitable for undergraduate instruction(言語識別:学部教育に適した解決済みの問題)」(J. Comput. Sci. Coll., 20(3):94−101(2005));および、Thomas Gottronらによる「A comparison of language identification approaches on short, query−style texts(短い問い合わせ形式テキストにおける言語識別手法の比較)」(Adv. in information retrieval, pp.611−614(2010))を、参照されたい。しかしながら、ソーシャルメディア文書などの一部の背景において、精度は大幅に低くなり得る。ソーシャルメディアテキストは、従来の構造化および編集された文書と比較して、体系化および形式化という点で非常に劣っている手法で書かれることが多い。そのようなテキストは、スラング、略語、コード切り替え(1つの会話の文脈において、2つ以上の言語または言語多様性が交錯)を包含することが多く、かつ、極端に短い可能性がある。使用可能な言語のリストが制限されている場合でさえ、そのようなテキストに対しては、最大で約70〜80%の言語予測精度しかないのが、より典型的である。
従来の言語識別方法は、文書を各言語の識別情報と、例えば、バッグオブnグラム(文字または単語レベル)または機能言語を使用して、比較することを含むことが多い。ツイッターにおける言語識別は、Erik Trompらによる「Graph−based n−gram language identification on short texts(短いテキストにおけるグラフベースのnグラム言語識別)」(Proc. 20th Machine Learning Conf. of Belgium and The Netherlands,pp.27−34(2011))に記載されるように、グラフにおける文字3グラム(言語ごとに1つのグラフ)を接続し、このグラフにおけるツイートのパスを見出すことにより、追加的な連続情報で向上された文字または単語nグラムの基準を使用して、試みられている。John Vogelらによる「Robust language identification in short, noisy texts: Improvements to LIGA(短い乱雑なテキストにおける頑健な言語識別:LIGAの改良)」(3rd Int‘l Workshop on Mining Ubiquitous and Social Environments,p.43(2012))に記載されるように、いくつかの改良が良好な前処理により達成され得る。
ソーシャルメディアコンテンツは、一般的に、メタデータと関連付けられる。例えば、ツイッターにより、ユーザは、追加的な信号として含まれ得る、ユーザが拠点とする地理的位置を識別できる。Moises Goldszmidtらによる「Boot−strapping language identifiers for short colloquial postings(短い口語体の投稿のためのブートストラップ言語識別)」(Proc. European Conf. on Machine Learning and Principles and Practice of Knowledge Discovery in Databases(2013))を、参照されたい。しかしながら、自己報告の地理的位置は、ツイッターユーザ全体のうちの低い割合のユーザのみにより使用されているのに加え、不十分な予測因子であることが分かっている。Mark Grahamらによる「Where in the world are you? Geolocation and language identification in Twitter(あなたは世界のどこにいる?ツイッターにおける地理的位置および言語識別)」(The Professional Geographer(2014));Gregory Grefenstetteによる「Comparing two language identification schemes(2つの言語識別構想の比較)」(3rd Int’l Conf. on Statistical Analysis of Textual Data(JADT 1995),pp.263−268(1995))(以降、「Grefenstette 1995」);および、Simon Carterらによる「Microblog language identification: Overcoming the limitations of short, unedited and idiomatic text(ミニブログの言語識別:短い編集されていない慣用的なテキストの制限の克服)」(Lang. Resour. Eval.,47(1):195−215(March 2013))(以降、「Carter 2013」)を、参照されたい。
ソーシャルメディア投稿における言語識別を向上させるために検討されてきた他の特徴は、ユーザ名、さらに接頭辞、ホスト名およびトップレベルのドメイン名を抽出するためのURLのスクリプトおよび特別なトークナイザに関する二値特徴、作者の事前に推測された言語(作者の言語ヒストグラム)、投稿で言及されたユーザの言語ヒストグラム、および、議論の前後関係(返信先はメタデータとして保存される)、文字レベルにおける最大反復などを含む。さらに、重み付けメカニズムが、2つ以上の既存のツールを組み合わせるために提案されている。Carter 2013;Shane Bergsmaらによる「Language identification for creating language−specific Twitter collections(言語特有のツイッターコレクションを作成するための言語識別)」(Proc. 2nd Workshop on Language in Social Media,LSM ’12,pp.65−74(2012))(以降、「Bergsma 2012」);Shumeet Balujaらによる「Video Suggestion and Discovery for Youtube: Taking Random Walks Through the View Graph(ユーチューブの映像提案および発見:ビューグラフのランダムな手引き)」(Proc. 17th Int’l Conf. on World Wide Web(WWW ’08),pp.895−904(2008))(以降、「Baluja 2008」)を、参照されたい。しかしながら、調査は、ミニブログ投稿での言語および国のメタデータフィールドが、言語識別には不十分な信号を、真の基本的な言語分布を大幅に過大または過小に見積もる言語フィールドで作成する傾向があること、および、地理的位置フィールドが、一般的に、言語識別に関して信頼するには、わずかしか使用されていないことを、示唆している。
ソーシャルメディアテキストに対する言語識別の精度を向上させるシステムおよび方法の必要性が、いまだに存在している。
例示的な実施形態の1つの態様によると、ソーシャルネットワーク投稿の言語予測のための方法は、エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することを含む。グラフのノードの一部は、ソーシャルネットワークのユーザを表すユーザノードである。ユーザの一部は、ソーシャルネットワーク投稿の作者である。それ以外のノードは、作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードである。ソーシャルネットワーク投稿ノードのうちの少なくとも1つは、ラベル化されていない。グラフのエッジは、各々の重みと関連付けられる。言語ラベルは、ラベル化されていないソーシャルネットワーク投稿ノードのうちの少なくとも1つに対して、予測される。これは、言語ラベルを、グラフを介してラベル化されていないノードへ、ラベル伝搬を使用して各々のエッジの重みの関数として伝搬することを含む。ソーシャルネットワーク投稿の言語は、ソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードに対して生成された予測言語ラベルに基づいて、予測される。
ソーシャルネットワークグラフの生成、言語ラベルを伝搬すること、および、ソーシャルネットワーク投稿の言語を予測すること、のうちの少なくとも1つは、プロセッサで行われてよい。
例示的な実施形態の別の態様によると、ソーシャルネットワーク投稿の言語予測のためのシステムは、ソーシャルネットワークグラフを生成するグラフ生成コンポーネントを含む。グラフは、エッジにより接続されるノードを含む。ノードの一部は、ソーシャルネットワークのユーザを表すユーザノードである。ユーザの一部は、ソーシャルネットワーク投稿の作者である。それ以外のノードは、作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードである。ソーシャルネットワーク投稿ノードのうちの少なくとも1つは、ラベル化されていない。グラフのエッジは、各々の重みと関連付けられる。グラフ予測コンポーネントは、少なくとも1つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルを、グラフを介して言語ラベルをエッジの重みの関数として伝搬することにより予測する。背景特徴抽出コンポーネントは、特徴を、ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出する。背景予測コンポーネントは、ソーシャルネットワーク投稿に対する言語ラベルを、抽出された特徴に基づいて予測する。一体化コンポーネントは、ソーシャルネットワーク投稿の言語を、グラフ予測コンポーネントおよび背景予測コンポーネントにより、当該のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードに対して予測された言語ラベルの関数として、予測する。プロセッサは、グラフ生成コンポーネント、グラフ予測コンポーネント、背景特徴抽出コンポーネント、背景予測コンポーネント、および、一体化コンポーネントを実装する。
例示的な実施形態の別の態様によると、ソーシャルネットワーク投稿の言語予測のための方法は、エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することを含み、ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、ユーザの少なくとも一部はソーシャルネットワーク投稿の作者であり、ノードの一部は作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、グラフのエッジは各々の重みと関連付けられ、ソーシャルネットワーク投稿ノードのうちの少なくとも1つはラベル化されていない。特徴は、ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出される。言語ラベルのセットにおける1つ以上の言語ラベルは、ラベル化されていないソーシャルネットワーク投稿に対して、抽出された特徴に基づいて予測される。言語ラベルのセットにおける1つ以上の言語ラベルは、ラベル化されていないソーシャルネットワーク投稿ノードに対して、グラフを介して言語ラベルをエッジの重みの関数として伝搬することにより予測される。予測された言語ラベルは一体化され、ラベル化されていないソーシャルメディア投稿に対する言語は一体化に基づいて出力される。
ソーシャルネットワークグラフを生成すること、特徴を抽出すること、第1および第2の言語ラベルを予測すること、一体化すること、および、出力すること、のうちの少なくとも1つは、プロセッサで行われる。
図1は、例示的な実施形態の1つの態様による、言語識別のためのシステムの機能ブロック図である。 図2は、例示的な実施形態の別の態様による、言語識別のための方法のフローチャートである。 図3は、ラベル化されていないソーシャルネットワーク投稿のラベルを、ラベル伝搬を介して予測するための、ソーシャルネットワーク投稿ノードおよびユーザノードを含むグラフを図示する。
例示的な実施形態の態様は、言語識別のためのシステムおよび方法に関する。例示的なシステムおよび方法において、ソーシャルメディア投稿と関連付けられる非公式の言語の欠点は、少なくとも部分的に、ソーシャルメディア投稿と関連付けられる情報の他のソースを使用することにより克服される。
本明細書に開示される例示的な実施形態において、ツイートなどのソーシャルネットワーク投稿の言語は、テキストコンテンツに基づいて、さらに、過去に作者により「読まれた」ツイートの言語に基づいて、予測される。作者が実際に読んだツイートは不明であるため、作者がニュースフィードにおいて受信するツイートは、ツイート読み込みの代わりに使用される。ツイッターなどのソーシャルネットワークの登録ユーザは、他の登録ユーザのツイートに同意してよく、それにより、他のユーザの「フォロワー」として知られるようになり、それ以降、それらの他のユーザのツイートがユーザのニュースフィードに現れるようになる。次に、ユーザは、ツイートを自身のフォロワーへ投稿または報告(リツイート)し得る。フォローする側および/または他方によりフォローされる側の2人のユーザは、本明細書において「フォロー」関係にあると称される。ツイートの「作者」は、ツイート(リツイートを含む)を投稿する登録ユーザである。
図1を参照すると、言語識別システム10は、図2を参照して詳細に記載される方法を行うための命令14を保存するメモリ12、および、命令14を実行するためにメモリと通信する処理デバイス(または、「プロセッサ」)16を含む。
システムは、入力として、テキストコンテンツ20および関連情報22を含むソーシャルメディア投稿18を、例えば、メタデータの形式で受信する。そのような投稿は、一般的に、テキストコンテンツの最大文字数に、例えば140字などの制限があるため、ソーシャルメディア投稿18はミニブログと称されてよい。テキストコンテンツ20は、一般的に、英語またはフランス語(または、コードシフトが使用される場合、言語の組み合わせ)などの自然言語の単語を含むが、表示される投稿のコンテンツは、さらに、グラフィカルな感情、画像などを含んでもよい。投稿18は、サービスの登録ユーザがツイートと呼ばれることが多い短い投稿18を広めることができる、ツイッターなどのミニブログサービスに、もともと投稿されたと推測され得る。そのような投稿18のセットは、投稿を分析して組織の製品および/またはサービスに関する意見などの情報を抽出したいと望む企業または他の組織により、収集されている可能性がある。そのような情報をテキストコンテンツ20から抽出するために、自然言語またはテキストコンテンツ20の主たる言語(複数可)を予測することが有利である。
関連情報22は、例えば、地理的位置、タイムスタンプ、および、作者のソーシャルネットワークを含んでよい。例えば、各ツイートは、最大文字数が140字に制限されているが、それに加えて、ツイートに対する独自の数値ID、および、受け取るリプライ、お気に入り、およびリツイートの全てに対するIDを含む、150メタデータポイントを包含する。さらに、タイムスタンプ、位置スタンプ、言語、アカウントが作成された日付、作者のURL、ウェブサイトが参照された場合、フォロワーの数などを含むが、これらのソースのうちの一部は重複している。例示的な実施形態において、作者が過去に読んだ(すなわち、受信した)ツイート(受信ツイート)と関連付けられる情報の少なくとも一部は、ツイートを特定の言語で書く可能性にバイアスをかけるために使用されてよい。例えば、作者により過去に「読まれた」異なる言語のツイートの数は、(例えば早期融合を使用する)統計的な分類器への特徴入力として利用されてよく、または、言語を予測した後にコンテンツベースの予測と後期融合手法で組み合わせるために別個に使用されてよい。
システム10は、予測された言語、または、それらに基づく情報など、投稿18に対する言語ベースの情報24を出力する。
システム10は、図示されたサーバコンピュータ26など、1つ以上のコンピュータデバイスによりホストされてよい。サーバコンピュータは、1つ以上のクライアントデバイス28などの外部デバイスと、例えば、インターネットなどの有線および/または無線ネットワークなど、リンク30を介して通信してよい。
システム10は、クライアント計算デバイスなどの外部デバイスと通信するための1つ以上の入力/出力デバイス32,34を含む。システムのハードウェアコンポーネント12,16,32,34は、データ/制御バス36により通信可能に接続される。
言語識別のための例示的なハイブリッドシステムおよび方法は、投稿18の言語を、背景モデル40およびグラフモデル42の関数として予測する。背景モデルは、ツイート18自体のみのコンテンツ(テキストコンテンツ20および/またはメタデータ22)に基づいており、一方でグラフモデル42は、社会的背景(他のツイートおよびユーザ)を考慮に入れる。これらのモデルは、所与のツイート18の言語を識別するために組み合わされる。例えば、言語lang(t)は、考慮される言語lに対して背景モデル40により出力された背景予測p(l|t,θbackground)、および、グラフモデル42により出力されたグラフ予測p(l|t,θgraph)の集合(例えば、重み付けされた合計)の最大値を、考慮される言語全体に与えるものとして、例えば式1に示されるように、ツイートtに対して予測される:
ここで、θbackgroundは、考慮される各言語に対して学習される識別情報(例えば、nグラムの確率)など、背景モデル40のパラメータである。
θgraphは、ソーシャルネットワークグラフ44から抽出された、グラフモデル42のパラメータであり、例示的な実施形態において、ラベル伝搬を介してラベルが学習されるノードを含む。
λおよびλは、それぞれ背景およびグラフモデル40,42に対する重みである。
図示された命令14は、背景特徴抽出コンポーネント50、背景予測コンポーネント52、グラフ生成コンポーネント54、グラフ予測コンポーネント56、一体化コンポーネント58、情報出力コンポーネント60、および、選択的に学習コンポーネント62を含む。背景特徴抽出コンポーネント50は、背景特徴を、投稿18のテキストコンテンツおよび/またはメタデータから抽出する。背景予測コンポーネント52は、言語のセットの各々に対して、ツイートに対する第1(背景ベース)の言語ラベル予測(スコア)を計算する。これらの予測は、抽出された背景特徴および背景モデル40のパラメータに基づく。グラフ生成コンポーネント54は、投稿18の言語を予測するためのグラフ44を生成する。グラフは、ニュースフィードなど、ツイート18の作者により受信されたツイートのコレクション64から抽出される情報に基づいてよい。グラフ予測コンポーネント56は、言語のセットの各々に対して、ラベル化されていないツイート18に対する第2(グラフベース)の言語ラベル予測(スコア)を、グラフ44に基づいて計算する。一体化コンポーネント58は、セットにおける言語の各々(または、少なくとも一部)に対して、全体のスコアを生成する。全体のスコアは、背景スコアおよびグラフスコアの関数として生成される。一体化コンポーネント58は、最高スコア(複数可)を与える言語(複数可)を識別する。出力コンポーネント60は、識別された言語(複数可)に基づく情報を出力する。学習コンポーネント62は、例えば、コンテンツベースの分類器のセットなど、背景スコアを予測するための背景モデル40を学習する。分類器学習は、スーパーバイズされた手法において、各々が手動でそれぞれの言語でラベル化された、投稿のセット66を使用して行われてよい。分類器のパラメータが学習されると、学習コンポーネント62はシステムから省略され得る。
言語のスコア化により、作者のソーシャルネットワークが統合され、ソーシャルメディア投稿18の言語識別が向上する。システムおよび方法は、例えば、カタロニア語で投稿するユーザと良好に接続されたユーザは、当該の言語で投稿する確率が高いと推測する。例示的な実施形態において、コンテンツベースの分類器40の言語予測スコアは、ソーシャルネットワークをグラフ44としてモデル化する方法のスコアと組み合わされる。ネットワークにおける他の作者の言語が常に既知であるとは限らないので、ラベル伝搬(LP)のグラフベースの半スーパーバイズ手法が適用され、グラフ44の全域における少数のラベル化されたインスタンスから、事前にラベル化されていないインスタンスへラベルを伝搬する。結果は、既存の方法全体で有用な向上を示す。
コンピュータシステム10は、デスクトップなどのPC、ラップトップ、パームトップコンピュータ、携帯デジタル補助装置(PDA)、サーバコンピュータ、セルラー電話、タブレットコンピュータ、ポケットベル、それらの組み合わせ、または、例示的な方法を行うための命令を実行可能な他の計算デバイスなど、1つ以上の計算デバイス26を含んでよい。
メモリ12は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、磁気ディスクまたはテープ、光ディスク、フラッシュメモリ、または、ホログラムメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。1つの実施形態において、メモリ12は、ランダムアクセスメモリと読み取り専用メモリとの組み合わせを備える。一部の実施形態において、プロセッサ16およびメモリ12は、単一チップに統合されてよい。メモリ12は、処理されたデータ40,42,44と共に、例示的な方法を行うための命令を保存する。
ネットワークインタフェース32,34により、コンピュータは、他のデバイスと、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)などのコンピュータネットワーク、または、インターネットを介して、通信することができる。ネットワークインタフェース32,34は、変調器/復調器(モデム)、ルータ、ケーブル、および/または、イーサネット(登録商標)ポートを備えてよい。
デジタルプロセッサデバイス16は、単一コアプロセッサ、デュアルコアプロセッサ(または、より一般的には、多重コアプロセッサ)、デジタルプロセッサおよび協働する数値演算コプロセッサ、デジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ16は、命令14を実行することに加えて、さらに、コンピュータ26の動作を制御してよい。
本明細書において使用される「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意のコレクションまたはセットを網羅し、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成することを意図する。本明細書において使用される「ソフトウェア」という用語は、RAM、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を包含することを意図し、さらに、ROMなどに保存されるソフトウェアである、いわゆる「ファームウェア」を網羅することを意図する。そのようなソフトウェアは様々な手法で体系化され、ライブラリ、遠隔サーバなどに保存されるインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接的に実行可能なコードなどとして体系化されたソフトウェアコンポーネントを含んでよい。ソフトウェアは、システムレベルのコードまたはコールを、サーバまたは他の位置に常駐する他のソフトウェアへ呼び出し、特定の機能を行ってよいことが予期される。
留意されるように、図1は、コンピュータシステム10内へ統合されるコンポーネントの一部分のみのハイレベルな機能ブロック図である。プログラマブルコンピュータの構成および動作は既知であるため、詳細には記載されない。
ここで図2を参照すると、図1のシステムで行われ得る、作者により投稿されたツイート18の言語を識別するための方法が示されている。本方法は、S100で開始される。
S102で、選択的に、背景モデル40(例えば、考慮される各言語に対する分類モデル)のパラメータは、学習コンポーネント62を使用して学習される。
S104で、背景モデルパラメータが保存される。
S106で、作者のニュースフィードにおけるツイートのセット64へのアクセスが提供される。
S108で、言語が予測される、作者によるツイート18が識別され、一時的にメモリに保存されてよい。
S110で、背景モデル予測が行われる。具体的には、背景特徴は、ツイート18から背景特徴抽出コンポーネント50により抽出される。その後、ツイートの言語(複数可)の背景予測が、背景予測コンポーネント52により、抽出された背景特徴に基づいて、訓練された背景モデル40を使用して計算される。
S112で、ソーシャルネットワークグラフ44が、コンポーネント54により構築される。グラフは、ツイート18、および、その作者を、グラフのノードとして、他のユーザおよび他のユーザのツイートに対するノードと共に含む。重みが、ノードを接続するグラフのエッジへ割り当てられる。
S114で、ラベル伝搬がグラフ44上で、コンポーネント56により、例えば、MADアルゴリズムを使用して行われる。アルゴリズムの各反復で、言語ラベルが、隣接するラベル化されていないノードへ、ノードを接続する各々のエッジの重みに比例して伝搬される。
1つの実施形態において、S114より訓練フェーズS116が先行する。その場合、初期グラフ68のラベル化されていないノードに対するラベル(ソーシャルネットワークグラフ44と類似しているが、ツイート18を伴わない)は、ラベル伝搬により予測され(すなわち、ステップS114と同じ手法)、ノードラベル予測が保存される(S118)。その後、ラベル化されていないツイート18が初期グラフに追加され、ソーシャルネットワークグラフ44を生成して(S112)、アルゴリズムが戻る(S114)。
S120で、グラフモデル42(すなわち、グラフ44におけるラベル伝搬)および背景モデル40により生成される、ツイート18に対して予測されたラベル(複数可)(スコア)が、保存される。これは、各々の事例において、言語の一部または全部に対する最高スコア(複数可)を伴う言語であり得る。
S122で、ツイートに対する各言語の背景スコアおよびグラフスコアが、例えば、式1を使用して一体化される。最高スコアを有する言語が識別される。
S124で、投稿18に対して最も可能性の高い言語、または、言語の一部または全部に対する予測など、情報が一体化に基づいて出力される。
一部の実施形態において、S126で、プロセスが、ソーシャルメディア投稿18の予測された言語に基づいて実施されてよい。例えば、ツイートのテキストが意見ごとに取り出されてよく、または、例えば、特定された言語(複数可)に対して開発された構文解析技術を使用して、他の情報が抽出されてよい。
本方法はS128で終了する。
図2に図示される方法は、コンピュータ上で実行されてよいコンピュータプログラム製品において実装されてよい。コンピュータプログラム製品は、ディスク、ハードドライブなど、制御プログラムが記録(保存)される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の共通形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気保存媒体、CD−ROM、DVD、または任意の他の光媒体、RAM、PROM、EPROM、FLASH−EPROM、または他のメモリチップまたはカートリッジ、または、コンピュータが読み込みまたは使用し得る任意の他の持続性媒体を含む。コンピュータプログラム製品は、コンピュータ26に統合されてよく(例えば、RAMの内部ハードドライブ)、または、分離されていてよく(例えば、コンピュータ26と動作可能に接続される外部ハードドライブ)、または、分離されていて、ローカルエリアネットワーク(LAN)などのデジタルデータネットワークまたはインターネットを介してアクセスされてよい(例えば、安価な独立したディスクの冗長アレイ(RAID)、または、コンピュータ26によりデジタルネットワークを介して間接的にアクセスされる他のネットワークサーバストレージとして)。
代替的に、本方法は、制御プログラムがデータ信号として、電波および赤外線通信中に生成される音波または光波などの伝送媒体を使用して具現化される、伝送可能な搬送波などの一時媒体において、実装されてよい。
例示的な方法は、1つ以上の汎用コンピュータ、専用コンピュータ(複数可)、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺集積回路素子、ASICまたは他の集積回路、デジタル信号プロセッサ、個別素子回路などのハードワイヤードの電子または論理回路、PLD、PLA、FPGA、グラフィカルカードCPU(GPU)、またはPALなどのプログラマブル論理デバイスなどにおいて、実装されてよい。一般的に、有限状態機器を実装可能な、すなわち、図2に示されるフローチャートを実装可能な、任意のデバイスが、ラベル化方法を実装するために使用され得る。留意されるように、本方法のステップが全てコンピュータ実装であってよい一方で、一部の実施形態において、1つ以上のステップは、少なくとも部分的に手動で行われてよい。留意されるように、本方法のステップは、図示される順番で進む必要はなく、より少ない、より多い、または異なるステップが、含まれてよい。
ここで、システムおよび方法の詳細が提供される。
1.背景モデル
背景モデル40を生成するために(S102)、手動でラベル化された投稿のセット66におけるツイートのコンテンツが、学習コンポーネント62により使用され、マルチクラス分類器または考慮される各言語に対する分類器を学習し得る。
任意の適切な学習方法が、ロジスティック回帰、線形回帰、様々なカーネルの選択を伴うサポートベクターマシン(SVM)、圧縮ベースの分類器(例えば、Bergsma2012およびBrian O.Bushによる「Language identification of tweets using LZW compression(LZW圧縮を使用するツイートの言語識別)」(Pacific Northwest Regional NLP Workshop(2014))を参照)などの背景モデル分類器(複数可)を学習するために、使用され得る。例えば、言語のセットの各々に対して、一対全l正規化ロジスティック回帰(すなわち、最大エントロピー)分類器が、学習される。
分類器(複数可)は、セット66における投稿のテキスト20から抽出されるnグラム特徴で学習される。nグラムは、10個まで、または5個までのシンボルなど、n個のシンボルの配列であり、ここで、シンボルは、例えば、単語または文字であり、nは、例えば、少なくとも2であり得る。1つの実施形態において、nグラムは、単語の境界全体に及ばない文字2〜5グラムである(すなわち、各nグラムは、単一の単語のみから抽出される)。文字nグラムは、投稿のテキストの長さが短いため、さらに、単語が短縮されることが多いため、単語nグラムより適切である傾向がある。例として、各言語に対して、例えば、米国特許第6,167,369号に記載されるように、当該の言語のソースから抽出される最も顕著な文字nグラムを含む識別情報が生成される。例えば、ソースはウィキペディアであり得る。英語で、顕著な3グラム文字nグラムは、典型的には英語で、まれに他の言語で使用される、the、she、whaなどの文字の配列を含んでよい。識別情報は多数の文字nグラムを含んでよく、選択された言語における所与のツイートに対して、nグラムの少なくとも一部は、テキストコンテンツにおいて見られる可能性がある。良好な言語予測性能を与えるnグラムの適切なセットを識別するために、実験が行われてよい。
その後、ツイート18の特徴ベース表現が生成され得る。各特徴は、ツイートに現れるnグラムの各々の発生数または単に有無に基づく。簡素化された例において、識別情報は、nグラムの(限定された)セットday、her、him、old、ord、the、cold、free、here、rece、what、todayを含むと仮定する。その後、コンテンツを伴うツイートを考える:
Record cold here today! #2015freeze
表現(1,1,0,1,1,0,1,1,1,0,0,1)が生成され得る。ここで、各要素は、リストにおける各々のnグラムの有(1)または無(0)を示す。もちろん、実際には、表現は、より多くの特徴を包含し、非常に希薄な傾向がある。
各言語に対して、分類器モデル40は、セット66におけるツイートの特徴表現および言語ラベル(例えば、考慮中の言語lに対して1、および、「他」の言語に対して0)において学習される。これは、例えば、scikit−learnにより実装される、CおよびCythonを使用して覆われるliblinearを使用して、実装され得る(http://scikit−learn.org/stable/modules/svm.html#svmを参照)。
その後、訓練された分類器でスコア化されるツイート18を考えると、表現が抽出され、各々の訓練された背景分類器を使用して各言語に対するスコアが計算される。その後、各ツイートに対する最終的なスコアは、確率分布を取得するために全てのクラス全体で正規化され得る。
留意されるように、第1(背景)のラベル予測の一部は0であってよく、または、0に近似してよい。一部の実施形態において、少なくとも閾値スコアを有する言語ラベルのみが保持され(および/または、トップkスコアを伴う言語ラベルのみが保持され)、残りの言語は無視される。
背景モデルスコアを割り当てるための他の方法が、例えば、米国特許第6,167,369号に記載されている。
2.グラフベースのモデル
例示的な方法において、ソーシャルネットワークグラフ44は、ソーシャルメディアの背景、互いに関連するツイート、ツイートに対する作者および他の作者をモデル化するために使用される。エッジは、ノード間で作成される。
図3に示される小さい例示的なグラフに図示されるように、例えば、グラフベースのモデル42を生成するために、受信された投稿のコレクション64が、無向グラフ44を生成するために使用される。コレクションにおける各ツイート18は、例えば、テキストコンテンツ20において、および/または、そのメタデータ22において、その作者を特定する。グラフは、各々が単一のツイートのみを表す、ソーシャルメディア投稿ノードまたは「ツイートノード」(T1,T2,T3,T4,他)70,72,74,76,他を含むノードのセットを、最初に含む。さらに、グラフは、各々の作者ノードが単一の作者のみを表す、ユーザ(例えば、作者)ノード(U1,U2,U3,他)80,82,84,他を含む。ツイートノード70のうちの1つは、ラベル化されるツイート18に対応する。作者ノード80のうちの1つは、当該のツイートの作者U1に対応する。他のユーザノード(複数可)82,84は、ニュースフィードにおけるツイート72,74,76の作者U2,U3に対応してよい。ワールドノード(W)86は、1つの実施形態において、グラフの接続性を維持する。ノードは、各々がそれぞれの重みと関連付けられるエッジ90,92,94,他により接続される。
最初に、テキストノード72,74の一部が、初期分布で言語ラベル(例えば、スペイン語(es),カタロニア語(ca))全体でラベル化され、一方で他のノード70,76はラベル化されない。1つの実施形態において、ラベル化されたツイートの少なくとも一部は、手動でラベル化されていてよい。別の実施形態において、ラベル化されたツイートの少なくとも一部に対して、ツイートの作者は、ツイートのメタデータから検索される言語を規定していてよい。別の実施形態において、ラベル化されたツイートの少なくとも一部は、先のグラフ68を生成する際に事前にラベル化されていてよい。別の実施形態において、背景予測は、予測が非常に高い確実性を有する場合、ツイートのサブセットに対するラベルとして使用されてよい。確実性の閾値は、ラベル化されていないノードの20%未満または10%未満など、少ない割合のみが、この手法で割り当てられたラベルであるように設定されてよい。したがって、ラベル化されていないノードの過半数は、背景方法によるものと共に、ラベル伝搬(S114)に基づいて割り当てられたラベルである。ラベル化方法の組み合わせは、初期ラベルを生成するために適用されてよい。
ラベル伝搬(S114)は、ラベルをグラフの至る所で、エッジの重みの関数として伝搬するために使用される。ラベル伝搬手法は、本明細書における本事例のように、ドメインが無向グラフを使用して自然に記載され得る、半スーパーバイズの問題に対する有益な技術であることを、証明している。Xiaojin Zhuらによる「Learning from labeled and unlabeled data with label propagation(ラベル伝搬によるラベル化および未ラベル化データからの学習)」(Technical report,CMU−CALD−02−107,Carnegie Mellon University,pp.1−17(2002))を、参照されたい。グラフ周囲の1つの確立質量を伝搬する(その後、ランクを生成するために使用される)よりも、グラフ44のノードは複数のラベル全体に分布をもたらす。各反復で、ノードは、隣接する分布の各々の組み合わせを使用して、隣接するノードとの間のエッジの重みに比例して、その分布を更新する。アルゴリズムが収束すると、事前にラベル化されていないノードは、ラベル分布を有する。修飾吸着(MAD)は、グラフを介する無作為な実地検証の制御が、例えば、高度なノード(多数のエッジを有するノード)を介するラベル質量の伝搬を疎んじることにより可能となる、標準的なラベル伝搬方法の修正である。この手法は、例えば、Talukdarらによる「New Regularized Algorithms for Transductive Learning(変換学習のための新しい規定アルゴリズム)」(Proc. European Conf. on Machine Learning and Knowledge Discovery in Databases: Part II in ECML PKDD ’09,pp.442−457(2009))(以降、「Talukdar 2009」)に、記載されている。さらに、LPおよびMAD手法の用途は、Baluja 2008、Speriosuらによる「Twitter Polarity Classification with Label propagation over Lexical Links and the Follower Graph(語彙的結束およびフォロワーグラフ全体でのラベル伝搬を伴うツイッター極性分類)」(Proc. 1st Workshop on Unsupervised Learning in NLP,pp.53−63(2011))、Chenらによる「Semi−supervised Relation Extraction with Label Propagation(ラベル伝搬での半スーパーバイズされた関係抽出)」(Proc. Human Lang. Technol. Conf. of the NAACL,Companion Volume:Short Papers,pp.25−28(2006))、および、Talukdarらによる「Experiments in Graph−Based Semi−supervised Learning Methods for Class−Instance Acquisition(クラスインスタンス取得のためのグラフベースの半スーパーバイズ学習方法における実験)」(Proc. 48th Annual Meeting of the Ass’n for Computational Linguistics,pp.1473−1481(2010))に、記載されている。ラベルをグラフ全体で伝搬または滑らかにする能力は、スーパーバイズされるデータが限定される事例において有益であることが証明されている。
MADは、反復してトークンまたは文章に注釈を付けた後、ラベルをラベル化されていないインスタンスへ伝搬する期限付き品詞情報付与に使用されている。Dan Garretteらによる「Learning a Part−of−Speech Tagger from Two Hours of Annotation(2時間の情報付与による品詞タグ付け学習)」(Proc. 2013 Conf. of the North American Chapter of the Ass’n for Computational Linguistics: Human Language Technologies,pp.138−147(2013))を、参照されたい。
エッジは、接続するノードの種類に基づいて、異なる重みと一致する。例えば、エッジは、以下のように重みと一致する。
T−Tエッジ(2つのツイートを接続するエッジ)は、例えば、ツイートの単語ユニグラム間のコサイン類似性で重み付けされたコンテンツ類似性に基づいて、重み付けされる。したがって、T−Tエッジは、(ツイートが同一でない限り)0より大きく1より小さい値を有する。文字nグラム(例えば、背景モデルに対して抽出される)に基づいた類似性など、他の類似性測定が、代替的に適用され得る。
ツイートと作者との間のT−Uエッジは、例えば、100の最大重みが全てに与えられる。
「フォロー」関係にある2人のユーザのU−Uエッジは、1などの同じ中間重み(T−Uより小さいが、U−WおよびT−Tより大きい)で全てが一致する。エッジは無向であり、その場合、エッジにより接続される2人のユーザのうちの片方(または、両方)は、「フォロワー」であり得る。フォローの相関関係の情報は、例えば、ツイッターのAPIから検索され得る。
ユーザノードとワールドノードとの間のU−Wエッジは、例えば、0.001などの同じ低い重み(T−UおよびU−Uより小さく、一般的にT−Tより小さい)が全てに与えられ、グラフの接続を確実なものとする。
留意されるように、エッジT−U、U−U、およびU−Wに対する重みは、ラベル化された訓練セットを使用して最適化されることができ、したがって、例示的な重みと異なり得る。より広範には、グラフのエッジは、これらの種類のうちの少なくとも2つに対して異なって重み付けされる。
グラフは、可能な限り多くの利用可能データを使用して構築され、利用可能な場合、ノードは言語ラベル全体での分布を包含する。一部の実施形態において、訓練データセット66からのツイートは、グラフに含まれることができ、手動で適用されたラベルで、ツイートが1つより多い言語でラベル化されたラベル全体での均一の分布を使用して、ラベル化され得る。グラフのツイート対ツイートコンポーネントを構築するための1つの手法は、o(n)比較を伴って、各ツイートと全ての他のツイートとの類似性を測定する。計算量を削減するために、各々がバグオブワードユニグラムとして表されるツイートのセット全体におけるk最近傍分類が、行われ得る。その後、各ツイートとトップk近傍のみとの間の類似性比較が、例えば、コサイン類似性または他の類似性測定を使用して計算される。kは、例えば、ツイートの総数の約25%であってよく、それにより、可能な限り多くの実リンクを捕捉し、一方で徹底した比較を回避する。
ツイッターは、非対称の「友達」関係を使用して、友達(「自分がフォローするアカウント」)とフォロワー(自分をフォローするアカウント)とを区別する。例示的な実施形態において、フォロワーと友達は「フォロー」関係にあると見なされるが、フォロワーが追加的な言語を話す可能性がある際、いくつかのエラーを導く場合がある。別の実施形態において、所与の作者の友達により作成されたツイートの言語のみが、グラフを生成する際に考慮される。
さらに、グラフにおけるツイートにおいて言及されている登録ユーザへのエッジに対する特定の重みを含むことが、有用である可能性がある。例えば、図3に図示されるグラフにおいて、ツイートT2がテキストにおいてユーザU3に言及する場合、言及の重み(例えば、0.2)を伴って破線により示される「言及」エッジ96は、T2とU3との間で作成されてよい。
例えば、Talukdar 2009のMADアルゴリズムを使用するラベル伝搬(S114)は、ラベルを、ラベル化されたノードからラベル化されていないノードへ、反復の手法で伝搬する。ラベル化されていないユーザノードおよびラベル化されていないツイートノードの両方は、ラベル伝搬段階でラベルを受信するが、ユーザノードラベルは、その後に使用されない。アルゴリズムは、全てのラベル化されていないノードを、第2のラベル予測を生成するのと同じ目的で扱う。各反復で、フルパスがグラフ44全体で作成される。例えば、無作為に選択されたノードで始まり、ノードからノードへ、ノードを接続するエッジを介して、全てのノードが確認されるまで連続して通過する。グラフにおいて横断される、各々の初期にラベル化されていないノード70,76,80,82,84,86に対して、ラベルは、単一エッジにより直接的に接続されるノードのラベルおよびエッジの重みに基づいて、計算される。
例示的な実施形態において、各ノードは2つの属性を有する:label_distributionおよびtemp_label_distributionである。各反復で、本方法は、以下のように進んでよい:
a.各ノードを訪問:temp_label_distributionを、ノードの近傍のlabel_distributionのエッジ重み付けされた組み合わせに更新
b.各ノードを訪問:ノードのlabel_distributionを、temp_label_distributionの値に設定し、temp_label_distributionをクリア
例えば、第1の反復において、選択された第1のノードはT2であってよい。それは最初にラベル化されたノードであるので、その言語予測は決して更新されない。その後、グラフを介するパスがノードT1へ進むと仮定する。ラベル化されていないノードT1は、ラベル化されたノードT2のlabel_distributionから生じるラベルesおよびcaに対する確率を含むtemp_label_distributionを、類似して生じる、それらを接続するエッジ92の重み0.4に比例して、受信してよい。すなわち、es=0.5×0.4=0.2およびca=0.5×0.4=0.2である。その後、確率は正規化され、1へと合計する。すなわち、この事例において、es=0.5およびca=0.5のtemp_label_distributionを与え、その後、第1のパスの終端でT1のlabel_distributionになる。この反復において、T1が接続される他のノード(ノードU1)のみがラベル化されず、したがって、T1のラベルはこの反復においてノードU2に影響されない。その後、第1のパスがノードU1へ進むと仮定する。周囲のノードT1、U2、およびWは、まだlabel_distributionを有していないため、第1のパスにおいて予測は受信されない。後続の反復がU1からT1へ進むと仮定する。その後、U1に対する更新されたlabel_distribution予測が、T1に対する予測を、T2からエッジ92を介して生じる予測と同様に、エッジ90の重みと比例して、更新するために使用される。
各々の最初にラベル化されていないノードに対して、中間近傍のラベルのみが、ノードのラベルを更新する際に考慮される。収束下で、事前にラベル化されていないノードのラベル分布が識別され、投稿18に対するθgraphの値、すなわち、1つ以上の言語全体でのラベル分布p(l|t,θgraph)を見出す。各ラベル全体での分布は、確率分布を取得するために正規化され得る。一部の実施形態において、反復の終端で、ノードは、閾値確率を超える言語のみに対するスコアでラベル化されてよい。
例示的な方法において、アルゴリズムの少ない反復のみが、収束を達成するために必要である(すなわち、ラベル化されていないノードのラベル分布に対する変化がほとんどないか、または、全くない)。例えば、1〜5回の反復が使用されてよい。
留意されるように、図3に示されるグラフ44は簡略化されたグラフであり、実際には、少なくとも20、または少なくとも50、または少なくとも100、または少なくとも1000個のノードなど、多くのノードを含んでよい。追加的に、グラフは、同じ作者(および/または、異なる作者)の多くのラベル化されていないツイートに対するラベルスコアを予測するために、使用され得る。さらに、図3が一部のツイートに対する初期のラベルを含むのみである一方で、他のユーザノードのうちの1つ以上が、同じ手法で最初にラベル化されてよいことが予期される。
1つの実施形態において、例えばS116で初期グラフ68が生成され、1つ以上の反復が行われると、1つ以上のラベル化された/ラベル化されていないツイートノード18、および/または、1つ以上のラベル化された/ラベル化されていないユーザノードなど、1つ以上の追加的なノードが、S112でグラフに追加されてよい。その後、S114で、LPアルゴリズムが、1つ以上の反復の間、実施され、追加的なラベル化されていないノード(複数可)に対するラベル確率p(l|t,θgraph)を生成し得る。この実施形態において、訓練段階S116で、LPアルゴリズムが、ラベル化されるツイート18を含む必要がない、ラベル化されていないノードのセットに対するラベルを生成するために、使用される。その後、ラベル化段階S114において、アルゴリズムが1回以上の反復の間、実施され、ラベル化されていないツイートに対するラベル確率を提供してよい。この実施形態において、訓練段階S116においてラベル化されていないノードに与えられるラベルは、訓練段階の終端で固定されてよく、すなわち、ラベル化段階S114に対するラベル化されたノードとして扱われる。
留意されるように、第2(グラフ)のラベル予測は、0であってよく、または、0に近似してよい。一部の実施形態において、ラベル伝搬の後、少なくとも閾値スコアを有する言語ラベルのみが保持され(および/または、トップkスコアを伴う言語ラベルのみが保持され)、残りは無視される。
スコアの一体化
背景およびグラフモデルからのスコアは、式1で一体化されてよく、例えば、合計されてよい。1つの実施形態において、1つの言語のみが、すなわち、一体化されたスコアが最も高い言語に対応する言語が、ツイートごとに報告される。背景およびグラフモデルの両方が、確率分布ではないスコアを与えるので、マルチラベル設定において使用され得る。ツイートに対する複数のラベルを予測することで、一部の用途に対する性能が向上し得る。
言語識別のための例示的なハイブリッド方法は、背景モデル40およびソーシャル背景を考慮するグラフモデル42の両方を使用する。したがって、例示的な実施形態において、式1におけるλおよびλは、どちらもゼロではない。一部の実施形態において、λ=λである一方で、他の実施形態において、等しくない適切なλおよびλの値が適用される。1つの実施形態において、λおよびλは、コレクション64と類似して開発セットにおいて学習される。別の実施形態において、λパラメータの適応重み付けが、所与のツイート18の接続性および/または予測された言語(複数可)に基づいて行われる。例えば、最近ソーシャルネットワークに加わったユーザは、多くのフォロワーを有していない可能性がある。そのような事例において、背景モデルは、多くのフォロワーを有するユーザに対する場合よりも大きい重みλを与えられ、したがって、ソーシャルグラフ44において上位に接続される。一部の実施形態において、グラフが非常に希薄である場合、背景モデルは、グラフモデルよりも大きい重みλが与えられてよく、または、一部の事例において、λが0に設定されてよい。
例示的な方法が、コンテンツベースおよびソーシャルネットワークベースのスコアを一体化することに関して記載される一方で、他の実施形態において、コンテンツベースのスコアは使用されず、すなわち、式1においてλ=0と同等である。
一部の実施形態において、投稿18の他の特徴は、言語を予測する際に使用され、統一資源位置指定子(URL)などのコンテンツに埋め込まれる情報と共に、例えば、地理的位置など、投稿のメタデータから生じる可能性がある。これらの特徴は、背景モデル予測に含まれてよい。
本方法の1つの用途の例として、A〜Eと表示される、セットにおける5つの言語があると仮定する。背景モデルは、言語A=0.3、言語B=0.5、および言語C=0.2を予測し、全ての他の言語は0であり、グラフモデルは、言語A=0.2、言語B=0.3、言語C=0.4、および言語D=0.1を予測し、全ての他の言語が0であると仮定する。その後、λ=0.4およびλ=0.6である場合、一体化されたスコアは以下である:
A=0.3×0.4+0.2×0.6=0.24
B=0.5×0.4+0.3×0.6=0.38
C=0.2×0.4+0.4×0.6=0.32
D=0.0×0.4+0.1×0.6=0.06
システムにより出力される情報は、最高スコア(言語B)、トップk言語の各々に対する一体化されたスコア(kは少なくとも1または少なくとも2)、言語のうちの少なくとも一部の各々に対するランク(例えば、1=B、2=C、3=A、4=D、5=E)、またはそれらの組み合わせ、を伴う言語であってよい。
一部の実施形態において、予測された言語は、例えば、ツイートを正しい言語処理システムへ送ることにより、情報をツイートから抽出するために使用されてよい(S126)。言語処理システムは、識別された言語に対する構文解析ツールを含んでよい。処理システムは、エンティティ認識(例えば、2014年6月12日に公開された、Vassilina Nikoulinaらによる、米国公開番号第2014/0163951号「HYBRID ADAPTATION OF NAMED ENTITY RECOGNITION(ネームドエンティティ認識のハイブリッド適応化)」を参照)、処理ハッシュタグ(例えば、2013年10月28日に出願された、Caroline Brunらによる、出願番号第14/064,327号「CLASSIFICATION OF HASHTAGS IN MICRO−BLOGS(ミニブログにおけるハッシュタグの分類)」の方法を使用する)、意見マイニング(例えば、2014年12月11に公開された、Gregorio Convertinoらによる、米国公開番号第20140365207号「METHOD AND SYSTEM FOR CLASSIFYING REVIEWERS’ COMMENTS AND RECOMMENDING RELATED ACTIONS IN IDEA−GENERATING SOCIAL MEDIA PLATFORMS(レビュアーのコメントを分類しソーシャルメディアプラットフォームのアイデア生成における関連アクションを推薦する方法およびシステム)」を参照)、推薦の提供(例えば、2013年8月22日に公開された、Anna Stavrianouらによる、米国公開番号第20130218914号「SYSTEM AND METHOD FOR PROVIDING RECOMMENDATIONS BASED ON INFORMATION EXTRACTED FROM REVIEWERS’ COMMENTS(レビュアーのコメントから抽出される情報に基づく推薦を提供するシステムおよび方法)」を参照)、提案マイニング(2014年5月27日に発行された、Caroline Brunらによる、米国特許番号第8,738,363号「SYSTEM AND METHOD FOR SUGGESTION MINING(提案マイニングのためのシステムおよび方法)」を参照)、機械翻訳などに、適用されてよい。
例示的な実施形態の範囲を限定することを意図せずに、以下の例は、ツイートに対する言語識別の方法の用途を図示する。

イベリア半島でツイートされた異なる言語のツイートのコレクションが、本方法の評価のために使用された(http://komunitatea.elhuyar.org/tweetlidを参照)。コレクションは、訓練出力およびテストコーパスを含む。
表1は、これらのコーパスの言語分布を示す。
例えば、ツイートがコード切り替えを使用する場合、または、レビュアーが、ツイートが書かれている言語に確信がない場合、ツイートに1つより多い言語で注釈が付けられてよい。頻繁に使用される言語(ツイートの約60%はスペイン語)のバイアスを補正するために、コーパスの形成体により提供される評価スクリプトが適用される。これにより、マクロ平均が計算され、多言語から成るツイートに対する部分的なヒットが考慮される。
評価のために、ツイートが前処理され、URLが削除された。
上述された方法は、式1を使用して続く。ここで、背景(基準)方法に対してλ=1、λ=0、背景+グラフ方法に対してλ=λである。単語をまたがない2〜5文字nグラムが、ラベル化された訓練セットを使用して分類器を生成するために使用された。その後、訓練された分類器が、テストセットにおけるツイートに対する背景確率を、それぞれ2〜5文字nグラム表現に基づいて計算するために、使用された。グラフ確率に対して、T−Tエッジは、ツイートの単語ユニグラム間のコンテンツ類似性に基づいて、重み付けされる;T−Uエッジは、全て100の重みが与えられる;U−Uエッジは、1の重みを有する;U−Wエッジは、0.001の重みを有する。グラフモデルは、訓練セットおよびテストセットの両方において訓練された。
両方の事例において、liblinearライブラリにより実施される(および、パイソンのscikitパッケージを介して呼び出される)ように、ロジスティック回帰(最大エントロピー)モデル(l規制化)が、使用された。背景モデルスコアに対して、各々の訓練された分類器(言語ごとに1つ)が起動され、ラベル予測が0.5の閾値より高い限り、ノードは割り当てられたラベルを受信した。
表2は、取得された結果を示す。不明瞭な(amb)ツイートは、言語のセットのうちの任意の言語で書かれた可能性があるツイートである:任意の応答は、評価スクリプトにより、正しいと見なされる。不明の言語(und)ツイートは、他の言語であるか、または、判定できなかった言語である。これらは、追加的なクラスとして扱われ得る。
表2における結果は、背景モデルのみを使用することが、言語のセット(例えば、英語およびバスク語)において明確に区別される言語に対して、より効率的であり得ることを意味している。より近い関係の言語に対して、ソーシャルグラフを追加することが、少数言語を類似する多数言語(カタロニア語−スペイン語、および、ガリシア語−ポルトガル語)と区別する助けになる。これは、社会的状況を含むことの利得が最も高いこれらの少数言語におけるものである。
概して、本方法は、ツイートLID競合に対して同じデータにおいて評価される12個の方法全体で向上をもたらす(2014年SEPLNでのツイッター言語識別ワークショップ)。http://komunitatea.elhuyar.org/tweetlid/participation/#Resultsを参照されたい。LP段階の別の利点は、ユーザが、独立した対象の言語分布に割り当てられることである。
本結果は、投稿の言語を判定する際にユーザのソーシャルネットワークを含むことで、よく使用される類似の言語(スペイン語およびポルトガル語)と区別し難いリソースの低い言語(カタロニア語およびガリシア語)に大きく影響して、F測定の向上が達成されることを示す。
留意されるように、本結果は適正な基本設定で取得された。例えば、λおよびλの適切な値を学習することにより、向上する可能性がある。
この例において、訓練セットにおけるツイートに注釈を付けたフォロワーのみが、考慮される。実際の例において、これらが予測され得る:これはエラーを取り込む可能性がある一方で、支援を大幅に増大させてヒストグラムを計算する。
追加的な簡易化として、各言語に対して、全てのツイートの合計が当該の言語で読める早期融合手法のみが、評価された。後期融合手法(重み付けされた投票)または各投票の信頼性を含むことさえも、より大きな向上を与える可能性がある。

Claims (9)

  1. エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することであって、前記ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、前記ユーザのうちの少なくとも一部はソーシャルネットワーク投稿の作者であり、および、前記ノードの一部は前記作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、前記ソーシャルネットワーク投稿ノードのうちの少なくとも1つはラベル化されておらず、前記グラフの前記エッジは各々の重みと関連付けられる、生成することと、
    言語ラベルを、前記グラフを介してラベル伝搬を使用して前記各々の重みの関数として伝搬することを含む、前記少なくとも1つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルを予測することと、
    前記ソーシャルネットワーク投稿の言語を、当該のソーシャルネットワーク投稿を表す前記ソーシャルネットワーク投稿ノードに対して生成される前記予測された言語ラベルに基づいて予測することと、
    を備え、
    前記ソーシャルネットワークグラフの前記生成すること、言語ラベルを伝播すること、および、前記ソーシャルネットワーク投稿の前記言語を予測すること、のうちの少なくとも1つは、プロセッサで行われる、
    ソーシャルネットワーク投稿の言語予測のための方法。
  2. 前記ソーシャルネットワーク投稿tの前記予測された言語lang(t)は、

    の関数であり、
    θbackgroundは背景モデルのパラメータであり、θgraphは前記ソーシャルネットワークグラフから抽出されるグラフモデルの前記パラメータであり、λおよびλは前記背景および前記グラフモデルの各々に対する重みである、請求項1に記載の方法。
  3. 前記方法は、前記ソーシャルネットワークグラフを、前記グラフにおけるノードにより表される前記ユーザのうちの1人のニュースフィードにおけるソーシャルメディア投稿に基づいて生成することを、さらに含み、ニュースフィードは前記ソーシャルメディア投稿を含む、請求項1に記載の方法。
  4. 前記ソーシャルネットワークグラフの前記生成することは、
    ユーザを表すノードおよびソーシャルネットワーク投稿を表すノードを含む初期グラフを生成することであって、前記ノードはエッジにより接続され、前記初期グラフはソーシャルメディア投稿を含まない、生成することと、
    ラベルを、前記初期グラフを介してラベル伝搬を使用して伝搬して、前記初期グラフのラベル化されていないノードに対する言語ラベルを予測することと、
    前記伝搬の後、前記ソーシャルネットワーク投稿を表す初期グラフへのノードをソーシャルネットワークグラフに追加することと、
    を含む、請求項1に記載の方法。
  5. 請求項1の前記方法を行うための命令を保存するメモリと、前記命令を実行するために前記メモリと通信するプロセッサと、を備えるシステム。
  6. エッジにより接続されるノードを含むソーシャルネットワークグラフを生成するグラフ生成コンポーネントであって、前記ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、前記ユーザのうちの少なくとも一部はソーシャルネットワーク投稿の作者であり、前記ノードの一部は前記作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、前記ソーシャルネットワーク投稿ノードのうちの少なくとも1つはラベル化されておらず、前記グラフの前記エッジは各々の重みと関連付けられる、グラフ生成コンポーネントと、
    前記少なくとも1つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルを、言語ラベルを、前記グラフを介して前記重みの関数として伝搬することにより予測するグラフ予測コンポーネントと、
    特徴を、前記ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出する背景特徴抽出コンポーネントと、
    前記ソーシャルネットワーク投稿に対する言語ラベルを前記抽出された特徴に基づいて予測する背景予測コンポーネントと、
    前記ソーシャルネットワーク投稿の言語を、当該のソーシャルネットワーク投稿を表す前記ソーシャルネットワーク投稿ノードに対して予測された前記言語ラベルの関数として、前記グラフ予測コンポーネントおよび背景予測コンポーネントにより予測するための一体化コンポーネントと、
    前記グラフ生成コンポーネント、グラフ予測コンポーネント、背景特徴抽出コンポーネント、背景予測コンポーネント、および一体化コンポーネントを実装するプロセッサと、
    を備える、ソーシャルネットワーク投稿の言語予測のためのシステム。
  7. 前記背景予測コンポーネントは、ラベル化されたソーシャルメディア投稿から抽出された特徴において学習される言語のセットの各々のための分類器を含む、請求項に記載のシステム。
  8. 前記特徴は文字nグラムを含む、請求項に記載のシステム。
  9. エッジにより接続されるノードを含むソーシャルネットワークグラフを生成することであって、前記ノードの一部はソーシャルネットワークのユーザを表すユーザノードであり、前記ユーザのうちの少なくとも一部はソーシャルネットワーク投稿の作者であり、前記ノードの一部は前記作者のソーシャルネットワーク投稿を表すソーシャルネットワーク投稿ノードであり、前記ソーシャルネットワーク投稿ノードのうちの少なくとも1つはラベル化されておらず、前記グラフの前記エッジは各々の重みと関連付けられる、生成することと、
    特徴を、前記ラベル化されていないソーシャルネットワーク投稿のテキストコンテンツに基づいて抽出することと、
    第1の言語ラベルを、前記ラベル化されていないソーシャルネットワーク投稿に対する言語ラベルのセットから、前記抽出された特徴に基づいて予測することと、
    第2の言語ラベルを、言語ラベルを、前記グラフを介して前記重みの関数として伝搬することを備える、前記少なくとも1つのラベル化されていないソーシャルネットワーク投稿ノードに対する言語ラベルの前記セットから予測することと、
    前記予測された第1および第2の言語ラベルを一体化することと、
    前記ラベル化されていないソーシャルメディア投稿に対する言語を前記一体化に基づいて出力することと、
    を備え、
    ソーシャルネットワークグラフを前記生成すること、特徴を抽出すること、第1および第2の言語ラベルを予測すること、一体化すること、および出力すること、のうちの少なくとも1つは、プロセッサにより行われる、
    ソーシャルネットワーク投稿の言語予測のための方法。
JP2016044486A 2015-03-24 2016-03-08 ソーシャルメディアにおける言語識別 Expired - Fee Related JP6749110B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/666,767 US9645995B2 (en) 2015-03-24 2015-03-24 Language identification on social media
US14/666,767 2015-03-24

Publications (2)

Publication Number Publication Date
JP2016181252A JP2016181252A (ja) 2016-10-13
JP6749110B2 true JP6749110B2 (ja) 2020-09-02

Family

ID=55524190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016044486A Expired - Fee Related JP6749110B2 (ja) 2015-03-24 2016-03-08 ソーシャルメディアにおける言語識別

Country Status (3)

Country Link
US (1) US9645995B2 (ja)
EP (1) EP3073433A1 (ja)
JP (1) JP6749110B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10298535B2 (en) * 2015-05-19 2019-05-21 Facebook, Inc. Civic issues platforms on online social networks
US20170116557A1 (en) * 2015-10-21 2017-04-27 Tata Consultancy Services Limited System and method for performing root cause analysis on unstructured data
US11210467B1 (en) 2017-04-13 2021-12-28 Snap Inc. Machine learned language modeling and identification
CN107807919A (zh) * 2017-11-15 2018-03-16 浙江大学 一种利用循环随机游走网络进行微博情感分类预测的方法
US10423727B1 (en) * 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法
US11868385B2 (en) * 2018-04-17 2024-01-09 Primer Technologies, Inc. Classification and comparison of event related
US10860648B1 (en) * 2018-09-12 2020-12-08 Amazon Technologies, Inc. Audio locale mismatch detection
US10796090B2 (en) * 2018-09-21 2020-10-06 Sap France Quick language detection with language neutral functionality
CA3120977A1 (en) * 2018-11-19 2020-05-28 Genesys Telecummications Laboratories, Inc. Method and system for sentiment analysis
US10789430B2 (en) 2018-11-19 2020-09-29 Genesys Telecommunications Laboratories, Inc. Method and system for sentiment analysis
JP2020140452A (ja) 2019-02-28 2020-09-03 富士通株式会社 ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置
CN110147911B (zh) * 2019-05-28 2022-09-09 吉林大学 一种基于内容感知的社交影响力预测模型及预测方法
CN111078820B (zh) * 2019-11-26 2023-04-25 复旦大学 基于权重符号社交网络嵌入的边权预测方法
JP2022050248A (ja) * 2020-09-17 2022-03-30 トヨタ自動車株式会社 情報処理装置、情報処理方法、及び、システム
CN116011433A (zh) 2021-10-22 2023-04-25 伊姆西Ip控股有限责任公司 应用测试的方法、设备和计算机程序产品
CN113988012B (zh) * 2021-10-25 2024-05-21 天津大学 融合社交上下文与多粒度关系的无监督社交媒体摘要方法
CN114615090B (zh) * 2022-05-10 2022-08-23 富算科技(上海)有限公司 基于跨域标签传播的数据处理方法及系统、设备及介质
CN115033804B (zh) * 2022-06-06 2024-02-27 西北工业大学 一种基于随机生长的社交网络关键转发者检测方法
JP7368899B1 (ja) * 2023-02-24 2023-10-25 株式会社mov 情報処理システム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062143A (en) 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US7369985B2 (en) 2003-02-11 2008-05-06 Fuji Xerox Co., Ltd. System and method for dynamically determining the attitude of an author of a natural language document
JP2009521029A (ja) * 2005-12-22 2009-05-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 非構造的データから多言語電子コンテンツを自動的に生成する方法およびシステム
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
US8086557B2 (en) 2008-04-22 2011-12-27 Xerox Corporation Method and system for retrieving statements of information sources and associating a factuality assessment to the statements
US9189472B2 (en) * 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US20120035905A1 (en) 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US20120124060A1 (en) * 2010-11-11 2012-05-17 Semantinet Ltd. Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
US8532981B2 (en) 2011-03-21 2013-09-10 Xerox Corporation Corpus-based system and method for acquiring polar adjectives
US8538742B2 (en) * 2011-05-20 2013-09-17 Google Inc. Feed translation for a social network
US8788259B1 (en) * 2011-06-30 2014-07-22 Google Inc. Rules-based language detection
US10096033B2 (en) * 2011-09-15 2018-10-09 Stephan HEATH System and method for providing educational related social/geo/promo link promotional data sets for end user display of interactive ad links, promotions and sale of products, goods, and/or services integrated with 3D spatial geomapping, company and local information for selected worldwide locations and social networking
US8738363B2 (en) 2011-10-13 2014-05-27 Xerox Corporation System and method for suggestion mining
US20130218914A1 (en) 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
US20130275429A1 (en) * 2012-04-12 2013-10-17 Graham York System and method for enabling contextual recommendations and collaboration within content
JP5791565B2 (ja) * 2012-05-18 2015-10-07 日本電信電話株式会社 ユーザ属性推定装置、ユーザ属性推定方法、及びプログラム
US20140067370A1 (en) 2012-08-31 2014-03-06 Xerox Corporation Learning opinion-related patterns for contextual and domain-dependent opinion detection
US20140163951A1 (en) 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition
US20140337425A1 (en) * 2013-05-13 2014-11-13 Google Inc. Modifying a social graph based on language preference
US20140365206A1 (en) 2013-06-06 2014-12-11 Xerox Corporation Method and system for idea spotting in idea-generating social media platforms
US10296927B2 (en) * 2013-12-20 2019-05-21 Iqvia Inc. System and method for projecting product movement
US9635125B2 (en) * 2014-01-28 2017-04-25 International Business Machines Corporation Role-relative social networking

Also Published As

Publication number Publication date
US20160283462A1 (en) 2016-09-29
US9645995B2 (en) 2017-05-09
EP3073433A1 (en) 2016-09-28
JP2016181252A (ja) 2016-10-13

Similar Documents

Publication Publication Date Title
JP6749110B2 (ja) ソーシャルメディアにおける言語識別
Singh Natural language processing for information extraction
US20130060769A1 (en) System and method for identifying social media interactions
US20130159277A1 (en) Target based indexing of micro-blog content
Safder et al. Sentiment analysis for Urdu online reviews using deep learning models
Harrag et al. Arabic fake news detection: A fact checking based deep learning approach
EP2994846A1 (en) Hybrid human machine learning system and method
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
Xu Data-driven approaches for paraphrasing across language variations
Saxena et al. Recent developments in sentiment analysis on social networks: techniques, datasets, and open issues
Chou et al. Boosted web named entity recognition via tri-training
Itani Sentiment analysis and resources for informal Arabic text on social media
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
Vargas et al. Simple unsupervised similarity-based aspect extraction
US11615245B2 (en) Article topic alignment
Muneer et al. Developing a large benchmark corpus for urdu semantic word similarity
Alashri et al. Lexi-augmenter: Lexicon-based model for tweets sentiment analysis
Ho Huong et al. A computational linguistic approach for gender prediction based on vietnamese names
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
Wang et al. Recognizing sentiment of relations between entities in text
Mezahem Sentiment Analysis for Arabic Social media Movie Reviews Using Deep Learning
Elias Twitter Observatory: Developing Tools to Recover and Classify Information for the Social Network Twitter
Killeen Twitter Sentiment Analysis using Fuzzy Integral Classifier Fusion
Mutlu Targeted sentiment analysis on Turkish texts
ATTAPORN A Study on Detecting Domain-Specific Senses and its Application to Text Categorization

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160324

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160609

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200811

R150 Certificate of patent or registration of utility model

Ref document number: 6749110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees