JP2017004260A

JP2017004260A - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP2017004260A
Application number: JP2015117686A
Authority: JP
Inventors: 孝太坪内; Kota Tsubouchi; 奈翁美笹谷; Naomi Sasaya; 藤田　澄男; Sumio Fujita; 澄男藤田; 山下　達雄; Tatsuo Yamashita; 達雄山下
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2015-06-10
Filing date: 2015-06-10
Publication date: 2017-01-05
Anticipated expiration: 2035-06-10
Also published as: JP6680472B2

Abstract

【課題】コンテンツに対する柔軟な情報処理を実現すること。
【解決手段】本願に係る情報処理装置は、取得部と、判定部と、実行部とを有する。取得部は、異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する。判定部は、取得部によって取得された使用態様の統計情報に基づいて、異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する。実行部は、判定部によって判定された結果に基づいて、コンテンツに関する所定の情報処理を実行する。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

情報処理分野において、所定のコンテンツを解析することにより、コンテンツの同一性を判定する場合がある。例えば、文字列（単語等）の意味をデータベース化し、同義の文字列については同じものとして処理を行う場合がある。具体的には、検索サイトにおいて、入力された検索クエリが異なる表記であっても、クエリの持つ意味が同じであれば同じ検索結果を返す、といった処理を行うことで、ユーザの利便性に資することができる。

このような情報処理に関する技術として、文字列同士の比較処理において、文字列の意味内容を考慮して両文字列の比較を行うことができる技術が知られている（例えば、特許文献１）。また、類似表記の対象セットをクエリとして検索を行い、検索結果から根拠情報を抽出して根拠情報同士の比較により対象の同一性（名寄せ判定）を行うことができる技術が知られている（例えば、特許文献２）。また、ログ情報を用いて、ユーザの入力意図を反映した標準表記を抽出する技術や（例えば、特許文献３）、クエリ同士の類似度を算出し、算出結果（類似度）に基づいて類似クエリを抽出する技術が知られている（例えば、特許文献４）。さらに、閲覧文書から類似するキーワードを集約し、提示する技術が知られている（例えば、特許文献５）。

特開２０１２−０７３９５１号公報特開２０１０−２３１２５３号公報特開２０１１−１９２２２２号公報特開２０１１−２０９９９９号公報特開２０１１−２１５９５０号公報

しかしながら、上記の従来技術では、コンテンツに対する柔軟な情報処理を実現することは困難である。具体的には、上記の従来技術では、同義の文字列を名寄せすることで、異表記される同義の文字列を標準的な表記や同一の表記の文字列として取り扱うに過ぎない。すなわち、従来では、複数存在する同義の文字列の中から特定の文字列を選択したユーザの意図や、特定の文字列を選択する要因となったユーザの属性などを反映した処理を行うことが困難であった。また、上記課題は、文字列のみならず、例えば、共通概念を有し、かつ、異なる態様で表されるコンテンツ（例えば、画像データや音声データ）についても共通する。

本願は、上記に鑑みてなされたものであって、コンテンツに対する柔軟な情報処理を実現することができる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

本願に係る情報処理装置は、異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得部と、前記取得部によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定部と、前記判定部によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行部と、を備えたことを特徴とする。

実施形態の一態様によれば、コンテンツに対する柔軟な情報処理を実現することができるという効果を奏する。

図１は、第１の実施形態に係る判定処理の一例を示す図である。図２は、第１の実施形態に係る判定装置の構成例を示す図である。図３は、第１の実施形態に係るテキストデータ記憶部の一例を示す図である。図４は、第１の実施形態に係る学習情報記憶部の一例を示す図である。図５は、第１の実施形態に係る判定装置による判定処理手順を示すフローチャートである。図６は、第２の実施形態に係る判定処理の一例を示す図である。図７は、第２の実施形態に係る判定装置の構成例を示す図である。図８は、第２の実施形態に係る統計情報記憶部の一例を示す図である。図９は、第２の実施形態に係るユーザ情報記憶部の一例を示す図である。図１０は、第２の実施形態に係る特定表記記憶部の一例を示す図である。図１１は、第２の実施形態に係る判定装置による判定処理手順を示すフローチャートである。図１２は、第３の実施形態に係る判定処理の一例を示す図である。図１３は、第３の実施形態に係る判定装置の構成例を示す図である。図１４は、第３の実施形態に係る統計情報記憶部の一例を示す図である。図１５は、第３の実施形態に係るユーザ情報記憶部の一例を示す図である。図１６は、第３の実施形態に係るモデル記憶部の一例を示す図である。図１７は、第３の実施形態に係る判定装置による判定処理手順を示すフローチャートである。図１８は、判定装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．第１の実施形態〕
〔１−１．判定処理の一例〕
まず、図１を用いて、第１の実施形態に係る判定処理の一例について説明する。図１は、第１の実施形態に係る判定処理の一例を示す図である。図１では、本願に係る情報処理装置に対応する判定装置１００を含む判定処理システム１によって、共通する概念を有するコンテンツに関する判定処理が行われる一例を示す。なお、以下では、コンテンツとして文字列（テキストデータ）を例に挙げて説明する。

図１に例示するように、判定処理システム１には、複数台のユーザ端末１０_１、１０_２、１０_３と、判定装置１００とが含まれる。ユーザ端末１０_１、１０_２、１０_３と、判定装置１００は、図示しないネットワークＮを介して、ユーザ端末１０_１、１０_２、１０_３と通信可能に接続される。なお、判定処理システム１に含まれるユーザ端末１０_１、１０_２、１０_３の台数は、図１に示した例に限られない。また、以下では、ユーザ端末１０_１、１０_２、１０_３を区別する必要がない場合には、これらを総称して「ユーザ端末１０」と表記する場合がある。

ユーザ端末１０は、例えば、デスクトップ型ＰＣ（Personal Computer）や、ノート型ＰＣや、タブレット型端末や、携帯電話機、ＰＤＡ（Personal Digital Assistant）等の情報処理装置である。例えば、ユーザ端末１０は、ユーザによる操作に従って、所定のウェブサーバにアクセスする。ユーザは、ユーザ端末１０を介して、ウェブサーバから提供されるサービスを利用する。例えば、ユーザは、検索サイトを利用したり、ショッピングサイトにレビューを書き込んだり、ＳＮＳ（Social Networking Service）サイトにメッセージを投稿したりすることができる。

判定装置１００は、異表記される同義の文字列（同義語）に関する判定処理を行う情報処理サーバである。具体的には、第１の実施形態に係る判定装置１００は、各種サービスの利用に際してユーザ端末１０から出力されるテキストデータを取得し、取得したテキストデータに含まれる同義語を特定する。そして、判定装置１００は、同義語のうち異表記される複数の語について、異表記であっても共通した処理が行われる語群として扱うか（すなわち、名寄せ処理を行うか）、あるいは、同義語であっても異なる語として処理される意義を持つ語群として扱うか、を判定する処理を行う。

同義語であっても異表記される語が用いられる場合には、その使用態様において、ユーザ側に何らかの意図があるか、あるいは、無意識にユーザによって使い分けされていること等が想定される。そこで、判定装置１００は、異表記される同義語が使い分けられている要因があるか否かを判定する。言い換えれば、判定装置１００は、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語であるか否かを判定する。判定装置１００は、判定処理を行うことにより、同義語の使い分けに込められた所定の意味を汲んだ情報処理を実行することができる。以下では、判定装置１００によって行われる文字列の判定処理の一例を流れに沿って説明する。

まず、判定装置１００は、異表記される同義語の使用態様を取得する。すなわち、判定装置１００は、同義語がいずれのユーザによって使用されたか、どのような文脈とともに使用されたか、あるいは、ネットワークＮ上のどのようなサービスにおいて使用されたかといった、実際に同義語が使用された態様に関する情報を取得する。例えば、判定装置１００は、異表記される同義語が含まれる文のテキストデータをユーザ端末１０から取得する。図１の例では、判定装置１００は、猫を示す同義語である「猫」、「ネコ」、「ねこ」といった３種類の異表記される語が含まれるテキストデータを取得する（ステップＳ１１）。

図１に示すように、ユーザＵ０１が利用するユーザ端末１０_１から、「願い事を叶えてくれる猫です」といったテキストデータＴ０１が投稿されたとする。また、ユーザＵ０２が利用するユーザ端末１０_２から、「ネコを飼いたいんだけど」といったテキストデータＴ０２が投稿されたとする。また、ユーザＵ０３が利用するユーザ端末１０_３から、「ねこのきもちがわかる」といったテキストデータＴ０３が投稿されたとする。このとき、判定装置１００は、「猫」、「ネコ」、「ねこ」のいずれかの語をキーとして、テキストデータＴ０１〜Ｔ０３を特定する。そして、判定装置１００は、特定されたテキストデータＴ０１〜Ｔ０３を取得する。

続いて、判定装置１００は、異表記される同義語の出現傾向を学習する（ステップＳ１２）。具体的には、判定装置１００は、各テキストデータに含まれる「猫」、「ネコ」、「ねこ」といった同義語と、前後の文脈との相関性を学習する。そして、判定装置１００は、相当数のテキストデータについて文脈との相関性を学習した後に、「猫、ネコ、ねこ」の語をマスクしたテキストデータを用いて、正解データである「猫、ネコ、ねこ」のうちいずれの語がマスクした箇所に入るかを当てるための学習を行う。「猫、ネコ、ねこ」の語が前後の文脈との間で共起性を強く有する場合、判定装置１００は、前後の文脈に基づいて、「猫、ネコ、ねこ」のうちいずれが正解データであるかを高い確率で当てることができるようになる。一方、「猫、ネコ、ねこ」の語が前後の文脈との間で共起性を顕著に有さない場合、判定装置１００は、「猫、ネコ、ねこ」のうちいずれが正解データであるか、を高い確率で当てることはできない。

そして、判定装置１００は、正解データを当てることができる確率に基づいて、同義語の表記のゆらぎについて、同義語が共通して有する語意とは異なる意味が含まれているかを判定する（ステップＳ１３）。さらに、判定装置１００は、判定結果に基づいて、同義語に関する所定の情報処理を実行する。

具体的には、判定装置１００は、所定の閾値を超える確率で「猫、ネコ、ねこ」の正解データを当てることができた場合には、ユーザには「猫、ネコ、ねこ」を使い分けるべき所定の意味があったものと判定する。この場合、判定装置１００は、「猫、ネコ、ねこ」を名寄せ処理せずに、異なる意義を有する語として取り扱う。一方、判定装置１００は、所定の閾値を超える確率で「猫、ネコ、ねこ」の正解データを当てることができない場合には、ユーザには「猫、ネコ、ねこ」を使い分けるべき所定の意味が乏しいものと判定する。この場合、判定装置１００は、「猫、ネコ、ねこ」を名寄せ処理することで、共通した処理を行う語として取り扱う。すなわち、判定装置１００は、「猫、ネコ、ねこ」を相互に置き換えたとしても、ユーザが同義語を使い分けた意味を没却させないと判定できる場合に、異表記される同義語の名寄せ処理を実行する。

このように、第１の実施形態に係る判定装置１００は、異表記される同義語の使用態様を取得する。そして、判定装置１００は、取得された使用態様の統計情報に基づいて、異表記される同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。そして、判定装置１００は、判定された結果に基づいて、同義語に関する所定の情報処理を実行する。

すなわち、第１の実施形態に係る判定装置１００は、異表記される同義語が使用される態様において、同義語が有する語意の他に、ユーザが同義語を使い分けた意図や、ユーザが意図せずに同義語を使い分けている要因（例えば、ユーザの性別、年齢、居住地などの属性情報）が含まれているか否かを判定することができる。これにより、判定装置１００は、同義語の使用態様から抽出することのできる情報を用いた処理を行うことができる。

例えば、判定装置１００による情報処理は、文章の校正処理等に応用される。仮に、判定装置１００によって、前後の文脈に応じて「猫、ネコ、ねこ」が有意に使い分けられていると判定され、また、漢字表記される「猫」と「叶える」とが共起関係にあると判定されたとする。このとき、判定装置１００は、「願い事を叶えてくれるねこです」というユーザから投稿された文章を取得した場合、当該文章において「ねこ」よりも「猫」を用いた方が文章として適切であることを判定する。そして、判定装置１００は、「願い事を叶えてくれるねこです」という文章を、「願い事を叶えてくれる猫です」という文章に校正する。このように、判定装置１００によれば、文章に含まれる異表記される同義語を多数のユーザに受け入れられ易い適切な同義語に変換する、といった校正処理を行うことができる。

このような処理は、仮名漢字の変換に係る異表記のみならず、異なる音を持つ同義語間で行われてもよい。例えば、判定装置１００によって、同義語である「緑茶」と「グリーンティー」とが有意に使い分けられていると判定され、また、「グリーンティー」と「アメリカ」とが共起関係にあると判定されたとする。このとき、判定装置１００は、「アメリカのスーパーで緑茶を買った」という文章において、「緑茶」よりも「グリーンティー」を用いた方が文章的に適切であることを指摘することができる。なお、判定装置１００は、かかる処理について、単語の前の文脈を用いた文字変換処理に応用してもよい。例えば、判定装置１００は、「あめりかのすーぱーでりょくちゃを」とユーザから入力されたテキストを、単語（ここでは、「りょくちゃ」）の前の文脈を用いて、「アメリカのスーパーでグリーンティーを」と変換処理することができる。

このように、判定装置１００は、同義語を名寄せ処理するか否かを判定することができる。具体的には、判定装置１００は、同義語の全てに共通する処理が実行されるように扱ったり、また、同義語の全てを異なる語句として取り扱ったりするなどの判定を固定するのではなく、実際に使用される態様に基づいて、同義語に関する処理を柔軟に実行することができる。これにより、判定装置１００は、使い分けられた同義語を利用する情報処理を実現することができる。

なお、判定装置１００は、同義語に関する情報について、予め所定の辞書情報から取得してもよい。例えば、判定装置１００は、第三者から提供されるシソーラス（Thesaurus）を参照することにより、処理対象とする同義語に関する情報を取得することができる。

〔１−２．判定装置の構成〕
次に、図２を用いて、第１の実施形態に係る判定装置１００の構成について説明する。図２は、第１の実施形態に係る判定装置１００の構成例を示す図である。図２に示すように、判定装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、判定装置１００は、判定装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、ユーザ端末１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、テキストデータ記憶部１２１と、学習情報記憶部１２２とを有する。

（テキストデータ記憶部１２１について）
テキストデータ記憶部１２１は、テキストデータに関する情報を記憶する。ここで、図３に、第１の実施形態に係るテキストデータ記憶部１２１の一例を示す。図３は、第１の実施形態に係るテキストデータ記憶部１２１の一例を示す図である。図３に示した例では、テキストデータ記憶部１２１は、「統計データＩＤ」、「同義語」、「テキストデータ」といった項目を有する。

「統計データＩＤ」は、統計された情報を識別するための識別情報を示す。例えば、統計データＩＤは、処理対象とする同義語ごとに付与される。「同義語」は、処理対象となる同義語を示す。図３に示すように、「同義語」には、共通する意味を有する語句であって、異表記される複数の語句が含まれる。すなわち、判定装置１００は、同義語のいずれかをキーとしてテキストデータを特定し、特定されたテキストデータを一連の統計データとして記憶する。

「テキストデータ」は、判定装置１００によって取得されたテキストの内容を示す。例えば、テキストデータは、同義語を含む一文の文章の形式で取得され、記憶される。

すなわち、図３に示す一例では、統計データＩＤ「Ｄ１１」によって識別される統計データは、同義語「猫、ネコ、ねこ」をキーとして統計されたデータであり、「願いを叶えてくれる猫です」や、「ネコを飼いたいんだけど」や、「ねこのきもちがわかる」といったテキストデータが含まれることを示している。

（学習情報記憶部１２２について）
学習情報記憶部１２２は、同義語の出現傾向の学習に関する情報を記憶する。図４に、第１の実施形態に係る学習情報記憶部１２２の一例を示す。図４は、第１の実施形態に係る学習情報記憶部１２２の一例を示す図である。図４に示した例では、学習情報記憶部１２２は、「統計データＩＤ」、「学習データ」、「統計数」、「正解率」といった項目を有する。

「統計データＩＤ」は、図３に示した同様の項目に対応する。「学習データ」は、テキストデータ記憶部１２１に記憶されたテキストデータに対応するテキストであって、学習に用いられるテキストを示す。学習データは、例えば、同義語を「＊」のような任意の文字に置換したテキストである。

「統計数」は、統計データの総数を示す。言い換えれば、統計数は、学習に用いられたテキストデータの数を示す。一般に、統計数が多いほど、学習精度が高いことが推測される。「正解率」は、統計データにおいて、正解データである同義語を当てることのできる確率を示す。

すなわち、図４に示す一例では、統計データＩＤ「Ｄ１１」によって識別される統計データには、「願いを叶えてくれる＊＊です」や、「＊＊を飼いたいんだけど」や、「＊＊のきもちがわかる」といった学習データが含まれることを示している。また、統計データＩＤ「Ｄ１１」によって識別される統計データでは、「６００００」のテキストデータを用いて学習が行われており、同義語を当てることのできる精度（正解率）は「０．７６」であることを示している。

なお、学習情報記憶部１２２には、同義語と前後の文脈との相関性を学習した学習データが記憶されているものとする。例えば、学習情報記憶部１２２は、統計データに含まれる異表記される同義語の各々について、前後の文脈との相関性を学習した学習データを記憶する。

（制御部１３０について）
制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、判定装置１００内部の記憶装置に記憶されている各種プログラム（抽出プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図２に示すように、制御部１３０は、取得部１３１と、学習部１３２と、判定部１３３と、実行部１３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図２に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
取得部１３１は、各種情報を取得する。例えば、取得部１３１は、異表記される同義語の使用態様を取得する。同義語の使用態様として、取得部１３１は、同義語と同時に使用される他の文字列に関する情報を取得する。具体的には、取得部１３１は、ユーザから投稿された同義語を含む文のテキストデータを取得する。取得部１３１は、テキストデータとして、ユーザから投稿されるツイート（tweet）や、ショッピングサイトのレビューや、コミュニティサイトやＳＮＳサイトに投稿されたメッセージなどを取得する。

なお、取得部１３１は、異表記される同義語の使用態様として、同義語を使用するユーザの属性情報、又は、同義語が使用されるサービスに関する情報を取得してもよい。すなわち、同義語の使用態様には、実際に同義語が使用されているテキストデータの態様のみならず、テキストデータを投稿したユーザや、テキストデータが投稿されたサービス（例えばウェブサイト等）に関する態様も含まれる。

取得部１３１は、異表記される同義語を使用するユーザを特定するための情報については、種々の既知の手法により取得することができる。例えば、ユーザ端末１０の特定は、ユーザ端末１０のウェブブラウザとウェブサーバとの間でやり取りされるクッキー（cookie）にユーザ識別情報を含めることによって行うことができる。

（学習部１３２について）
学習部１３２は、取得部１３１によって取得されたテキストデータに含まれる同義語の出現傾向を学習する。具体的には、学習部１３２は、テキストデータに含まれる同義語と前後の文脈との相関性を学習する。さらに、学習部１３２は、同義語がマスクされたテキストデータを用いて、マスクされた箇所に入る同義語を推定するための学習を行う。

例えば、学習部１３２は、「猫、ネコ、ねこ」のうちいずれかの語が正解データであるテキストデータについて、マスクされた箇所の前後の文脈に基づいて、「猫、ネコ、ねこ」のうちいずれの語をテキストデータに当て嵌めるかを機械学習する。そして、学習部１３２は、「猫、ネコ、ねこ」の中から正解データを当てることができた率である正解率を算出する。

学習部１３２は、異表記される同義語である「猫、ネコ、ねこ」の各語が前後の文脈に対応して有意に使い分けられているほど、高い正解率を算出する。また、学習部１３２は、多くのテキストデータを学習するほど、すなわち統計数が多いほど、信頼度の高い正解率を算出する。そして、学習部１３２は、学習の結果を学習情報記憶部１２２に格納する。

（判定部１３３について）
判定部１３３は、取得部１３１によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により、ユーザごとに使い分けされる同義語であるか否かを判定する。取得部１３１によって取得された使用態様の統計情報とは、例えば、学習部１３２による学習結果を示す。すなわち、判定部１３３は、テキストデータに含まれる同義語の前後の文脈との相関性に基づいて、処理対象となる同義語が、所定の意味を含めて使い分けられた同義語であるか否かを判定する。

なお、同義語が共通して有する語意とは異なる所定の意味を含めた態様とは、ユーザが当該同義語を使用するにあたり、同義語をあえて使い分ける意図や、意図せずとも同義語が使い分けてられている要因が存在することにより、同義語に共通する意味（「猫、ねこ、ネコ」であれば、動物としての「猫」を示すための語としての意味）の他に、何らかの意味が含められた態様であることを示している。例えば、ユーザが投稿する文中において、漢字表記の「猫」よりも、カタカナ表記の「ネコ」を用いた方が適切であると意図した場合などに、その使用態様には、同義語が共通して有する語意とは異なる所定の意味が含められることになる。この態様に関する学習がユーザの意図通りに進行すれば、所定の状況（例えば、前後の文脈の状況）において、判定部１３３は、同義語であっても、「猫」と「ネコ」とは使い分けられる方が適切であることを判定することができる。

判定部１３３は、例えば、学習部１３２によって算出される正解率に所定の閾値を設けて、所定の閾値を超える正解率が算出された場合に、異表記される同義語がユーザによって有意に使い分けされているものと判定する。

（実行部１３４について）
実行部１３４は、判定部１３３によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。例えば、実行部１３４は、同義語に関する所定の情報処理として、異表記される同義語の名寄せ処理をするか否かを選択する。

例えば、実行部１３４は、判定部１３３によって、異表記される同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語句であると判定された場合には、異表記される同義語を集約して、共通する語意を有する語句として取り扱う名寄せ処理を実行しない。一方、実行部１３４は、異表記される同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語句でないと判定された場合には、それらの同義語に対して名寄せ処理を実行する。

具体的には、実行部１３４は、同義語と前後の文脈とに所定の相関関係が認められない場合、すなわち、判定部１３３によって正解率が所定の閾値を超えないと判定された場合には、異表記される同義語を名寄せする。これは、同義語と前後の文脈とに所定の相関関係が認められない場合には、同義語が異表記される意義が有意に認められないことによる。言い換えれば、実行部１３４は、文脈によって有意に同義語が使い分けられていない場合に、当該同義語を名寄せする。これにより、実行部１３４は、異表記される同義語に対して共通の処理を行うことができるので、情報処理を効率化することができる。

一方、実行部１３４は、同義語と前後の文脈とに所定の相関関係が認められる場合、すなわち、判定部１３３によって正解率が所定の閾値を超えると判定された場合には、異表記される同義語を名寄せしない。これは、同義語と前後の文脈とに所定の相関関係が認められるため、同義語が異表記される意義が有意に認められることによる。この場合、同義語には、使い分けられるべき所定の意味が含められていると推測できる。このため、実行部１３４は、このような意味を没却させないよう、異表記される同義語を名寄せせずに、異なる語として取り扱う。これにより、実行部１３４は、表記の違いを活かした情報処理を実行することができる。

〔１−３．判定処理手順〕
次に、図５を用いて、第１の実施形態に係る判定装置１００による判定処理の手順について説明する。図５は、第１の実施形態に係る判定装置１００による判定処理手順を示すフローチャートである。

図５に示すように、取得部１３１は、同義語をキーとして、テキストデータを取得する（ステップＳ１０１）。そして、学習部１３２は、取得されたテキストデータを統計し、テキストデータに含まれる同義語の出現傾向に関する学習を行う（ステップＳ１０２）。

そして、判定部１３３は、学習部１３２による学習の結果、同義語の出現に関する正解率が所定の閾値を超えるか否かを判定する（ステップＳ１０３）。所定の閾値を超える場合（ステップＳ１０３；Ｙｅｓ）、実行部１３４は、異表記される同義語について、名寄せ処理をしないことを選択する（ステップＳ１０４）。

一方、所定の閾値を超えない場合（ステップＳ１０３；Ｎｏ）、実行部１３４は、異表記される同義語について、名寄せ処理をすることを選択する（ステップＳ１０５）。このように、判定装置１００は、ユーザが同義語をテキスト内で使用する態様において、有意に使い分けがなされている場合には名寄せ処理を行わず、有意に使い分けがなされていない場合には名寄せ処理を行う。

〔１−４．効果〕
上述してきたように、第１の実施形態に係る判定装置１００は、取得部１３１と、判定部１３３と、実行部１３４とを有する。取得部１３１は、異表記される同義語の使用態様を取得する。判定部１３３は、取得部１３１によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語句であるか否かを判定する。実行部１３４は、判定部１３３によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。

このように、第１の実施形態に係る判定装置１００は、同義語が使用されるにあたり、同義語が有する語意の他に、ユーザが同義語を使い分けた意図や、ユーザが意図せずに同義語を使い分けている要因（例えば、ユーザの性別、年齢、居住地などの属性情報）などの所定の意味が含まれているか否かを判定する。そして、判定装置１００は、判定結果に基づく情報処理を実行する。これにより、判定装置１００は、使い分けられた同義語を利用する情報処理を実現することができる。

また、実行部１３４は、判定部１３３によって、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語であると判定された場合には、異表記される同義語を集約して共通する語意を有する同義語として取り扱う名寄せ処理を実行せず、使い分けされる同義語でないと判定された場合には、名寄せ処理を実行する。

このように、第１の実施形態に係る判定装置１００は、同義語の語意とは別に、同義語が使い分けられることに有意な差異があると判定される場合には、同義語であっても名寄せ処理をせず、異なる語として扱うことができる。すなわち、判定装置１００は、同義語に関する処理を柔軟に実行することができる。

また、取得部１３１は、異表記される同義語の使用態様として、同義語を使用するユーザの属性情報、同義語が使用されるサービスに関する情報、又は、同義語と同時に使用される他の文字列に関する情報の少なくとも一つを取得する。

このように、第１の実施形態に係る判定装置１００は、同義語の使用態様に関する種々の情報を取得する。これにより、判定装置１００は、ある同義語を頻繁に用いるユーザの属性や、あるサービスにおいて特に用いられる同義語などの情報を取得することができる。そして、判定装置１００は、取得した情報に基づいて判定処理等を行うので、個々のユーザに即した情報処理を実行することができる。

また、取得部１３１は、異表記される同義語が含まれる文に対応するテキストデータを取得する。判定部１３３は、テキストデータにおける同義語の前後の文脈との相関性に基づいて、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。

このように、第１の実施形態に係る判定装置１００は、同義語を含む文に基づいて、同義語の使い分けに含まれるユーザの意図や、使い分けにつながる要因を判定する。このため、判定装置１００は、ユーザが実際に文中で使用する同義語の使用体系に基づく情報処理を実行できる。例えば、判定装置１００は、ユーザが使用する同義語の使い分けを統計し、学習することで、適切な同義語を選択する文章校正などを実行することができる。

〔２．第２の実施形態〕
上記第１の実施形態では、テキストデータに含まれる同義語と前後の文脈との相関性に基づいて、同義語の出現傾向を学習し、学習の結果に基づく判定処理を行う例を示した。しかし、異表記される同義語に関する判定は、上記第１の実施形態とは異なる処理によって行われてもよい。第２の実施形態では、異表記される同義語のうち、特定の使用態様により用いられる語を特定することにより、判定処理を行う例を示す。
〔２−１．判定処理の一例〕
まず、図６を用いて、第２の実施形態に係る判定処理の一例について説明する。図６は、第２の実施形態に係る判定処理の一例を示す図である。図６では、第２の実施形態に係る判定装置２００によって、異表記される同義の文字列に関する判定処理が行われる一例を示す。なお、第２の実施形態の説明において、第１の実施形態で既出の装置や処理部に対応する説明は省略する。

図６に示すように、判定装置２００は、ユーザ端末１０から投稿されたテキストデータＴ２１を取得する。テキストデータＴ２１は、「ジュクの、ＣＣＣに集合！」といった文字列により構成される。このうち、「ジュク」とは、地名である「新宿」を異表記した同義語である。また、「ＣＣＣ」は、所定の店舗名である「ＢＢＢ」を異表記した同義語である。

また、判定装置２００は、特定表記記憶部２２３を有する。特定表記記憶部２２３には、所定の属性情報と関連付けられる特定の同義語（以下、「特定表記」と記載する）の情報が記憶される。例えば、「新宿」の同義語のうち、特定表記である「ジュク」には、属性情報として「年齢：５０代〜、所属業界：ＡＡＡ」が関連付けられている。これは、「新宿」の同義語として「ジュク」を用いるユーザは、主として「年齢が５０代以上」であり、「業界ＡＡＡ」に所属している（あるいは、所属していた）、という属性を有することが推測されることを示している。また、「ＢＢＢ」の同義語のうち、特定表記である「ＣＣＣ」には、属性情報として「関西出身」が関連付けられている。これは、「ＢＢＢ」の同義語として「ＣＣＣ」を用いるユーザは、「出身地が関西地方」である、という属性が推測されることを示している。なお、特定表記は、例えば、異表記される同義語のうち、ある属性を有するユーザ群に限って頻繁に用いられる、といった使用態様の統計情報に基づいて、予め設定される。判定装置２００は、特定表記の設定について、外部の辞書情報を参照してもよいし、後述するように、学習処理によって取得してもよい。

判定装置２００は、テキストデータＴ２１の取得に伴い、同義語のうち特定表記に該当する語句を取得する（ステップＳ２１）。図６の例では、判定装置２００は、特定表記である「ジュク」と「ＣＣＣ」とを取得する。

ここで、判定装置２００は、取得したテキストデータＴ２１のうち、同義語の表記のゆらぎについて、語意とは異なる意味が含まれているかを判定する（ステップＳ２２）。ここで、判定装置２００は、特定表記記憶部２２３を参照し、テキストデータＴ２１において、特定表記が取得されたか否かを判定する。そして、判定装置２００は、特定表記に該当する語句が取得された場合には、表記のゆらぎについて、同義語に共通する語意とは異なる意味が含まれているものと判定する。言い換えれば、判定装置２００は、特定表記された語句を用いるユーザには、同義語が共通して有する語意とは異なる所定の要因が有るものと判定する。

そして、判定装置２００は、所定の情報処理として、特定表記を用いるユーザに対して所定の属性を付与する（ステップＳ２３）。図６の例では、判定装置２００は、ユーザＵ２１に対して、「年齢が５０代以上」であり、「業界ＡＡＡ」に所属しており、「関西出身」である、という属性を付与する。

このように、第２の実施形態に係る判定装置２００は、異表記される同義語のうち、特定表記を用いるユーザ群に共通する属性情報を取得する。また、判定装置２００は、特定表記が使用された場合に、特定表記を含んだ同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であると判定する。さらに、判定装置２００は、所定の情報処理として、特定表記を使用したユーザに対して、特定表記を用いるユーザ群に共通する属性情報を付与する。

すなわち、判定装置２００は、異表記される同義語のうち、ある特殊なユーザ層に用いられる語句であったり、特定の要因をもって用いられる語句であったり（隠語、イニシャルトークなど）、ある特定のサービスで利用される語句であったりする語句を特定することにより、同義語が使い分けられていることに有意性があることを判定する。そして、判定装置２００は、例えば未知の属性情報を有するユーザによって特定表記が用いられている場合には、当該ユーザに対して新たな属性を付与するといった処理を行うことができる。

例えば、判定装置２００による情報処理は、ユーザに対応した適切なサービスを提供する場面に応用される。例えば、ユーザに関する情報として、ウェブサイトの行動履歴や登録情報に基づいて、ユーザの性別、年齢、居住地等の基本的な情報を取得することが可能である。しかしながら、ユーザの出身地や所属業界といった属性情報を取得することができるとは限らない。一方、判定装置２００によれば、特定表記と、特定表記に関連付けられる属性情報とを取得することにより、属性情報を使用したユーザに属性を付与することができる。そして、判定装置２００によれば、付与された属性に対応する広告コンテンツをユーザ端末１０に配信したり、付与された属性に対応するレコメンド情報を表示させたりすることができる。すなわち、判定装置２００は、同義語の使用態様から推測されるユーザ属性を利用することによって、ユーザに対して提供されるサービスの訴求効果を向上させたり、提供されるサービスの分野を拡充させたりすることができる。

〔２−２．判定装置の構成〕
次に、図７を用いて、第２の実施形態に係る判定装置２００の構成について説明する。図７は、第２の実施形態に係る判定装置２００の構成例を示す図である。図７に示すように、判定装置２００は、第１の実施形態に係る判定装置１００と異なる構成として、統計情報記憶部２２１と、ユーザ情報記憶部２２２と、特定表記記憶部２２３とを有する。

（統計情報記憶部２２１について）
統計情報記憶部２２１は、異表記される同義語の使用態様に関する統計情報を記憶する。ここで、図８に、第２の実施形態に係る統計情報記憶部２２１の一例を示す。図８は、第２の実施形態に係る統計情報記憶部２２１の一例を示す図である。図８に示した例では、統計情報記憶部２２１は、「統計データＩＤ」、「同義語」、「ユーザＩＤ」といった項目を有する。

「統計データＩＤ」及び「同義語」は、図３に示した同様の項目に対応する。「ユーザＩＤ」は、ユーザ又はユーザ端末１０を識別する識別情報を示す。

すなわち、図８に示す一例では、統計データＩＤ「Ｄ２１」によって識別される統計データとして、ユーザ「Ｕ２１１」が同義語「新宿」を用いた履歴や、ユーザ「Ｕ２１２」が同義語「新宿」を用いた履歴や、ユーザ「Ｕ２１３」が同義語「ジュク」を用いた履歴や、ユーザ「Ｕ２１４」が同義語「新宿」を用いた履歴が記憶されている例を示している。言い換えれば、統計情報記憶部２２１では、ユーザによって、異表記される同義語のうち、いずれの同義語が使用されたかといった履歴が記憶される。

なお、統計情報記憶部２２１には、ユーザが特定表記を使用した回数などが記憶されてもよい。後述する制御部２３０は、例えば、所定の回数より多く特定表記を使用したユーザのみを、特定表記を使用するユーザとして取り扱ってもよい。これにより、制御部２３０は、特殊な用途としてではなく慣習的に特定表記を使用しているユーザのみを抽出し、処理対象として取り扱うことができる。また、判定装置２００は、どのような単語を特定表記とするかについて、シソーラス等を参照して、予め設定を行っていてもよい。そして、判定装置２００は、後述する学習処理により、特定表記に対応付けるユーザの属性を学習する。

（ユーザ情報記憶部２２２について）
ユーザ情報記憶部２２２は、ユーザに関する情報を記憶する。ここで、図９に、第２の実施形態に係るユーザ情報記憶部２２２の一例を示す。図９は、第２の実施形態に係るユーザ情報記憶部２２２の一例を示す図である。図９に示した例では、ユーザ情報記憶部２２２は、「ユーザＩＤ」、「性別」、「年齢」、「所属業界」、「出身」といった項目を有する。

「ユーザＩＤ」は、図８に示した同様の項目に対応する。「性別」は、ユーザの性別を示す。「年齢」は、ユーザの年齢を示す。「所属業界」は、ユーザが所属する業界を示す。「出身」は、ユーザの出身地を示す。なお、ユーザに関する情報として、不明な項目については、「‐」が記載される。

すなわち、図９に示す一例では、ユーザＩＤ「Ｕ１１」によって識別されるユーザは、性別が「男性」であり、年齢が「２０歳代」であり、所属業界が「ＤＤＤ」であり、出身が不明であることを示している。

（特定表記記憶部２２３について）
特定表記記憶部２２３は、特定表記に関する情報を記憶する。ここで、図１０に、第２の実施形態に係る特定表記記憶部２２３の一例を示す。図１０は、第２の実施形態に係る特定表記記憶部２２３の一例を示す図である。図１０に示した例では、特定表記記憶部２２３は、「統計データＩＤ」、「標準表記」、「特定表記」、「推測される属性」といった項目を有する。

「統計データＩＤ」は、図８に示した同様の項目に対応する。「標準表記」は、統計データに含まれる同義語のうち、標準的な表記を示す。「特定表記」は、統計データに含まれる同義語のうち、特定の属性と対応付けられる表記を示す。「推測される属性」は、特定表記に関連付けられた属性であり、特定表記を使用するユーザが有すると推測される属性である。

すなわち、図１０に示す一例では、統計データＩＤ「Ｄ２１」によって識別される統計データは、標準表記では「新宿」と表記される同義語をキーとして統計されたデータであり、同義語のうち「ジュク」は、推測される属性として「年齢５０代〜、所属業界ＡＡＡ」を有するユーザによって使用される特定表記であることを示している。

（制御部２３０について）
図７に示すように、第２の実施形態に係る制御部２３０は、取得部２３１と、学習部２３２と、判定部２３３と、実行部２３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部２３０の内部構成は、図７に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部２３０が有する各処理部の接続関係は、図７に示した接続関係に限られず、他の接続関係であってもよい。なお、重複する記載は省略するが、第２の実施形態に係る制御部２３０が有する各処理部は、第１の実施形態に係る制御部１３０が有する各処理部に対応する同様の処理についても、適宜実行することが可能であるものとする。

（取得部２３１について）
取得部２３１は、各種情報を取得する。例えば、取得部２３１は、異表記される同義語の使用態様を取得する。具体的には、取得部２３１は、ユーザから投稿された同義語を含むテキストデータを取得する。

また、取得部２３１は、同義語のうち、特定の文字列（すなわち、特定表記された同義語）に関する情報を取得する。例えば、取得部２３１は、異表記される同義語のうち、特定表記が使用される所定の要因を取得する。具体的には、取得部２３１は、特定表記が使用される所定の要因として、特定表記を使用するユーザ群に共通する属性情報を取得する。なお、取得部２３１は、共通する属性情報を取得するにあたり、特定表記が使用される慣習に関する情報や、特定表記が使用される状況（例えば、隠語として用いられる場合など）や、特定表記が使用されるサービスに関する情報などを取得してもよい。具体的には、取得部２３１は、特定の社会的グループを構成する者のみが慣習的に使用する語に関する情報を取得する。そして、取得部２３１は、かかる特定の語を使用する社会的グループに共通する属性情報を取得する。また、取得部２３１は、所定の状況において、隠語やイニシャルトークで用いられる語に関する情報を取得する。そして、取得部２３１は、かかる隠語やイニシャルトークを主に使用するようなユーザに共通する属性情報を取得する。また、取得部２３１は、ある特定のサービスにおいて、他のサービス等で用いられる表記とは異なる表記のされる語に関する情報を取得する。そして、取得部２３１は、ある特定のサービスを主に用いるユーザや、ある特定のサービスにおいて他と異なる表記のされる語を主に使用するようなユーザに共通する属性情報を取得する。

上述のように、取得部２３１は、特定表記に関する情報について、外部の辞書情報を参照することで取得してもよいし、学習部２３２の学習結果に基づいて取得してもよい。例えば、取得部２３１は、特定の社会的グループを構成する者のみが慣習的に使用する語について、外部の辞書情報を参照することにより取得する。また、例えば、取得部２３１は、学習部２３２が同義語の出現傾向を学習することにより、ある共通する属性を有するユーザに高い頻度で使用される同義語が検出された場合には、検出された同義語を特定表記として取得する。また、取得部２３１は、学習部２３２が特定表記を使用するユーザの傾向を学習することにより、特定表記に関連付けられる属性情報が新たに検出された場合には、検出された属性情報を取得する。

（学習部２３２について）
学習部２３２は、取得部２３１によって取得された特定表記の出現傾向を学習する。具体的には、学習部２３２は、特定表記が用いられた所定量の統計情報に基づいて、特定表記と特定表記を使用したユーザに関する情報との相関性を学習する。

学習部２３２は、既知の種々の手法により、特定表記の出現傾向を学習することが可能である。一例として、学習部２３２は、所定の回数より多く標準表記される語句を使用したユーザの集合（Ｐ＿ａ）と、所定の回数より多く特定表記される語句を使用したユーザの集合（Ｐ＿ｂ）とを標本とし、両者を統計的に検定する手法により、例えば、両者間に有意な差異が生じるかを学習する。そして、学習部２３２は、全体の集合（母集合）に対して、集合（Ｐ＿ａ）や、集合（Ｐ＿ｂ）の分散の度合いを求めることにより、例えば、集合（Ｐ＿ｂ）に関する特異性を学習する。なお、学習部２３２は、集合（Ｐ＿ａ）や集合（Ｐ＿ｂ）の各特徴量について、連続量について正規分布が仮定できるものについてはｔ検定など、そうでないものについては適切な統計的検定法によって、母分散の同一性を検定する。また、学習部２３２は、離散的な属性について、例えば、ＫＬ-Ｄｉｖｅｒｇｅｎｃｅ（Kullback−Leibler Divergence）などを用いて確率分布の隔たりを測るといった手法を採ることができる。

具体的には、学習部２３２は、集合（Ｐ＿ａ）と集合（Ｐ＿ｂ）との統計情報に基づいて、集合（Ｐ＿ｂ）に含まれるユーザの属性情報の特異性を学習する。これにより、学習部２３２は、特定表記を使用するユーザに対して推測される属性情報を抽出することができる。例えば、学習部２３２は、母集合に対する集合（Ｐ＿ｂ）の属性情報として、「年齢５０代以上」が有意に検定された場合には、特定表記を用いるユーザ群に共通する属性情報として、「年齢５０代以上」を抽出することができる。そして、学習部２３２は、抽出した属性情報を特定表記記憶部２２３に格納する。すなわち、学習部２３２は、特定の属性を有するユーザのみが使う用法の正規化辞書として特定表記記憶部２２３を作成し、また、更新していくことが可能である。

なお、上記では、ユーザの属性情報に基づいて統計的検定を行う例を示したが、学習部２３２は、属性情報以外の情報を用いてもよい。例えば、学習部２３２は、ユーザが利用するサービスを軸として、特定表記の出現を学習してもよい。この場合、学習部２３２は、特定表記を用いるユーザと、ユーザが頻繁に利用するサービスとの関係性を求めることができる。

（判定部２３３について）
判定部２３３は、取得部２３１によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。ここで、取得部２３１によって取得された使用態様の統計情報とは、例えば、学習部２３２による学習結果を示す。

ここで、判定部２３３は、特定表記が使用された場合に、特定表記を含む同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であると判定する。ここでは、所定の意味とは、例えば、同義語の語意とは別の理由で、同義語のうち特定表記が選択され、使用される要因を示す。例えば、同義語のうち特定表記を使用することが慣習となっているユーザ群においては、ユーザ群に共通する属性情報が要因に該当する。すなわち、判定部２３３は、特定表記記憶部２２３を参照し、ユーザによって使用された同義語が特定表記に該当するか否かによって、当該同義語が所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。

（実行部２３４について）
実行部２３４は、判定部２３３によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。例えば、実行部２３４は、特定表記を使用したユーザに対して、特定表記が使用された所定の要因に基づいて、所定の情報処理を実行する。具体的には、実行部２３４は、所定の情報処理として、特定表記を使用したユーザに対して、特定表記を使用するユーザ群に共通する属性情報を付与する処理を実行する。これは、数ある同義語の中から特定表記をあえて選択し、使用する要因となったのは、特定表記を使用するユーザ群に共通する属性情報であると想定されることによる。

また、実行部２３４は、同義語のうち特定表記が使用された場合には、異表記される同義語を名寄せせず、同義語のうち特定表記が使用されない場合には、当該同義語を名寄せ処理する、といった情報処理を行ってもよい。すなわち、特定表記のように、所定の要因によりあえて選択され、また、使用されている同義語が使用された場合には、実行部２３４は、名寄せ処理をせず、特定表記と他の同義語とで異なる情報処理を実行する。

実行部２３４は、特定表記を使用したユーザに対して新たな属性情報を付与した場合には、ユーザ情報記憶部２２２を更新する。なお、実行部２３４は、特定表記を使用したユーザに対して、直ちに属性情報を付与しなくてもよい。例えば、実行部２３４は、ユーザによって同義語が使用された一定回数のうち、所定の回数より多く特定表記を使用したユーザのみに、新たな属性情報を付与してもよい。

〔２−３．判定処理手順〕
次に、図１１を用いて、第２の実施形態に係る判定装置２００による判定処理の手順について説明する。図１１は、第２の実施形態に係る判定装置２００による判定処理手順を示すフローチャートである。

図１１に示すように、取得部２３１は、同義語の使用態様を取得する（ステップＳ２０１）。そして、学習部２３２は、取得された使用態様を統計し、同義語中の特定表記に関する学習を行う（ステップＳ２０２）。

そして、判定部２３３は、ユーザによって特定表記が使用されたか否かを判定する（ステップＳ２０３）。特定表記が使用された場合（ステップＳ２０３；Ｙｅｓ）、実行部２３４は、特定表記に関連付けられている属性をユーザに付与する（ステップＳ２０４）。

一方、特定表記が使用されていない場合（ステップＳ２０３；Ｎｏ）、実行部２３４は、特定表記に関連付けられている属性をユーザに付与しない（ステップＳ２０５）。

〔２−４．効果〕
上述してきたように、第２の実施形態に係る判定装置２００は、取得部２３１と、判定部２３３と、実行部２３４とを有する。取得部２３１は、異表記される同義の文字列のうち、特定表記が使用される所定の要因を取得する。判定部２３３は、特定表記が使用された場合に、当該特定表記を含む同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であると判定する。実行部２３４は、特定表記が使用された場合に、所定の要因に対応する所定の情報処理を実行する。

このように、第２の実施形態に係る判定装置２００は、同義語のうち、所定の要因に基づいて使用される特定の同義語である特定表記を判定処理に用いる。言い換えれば、判定装置２００は、特殊な態様において使用される語として、同義語の中から統計的に抽出される語に関する情報を用いることによって、同義語の使い分けに関する判定処理を精度よく行うことができる。また、判定装置２００は、特定表記が使用される要因に対応した情報処理を行うため、ユーザごとの同義語の使い分けに応じた柔軟な処理を実行することができる。

また、取得部２３１は、所定の要因として、特定表記を使用するユーザ群に共通する属性情報を取得する。実行部２３４は、特定表記が使用された場合に、特定表記を使用したユーザに対して、特定表記を使用するユーザ群に共通する属性情報を付与する。

このように、第２の実施形態に係る判定装置２００は、特定表記に関連付けられる属性情報を取得することにより、新たに特定表記を使用したユーザに対して属性を付与するといった情報処理を実行する。例えば、判定装置２００によれば、特定表記を使用するようなユーザ層に限った広告コンテンツの配信や、レコメンド情報の提供などを実行することができる。これにより、判定装置２００によれば、情報提供のターゲット精度を向上させたり、訴求効果を向上させたりすることができる。

〔３．第３の実施形態〕
上記第２の実施形態では、異表記される同義語のうち特定表記が使用されているか否かを判定する判定処理の一例を示した。しかし、異表記される同義語に関する判定は、上記第２の実施形態とは異なる処理によって行われてもよい。第３の実施形態では、所定の学習モデルを作成することにより、判定処理を行う例について説明する。

〔３−１．判定処理の一例〕
まず、図１２を用いて、第３の実施形態に係る判定処理の一例について説明する。図１２は、第３の実施形態に係る判定処理の一例を示す図である。図１２では、第３の実施形態に係る判定装置３００によって、異表記される同義の文字列に関する判定処理が行われる一例を示す。なお、第３の実施形態の説明において、第１の実施形態や第２の実施形態で既出の装置や処理部に対応する説明は省略する。

図１２に示すように、判定装置３００は、ユーザＵ３１〜Ｕ３３の各々が操作するユーザ端末１０_１〜１０_３から、異表記される同義語である「猫」、「ネコ」、「ねこ」のそれぞれが使用される態様を取得する。このとき、判定装置３００は、任意の正解データを設定し、ユーザから使用態様を取得する。図１２の例では、判定装置３００は、正解データを「商品Ａに興味があるユーザ」に設定するものとする。そして、判定装置３００は、例えば、商品Ａを取り扱うショッピングサイトにおいて商品の検索に用いるクエリとして、ユーザ端末１０_１〜１０_３から投稿された「猫」、「ネコ」、「ねこ」の文字列を取得する。

ここで、判定装置３００は、任意の正解データを求める問題を設定し、「猫」、「ネコ」、「ねこ」の各々をクエリとした場合の、各々の重み値を求める。ここでは、判定装置３００は、正解データとして「商品Ａに興味があるユーザ」を設定する（正解データは、「商品Ａを取り扱うショッピングサイトを訪れるユーザ」と読み替えることができる）。この場合、判定装置３００は、同義語のうち「猫」を使用するユーザと、「商品Ａに興味があるユーザ」との相関性が高い程、「猫」のクエリの重み値を高く算出する。同様に、判定装置３００は、同義語である「ネコ」及び「ねこ」に関しても、重み値を算出する。すなわち、判定装置３００は、異表記された同義語の各々に関して、任意の正解データを求めるための重み値を算出する（ステップＳ３１）。そして、判定装置３００は、算出した重み値を用いて、「商品Ａに興味があるユーザ」を探すための学習モデルを作成する。ここでは、作成した学習モデルを「基準モデル」と表記する。なお、基準モデルにおける各クエリの重み値の割合は、図１２に示されるグラフに対応する。図１２のグラフでは、基準モデルにおいて、「猫」の重み値が最も高く、「ネコ」の重み値が最も低いことが示されている。

続いて、判定装置３００は、基準モデルの基となった統計情報を、所定の基準を用いてグループに分ける。そして、判定装置３００は、基準モデルと同様の手法によりグループ別のモデルを作成した場合に、基準モデルとの間で有意な差異が生じるかを判定する（ステップＳ３２）。

判定装置３００は、グループを分ける基準として、例えば、ユーザの行動や、ユーザが利用するサービスなどに関する条件を用いることができる。例えば、図１２において、判定装置３００は、「サービスＢを利用するユーザ」を条件として分けるグループを「ＧｒｏｕｐＡ」とし、「居住地Ｃの属性を有するユーザ」を条件として分けるグループを「ＧｒｏｕｐＢ」とし、「商品Ａを実際に購入したユーザ」を条件として分けるグループを「ＧｒｏｕｐＣ」とすることができる。

判定装置３００は、ユーザをグループ分けし、分けられたグループにおいて、基準モデルと同様に、「猫」、「ネコ」、「ねこ」の各々をクエリとした場合の、各々の重み値を求めるモデルを作成する。図１２では、「ＧｒｏｕｐＡ」、「ＧｒｏｕｐＢ」、「ＧｒｏｕｐＣ」の各々のグラフが、「猫」、「ネコ」、「ねこ」の各々のクエリとしての重み値を示している。

図１２の例では、判定装置３００は、「ＧｒｏｕｐＡ」に対応するモデルについて、基準モデルと有意な差異が生じると判定する。例えば、判定装置３００は、「ＧｒｏｕｐＡ」に対応するモデルと、基準モデルとを比較した場合に、「猫」、「ネコ」、「ねこ」の各重み値の割合に有意な差異が生じていることをもって、「ＧｒｏｕｐＡ」に対応するモデルと基準モデルとに有意な差異が生じていると判定する。同様に、判定装置３００は、「ＧｒｏｕｐＢ」に対応するモデルについて、基準モデルと有意な差異が生じると判定する。

そして、判定装置３００は、比較した両モデルに有意な差異が生じていると判定した場合、同義語である「猫」、「ネコ」、「ねこ」を名寄せ処理することを要しない。すなわち、判定装置３００は、「ＧｒｏｕｐＡ」及び「ＧｒｏｕｐＢ」に該当するユーザが、何らかの意図や要因に基づいて、「猫」、「ネコ」、「ねこ」を使い分けているものと判定する。これは、ユーザにとって、「猫」、「ネコ」、「ねこ」を使い分けるべき意図や要因がない場合には、基準モデルと、グループ別モデルには有意な差異が生じないと考察されることによる。言い換えれば、基準モデルと、「ＧｒｏｕｐＡ」及び「ＧｒｏｕｐＢ」に対応するモデルとに有意な差が生じるのであれば、同義語の表記のゆらぎは、「ＧｒｏｕｐＡ」及び「ＧｒｏｕｐＢ」を分けた条件に対して、何らかの意味を伴う有意性があると考察される。そして、この場合には、判定装置３００は、「ＧｒｏｕｐＡ」及び「ＧｒｏｕｐＢ」に対応するユーザが使用する「猫」、「ネコ」、「ねこ」の各々について、異なる情報処理を実行することで、各々に対応する適切な処理を行うことができる。

一方、判定装置３００は、「ＧｒｏｕｐＣ」に対応するモデルについて、基準モデルと有意な差異が生じていないと判定する。例えば、判定装置３００は、「ＧｒｏｕｐＣ」に対応するモデルと、基準モデルとを比較した場合に、「猫」、「ネコ」、「ねこ」の各重み値の割合に有意な差異が生じていないことを判定の根拠とする。

この場合、判定装置３００は、「猫」、「ネコ」、「ねこ」を名寄せ処理してもよい。すなわち、判定装置３００は、「ＧｒｏｕｐＣ」の条件下においては、ユーザに「猫」、「ネコ」、「ねこ」を使い分ける何らかの要因が乏しいものと判定する。このため、判定装置３００は、「ＧｒｏｕｐＣ」に対応するユーザが使用する「猫」、「ネコ」、「ねこ」の各々に対する処理を区別せず、共通した処理を行うことができる。これにより、判定装置３００は、処理の効率化を図ることや、異表記される同義語を意図して使い分けていないユーザに対するユーザビリティを向上させることができる。

このように、判定装置３００は、所定の学習モデルである基準モデルと、ある条件下でグループ分けされた場合のモデルとを比較することにより、ある条件下において使用される同義語の使い分けの有意性を判定する。そして、判定装置３００は、ユーザの属性情報や、同義語が使用されるウェブサービスの種類や、商品の購買などの行動ログなど、様々な情報をグループ分けの条件とすることができるので、同義語の使い分けの有意性について、様々な切り口から判定を行うことができる。

〔３−２．判定装置の構成〕
次に、図１３を用いて、第３の実施形態に係る判定装置３００の構成について説明する。図１３は、第３の実施形態に係る判定装置３００の構成例を示す図である。図１３に示すように、判定装置３００は、第２の実施形態に係る判定装置２００と異なる構成として、モデル記憶部３２３を有する。また、統計情報記憶部３２１と、ユーザ情報記憶部３２２とは、第２の実施形態と異なる情報を有する。

（統計情報記憶部３２１について）
統計情報記憶部３２１は、異表記される同義語の使用態様に関する統計情報を記憶する。ここで、図１４に、第３の実施形態に係る統計情報記憶部３２１の一例を示す。図１４は、第３の実施形態に係る統計情報記憶部３２１の一例を示す図である。図１４に示した例では、統計情報記憶部３２１は、「統計データＩＤ」、「同義語」、「ユーザＩＤ」といった項目を有する。各項目に記憶される情報は、図８に示した同様の各項目に対応する。

すなわち、図１４に示す一例では、統計データＩＤ「Ｄ３１」によって識別される統計データとして、ユーザ「Ｕ３１１」が同義語「ねこ」を用いた履歴や、ユーザ「Ｕ３１２」が同義語「猫」を用いた履歴や、ユーザ「Ｕ３１３」が同義語「ネコ」を用いた履歴や、ユーザ「Ｕ３１４」が同義語「猫」を用いた履歴が記憶されている例を示している。

（ユーザ情報記憶部３２２について）
ユーザ情報記憶部３２２は、ユーザに関する情報を記憶する。ここで、図１５に、第３の実施形態に係るユーザ情報記憶部３２２の一例を示す。図１５は、第３の実施形態に係るユーザ情報記憶部３２２の一例を示す図である。図１５に示した例では、ユーザ情報記憶部３２２は、「ユーザＩＤ」、「性別」、「年齢」、「居住地」といった項目を有する。

「ユーザＩＤ」、「性別」、「年齢」は、図９に示した同様の各項目に対応する。「居住地」は、ユーザの居住地を示す。

すなわち、図１５に示す一例では、ユーザＩＤ「Ｕ３１」によって識別されるユーザは、性別が「男性」であり、年齢が「４０歳代」であり、居住地が「ＥＥＥ」であることを示している。

（モデル記憶部３２３について）
モデル記憶部３２３は、判定装置３００によって作成されるモデルに関する情報を記憶する。ここで、図１６に、第３の実施形態に係るモデル記憶部３２３の一例を示す。図１６は、第３の実施形態に係るモデル記憶部３２３の一例を示す図である。図１６に示した例では、モデル記憶部３２３は、「統計データＩＤ」、「基準モデル」、「グループ別モデル」といった項目を有し、「グループ別モデル」の項目には、さらに「グループＩＤ」と「モデル」といった小項目を有する。

「統計データＩＤ」は、図８に示した同様の項目に対応する。「基準モデル」は、任意に設定された正解データを求めるモデルの一例を示す。なお、基準モデルは、正解データごとに異なるモデルとして作成されるため、一つの同義語について複数の基準モデルが作成されてもよい。

「グループ別モデル」は、基準モデルに対して、さらに異なる基準を用いて区分けしたグループに対応するモデルを示す。「グループＩＤ」は、グループを識別するための識別情報を示す。「モデル」は、グループごとに作成されたモデルを示す。

すなわち、図１６に示す一例では、統計データＩＤ「Ｄ３１」によって識別される統計データは、基準モデルとして「Ｍ３１」が作成されており、さらにグループ別モデルとして、グループＩＤ「Ｇ０１」によって識別されるグループには、モデル「Ｍ３１１」が作成されていることを示す。

なお、モデル記憶部３２３には、基準モデルを作成する際の正解データや、グループを分ける際に基準となった各種の条件に関する情報が記憶されてもよい。

（制御部３３０について）
図１３に示すように、第３の実施形態に係る制御部３３０は、取得部３３１と、学習部３３２と、判定部３３３と、実行部３３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部３３０の内部構成は、図１３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部３３０が有する各処理部の接続関係は、図１３に示した接続関係に限られず、他の接続関係であってもよい。なお、重複する記載は省略するが、第３の実施形態に係る制御部３３０が有する各処理部は、第１の実施形態に係る制御部１３０及び第２の実施形態に係る制御部２３０が有する各処理部に対応する同様の処理についても、適宜実行することが可能であるものとする。

（取得部３３１について）
取得部３３１は、各種情報を取得する。例えば、取得部３３１は、異表記される同義語の使用態様を取得する。具体的には、取得部３３１は、ユーザから投稿された同義語を含むテキストデータを取得する。また、取得部３３１は、所定の条件下での同義語の使用態様を取得する。すなわち、取得部３３１は、所定の条件として、ユーザが同義語を使用した際に利用したサービスを特定する情報や、同義語を使用したユーザに関する属性情報等を取得する。これら所定の条件は、基準モデルが作成された後にグループを分ける基準として用いられる。

（学習部３３２について）
学習部３３２は、取得部３３１によって取得された使用態様の統計情報に基づいて、異表記される同義語を使い分けるユーザに関する学習を行う。具体的には、学習部３３２は、任意の正解データを設定し、正解データとユーザが使い分ける同義語との相関性を機械学習する。これにより、学習部３３２は、正解データを満たすユーザに関するモデル（基準モデル）を作成する。そして、学習部３３２は、基準モデルに対応するユーザのうち、さらに所定の条件に該当するユーザについてのモデルを作成する。

学習部３３２は、既知の種々の手法により、モデルの作成を行うことが可能である。一例として、学習部３３２は、下記式（１）で示されるモデルを作成する。

ｙ＝ ω_１・ｘ_１＋ ω_２・ｘ_２＋ ω_３・ｘ_３・・・（１）

上記式（１）は、正解データである「ｙ」と、ユーザが使い分ける同義語（「ｘ」）と、各同義語に対応する重み値（「ω」）との関係を示している。上記式（１）において、例えば、「ｘ_１」は「猫」であり、「ｘ_２」は「ねこ」であり、「ｘ_３」は「ネコ」である。また、「ω_１」は「猫」に対応する重み値であり、「ω_２」は「ねこ」に対応する重み値であり、「ω_３」は「ネコ」に対応する重み値である。「ｙ」には、正解データに該当するユーザの場合には「１」が代入され、正解データに該当しないユーザの場合には「０」が代入される。学習部３３２は、一定数の上記式（１）を機械学習し、その統計結果に基づいて、正解データに対応する基準モデルを作成することができる。上述したように、学習部３３２は、正解データを任意に設定可能である。例えば、学習部３３２は、「商品Ａに興味があるユーザ」を正解データとすることができる。

そして、学習部３３２は、所定の条件に基づいて、基準モデルに対応するユーザをグループに分ける。例えば、学習部３３２は、基準モデルに対応するユーザを「商品Ｅを購入したユーザ」と、「商品Ｆを購入したユーザ」と、「商品Ｇを購入したユーザ」とにグループ分けする。そして、学習部３３２は、各々のグループについてモデルを作成する。

このように、基準モデルとグループ別モデルに分ける理由は、以下の通りである。すなわち、何らかの目的行動（ここでは、任意の正解データ）に関して、「ｘ_１」、「ｘ_２」、「ｘ_３」の頻度を見たとき、もともと差異がある可能性がある。たとえば、基準モデルに対応するユーザについて、「ｘ_１」が「５０％」、「ｘ_２」が「３０％」、「ｘ_３」が「２０％」といったように、同義語がそもそも同じ頻度で使用されることは少なく、何らかの偏りを有することがありうる。これを前提とし、学習部３３２は、基準モデルを所定の条件でグループに分ける。例えば、学習部３３２は、ユーザの属性情報や、ユーザが利用するサービス、ユーザの行動ログ（ショッピングサイトにおける商品の売買等）を条件として、基準モデルをグループに分ける。そして、学習部３３２は、分けたグループに対応するモデルを作成する。この場合、グループ分けされた条件下において、「ｘ_１」、「ｘ_２」、及び「ｘ_３」を使い分けることに理由がなければ、基準モデルとグループ別モデルは、同じような傾向を示すはずである。一方、基準モデルとグループ別モデルとに差異が生じる場合、すなわち、統計的に有意な差異が発生しているのであれば、同義語の異表記（表記ゆれ）は、所定の条件に対して意味を持つものと判定される。具体的には、同義語の異表記は、グループに対応するユーザ群や、特定のサービスや、特定の行動ログにおいて意味を持つものであると判定される。すなわち、学習部３３２は、統計的な情報に基づいて、同義語が異表記される有意性を求めるため、上記のような学習処理を実行する。なお、学習部３３２が行う処理は上記に限らず、例えば、上記式（１）とは異なる式で示されるモデルを用いて、上記と同様の処理を行ってもよい。

（判定部３３３について）
判定部３３３は、取得部３３１によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により、ユーザごとに使い分けされる同義語であるか否かを判定する。

ここでは、取得部３３１によって取得された使用態様の統計情報とは、例えば、学習部３３２により作成された基準モデルとグループ別モデルとの比較情報である。具体的には、判定部３３３は、異表記される同義語の使用態様のうち、所定の条件下でない使用態様（基準モデル）と、所定の条件下での使用態様（グループ別モデル）とを比較することにより、異表記される同義語が所定の要因により使い分けられた同義語であるか否かを判定する。なお、判定部１３３は、モデルの比較にあたって、任意に判定条件を設定することが可能である。

（実行部３３４について）
実行部３３４は、判定部３３３によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。例えば、実行部３３４は、所定の情報処理として、異表記される同義語の名寄せ処理をするか否かを選択する。

具体的には、実行部３３４は、判定部３３３によって基準モデルとグループ別モデルとに有意な差異が生じていると判定された場合には、異表記される同義語を名寄せしない。一方、実行部３３４は、判定部３３３によって基準モデルとグループ別モデルとに有意な差異が生じていないと判定された場合には、異表記される同義語を名寄せする。

なお、実行部３３４は、所定の条件下において、名寄せ処理をするか否かを選択してもよい。例えば、実行部３３４は、基準モデルとグループ別モデルとに有意な差異が生じていると判定された場合であって、グループ別モデルを作成する際に用いられた条件下においては、名寄せ処理を行うようにしてもよい。すなわち、実行部３３４は、所定の要因により同義語が使い分けられていると推測される条件に限り、名寄せ処理を実行する。このように、実行部３３４は、種々の状況に応じて、名寄せ処理を行うか否かを選択できるので、より状況に合わせた適切な情報処理を行うことができる。

なお、実行部３３４は、種々の状況に応じた情報処理として、例えば、同義語が検索クエリとして使用された検索結果の表示処理、同義語を使用するユーザに対する情報の提供処理、又は、同義語を使用するユーザに属性を付与する処理等を実行することができる。例えば、実行部３３４は、判定処理における所定の条件としてユーザの属性情報が設定されていた場合には、同義語を使用するユーザごとの属性情報の違いに対応した処理を実行することができる。一例として、実行部３３４は、検索サイトにおいて、同義語の使用によってユーザに対応付けられた属性情報に応じた検索結果の表示や、属性情報に応じた広告コンテンツの配信や、レコメンド情報の提供といった情報処理を実行することができる。

〔３−３．判定処理手順〕
次に、図１７を用いて、第３の実施形態に係る判定装置３００による判定処理の手順について説明する。図１７は、第３の実施形態に係る判定装置３００による判定処理手順を示すフローチャートである。

図１７に示すように、取得部３３１は、同義語の使用態様を取得する（ステップＳ３０１）。そして、学習部３３２は、取得された文字列を統計し、基準となるモデルの同義語の重み値を学習する（ステップＳ３０２）。

さらに、学習部３３２は、基準モデルを基に、所定の条件下のモデルを作成する（ステップＳ３０３）。すなわち、学習部３３２は、所定の条件によりグループ分けされたグループ別にモデルを作成する。

そして、判定部３３３は、グループ別に作成されたモデルが基準モデルに対して有意な差が生じるか否かを判定する（ステップＳ３０４）。有意な差が生じる場合（ステップＳ３０４；Ｙｅｓ）、実行部３３４は、同義語は所定の意味を含んで使い分けられているものとして、名寄せ処理をしない（ステップＳ３０５）。

一方、有意な差が生じていない場合（ステップＳ３０４；Ｎｏ）、実行部３３４は、同義語は所定の意味を含んで使い分けられていないものとして、名寄せ処理をする（ステップＳ３０６）。

〔３−４．効果〕
上述してきたように、第３の実施形態に係る判定装置３００は、取得部３３１と、判定部３３３と、実行部３３４とを有する。取得部３３１は、所定の条件下での異表記される同義語の使用態様を取得する。判定部３３３は、異表記される同義語の使用態様のうち、所定の条件下でない使用態様と、所定の条件下での使用態様とを比較することにより、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する。

このように、第３の実施形態に係る判定装置３００は、所定の条件下において使用される同義語の使い分けの有意性を判定する。例えば、判定装置３００は、ユーザの属性情報や、同義語が使用されるウェブサービスの種類や、商品の購買などの行動ログなど、様々な情報をグループ分けの条件とすることにより、同義語の使い分けの有意性について、様々な切り口から判定を行うことができる。このため、判定装置３００は、ユーザの意図や、同義語を使用するユーザの属性情報の違いなどによって使い分けられた同義語を利用する情報処理を実現することができる。

また、実行部３３４は、判定部３３３によって、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であると判定された場合には、同義語が検索クエリとして使用された検索結果の表示処理、同義語を使用するユーザに対する情報の提供処理、又は、同義語を使用するユーザに属性を付与する処理の少なくとも一つについて、所定の意味に応じて、異表記される同義語ごとに異なる処理を実行する。

このように、第３の実施形態に係る判定装置３００は、同義語が使い分けられる意味であるユーザの意図や属性に応じて、検索表示結果を変更することや、ユーザに適した広告コンテンツやレコメンド情報を提供することができる。すなわち、判定装置３００は、同義語が名寄せされることで失われる可能性のある、同義語を使い分けるユーザに特有の属性情報などを利用した処理を実行することで、例えば、ユーザに対する幅広いアプローチを行う広告配信や、訴求効果の高いプロモーションなどの可能性の幅を広げることができる。

〔４．変形例〕
上述してきた判定装置１００（第２の実施形態に係る判定装置２００や、第３の実施形態に係る判定装置３００も同様）は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、判定装置１００の変形例について説明する。

〔４−１．データの取得〕
上述した実施形態に係る処理において、判定装置１００は、ユーザ端末１０がウェブサーバの提供するウェブサイトにアクセスした場合における、同義語などの文字列に関する情報や、ユーザ情報を取得する例を示した。しかし、判定装置１００は、ユーザ端末１０がウェブサイトにアクセスする場合に限らず、ユーザ端末１０からユーザ情報を取得することもできる。

例えば、ユーザ端末１０がアクセスしたウェブサイトが、判定装置１００を管理する管理装置（例えば、判定装置１００に対するフロントエンドサーバ）と同じ管理装置に管理される所定のウェブサーバから提供されている場合、判定装置１００は、ユーザ端末１０からユーザ情報を取得することができる。すなわち、ユーザ端末１０は、管理装置に管理される所定のウェブサーバが提供するウェブサイトにアクセスする際、ユーザ端末１０のユーザ情報を上記管理装置に送信する。これは、ユーザ端末１０が管理装置にクッキーを送信することなどにより実現される。この場合、ユーザ端末１０の送信したユーザ情報は、管理装置を介して、判定装置１００に送信される。これにより、判定装置１００は、所定のウェブサーバを介することなく、ユーザ端末１０のユーザ情報や、ユーザ端末１０から投稿される文字列に関する情報を取得することができる。

〔４−２．ユーザ情報〕
上述した実施形態において、判定装置１００は、ユーザの「年齢」や「性別」や「居住地」などの属性情報を取得する例を示した。しかし、判定装置１００が取得する属性情報は、これに限られない。例えば、判定装置１００は、ユーザの「年収」や「嗜好」などを取得してもよい。

〔４−３．辞書情報〕
上記実施形態においては、判定装置１００は、学習処理によって、同義語と前後の文脈の相関性や、同義語のうちの特定表記に関連付けられる属性情報や、所定の条件下における使用の態様の相違などの情報を取得する例を示した。しかし、判定装置１００は、学習処理によらず、例えば、外部の第三者から提供される所定の辞書情報に基づいて、上記の情報を取得してもよい。この場合、判定装置１００は、所定の辞書情報を参照して取得される種々の情報を用いて、上記の判定処理を行うことができる。

〔４−４．他分野への応用〕
上記実施形態において、判定装置１００は、異表記される同義語について、語意とは異なる所定の意味が含まれている否かを判定し、判定結果に基づいて、同義語に関する情報処理を行う例を示した。ここで、判定装置１００は、同義語などの文字列に限らず、種々のデータ体系を有するコンテンツについて、上記実施形態の処理を応用することもできる。この点について、以下に具体例を挙げて説明する。

検索サイトにおける検索処理が、画像データにより行われる場合を考える。この場合、判定装置１００は、コンテンツとして、画像データをユーザから取得する。例えば、判定装置１００は、「花火」という共通した概念を有する画像データを取得する。判定装置１００は、「花火」を共通する概念として有する画像データとして、例えば「打ち上げ花火」、「線香花火」、「手持ち花火」の３種の画像データを取得するものとする。

ここで、判定装置１００は、統計情報に基づき、「花火」という共通した概念を有する画像データであって、「打ち上げ花火」、「線香花火」、「手持ち花火」のように異なる表記のなされた画像データが使い分けられることに、所定の意味が含まれていると判定していると仮定する。例えば、判定装置１００は、画像データを用いるユーザの属性情報に有意な相違がある場合に、画像データが使い分けられることに所定の意味が含まれていると判定する。そして、判定装置１００は、「花火」という共通した概念を有する画像データであっても、それぞれ異なる結果を返す情報処理を実行する。

例えば、判定装置１００は、統計情報に基づき、「打ち上げ花火」という画像データを用いるユーザには、「６０代」、「男性」といった属性を有するユーザが比較的多いといった情報を取得しているものとする。同様に、判定装置１００は、統計情報に基づき、「線香花火」という画像データを用いるユーザには、「１０代」、「女性」といった属性を有するユーザが比較的多いといった情報を取得しているものとする。同様に、判定装置１００は、統計情報に基づき、「手持ち花火」という画像データを用いるユーザには、「２０代」、「男性」といった属性を有するユーザが比較的多いといった情報を取得しているものとする。

上記の３種の画像データで検索処理を行った場合、判定装置１００は、例えば、「打ち上げ花火」という画像データを用いたユーザには、「６０代」、「男性」が関心を有するような検索結果を優先的に表示させることができる。また、判定装置１００は、検索結果を表示する画面に「６０代」、「男性」が関心を有するようなレコメンド情報を表示させることができる。同様に、判定装置１００は、「線香花火」や「手持ち花火」という画像データを用いたユーザに対しても、かかる画像から特定される属性に基づいた情報処理を行うことができる。

また、判定装置１００は、統計情報に基づき、ユーザが異なる画像データを用いた意図を学習し、かかる学習結果を利用する処理を行ってもよい。例えば、判定装置１００は、「花火」という共通した概念を有する画像データを用いて検索処理を行ったユーザを基準モデルとし、検索結果から「花火大会」のリンク先を訪問したユーザをグループ別モデルとした条件下において、有意な差異が生じるかを判定する。そして、判定装置１００は、「花火」という共通した概念を有する画像データのうち、「打ち上げ花火」を用いて検索を行ったユーザ群が、検索結果のうち、特に「花火大会」のリンク先を訪問する率が高いと学習したとする。この場合、判定装置１００は、「花火」という共通した概念を有する画像データを用いて新たに検索処理を行ったユーザについて、ユーザが用いた画像データが「打ち上げ花火」であれば、「花火大会」の検索結果を優先的に表示する、といった情報処理を実行することができる。

上記の例は、画像データに限らず、種々のコンテンツに用いられてもよい。ここでコンテンツには、情報処理装置が取り扱うことが可能なあらゆるデータ（もしくは、データの集合体）が含まれてよい。例えば、判定装置１００は、音声データや、センサデータなどをコンテンツとして用いてもよい。一例として、判定装置１００は、センサデータとして位置情報を取得した場合に、通常の閾値であれば同一とみなす状況であっても、所定の意味が含まれていると判定される場合には、同一とみなさず、異なるデータの可能性を考慮して情報処理を実行することができる。

すなわち、判定装置１００に係る取得部１３１は、異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する。また、判定装置１００に係る判定部１３３は、取得された使用態様の統計情報に基づいて、異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する。そして、判定装置１００に係る実行部１３４は、判定された結果に基づいて、コンテンツに関する所定の情報処理を実行する。

このように、判定装置１００は、通常であれば同一のものとして情報処理が実行されるコンテンツであっても、各々のコンテンツに含まれる意味を抽出することで、異なる情報処理を実行することができる。これにより、判定装置１００は、コンテンツを利用するユーザの属性や、ユーザの意図を汲む、柔軟な情報処理を実現することができる。

例えば、実行部１３４は、判定部１３３によって、異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであると判定された場合には、コンテンツを集約して取り扱う名寄せ処理を実行せず、使い分けされるコンテンツでないと判定された場合には、名寄せ処理を実行する。また、取得部１３１は、異なる態様により表されるコンテンツの使用態様として、当該コンテンツを使用するユーザの属性情報、当該コンテンツが使用されるサービスに関する情報、又は、当該コンテンツと同時に使用される他のコンテンツに関する情報の少なくとも一つを取得する。

〔５．ハードウェア構成〕
また、上述してきた各実施形態に係る判定装置は、例えば図１８に示すような構成のコンピュータ１０００によって実現される。以下、判定装置１００を例に挙げて説明する。図１８は、判定装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に記憶されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を記憶する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス１５００は、通信網５００（ネットワークＮに対応）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が作成したデータを、通信網５００を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して作成したデータを出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に記憶されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が第１の実施形態に係る判定装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが記憶される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から通信網５００を介してこれらのプログラムを取得してもよい。

〔６．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図２に示した取得部１３１と、学習部１３２とは統合されてもよい。また、例えば、記憶部１２０に記憶される情報は、ネットワークＮを介して、外部に備えられた記憶装置に記憶されてもよい。

また、例えば、上記実施形態では、判定装置１００が、同義語の使用態様を取得する取得処理と、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する判定処理と、所定の情報処理を実行する実行処理とを行う例を示した。しかし、判定装置１００は、取得装置と、判定装置と、実行装置とに分離されてもよい。この場合、説明してきた判定装置１００による処理は、取得装置と、判定装置と、実行装置との各装置を有する判定処理システム１によって実現される。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。例えば、上述した第３の実施形態において、実行部３３４が、種々の状況に応じた情報処理として、同義語が検索クエリとして使用された検索結果の表示処理、同義語を使用するユーザに対する情報の提供処理、又は、同義語を使用するユーザに属性を付与する処理等を実行する例を示した。しかし、実行部３３４によって実行される処理は、第１の実施形態に係る実行部１３４、又は第２の実施形態に係る実行部２３４によって同様に実行されてもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１判定処理システム
１０ユーザ端末
１００判定装置
１１０通信部
１２０記憶部
１２１テキストデータ記憶部
１２２学習情報記憶部
１３０制御部
１３１取得部
１３２学習部
１３３判定部
１３４実行部
２２１統計情報記憶部
２２２ユーザ情報記憶部
２２３特定表記記憶部
３２３モデル記憶部

Claims

異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得部と、
前記取得部によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定部と、
前記判定部によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行部と、
を備えたことを特徴とする情報処理装置。
前記実行部は、
前記判定部によって、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであると判定された場合には、前記異なる態様により表されるコンテンツを集約して取り扱う名寄せ処理を実行せず、使い分けされるコンテンツでないと判定された場合には、名寄せ処理を実行する、
ことを特徴とする請求項１に記載の情報処理装置。
前記取得部は、
前記異なる態様により表されるコンテンツの使用態様として、当該コンテンツを使用するユーザの属性情報、当該コンテンツが使用されるサービスに関する情報、又は、当該コンテンツと同時に使用される他のコンテンツに関する情報の少なくとも一つを取得する、
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記取得部は、
前記コンテンツの仕様態様として、異表記される同義の文字列の使用態様を取得し、
前記判定部は、
前記取得部によって取得された使用態様の統計情報に基づいて、前記異表記される同義の文字列が、当該文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定し、
前記実行部は、
前記判定部によって判定された結果に基づいて、前記文字列に関する所定の情報処理を実行する、
ことを特徴とする請求項１〜３のいずれか一つに記載の情報処理装置。
前記取得部は、
前記異表記される同義の文字列が含まれる文に対応するテキストデータを取得し、
前記判定部は、
前記テキストデータにおける前記文字列の前後の文脈との相関性に基づいて、当該文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する、
ことを特徴とする請求項４に記載の情報処理装置。
前記取得部は、
前記異表記される同義の文字列のうち、特定の文字列が使用される所定の要因を取得し、
前記判定部は、
前記特定の文字列が使用された場合に、当該特定の文字列を含む同義の文字列が、当該同義の文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であると判定する、
ことを特徴とする請求項４に記載の情報処理装置。
前記取得部は、
前記所定の要因として、前記特定の文字列を使用するユーザ群に共通する属性情報を取得し、
前記実行部は、
前記特定の文字列が使用された場合に、当該特定の文字列を使用したユーザに対して、当該特定の文字列を使用するユーザ群に共通する属性情報を付与する、
ことを特徴とする請求項６に記載の情報処理装置。
前記取得部は、
所定の条件下での前記異表記される同義の文字列の使用態様を取得し、
前記判定部は、
前記異表記される同義の文字列の使用態様のうち、前記所定の条件下でない使用態様と、当該所定の条件下での使用態様とを比較することにより、当該文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する、
ことを特徴とする請求項４に記載の情報処理装置。
前記実行部は、
前記判定部によって、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであると判定された場合には、当該コンテンツが検索クエリとして使用された検索結果の表示処理、当該コンテンツを使用するユーザに対する情報の提供処理、又は、当該コンテンツを使用するユーザに属性を付与する処理の少なくとも一つについて、前記所定の意味に応じて、異なる態様により表されるコンテンツごとに異なる処理を実行する、
ことを特徴とする請求項１〜８のいずれか一つに記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得工程と、
前記取得工程によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定工程と、
前記判定工程によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行工程と、
を含んだことを特徴とする情報処理方法。
異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得手順と、
前記取得手順によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定手順と、
前記判定手順によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。