JP2017004260A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2017004260A
JP2017004260A JP2015117686A JP2015117686A JP2017004260A JP 2017004260 A JP2017004260 A JP 2017004260A JP 2015117686 A JP2015117686 A JP 2015117686A JP 2015117686 A JP2015117686 A JP 2015117686A JP 2017004260 A JP2017004260 A JP 2017004260A
Authority
JP
Japan
Prior art keywords
content
user
information
information processing
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015117686A
Other languages
English (en)
Other versions
JP6680472B2 (ja
Inventor
孝太 坪内
Kota Tsubouchi
孝太 坪内
奈翁美 笹谷
Naomi Sasaya
奈翁美 笹谷
藤田 澄男
Sumio Fujita
澄男 藤田
山下 達雄
Tatsuo Yamashita
達雄 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2015117686A priority Critical patent/JP6680472B2/ja
Publication of JP2017004260A publication Critical patent/JP2017004260A/ja
Application granted granted Critical
Publication of JP6680472B2 publication Critical patent/JP6680472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンテンツに対する柔軟な情報処理を実現すること。【解決手段】本願に係る情報処理装置は、取得部と、判定部と、実行部とを有する。取得部は、異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する。判定部は、取得部によって取得された使用態様の統計情報に基づいて、異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する。実行部は、判定部によって判定された結果に基づいて、コンテンツに関する所定の情報処理を実行する。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
情報処理分野において、所定のコンテンツを解析することにより、コンテンツの同一性を判定する場合がある。例えば、文字列(単語等)の意味をデータベース化し、同義の文字列については同じものとして処理を行う場合がある。具体的には、検索サイトにおいて、入力された検索クエリが異なる表記であっても、クエリの持つ意味が同じであれば同じ検索結果を返す、といった処理を行うことで、ユーザの利便性に資することができる。
このような情報処理に関する技術として、文字列同士の比較処理において、文字列の意味内容を考慮して両文字列の比較を行うことができる技術が知られている(例えば、特許文献1)。また、類似表記の対象セットをクエリとして検索を行い、検索結果から根拠情報を抽出して根拠情報同士の比較により対象の同一性(名寄せ判定)を行うことができる技術が知られている(例えば、特許文献2)。また、ログ情報を用いて、ユーザの入力意図を反映した標準表記を抽出する技術や(例えば、特許文献3)、クエリ同士の類似度を算出し、算出結果(類似度)に基づいて類似クエリを抽出する技術が知られている(例えば、特許文献4)。さらに、閲覧文書から類似するキーワードを集約し、提示する技術が知られている(例えば、特許文献5)。
特開2012−073951号公報 特開2010−231253号公報 特開2011−192222号公報 特開2011−209999号公報 特開2011−215950号公報
しかしながら、上記の従来技術では、コンテンツに対する柔軟な情報処理を実現することは困難である。具体的には、上記の従来技術では、同義の文字列を名寄せすることで、異表記される同義の文字列を標準的な表記や同一の表記の文字列として取り扱うに過ぎない。すなわち、従来では、複数存在する同義の文字列の中から特定の文字列を選択したユーザの意図や、特定の文字列を選択する要因となったユーザの属性などを反映した処理を行うことが困難であった。また、上記課題は、文字列のみならず、例えば、共通概念を有し、かつ、異なる態様で表されるコンテンツ(例えば、画像データや音声データ)についても共通する。
本願は、上記に鑑みてなされたものであって、コンテンツに対する柔軟な情報処理を実現することができる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。
本願に係る情報処理装置は、異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得部と、前記取得部によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定部と、前記判定部によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行部と、を備えたことを特徴とする。
実施形態の一態様によれば、コンテンツに対する柔軟な情報処理を実現することができるという効果を奏する。
図1は、第1の実施形態に係る判定処理の一例を示す図である。 図2は、第1の実施形態に係る判定装置の構成例を示す図である。 図3は、第1の実施形態に係るテキストデータ記憶部の一例を示す図である。 図4は、第1の実施形態に係る学習情報記憶部の一例を示す図である。 図5は、第1の実施形態に係る判定装置による判定処理手順を示すフローチャートである。 図6は、第2の実施形態に係る判定処理の一例を示す図である。 図7は、第2の実施形態に係る判定装置の構成例を示す図である。 図8は、第2の実施形態に係る統計情報記憶部の一例を示す図である。 図9は、第2の実施形態に係るユーザ情報記憶部の一例を示す図である。 図10は、第2の実施形態に係る特定表記記憶部の一例を示す図である。 図11は、第2の実施形態に係る判定装置による判定処理手順を示すフローチャートである。 図12は、第3の実施形態に係る判定処理の一例を示す図である。 図13は、第3の実施形態に係る判定装置の構成例を示す図である。 図14は、第3の実施形態に係る統計情報記憶部の一例を示す図である。 図15は、第3の実施形態に係るユーザ情報記憶部の一例を示す図である。 図16は、第3の実施形態に係るモデル記憶部の一例を示す図である。 図17は、第3の実施形態に係る判定装置による判定処理手順を示すフローチャートである。 図18は、判定装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.第1の実施形態〕
〔1−1.判定処理の一例〕
まず、図1を用いて、第1の実施形態に係る判定処理の一例について説明する。図1は、第1の実施形態に係る判定処理の一例を示す図である。図1では、本願に係る情報処理装置に対応する判定装置100を含む判定処理システム1によって、共通する概念を有するコンテンツに関する判定処理が行われる一例を示す。なお、以下では、コンテンツとして文字列(テキストデータ)を例に挙げて説明する。
図1に例示するように、判定処理システム1には、複数台のユーザ端末10、10、10と、判定装置100とが含まれる。ユーザ端末10、10、10と、判定装置100は、図示しないネットワークNを介して、ユーザ端末10、10、10と通信可能に接続される。なお、判定処理システム1に含まれるユーザ端末10、10、10の台数は、図1に示した例に限られない。また、以下では、ユーザ端末10、10、10を区別する必要がない場合には、これらを総称して「ユーザ端末10」と表記する場合がある。
ユーザ端末10は、例えば、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット型端末や、携帯電話機、PDA(Personal Digital Assistant)等の情報処理装置である。例えば、ユーザ端末10は、ユーザによる操作に従って、所定のウェブサーバにアクセスする。ユーザは、ユーザ端末10を介して、ウェブサーバから提供されるサービスを利用する。例えば、ユーザは、検索サイトを利用したり、ショッピングサイトにレビューを書き込んだり、SNS(Social Networking Service)サイトにメッセージを投稿したりすることができる。
判定装置100は、異表記される同義の文字列(同義語)に関する判定処理を行う情報処理サーバである。具体的には、第1の実施形態に係る判定装置100は、各種サービスの利用に際してユーザ端末10から出力されるテキストデータを取得し、取得したテキストデータに含まれる同義語を特定する。そして、判定装置100は、同義語のうち異表記される複数の語について、異表記であっても共通した処理が行われる語群として扱うか(すなわち、名寄せ処理を行うか)、あるいは、同義語であっても異なる語として処理される意義を持つ語群として扱うか、を判定する処理を行う。
同義語であっても異表記される語が用いられる場合には、その使用態様において、ユーザ側に何らかの意図があるか、あるいは、無意識にユーザによって使い分けされていること等が想定される。そこで、判定装置100は、異表記される同義語が使い分けられている要因があるか否かを判定する。言い換えれば、判定装置100は、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語であるか否かを判定する。判定装置100は、判定処理を行うことにより、同義語の使い分けに込められた所定の意味を汲んだ情報処理を実行することができる。以下では、判定装置100によって行われる文字列の判定処理の一例を流れに沿って説明する。
まず、判定装置100は、異表記される同義語の使用態様を取得する。すなわち、判定装置100は、同義語がいずれのユーザによって使用されたか、どのような文脈とともに使用されたか、あるいは、ネットワークN上のどのようなサービスにおいて使用されたかといった、実際に同義語が使用された態様に関する情報を取得する。例えば、判定装置100は、異表記される同義語が含まれる文のテキストデータをユーザ端末10から取得する。図1の例では、判定装置100は、猫を示す同義語である「猫」、「ネコ」、「ねこ」といった3種類の異表記される語が含まれるテキストデータを取得する(ステップS11)。
図1に示すように、ユーザU01が利用するユーザ端末10から、「願い事を叶えてくれる猫です」といったテキストデータT01が投稿されたとする。また、ユーザU02が利用するユーザ端末10から、「ネコを飼いたいんだけど」といったテキストデータT02が投稿されたとする。また、ユーザU03が利用するユーザ端末10から、「ねこのきもちがわかる」といったテキストデータT03が投稿されたとする。このとき、判定装置100は、「猫」、「ネコ」、「ねこ」のいずれかの語をキーとして、テキストデータT01〜T03を特定する。そして、判定装置100は、特定されたテキストデータT01〜T03を取得する。
続いて、判定装置100は、異表記される同義語の出現傾向を学習する(ステップS12)。具体的には、判定装置100は、各テキストデータに含まれる「猫」、「ネコ」、「ねこ」といった同義語と、前後の文脈との相関性を学習する。そして、判定装置100は、相当数のテキストデータについて文脈との相関性を学習した後に、「猫、ネコ、ねこ」の語をマスクしたテキストデータを用いて、正解データである「猫、ネコ、ねこ」のうちいずれの語がマスクした箇所に入るかを当てるための学習を行う。「猫、ネコ、ねこ」の語が前後の文脈との間で共起性を強く有する場合、判定装置100は、前後の文脈に基づいて、「猫、ネコ、ねこ」のうちいずれが正解データであるかを高い確率で当てることができるようになる。一方、「猫、ネコ、ねこ」の語が前後の文脈との間で共起性を顕著に有さない場合、判定装置100は、「猫、ネコ、ねこ」のうちいずれが正解データであるか、を高い確率で当てることはできない。
そして、判定装置100は、正解データを当てることができる確率に基づいて、同義語の表記のゆらぎについて、同義語が共通して有する語意とは異なる意味が含まれているかを判定する(ステップS13)。さらに、判定装置100は、判定結果に基づいて、同義語に関する所定の情報処理を実行する。
具体的には、判定装置100は、所定の閾値を超える確率で「猫、ネコ、ねこ」の正解データを当てることができた場合には、ユーザには「猫、ネコ、ねこ」を使い分けるべき所定の意味があったものと判定する。この場合、判定装置100は、「猫、ネコ、ねこ」を名寄せ処理せずに、異なる意義を有する語として取り扱う。一方、判定装置100は、所定の閾値を超える確率で「猫、ネコ、ねこ」の正解データを当てることができない場合には、ユーザには「猫、ネコ、ねこ」を使い分けるべき所定の意味が乏しいものと判定する。この場合、判定装置100は、「猫、ネコ、ねこ」を名寄せ処理することで、共通した処理を行う語として取り扱う。すなわち、判定装置100は、「猫、ネコ、ねこ」を相互に置き換えたとしても、ユーザが同義語を使い分けた意味を没却させないと判定できる場合に、異表記される同義語の名寄せ処理を実行する。
このように、第1の実施形態に係る判定装置100は、異表記される同義語の使用態様を取得する。そして、判定装置100は、取得された使用態様の統計情報に基づいて、異表記される同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。そして、判定装置100は、判定された結果に基づいて、同義語に関する所定の情報処理を実行する。
すなわち、第1の実施形態に係る判定装置100は、異表記される同義語が使用される態様において、同義語が有する語意の他に、ユーザが同義語を使い分けた意図や、ユーザが意図せずに同義語を使い分けている要因(例えば、ユーザの性別、年齢、居住地などの属性情報)が含まれているか否かを判定することができる。これにより、判定装置100は、同義語の使用態様から抽出することのできる情報を用いた処理を行うことができる。
例えば、判定装置100による情報処理は、文章の校正処理等に応用される。仮に、判定装置100によって、前後の文脈に応じて「猫、ネコ、ねこ」が有意に使い分けられていると判定され、また、漢字表記される「猫」と「叶える」とが共起関係にあると判定されたとする。このとき、判定装置100は、「願い事を叶えてくれるねこです」というユーザから投稿された文章を取得した場合、当該文章において「ねこ」よりも「猫」を用いた方が文章として適切であることを判定する。そして、判定装置100は、「願い事を叶えてくれるねこです」という文章を、「願い事を叶えてくれる猫です」という文章に校正する。このように、判定装置100によれば、文章に含まれる異表記される同義語を多数のユーザに受け入れられ易い適切な同義語に変換する、といった校正処理を行うことができる。
このような処理は、仮名漢字の変換に係る異表記のみならず、異なる音を持つ同義語間で行われてもよい。例えば、判定装置100によって、同義語である「緑茶」と「グリーンティー」とが有意に使い分けられていると判定され、また、「グリーンティー」と「アメリカ」とが共起関係にあると判定されたとする。このとき、判定装置100は、「アメリカのスーパーで緑茶を買った」という文章において、「緑茶」よりも「グリーンティー」を用いた方が文章的に適切であることを指摘することができる。なお、判定装置100は、かかる処理について、単語の前の文脈を用いた文字変換処理に応用してもよい。例えば、判定装置100は、「あめりかのすーぱーでりょくちゃを」とユーザから入力されたテキストを、単語(ここでは、「りょくちゃ」)の前の文脈を用いて、「アメリカのスーパーでグリーンティーを」と変換処理することができる。
このように、判定装置100は、同義語を名寄せ処理するか否かを判定することができる。具体的には、判定装置100は、同義語の全てに共通する処理が実行されるように扱ったり、また、同義語の全てを異なる語句として取り扱ったりするなどの判定を固定するのではなく、実際に使用される態様に基づいて、同義語に関する処理を柔軟に実行することができる。これにより、判定装置100は、使い分けられた同義語を利用する情報処理を実現することができる。
なお、判定装置100は、同義語に関する情報について、予め所定の辞書情報から取得してもよい。例えば、判定装置100は、第三者から提供されるシソーラス(Thesaurus)を参照することにより、処理対象とする同義語に関する情報を取得することができる。
〔1−2.判定装置の構成〕
次に、図2を用いて、第1の実施形態に係る判定装置100の構成について説明する。図2は、第1の実施形態に係る判定装置100の構成例を示す図である。図2に示すように、判定装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、判定装置100は、判定装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、テキストデータ記憶部121と、学習情報記憶部122とを有する。
(テキストデータ記憶部121について)
テキストデータ記憶部121は、テキストデータに関する情報を記憶する。ここで、図3に、第1の実施形態に係るテキストデータ記憶部121の一例を示す。図3は、第1の実施形態に係るテキストデータ記憶部121の一例を示す図である。図3に示した例では、テキストデータ記憶部121は、「統計データID」、「同義語」、「テキストデータ」といった項目を有する。
「統計データID」は、統計された情報を識別するための識別情報を示す。例えば、統計データIDは、処理対象とする同義語ごとに付与される。「同義語」は、処理対象となる同義語を示す。図3に示すように、「同義語」には、共通する意味を有する語句であって、異表記される複数の語句が含まれる。すなわち、判定装置100は、同義語のいずれかをキーとしてテキストデータを特定し、特定されたテキストデータを一連の統計データとして記憶する。
「テキストデータ」は、判定装置100によって取得されたテキストの内容を示す。例えば、テキストデータは、同義語を含む一文の文章の形式で取得され、記憶される。
すなわち、図3に示す一例では、統計データID「D11」によって識別される統計データは、同義語「猫、ネコ、ねこ」をキーとして統計されたデータであり、「願いを叶えてくれる猫です」や、「ネコを飼いたいんだけど」や、「ねこのきもちがわかる」といったテキストデータが含まれることを示している。
(学習情報記憶部122について)
学習情報記憶部122は、同義語の出現傾向の学習に関する情報を記憶する。図4に、第1の実施形態に係る学習情報記憶部122の一例を示す。図4は、第1の実施形態に係る学習情報記憶部122の一例を示す図である。図4に示した例では、学習情報記憶部122は、「統計データID」、「学習データ」、「統計数」、「正解率」といった項目を有する。
「統計データID」は、図3に示した同様の項目に対応する。「学習データ」は、テキストデータ記憶部121に記憶されたテキストデータに対応するテキストであって、学習に用いられるテキストを示す。学習データは、例えば、同義語を「*」のような任意の文字に置換したテキストである。
「統計数」は、統計データの総数を示す。言い換えれば、統計数は、学習に用いられたテキストデータの数を示す。一般に、統計数が多いほど、学習精度が高いことが推測される。「正解率」は、統計データにおいて、正解データである同義語を当てることのできる確率を示す。
すなわち、図4に示す一例では、統計データID「D11」によって識別される統計データには、「願いを叶えてくれる**です」や、「**を飼いたいんだけど」や、「**のきもちがわかる」といった学習データが含まれることを示している。また、統計データID「D11」によって識別される統計データでは、「60000」のテキストデータを用いて学習が行われており、同義語を当てることのできる精度(正解率)は「0.76」であることを示している。
なお、学習情報記憶部122には、同義語と前後の文脈との相関性を学習した学習データが記憶されているものとする。例えば、学習情報記憶部122は、統計データに含まれる異表記される同義語の各々について、前後の文脈との相関性を学習した学習データを記憶する。
(制御部130について)
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、判定装置100内部の記憶装置に記憶されている各種プログラム(抽出プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図2に示すように、制御部130は、取得部131と、学習部132と、判定部133と、実行部134とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図2に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
取得部131は、各種情報を取得する。例えば、取得部131は、異表記される同義語の使用態様を取得する。同義語の使用態様として、取得部131は、同義語と同時に使用される他の文字列に関する情報を取得する。具体的には、取得部131は、ユーザから投稿された同義語を含む文のテキストデータを取得する。取得部131は、テキストデータとして、ユーザから投稿されるツイート(tweet)や、ショッピングサイトのレビューや、コミュニティサイトやSNSサイトに投稿されたメッセージなどを取得する。
なお、取得部131は、異表記される同義語の使用態様として、同義語を使用するユーザの属性情報、又は、同義語が使用されるサービスに関する情報を取得してもよい。すなわち、同義語の使用態様には、実際に同義語が使用されているテキストデータの態様のみならず、テキストデータを投稿したユーザや、テキストデータが投稿されたサービス(例えばウェブサイト等)に関する態様も含まれる。
取得部131は、異表記される同義語を使用するユーザを特定するための情報については、種々の既知の手法により取得することができる。例えば、ユーザ端末10の特定は、ユーザ端末10のウェブブラウザとウェブサーバとの間でやり取りされるクッキー(cookie)にユーザ識別情報を含めることによって行うことができる。
(学習部132について)
学習部132は、取得部131によって取得されたテキストデータに含まれる同義語の出現傾向を学習する。具体的には、学習部132は、テキストデータに含まれる同義語と前後の文脈との相関性を学習する。さらに、学習部132は、同義語がマスクされたテキストデータを用いて、マスクされた箇所に入る同義語を推定するための学習を行う。
例えば、学習部132は、「猫、ネコ、ねこ」のうちいずれかの語が正解データであるテキストデータについて、マスクされた箇所の前後の文脈に基づいて、「猫、ネコ、ねこ」のうちいずれの語をテキストデータに当て嵌めるかを機械学習する。そして、学習部132は、「猫、ネコ、ねこ」の中から正解データを当てることができた率である正解率を算出する。
学習部132は、異表記される同義語である「猫、ネコ、ねこ」の各語が前後の文脈に対応して有意に使い分けられているほど、高い正解率を算出する。また、学習部132は、多くのテキストデータを学習するほど、すなわち統計数が多いほど、信頼度の高い正解率を算出する。そして、学習部132は、学習の結果を学習情報記憶部122に格納する。
(判定部133について)
判定部133は、取得部131によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により、ユーザごとに使い分けされる同義語であるか否かを判定する。取得部131によって取得された使用態様の統計情報とは、例えば、学習部132による学習結果を示す。すなわち、判定部133は、テキストデータに含まれる同義語の前後の文脈との相関性に基づいて、処理対象となる同義語が、所定の意味を含めて使い分けられた同義語であるか否かを判定する。
なお、同義語が共通して有する語意とは異なる所定の意味を含めた態様とは、ユーザが当該同義語を使用するにあたり、同義語をあえて使い分ける意図や、意図せずとも同義語が使い分けてられている要因が存在することにより、同義語に共通する意味(「猫、ねこ、ネコ」であれば、動物としての「猫」を示すための語としての意味)の他に、何らかの意味が含められた態様であることを示している。例えば、ユーザが投稿する文中において、漢字表記の「猫」よりも、カタカナ表記の「ネコ」を用いた方が適切であると意図した場合などに、その使用態様には、同義語が共通して有する語意とは異なる所定の意味が含められることになる。この態様に関する学習がユーザの意図通りに進行すれば、所定の状況(例えば、前後の文脈の状況)において、判定部133は、同義語であっても、「猫」と「ネコ」とは使い分けられる方が適切であることを判定することができる。
判定部133は、例えば、学習部132によって算出される正解率に所定の閾値を設けて、所定の閾値を超える正解率が算出された場合に、異表記される同義語がユーザによって有意に使い分けされているものと判定する。
(実行部134について)
実行部134は、判定部133によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。例えば、実行部134は、同義語に関する所定の情報処理として、異表記される同義語の名寄せ処理をするか否かを選択する。
例えば、実行部134は、判定部133によって、異表記される同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語句であると判定された場合には、異表記される同義語を集約して、共通する語意を有する語句として取り扱う名寄せ処理を実行しない。一方、実行部134は、異表記される同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語句でないと判定された場合には、それらの同義語に対して名寄せ処理を実行する。
具体的には、実行部134は、同義語と前後の文脈とに所定の相関関係が認められない場合、すなわち、判定部133によって正解率が所定の閾値を超えないと判定された場合には、異表記される同義語を名寄せする。これは、同義語と前後の文脈とに所定の相関関係が認められない場合には、同義語が異表記される意義が有意に認められないことによる。言い換えれば、実行部134は、文脈によって有意に同義語が使い分けられていない場合に、当該同義語を名寄せする。これにより、実行部134は、異表記される同義語に対して共通の処理を行うことができるので、情報処理を効率化することができる。
一方、実行部134は、同義語と前後の文脈とに所定の相関関係が認められる場合、すなわち、判定部133によって正解率が所定の閾値を超えると判定された場合には、異表記される同義語を名寄せしない。これは、同義語と前後の文脈とに所定の相関関係が認められるため、同義語が異表記される意義が有意に認められることによる。この場合、同義語には、使い分けられるべき所定の意味が含められていると推測できる。このため、実行部134は、このような意味を没却させないよう、異表記される同義語を名寄せせずに、異なる語として取り扱う。これにより、実行部134は、表記の違いを活かした情報処理を実行することができる。
〔1−3.判定処理手順〕
次に、図5を用いて、第1の実施形態に係る判定装置100による判定処理の手順について説明する。図5は、第1の実施形態に係る判定装置100による判定処理手順を示すフローチャートである。
図5に示すように、取得部131は、同義語をキーとして、テキストデータを取得する(ステップS101)。そして、学習部132は、取得されたテキストデータを統計し、テキストデータに含まれる同義語の出現傾向に関する学習を行う(ステップS102)。
そして、判定部133は、学習部132による学習の結果、同義語の出現に関する正解率が所定の閾値を超えるか否かを判定する(ステップS103)。所定の閾値を超える場合(ステップS103;Yes)、実行部134は、異表記される同義語について、名寄せ処理をしないことを選択する(ステップS104)。
一方、所定の閾値を超えない場合(ステップS103;No)、実行部134は、異表記される同義語について、名寄せ処理をすることを選択する(ステップS105)。このように、判定装置100は、ユーザが同義語をテキスト内で使用する態様において、有意に使い分けがなされている場合には名寄せ処理を行わず、有意に使い分けがなされていない場合には名寄せ処理を行う。
〔1−4.効果〕
上述してきたように、第1の実施形態に係る判定装置100は、取得部131と、判定部133と、実行部134とを有する。取得部131は、異表記される同義語の使用態様を取得する。判定部133は、取得部131によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語句であるか否かを判定する。実行部134は、判定部133によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。
このように、第1の実施形態に係る判定装置100は、同義語が使用されるにあたり、同義語が有する語意の他に、ユーザが同義語を使い分けた意図や、ユーザが意図せずに同義語を使い分けている要因(例えば、ユーザの性別、年齢、居住地などの属性情報)などの所定の意味が含まれているか否かを判定する。そして、判定装置100は、判定結果に基づく情報処理を実行する。これにより、判定装置100は、使い分けられた同義語を利用する情報処理を実現することができる。
また、実行部134は、判定部133によって、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる語であると判定された場合には、異表記される同義語を集約して共通する語意を有する同義語として取り扱う名寄せ処理を実行せず、使い分けされる同義語でないと判定された場合には、名寄せ処理を実行する。
このように、第1の実施形態に係る判定装置100は、同義語の語意とは別に、同義語が使い分けられることに有意な差異があると判定される場合には、同義語であっても名寄せ処理をせず、異なる語として扱うことができる。すなわち、判定装置100は、同義語に関する処理を柔軟に実行することができる。
また、取得部131は、異表記される同義語の使用態様として、同義語を使用するユーザの属性情報、同義語が使用されるサービスに関する情報、又は、同義語と同時に使用される他の文字列に関する情報の少なくとも一つを取得する。
このように、第1の実施形態に係る判定装置100は、同義語の使用態様に関する種々の情報を取得する。これにより、判定装置100は、ある同義語を頻繁に用いるユーザの属性や、あるサービスにおいて特に用いられる同義語などの情報を取得することができる。そして、判定装置100は、取得した情報に基づいて判定処理等を行うので、個々のユーザに即した情報処理を実行することができる。
また、取得部131は、異表記される同義語が含まれる文に対応するテキストデータを取得する。判定部133は、テキストデータにおける同義語の前後の文脈との相関性に基づいて、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。
このように、第1の実施形態に係る判定装置100は、同義語を含む文に基づいて、同義語の使い分けに含まれるユーザの意図や、使い分けにつながる要因を判定する。このため、判定装置100は、ユーザが実際に文中で使用する同義語の使用体系に基づく情報処理を実行できる。例えば、判定装置100は、ユーザが使用する同義語の使い分けを統計し、学習することで、適切な同義語を選択する文章校正などを実行することができる。
〔2.第2の実施形態〕
上記第1の実施形態では、テキストデータに含まれる同義語と前後の文脈との相関性に基づいて、同義語の出現傾向を学習し、学習の結果に基づく判定処理を行う例を示した。しかし、異表記される同義語に関する判定は、上記第1の実施形態とは異なる処理によって行われてもよい。第2の実施形態では、異表記される同義語のうち、特定の使用態様により用いられる語を特定することにより、判定処理を行う例を示す。
〔2−1.判定処理の一例〕
まず、図6を用いて、第2の実施形態に係る判定処理の一例について説明する。図6は、第2の実施形態に係る判定処理の一例を示す図である。図6では、第2の実施形態に係る判定装置200によって、異表記される同義の文字列に関する判定処理が行われる一例を示す。なお、第2の実施形態の説明において、第1の実施形態で既出の装置や処理部に対応する説明は省略する。
図6に示すように、判定装置200は、ユーザ端末10から投稿されたテキストデータT21を取得する。テキストデータT21は、「ジュクの、CCCに集合!」といった文字列により構成される。このうち、「ジュク」とは、地名である「新宿」を異表記した同義語である。また、「CCC」は、所定の店舗名である「BBB」を異表記した同義語である。
また、判定装置200は、特定表記記憶部223を有する。特定表記記憶部223には、所定の属性情報と関連付けられる特定の同義語(以下、「特定表記」と記載する)の情報が記憶される。例えば、「新宿」の同義語のうち、特定表記である「ジュク」には、属性情報として「年齢:50代〜、所属業界:AAA」が関連付けられている。これは、「新宿」の同義語として「ジュク」を用いるユーザは、主として「年齢が50代以上」であり、「業界AAA」に所属している(あるいは、所属していた)、という属性を有することが推測されることを示している。また、「BBB」の同義語のうち、特定表記である「CCC」には、属性情報として「関西出身」が関連付けられている。これは、「BBB」の同義語として「CCC」を用いるユーザは、「出身地が関西地方」である、という属性が推測されることを示している。なお、特定表記は、例えば、異表記される同義語のうち、ある属性を有するユーザ群に限って頻繁に用いられる、といった使用態様の統計情報に基づいて、予め設定される。判定装置200は、特定表記の設定について、外部の辞書情報を参照してもよいし、後述するように、学習処理によって取得してもよい。
判定装置200は、テキストデータT21の取得に伴い、同義語のうち特定表記に該当する語句を取得する(ステップS21)。図6の例では、判定装置200は、特定表記である「ジュク」と「CCC」とを取得する。
ここで、判定装置200は、取得したテキストデータT21のうち、同義語の表記のゆらぎについて、語意とは異なる意味が含まれているかを判定する(ステップS22)。ここで、判定装置200は、特定表記記憶部223を参照し、テキストデータT21において、特定表記が取得されたか否かを判定する。そして、判定装置200は、特定表記に該当する語句が取得された場合には、表記のゆらぎについて、同義語に共通する語意とは異なる意味が含まれているものと判定する。言い換えれば、判定装置200は、特定表記された語句を用いるユーザには、同義語が共通して有する語意とは異なる所定の要因が有るものと判定する。
そして、判定装置200は、所定の情報処理として、特定表記を用いるユーザに対して所定の属性を付与する(ステップS23)。図6の例では、判定装置200は、ユーザU21に対して、「年齢が50代以上」であり、「業界AAA」に所属しており、「関西出身」である、という属性を付与する。
このように、第2の実施形態に係る判定装置200は、異表記される同義語のうち、特定表記を用いるユーザ群に共通する属性情報を取得する。また、判定装置200は、特定表記が使用された場合に、特定表記を含んだ同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であると判定する。さらに、判定装置200は、所定の情報処理として、特定表記を使用したユーザに対して、特定表記を用いるユーザ群に共通する属性情報を付与する。
すなわち、判定装置200は、異表記される同義語のうち、ある特殊なユーザ層に用いられる語句であったり、特定の要因をもって用いられる語句であったり(隠語、イニシャルトークなど)、ある特定のサービスで利用される語句であったりする語句を特定することにより、同義語が使い分けられていることに有意性があることを判定する。そして、判定装置200は、例えば未知の属性情報を有するユーザによって特定表記が用いられている場合には、当該ユーザに対して新たな属性を付与するといった処理を行うことができる。
例えば、判定装置200による情報処理は、ユーザに対応した適切なサービスを提供する場面に応用される。例えば、ユーザに関する情報として、ウェブサイトの行動履歴や登録情報に基づいて、ユーザの性別、年齢、居住地等の基本的な情報を取得することが可能である。しかしながら、ユーザの出身地や所属業界といった属性情報を取得することができるとは限らない。一方、判定装置200によれば、特定表記と、特定表記に関連付けられる属性情報とを取得することにより、属性情報を使用したユーザに属性を付与することができる。そして、判定装置200によれば、付与された属性に対応する広告コンテンツをユーザ端末10に配信したり、付与された属性に対応するレコメンド情報を表示させたりすることができる。すなわち、判定装置200は、同義語の使用態様から推測されるユーザ属性を利用することによって、ユーザに対して提供されるサービスの訴求効果を向上させたり、提供されるサービスの分野を拡充させたりすることができる。
〔2−2.判定装置の構成〕
次に、図7を用いて、第2の実施形態に係る判定装置200の構成について説明する。図7は、第2の実施形態に係る判定装置200の構成例を示す図である。図7に示すように、判定装置200は、第1の実施形態に係る判定装置100と異なる構成として、統計情報記憶部221と、ユーザ情報記憶部222と、特定表記記憶部223とを有する。
(統計情報記憶部221について)
統計情報記憶部221は、異表記される同義語の使用態様に関する統計情報を記憶する。ここで、図8に、第2の実施形態に係る統計情報記憶部221の一例を示す。図8は、第2の実施形態に係る統計情報記憶部221の一例を示す図である。図8に示した例では、統計情報記憶部221は、「統計データID」、「同義語」、「ユーザID」といった項目を有する。
「統計データID」及び「同義語」は、図3に示した同様の項目に対応する。「ユーザID」は、ユーザ又はユーザ端末10を識別する識別情報を示す。
すなわち、図8に示す一例では、統計データID「D21」によって識別される統計データとして、ユーザ「U211」が同義語「新宿」を用いた履歴や、ユーザ「U212」が同義語「新宿」を用いた履歴や、ユーザ「U213」が同義語「ジュク」を用いた履歴や、ユーザ「U214」が同義語「新宿」を用いた履歴が記憶されている例を示している。言い換えれば、統計情報記憶部221では、ユーザによって、異表記される同義語のうち、いずれの同義語が使用されたかといった履歴が記憶される。
なお、統計情報記憶部221には、ユーザが特定表記を使用した回数などが記憶されてもよい。後述する制御部230は、例えば、所定の回数より多く特定表記を使用したユーザのみを、特定表記を使用するユーザとして取り扱ってもよい。これにより、制御部230は、特殊な用途としてではなく慣習的に特定表記を使用しているユーザのみを抽出し、処理対象として取り扱うことができる。また、判定装置200は、どのような単語を特定表記とするかについて、シソーラス等を参照して、予め設定を行っていてもよい。そして、判定装置200は、後述する学習処理により、特定表記に対応付けるユーザの属性を学習する。
(ユーザ情報記憶部222について)
ユーザ情報記憶部222は、ユーザに関する情報を記憶する。ここで、図9に、第2の実施形態に係るユーザ情報記憶部222の一例を示す。図9は、第2の実施形態に係るユーザ情報記憶部222の一例を示す図である。図9に示した例では、ユーザ情報記憶部222は、「ユーザID」、「性別」、「年齢」、「所属業界」、「出身」といった項目を有する。
「ユーザID」は、図8に示した同様の項目に対応する。「性別」は、ユーザの性別を示す。「年齢」は、ユーザの年齢を示す。「所属業界」は、ユーザが所属する業界を示す。「出身」は、ユーザの出身地を示す。なお、ユーザに関する情報として、不明な項目については、「‐」が記載される。
すなわち、図9に示す一例では、ユーザID「U11」によって識別されるユーザは、性別が「男性」であり、年齢が「20歳代」であり、所属業界が「DDD」であり、出身が不明であることを示している。
(特定表記記憶部223について)
特定表記記憶部223は、特定表記に関する情報を記憶する。ここで、図10に、第2の実施形態に係る特定表記記憶部223の一例を示す。図10は、第2の実施形態に係る特定表記記憶部223の一例を示す図である。図10に示した例では、特定表記記憶部223は、「統計データID」、「標準表記」、「特定表記」、「推測される属性」といった項目を有する。
「統計データID」は、図8に示した同様の項目に対応する。「標準表記」は、統計データに含まれる同義語のうち、標準的な表記を示す。「特定表記」は、統計データに含まれる同義語のうち、特定の属性と対応付けられる表記を示す。「推測される属性」は、特定表記に関連付けられた属性であり、特定表記を使用するユーザが有すると推測される属性である。
すなわち、図10に示す一例では、統計データID「D21」によって識別される統計データは、標準表記では「新宿」と表記される同義語をキーとして統計されたデータであり、同義語のうち「ジュク」は、推測される属性として「年齢50代〜、所属業界AAA」を有するユーザによって使用される特定表記であることを示している。
(制御部230について)
図7に示すように、第2の実施形態に係る制御部230は、取得部231と、学習部232と、判定部233と、実行部234とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部230の内部構成は、図7に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部230が有する各処理部の接続関係は、図7に示した接続関係に限られず、他の接続関係であってもよい。なお、重複する記載は省略するが、第2の実施形態に係る制御部230が有する各処理部は、第1の実施形態に係る制御部130が有する各処理部に対応する同様の処理についても、適宜実行することが可能であるものとする。
(取得部231について)
取得部231は、各種情報を取得する。例えば、取得部231は、異表記される同義語の使用態様を取得する。具体的には、取得部231は、ユーザから投稿された同義語を含むテキストデータを取得する。
また、取得部231は、同義語のうち、特定の文字列(すなわち、特定表記された同義語)に関する情報を取得する。例えば、取得部231は、異表記される同義語のうち、特定表記が使用される所定の要因を取得する。具体的には、取得部231は、特定表記が使用される所定の要因として、特定表記を使用するユーザ群に共通する属性情報を取得する。なお、取得部231は、共通する属性情報を取得するにあたり、特定表記が使用される慣習に関する情報や、特定表記が使用される状況(例えば、隠語として用いられる場合など)や、特定表記が使用されるサービスに関する情報などを取得してもよい。具体的には、取得部231は、特定の社会的グループを構成する者のみが慣習的に使用する語に関する情報を取得する。そして、取得部231は、かかる特定の語を使用する社会的グループに共通する属性情報を取得する。また、取得部231は、所定の状況において、隠語やイニシャルトークで用いられる語に関する情報を取得する。そして、取得部231は、かかる隠語やイニシャルトークを主に使用するようなユーザに共通する属性情報を取得する。また、取得部231は、ある特定のサービスにおいて、他のサービス等で用いられる表記とは異なる表記のされる語に関する情報を取得する。そして、取得部231は、ある特定のサービスを主に用いるユーザや、ある特定のサービスにおいて他と異なる表記のされる語を主に使用するようなユーザに共通する属性情報を取得する。
上述のように、取得部231は、特定表記に関する情報について、外部の辞書情報を参照することで取得してもよいし、学習部232の学習結果に基づいて取得してもよい。例えば、取得部231は、特定の社会的グループを構成する者のみが慣習的に使用する語について、外部の辞書情報を参照することにより取得する。また、例えば、取得部231は、学習部232が同義語の出現傾向を学習することにより、ある共通する属性を有するユーザに高い頻度で使用される同義語が検出された場合には、検出された同義語を特定表記として取得する。また、取得部231は、学習部232が特定表記を使用するユーザの傾向を学習することにより、特定表記に関連付けられる属性情報が新たに検出された場合には、検出された属性情報を取得する。
(学習部232について)
学習部232は、取得部231によって取得された特定表記の出現傾向を学習する。具体的には、学習部232は、特定表記が用いられた所定量の統計情報に基づいて、特定表記と特定表記を使用したユーザに関する情報との相関性を学習する。
学習部232は、既知の種々の手法により、特定表記の出現傾向を学習することが可能である。一例として、学習部232は、所定の回数より多く標準表記される語句を使用したユーザの集合(P_a)と、所定の回数より多く特定表記される語句を使用したユーザの集合(P_b)とを標本とし、両者を統計的に検定する手法により、例えば、両者間に有意な差異が生じるかを学習する。そして、学習部232は、全体の集合(母集合)に対して、集合(P_a)や、集合(P_b)の分散の度合いを求めることにより、例えば、集合(P_b)に関する特異性を学習する。なお、学習部232は、集合(P_a)や集合(P_b)の各特徴量について、連続量について正規分布が仮定できるものについてはt検定など、そうでないものについては適切な統計的検定法によって、母分散の同一性を検定する。また、学習部232は、離散的な属性について、例えば、KL-Divergence(Kullback−Leibler Divergence)などを用いて確率分布の隔たりを測るといった手法を採ることができる。
具体的には、学習部232は、集合(P_a)と集合(P_b)との統計情報に基づいて、集合(P_b)に含まれるユーザの属性情報の特異性を学習する。これにより、学習部232は、特定表記を使用するユーザに対して推測される属性情報を抽出することができる。例えば、学習部232は、母集合に対する集合(P_b)の属性情報として、「年齢50代以上」が有意に検定された場合には、特定表記を用いるユーザ群に共通する属性情報として、「年齢50代以上」を抽出することができる。そして、学習部232は、抽出した属性情報を特定表記記憶部223に格納する。すなわち、学習部232は、特定の属性を有するユーザのみが使う用法の正規化辞書として特定表記記憶部223を作成し、また、更新していくことが可能である。
なお、上記では、ユーザの属性情報に基づいて統計的検定を行う例を示したが、学習部232は、属性情報以外の情報を用いてもよい。例えば、学習部232は、ユーザが利用するサービスを軸として、特定表記の出現を学習してもよい。この場合、学習部232は、特定表記を用いるユーザと、ユーザが頻繁に利用するサービスとの関係性を求めることができる。
(判定部233について)
判定部233は、取得部231によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。ここで、取得部231によって取得された使用態様の統計情報とは、例えば、学習部232による学習結果を示す。
ここで、判定部233は、特定表記が使用された場合に、特定表記を含む同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であると判定する。ここでは、所定の意味とは、例えば、同義語の語意とは別の理由で、同義語のうち特定表記が選択され、使用される要因を示す。例えば、同義語のうち特定表記を使用することが慣習となっているユーザ群においては、ユーザ群に共通する属性情報が要因に該当する。すなわち、判定部233は、特定表記記憶部223を参照し、ユーザによって使用された同義語が特定表記に該当するか否かによって、当該同義語が所定の意味を含めた態様により使い分けされる同義語であるか否かを判定する。
(実行部234について)
実行部234は、判定部233によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。例えば、実行部234は、特定表記を使用したユーザに対して、特定表記が使用された所定の要因に基づいて、所定の情報処理を実行する。具体的には、実行部234は、所定の情報処理として、特定表記を使用したユーザに対して、特定表記を使用するユーザ群に共通する属性情報を付与する処理を実行する。これは、数ある同義語の中から特定表記をあえて選択し、使用する要因となったのは、特定表記を使用するユーザ群に共通する属性情報であると想定されることによる。
また、実行部234は、同義語のうち特定表記が使用された場合には、異表記される同義語を名寄せせず、同義語のうち特定表記が使用されない場合には、当該同義語を名寄せ処理する、といった情報処理を行ってもよい。すなわち、特定表記のように、所定の要因によりあえて選択され、また、使用されている同義語が使用された場合には、実行部234は、名寄せ処理をせず、特定表記と他の同義語とで異なる情報処理を実行する。
実行部234は、特定表記を使用したユーザに対して新たな属性情報を付与した場合には、ユーザ情報記憶部222を更新する。なお、実行部234は、特定表記を使用したユーザに対して、直ちに属性情報を付与しなくてもよい。例えば、実行部234は、ユーザによって同義語が使用された一定回数のうち、所定の回数より多く特定表記を使用したユーザのみに、新たな属性情報を付与してもよい。
〔2−3.判定処理手順〕
次に、図11を用いて、第2の実施形態に係る判定装置200による判定処理の手順について説明する。図11は、第2の実施形態に係る判定装置200による判定処理手順を示すフローチャートである。
図11に示すように、取得部231は、同義語の使用態様を取得する(ステップS201)。そして、学習部232は、取得された使用態様を統計し、同義語中の特定表記に関する学習を行う(ステップS202)。
そして、判定部233は、ユーザによって特定表記が使用されたか否かを判定する(ステップS203)。特定表記が使用された場合(ステップS203;Yes)、実行部234は、特定表記に関連付けられている属性をユーザに付与する(ステップS204)。
一方、特定表記が使用されていない場合(ステップS203;No)、実行部234は、特定表記に関連付けられている属性をユーザに付与しない(ステップS205)。
〔2−4.効果〕
上述してきたように、第2の実施形態に係る判定装置200は、取得部231と、判定部233と、実行部234とを有する。取得部231は、異表記される同義の文字列のうち、特定表記が使用される所定の要因を取得する。判定部233は、特定表記が使用された場合に、当該特定表記を含む同義語が、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であると判定する。実行部234は、特定表記が使用された場合に、所定の要因に対応する所定の情報処理を実行する。
このように、第2の実施形態に係る判定装置200は、同義語のうち、所定の要因に基づいて使用される特定の同義語である特定表記を判定処理に用いる。言い換えれば、判定装置200は、特殊な態様において使用される語として、同義語の中から統計的に抽出される語に関する情報を用いることによって、同義語の使い分けに関する判定処理を精度よく行うことができる。また、判定装置200は、特定表記が使用される要因に対応した情報処理を行うため、ユーザごとの同義語の使い分けに応じた柔軟な処理を実行することができる。
また、取得部231は、所定の要因として、特定表記を使用するユーザ群に共通する属性情報を取得する。実行部234は、特定表記が使用された場合に、特定表記を使用したユーザに対して、特定表記を使用するユーザ群に共通する属性情報を付与する。
このように、第2の実施形態に係る判定装置200は、特定表記に関連付けられる属性情報を取得することにより、新たに特定表記を使用したユーザに対して属性を付与するといった情報処理を実行する。例えば、判定装置200によれば、特定表記を使用するようなユーザ層に限った広告コンテンツの配信や、レコメンド情報の提供などを実行することができる。これにより、判定装置200によれば、情報提供のターゲット精度を向上させたり、訴求効果を向上させたりすることができる。
〔3.第3の実施形態〕
上記第2の実施形態では、異表記される同義語のうち特定表記が使用されているか否かを判定する判定処理の一例を示した。しかし、異表記される同義語に関する判定は、上記第2の実施形態とは異なる処理によって行われてもよい。第3の実施形態では、所定の学習モデルを作成することにより、判定処理を行う例について説明する。
〔3−1.判定処理の一例〕
まず、図12を用いて、第3の実施形態に係る判定処理の一例について説明する。図12は、第3の実施形態に係る判定処理の一例を示す図である。図12では、第3の実施形態に係る判定装置300によって、異表記される同義の文字列に関する判定処理が行われる一例を示す。なお、第3の実施形態の説明において、第1の実施形態や第2の実施形態で既出の装置や処理部に対応する説明は省略する。
図12に示すように、判定装置300は、ユーザU31〜U33の各々が操作するユーザ端末10〜10から、異表記される同義語である「猫」、「ネコ」、「ねこ」のそれぞれが使用される態様を取得する。このとき、判定装置300は、任意の正解データを設定し、ユーザから使用態様を取得する。図12の例では、判定装置300は、正解データを「商品Aに興味があるユーザ」に設定するものとする。そして、判定装置300は、例えば、商品Aを取り扱うショッピングサイトにおいて商品の検索に用いるクエリとして、ユーザ端末10〜10から投稿された「猫」、「ネコ」、「ねこ」の文字列を取得する。
ここで、判定装置300は、任意の正解データを求める問題を設定し、「猫」、「ネコ」、「ねこ」の各々をクエリとした場合の、各々の重み値を求める。ここでは、判定装置300は、正解データとして「商品Aに興味があるユーザ」を設定する(正解データは、「商品Aを取り扱うショッピングサイトを訪れるユーザ」と読み替えることができる)。この場合、判定装置300は、同義語のうち「猫」を使用するユーザと、「商品Aに興味があるユーザ」との相関性が高い程、「猫」のクエリの重み値を高く算出する。同様に、判定装置300は、同義語である「ネコ」及び「ねこ」に関しても、重み値を算出する。すなわち、判定装置300は、異表記された同義語の各々に関して、任意の正解データを求めるための重み値を算出する(ステップS31)。そして、判定装置300は、算出した重み値を用いて、「商品Aに興味があるユーザ」を探すための学習モデルを作成する。ここでは、作成した学習モデルを「基準モデル」と表記する。なお、基準モデルにおける各クエリの重み値の割合は、図12に示されるグラフに対応する。図12のグラフでは、基準モデルにおいて、「猫」の重み値が最も高く、「ネコ」の重み値が最も低いことが示されている。
続いて、判定装置300は、基準モデルの基となった統計情報を、所定の基準を用いてグループに分ける。そして、判定装置300は、基準モデルと同様の手法によりグループ別のモデルを作成した場合に、基準モデルとの間で有意な差異が生じるかを判定する(ステップS32)。
判定装置300は、グループを分ける基準として、例えば、ユーザの行動や、ユーザが利用するサービスなどに関する条件を用いることができる。例えば、図12において、判定装置300は、「サービスBを利用するユーザ」を条件として分けるグループを「GroupA」とし、「居住地Cの属性を有するユーザ」を条件として分けるグループを「GroupB」とし、「商品Aを実際に購入したユーザ」を条件として分けるグループを「GroupC」とすることができる。
判定装置300は、ユーザをグループ分けし、分けられたグループにおいて、基準モデルと同様に、「猫」、「ネコ」、「ねこ」の各々をクエリとした場合の、各々の重み値を求めるモデルを作成する。図12では、「GroupA」、「GroupB」、「GroupC」の各々のグラフが、「猫」、「ネコ」、「ねこ」の各々のクエリとしての重み値を示している。
図12の例では、判定装置300は、「GroupA」に対応するモデルについて、基準モデルと有意な差異が生じると判定する。例えば、判定装置300は、「GroupA」に対応するモデルと、基準モデルとを比較した場合に、「猫」、「ネコ」、「ねこ」の各重み値の割合に有意な差異が生じていることをもって、「GroupA」に対応するモデルと基準モデルとに有意な差異が生じていると判定する。同様に、判定装置300は、「GroupB」に対応するモデルについて、基準モデルと有意な差異が生じると判定する。
そして、判定装置300は、比較した両モデルに有意な差異が生じていると判定した場合、同義語である「猫」、「ネコ」、「ねこ」を名寄せ処理することを要しない。すなわち、判定装置300は、「GroupA」及び「GroupB」に該当するユーザが、何らかの意図や要因に基づいて、「猫」、「ネコ」、「ねこ」を使い分けているものと判定する。これは、ユーザにとって、「猫」、「ネコ」、「ねこ」を使い分けるべき意図や要因がない場合には、基準モデルと、グループ別モデルには有意な差異が生じないと考察されることによる。言い換えれば、基準モデルと、「GroupA」及び「GroupB」に対応するモデルとに有意な差が生じるのであれば、同義語の表記のゆらぎは、「GroupA」及び「GroupB」を分けた条件に対して、何らかの意味を伴う有意性があると考察される。そして、この場合には、判定装置300は、「GroupA」及び「GroupB」に対応するユーザが使用する「猫」、「ネコ」、「ねこ」の各々について、異なる情報処理を実行することで、各々に対応する適切な処理を行うことができる。
一方、判定装置300は、「GroupC」に対応するモデルについて、基準モデルと有意な差異が生じていないと判定する。例えば、判定装置300は、「GroupC」に対応するモデルと、基準モデルとを比較した場合に、「猫」、「ネコ」、「ねこ」の各重み値の割合に有意な差異が生じていないことを判定の根拠とする。
この場合、判定装置300は、「猫」、「ネコ」、「ねこ」を名寄せ処理してもよい。すなわち、判定装置300は、「GroupC」の条件下においては、ユーザに「猫」、「ネコ」、「ねこ」を使い分ける何らかの要因が乏しいものと判定する。このため、判定装置300は、「GroupC」に対応するユーザが使用する「猫」、「ネコ」、「ねこ」の各々に対する処理を区別せず、共通した処理を行うことができる。これにより、判定装置300は、処理の効率化を図ることや、異表記される同義語を意図して使い分けていないユーザに対するユーザビリティを向上させることができる。
このように、判定装置300は、所定の学習モデルである基準モデルと、ある条件下でグループ分けされた場合のモデルとを比較することにより、ある条件下において使用される同義語の使い分けの有意性を判定する。そして、判定装置300は、ユーザの属性情報や、同義語が使用されるウェブサービスの種類や、商品の購買などの行動ログなど、様々な情報をグループ分けの条件とすることができるので、同義語の使い分けの有意性について、様々な切り口から判定を行うことができる。
〔3−2.判定装置の構成〕
次に、図13を用いて、第3の実施形態に係る判定装置300の構成について説明する。図13は、第3の実施形態に係る判定装置300の構成例を示す図である。図13に示すように、判定装置300は、第2の実施形態に係る判定装置200と異なる構成として、モデル記憶部323を有する。また、統計情報記憶部321と、ユーザ情報記憶部322とは、第2の実施形態と異なる情報を有する。
(統計情報記憶部321について)
統計情報記憶部321は、異表記される同義語の使用態様に関する統計情報を記憶する。ここで、図14に、第3の実施形態に係る統計情報記憶部321の一例を示す。図14は、第3の実施形態に係る統計情報記憶部321の一例を示す図である。図14に示した例では、統計情報記憶部321は、「統計データID」、「同義語」、「ユーザID」といった項目を有する。各項目に記憶される情報は、図8に示した同様の各項目に対応する。
すなわち、図14に示す一例では、統計データID「D31」によって識別される統計データとして、ユーザ「U311」が同義語「ねこ」を用いた履歴や、ユーザ「U312」が同義語「猫」を用いた履歴や、ユーザ「U313」が同義語「ネコ」を用いた履歴や、ユーザ「U314」が同義語「猫」を用いた履歴が記憶されている例を示している。
(ユーザ情報記憶部322について)
ユーザ情報記憶部322は、ユーザに関する情報を記憶する。ここで、図15に、第3の実施形態に係るユーザ情報記憶部322の一例を示す。図15は、第3の実施形態に係るユーザ情報記憶部322の一例を示す図である。図15に示した例では、ユーザ情報記憶部322は、「ユーザID」、「性別」、「年齢」、「居住地」といった項目を有する。
「ユーザID」、「性別」、「年齢」は、図9に示した同様の各項目に対応する。「居住地」は、ユーザの居住地を示す。
すなわち、図15に示す一例では、ユーザID「U31」によって識別されるユーザは、性別が「男性」であり、年齢が「40歳代」であり、居住地が「EEE」であることを示している。
(モデル記憶部323について)
モデル記憶部323は、判定装置300によって作成されるモデルに関する情報を記憶する。ここで、図16に、第3の実施形態に係るモデル記憶部323の一例を示す。図16は、第3の実施形態に係るモデル記憶部323の一例を示す図である。図16に示した例では、モデル記憶部323は、「統計データID」、「基準モデル」、「グループ別モデル」といった項目を有し、「グループ別モデル」の項目には、さらに「グループID」と「モデル」といった小項目を有する。
「統計データID」は、図8に示した同様の項目に対応する。「基準モデル」は、任意に設定された正解データを求めるモデルの一例を示す。なお、基準モデルは、正解データごとに異なるモデルとして作成されるため、一つの同義語について複数の基準モデルが作成されてもよい。
「グループ別モデル」は、基準モデルに対して、さらに異なる基準を用いて区分けしたグループに対応するモデルを示す。「グループID」は、グループを識別するための識別情報を示す。「モデル」は、グループごとに作成されたモデルを示す。
すなわち、図16に示す一例では、統計データID「D31」によって識別される統計データは、基準モデルとして「M31」が作成されており、さらにグループ別モデルとして、グループID「G01」によって識別されるグループには、モデル「M311」が作成されていることを示す。
なお、モデル記憶部323には、基準モデルを作成する際の正解データや、グループを分ける際に基準となった各種の条件に関する情報が記憶されてもよい。
(制御部330について)
図13に示すように、第3の実施形態に係る制御部330は、取得部331と、学習部332と、判定部333と、実行部334とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部330の内部構成は、図13に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部330が有する各処理部の接続関係は、図13に示した接続関係に限られず、他の接続関係であってもよい。なお、重複する記載は省略するが、第3の実施形態に係る制御部330が有する各処理部は、第1の実施形態に係る制御部130及び第2の実施形態に係る制御部230が有する各処理部に対応する同様の処理についても、適宜実行することが可能であるものとする。
(取得部331について)
取得部331は、各種情報を取得する。例えば、取得部331は、異表記される同義語の使用態様を取得する。具体的には、取得部331は、ユーザから投稿された同義語を含むテキストデータを取得する。また、取得部331は、所定の条件下での同義語の使用態様を取得する。すなわち、取得部331は、所定の条件として、ユーザが同義語を使用した際に利用したサービスを特定する情報や、同義語を使用したユーザに関する属性情報等を取得する。これら所定の条件は、基準モデルが作成された後にグループを分ける基準として用いられる。
(学習部332について)
学習部332は、取得部331によって取得された使用態様の統計情報に基づいて、異表記される同義語を使い分けるユーザに関する学習を行う。具体的には、学習部332は、任意の正解データを設定し、正解データとユーザが使い分ける同義語との相関性を機械学習する。これにより、学習部332は、正解データを満たすユーザに関するモデル(基準モデル)を作成する。そして、学習部332は、基準モデルに対応するユーザのうち、さらに所定の条件に該当するユーザについてのモデルを作成する。
学習部332は、既知の種々の手法により、モデルの作成を行うことが可能である。一例として、学習部332は、下記式(1)で示されるモデルを作成する。
y = ω・x + ω・x + ω・x・・・ (1)
上記式(1)は、正解データである「y」と、ユーザが使い分ける同義語(「x」)と、各同義語に対応する重み値(「ω」)との関係を示している。上記式(1)において、例えば、「x」は「猫」であり、「x」は「ねこ」であり、「x」は「ネコ」である。また、「ω」は「猫」に対応する重み値であり、「ω」は「ねこ」に対応する重み値であり、「ω」は「ネコ」に対応する重み値である。「y」には、正解データに該当するユーザの場合には「1」が代入され、正解データに該当しないユーザの場合には「0」が代入される。学習部332は、一定数の上記式(1)を機械学習し、その統計結果に基づいて、正解データに対応する基準モデルを作成することができる。上述したように、学習部332は、正解データを任意に設定可能である。例えば、学習部332は、「商品Aに興味があるユーザ」を正解データとすることができる。
そして、学習部332は、所定の条件に基づいて、基準モデルに対応するユーザをグループに分ける。例えば、学習部332は、基準モデルに対応するユーザを「商品Eを購入したユーザ」と、「商品Fを購入したユーザ」と、「商品Gを購入したユーザ」とにグループ分けする。そして、学習部332は、各々のグループについてモデルを作成する。
このように、基準モデルとグループ別モデルに分ける理由は、以下の通りである。すなわち、何らかの目的行動(ここでは、任意の正解データ)に関して、「x」、「x」、「x」の頻度を見たとき、もともと差異がある可能性がある。たとえば、基準モデルに対応するユーザについて、「x」が「50%」、「x」が「30%」、「x」が「20%」といったように、同義語がそもそも同じ頻度で使用されることは少なく、何らかの偏りを有することがありうる。これを前提とし、学習部332は、基準モデルを所定の条件でグループに分ける。例えば、学習部332は、ユーザの属性情報や、ユーザが利用するサービス、ユーザの行動ログ(ショッピングサイトにおける商品の売買等)を条件として、基準モデルをグループに分ける。そして、学習部332は、分けたグループに対応するモデルを作成する。この場合、グループ分けされた条件下において、「x」、「x」、及び「x」を使い分けることに理由がなければ、基準モデルとグループ別モデルは、同じような傾向を示すはずである。一方、基準モデルとグループ別モデルとに差異が生じる場合、すなわち、統計的に有意な差異が発生しているのであれば、同義語の異表記(表記ゆれ)は、所定の条件に対して意味を持つものと判定される。具体的には、同義語の異表記は、グループに対応するユーザ群や、特定のサービスや、特定の行動ログにおいて意味を持つものであると判定される。すなわち、学習部332は、統計的な情報に基づいて、同義語が異表記される有意性を求めるため、上記のような学習処理を実行する。なお、学習部332が行う処理は上記に限らず、例えば、上記式(1)とは異なる式で示されるモデルを用いて、上記と同様の処理を行ってもよい。
(判定部333について)
判定部333は、取得部331によって取得された使用態様の統計情報に基づいて、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により、ユーザごとに使い分けされる同義語であるか否かを判定する。
ここでは、取得部331によって取得された使用態様の統計情報とは、例えば、学習部332により作成された基準モデルとグループ別モデルとの比較情報である。具体的には、判定部333は、異表記される同義語の使用態様のうち、所定の条件下でない使用態様(基準モデル)と、所定の条件下での使用態様(グループ別モデル)とを比較することにより、異表記される同義語が所定の要因により使い分けられた同義語であるか否かを判定する。なお、判定部133は、モデルの比較にあたって、任意に判定条件を設定することが可能である。
(実行部334について)
実行部334は、判定部333によって判定された結果に基づいて、同義語に関する所定の情報処理を実行する。例えば、実行部334は、所定の情報処理として、異表記される同義語の名寄せ処理をするか否かを選択する。
具体的には、実行部334は、判定部333によって基準モデルとグループ別モデルとに有意な差異が生じていると判定された場合には、異表記される同義語を名寄せしない。一方、実行部334は、判定部333によって基準モデルとグループ別モデルとに有意な差異が生じていないと判定された場合には、異表記される同義語を名寄せする。
なお、実行部334は、所定の条件下において、名寄せ処理をするか否かを選択してもよい。例えば、実行部334は、基準モデルとグループ別モデルとに有意な差異が生じていると判定された場合であって、グループ別モデルを作成する際に用いられた条件下においては、名寄せ処理を行うようにしてもよい。すなわち、実行部334は、所定の要因により同義語が使い分けられていると推測される条件に限り、名寄せ処理を実行する。このように、実行部334は、種々の状況に応じて、名寄せ処理を行うか否かを選択できるので、より状況に合わせた適切な情報処理を行うことができる。
なお、実行部334は、種々の状況に応じた情報処理として、例えば、同義語が検索クエリとして使用された検索結果の表示処理、同義語を使用するユーザに対する情報の提供処理、又は、同義語を使用するユーザに属性を付与する処理等を実行することができる。例えば、実行部334は、判定処理における所定の条件としてユーザの属性情報が設定されていた場合には、同義語を使用するユーザごとの属性情報の違いに対応した処理を実行することができる。一例として、実行部334は、検索サイトにおいて、同義語の使用によってユーザに対応付けられた属性情報に応じた検索結果の表示や、属性情報に応じた広告コンテンツの配信や、レコメンド情報の提供といった情報処理を実行することができる。
〔3−3.判定処理手順〕
次に、図17を用いて、第3の実施形態に係る判定装置300による判定処理の手順について説明する。図17は、第3の実施形態に係る判定装置300による判定処理手順を示すフローチャートである。
図17に示すように、取得部331は、同義語の使用態様を取得する(ステップS301)。そして、学習部332は、取得された文字列を統計し、基準となるモデルの同義語の重み値を学習する(ステップS302)。
さらに、学習部332は、基準モデルを基に、所定の条件下のモデルを作成する(ステップS303)。すなわち、学習部332は、所定の条件によりグループ分けされたグループ別にモデルを作成する。
そして、判定部333は、グループ別に作成されたモデルが基準モデルに対して有意な差が生じるか否かを判定する(ステップS304)。有意な差が生じる場合(ステップS304;Yes)、実行部334は、同義語は所定の意味を含んで使い分けられているものとして、名寄せ処理をしない(ステップS305)。
一方、有意な差が生じていない場合(ステップS304;No)、実行部334は、同義語は所定の意味を含んで使い分けられていないものとして、名寄せ処理をする(ステップS306)。
〔3−4.効果〕
上述してきたように、第3の実施形態に係る判定装置300は、取得部331と、判定部333と、実行部334とを有する。取得部331は、所定の条件下での異表記される同義語の使用態様を取得する。判定部333は、異表記される同義語の使用態様のうち、所定の条件下でない使用態様と、所定の条件下での使用態様とを比較することにより、当該同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する。
このように、第3の実施形態に係る判定装置300は、所定の条件下において使用される同義語の使い分けの有意性を判定する。例えば、判定装置300は、ユーザの属性情報や、同義語が使用されるウェブサービスの種類や、商品の購買などの行動ログなど、様々な情報をグループ分けの条件とすることにより、同義語の使い分けの有意性について、様々な切り口から判定を行うことができる。このため、判定装置300は、ユーザの意図や、同義語を使用するユーザの属性情報の違いなどによって使い分けられた同義語を利用する情報処理を実現することができる。
また、実行部334は、判定部333によって、異表記される同義語が、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であると判定された場合には、同義語が検索クエリとして使用された検索結果の表示処理、同義語を使用するユーザに対する情報の提供処理、又は、同義語を使用するユーザに属性を付与する処理の少なくとも一つについて、所定の意味に応じて、異表記される同義語ごとに異なる処理を実行する。
このように、第3の実施形態に係る判定装置300は、同義語が使い分けられる意味であるユーザの意図や属性に応じて、検索表示結果を変更することや、ユーザに適した広告コンテンツやレコメンド情報を提供することができる。すなわち、判定装置300は、同義語が名寄せされることで失われる可能性のある、同義語を使い分けるユーザに特有の属性情報などを利用した処理を実行することで、例えば、ユーザに対する幅広いアプローチを行う広告配信や、訴求効果の高いプロモーションなどの可能性の幅を広げることができる。
〔4.変形例〕
上述してきた判定装置100(第2の実施形態に係る判定装置200や、第3の実施形態に係る判定装置300も同様)は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、判定装置100の変形例について説明する。
〔4−1.データの取得〕
上述した実施形態に係る処理において、判定装置100は、ユーザ端末10がウェブサーバの提供するウェブサイトにアクセスした場合における、同義語などの文字列に関する情報や、ユーザ情報を取得する例を示した。しかし、判定装置100は、ユーザ端末10がウェブサイトにアクセスする場合に限らず、ユーザ端末10からユーザ情報を取得することもできる。
例えば、ユーザ端末10がアクセスしたウェブサイトが、判定装置100を管理する管理装置(例えば、判定装置100に対するフロントエンドサーバ)と同じ管理装置に管理される所定のウェブサーバから提供されている場合、判定装置100は、ユーザ端末10からユーザ情報を取得することができる。すなわち、ユーザ端末10は、管理装置に管理される所定のウェブサーバが提供するウェブサイトにアクセスする際、ユーザ端末10のユーザ情報を上記管理装置に送信する。これは、ユーザ端末10が管理装置にクッキーを送信することなどにより実現される。この場合、ユーザ端末10の送信したユーザ情報は、管理装置を介して、判定装置100に送信される。これにより、判定装置100は、所定のウェブサーバを介することなく、ユーザ端末10のユーザ情報や、ユーザ端末10から投稿される文字列に関する情報を取得することができる。
〔4−2.ユーザ情報〕
上述した実施形態において、判定装置100は、ユーザの「年齢」や「性別」や「居住地」などの属性情報を取得する例を示した。しかし、判定装置100が取得する属性情報は、これに限られない。例えば、判定装置100は、ユーザの「年収」や「嗜好」などを取得してもよい。
〔4−3.辞書情報〕
上記実施形態においては、判定装置100は、学習処理によって、同義語と前後の文脈の相関性や、同義語のうちの特定表記に関連付けられる属性情報や、所定の条件下における使用の態様の相違などの情報を取得する例を示した。しかし、判定装置100は、学習処理によらず、例えば、外部の第三者から提供される所定の辞書情報に基づいて、上記の情報を取得してもよい。この場合、判定装置100は、所定の辞書情報を参照して取得される種々の情報を用いて、上記の判定処理を行うことができる。
〔4−4.他分野への応用〕
上記実施形態において、判定装置100は、異表記される同義語について、語意とは異なる所定の意味が含まれている否かを判定し、判定結果に基づいて、同義語に関する情報処理を行う例を示した。ここで、判定装置100は、同義語などの文字列に限らず、種々のデータ体系を有するコンテンツについて、上記実施形態の処理を応用することもできる。この点について、以下に具体例を挙げて説明する。
検索サイトにおける検索処理が、画像データにより行われる場合を考える。この場合、判定装置100は、コンテンツとして、画像データをユーザから取得する。例えば、判定装置100は、「花火」という共通した概念を有する画像データを取得する。判定装置100は、「花火」を共通する概念として有する画像データとして、例えば「打ち上げ花火」、「線香花火」、「手持ち花火」の3種の画像データを取得するものとする。
ここで、判定装置100は、統計情報に基づき、「花火」という共通した概念を有する画像データであって、「打ち上げ花火」、「線香花火」、「手持ち花火」のように異なる表記のなされた画像データが使い分けられることに、所定の意味が含まれていると判定していると仮定する。例えば、判定装置100は、画像データを用いるユーザの属性情報に有意な相違がある場合に、画像データが使い分けられることに所定の意味が含まれていると判定する。そして、判定装置100は、「花火」という共通した概念を有する画像データであっても、それぞれ異なる結果を返す情報処理を実行する。
例えば、判定装置100は、統計情報に基づき、「打ち上げ花火」という画像データを用いるユーザには、「60代」、「男性」といった属性を有するユーザが比較的多いといった情報を取得しているものとする。同様に、判定装置100は、統計情報に基づき、「線香花火」という画像データを用いるユーザには、「10代」、「女性」といった属性を有するユーザが比較的多いといった情報を取得しているものとする。同様に、判定装置100は、統計情報に基づき、「手持ち花火」という画像データを用いるユーザには、「20代」、「男性」といった属性を有するユーザが比較的多いといった情報を取得しているものとする。
上記の3種の画像データで検索処理を行った場合、判定装置100は、例えば、「打ち上げ花火」という画像データを用いたユーザには、「60代」、「男性」が関心を有するような検索結果を優先的に表示させることができる。また、判定装置100は、検索結果を表示する画面に「60代」、「男性」が関心を有するようなレコメンド情報を表示させることができる。同様に、判定装置100は、「線香花火」や「手持ち花火」という画像データを用いたユーザに対しても、かかる画像から特定される属性に基づいた情報処理を行うことができる。
また、判定装置100は、統計情報に基づき、ユーザが異なる画像データを用いた意図を学習し、かかる学習結果を利用する処理を行ってもよい。例えば、判定装置100は、「花火」という共通した概念を有する画像データを用いて検索処理を行ったユーザを基準モデルとし、検索結果から「花火大会」のリンク先を訪問したユーザをグループ別モデルとした条件下において、有意な差異が生じるかを判定する。そして、判定装置100は、「花火」という共通した概念を有する画像データのうち、「打ち上げ花火」を用いて検索を行ったユーザ群が、検索結果のうち、特に「花火大会」のリンク先を訪問する率が高いと学習したとする。この場合、判定装置100は、「花火」という共通した概念を有する画像データを用いて新たに検索処理を行ったユーザについて、ユーザが用いた画像データが「打ち上げ花火」であれば、「花火大会」の検索結果を優先的に表示する、といった情報処理を実行することができる。
上記の例は、画像データに限らず、種々のコンテンツに用いられてもよい。ここでコンテンツには、情報処理装置が取り扱うことが可能なあらゆるデータ(もしくは、データの集合体)が含まれてよい。例えば、判定装置100は、音声データや、センサデータなどをコンテンツとして用いてもよい。一例として、判定装置100は、センサデータとして位置情報を取得した場合に、通常の閾値であれば同一とみなす状況であっても、所定の意味が含まれていると判定される場合には、同一とみなさず、異なるデータの可能性を考慮して情報処理を実行することができる。
すなわち、判定装置100に係る取得部131は、異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する。また、判定装置100に係る判定部133は、取得された使用態様の統計情報に基づいて、異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する。そして、判定装置100に係る実行部134は、判定された結果に基づいて、コンテンツに関する所定の情報処理を実行する。
このように、判定装置100は、通常であれば同一のものとして情報処理が実行されるコンテンツであっても、各々のコンテンツに含まれる意味を抽出することで、異なる情報処理を実行することができる。これにより、判定装置100は、コンテンツを利用するユーザの属性や、ユーザの意図を汲む、柔軟な情報処理を実現することができる。
例えば、実行部134は、判定部133によって、異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであると判定された場合には、コンテンツを集約して取り扱う名寄せ処理を実行せず、使い分けされるコンテンツでないと判定された場合には、名寄せ処理を実行する。また、取得部131は、異なる態様により表されるコンテンツの使用態様として、当該コンテンツを使用するユーザの属性情報、当該コンテンツが使用されるサービスに関する情報、又は、当該コンテンツと同時に使用される他のコンテンツに関する情報の少なくとも一つを取得する。
〔5.ハードウェア構成〕
また、上述してきた各実施形態に係る判定装置は、例えば図18に示すような構成のコンピュータ1000によって実現される。以下、判定装置100を例に挙げて説明する。図18は、判定装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(ネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が作成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して作成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が第1の実施形態に係る判定装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔6.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図2に示した取得部131と、学習部132とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた記憶装置に記憶されてもよい。
また、例えば、上記実施形態では、判定装置100が、同義語の使用態様を取得する取得処理と、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する判定処理と、所定の情報処理を実行する実行処理とを行う例を示した。しかし、判定装置100は、取得装置と、判定装置と、実行装置とに分離されてもよい。この場合、説明してきた判定装置100による処理は、取得装置と、判定装置と、実行装置との各装置を有する判定処理システム1によって実現される。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。例えば、上述した第3の実施形態において、実行部334が、種々の状況に応じた情報処理として、同義語が検索クエリとして使用された検索結果の表示処理、同義語を使用するユーザに対する情報の提供処理、又は、同義語を使用するユーザに属性を付与する処理等を実行する例を示した。しかし、実行部334によって実行される処理は、第1の実施形態に係る実行部134、又は第2の実施形態に係る実行部234によって同様に実行されてもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 判定処理システム
10 ユーザ端末
100 判定装置
110 通信部
120 記憶部
121 テキストデータ記憶部
122 学習情報記憶部
130 制御部
131 取得部
132 学習部
133 判定部
134 実行部
221 統計情報記憶部
222 ユーザ情報記憶部
223 特定表記記憶部
323 モデル記憶部

Claims (11)

  1. 異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得部と、
    前記取得部によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定部と、
    前記判定部によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行部と、
    を備えたことを特徴とする情報処理装置。
  2. 前記実行部は、
    前記判定部によって、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであると判定された場合には、前記異なる態様により表されるコンテンツを集約して取り扱う名寄せ処理を実行せず、使い分けされるコンテンツでないと判定された場合には、名寄せ処理を実行する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記取得部は、
    前記異なる態様により表されるコンテンツの使用態様として、当該コンテンツを使用するユーザの属性情報、当該コンテンツが使用されるサービスに関する情報、又は、当該コンテンツと同時に使用される他のコンテンツに関する情報の少なくとも一つを取得する、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記取得部は、
    前記コンテンツの仕様態様として、異表記される同義の文字列の使用態様を取得し、
    前記判定部は、
    前記取得部によって取得された使用態様の統計情報に基づいて、前記異表記される同義の文字列が、当該文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定し、
    前記実行部は、
    前記判定部によって判定された結果に基づいて、前記文字列に関する所定の情報処理を実行する、
    ことを特徴とする請求項1〜3のいずれか一つに記載の情報処理装置。
  5. 前記取得部は、
    前記異表記される同義の文字列が含まれる文に対応するテキストデータを取得し、
    前記判定部は、
    前記テキストデータにおける前記文字列の前後の文脈との相関性に基づいて、当該文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する、
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記取得部は、
    前記異表記される同義の文字列のうち、特定の文字列が使用される所定の要因を取得し、
    前記判定部は、
    前記特定の文字列が使用された場合に、当該特定の文字列を含む同義の文字列が、当該同義の文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であると判定する、
    ことを特徴とする請求項4に記載の情報処理装置。
  7. 前記取得部は、
    前記所定の要因として、前記特定の文字列を使用するユーザ群に共通する属性情報を取得し、
    前記実行部は、
    前記特定の文字列が使用された場合に、当該特定の文字列を使用したユーザに対して、当該特定の文字列を使用するユーザ群に共通する属性情報を付与する、
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記取得部は、
    所定の条件下での前記異表記される同義の文字列の使用態様を取得し、
    前記判定部は、
    前記異表記される同義の文字列の使用態様のうち、前記所定の条件下でない使用態様と、当該所定の条件下での使用態様とを比較することにより、当該文字列が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる文字列であるか否かを判定する、
    ことを特徴とする請求項4に記載の情報処理装置。
  9. 前記実行部は、
    前記判定部によって、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであると判定された場合には、当該コンテンツが検索クエリとして使用された検索結果の表示処理、当該コンテンツを使用するユーザに対する情報の提供処理、又は、当該コンテンツを使用するユーザに属性を付与する処理の少なくとも一つについて、前記所定の意味に応じて、異なる態様により表されるコンテンツごとに異なる処理を実行する、
    ことを特徴とする請求項1〜8のいずれか一つに記載の情報処理装置。
  10. コンピュータが実行する情報処理方法であって、
    異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得工程と、
    前記取得工程によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定工程と、
    前記判定工程によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行工程と、
    を含んだことを特徴とする情報処理方法。
  11. 異なる態様により表されるコンテンツであって、共通する概念を有するコンテンツの使用態様を取得する取得手順と、
    前記取得手順によって取得された使用態様の統計情報に基づいて、前記異なる態様により表されるコンテンツが、当該コンテンツが共通して有する概念とは異なる所定の意味を含めた態様により使い分けされるコンテンツであるか否かを判定する判定手順と、
    前記判定手順によって判定された結果に基づいて、前記コンテンツに関する所定の情報処理を実行する実行手順と、
    をコンピュータに実行させることを特徴とする情報処理プログラム。
JP2015117686A 2015-06-10 2015-06-10 情報処理装置、情報処理方法及び情報処理プログラム Active JP6680472B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015117686A JP6680472B2 (ja) 2015-06-10 2015-06-10 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015117686A JP6680472B2 (ja) 2015-06-10 2015-06-10 情報処理装置、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2017004260A true JP2017004260A (ja) 2017-01-05
JP6680472B2 JP6680472B2 (ja) 2020-04-15

Family

ID=57754303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015117686A Active JP6680472B2 (ja) 2015-06-10 2015-06-10 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6680472B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020026643A1 (ja) * 2018-08-03 2021-11-04 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323594A (ja) * 2005-05-18 2006-11-30 Ntt Docomo Inc 同義語抽出システムおよび同義語抽出方法
WO2007007702A1 (ja) * 2005-07-12 2007-01-18 National Institute Of Information And Communications Technology, Incorporated Administrative Agency 単語用法差異情報取得プログラム及び同装置
JP2010066938A (ja) * 2008-09-10 2010-03-25 Nec Corp コンテンツ情報管理システム、方法、装置、及びプログラム
JP2010231253A (ja) * 2009-03-25 2010-10-14 Hitachi Ltd データ名寄せ処理装置及び方法
JP2010287020A (ja) * 2009-06-11 2010-12-24 Hitachi Ltd 同義語展開システム及び同義語展開方法
JP2013228978A (ja) * 2012-03-30 2013-11-07 Mrt Inc 専門家評価情報管理装置
US8631019B1 (en) * 2011-09-09 2014-01-14 Google Inc. Restricted-locality synonyms
JP2015075806A (ja) * 2013-10-07 2015-04-20 株式会社アクアティカ アシスタント管理装置、アシスタント管理方法及びアシスタント管理システム
US20150135053A1 (en) * 2013-11-14 2015-05-14 Elsevier B.V. Computer-Program Products and Methods for Annotating Ambiguous Terms of Electronic Text Documents

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323594A (ja) * 2005-05-18 2006-11-30 Ntt Docomo Inc 同義語抽出システムおよび同義語抽出方法
WO2007007702A1 (ja) * 2005-07-12 2007-01-18 National Institute Of Information And Communications Technology, Incorporated Administrative Agency 単語用法差異情報取得プログラム及び同装置
JP2010066938A (ja) * 2008-09-10 2010-03-25 Nec Corp コンテンツ情報管理システム、方法、装置、及びプログラム
JP2010231253A (ja) * 2009-03-25 2010-10-14 Hitachi Ltd データ名寄せ処理装置及び方法
JP2010287020A (ja) * 2009-06-11 2010-12-24 Hitachi Ltd 同義語展開システム及び同義語展開方法
US8631019B1 (en) * 2011-09-09 2014-01-14 Google Inc. Restricted-locality synonyms
JP2013228978A (ja) * 2012-03-30 2013-11-07 Mrt Inc 専門家評価情報管理装置
JP2015075806A (ja) * 2013-10-07 2015-04-20 株式会社アクアティカ アシスタント管理装置、アシスタント管理方法及びアシスタント管理システム
US20150135053A1 (en) * 2013-11-14 2015-05-14 Elsevier B.V. Computer-Program Products and Methods for Annotating Ambiguous Terms of Electronic Text Documents

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU, LIANG-CHIH ET AL.: ""Discriminative Training for Near-Synonym Substitution"", PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS (COLING 2010), JPN7019000950, 23 August 2010 (2010-08-23), pages 1254 - 1262, XP058173626, ISSN: 0004008532 *
古山 直樹,他: ""性別による言葉遣いの違いを考慮したブロガーの年齢推定手法の提案"", 第10回情報科学技術フォーラム 講演論文集 第2分冊 査読付き論文・一般論文, JPN6019011441, 22 August 2011 (2011-08-22), pages 63 - 66, ISSN: 0004008530 *
奥村 学: ""ブログにおける偏り補正のための書き手のプロファイリング"", 人工知能学会誌, vol. 第23巻,第6号, JPN6019011442, 1 November 2008 (2008-11-01), pages 798 - 802, ISSN: 0004008531 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020026643A1 (ja) * 2018-08-03 2021-11-04 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7380567B2 (ja) 2018-08-03 2023-11-15 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system

Also Published As

Publication number Publication date
JP6680472B2 (ja) 2020-04-15

Similar Documents

Publication Publication Date Title
US8880548B2 (en) Dynamic search interaction
US9251292B2 (en) Search result ranking using query clustering
US9922125B1 (en) Selecting content using entity properties
US20130290344A1 (en) Updating a search index used to facilitate application searches
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
US20170293696A1 (en) Related entity discovery
US10102246B2 (en) Natural language consumer segmentation
JP2016533548A (ja) オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け
EP2778985A1 (en) Search result ranking by department
CN109726280B (zh) 一种针对同名学者的排歧方法及装置
CN112136127A (zh) 用于搜索操作输出元素的动作指示符
US9633103B2 (en) Identifying product groups in ecommerce
US20150095202A1 (en) Recommending Product Groups in Ecommerce
JP2017045196A (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
CN106575418B (zh) 建议的关键词
JP5256273B2 (ja) 意図抽出装置、方法及びプログラム
CN107665442B (zh) 获取目标用户的方法及装置
JP6680472B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN109981712B (zh) 用于推送信息的方法和装置
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN104424300A (zh) 个性化搜索提示方法及装置
US20160055203A1 (en) Method for record selection to avoid negatively impacting latency
US10817519B2 (en) Automatic conversion stage discovery
TWI547888B (zh) A method of recording user information and a search method and a server
RU2589856C2 (ru) Способ обработки целевого сообщения, способ обработки нового целевого сообщения и сервер (варианты)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350