JP7390091B2

JP7390091B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP7390091B2
Application number: JP2021045297A
Authority: JP
Inventors: 孝太坪内; 拓明田口
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2023-12-01
Anticipated expiration: 2041-03-18
Also published as: JP2022144349A

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

従来、ユーザが入力した文字列を検索クエリ（以下、単に「クエリ」と呼ぶ）として、様々な情報の検索サービスを行うための技術が提供されている。そのような検索サービスにおいては、ユーザが入力したクエリに誤記が含まれる場合等において、その誤記を変換した上で検索を行い、検索結果をユーザに提供する技術が提供されている（例えば、特許文献１参照）。

特許第６５２９４５６号公報

しかしながら、上記の従来技術を用いた場合、入力されたクエリと実際の検索に用いるべきクエリの間の関係性を判断することが難しい。例えば、従来技術では、第１文字列とその第１文字列の誤記として入力され得る第２文字列とを対応付けた辞書を用いて、第２文字列が入力された場合に、第２文字列を第１文字列へと変換しているに過ぎない。

このため、従来技術では、ユーザが入力した第２文字列をそのままクエリとしたい場合には、ユーザは望む検索結果を得られないおそれがある。この点に関し、例えば、ユーザが入力した第２文字列による検索が要求された時点から、ユーザへ第２文字列とは異なる第１文字列を用いた検索結果を提供し、ユーザによりその検索結果が選択された時点までの経過時間に基づいて、第２文字列が誤記であるか否かを推定することができる。

かかる場合、第２文字列が誤記であるか否かにより前述の経過時間に差があるので、例えば経過時間のばらつき度合いが所定の閾値以上であれば、第２文字列が誤記ではなく、新規のワードであると推定することができる。しかしながら、このように第２文字列が新規のワードであると推定できても、その起源まで推定することはできない。もし、起源が推定できれば、ターゲティング等の各種分析などに非常に有用となる。

本願は、上記に鑑みてなされたものであって、クエリに関しての新規のワードの起源を推定することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。

本願に係る情報処理装置は、取得部と、検出部と、推定部とを備える。前記取得部は、既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する。前記検出部は、前記履歴情報に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリを新規のワードとして検出する。前記推定部は、前記新規のワードの検出時点から逆時系列の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する。

実施形態の一態様によれば、クエリに関しての新規のワードの起源を推定することができるという効果を奏する。

図１は、実施形態に係る情報処理の一例を示す図である。図２は、実施形態に係る情報処理システムの構成例を示す図である。図３は、実施形態に係る情報処理装置の構成例を示すブロック図である。図４は、実施形態に係る推定処理の処理説明図（その１）である。図５は、実施形態に係る推定処理の処理説明図（その２）である。図６は、実施形態に係る情報処理装置が実行する処理手順を示すフローチャートである。図７は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

また、以下では、クエリとして用いられる新規のワード、すなわちクエリに関しての新規のワードについては、適宜「新規ワード」と呼ぶ。また、以下では、「起源」と言った場合、単に事の起こりの時点のみを指すものではなく、かかる時点におけるコンテキスト等を含むものとする。

〔１．情報処理の一例〕
まず、実施形態に係る情報処理の一例について、図１を用いて説明する。図１は、実施形態に係る情報処理の一例を示す図である。

図１では、実施形態に係る情報処理システム１に含まれる情報処理装置１００が、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源を推定する処理を実行する例を示す。

図１に示すように、実施形態に係る情報処理システム１は、ユーザ端末１０と、情報処理装置１００とを含む。

ユーザ端末１０は、ユーザＵすなわちユーザＵ１，Ｕ２…がそれぞれ利用する端末装置であるユーザ端末１０－１，１０－２…である。ユーザＵは、ユーザ端末１０から図示略のネットワークを介し、情報処理装置１００へアクセスすることで、情報処理装置１００が提供するサービスの一つである検索サービスを利用する。なお、以下では、「ユーザＵ」は、適宜「ユーザ端末１０」と読み替えることができる。

情報処理装置１００は、各種サービスをユーザＵへ提供するサーバ装置である。情報処理装置１００が提供するサービスは、例えば、ユーザ端末１０にインストールされた各種アプリやブラウザを介して各種情報を提供するサービスである。提供されるサービスには、検索サービスの他、例えば、ニュース提供サービスや、オークションサービス、天気予報サービス、ショッピングサービス、金融取引（株取引等）サービス、路線検索サービス、地図提供サービス、旅行サービス、飲食店紹介サービス、ブログサービス等が含まれてもよい。

ユーザＵは、検索サービスを利用する場合、情報処理装置１００へアクセス後、ユーザ端末１０から検索キーワードとなる文字列であるクエリを入力する。そして、ユーザＵは、クエリによる検索要求を情報処理装置１００へ送信する（ステップＳ１）。

ここで、クエリには誤記が含まれる場合がある。情報処理装置１００は、例えば誤記として入力され得る第１クエリと、第１クエリに対し正しいと想定される文字列である第２クエリとを対応付けた辞書情報を有しており、これを用いて第１クエリが入力された場合に、第１クエリを第２クエリへ変換して第２クエリを用いた情報の検索を行う。

そして、情報処理装置１００は、クエリによる検索要求に基づく検索結果をユーザＵへ送信する（ステップＳ２）。ユーザＵは、これに応じ、閲覧したい検索結果のうちの一つを選択する（ステップＳ３）。

情報処理装置１００は、これらステップＳ１～Ｓ３のユーザＵの検索行動を含むユーザＵの行動に関する履歴情報をユーザ端末１０から随時収集し、蓄積する。

履歴情報には、例えば、クエリに誤記が含まれる場合の、前述の第１クエリによる検索が要求された時点から、ユーザＵに第１クエリとは異なる第２クエリを用いた検索結果を提供し、ユーザＵによりその検索結果が選択された時点までの経過時間が含まれる。また、履歴情報には、例えば、ユーザＵの行動から推定されるコンテキストが含まれる。

コンテキストは、検索行動を含む各種の行動をユーザＵが取るに際してのユーザＵの状況や、ユーザＵの環境等を示す情報である。具体的には、コンテキストには、ユーザＵのジオグラフィック属性（検索行動をとった際の位置等）や、デモグラフィック属性（年齢や、性別、収入、職業等）、サイコグラフィック属性（価値観や、ライフスタイル、性格、好み等）等が含まれる。

そして、情報処理装置１００は随時、履歴情報に基づいてユーザＵの検索行動に関する特徴情報を抽出する（ステップＳ４）。特徴情報は、特定のクエリによる検索要求や前述した経過時間に関する統計量や、検索行動に際してのコンテキストを含む。

そして、情報処理装置１００は、抽出された時系列上の特徴情報の変化に基づいて、新規ワードを検出する（ステップＳ５）。例えば、情報処理装置１００は、同図に示すように、特定のクエリによる検索要求数ｃが閾値Ｔｈを超えた状態を所定期間ｎ以上継続した場合等に、かかる特定のクエリを新規ワードとして検出する。

また、図示は略するが、例えば、情報処理装置１００は、前述の経過時間のばらつき度合いが大きくなると、前述の第１クエリと第２クエリとの関係性が低いと推定し、第１クエリを第２クエリの誤記でなく、新規ワードとして検出する。

そして、情報処理装置１００は、新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する。

具体的に、例えば情報処理装置１００は、逆時系列に、検出時点Ｔ１から過去の特徴情報を解析し（ステップＳ６）、共通性あるユーザＵをグルーピングし、さらに共通性あるグループをグルーピングしてゆく（ステップＳ７）。情報処理装置１００は、このように逆時系列にグルーピングを繰り返すことにより、グルーピングされるグループを絞り込む。

そして、情報処理装置１００は、絞り込まれたグルーピング結果に基づいて新規ワードの起源Ｔ０を推定する（ステップＳ８）。すなわち、情報処理装置１００は、検出時点Ｔ１から逆時系列に特徴情報の共通性を再帰的に絞り込むことによって、新規ワードの起源Ｔ０を推定する。

起源Ｔ０が推定できれば、ターゲティング等の各種分析や、いわゆる「バズる」といった事象発生の分析等に活用することができる。なお、ステップＳ６～Ｓ８の具体例については、図４および図５を用いた説明で後述する。

上述したように、実施形態に係る情報処理方法では、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する。

したがって、実施形態に係る情報処理方法によれば、クエリに関しての新規ワードの起源Ｔ０を推定することができる。

以下、上記のような情報処理を行う情報処理装置１００、および、かかる情報処理装置１００を含む情報処理システム１について詳細に説明する。

〔２．情報処理システム１の構成〕
次に、図２を用いて、実施形態に係る情報処理システム１の構成について説明する。図２は、実施形態に係る情報処理システム１の構成例を示す図である。図２に例示するように、実施形態に係る情報処理システム１は、複数のユーザ端末１０－１～１０－ｎと、情報処理装置１００と、を含む。

これらの各種装置は、ネットワークＮを介して、有線または無線により通信可能に接続される。ネットワークＮは、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、電話網（携帯電話網、固定電話網等）、地域ＩＰ（Internet Protocol）網、インターネット等の通信ネットワークである。ネットワークＮには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。

ユーザ端末１０は、上記したように、ユーザＵによって利用される端末装置である。ユーザ端末１０は、例えば、スマートフォンを含む携帯電話機や、タブレット端末や、デスクトップ型ＰＣや、ノート型ＰＣや、ＰＤＡ（Personal Digital Assistant）等の情報処理装置である。また、ユーザ端末１０には、眼鏡型や時計型の情報処理装置であるウェアラブルデバイス（wearable device）も含まれる。

ユーザ端末１０は、ユーザＵによる操作や、ユーザ端末１０が有する機能（例えば、検索サービスを利用するためのアプリを実行する機能や、ブラウザ機能等）に応じて各種情報を取得し、取得した情報に応じた情報を生成して送信する。例えば、ユーザ端末１０は、ネットワークＮを介して、情報処理装置１００が提供する検索サービスのサイトへアクセスする。そして、ユーザＵが例えば検索したい検索キーワードであるクエリを指定することによって、ユーザ端末１０は、情報処理装置１００に対してクエリを送信する。

情報処理装置１００は、ユーザ端末１０に対し、検索サービスを提供するサービス提供サーバとして機能するサーバ装置である。また、情報処理装置１００は、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する。

なお、図２では、１つの情報処理装置１００が、検索サービスの提供、履歴情報の取得、新規ワードの検出、新規ワードの起源Ｔ０の推定の各機能を兼ね備える場合を示したが、例えば、複数の情報処理装置１００が、これらの各機能を分担して行ってもよい。

〔３．情報処理装置１００〕
次に、図３を用いて、情報処理装置１００の構成例について説明する。図３は、実施形態に係る情報処理装置１００の構成例を示すブロック図である。なお、図３では、情報処理装置１００の説明に必要となる構成要素のみを示しており、一般的な構成要素についての記載を省略している。

図３に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワークＮと有線または無線で接続され、ネットワークＮを介して、ユーザ端末１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図３の例では、記憶部１２０は、履歴情報記憶部１２１と、特徴情報記憶部１２２と、推定情報記憶部１２３とを有する。

（履歴情報記憶部１２１）
履歴情報記憶部１２１は、後述する取得部１３１によって取得されるユーザＵの検索行動の履歴に関する各種情報、すなわち上述した履歴情報を記憶する。したがって、履歴情報記憶部１２１は、例えば、クエリが誤記であるか否かを問わず、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を記憶する。また、履歴情報記憶部１２１は、上述した経過時間を記憶する。また、履歴情報記憶部１２１は、例えば、ユーザＵの検索行動から推定されるコンテキストを記憶する。

（特徴情報記憶部１２２）
特徴情報記憶部１２２は、後述する検出部１３２によって抽出されるユーザＵの検索行動に関する特徴情報を記憶する。

（推定情報記憶部１２３）
推定情報記憶部１２３は、後述する推定部１３３によって推定された推定結果に関する情報を記憶する。例えば、推定情報記憶部１２３は、新規ワードの起源Ｔ０に関する情報を記憶する。起源Ｔ０に関する情報は、起源Ｔ０の時点情報、起源Ｔ０におけるコンテキスト等を含む。

（制御部１３０について）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、コントローラであり、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図３に示すように、制御部１３０は、取得部１３１と、検出部１３２と、推定部１３３と、処理部１３４と、提供部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行うことができる構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

制御部１３０は、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する。

（取得部１３１について）
取得部１３１は、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得する。

具体的には、取得部１３１は、通信部１１０を介して、ユーザＵによって入力されたクエリによる検索要求を取得する。また、取得部１３１は、通信部１１０を介して、ユーザＵによって選択された検索結果を取得する。また、取得部１３１は、通信部１１０を介して履歴情報を取得し、履歴情報記憶部１２１へ記憶させる。

（検出部１３２について）
検出部１３２は、履歴情報記憶部１２１へ記憶された履歴情報に基づいて、ユーザＵの検索行動に際してのコンテキストを含む検索行動の特徴情報を抽出する。また、検出部１３２は、抽出された特徴情報を特徴情報記憶部１２２へ記憶させる。また、検出部１３２は、特徴情報記憶部１２２へ記憶された特徴情報の時系列上の変化に基づいてクエリに関しての新規ワードを検出する。

既に述べたが、一例として検出部１３２は、特定のクエリによる検索要求数ｃが閾値Ｔｈを超えた状態を所定期間ｎ以上継続した場合等に、かかる特定のクエリを新規ワードとして検出する。

同様に、他の一例として、検出部１３２は、前述の経過時間のばらつき度合いが大きくなると、前述の第１クエリと第２クエリとの関係性が低いと推定し、第１クエリを第２クエリの誤記でなく、新規ワードとして検出する。

（推定部１３３について）
推定部１３３は、検出部１３２によって検出された新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する。

ここで、推定部１３３が実行する推定処理について、より具体的に説明する。図４は、実施形態に係る推定処理の処理説明図（その１）である。また、図５は、実施形態に係る推定処理の処理説明図（その２）である。

前提として、例えば既知のメディア作品に関する既知のワード「鬼滅の巨人」があり、これに対する誤記候補として、クエリ「撲滅の巨人」があるものとする。そして、図４に示すように、かかるクエリ「撲滅の巨人」による検索要求数ｃが閾値Ｔｈを超えた状態を所定期間ｎ以上継続し、検出部１３２がクエリ「撲滅の巨人」を新規ワードとして検出したとする。

かかる場合、図５に示すように、推定部１３３は、新規ワード「撲滅の巨人」の検出時点Ｔ１から逆時系列にユーザＵごとの検索行動に関する特徴情報を解析する。特徴情報には上述した通り検索行動に際してのコンテキストが含まれており、推定部１３３は、かかるコンテキストに基づいて共通性あるユーザＵをグルーピングする。

ここで、同図に示すように、クエリ「撲滅の巨人」による検索行動は、逆時系列のある時点で、「〇〇高校女子Ｇ（グループ、以下同様）」、「○×大学男子Ｇ」…といった各グループにグルーピングされたものとする。

そして、推定部１３３は、このようにグルーピングされたグループ同士につき、さらにコンテキストに共通性あるグループをグルーピングしてゆく。時を遡れば、消失するグループも無論存在する。推定部１３３は、このように逆時系列の解析処理を繰り返すことにより、最終的に残るいくつかのグループを絞り込む。

すなわち、推定部１３３は、コンテキストに共通性あるユーザＵをグルーピングし、グルーピングされたグループの中からさらに共通性あるグループ同士をグルーピングすることによって、新規ワードの起源に関わるグループを絞り込む。

そして、同図に示すように、最終的にグループが「〇〇高校女子Ｇ」および「○×大学男子Ｇ」に絞り込まれた場合、推定部１３３は、これらグループの共通性あるコンテキストであり、両グループが参加していたと推定される「○月□日漫画イベント」を抽出する。参加していたことは、例えばコンテキストに含まれる位置情報等から推定可能である。

そして、推定部１３３は、かかる「○月□日漫画イベント」を新規ワード「撲滅の巨人」の起源Ｔ０として推定する。なお、推定部１３３はさらに、ネットワークＮを介して外部サーバからかかるイベントに関する情報を取得し、たとえば出品リストの中から、作品「撲滅の巨人」の出品の事実まで把握するようにしてもよい。

このように、推定部１３３は、コンテキストに共通性あるユーザＵをグルーピングし、グルーピングされたグループの中からさらに共通性あるグループ同士をグルーピングすることによって、新規ワードの起源に関わるグループを絞り込む。

また、推定部１３３は、絞り込まれた新規ワードの起源に関わるグループのコンテキストの共通性に基づいて、新規ワードの起源を特定する。

（処理部１３４について）
図３の説明に戻る。処理部１３４は、各種の処理を実行する。処理部１３４は、ユーザＵが入力したクエリに基づく検索処理を実行する。処理部１３４は、ユーザＵが入力したクエリを用いて検索処理を実行する。また、処理部１３４は、ユーザＵへ提供するコンテンツを含む各種情報を生成する。

また、処理部１３４は、ユーザＵが入力した第１クエリとは異なる第２クエリを用いて検索処理を実行する。処理部１３４は、ユーザＵが入力した第１クエリが第２クエリの誤記候補に含まれる場合、第１クエリを第２クエリへ変換する。そして、処理部１３４は、変換後の第２クエリを用いて検索処理を実行する。

（提供部１３５について）
提供部１３５は、通信部１１０を介して、ユーザ端末１０へ各種情報を送信する。提供部１３５は、ユーザＵへ検索サービスを提供する。例えば、提供部１３５は、処理部１３４による検索処理の結果である検索結果をユーザ端末１０へ送信する。また、提供部１３５は、処理部１３４により生成された各種情報をユーザ端末１０へ送信する。また、提供部１３５は、推定部１３３によって推定された推定結果を情報処理装置１００のオペレータ等へ提供する。

〔４．情報処理装置１００の処理手順〕
次に、実施形態に係る情報処理装置１００が実行する処理手順について説明する。図６は、実施形態に係る情報処理装置１００が実行する処理手順を示すフローチャートである。

図６に示すように、まず取得部１３１が、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得する（ステップＳ１０１）。

そして、検出部１３２が、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出する（ステップＳ１０２）。

そして、推定部１３３が、新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する（ステップＳ１０３）。そして、処理を終了する。

〔５．ハードウェア構成〕
上述してきた実施形態に係る情報処理装置１００やユーザ端末１０は、例えば図７に示すような構成のコンピュータ１０００によって実現される。以下、情報処理装置１００を例に挙げて説明する。図７は、実施形態に係る情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ（Central Processing Unit）１１００、ＲＡＭ（Random Access Memory）１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、およびメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５００（図２に示したネットワークＮに対応）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５００を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、当該プログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の各機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが記憶される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５００を介してこれらのプログラムを取得してもよい。

〔６．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、図３に示した取得部１３１と提供部１３５とは、統合されてもよい。また、例えば、検出部１３２と推定部１３３とは、統合されてもよい。また、例えば、記憶部１２０に記憶される情報は、ネットワークＮを介して、外部に備えられた所定の記憶装置に記憶されてもよい。

また、上記実施形態では、情報処理装置１００が、例えば、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得する取得処理と、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出する検出処理と、新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する推定処理と、を行う例を示した。しかし、上述した情報処理装置１００は、取得処理を行う取得装置と、検出処理を行う検出装置と、推定処理を行う推定装置とが分離されてもよい。この場合、取得装置は、少なくとも取得部１３１を有する。検出装置は、少なくとも検出部１３２を有する。推定装置は、少なくとも推定部１３３を有する。そして、上記の情報処理装置１００による処理は、取得装置と、検出装置と、推定装置との各装置を含む情報処理システム１によって実現される。

また、上記実施形態では、推定部１３３は、検出部１３２によって検出された新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する例を挙げたが、その過程において次のような方法で有用な情報を得ることができる。

例えば、起源Ｔ０へ遡るまでの途中経路を系統樹のような階層構造に見立て、各ノードにおけるクエリをベクトル化してクエリごとの有向成分を抽出したり、メタ情報化したりすることによって、クエリを取り扱う際に、より現実に沿ったクエリのモデリングなどを行うことが可能となる。

また、上記実施形態では、検索行動のみに基づいて起源Ｔ０まで遡る例を挙げたが、これに限られるものではなく、その他のユーザＵの行動、例えば買い物行動や、位置情報の変化を伴う移動行動などに基づいて、あるいはこれら他の行動を検索行動に加味して、起源Ｔ０まで遡るようにしてもよい。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔７．効果〕
実施形態に係る情報処理装置１００は、取得部１３１と、検出部１３２と、推定部１３３とを備える。取得部１３１は、ユーザＵによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザＵの検索行動に関する履歴情報を取得する。検出部１３２は、履歴情報から抽出される上記検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出する。推定部１３３は、新規ワードの検出時点Ｔ１から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源Ｔ０を推定する。

したがって、実施形態に係る情報処理装置１００によれば、クエリに関しての新規ワードの起源Ｔ０を推定することができる。また、起源Ｔ０を推定できることにより、ターゲティング等の各種分析や、「バズる」といった事象発生の分析等に活用することができる。

また、推定部１３３は、上記検出時点から逆時系列に特徴情報の共通性を再帰的に絞り込むことによって、新規ワードの起源Ｔ０を推定する。

したがって、実施形態に係る情報処理装置１００によれば、上記検出時点から逆時系列に特徴情報の共通性を再帰的に絞り込むことにより、新規ワードの起源Ｔ０を推定することができる。

また、推定部１３３は、特徴情報に含まれる上記検索行動に際してのコンテキストに基づいて特徴情報の共通性を推定する。

したがって、実施形態に係る情報処理装置１００によれば、特徴情報に含まれる上記検索行動に際してのコンテキストに基づいて、新規ワードの起源Ｔ０を推定することができる。

また、推定部１３３は、コンテキストに共通性あるユーザＵをグルーピングし、グルーピングされたグループの中からさらに共通性あるグループ同士をグルーピングすることによって、新規ワードの起源に関わるグループを絞り込む。

したがって、実施形態に係る情報処理装置１００によれば、コンテキストに共通性あるユーザＵに基づいて、新規ワードの起源Ｔ０を推定することができる。

したがって、実施形態に係る情報処理装置１００によれば、新規ワードの起源に関わるグループのコンテキストの共通性に基づいて、新規ワードの起源Ｔ０を推定することができる。

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
１０ユーザ端末
１００情報処理装置
１１０通信部
１２０記憶部
１２１履歴情報記憶部
１２２特徴情報記憶部
１２３推定情報記憶部
１３０制御部
１３１取得部
１３２検出部
１３３推定部
１３４処理部
１３５提供部

Claims

既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する取得部と、
前記履歴情報に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリを新規のワードとして検出する検出部と、
前記新規のワードの検出時点から逆時系列の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する推定部と
を備えることを特徴とする情報処理装置。
前記推定部は、
前記最も過去のグループにおいて共通する位置情報に基づいて、前記新規のワードの起源となる場所を特定する
ことを特徴とする請求項１に記載の情報処理装置。
前記推定部は、
前記最も過去のグループにおいて共通する日付および前記場所におけるイベントに関する情報を取得し、当該イベントに関する情報に基づいて前記新規のワードの起源となる物を特定する
ことを特徴とする請求項２に記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する取得工程と、
前記履歴情報に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリを新規のワードとして検出する検出工程と、
前記新規のワードの検出時点から逆時系列の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する推定工程と
を含むことを特徴とする情報処理方法。
既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する取得手順と、
前記履歴情報に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリを新規のワードとして検出する検出手順と、
前記新規のワードの検出時点から逆時系列の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する推定手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。