JP7522148B2 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP7522148B2 JP7522148B2 JP2022028551A JP2022028551A JP7522148B2 JP 7522148 B2 JP7522148 B2 JP 7522148B2 JP 2022028551 A JP2022028551 A JP 2022028551A JP 2022028551 A JP2022028551 A JP 2022028551A JP 7522148 B2 JP7522148 B2 JP 7522148B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- query
- positive
- information processing
- unlabeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 51
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000012360 testing method Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 29
- 238000002372 labelling Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 22
- 238000007637 random forest analysis Methods 0.000 claims description 21
- 230000002093 peripheral effect Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000556720 Manga Species 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、図1を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。図1は、実施形態に係る情報処理方法の概要を示す説明図である。なお、図1では、複数意図のエンティティクエリに対する絞り込み検索のためのクエリを生成する場合を例に挙げて説明する。
本実施形態では、サーバ装置100は、複数意図を持つエンティティクエリに対する絞り込み検索のためのクエリ(再検索クエリ)の生成を行う。このとき、サーバ装置100は、複数の正例生成器とラベル未付与事例生成器を組み合わせることで訓練事例を自動生成する。また、サーバ装置100は、元クエリと再検索クエリとの組のCRR(Cumulative Reciprocal Rank)の差を含めた複数の素性を用いてRF(Random forest:ランダムフォレスト)によるPU(Positive Unlabeled)学習を行う。
サーバ装置100は、元クエリqaに対して、再検索クエリqbの順位付けされたリストを生成する。このとき、次のクエリの要件を全て満たす候補のみを選択する。
(1)qa、qbはいずれもエンティティクエリである
(2)qaは複数のエンティティを指している
(3)qbは特定のエンティティを指す意図の絞り込みのクエリである。
力点の変化を判定できなければならない。例えば“アガサクリスティ”→“アガサクリスティねじれた家”の場合は付加された“ねじれた家”に力点が変化している。こういった組は除外するべきである。また、周辺語を含まない部分一致はクエリの表層だけでは判定が難しい。例えば“東京”→“東京タワー”の場合は意図を絞り込んでいるわけではないため除外するべきである。一方、同じ部分一致でも取り違える可能性の高い組は絞り込みのための再検索として残す必要がある。例えば“ディーゼル”→“ディーゼルエンジン”などが挙げられる。
所与の知識ベースに格納されているエンティティが再検索先の候補として最もふさわしくなるとは限らない。例えば“RHP”というクエリでは“バイトルRHP”(ホームページ作成サービス)などが再検索クエリの候補として挙げられる。しかし、これと対応するエンティティはWikipedia(登録商標)などの知識ベースには格納されていない。
図1に示すように、サーバ装置100は、検索ログを二種類取得する(ステップS1)。一つ目は、学習時に参照する素性を抽出するための素性抽出用のログである。あらかじめ学習時に参照するための素性を保存しておく。二つ目は、順位付け対象となる元クエリと再検索クエリとの組を取得するためのログである。
サーバ装置100は、ウェブ検索のセッションログを取得する。このログから再検索クエリqbの発行された時刻t(qb)と元クエリqaの発行された時刻t(qa)の差が30秒以内のもののみを抽出する。セッションとは、ある特定のユーザが一定時間内に発行した一連のクエリとそれに伴うユーザ行動のことを指す。
本実施形態では、次の正例生成器のいずれか又は組合せを使用する。ただし、実際には、これらの例に限定されない。
元クエリを内製のエンティティリンカーの入力とし、エンティティIDを出力する。知識ベースからエンティティIDと紐づく正式名称を取得する。元クエリが正式名称に対する部分一致文字列になっている場合には元クエリと正式名称との組を正例とする。
元クエリと再検索クエリとの組を内製のエンティティリンカーの入力とし、それぞれのエンティティIDを取得する。元クエリと再検索クエリでそれぞれ異なるエンティティIDを出力している組を残す。同一IDを指す再検索クエリが複数ある場合には生起確率の最も高い候補を選択する。最後に、次の条件をすべて満たす組を正例とする。
(1)人物エンティティ間、または、メディア作品間の遷移である
(2)元クエリに周辺語は含まれない(例えば、元クエリの主要語が空白で区切られている場合、空白の後の文字列は周辺語とはしない)
(3)遷移前後で主要語と周辺語の入れ替わりが起きていない
元クエリと再検索クエリとの組に対するCRR(Cumulative Reciprocal Rank)の差ΔCRRはクエリ自動補完の分野においてしばしば用いられる指標である。例えば、当該分野では、順位に対数を適用した重みづけ、セッション後半のクリック先を利用したスコア補正などいずれも派生的なΔCRRの定義をしている。本実施形態ではΔCRRを次のように表現する。
本実施形態では、次のラベル未付与事例生成器のいずれか又は組合せを使用する。ただし、実際には、これらの例に限定されない。
生成器1は、元クエリが曖昧さ回避ページと対応するエンティティの名称と一致する事例をラベル未付与とする。
生成器2は、元クエリと再検索クエリとの組に対する正例の生成時に正例と判定されなかった事例のうち周辺語を含まずエンティティIDが異なるクエリの組をラベル未付与とする。
生成器3は、ΔCRRによる正例の生成時に正例と判定されなかった事例をラベル未付与とする。
本実施形態では次のようにPU学習を行う。まずラベル未付与の事例に対してラベルを付与する。
(1)正例およびラベル未付与の事例を訓練用とテスト用の2つに分割する。
(2)訓練用の正例およびラベル未付与の事例を入力とし、ラベル付与確率の回帰器を生成する。
(3)テスト用の正例に対してこの回帰器を適用し、ラベル付与確率g(x)の平均cを求める。
(4)テスト用のラベル未付与の事例に対して回帰器を適用し、w(x)=p(y=1|x、s=0)の重みによりラベリングを行う。ここでw(x)は定数である平均cへの依存を持つ。
(5)訓練用の事例とテスト用の事例を入れ替え、テスト用の正例およびラベル未付与の事例について、上記(2)~(4)のステップを行う。
PU学習の際に用いる素性を表1に示す。
(クエリの分散表現)
クエリログからトークン数が2以上のレコードを抽出し、トークンの生起回数に基づくShifted Positive PMIの行列Xを生成する。この行列にRandomized SVD(Singular Value Decomposition)を適用し、X=UΣV*を得る。ここで、U、Vは直交行列、Σは特異値の対角行列である。トークンの分散表現に、下記の式(2)で示す行列を用いる。
〔1-7-1.データセット〕
各データセットの詳細を以下に示す。
所定の期間のセッションログを用いて素性を抽出した。
ある1日のモデル(モデルの訓練にはその日の内製知識ベースおよびその日以前の直近1年間の所定の検索サイトのクリックログを利用する)
順位付け対象事例は、上記とは別の所定の期間に発行された元クエリと再検索クエリとの組である。上述した操作により順位付け対象事例に対して確率を付与した。正例は1,225,010事例、ラベル未付与事例は9,036,884事例であったが、PU学習前にランダムオーバーサンプリングにより両方の数を均等にした。このときの素性は前述の参照用素性を利用した。
順位付け対象事例のうち元クエリに対するエンティティリンカーの推定結果の一位が曖昧さ回避エンティティと対応し、かつ、元クエリあたりの再検索クエリの異なり数が50以上の事例のみを残した。まず元クエリ100事例を非復元抽出し、この元クエリを含む組を評価用とした。評価用として使用されなかった組からΔCRRが[0.5,2.0]の範囲の0.25刻みで各10事例ずつ非復元抽出した。この計70事例を開発用事例とした。
比較手法を以下に示す。
RF(Random forest)によりPU学習を行った。Sparkの機械学習ライブラリ(MLlib)であるSparkMLlib2.4.6を使用し、Randomized SVDにはCriteo/Spark-RSVDを使用した(URL:https://github.com/criteo/Spark-RSVD)。
素性抽出用ログの期間に計算したDCRR(デルタCRR:ΔCRR)の値を適用した。このとき、しきい値を1.5に設定した。
所定の日に所定の検索サイトに対してクエリを発行し、これらの事例に対して次の3段階のスコアを付与した。
スコア「1.0」:クエリの要件を満たし、かつ、検索結果1~2ページ目のいずれかの文書に対応している。
スコア「0.5」:クエリの要件を満たさないが、検索結果1ページ目の上位5件以内の文書と対応している。
スコア「0.0」:上記以外
開発事例に対して3段階のスコアを付与した。このとき、F値が最大となったしきい値1.5を設定した。なお、このときのF値は0.735であった。
適合率、再現率、F値を計測した結果、適合率についてはDCRRがRFを12.4ポイント上回った。再現率およびF値については、RFがDCRRをそれぞれ12.3ポイント、4.4ポイント上回った。このように、RF(Random forest)により学習を行い、単独のラベル生成器を用いた場合と比較してF値が4.4ポイント向上した。すなわち、本実施形態により、CRRの差を単独で用いる場合よりもF値が4.4ポイント向上する。
次に、図2を用いて、実施形態に係るサーバ装置100が含まれる情報処理システム1の構成について説明する。図2は、実施形態に係る情報処理システム1の構成例を示す図である。図2に示すように、実施形態に係る情報処理システム1は、端末装置10とサーバ装置100とを含む。これらの各種装置は、ネットワークNを介して、有線又は無線により通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネット等のWAN(Wide Area Network)である。
次に、図3を用いて、端末装置10の構成について説明する。図3は、端末装置10の構成例を示す図である。図3に示すように、端末装置10は、通信部11と、表示部12と、入力部13と、測位部14と、センサ部20と、制御部30(コントローラ)と、記憶部40とを備える。
通信部11は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、サーバ装置100との間で情報の送受信を行う。例えば、通信部11は、NIC(Network Interface Card)やアンテナ等によって実現される。
表示部12は、位置情報等の各種情報を表示する表示デバイスである。例えば、表示部12は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機ELディスプレイ(Organic Electro-Luminescent Display)である。また、表示部12は、タッチパネル式のディスプレイであるが、これに限定されるものではない。
入力部13は、利用者Uから各種操作を受け付ける入力デバイスである。例えば、入力部13は、文字や数字等を入力するためのボタン等を有する。なお、入力部13は、入出力ポート(I/O port)やUSB(Universal Serial Bus)ポート等であってもよい。また、表示部12がタッチパネル式のディスプレイである場合、表示部12の一部が入力部13として機能する。また、入力部13は、利用者Uから音声入力を受け付けるマイク等であってもよい。マイクはワイヤレスであってもよい。
測位部14は、GPS(Global Positioning System)の衛星から送出される信号(電波)を受信し、受信した信号に基づいて、自装置である端末装置10の現在位置を示す位置情報(例えば、緯度及び経度)を取得する。すなわち、測位部14は、端末装置10の位置を測位する。なお、GPSは、GNSS(Global Navigation Satellite System)の一例に過ぎない。
例えば、測位部14は、端末装置10のWi-Fi(登録商標)通信機能や、各通信会社が備える通信網を利用して、端末装置10の位置を測位する。具体的には、測位部14は、Wi-Fi通信等を行い、付近の基地局やアクセスポイントとの距離を測位することにより、端末装置10の位置を測位する。
また、測位部14は、端末装置10のBluetooth(登録商標)機能を利用して位置を測位してもよい。例えば、測位部14は、Bluetooth(登録商標)機能によって接続されるビーコン(beacon)発信機と接続することにより、端末装置10の位置を測位する。
また、測位部14は、予め測定された構造物の地磁気のパターンと、端末装置10が備える地磁気センサとに基づいて、端末装置10の位置を測位する。
また、例えば、端末装置10が駅改札や店舗等で使用される非接触型ICカードと同等のRFID(Radio Frequency Identification)タグの機能を備えている場合、もしくはRFIDタグを読み取る機能を備えている場合、端末装置10によって決済等が行われた情報とともに、使用された位置が記録される。測位部14は、かかる情報を取得することで、端末装置10の位置を測位してもよい。また、位置は、端末装置10が備える光学式センサや、赤外線センサ等によって測位されてもよい。
センサ部20は、端末装置10に搭載又は接続される各種のセンサを含む。なお、接続は、有線接続、無線接続を問わない。例えば、センサ類は、ウェアラブルデバイスやワイヤレスデバイス等、端末装置10以外の検知装置であってもよい。図3に示す例では、センサ部20は、加速度センサ21と、ジャイロセンサ22と、気圧センサ23と、気温センサ24と、音センサ25と、光センサ26と、磁気センサ27と、画像センサ(カメラ)28とを備える。
制御部30は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM、入出力ポート等を有するマイクロコンピュータや各種の回路を含む。また、制御部30は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路等のハードウェアで構成されてもよい。制御部30は、送信部31と、受信部32と、処理部33とを備える。
送信部31は、例えば入力部13を用いて利用者Uにより入力された各種情報や、端末装置10に搭載又は接続された各センサ21~28によって検知された各種情報、測位部14によって測位された端末装置10の位置情報等を、通信部11を介してサーバ装置100へ送信することができる。
受信部32は、通信部11を介して、サーバ装置100から提供される各種情報や、サーバ装置100からの各種情報の要求を受信することができる。
処理部33は、表示部12等を含め、端末装置10全体を制御する。例えば、処理部33は、送信部31によって送信される各種情報や、受信部32によって受信されたサーバ装置100からの各種情報を表示部12へ出力して表示させることができる。
記憶部40は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置によって実現される。かかる記憶部40には、各種プログラムや各種データ等が記憶される。
次に、図4を用いて、実施形態に係るサーバ装置100の構成について説明する。図4は、実施形態に係るサーバ装置100の構成例を示す図である。図4に示すように、サーバ装置100は、通信部110と、記憶部120と、制御部130とを有する。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークNと有線又は無線で接続される。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD、SSD、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部120は、利用者情報データベース121と、履歴情報データベース122と、検索ログ情報データベース123とを有する。
利用者情報データベース121は、利用者Uに関する利用者情報を記憶する。例えば、利用者情報データベース121は、利用者Uの属性等の種々の情報を記憶する。図5は、利用者情報データベース121の一例を示す図である。図5に示した例では、利用者情報データベース121は、「利用者ID(Identifier)」、「年齢」、「性別」、「自宅」、「勤務地」、「興味」といった項目を有する。
履歴情報データベース122は、利用者Uの行動を示す履歴情報(ログデータ)に関する各種情報を記憶する。図6は、履歴情報データベース122の一例を示す図である。図6に示した例では、履歴情報データベース122は、「利用者ID」、「位置履歴」、「検索履歴」、「閲覧履歴」、「購入履歴」、「投稿履歴」といった項目を有する。
検索ログ情報データベース123は、二種類の検索ログを記憶する。一つ目は、学習時に参照する素性を抽出するための素性抽出用のログである。あらかじめ学習時に参照するための素性を保存しておく。二つ目は、順位付け対象となる元クエリと再検索クエリとの組を取得するためのログである。
図4に戻り、説明を続ける。制御部130は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、サーバ装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。図4に示す例では、制御部130は、取得部131と、生成部132と、学習部133と、提供部134とを有する。
取得部131は、利用者Uにより入力された検索クエリを取得する。例えば、取得部131は、利用者Uが検索エンジン等に検索クエリを入力してキーワード検索を行った際に、通信部110を介して、当該検索クエリを取得する。すなわち、取得部131は、通信部110を介して、利用者Uにより検索エンジンやサイト又はアプリの検索窓に入力されたキーワードを取得する。
生成部132は、複数意図を持つエンティティクエリに対する絞り込み検索のための再検索クエリを生成する。また、生成部132は、元クエリに対して、再検索クエリの順位付けされたリストを生成する。
学習部133は、元クエリと再検索クエリとの組のCRR(Cumulative Reciprocal Rank)の差を含めた複数の素性を用いてRF(Random forest:ランダムフォレスト)によるPU(Positive Unlabeled)学習を行う。
提供部134は、通信部110を介して、検索クエリを入力した利用者Uの端末装置10に、最尤なエンティティに対応する検索結果を提供する。
次に、図7を用いて実施形態に係るサーバ装置100による処理手順について説明する。図7は、実施形態に係る処理手順を示すフローチャートである。なお、以下に示す処理手順は、サーバ装置100の制御部130によって繰り返し実行される。
上述した端末装置10及びサーバ装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。
上述してきたように、本願に係る情報処理装置(サーバ装置100)は、複数意図を持つエンティティクエリに対する絞り込み検索のための再検索クエリを生成する生成部132と、元クエリと再検索クエリとの組のCRR(Cumulative Reciprocal Rank)の差を含めた複数の素性を用いてランダムフォレストによるPU(Positive Unlabeled)学習を行う学習部133とを備える。
また、上述した実施形態に係る端末装置10やサーバ装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、サーバ装置100を例に挙げて説明する。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
10 端末装置
100 サーバ装置
110 通信部
120 記憶部
121 利用者情報データベース
122 履歴情報データベース
123 検索ログ情報データベース
130 制御部
131 取得部
132 生成部
133 学習部
134 提供部
Claims (17)
- 検索ログに蓄積された元クエリと再検索クエリとの組を順位付けして、複数意図を持つエンティティクエリに対する意図の絞り込みのための再検索用の再検索クエリを生成する生成部と、
元クエリと再検索クエリとの組のCRRの差を含めた複数の素性を用いてランダムフォレストによるPU学習を行う学習部と
を備えることを特徴とする情報処理装置。 - 前記生成部は、元クエリに対して、再検索クエリの順位付けされたリストを生成する
ことを特徴とする請求項1に記載の情報処理装置。 - 検索ログを二種類取得する取得部と
をさらに備え、
前記検索ログの一つ目は、学習時に参照する素性を抽出するための素性抽出用のログであり、
前記検索ログの二つ目は、順位付け対象となる元クエリと再検索クエリとの組を取得するためのログである
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記生成部は、前記検索ログから取得された順位付け対象のクエリの組に対し、複数のラベル生成器を用いて正例とラベル未付与の事例とに分割する
をさらに備えることを特徴とする請求項3に記載の情報処理装置。 - 前記生成部は、複数の正例生成器と複数のラベル未付与事例生成器とを組み合わせることで訓練事例を自動生成する
ことを特徴とする請求項4に記載の情報処理装置。 - 前記生成部は、正例生成器の1つを用いて、元クエリをエンティティリンカーの入力とし、エンティティIDを出力し、知識ベースからエンティティIDと紐づく正式名称を取得し、元クエリが正式名称に対する部分一致文字列になっている場合には元クエリと正式名称との組を正例とする
ことを特徴とする請求項4又は5に記載の情報処理装置。 - 前記生成部は、正例生成器の1つを用いて、元クエリと再検索クエリとの組をエンティティリンカーの入力とし、それぞれのエンティティIDを取得し、元クエリと再検索クエリでそれぞれ異なるエンティティIDを出力している組を残し、同一IDを指す再検索クエリが複数ある場合には生起確率の最も高い候補を選択し、所定の条件を満たす組を正例とする
ことを特徴とする請求項4~6のうちいずれか1つに記載の情報処理装置。 - 前記生成部は、前記所定の条件として、人物エンティティ間、または、メディア作品間の遷移であり、元クエリに周辺語は含まれず、遷移前後で主要語と周辺語の入れ替わりが起きていないという条件を満たす組を正例とする
ことを特徴とする請求項7に記載の情報処理装置。 - 前記生成部は、正例生成器の1つを用いて、元クエリと再検索クエリとの組に対するCRRの差を算出し、前記CRRの差が0より大きく1.5以下の場合に元クエリと再検索クエリとの組を正例とする
ことを特徴とする請求項4~8のうちいずれか1つに記載の情報処理装置。 - 前記生成部は、ラベル未付与事例生成器の1つを用いて、元クエリが曖昧さ回避ページと対応するエンティティの名称と一致する事例をラベル未付与とする
ことを特徴とする請求項4~9のうちいずれか1つに記載の情報処理装置。 - 前記生成部は、ラベル未付与事例生成器の1つを用いて、元クエリと再検索クエリとの組に対する正例の生成時に正例と判定されなかった事例のうち周辺語を含まずエンティティIDが異なるクエリの組をラベル未付与とする
ことを特徴とする請求項4~10のうちいずれか1つに記載の情報処理装置。 - 前記生成部は、ラベル未付与事例生成器の1つを用いて、元クエリと再検索クエリとの組に対するCRRの差による正例の生成時に正例と判定されなかった事例をラベル未付与とする
ことを特徴とする請求項4~11のうちいずれか1つに記載の情報処理装置。 - 前記生成部は、すでに正例と判定されていた事例については、ラベル未付与とはせず正例とする
ことを特徴とする請求項4~12のうちいずれか1つに記載の情報処理装置。 - 前記学習部は、ラベル未付与の事例に対してラベルを付与する
ことを特徴とする請求項4~13のうちいずれか1つに記載の情報処理装置。 - 前記学習部は、
正例およびラベル未付与の事例を訓練用とテスト用の2つに分割し、
訓練用の正例およびラベル未付与の事例を入力とし、ラベル付与確率の回帰器を生成し、テスト用の正例に対して該回帰器を適用し、ラベル付与確率の平均を求め、テスト用のラベル未付与の事例に対して該回帰器を適用し、定数である該平均への依存を持つ重みによりラベリングを行い、
訓練用の事例とテスト用の事例を入れ替えて、
テスト用の正例およびラベル未付与の事例を入力とし、ラベル付与確率の回帰器を生成し、訓練用の正例に対して該回帰器を適用し、ラベル付与確率の平均を求め、訓練用のラベル未付与の事例に対して該回帰器を適用し、定数である該平均への依存を持つ重みによりラベリングを行い、
全ての事例にラベルが付与されたら二分割交差検定を行い、各テスト用事例に対して付与された予測確率を順位付けに用いる
ことを特徴とする請求項14に記載の情報処理装置。 - 情報処理装置が実行する情報処理方法であって、
検索ログに蓄積された元クエリと再検索クエリとの組を順位付けして、複数意図を持つエンティティクエリに対する意図の絞り込みのための再検索用の再検索クエリを生成する生成工程と、
元クエリと再検索クエリとの組のCRRの差を含めた複数の素性を用いてランダムフォレストによるPU学習を行う学習工程と
を含むことを特徴とする情報処理方法。 - 検索ログに蓄積された元クエリと再検索クエリとの組を順位付けして、複数意図を持つエンティティクエリに対する意図の絞り込みのための再検索用の再検索クエリを生成する生成手順と、
元クエリと再検索クエリとの組のCRRの差を含めた複数の素性を用いてランダムフォレストによるPU学習を行う学習手順と
をコンピュータに実行させるための情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022028551A JP7522148B2 (ja) | 2022-02-25 | 2022-02-25 | 情報処理装置、情報処理方法及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022028551A JP7522148B2 (ja) | 2022-02-25 | 2022-02-25 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023124656A JP2023124656A (ja) | 2023-09-06 |
JP7522148B2 true JP7522148B2 (ja) | 2024-07-24 |
Family
ID=87886004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022028551A Active JP7522148B2 (ja) | 2022-02-25 | 2022-02-25 | 情報処理装置、情報処理方法及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7522148B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021179987A (ja) | 2020-05-11 | 2021-11-18 | ネイバー コーポレーションNAVER Corporation | ショッピング検索結果の拡張方法およびシステム |
JP2022013688A (ja) | 2020-07-03 | 2022-01-18 | アセントコリア カンパニーリミテッド | 検索意図を提供するためのサービス提供装置及び方法 |
-
2022
- 2022-02-25 JP JP2022028551A patent/JP7522148B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021179987A (ja) | 2020-05-11 | 2021-11-18 | ネイバー コーポレーションNAVER Corporation | ショッピング検索結果の拡張方法およびシステム |
JP2022013688A (ja) | 2020-07-03 | 2022-01-18 | アセントコリア カンパニーリミテッド | 検索意図を提供するためのサービス提供装置及び方法 |
Non-Patent Citations (3)
Title |
---|
SHOKOUHI, Milad、他4名,Query Suggestion and Data Fusion in Contextual Disambiguation,Proceedings of the 24th International Conference on World Wide Web [online],2015年03月18日,pp.971-980,インターネット:<URL: https://doi.org/10.1145/2736277.2741646> |
豊田 樹生、他3名,ウェブ検索クエリのための部分一致文字列に対するエンティティ名称予測モデルの提案,言語処理学会第27回年次大会 発表論文集 [online],日本,言語処理学会,2021年03月08日,第590-594頁 |
金子 弘明、他2名,適合性フィードバックにおけるユーザ負荷軽減手法,情報処理学会 研究報告 自然言語処理(NL) [online] ,日本,情報処理学会,2013年11月07日,Vol.2013-NL-214,No.3,第1-8頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2023124656A (ja) | 2023-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7174782B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7159373B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7187597B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7522148B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7145247B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7212665B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7459026B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7453199B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7193519B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7077431B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
US20220374478A1 (en) | Information processing device, information processing method, and non-transitory computer readable storage medium | |
JP7337123B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7470826B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7168640B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7145997B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7459021B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2023102373A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2023102384A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7532585B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7191136B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2023014734A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2023105760A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2024117933A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2024154899A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2023043779A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7522148 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |