JP7407139B2

JP7407139B2 - 生成装置、生成方法及び生成プログラム

Info

Publication number: JP7407139B2
Application number: JP2021022809A
Authority: JP
Inventors: 伸裕鍜治
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-02-16
Filing date: 2021-02-16
Publication date: 2023-12-28
Anticipated expiration: 2041-02-16
Also published as: JP2022124899A

Description

本発明は、生成装置、生成方法及び生成プログラムに関する。

従来、文字列の入力を効率化する目的として、文字列の入力候補を表示する技術が知られている。例えば、変換対象文字列の変換の候補を容易に選択する技術が提供されている。

特開２０１８－１８５７１５号公報

しかしながら、上記の従来技術では、変換対象文字列の変換の候補を容易に選択するに過ぎない。そのため、入力候補となり得る文字列を効率よく生成できるとは限らない。

本願は、上記に鑑みてなされたものであって、文字列を生成するための適切なデータを生成することができる生成装置、生成方法及び生成プログラムを目的とする。

本願に係る生成装置は、利用者によって入力された入力情報のうちから、第１入力情報と、当該第１入力情報が入力された後に連続的に入力された第２入力情報との組合せである第１データを抽出する抽出部と、前記第１入力情報と、前記第１入力情報との組合せである第２データを生成し、前記第１データと、当該第２データとに異なる重みを重み付けて学習させた学習モデルを生成する生成部とを備えることを特徴とする。

実施形態の一態様によれば、適切な文字列を生成するためのデータを生成することができるという効果を奏する。

図１は、実施形態に係る生成装置が実行する提供処理の一例を示す図である。図２は、実施形態に係る学習モデルの生成処理を示す概念図である。図３は、実施形態に係る生成システムの構成例を示す図である。図４は、実施形態に係るクエリ情報記憶部の一例を示す図である。図５は、実施形態に係るデータ記憶部の一例を示す図である。図６は、実施形態に係る重み情報記憶部の一例を示す図である。図７は、実施形態に係る生成装置が実行する生成処理の流れの一例を示すフローチャートである。図８は、実施形態に係る生成装置が実行する提供処理の流れの一例を示すフローチャートである。図９は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る生成装置、生成方法及び生成プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法及び生成プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．生成装置が示す生成処理の一例〕
まず、図１を用いて、生成装置１００が実行する生成処理の一例について説明する。図１は、実施形態に係る生成装置１００が実行する生成処理の一例を示す図である。図１では、生成装置１００は、取得したクエリ情報に基づいて学習モデルを生成し、かかる学習モデルを用いて、受付けたクエリ情報に対応する検索クエリの候補に関する情報を提供する例を挙げて説明する。

まず、学習モデルを生成する処理について説明する。図１の例では、利用者によって入力された検索クエリが示す文字列に綴り間違いがあり、利用者が連続してさらに、正しい綴りである文字列を検索クエリとして入力するものとする。

利用者によって利用される端末装置１０は、検索サーバ２０に検索するための要求を送信する。そして、検索サーバ２０は、端末装置１０に検索するためのコンテンツ「ＥＸ検索」を提供する。そして、端末装置１０は、検索するためのコンテンツ「ＥＸ検索」を表示する。この場合、利用者は、検索するためのコンテンツに含まれる検索窓に検索クエリとして文字列を入力するものとする。

例えば、端末装置１０は、「ＥＸ検索」に関するコンテンツＣ１を表示する。かかるコンテンツＣ１は、検索窓ＱＷ１を含む。ここで、利用者は、「ＸＸトマト」を検索したいものとする。この場合、利用者は、検索窓ＱＷ１に、検索クエリとして、「ＸＸトメト」と入力する。ここで、利用者は、綴り間違いに気づき、検索窓ＱＷ１に、正しい綴りである「ＸＸトマト」を再度入力する。

この場合、図１に示すように、検索サーバ２０は、利用者によって入力された検索クエリであるクエリ情報を端末装置１０から受付ける（ステップＳ１）。例えば、検索サーバ２０は、端末装置１０から検索窓に検索クエリが入力される毎に、クエリ情報を受付ける。より具体的な例を挙げて説明すると、検索サーバ２０は、第１クエリ情報として「ＸＸトメト」と、第２クエリ情報として「ＸＸトマト」とを端末装置１０から受付ける。

続いて、生成装置１００は、クエリ情報を検索サーバ２０から取得する（ステップＳ２）。例えば、生成装置１００は、所定の期間内に入力された検索クエリと、入力された日時とが対応付けられたクエリ情報を取得する。より具体的な例を挙げて説明すると、生成装置１００は、第１クエリ情報として「ＸＸトメト」と、第２クエリ情報として「ＸＸトマト」とを含むクエリ情報を検索サーバ２０から取得する。

そして、生成装置１００は、クエリ情報のうちから、第１クエリ情報と、第１クエリ情報が入力された後に連続的に入力された第２クエリ情報との組合せである第１データを抽出する（ステップＳ３）。例えば、生成装置１００は、クエリ情報のうちから、所定の時間内に連続して入力された第１クエリ情報「ＸＸトメト」と、第２クエリ情報「ＸＸトマト」との組合せである第１データを抽出する。

なお、第１クエリ情報が示す文字列と、第２クエリ情報が示す文字列との類似の度合いを算出するための処理には、編集距離等の従来技術を用いることで実現可能である。

続いて、生成装置１００は、第１クエリ情報と、第１クエリ情報との組合せである第２データを生成する（ステップＳ４）。例えば、生成装置１００は、第１クエリ情報「ＸＸトメト」と、第１クエリ情報「ＸＸトメト」との組合せである第２データを生成する。

また、生成装置１００は、第３クエリ情報と、第３クエリ情報との組合せである第３データを生成する（ステップＳ５）。ここで、第３クエリ情報とは、クエリ情報のうちから抽出されるクエリ情報であって、第１及び第２クエリ情報を含まないクエリ情報である。

例えば、クエリ情報のうちから、第３クエリ情報として「ＹＹオレンジ」を抽出しているものとする。この場合、生成装置１００は、第３クエリ情報「ＹＹオレンジ」と、第３クエリ情報「ＹＹオレンジ」との組合せである第３データを生成する。

また、生成装置１００は、第１データと、第２データと、第３データとの各々に異なる重みを重み付けて学習させた学習モデルを生成する（ステップＳ６）。

ここで、図２を用いて学習モデルを生成する生成処理について説明する。図２は、実施形態に係る学習モデルの生成処理を示す概念図である。図２の例では、第１データＤＡ１は、第１クエリ情報と、第２クエリ情報との組合せのデータある。また、第２データＤＡ２は、第１クエリ情報と、第１クエリ情報との組合せのデータである。また、第３データＤＡ３は、第３クエリ情報と、第３クエリ情報との組合せのデータである。

ここで、生成装置１００は、第１データと、第２データと、第３データとの各々に異なる重みを重み付けて学習させた学習モデルを生成する。ここで、重みは、各データに対応付けられる。図２の例では、第１データに関する情報として、データを識別する識別子であるデータＩＤ（Identifier）「Ｄ１」と、第１重み「Ｗ１」とが対応付けられる。また、第２データに関する情報として、データＩＤ「Ｄ２」と、第２重み「Ｗ２」とが対応付けられる。また、第３データに関する情報として、データＩＤ「Ｄ３」と、第３重み「Ｗ３」とが対応付けられる。すなわち、各重みは、第１データに対応する第１重みと、第２データに対応する第２重みと、第３データに対応する第３重みとである。

また、重みは、正の値又は負の値をとり得る。図２の例では、第１重み「Ｗ１」が正の値であり、第２重み「Ｗ２」が負の値であり、第３重み「Ｗ３」が正の値である。また、第１重み「Ｗ１」は、第３重み「Ｗ３」よりも大きい値である。

そして、生成装置１００は、第１データと、第１重みとの組合せを正例（綴り間違いの学習データ）として、第２データと、第２重みとの組合せを負例（正しい綴りの学習データ）として、第３データと、第３重みとの組合せを負例として学習させることで、学習モデルを生成する。なお、かかる生成処理は、機械学習に関連する各種従来技術を用いることで実現可能である。

より具体的な例を挙げて説明すると、生成装置１００は、第１クエリ情報「ＸＸトメト」と、第２クエリ情報「ＸＸトマト」との組合せである第１データに対して第１重み「５０」で重み付ける。また、生成装置１００は、第１クエリ情報「ＸＸトメト」と、第１クエリ情報「ＸＸトメト」との組合せである第２データに対して第２重み「－２０」で重み付ける。また、生成装置１００は、第３クエリ情報「ＹＹオレンジ」と、第３クエリ情報「ＹＹオレンジ」との組合せである第３データに対して第３重み「２」で重み付ける。そして、生成装置１００は、第１重みで重み付けられた第１データを正例として、第２重みで重み付けられた第２データを負例として、第３重みで重み付けられた第３データを負例として学習させることで、学習モデルを生成する。

図１の説明に戻る。次に、学習モデルを用いたクエリの候補に関する情報を提供する処理について説明する。検索サーバ２０は、クエリ情報を端末装置１０から受付ける（ステップＳ７）。例えば、検索サーバ２０は、「ＸＸトメト」といったクエリ情報を端末装置１０から受付ける。

続いて、生成装置１００は、クエリ情報を検索サーバ２０から受付ける（ステップＳ８）。例えば、生成装置１００は、クエリ情報「ＸＸトメト」を検索サーバ２０から受付ける。

そして、生成装置１００は、検索クエリの候補に関する情報を検索サーバ２０に提供する（ステップＳ９）。具体的には、生成装置１００は、受付けたクエリ情報に対応する正しい綴りである検索クエリの候補に関する情報を検索サーバ２０に提供する。例えば、生成装置１００は、学習モデルを用いて、正しい綴りの候補である検索クエリの候補に関する情報を選択し、かかるクエリの候補に関する情報を検索サーバ２０に提供する。

より具体的な例を挙げて説明すると、生成装置１００は、受付けたクエリ情報「ＸＸトメト」を学習モデルに入力することで、検索クエリの候補として、「ＸＸトマト」を出力する。そして、生成装置１００は、検索クエリの候補として、「ＸＸトマト」に関する情報を検索サーバ２０に提供する。

続いて、検索サーバ２０は、検索クエリの候補を端末装置１０に提案する（ステップＳ１０）。例えば、検索サーバ２０は、検索クエリの候補として、「ＸＸトマト」に関する情報を端末装置１０に提案する。そして、端末装置１０は、コンテンツＣ１上で、「ＸＸトマト」を検索クエリの正しい綴りの候補として表示する。

従来技術では、変換対象文字列の変換の候補を容易に選択するに過ぎないため、入力候補となり得る文字列を効率よく生成できるとは限らない場合があった。そこで、実施形態に係る生成装置１００は、利用者によって入力された入力情報のうちから、第１入力情報と、第１入力情報が入力された後に連続的に入力された第２入力情報との組合せである第１データを抽出する。そして、生成装置１００は、第１入力情報と、第１入力情報との組合せである第２データを生成し、第１データと、第２データとに異なる重みを重み付けて学習させた学習モデルを生成する。これにより、生成装置１００は、従来の課題を解決する。

従来、学習モデルを生成するために、正例や、負例を人の手で作成する必要があったため、学習モデルを生成するためのコストが費やされる場合があった。しかしながら、生成装置１００は、利用者による入力情報から正例や、負例を生成するため、従来費やされるコストを低減することができる。このように、生成装置１００は、適切な文字列を生成するための学習モデルを低いコストで生成することができる。

〔２．生成システムの構成〕
図３に示すように、生成システム１は、端末装置１０と、検索サーバ２０と、生成装置１００とを含む。端末装置１０、検索サーバ２０及び生成装置１００は、ネットワークＮを介して、有線又は無線により通信可能に接続される。なお、図３に示す生成システム１には、複数台の端末装置１０や、複数台の検索サーバ２０や、複数台の生成装置１００が含まれてもよい。

実施形態に係る端末装置１０は、ブラウザに表示されるウェブページやアプリケーション用のコンテンツ等のコンテンツにアクセスする利用者によって利用される情報処理装置である。例えば、端末装置１０は、デスクトップ型ＰＣ（Personal Computer）や、ノート型ＰＣや、タブレット端末や、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等や、スマートウォッチ等のウェアラブルデバイス（Wearable Device）等である。

実施形態に係る検索サーバ２０は、検索エンジンとして、利用者が入力した検索クエリに応じてネットワーク上での検索を行う情報処理装置であり、例えば、サーバ装置又はクラウドシステム等により実現される。例えば、検索サーバ２００は、ネットワークＮを介して、利用者が入力した検索クエリに応じたコンテンツや、ＳＮＳ（Social Networking Service）サービス、電子商取引サービス又はオークションサービスに関するコンテンツ等を検索する。また、検索サーバ２０は、これらのコンテンツにおいて、利用者が入力した検索クエリに応じた投稿情報や、商品情報や、画像情報等を検索する。また、検索サーバ２０は、利用者が入力した検索クエリに応じたファイルや、アプリケーション等を検索してもよい。

実施形態に係る生成装置１００は、ネットワークＮを介して、各種の装置と通信可能な情報処理装置であり、例えば、サーバ装置又はクラウドシステム等により実現される。例えば、生成装置１００は、ネットワークＮを介して、他の各種装置と通信可能に接続される。

〔３．生成装置の構成〕
以下、上記した生成装置１００が有する機能構成の一例について説明する。図３は、実施形態に係る生成装置１００の構成例を示す図である。図３に示すように、生成装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線又は無線で接続され、他の各種装置との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部１２０は、クエリ情報記憶部１２１と、データ記憶部１２２と、重み情報記憶部１２３と、学習モデル１２４とを有する。

（クエリ情報記憶部１２１について）
クエリ情報記憶部１２１は、利用者によって入力された検索クエリに関する情報を記憶する。ここで、図４に、実施形態に係るクエリ情報記憶部１２１の一例を示す。図４に示した例では、クエリ情報記憶部１２１は、「クエリＩＤ」、「日時」、「クエリ内容」といった項目を有する。

「クエリＩＤ」は、利用者によって入力された検索クエリを識別する識別子である。「日時」は、「クエリＩＤ」に対応付けられた検索クエリが入力された日時に関する情報である。「クエリ内容」は、「クエリＩＤ」に対応付けられたクエリ内容である。

例えば、図４では、クエリＩＤによって識別された「Ｑ１」は、日時が「ＤＴ１」であり、クエリ内容が「ＱＵ１」である。なお、図４に示した例では、日時等を、「ＤＴ１」等の抽象的な符号で表現したが、日時等は、具体的な数値や、具体的な文字列や、日時を示す各種情報を含むファイルのファイル形式等であってもよい。

（データ記憶部１２２について）
データ記憶部１２２は、クエリ情報の組合せであるデータに関する情報を記憶する。ここで、図５に、実施形態に係るデータ記憶部１２２の一例を示す。図５に示した例では、データ記憶部１２２は、「データＩＤ」、「クエリＩＤ」、「日時」、「クエリ内容」といった項目を有する。

「データＩＤ」は、データを識別する識別子である。「クエリＩＤ」は、「クエリＩＤ」に対応付けられた検索クエリを識別する識別子である。「日時」は、「データＩＤ」に対応付けられた検索クエリが入力された日時に関する情報である。「クエリ内容」は、「データＩＤ」に対応付けられたクエリ内容である。

例えば、図５では、データＩＤによって識別された「Ｄ１」は、クエリＩＤが「Ｑ１」であり、日時が「ＤＴ１」であり、クエリ内容が「ＱＵ１」である。

（重み情報記憶部１２３について）
重み情報記憶部１２３は、データと、重みとが対応付けられたデータセットに関する情報を記憶する。ここで、図６に、実施形態に係る重み情報記憶部１２３の一例を示す。図６に示した例では、重み情報記憶部１２３は、「データセットＩＤ」、「第１データに関する情報」、「第２データに関する情報」、「第３データに関する情報」といった項目を有する。例えば、各データに関する情報は、「データＩＤ」と、「重み」とに関する情報を含む。

「データＩＤ」は、データを識別する識別子である。「重み」は、「データＩＤ」に対応付けられた重みに関する情報である。

例えば、図６では、データセットＩＤによって識別された「ＳＥ１」は、第１データに関する情報であるデータＩＤが「Ｄ１」であり、重みが「Ｗ１」である。「ＳＥ１」は、第２データに関する情報であるデータＩＤが「Ｄ２」であり、重みが「Ｗ２」である。「ＳＥ１」は、第３データに関する情報であるデータＩＤが「Ｄ３」であり、重みが「Ｗ３」である。なお、図６に示した例では、重み等を、「Ｗ１」等の抽象的な符号で表現したが、重み等は、具体的な数値や、重みを示す各種情報を含むファイルのファイル形式等であってもよい。

（制御部１３０について）
制御部１３０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、生成装置１００内部の記憶装置に記憶されている各種プログラム（生成プログラムの一例）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図３に示すように、制御部１３０は、取得部１３１と、抽出部１３２と、生成部１３３と、受付部１３４と、提供部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
取得部１３１は、各種情報を取得する。具体的には、取得部１３１は、検索サーバ２０から、利用者によって入力された検索クエリを示すクエリ情報（入力情報の一例）を取得する。例えば、取得部１３１は、所定の期間内に入力された検索クエリと、入力された日時とが対応付けられたクエリ情報を取得する。

より具体的な例を挙げて説明すると、取得部１３１は、第１クエリ情報として「ＸＸトメト」と、第２クエリ情報として「ＸＸトマト」とを含むクエリ情報を検索サーバ２０から取得する。そして、取得部１３１は、かかるクエリ情報をクエリ情報記憶部１２１に記憶する。

（抽出部１３２について）
抽出部１３２は、各種情報を抽出する。具体的には、抽出部１３２は、クエリ情報記憶部１２１に記憶されるクエリ情報のうちから、第１クエリ情報や、第２クエリ情報や、第３クエリ情報を抽出する。

また、抽出部１３２は、クエリ情報記憶部１２１に記憶されるクエリ情報のうちから、第１クエリ情報と、第１クエリ情報が入力された後に連続的に入力された第２クエリ情報との組合せである第１データを抽出する。

例えば、抽出部１３２は、クエリ情報記憶部１２１に記憶されるクエリ情報のうちから、所定の時間内に連続して入力された第１クエリ情報「ＱＵ１」と、第２クエリ情報「ＱＵ２」との組合せである第１データを抽出する。そして、抽出部１３２は、かかる第１データをデータ記憶部１２２に記憶する。

（生成部１３３について）
生成部１３３は、各種情報を生成する。具体的には、生成部１３３は、第１クエリ情報と、第１クエリ情報との組合せである第２データを生成する。例えば、生成部１３３は、第１クエリ情報「ＱＵ１」と、第１クエリ情報「ＱＵ１」との組合せである第２データを生成する。そして、生成部１３３は、かかる第２データをデータ記憶部１２２に記憶する。

また、生成部１３３は、第３クエリ情報と、第３クエリ情報との組合せである第３データを生成する。例えば、生成部１３３は、第３クエリ情報「ＱＵ３」と、第３クエリ情報「ＱＵ３」との組合せである第３データを生成する。そして、生成部１３３は、かかる第３データをデータ記憶部１２２に記憶する。

また、生成部１３３は、重み情報記憶部１２３を参照して、第１データと、第２データと、第３データとの各々に異なる重みを重み付けて学習させた学習モデル１２４を生成する。例えば、生成部１３３は、重み情報記憶部１２３を参照して、第１データが示すデータＩＤ「Ｄ１」と、第１重み「Ｗ１」との組合せを正例として、第２データが示すデータＩＤ「Ｄ２」と、第２重み「Ｗ２」との組合せを負例として、第３データが示すデータＩＤ「Ｄ３」と、第３重み「Ｗ３」との組合せを負例として学習させることで、学習モデル１２４を生成する。ここで、図６の例では、第１重み「Ｗ１」が正の値であり、第２重み「Ｗ２」が負の値であり、第３重み「Ｗ３」が正の値である。また、第１重み「Ｗ１」は、第３重み「Ｗ３」よりも大きい値である。

より具体的な例を挙げて説明すると、生成部１３３は、第１クエリ情報「ＱＵ１」と、第２クエリ情報「ＱＵ２」との組合せである第１データに対して第１重み「５０」で重み付ける。また、生成部１３３は、第１クエリ情報「ＱＵ１」と、第１クエリ情報「ＱＵ１」との組合せである第２データに対して第２重み「－２０」で重み付ける。また、生成部１３３は、第３クエリ情報「ＱＵ３」と、第３クエリ情報「ＱＵ３」との組合せである第３データに対して第３重み「２」で重み付ける。そして、生成部１３３は、第１重みで重み付けられた第１データを正例として、第２重みで重み付けられた第２データを負例として、第３重みで重み付けられた第３データを負例として学習させることで、学習モデル１２４を生成する。

（受付部１３４について）
受付部１３４は、各種情報を受付ける。具体的には、受付部１３４は、クエリ情報を検索サーバから受付ける。例えば、受付部１３４は、クエリ情報「ＸＸトメト」を検索サーバ２０から受付ける。

（提供部１３５について）
提供部１３５は、各種情報を提供する。具体的には、提供部１３５は、検索クエリの候補に関する情報を検索サーバ２０に提供する。例えば、提供部１３５は、受付けたクエリ情報に対応する正しい綴りである検索クエリの候補に関する情報を検索サーバ２０に提供する。

例えば、提供部１３５は、学習モデル１２４を用いて、正しい綴りの候補である検索クエリの候補に関する情報を選択し、かかるクエリの候補に関する情報を検索サーバ２０に提供する。

より具体的な例を挙げて説明すると、提供部１３５は、受付けたクエリ情報「ＸＸトメト」を学習モデル１２４に入力することで、検索クエリの候補として、「ＸＸトマト」を出力する。そして、提供部１３５は、検索クエリの候補として、「ＸＸトマト」に関する情報を検索サーバ２０に提供する。

〔４．処理手順（１）生成処理〕
次に、図７を用いて、実施形態に係る生成装置１００が実行する生成処理の手順について説明する。図７は、実施形態に係る生成装置１００が実行する生成処理の流れの一例を示すフローチャートである。

図７に示すように、取得部１３１は、クエリ情報を取得する（ステップＳ１０１）。具体的には、取得部１３１は、クエリ情報を取得していない場合（ステップＳ１０１；Ｎｏ）、クエリ情報を取得するまで待機する。

一方、抽出部１３２は、取得部１３１がクエリ情報を取得した場合（ステップＳ１０１；Ｙｅｓ）、クエリ情報のうちから、第１クエリ情報と、第１クエリ情報が入力された後に連続的に入力された第２クエリ情報との組合せである第１データを抽出する（ステップＳ１０２）。

そして、生成部１３３は、第１クエリ情報と、第１クエリ情報との組合せである第２データを生成する（ステップＳ１０３）。また、生成部１３３は、第３クエリ情報と、第３クエリ情報との組合せである第３データを生成する（ステップＳ１０４）。具体的には、抽出部１３２は、クエリ情報記憶部１２１に記憶されるクエリ情報のうちから、第３クエリ情報を抽出する。そして、生成部１３３は、第３クエリ情報と、第３クエリ情報との組合せである第３データを生成する。

そして、生成部１３３は、第１データと、第２データと、第３データとに異なる重みを重み付けて学習させた学習モデルを生成する（ステップＳ１０５）。

〔５．処理手順（２）提供処理〕
次に、図８を用いて、実施形態に係る生成装置１００が実行する提供処理の手順について説明する。図８は、実施形態に係る生成装置１００が実行する提供処理の流れの一例を示すフローチャートである。

図８に示すように、受付部１３４は、クエリ情報を受付ける（ステップＳ２０１）。具体的には、受付部１３４は、クエリ情報を受付けていない場合（ステップＳ２０１；Ｎｏ）、クエリ情報を受付けるまで待機する。一方、提供部１３５は、受付部１３４がクエリ情報を受付けた場合（ステップＳ２０１；Ｙｅｓ）、検索クエリの候補に関する情報を提供する（ステップＳ２０２）。

〔６．変形例〕
上述した生成装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、生成装置１００の他の実施形態について説明する。

〔６－１．適用例〕
上記実施形態では、検索サーバ２０に検索クエリが入力された場合を例に挙げて説明したが、これに限定されなくともよい。例えば、テキスト等の文字列を編集する場合や、綴りの訂正を行う場合に適用することが可能である。例えば、適用例は、テキストを編集するアプリケーション等である。

〔６－２．生成処理〕
上記実施形態では、生成装置１００の生成部１３３は、第１データと、第２データと、第３データとの各々に異なる重みを重み付けて学習させた学習モデルを生成する例について説明したが、これに限定されない。例えば、生成部１３３は、第１データと、第２データとに異なる重みを重み付けて学習させた学習モデルを生成してもよい。

ここで、第１データは、第１クエリ情報と、第２クエリ情報との組合せのデータあり、第１重みと対応付けられる。また、第２データは、第１クエリ情報と、第１クエリ情報との組合せのデータであり、第２重みと対応付けられる。なお、第１重みが正の値であり、第２重みが負の値である。

この場合、生成部１３３は、第１データと、第１重みとの組合せを正例として、第２データと、第２重みとの組合せを負例として学習させることで、学習モデルを生成してもよい。

より具体的な例を挙げて説明すると、生成部１３３は、第１クエリ情報「ＸＸトメト」と、第２クエリ情報「ＸＸトマト」との組合せである第１データに対して第１重み「５０」で重み付ける。また、生成部１３３は、第１クエリ情報「ＸＸトメト」と、第１クエリ情報「ＸＸトメト」との組合せである第２データに対して第２重み「－２０」で重み付ける。そして、生成部１３３は、第１重みで重み付けられた第１データを正例として、第２重みで重み付けられた第２データを負例として学習させることで、学習モデルを生成してもよい。

このように、実施形態に係る生成装置１００の生成部１３３は、第１データと、第２データとに異なる重みを重み付けて学習させた学習モデルを生成するため、適切な文字列を生成するための学習モデルを低いコストで生成することができる。

〔６－３．複数のデータ〕
上記実施形態では、生成装置１００の生成部１３３は、第１データと、第２データと、第３データとの各々に異なる重みを重み付けて学習させた学習モデルを生成する例について説明したが、これに限定されない。例えば、生成部１３３は、各データの各々が複数である場合にも、上記生成処理を実行可能である。

例えば、生成部１３３は、複数の第１データと、複数の第２データと、複数の第３データと毎に異なる重みを重み付けて学習させた学習モデルを生成してもよい。

ここで、複数の第１データの各々は、第１クエリ情報と、第２クエリ情報との組合せのデータあり、第１重みと対応付けられる。また、複数の第２データの各々は、第１クエリ情報と、第１クエリ情報との組合せのデータであり、第２重みと対応付けられる。また、複数の第３データの各々は、第３クエリ情報と、第３クエリ情報との組合せのデータであり、第３重みと対応付けられる。なお、第１重みが正の値であり、第２重みが負の値であり、第３重みが正の値である。また、第１重みは、第３重みよりも大きい値である。

この場合、生成部１３３は、複数の第１データと、第１重みとの組合せを正例として、複数の第２データと、第２重みとの組合せを負例として、複数の第３データと、第３重みとの組合せを負例として学習させることで、学習モデルを生成してもよい。

より具体的な例を挙げて説明すると、生成部１３３は、複数の第１データに対して第１重み「５０」で重み付ける。また、生成部１３３は、複数の第２データに対して第２重み「－２０」で重み付ける。また、生成部１３３は、複数の第３データに対して第３重み「２」で重み付ける。そして、生成部１３３は、第１重みで重み付けられた複数の第１データを正例として、第２重みで重み付けられた複数の第２データを負例として、第３重みで重み付けられた複数の第３データを負例として学習させることで、学習モデルを生成してもよい。

なお、上記例では、複数のデータ毎に異なる重みで重み付ける例を挙げて説明したが、これに限定されなくともよい。例えば、複数のデータの各々に異なる重みで重み付けてもよい。

例えば、複数の第１データの各々は、第１クエリ情報と、第２クエリ情報との組合せのデータあり、異なる重みと対応付けられる。また、複数の第２データの各々は、第１クエリ情報と、第１クエリ情報との組合せのデータであり、異なる重みと対応付けられる。また、複数の第３データの各々は、第３クエリ情報と、第３クエリ情報との組合せのデータであり、異なる重みと対応付けられてもよい。

このように、実施形態に係る生成装置１００の生成部１３３は、複数の第１データと、複数の第２データと、複数の第３データと毎に異なる重みを重み付けて学習させた学習モデルを生成するため、適切な文字列を生成するための学習モデルを低いコストで生成することができる。

〔６－４．プログラム〕
また、上述した実施形態に係る生成装置１００は、例えば、図９に示すような構成のコンピュータ１０００によって実現される。図９は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が生成装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。

〔６－５．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。

〔７．効果〕
上述してきたように、実施形態に係る生成装置１００は、抽出部１３２と、生成部１３３とを有する。抽出部１３２は、利用者によって入力された入力情報のうちから、第１入力情報と、第１入力情報が入力された後に連続的に入力された第２入力情報との組合せである第１データを抽出する。生成部１３３は、第１入力情報と、第１入力情報との組合せである第２データを生成し、第１データと、第２データとに異なる重みを重み付けて学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、第１入力情報と、第１入力情報との組合せである第２データを生成し、第１データと、第２データとに異なる重みを重み付けて学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、複数の第１データと、複数の第２データとに異なる重みを重み付けて学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、複数の第１データと、複数の第２データとに異なる重みを重み付けて学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、第１データを正例として学習させ、第２データを負例として学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、第１データを正例として学習させ、第２データを負例として学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、第１データに対応する第１重みを正の値として学習させ、第２データに対応する第２重みを負の値として学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、第１データに対応する第１重みを正の値として学習させ、第２データに対応する第２重みを負の値として学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、抽出部１３２は、利用者によって入力された入力情報である第３入力情報をさらに抽出し、生成部１３３は、第３入力情報と、第３入力情報との組合せである第３データを生成し、第１データと、第２データと、第３データとの各々に異なる重みを重み付けて学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、第３入力情報と、第３入力情報との組合せである第３データを生成し、第１データと、第２データと、第３データとの各々に異なる重みを重み付けて学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、第１データを正例として学習させ、第２データを負例として学習させ、第３データを負例として学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、第１データを正例として学習させ、第２データを負例して学習させ、第３データを負例として学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、第１データに対応する第１重みを正の値として学習させ、第２データに対応する第２重みを負の値として学習させ、第３データに対応する第３重みを正の値として学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、第１データに対応する第１重みを正の値として学習させ、第２データに対応する第２重みを負の値として学習させ、第３データに対応する第３重みを正の値として学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、第１重みが第３重みよりも大きい値として学習させた学習モデルを生成する。

これにより、実施形態に係る生成装置１００は、第１重みが第３重みよりも大きい値として学習させた学習モデルを生成するため、適切な文字列を生成するためのデータを生成することができる。

また、実施形態に係る生成装置１００において、抽出部１３２は、利用者によって入力されたクエリに関するクエリ情報のうちから、所定の条件を満たすクエリ情報の組合せを抽出する。

これにより、実施形態に係る生成装置１００は、利用者によって入力されたクエリに関するクエリ情報のうちから、所定の条件を満たすクエリ情報の組合せを抽出するため、適切なクエリ情報を抽出することができる。

また、実施形態に係る生成装置１００において、抽出部１３２は、所定の条件を満たすクエリ情報として、綴り間違いである第１クエリ情報と、第１クエリ情報が入力された後に連続的に入力された第２クエリ情報との組合せを抽出する。

これにより、実施形態に係る生成装置１００は、所定の条件を満たすクエリ情報として、綴り間違いである第１クエリ情報と、第１クエリ情報が入力された後に連続的に入力された第２クエリ情報との組合せを抽出するため、適切なクエリ情報を抽出することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

Ｎネットワーク
１生成システム
１０端末装置
２０検索サーバ
１００生成装置
１１０通信部
１２０記憶部
１２１クエリ情報記憶部
１２２データ記憶部
１２３重み情報記憶部
１２４学習モデル
１３０制御部
１３１取得部
１３２抽出部
１３３生成部
１３４受付部
１３５提供部

Claims

利用者によって入力された文字列であるクエリに関するクエリ情報のうちから、第１クエリ情報と、当該第１クエリ情報が入力された後に所定の時間内に連続して入力された第２クエリ情報との組合せである第１データを抽出する抽出部と、
前記第１クエリ情報と、前記第１クエリ情報との組合せである第２データを生成し、前記第１データに対して正の値である第１重みを重み付けて学習させ、当該第２データに対して負の値である第２重みを重み付けて学習させた学習モデルであって、前記利用者によって入力されたクエリ情報が当該学習モデルに入力された場合に検索クエリの候補となる文字列を生成するための学習モデルを生成する生成部と
を備えることを特徴とする生成装置。
前記生成部は、
複数の第１データに対して前記第１重みを重み付けて学習させ、複数の第２データに対して前記第２重みを重み付けて学習させた学習モデルを生成する
ことを特徴とする請求項１に記載の生成装置。
前記生成部は、
前記第１データを正例として学習させ、前記第２データを負例として学習させた前記学習モデルを生成する
ことを特徴とする請求項１又は２に記載の生成装置。
前記抽出部は、
前記利用者によって入力されたクエリ情報である第３クエリ情報であって、前記第１クエリ情報及び前記第２クエリ情報とは異なる第３クエリ情報をさらに抽出し、
前記生成部は、
前記第３クエリ情報と、前記第３クエリ情報との組合せである第３データを生成し、前記第１データに対して前記第１重みを重み付けて学習させ、前記第２データに対して前記第２重みを重み付けて学習させ、当該第３データに対して正の値である第３重みを重み付けて学習させた学習モデルを生成する
ことを特徴とする請求項１～３のいずれか１つに記載の生成装置。
前記生成部は、
前記第１データを正例として学習させ、前記第２データを負例として学習させ、前記第３データを負例として学習させた前記学習モデルを生成する
ことを特徴とする請求項４に記載の生成装置。
前記生成部は、
前記第１重みが前記第３重みよりも大きい値として学習させた前記学習モデルを生成する
ことを特徴とする請求項４に記載の生成装置。
コンピュータが実行する生成方法であって、
利用者によって入力された文字列であるクエリに関するクエリ情報のうちから、第１クエリ情報と、当該第１クエリ情報が入力された後に所定の時間内に連続して入力された第２クエリ情報との組合せである第１データを抽出する抽出工程と、
前記第１クエリ情報と、前記第１クエリ情報との組合せである第２データを生成し、前記第１データに対して正の値である第１重みを重み付けて学習させ、当該第２データに対して負の値である第２重みを重み付けて学習させた学習モデルであって、前記利用者によって入力されたクエリ情報が当該学習モデルに入力された場合に検索クエリの候補となる文字列を生成するための学習モデルを生成する生成工程と
を含むことを特徴とする生成方法。
利用者によって入力された文字列であるクエリに関するクエリ情報のうちから、第１クエリ情報と、当該第１クエリ情報が入力された後に所定の時間内に連続して入力された第２クエリ情報との組合せである第１データを抽出する抽出手順と、
前記第１クエリ情報と、前記第１クエリ情報との組合せである第２データを生成し、前記第１データに対して正の値である第１重みを重み付けて学習させ、当該第２データに対して負の値である第２重みを重み付けて学習させた学習モデルであって、前記利用者によって入力されたクエリ情報が当該学習モデルに入力された場合に検索クエリの候補となる文字列を生成するための学習モデルを生成する生成手順と
をコンピュータに実行させることを特徴とする生成プログラム。