JP7441982B2

JP7441982B2 - クエリ整形システム、クエリ整形方法、及びプログラム

Info

Publication number: JP7441982B2
Application number: JP2023009005A
Authority: JP
Inventors: 祐輝中山; 浩司村上
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2022-03-01
Filing date: 2023-01-24
Publication date: 2024-03-01
Anticipated expiration: 2043-01-24
Also published as: JP2023154062A; US20230281229A1; JP2023127542A

Description

本開示は、クエリ整形システム、クエリ整形方法、及びプログラムに関する。

従来、クエリに基づいて、検索処理を実行する技術が知られている。クエリは、原則として自由に入力可能なので、検索には適さないクエリが入力されることがある。例えば、語Ａと語Ｂの間にスペースを入力する必要があったとしても、語Ａと語Ｂの間にスペースが入力されないことがある。例えば、何らかの理由で、１つの語を構成する文字の間にスペースが入力されることもある。このため、クエリを適切に整形することが求められている。

例えば、クエリは、固有表現を含むことが多いので、固有表現認識タスクを利用して、クエリを整形することが考えられる。固有表現認識タスクの一例として、非特許文献１及び非特許文献２の技術が知られている。非特許文献１には、文章に含まれる人名又は地名等の固有表現を認識するBi-LSTM-CRFが記載されている。非特許文献２には、医療文書に含まれる病名又は症状等の固有表現を認識するBERT-CRFが記載されている。

「多分わかりやすいBi-LSTM-CRF入門」、［ｏｎｌｉｎｅ］、［２０２２年２月１１日検索］、インターネット、＜ＵＲＬ：https://qiita.com/wakafar/items/c9a05713f579f436d36d＞「五井野琢也、濱上知樹」、「BERTを用いた医療文書からの固有表現抽出」、［ｏｎｌｉｎｅ］、［２０２２年２月１１日検索］、インターネット、＜ＵＲＬ：https://www.sice.or.jp/org/i-sys/is48/paper/SICE-IS_2021_paper_4.pdf＞

しかしながら、非特許文献１及び非特許文献２の技術は、一定程度の長さを有する文章に含まれる固有表現を認識することを想定しているので、比較的短いクエリに含まれる固有表現を認識できない。このため、非特許文献１－２の技術をクエリ整形に適用したとしても、クエリ整形の精度を高めることができない。この点は、他の固有表現認識タスクも同様であり、従来の技術では、クエリ整形の精度を高めることはできなかった。

本開示の目的の１つは、クエリ整形の精度を高めることである。

本開示に係るクエリ整形システムは、クエリに含まれる複数のトークンを取得するトークン取得部と、前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行部と、前記複数のトークンのうち前記辞書データにマッチした第１トークンと、クエリ整形に関する学習モデルと、に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第２トークンを整形する第２トークン整形部と、を含む。

クエリ整形システムの全体構成の一例を示す図である。ユーザ端末に表示される画面の一例を示す図である。本実施形態で実現される機能の一例を示す機能ブロック図である。クエリ整形システムにおける全体の流れの一例を示す図である。第１学習モデルからの出力の一例を示す図である。クエリ整形システムで実行される処理の一例を示すフロー図である。変形例における機能ブロック図である。

［１．クエリ整形システムの全体構成］
本開示に係るクエリ整形システムの実施形態の一例を説明する。図１は、クエリ整形システムの全体構成の一例を示す図である。クエリ整形システムＳは、ネットワークＮに接続可能なサーバ１０及びユーザ端末２０を含む。ネットワークＮは、インターネット又はＬＡＮ等の任意のネットワークである。クエリ整形システムＳは、少なくとも１つのコンピュータを含めばよく、図１の例に限られない。

サーバ１０は、サーバコンピュータである。制御部１１は、少なくとも１つのプロセッサを含む。記憶部１２は、ＲＡＭ等の揮発性メモリと、ハードディスク等の不揮発性メモリと、を含む。通信部１３は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。

ユーザ端末２０は、ユーザのコンピュータである。例えば、ユーザ端末２０は、パーソナルコンピュータ、スマートフォン、タブレット端末、又はウェアラブル端末である。制御部２１、記憶部２２、及び通信部２３の物理的構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様である。操作部２４は、タッチパネル等の入力デバイスである。表示部２５は、液晶ディスプレイ又は有機ＥＬディスプレイである。

なお、記憶部１２，２２に記憶されるプログラムは、ネットワークＮを介して供給されてもよい。また、各コンピュータには、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、メモリカードスロット）と、外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）と、の少なくとも一方が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラムが、読取部及び入出力部の少なくとも一方を介して供給されてもよい。

［２．クエリ整形システムの概要］
図２は、ユーザ端末２０に表示される画面の一例を示す図である。本実施形態では、ウェブサイトの検索サービスにクエリ整形システムＳを適用する場合を例に挙げる。クエリ整形システムＳは、種々のサービスに適用可能である。他のサービスへの適用例は、後述する。例えば、ユーザは、ユーザ端末２０のブラウザ又はアプリケーションを起動し、検索サービスのトップページＰ１にアクセスする。

サーバ１０は、トップページＰ１及び検索結果のページといった種々のページを、ユーザに提供可能である。ユーザは、入力フォームＦ１０に任意のクエリを入力し、検索サービスを利用する。本実施形態では、クエリが英語で入力される場合を説明するが、クエリは、任意の言語で入力可能である。例えば、クエリは、日本語、中国語、スペイン語、フランス語、又はアラビア語といった他の言語で入力されてもよい。

クエリは、ユーザが検索時に入力した語である。語とは、少なくとも１つの文字、少なくとも１つの数字、少なくとも１つの記号、又はこれらの組み合わせである。語は、キーワードと呼ばれることもある。語を構成する個々の文字、数字、又は記号は、要素と呼ばれることもある。クエリは、語以外の検索条件（例えば、数値範囲や属性等）を含んでもよい。ユーザが入力したクエリと、サーバ１０に記憶されたインデックスと、が比較されることによって、検索が実行される。

クエリは、少なくとも１つのトークンを含む。トークンは、クエリに含まれる語の単位である。トークンは、少なくとも１つの語を含む。トークンは、１つの語から構成されることもあるし、複数の語から構成されることもある。トークンが複数の語から構成される場合には、個々の語の間には、スペースがあってもよいし、アンダーバーやハイフン等の何らかの記号が配置されてもよい。本実施形態では、複数のトークンを含むクエリを想定するが、クエリは、１つのトークンのみを含んでもよい。

例えば、ユーザが、架空のアパレルブランド「The South Mountain」の商品を検索するために、クエリ「The South Mountain」を入力したとする。このクエリは、語「The」、語「South」、及び語「Mountain」といった３つの語を含む。検索の精度を高めるためには、これら３つの語は、１セットで扱って初めてアパレルブランド名を意味するので、別々のトークンとして扱うのではなく、１つのトークンとして扱った方がよい。このようなクエリは、３つの語から構成される１つのトークンを含む。このため、複数の語がスペースで区切られていたとしても、当該複数の語が１つのトークンに相当することもある。

一方、例えば、ユーザが、ハワイにある山を検索するために、クエリ「Hawaii mountains」を入力したとする。このクエリは、語「Hawaii」及び語「mountains」といった２つの語から構成される。これら２つの語は、クエリ「The South Mountain」とは異なり、個々の語が独立した意味を有するので、１セットで扱う必要は無く、別々のトークンとして扱った方がよい。このようなクエリは、１つの語から構成される２つのトークンを含む。

ただし、サーバ１０は、クエリを受信した時点では、複数の語から構成されるトークンなのか、１つの語から構成されるトークンなのか、を特定することが難しい。このため、サーバ１０は、クエリを受信した時点では、ひとまず、スペースによって区切られた部分をトークンとみなすものとする。例えば、クエリ「The South Mountain」であれば、サーバ１０は、ひとまず、トークン「The」、トークン「South」、及びトークン「Mountain」といった３つのトークンが含まれるものとみなす。クエリ「Hawaii mountains」であれば、サーバ１０は、ひとまず、トークン「Hawaii」及びトークン「mountains」といった２つのトークンが含まれるものとみなす。

なお、サーバ１０は、予め定められたルールに基づいて、クエリからトークンとみなす部分を特定すればよい。ひとまずトークンとみなされる部分は、スペースによって区切られた部分に限られない。例えば、サーバ１０は、何らかの区切りを意味する記号に基づいて、クエリからトークンとみなす部分を特定してもよい。例えば、この記号は、括弧、アンダーバー、ハイフン、カンマ、又はピリオドであってもよい。更に、サーバ１０は、複数のルールを組み合わせて、クエリからトークンとみなす部分を特定してもよい。

図２の例では、クエリ「Tokyo restaurant」は、トークン「Tokyo」と、トークン「restaurant」と、を含む。クエリ「U.S.A. championship」は、トークン「U.S.A.」と、トークン「championship」と、を含む。これら２つのクエリの個々のトークンは、独立した意味を持った名詞である。このような名詞は、独立した意味を有するので、ＡＮＤ条件又はＯＲ条件でつなげて検索しても問題ないことが多い。このため、これら２つのクエリは、適切な位置にスペースが挿入されており、検索時のトークンとして適切である。

クエリ「Tokyorestaurant」は、スペースが存在しないので、１つのトークン「Tokyorestaurant」だけを含む。本来であれば、名詞「Tokyo」と、名詞「restaurant」と、の間にスペースが必要であるが、これらの名詞の間にはスペースが存在しない。例えば、スペースの入力を億劫に感じたユーザが文字だけを入力したり、ユーザが音声入力をしたりすると、複数のトークンに分けるべき複数の語が１つのトークンになることがある。このクエリは、適切な位置にスペースが挿入されていないので、検索時のトークンとして不適切である。

クエリ「U.S.A. champion ship」は、１つの名詞である「championship」のうち、「champion」と「ship」の間にスペースが入力されている。このため、このクエリは、適切に入力されたクエリ「U.S.A. championship」とは異なり、トークン「U.S.A.」、トークン「champion」、及びトークン「ship」を含む。ユーザが、「champion」と「ship」の間にスペースを誤入力したり、ウェブサイトや文書ファイルからコピーペーストしたりすると、１つのトークンにすべきものが複数のトークンに分けられることがある。このクエリも、適切な位置にスペースが挿入されていないので、検索時のトークンとして不適切である。

そこで、本実施形態では、適切なトークンとなるようにクエリ整形が実行される。クエリ整形は、ひとまずトークンとみなしたものを、適切なトークンに調整することである。クエリ整形は、クエリのチャンキングと呼ばれることもある。本実施形態では、クエリ整形の操作として、分割、結合、及びセグメント化の３つを例に挙げるが、クエリ整形の操作は、これら３つのうちの何れか１つ又は２つのみを意味してもよい。クエリ整形の操作とは、クエリをどのように整形するかである。操作は、整形の種類ということもできる。

分割は、１つのトークンを複数のトークンに分けることである。当該複数のトークンの間には、スペースが配置される。先述した１つのトークン「Tokyorestaurant」を「Tokyo」と「restaurant」の２つのトークンにすることは、分割に相当する。「Tokyo」と「restaurant」の間には、スペースが配置される。

結合は、複数のトークンを１つのトークンにまとめ上げることである。当該複数のトークンの間のスペースは削除される。先述した「champion」と「ship」の２つのトークンを１つのトークン「championship」にすることは、結合に相当する。「champion」と「ship」の間のスペースは削除される。

セグメント化は、複数のトークンを１つのトークンにまとめ上げるといった点では、結合と同様であるが、スペースが削除されない点で結合とは異なる。先述した「The」と「South」と「Mountain」の３つのトークンを１つのトークン「The South Mountain」にすることは、セグメント化に相当する。「The」と「South」の間のスペースと、「South」と「Mountain」の間のスペースと、は削除されない。

クエリ整形システムＳは、一般的な形態素解析等のクエリ整形ではなく、辞書データを利用したマッチング手法と、学習モデルを利用した機械学習手法と、を効果的に組み合わせた新規なクエリ整形を実行することによって、クエリ整形の精度を高めるようにしている。以降、本実施形態の詳細を説明する。

［３．クエリ整形システムで実現される機能］
図３は、本実施形態で実現される機能の一例を示す機能ブロック図である。図４は、クエリ整形システムＳにおける全体の流れの一例を示す図である。以降、図４の流れを参照しつつ、図３の各機能の詳細を説明する。図４のように、クエリ整形の処理は、大きく分けて、２つのステージに分けられている。ステージ１は、マッチング手法である。ステージ２は、ステージ１のマッチングの実行結果を考慮した機械学習手法である。

本実施形態では、ステージ１のマッチング手法と、ステージ２の機械学習手法と、が図３の各機能により実現される。例えば、データ記憶部１００は、記憶部１２を主として実現される。トークン取得部１０１、マッチング実行部１０２、判定部１０３、第１トークン整形部１０４、第２トークン整形部１０５、整形済みクエリ取得部１０６、検索部１０７、及び提示部１０８は、制御部１１を主として実現される。

［データ記憶部］
データ記憶部１００は、クエリ整形に必要なデータを記憶する。例えば、データ記憶部１００は、検索対象データベースＤＢ、第１辞書データＤ１、第２辞書データＤ２、第３辞書データＤ３、第１学習モデルＭ１、及び第２学習モデルＭ２を記憶する。以降、第１辞書データＤ１、第２辞書データＤ２、及び第３辞書データＤ３を区別しない時は、単に辞書データＤと記載する。同様に、第１学習モデルＭ１及び第２学習モデルＭ２を区別しない時は、単に学習モデルＭと記載する。

検索対象データベースＤＢは、検索対象となるデータが格納されたデータベースである。検索対象データベースＤＢには、クエリとの比較対象となるインデックスが格納されている。本実施形態では、ウェブサイトが検索対象に相当するので、種々のウェブサイトから抽出された語を含むインデックスが格納される。ウェブサイトがカテゴリ分けされている場合には、カテゴリもインデックスに相当する。インデックスとして利用可能な情報自体は、公知の種々の情報であってよい。例えば、検索対象データベースＤＢには、ウェブサイトのインデックスと、ウェブサイトのＵＲＬと、が関連付けられて格納される。

辞書データＤは、検索時のトークンとして適切な語が格納されたデータである。辞書データＤに格納された語は、１つの語だけで構成されることもあるし、複数の語を含むこともある。例えば、架空のアパレルブランド「The South Mountain」を１つのトークンとしたい場合には、これら３つの語が１つの語として辞書データＤに格納されている。辞書データＤ自体は、公知の種々の辞書データＤを利用可能である。例えば、国語辞典又はインターネット百科事典のデータに基づいて、辞書データＤが作成されてもよい。よく入力されるクエリに含まれるトークンが辞書データＤに格納されていてもよい。

本実施形態では、第１辞書データＤ１、第２辞書データＤ２、及び第３辞書データＤ３といった３つの辞書データＤが利用される場合を例に挙げる。ステージ１のマッチング手法で利用される辞書データＤは、本実施形態の例に限られない。例えば、１つの辞書データＤだけが利用されてもよいし、２つ又は４つ以上の辞書データＤが利用されてもよい。

例えば、第１辞書データＤ１には、ある特定分野でよく用いられる語が格納される。第２辞書データＤ２には、インターネット百科事典に掲載された一般的な語が格納される。第３辞書データＤ３には、接頭辞に相当する語、接尾辞に相当する語、及び共起性のある語の少なくとも１つが格納される。第１辞書データＤ１、第２辞書データＤ２、及び第３辞書データＤ３は、クエリ整形システムＳの管理者により作成されるものとするが、インターネット上に公開されているものであってもよい。

学習モデルＭは、機械学習を利用したモデルである。機械学習自体は、自然言語処理で利用される種々の方法を利用可能であり、例えば、教師有り学習、半教師有り学習、又は教師無し学習を利用可能である。学習モデルＭは、ＡＩ（Artificial Intelligence）と呼ばれることもある。例えば、学習モデルＭは、CharacterBERT等のTransformerに基づく事前学習済みの自然言語処理モデルが利用されてもよいし、文字ベースのCNN（Convolutional Neural Network）が利用されてもよい。また、例えば、学習モデルＭとして、Bi-LSTM、Bi-LSTM-CRF、又はWord2Vec等の他の手法が部分的に利用されてもよい。他にも例えば、TransformerモデルをベースとしたBERT及びELECTRAが利用されてもよい。

本実施形態では、第１学習モデルＭ１及び第２学習モデルＭ２といった２つの学習モデルＭが利用される場合を例に挙げる。ステージ２の機械学習手法で利用される学習モデルＭは、本実施形態の例に限られない。例えば、１つの学習モデルＭだけが利用されてもよいし、３つ以上の学習モデルＭが利用されてもよい。複数の学習モデルＭが利用される場合には、個々の学習モデルＭの機械学習手法は、互いに異なってもよい。

例えば、第１学習モデルＭ１は、ファインチューニング済みのCharacterBERTである。例えば、第１学習モデルＭ１は、いわゆる系列ラベリング問題を解く手法で用いられるモデルである。第１学習モデルＭ１には、トークンに含まれる個々の文字が入力される。第１学習モデルＭ１は、個々の文字の特徴に関する文字特徴量を計算する。あるトークンが５文字だったとすると、５つの文字特徴量が計算される。特徴量自体は、公知の種々の計算方法で計算可能である。特徴量は、任意の形式で表現可能であり、例えば、多次元ベクトル、配列、又は単一の数値で表現可能である。特徴量は、埋め込み表現と呼ばれることもある。第１学習モデルＭ１は、最終的な出力として文字特徴量を出力してもよいし、最終的な出力を得るための中間的な計算結果として文字特徴量を出力してもよい。

例えば、第２学習モデルＭ１は、個々の文字ではなく、トークン自体の特徴量に関するトークン特徴量を計算する。トークン特徴量は、トークンに含まれる個々の文字ではなく、トークンの全体的な特徴量という意味で文字特徴量とは異なるが、特徴量の意味自体は、文字特徴量と同様である。トークン特徴量も、任意の形式で表現可能であり、公知の種々の計算方法で計算可能である。第２学習モデルＭ１は、ある一定程度の長さの文字列の特徴量を計算可能なモデルであればよく、Bi-LSTM、Bi-LSTM-CRF、又はWord2Vecであってもよい。第２学習モデルＭ２は、最終的な出力としてトークン特徴量を出力してもよいし、最終的な出力を得るための中間的な計算結果としてトークン特徴量を出力してもよい。

［トークン取得部］
トークン取得部１０１は、クエリに含まれる複数のトークンを取得する。トークン取得部１０１は、予め定められた方法に基づいて、クエリの中から、トークンの区切り位置を特定する。本実施形態では、スペースによってトークンが区切られる場合を説明するので、トークン取得部１０１は、クエリに含まれるスペースの位置を特定し、クエリの中から複数のトークンを取得する。スペースではなく特定の記号によってトークンが区切られる場合には、トークン取得部１０１は、クエリに含まれる当該記号の位置に基づいて、クエリの中から複数のトークンを取得してもよい。

本実施形態では、トークン取得部１０１は、ユーザ端末２０から、ユーザが入力したクエリに含まれる複数のトークンを取得する場合を例に挙げるが、トークン取得部１０１は、過去に入力されたクエリが格納されたデータベースから、当該クエリに含まれる複数のトークンを取得してもよい。クエリには、１つのトークンのみが含まれることもあるので、トークン取得部１０１は、クエリに含まれる１つのトークンのみを取得してもよい。クエリに複数のトークンが含まれる場合だったとしても、トークン取得部１０１は、クエリに含まれる一部のトークンだけを取得してもよい。

［マッチング実行部］
マッチング実行部１０２は、複数のトークンに基づいて、辞書データＤを利用したマッチングを実行する。マッチングとは、複数のトークンと、辞書データＤに格納された語と、を比較することである。本実施形態では、個々のトークンと、辞書データＤに格納された語と、を比較することがマッチングに相当する場合を説明するが、複数のトークンをひとかたまりとして、辞書データＤに格納された語と比較することがマッチングに相当してもよい。

本実施形態では、複数の辞書データＤが用意されているので、マッチング実行部１０２は、複数の辞書データＤの各々を利用したマッチングを実行する。１つの辞書データＤのみが用意されている場合には、マッチング実行部１０２は、１つの辞書データＤのみを利用したマッチングを実行する。マッチング実行部１０２は、マッチングにより、複数のトークンの各々を、第１トークン又は第２トークンの何れかに分類する。

第１トークンは、辞書データＤにマッチしたトークンである。本実施形態のように、複数の辞書データＤが用意されている場合には、第１トークンは、複数の辞書データＤのうちの少なくとも１つにマッチしたトークンである。本実施形態では、複数の辞書データＤのうちの何れか１つにでもマッチしたトークンは、第１トークンに分類されるものとするが、閾値以上の辞書データＤにマッチすることが、第１トークンに分類されるための条件になってもよい。この閾値は、２以上であってよい。この閾値は、クエリ整形システムＳの管理者が指定可能であってもよい。

第２トークンは、辞書データＤにマッチしなかったトークンである。本実施形態のように、複数の辞書データＤが用意されている場合には、第２トークンは、複数の辞書データＤの何れにもマッチしなかったトークンである。第１トークンに分類される条件の閾値として２以上の値が設定されている場合には、第２トークンは、どの辞書データＤにもマッチしなかったトークン、又は、閾値未満の辞書データＤにしかマッチしなかったトークンである。

例えば、マッチング実行部１０２は、個々のトークンと、辞書データＤに格納された語と、が一致するか否かを判定することによって、マッチングを実行する。即ち、マッチング実行部１０２は、個々のトークンと一致する語が辞書データＤに存在するか否かを判定する。本実施形態では、完全一致が判定される場合を説明するが、部分一致が判定されてもよい。部分一致は、前方一致、中間一致、又は後方一致の何れであってもよい。本実施形態では、マッチングの一例として、文字列の中の最も左側の文字から一致する文字を探索する手法（いわゆる最左最長マッチ）を説明する。

例えば、ユーザが「Dinner Ita lian Tokyorestaurant」といったクエリを入力したとする。この場合、ユーザは、誤入力により「Ita」と「lian」の間にスペースを入力してしまい、かつ、「Tokyo」と「restaurant」の間にスペースを入力しなかったと思われる。このクエリは、「Dinner Italian Tokyo restaurant」といったクエリに整形されるべきである。

トークン取得部１０１は、クエリ「Dinner Ita lian Tokyorestaurant」におけるスペースの位置に基づいて、「Dinner」、「Ita」、「lian」、「Tokyorestaurant」といった４つのトークンを取得する。マッチング実行部１０２は、これら４つのトークンの各々と、辞書データＤと、のマッチングを実行する。ここでは、「Dinner」、「Italian」、「Tokyo」、「restaurant」といった語が辞書データＤに格納されているものとする。

１つ目のトークン「Dinner」は、辞書データＤに存在するので、マッチング実行部１０２は、このトークンを第１トークンに分類する。２つ目のトークン「Ita」と、３つ目のトークン「lian」と、の間にはスペースが配置されているが、いわゆる最左最長マッチでは語「Italian」にマッチングするので、マッチング実行部１０２は、これら２つのトークンを第１トークンに分類する。４つ目のトークン「Tokyorestaurant」は、辞書データＤの語「Tokyo」と語「restaurant」の組み合わせであるが、最左最長マッチではマッチしないので、マッチング実行部１０２は、このトークンを第２トークンに分類する。

本実施形態では、マッチング実行部１０２は、第１辞書データＤ１、第２辞書データＤ２、及び第３辞書データＤ３を利用して、上記説明したようなマッチングを実行する。例えば、図４のように、入力系列であるクエリをｘとする。クエリｘに含まれるトークンをｘ_ｉ（ｉは、後述のｌ（アルファベットのエル）以下の自然数）とする。トークンの総数をｌ（ｌは、２以上の整数）とすると、ｘ＝ｘ_１・・・ｘ_ｌである。

例えば、整形済みのクエリをｙとする。整形済みのクエリｙは、整形済みのトークンの系列ということもできる。クエリｘから整形済みのクエリｙを取得することは、クエリ整形システムＳの目的の１つである。整形済みのクエリｙに含まれるトークンをｙ_Ｉ（Ｉは、後述のＬ以下の自然数）とする。整形済みのクエリｙに含まれるトークンの総数をＬ（Ｌは、２以上の整数）とすると、ｙ＝ｙ_１・・・ｙ_Ｌである。

例えば、クエリ整形における操作の系列をｏとする。操作ｏは、トークンｘ_ｉに対する操作ｏ_ｉ集まりである。このため、ｏ＝ｏ_１・・・ｏ_ｌである。先述したように、本実施形態では、分割、結合、及びセグメント化の３つの操作を例に挙げるので、操作ｏ_ｉは、「Split」、「Merge」、「Segment」、又は「Single」となる。「Single」は、操作を必要としないトークンｘ_ｉに付与される。これら４つは、操作内容を示すラベルということができる。

トークンｘ_ｉが第１トークンであれば、操作ｏ_ｉは、「Split」、「Merge」、「Segment」、又は「Single」になる。即ち、これら４つのうちの何れかの操作ｏ_ｉが付与されることは、トークンｘ_ｉが第１トークンに分類されることに相当する。トークンｘ_ｉが第２トークンであれば、操作ｏ_ｉは、これら４つのうちの何れでもない「Uncertain」になる。「Uncertain」は、暫定的なラベルということができる。即ち、「Uncertain」の操作ｏ_ｉが付与されることは、トークンｘ_ｉが第２トークンに分類されることに相当する。

図４のように、マッチング実行部１０２は、トークンｘ＝ｘ_１・・・ｘ_ｌと、第１辞書データＤ１と、のマッチングを実行する。例えば、トークンｘ_３と、トークンｘ_４と、が第１辞書データＤ１の語とマッチしたとする。先述した例であれば、トークンｘ_３が「Ita」であり、トークンｘ_４が「lian」である場合に、第１辞書データＤ１に格納された１つの語「Italian」とマッチする。マッチング実行部１０２は、トークンｘ_３，ｘ_４の各々を、互いに結合すべき第１トークンに分類する。即ち、マッチング実行部１０２は、操作ｏ_３，ｏ_４の各々を「Merge」にする。

マッチング実行部１０２は、第１辞書データＤ１を利用したマッチングが完了すると、クエリｘから、第１辞書データＤ１とマッチしたトークンｘ_３，ｘ_４を抜き出す。図４のように、第２辞書データＤ２とのマッチングの対象になるのは、クエリｘ＝ｘ_１，ｘ_２，ｘ_５・・・ｘ_ｌとなる。例えば、トークンｘ_２が第２辞書データＤ２の語とマッチしたとする。先述した例であれば、トークンｘ_２が「Dinner」である場合に、第２辞書データＤ２の１つの語「Dinner」とマッチする。マッチング実行部１０２は、トークンｘ_２を、操作が不要な第１トークンに分類する。即ち、マッチング実行部１０２は、操作ｏ_２を「Single」にする。

マッチング実行部１０２は、第２辞書データＤ２を利用したマッチングが完了すると、クエリｘから、第２辞書データＤ２とマッチしたトークンｘ_２を抜き出す。図４のように、第３辞書データＤ３とのマッチングの対象になるのは、クエリｘ＝ｘ_１，ｘ_５・・・ｘ_ｌとなる。例えば、トークンｘ_１が第３辞書データＤ３の接尾辞とマッチしたとすると、マッチング実行部１０２は、トークンｘ_１を、操作が不要な第１トークンに分類する。即ち、マッチング実行部１０２は、操作ｏ_１を「Single」にする。なお、第３辞書データＤ３とのマッチングの前には、クエリｘに対して形態素解析が実行されて形態素に分解されてもよい。第３辞書データＤ３を利用したマッチングでは、共起尺度等の指標が計算されたうえでマッチングが実行されてもよい。

トークンｘ_５・・・ｘ_ｌの各々は、どの辞書データＤにもマッチしなかったので、マッチング実行部１０２は、トークンｘ_５・・・ｘ_ｌを、第２トークンとして分類する。即ち、マッチング実行部１０２は、操作ｏ_５・・・ｏ_ｌを「Uncertain」にする。以上により、マッチングが完了する。以降の説明では、特に図４を参照する必要のない時は、クエリやトークン等の符号を省略する。

なお、本実施形態では、「Split」の操作は、マッチングで付与されないものとするが、マッチングによって「Split」の操作が付与されてもよい。また、図４の例では、辞書データＤにマッチしたトークンがクエリから抜き出される場合を説明したが、マッチしたトークンだったとしても、クエリから抜き出されなくてもよい。例えば、マッチング実行部１０２は、第１辞書データＤ１とマッチしたトークンと、第２辞書データＤ２及び第３辞書データＤ３と、のマッチングを実行してもよい。

［判定部］
判定部１０３は、トークン取得部１０１により取得された複数のトークンの全てが辞書データＤにマッチしたか否かを判定する。即ち、判定部１０３は、複数のトークンの中に、辞書データＤにマッチしなかったトークンが存在するか否かを判定する。判定部１０３は、複数のトークンの全てが第１トークンであるか否か判定する、又は、複数のトークンの中に第２トークンが存在するか否かを判定するということもできる。

図４では、「Uncertainラベルを持つ」の判定が判定部１０３の処理に相当する。第３辞書データＤ３までのマッチングが完了したクエリｘの中に、操作ｏ_ｉが「Uncertain」であるトークンｘ_ｉが存在しないことは、全てのトークンｘ_ｉが辞書データＤにマッチしたことに相当する。判定部１０３は、操作ｏ＝ｏ_１・・・ｏ_ｌに基づいて、全てのトークンｘ_ｉが辞書データＤにマッチしたか否かを判定する。図４の例では、トークンｘ_５・・・ｘ_ｌは辞書データＤにマッチせず、「Uncertainラベルを持つ」トークンが存在するので、図４の判定処理は「Ｙ」になる。

［第１トークン整形部］
第１トークン整形部１０４は、マッチングの実行結果に基づいて、第１トークンを整形する。本実施形態では、「Single」の第１トークンは整形されないので、第１トークン整形部１０４は、マッチングの実行結果に基づいて、複数の第１トークンのうち、整形する必要がある第１トークンを整形する。整形する必要がある第１トークンは、「Single」以外の操作ｏ_ｉが付与された第１トークンである。本実施形態では、辞書データＤとのマッチングでは「Split」は付与されないので、第１トークン整形部１０４は、「Merge」又は「Segment」の第１トークンを整形する。

例えば、第１トークン整形部１０４は、互いに連続する複数の第１トークンに「Merge」が付与された場合、当該第１トークン間のスペースを削除して１つのトークンとなるように、当該複数の第１トークンを整形する。先述した「Ita」と「lian」といった２つの第１トークンであれば、第１トークン整形部１０４は、「Ita」と「lian」の間のスペースを削除し、１つのトークン「Italian」になるように、これら２つの第１トークンを整形する。

例えば、第１トークン整形部１０４は、互いに連続する複数の第１トークンに「Segment」が付与された場合、当該第１トークン間のスペースを削除せずに１つのトークンとなるように、当該複数の第１トークンを整形する。先述した「The」、「South」、「Mountain」といった３つの第１トークンであれば、第１トークン整形部１０４は、これらの間のスペースを削除せず、１つのトークン「The South Mountain」となるように、これら３つの第１トークンを整形する。整形後の第１トークンは、セグメント化されたことを示すように、クォーテーション又はダブルクォーテーション等の記号で囲われてもよい。

図４の例であれば、トークンｘ_３，ｘ_４が「Merge」なので、第１トークン整形部１０４は、トークンｘ_３，ｘ_４の間のスペースを削除し、これら２つを結合させて１つのトークンにする。図４の例では、第１トークン整形部１０４による整形済みのクエリをｘ_ｒ（ｒは、後述のｍ以下の自然数）とする。ｘｒ＝ｘ_１ｘ_２・・・ｘ_ｍ（ｍは、２以上の整数）である。ここでは、トークンｘ_３，ｘ_４が結合されて１つ減っているので、ｍの数値は、ｌよりも１少ない。

なお、整形方法自体は、種々の方法を利用可能である。例えば、第１トークンに「Split」を付与可能なマッチングが実行される場合には、第１トークン整形部１０４は、「Split」の第１トークンが複数に分割されるように、当該第１トークンを整形してもよい。例えば、ある辞書データＤを利用して付与された操作と、他の辞書データＤを利用して付与された操作と、が異なっていれば、多数決により操作が決定されてもよいし、辞書データＤに指定された優先順位に応じて操作が決定されてもよい。

［第２トークン整形部］
第２トークン整形部１０５は、複数のトークンのうち辞書データＤにマッチした第１トークンと、クエリ整形に関する学習モデルＭと、に基づいて、複数のトークンのうち辞書データＤにマッチしなかった第２トークンを整形する。学習モデルＭは、第２トークンを整形するために、第２トークン自体の情報だけではなく、第１トークンに関する情報も参照する。即ち、学習モデルＭは、第２トークンだけではなく、マッチングの実行結果も参照し、第２トークンを整形する。学習モデルＭは、トークンの文字的な特徴だけではなく、どのトークンが辞書データＤにマッチしたかを考慮できるようになる。第２トークン整形部１０５は、学習モデルＭの内部的な計算結果、又は、学習モデルＭからの出力を、第１トークンに関する情報を利用して変更し、第２トークンを整形する。

本実施形態では、第２トークンに対する操作として複数種類の操作が用意されているので、第２トークン整形部１０５は、第１トークンと、学習モデルＭと、に基づいて、複数の操作のうちの何れかを選択する。第２トークン整形部１０５は、当該選択された操作に基づいて、第２トークンを整形する。例えば、第２トークン整形部１０５は、「Split」、「Merge」、「Segment」、及び「Single」といった４つの操作のうちの何れかを選択する。操作は、第１トークンと第２トークンで異なってもよい。第２トークン整形部１０５は、これら４つのうちの何れか３つ又は何れか２つの中から、第２トークンに対する操作を選択してもよい。

本実施形態では、第１トークン整形部１０４により第１トークンが整形された場合には、第２トークン整形部１０５は、整形済みの第１トークンと、学習モデルＭと、に基づいて、第２トークンを整形する。即ち、学習モデルＭは、整形された第１トークンについては、整形済みの状態の第１トークンに関する情報を参照し、第２トークンの整形に用いられる。図４の例であれば、「Merge」の第１トークンｘ_３，ｘ_４が整形されて１つの第１トークンになるので、１つに整形された第１トークンに関する情報が、学習モデルＭによって参照される。

例えば、第２トークン整形部１０５は、複数の第１トークンのうちの一部のみが整形された場合には、整形済みの第１トークン、整形されなかった第１トークン、及び学習モデルＭに基づいて、第２トークンを整形する。この場合、学習モデルＭは、整形済みの第１トークンに関する情報と、整形されなかった第１トークンに関する情報と、の両方を参照する。図４の例であれば、「Single」の第１トークンｘ_１，ｘ_２は整形されず、「Merge」の第１トークンｘ_３，ｘ_４が整形されるので、これら両方の第１トークンに関する情報が、学習モデルＭによって参照される。

本実施形態では、「Uncertain」を持つクエリｘ_ｒ＝ｘ_１ｘ_２・・・ｘ_ｍが与えられた場合に、「Uncertain」のトークンに含まれる文字が、「Ｂ」、「Ｉ」、「Ｏ」、「Ｅ」、「Ｓ」の何れかに分類される。この分類は、ＢＩＯＥＳチャンキングと呼ばれることもある。属性「Ｂ」は、語の開始を意味する。属性「Ｉ」は、語の内部を意味する。属性「Ｅ」は、語の終端を意味する。属性「Ｓ」は、一文字の語であることを意味する。属性「Ｏ」は、空白を意味する。

例えば、スペースを含むクエリｘ_ｒの文字系列をｃ＝ｃ_１，１・・・ｃ_ｍ，ｎとする。ｃ_ｉ，ｊは、ｉ番目のトークン内のｊ番目の文字である。例えば、ｉ番目のトークンが「Dinner」だったとすると、ｃ_ｉ，１は「D」であり、ｃ_ｉ，２は「i」であり、ｃ_ｉ，３は「n」であり、ｃ_ｉ，４は「n」であり、ｃ_ｉ，５は「e」であり、ｃ_ｉ，６は「r」である。

図４の例では、学習モデルＭの出力系列をｚ＝ｚ_１，１・・・ｚ_ｍ，ｎとする。ｚ_ｉ，ｊは、文字ｃ_ｉ，ｊの属性である。即ち、ｚ_ｉ，ｊは、「Ｂ」、「Ｉ」、「Ｏ」、「Ｅ」、「Ｓ」の何れかである。ステージ２における機械学習手法は、文字系列ｃ＝ｃ_１，１・・・ｃ_ｍ，ｎから出力系列をｚ＝ｚ_１，１・・・ｚ_ｍ，ｎを予測するタスクを解くことになる。第２トークン整形部１０５は、出力系列ｚに基づいて、「Uncertain」のトークンのラベルを「Split」、「Merge」、「Segment」、又は「Single」の何れかに更新する。

本実施形態では、ステージ２の機械学習手法は、文字系列ｃの文字特徴量の取得、マッチングの実行結果を考慮したトークン特徴量との結合、全結合、及びＣＲＦの４層からなる。これらの４層は、第１学習モデルＭ１に含まれるものとするが、複数の学習モデルＭに分けられていてもよい。第２学習モデルＭ２は、第２段階の層におけるトークン特徴量の計算で利用される。トークン特徴量は、第２学習モデルＭ２ではなく、第１学習モデルＭ１の層により計算されてもよい。

なお、図４の「CLS」と「SEP」は、それぞれ冒頭と末尾を示す文字列である。これらの文字列についても特徴量が計算されるものとする。また、本実施形態では、第２トークン整形部１０５は、文字系列ｃだけではなく、操作系列ｏも第１学習モデルＭ１に入力するものとするが、第２トークン整形部１０５は、操作系列ｏの一部は第１学習モデルＭ１に入力しなくてもよい。例えば、第２トークン整形部１０５は、操作系列ｏのうち、第１トークンの操作ｏ_ｉだけを第１学習モデルＭ１に入力してもよい。

例えば、第２トークン整形部１０５は、第１学習モデルＭ１に基づいて、第１トークンに含まれる第１文字ごとに、当該第１文字の特徴に関する第１文字特徴量を計算する。第１文字は、第１トークンに含まれる個々の文字である。図４の例では、第１トークンｘ_１，ｘ_２，ｘ_３，ｘ_４が存在する（ただし、第１トークンｘ_３，ｘ_４は１つに結合される）ので、これらに含まれる個々の文字は、第１文字に相当する。図４では、第１文字に関係するボックスに網掛けの背景を付与している。

例えば、第１トークンｘ_１が第１文字ｃ_１，１，ｃ_１，２を含んだとすると、第２トークン整形部１０５は、第１学習モデルＭ１に基づいて、文字ｃ_１，１の第１文字特徴量ｈ_１，１と、文字ｃ_１，２の第１文字特徴量ｈ_１，２と、を計算する。第２トークン整形部１０５は、他の第１トークンに含まれる他の第１文字についても同様に、第１文字特徴量を計算する。この計算方法自体は、公知の方法であってよい。本実施形態では、第１学習モデルＭ１がファインチューニング済みのCharacterBERTなので、CharacterBERTで規定される計算方法に基づいて、第１文字特徴量が計算される。

例えば、第２トークン整形部１０５は、第１学習モデルＭに基づいて、第２トークンに含まれる第２文字ごとに、当該第２文字の特徴に関する第２文字特徴量を計算する。第２文字は、第２トークンに含まれる個々の文字である。図４の例では、第２トークンｘ_５，・・・，ｘ_ｍが存在するので、これらに含まれる個々の文字は、第２文字に相当する。図４の例では、第２トークンｘ_５は、文字ｃ_５，１等の複数の第２文字を含む。

第２トークン整形部１０５は、第１学習モデルＭ１に基づいて、文字ｃ_５，１の第２文字特徴量ｈ_５，１を計算する。第２トークン整形部１０５は、他の第２トークンに含まれる他の第２文字についても同様に、第２文字特徴量を計算する。この計算方法も、第１文字特徴量と同様に、公知の方法であってよい。図４の例では、第２トークン整形部１０５は、第１学習モデルＭ１に基づいて、第１文字特徴量及び第２文字特徴量を含む文字特徴量Ｈ＝［ｈ_{［ＣＬＳ］}，ｈ_１，１，・・・，ｈ_ｍ，ｌ，ｈ_{［ＳＥＰ］}］を取得する。ｈ_ｉ，ｊは、文字ｃ_ｉ，ｊに対応する文字特徴量である。

例えば、第２トークン整形部１０５は、所定の計算方法に基づいて計算された、第１トークン自体の特徴に関する第１トークン特徴量を取得する。本実施形態では、この計算方法は、入力された文字列の特徴量を計算する第２学習モデルＭ２を利用した方法である。第２学習モデルＭは、計算モデルの一例である。このため、第２学習モデルＭについて説明している箇所は、計算モデルと読み替えることができる。第２トークン整形部１０５は、第２学習モデルＭ２により計算された第１トークン特徴量を取得する。

図４の例では、第２トークン整形部１０５は、第２学習モデルＭ２に基づいて、第１文字ｃ_１，１，ｃ_１，２を含む第１トークンｘ_１の第１トークン特徴量ｗ_１を取得する。第１トークン特徴量ｗ_１は、これら２つの第１文字ｃ_１，１，ｃ_１，２で共通である。第２トークン整形部１０５は、他の第１トークンについても同様に、第１トークン特徴量を取得する。第２学習モデルＭ２による第１トークン特徴量の計算方法自体は、公知の方法であってよい。例えば、BERT、Bi-LSTM、Bi-LSTM-CRF、又はWord2Vec等で規定される計算方法に基づいて、第２文字特徴量が計算される。

例えば、第２トークン整形部１０５は、第１文字特徴量、第１トークン特徴量、及び第２文字特徴量に基づいて、第２トークンを整形する。例えば、第２トークン整形部１０５は、第１文字ごとに、当該第１文字の第１文字特徴量と、第１トークン特徴量と、の平均を計算し、当該計算された平均と、第２文字特徴量と、に基づいて、第２トークンを整形する。

図４の例では、第２トークン整形部１０５は、文字ｃ_１，１の第１文字特徴量ｈ_１，１と、第１トークン特徴量ｗ_１と、の平均を計算する。ここでは、単純平均とする。第２トークン整形部１０５は、文字ｃ_１，２の第１文字特徴量ｈ_１，２と、第１トークン特徴量ｗ_１と、の平均を計算する。第２トークン整形部１０５は、他の第１文字についても同様に、第１文字特徴量と第１トークン特徴量の平均を計算する。

図４のように、第２トークン整形部１０５は、第２トークン自体の特徴に関する第２トークン特徴量には基づかずに、第１文字特徴量、第１トークン特徴量、及び第２文字特徴量に基づいて、第２トークンを整形する。図４の例では、第２トークンｘ_５の文字ｃ_５，１の第２文字特徴量に対しては、第２トークンｘ_５自体の特徴量との平均が計算されない。第２トークン整形部１０５は、他の第２トークンについても同様に、第２文字特徴量と第２トークン特徴量の平均を計算せずに、第２文字特徴量をそのまま利用する。

図４の例では、第２トークン整形部１０５は、第１学習モデルＭ１の全結合層及びＣＲＦ層に対し、平均が計算された後の文字特徴量Ｈ＝［ｈ_{［ＣＬＳ］}，ｈ_１，１，・・・，ｈ_ｍ，ｌ，ｈ_{［ＳＥＰ］}］を入力する。ＣＲＦ層からは、個々の文字に対する「Ｂ」、「Ｉ」、「Ｏ」、「Ｅ」、「Ｓ」のラベリング結果が出力される。即ち、第２トークン整形部１０５は、第１トークンと、学習モデルＭと、に基づいて、第２トークンに含まれる第２文字ごとに、クエリ整形に関するラベリングを実行し、ラベリングの実行結果に基づいて、第２トークンを整形する。本実施形態では、個々の文字に対し、「Ｂ」、「Ｉ」、「Ｏ」、「Ｅ」、「Ｓ」の何れかの属性を付与することがラベリングに相当する。

図５は、第１学習モデルＭ１からの出力の一例を示す図である。図５では、トークン「Tokyorestaurant」と、トークン「championship」と、の各々に対する第１学習モデルＭ１の出力を示している。ここでは、説明の都合上、これら２つとも第２トークンとするが、第１トークンであったとしても、同様の出力が得られてもよい。

図５のように、本実施形態では、第１学習モデルＭ１は、第２トークンを分割する否かに関する分割要否情報を出力する。先述した「Ｂ」、「Ｉ」、「Ｏ」、「Ｅ」、「Ｓ」は、分割要否情報の一例である。第２トークン整形部１０５は、分割要否情報に基づいて、第２トークンを整形する。例えば、第２トークン整形部１０５は、第１学習モデルＭ１から出力された分割要否情報が分割要を示すトークンを分割すると決定する。第２トークン整形部１０５は、第１学習モデルＭ１から出力された分割要否情報が分割不要を示すトークンを分割しないと決定する。

トークン「Tokyorestaurant」は、１５個の文字（１５個のアルファベット）により構成されるので、第１学習モデルＭ１は、１５個の属性を特定する。個々の文字の属性は、図５の通りである。第１学習モデルＭ１は、最初の属性Ｂの文字からその後の属性Ｅまでの部分（１番目の「T」から５番目の「o」までの「Tokyo」）を、１つのトークンと推定する。第１学習モデルＭ１は、次の属性Ｂの文字からその後の属性Ｅまでの部分（６番目の「r」から１５番目の「t」までの「restaurant」）を、１つのトークンと推定する。

第１学習モデルＭ１は、入力された１つのトークン「Tokyorestaurant」に２つのトークンがあると推定したので、トークン「Tokyorestaurant」を分割することを示す分割要否情報を出力する。第１学習モデルＭ１は、上記推定した個々のトークンを出力してもよい。この場合、第１学習モデルＭ１は、トークン「Tokyorestaurant」の分割も実行する。第１学習モデルＭ１は、トークン「Tokyorestaurant」を２つに分割し、トークン「Tokyo」と、トークン「restaurant」と、を出力してもよい。

トークン「championship」は、１２個の文字（１２個のアルファベット）により構成されるので、第１学習モデルＭ１は、１２個の属性を特定する。個々の文字の属性は、図５の通りである。第１学習モデルＭ１は、最初の属性Ｂの文字からその後の属性Ｅまでの部分（１番目の「c」から１２番目の「p」までの「championship」）を、１つのトークンと推定する。第１学習モデルＭ１は、入力された１つのトークン「championship」が１つのトークンであると推定したので、トークン「championship」を分割しないことを示す分割要否情報を出力する。

以上のように、第１学習モデルＭ１は、属性Ｂの文字からその後の属性Ｅの文字までの間を１つのトークンと推定する。第１学習モデルＭ１は、属性Ｓの文字も１つのトークンと推定する。第１学習モデルＭ１は、入力された１つのトークンに対して複数のトークンが推定された場合（例えば、属性Ｂの文字と、属性Ｅの文字と、ペアが複数存在する場合）、入力された１つのトークンを分割することを示す分割要否情報を出力する。学習モデルＭは、入力された１つのトークンに対して１つのトークンが推定された場合（例えば、属性Ｂの文字と、属性Ｅの文字と、ペアが１つだけ存在する場合）、入力された１つのトークンを分割しないことを示す分割要否情報を出力する。

第２トークン整形部１０５は、分割要否情報が分割することを示す第２トークンを、辞書データＤを利用して分割することによって、第２トークンを整形してもよい。本実施形態では、第１辞書データＤ１が利用される場合を説明するが、第２トークン整形部１０５は、第２辞書データＤ２又は第３辞書データＤ３を利用して第２トークンを分割してもよい。第２トークン整形部１０５は、ある第２トークンを分割することを分割要否情報が示す場合、この第２トークンと、第１辞書データＤ１と、が部分一致するか否かを判定する。第２トークン整形部１０５は、この第２トークンと部分一致する語が第１辞書データＤ１に存在する場合、このトークンが、この語から構成されるトークンと、それ以外の部分から構成されるトークンと、を含むように分割する。

本実施形態では、第２トークン整形部１０５は、判定部１０３により複数のトークンの全てが辞書データＤにマッチしたと判定された場合には第２トークンの整形をしない。この場合、複数のトークンの全てが第１トークンなので、第１トークンの整形が必要だったとしても、第１トークン整形部１０４のみでクエリ整形が完了する。第２トークン整形部１０５は、判定部１０３により複数のトークンの一部だけが辞書データＤにマッチしたと判定された場合に、第２トークンを整形する。

なお、第２トークン整形部１０５は、マッチングの実行結果と、学習モデルＭと、に基づいて、第２トークンを整形すればよく、第２トークンの整形方法は、本実施形態の例に限られない。例えば、第１学習モデルＭ１の機能と、第２学習モデルＭ２の機能と、が１つの学習モデルＭにまとめられている場合には、第２トークン整形部１０５は、当該１つの学習モデルＭに基づいて、第２トークンを整形してもよい。

他にも例えば、トークンに含まれる文字に着目するのではなく、トークンに含まれる形態素に着目して、第２トークンが整形されてもよい。この場合、第２トークン整形部１０５は、第１トークン及び第２トークンに対し、形態素解析を実行する。形態素解析自体は、公知の種々の方法を利用可能である。形態素は、１文字のこともあれば、複数の文字を含むこともある。ここでは、第１トークンに含まれる形態素を第１形態素という。第２トークンに含まれる形態素を第２形態素という。

第２トークン整形部１０５は、学習モデルＭに基づいて、第１形態素の特徴に関する第１形態素特徴量と、第２形態素の特徴量に関する第２形態素特徴量を計算する。第２トークン整形部１０５は、第１形態素特徴量と、第１トークン特徴量と、の平均を計算する。第２トークン整形部１０５は、当該計算された平均と、第２形態素特徴量と、を全結合層及びＣＲＦ層に入力し、第２形態素のラベリングを実行する。第２トークン整形部１０５は、第２形態素に付与された属性に基づいて、第２トークンを整形する。

他にも例えば、第２トークン整形部１０５は、整形済みの第１トークンと、第２トークンと、をそのまま学習モデルＭに入力してもよい。この場合、第２トークン整形部１０５は、学習モデルＭに基づいて、整形済みの第１トークンの第１トークン特徴量と、第２トークンの特徴に関する第２トークン特徴量と、を計算する。第２トークン整形部１０５は、第１トークン特徴量と、第２トークン特徴量と、を全結合層及びＣＲＦ層に入力し、第２トークンのラベリングを実行する。第２トークン整形部１０５は、第２トークンに付与された属性に基づいて、第２トークンを整形する。

［整形済みクエリ取得部］
整形済みクエリ取得部１０６は、辞書データＤを利用したマッチングの実行結果と、学習モデルＭを利用した処理結果と、に基づいて、整形済みのクエリｙを取得する。例えば、第１トークンの整形と、第２トークンの整形と、の両方が実行された場合には、整形済みクエリ取得部１０６は、整形済みの第１トークンと、整形済みの第２トークンと、を含む整形済みのクエリｙを取得する。例えば、第１トークンの整形が実行されず、第２トークンの整形のみが実行された場合には、整形済みクエリ取得部１０６は、整形されていない第１トークンと、整形済みの第２トークンと、を含む整形済みのクエリｙを取得する。

例えば、第１トークンの整形が実行されて、第２トークンの整形が実行されなかった場合には、整形済みクエリ取得部１０６は、整形済みの第１トークンと、整形されていない第２トークンと、を含む整形済みのクエリｙを取得する。例えば、第１トークンの整形と、第２トークンの整形と、の何れも実行されなかった場合には、整形済みクエリ取得部１０６は、整形されていない第１トークンと、整形されていない第２トークンと、を含む整形済みのクエリｙを取得する。

［検索部］
検索部１０７は、整形済みの第２トークンに基づいて、検索処理を実行する。検索部１０７は、少なくとも整形済みの第２トークンに基づいて検索処理を実行すればよい。本実施形態では、整形済みクエリ取得部１０６が整形済みのクエリｙを取得するので、検索部１０７は、検索対象データベースＤＢと、整形済みのクエリｙと、に基づいて、検索処理を実行する。検索部１０７は、検索対象データベースＤＢに格納されたインデックスと、整形済みのクエリｙと、を比較することによって、検索処理を実行する。検索処理自体は、公知の種々の方法を利用可能である。例えば、整形済みのクエリｙに複数のトークンが含まれる場合には、検索部１０７は、複数のトークンをＯＲ条件で検索処理を実行する。図２の例であれば、クエリ「Tokyo restaurant」と、クエリ「U.S.A. championship」と、はクエリ整形されないので、検索部１０７は、これらのクエリのまま検索処理を実行する。

一方、図２のクエリ「Tokyorestaurant」は、トークン「Tokyo」と、トークン「restaurant」と、に分割される。このため、検索部１０７は、これら２つのトークンに分割されるように（間にスペースが埋め込まれるように）整形されたクエリ「Tokyo restaurant」に基づいて、検索処理を実行する。クエリ「U.S.A. champion ship」は、トークン「U.S.A.」はそのままであるが、トークン「champion」と、トークン「ship」と、が結合されて「champion ship」になる。このため、検索部１０７は、これら２つのトークンが１つに結合されるように（間にスペースが存在しないように）クエリ整形されたクエリ「U.S.A. championship」に基づいて、検索処理を実行する。

［提示部］
提示部１０８は、クエリを入力したユーザに、検索処理の実行結果を提示する。本実施形態では、画像を利用して視覚的に実行結果が提示される場合を説明するが、音声を利用して聴覚的に実行結果が提示されてもよい。検索処理の実行結果は、検索でヒットしたインデックスの一覧である。例えば、提示部１０８は、検索処理の実行結果を含む画面の表示データ（例えば、ＨＴＭＬデータ）を生成し、ユーザ端末２０に送信する。

［４．クエリ整形システムで実行される処理］
図６は、クエリ整形システムＳで実行される処理の一例を示すフロー図である。この処理は、制御部１１，２１が記憶部１２，２２に記憶されたプログラムに従って動作することによって実行される。

ユーザ端末２０は、ユーザがトップページＰ１のリンク等を選択するとサーバ１０にアクセスし、検索サービスのトップページＰ１を表示部２５に表示させる（Ｓ１）。ユーザ端末２０は、操作部２４からのユーザの操作に基づいて、入力フォームＦ１０に対するクエリの入力を受け付ける（Ｓ２）。ユーザ端末２０は、サーバ１０に、ユーザが入力したクエリを送信する（Ｓ３）。

サーバ１０は、ユーザ端末２０からクエリを受信すると（Ｓ４）、クエリに含まれる複数のトークンを取得する（Ｓ５）。サーバ１０は、複数のトークンに基づいて、辞書データＤを利用したマッチングを実行する（Ｓ６）。Ｓ６では、サーバ１０は、図４を参照して説明した流れにより、複数のトークンに基づいて、第１辞書データＤ１～第３辞書データＤ３の各々を利用したマッチングを実行する。

サーバ１０は、Ｓ６におけるマッチングの実行結果に基づいて、第１トークンを整形する（Ｓ７）。サーバ１０は、複数のトークンの全てが辞書データＤにマッチしたか否かを判定する（Ｓ８）。複数のトークンの全てが辞書データＤにマッチしたと判定された場合（Ｓ８；Ｙ）、続くＳ９～Ｓ１２の処理が実行されることなく、Ｓ１３の処理が実行される。即ち、クエリに第２トークンが存在しないので、整形済みの第１トークンに基づいて、検索処理が実行される。

一方、複数のトークンの全てが辞書データＤにマッチしたと判定されない場合（Ｓ８；Ｎ）、サーバ１０は、第１学習モデルＭ１に基づいて、文字特徴量を計算する（Ｓ９）。Ｓ９では、サーバ１０は、第１文字特徴量と、第２文字特徴量と、を計算する。サーバ１０は、第２学習モデルＭ２に基づいて、第１トークン特徴量を計算する（Ｓ１０）。サーバ１０は、第１文字の第１文字特徴量と、第１トークン特徴量と、の平均を計算する（Ｓ１１）。サーバ１０は、Ｓ１１における平均と、第２文字の第２文字特徴量と、に基づいて、第２トークンを整形する（Ｓ１２）。

サーバ１０は、Ｓ７及びＳ１２の少なくとも一方の処理結果に基づいて、整形済みのクエリを取得し、検索対象データベースＤＢに対する検索処理を実行する（Ｓ１３）。サーバ１０は、ユーザ端末２０に、Ｓ１３における検索結果を送信する（Ｓ１４）。ユーザ端末２０は、サーバ１０から検索結果のデータを受信すると、検索結果を表示部２５に表示させ（Ｓ１５）、本処理は終了する。

本実施形態のクエリ整形システムＳによれば、クエリに含まれる複数のトークンに基づいて、辞書データＤを利用したマッチングを実行する。クエリ整形システムＳは、辞書データＤにマッチした第１トークンと、学習モデルＭと、に基づいて、辞書データＤにマッチしなかった第２トークンを整形する。これにより、マッチングの実行結果を機械学習手法で利用して第２トークンを正確に整形できるので、クエリ整形の精度が高まる。例えば、ユーザがコピーアンドペーストによってクエリを入力した場合には、クエリの中に全体的にスペースが含まれがちである。この場合、第１トークンが「Merge」である場合には、第２トークンも「Merge」になることがある。他にも例えば、律儀なユーザがクエリを手入力した場合には、クエリに含まれるトークンが全体的に正しいことがある。この場合、第１トークンが「Single」である場合には、第２トークンも「Single」になることもある。このため、例えば、マッチングの実行結果を考慮した機械学習手法とすることによって、学習モデルＭは、第１トークンと同様の傾向が第２トークンに存在しうることを考慮できるので、クエリ整形の精度が高まる。

また、クエリ整形システムＳは、整形済みの第１トークンと、学習モデルＭと、に基づいて、第２トークンを整形する。これにより、第１トークンと第２トークンの両方を整形できるので、クエリ整形の精度がより高まる。更に、整形後の第１トークンを利用することによって、より正確な情報を学習モデルＭに考慮させることができるので、クエリ整形の精度がより高まる。

また、クエリ整形システムＳは、複数の第１トークンのうちの一部のみが整形された場合には、整形済みの第１トークン、整形されなかった第１トークン、及び学習モデルＭに基づいて、第２トークンを整形する。これにより、整形する必要がない第１トークンが存在する場合には、この第１トークンの情報も学習モデルＭに考慮させることができるので、クエリ整形の精度がより高まる。

また、クエリ整形システムＳは、学習モデルＭに基づいて、第２トークンに含まれる第２文字ごとに、当該第２文字の特徴に関する第２文字特徴量を計算し、第１文字特徴量、第１トークン特徴量、及び第２文字特徴量に基づいて、第２トークンを整形する。これにより、より細かな文字単位で第２トークンを整形できるので、クエリ整形の精度がより高まる。クエリ整形で利用する特徴量も、より細かな文字単位で計算できるので、文字同士の前後関係をより詳細に考慮してクエリ整形を実行し、クエリ整形の精度がより高まる。

また、クエリ整形システムＳは、第２学習モデルＭ２により計算された第１トークン特徴量を取得する。これにより、第１トークン特徴量を計算するための専用の第２学習モデルＭ２を利用できるので、より正確な第１トークン特徴量を計算し、クエリ整形の精度がより高まる。第１学習モデルＭ１と第２学習モデルＭ２とで役割分担をすることができるので、クエリ整形を高速化できる。例えば、本実施形態のように、リアルタイムな検索処理でクエリ整形を利用する場合には、第１学習モデルＭ１と第２学習モデルＭ２の各々の処理を並行して実行することで、検索結果の提示に要する時間を短縮できる。

また、クエリ整形システムＳは、第１文字特徴量及び第１トークン特徴量の平均と、第２文字特徴量と、に基づいて、第２トークンを整形する。これにより、第１トークン特徴量を利用して、マッチングで得られた情報を学習モデルＭに考慮させることができるので、クエリ整形の精度がより高まる。また、平均を計算する処理自体は、計算量が少ないので、サーバ１０の処理負荷を軽減できる。計算量が少ない処理を採用することによって、クエリ整形を高速化できる。

また、クエリ整形システムＳは、第２トークン自体の特徴に関する第２トークン特徴量には基づかずに、第１文字特徴量、第１トークン特徴量、及び第２文字特徴量に基づいて、第２トークンを整形する。これにより、マッチングで得られた情報を学習モデルＭに考慮させつつ、不適切な埋め込み表現を避けることができる。例えば、文字レベルの系列ラベリングタスクにおいて、全ての文字に対して単語の埋め込み表現が考慮されたとすると、ラベルが不明確な単語についても考慮されてしまうことがある。この点、クエリ整形システムＳは、ラベルが「Uncertain」であり不明確な第２トークンについては、あえて第２トークン特徴量を学習モデルＭに考慮させないことによって、クエリ整形の精度が高まる。

また、クエリ整形システムＳは、第１トークンと、学習モデルＭと、に基づいて、第２トークンに含まれる第２文字ごとに実行されたラベリングの実行結果に基づいて、第２トークンを整形する。これにより、より細かい文字単位で第２トークンを整形できるので、クエリ整形の精度がより高まる。

また、第１トークンは、複数の辞書データＤのうちの少なくとも１つにマッチしたトークンであり、第２トークンは、複数の辞書データＤの何れにもマッチしなかったトークンである。これにより、複数の辞書データＤを総合的に考慮したマッチングを実行できるので、マッチングの精度が高まる。その結果、精度の高いマッチングで得られた情報を学習モデルＭに考慮させることができるので、クエリ整形の精度がより高まる。

また、クエリ整形システムＳは、複数のトークンの全てが辞書データＤにマッチしたと判定された場合には第２トークンの整形をせず、複数のトークンの一部だけが辞書データＤにマッチしたと判定された場合に、第２トークンを整形する。これにより、マッチングだけでクエリ整形が完了する場合に、機械学習手法の処理をスキップすることができるので、不要な処理を実行する必要がなくなり、サーバ１０の処理負荷を軽減できる。その結果、クエリ整形を高速化できる。

また、クエリ整形システムＳは、第１トークンと、学習モデルＭと、に基づいて、複数の操作のうちの何れかを選択し、当該選択された操作に基づいて、第２トークンを整形する。これにより、複数の操作を利用してクエリ整形を実行できるので、クエリ整形の精度がより高まる。例えば、トークンの分割だけではなく、分割、結合、セグメント化といった種々の操作を利用してクエリ整形を実行できる。

また、クエリ整形システムＳは、学習モデルＭから出力された分割要否情報に基づいて、第２トークンを整形する。これにより、本当に分割するか否かを決定できるので、クエリ整形の精度がより高まる。例えば、マッチング手法ではトークンの分割が難しかったとしても、学習モデルＭを利用してトークンの分割が可能になる。

また、クエリ整形システムＳは、分割要否情報が分割することを示す第２トークンを、辞書データＤを利用して分割することによって、第２トークンを整形する。これにより、辞書データＤを利用して本当に分割するか否かを決定できるので、クエリ整形の精度がより高まる。

また、クエリ整形システムＳは、整形済みの第２トークンに基づいて実行された検索処理の実行結果をユーザに提示する。これにより、整形済みの第２トークンに基づく検索処理を実行できるので、検索処理の精度が高まる。

［５．変形例］
なお、本開示は、以上に説明した実施形態に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。

図７は、変形例における機能ブロック図である。第１スコア取得部１０９、第２スコア取得部１１０、及びジャンル特定部１１１を含む。これらは、制御部１１を主として実現される。

［５－１．変形例１］
例えば、実施形態では、第１文字特徴量と、第１トークン特徴量と、の単純平均が計算される場合を説明したが、これらの加重平均が計算されてもよい。加重平均では、第１文字特徴量と、第１トークン特徴量と、の少なくとも一方に、重み付け係数が設定される。変形例１では、第１トークン特徴量にだけ重み付け係数が設定される場合を説明するが、第１文字特徴量にだけ重み付け係数が設定されてもよいし、これらの両方に重み付け係数が設定されてもよい。

変形例１の第２トークン整形部１０５は、マッチングの実行結果に基づいて、平均に関する重み付け係数を決定し、重み付け係数に基づいて、平均を計算する。マッチングの実行結果は、マッチングの精度である。例えば、複数の辞書データＤを利用したマッチングであれば、第１トークンがマッチした辞書データＤの数は、マッチングの実行結果に相当する。例えば、部分一致を許容するマッチングであれば、第１トークンがマッチした文字数は、マッチングの実行結果に相当する。

第２トークン整形部１０５は、マッチングの精度が高いほど、第１トークン特徴量が重点的に考慮されるように、重み付け係数を決定する。変形例１では、第１トークン特徴量にだけ重み付け係数が設定されるので、第２トークン整形部１０５は、マッチングの精度が高いほど、第１トークン特徴量の重み付け係数が高くなるように、重み付け係数を決定する。第１文字特徴量にも重み付け係数が設定される場合には、第２トークン整形部１０５は、マッチングの精度が高いほど、第１文字特徴量の重み付け係数が低くなるように、重み付け係数を決定すればよい。重み付け係数が考慮される点で実施形態の平均とは異なるが、他の点については、実施形態と同様である。

変形例１によれば、マッチングの実行結果に応じた重み付け係数に基づいて、第１文字特徴量と、第１トークン特徴量と、の平均を計算する。これにより、マッチングの実行結果を学習モデルＭにより効果的に考慮させることができるので、クエリ整形の精度がより高まる。

［５－２．変形例２］
例えば、第１トークンに含まれる第１文字の属性も学習モデルＭから取得可能である。この場合、マッチング手法における第１トークンの整形結果と、学習モデルＭにおける第１トークンの整形結果と、が異なることがある。実施形態では、マッチング手法における整形結果が正しいものとしたが、学習モデルＭにおける整形結果のスコアが高いのであれば、学習モデルＭにおける整形結果が正しいものとしてもよい。変形例２のクエリ整形システムＳは、第１スコア取得部１０９及び第２スコア取得部１１０を含む。

第１スコア取得部１０９は、マッチングの実行結果に基づいて、第１トークンに関する第１スコアを取得する。第１スコアは、変形例１で説明したマッチングの精度である。例えば、第１スコアは、複数の辞書データＤのうち、第１トークンにマッチした辞書データＤの数である。例えば、第１スコアは、第１トークンにマッチした文字数である。辞書データＤと、当該辞書データを参照する何らかの学習モデルと、を利用したマッチングを採用するのであれば、第１スコアは、当該学習モデルが計算したスコアであってもよい。

第２スコア取得部１１０は、学習モデルＭの処理結果に基づいて、第１トークンに関する第２スコアを取得する。第２スコアは、学習モデルＭが計算したスコアである。例えば、学習モデルＭは、個々の文字のラベリングを実行する場合に、ラベルの確度を示す第２スコアを計算する。この第２スコアは、蓋然性と呼ばれることもある。スコアの計算方法自体は、公知の機械学習で利用される方法を利用すればよい。

第１トークン整形部１０４は、第１スコアと、第２スコアと、に基づいて、マッチングの実行結果と、学習モデルＭの処理結果と、の何れかを選択し、当該選択された方に基づいて、第１トークンを整形する。例えば、第１トークン整形部１０４は、第１スコアが第２スコアよりも高い場合には、マッチングの実行結果に基づいて、第１トークンを整形する。第１トークン整形部１０４は、第２スコアが第１スコアよりも高い場合には、学習モデルＭの処理結果に基づいて、第１トークンを整形する。学習モデルＭの処理結果に基づく第１トークンの整形方法自体は、第２トークンと同様であり、「Ｂ」、「Ｉ」、「Ｏ」、「Ｅ」、「Ｓ」の属性に基づいて、第１トークンが整形されるようにすればよい。

変形例２によれば、マッチングの実行結果に応じた第１スコアと、学習モデルＭの処理結果に応じた第２スコアと、に基づいて選択された方に基づいて、第１トークンを整形する。これにより、第１トークンを精度よく整形できるので、クエリ整形の精度がより高まる。

［５－３．変形例３］
例えば、実施形態では、ウェブサイトの検索サービスにおいて英語のクエリが入力される場合を例に挙げて説明した。クエリ整形システムＳは、任意のサービスにおける任意の言語のクエリに適用可能であり、サービス及び言語は、実施形態の例に限られない。変形例３では、オンラインショッピングサービスにおいて日本語のクエリが入力される場合を例に挙げる。

変形例３のクエリは、オンラインショッピングサービスの検索時に入力される。ユーザは、任意のクエリを入力し、所望の商品を検索する。ユーザは、クエリの１つとして、ジャンル、在庫の有無、カラー、サイズ、産地、又はメーカー等の種々の属性を指定することもできる。クエリは、オンラインショッピングサービスの検索時に入力される。

変形例３の検索対象データベースＤＢは、オンラインショッピングモールで販売される商品に関する情報を含む。例えば、検索対象データベースＤＢは、商品を販売する店舗を識別可能な店舗ＩＤ、個々の商品を識別可能な商品ＩＤ、商品の検索用に抽出されたキーワードを含むインデックス、商品タイトル、商品ジャンル等の属性、商品の詳細な説明文、商品の画像、及び商品の価格といった情報が格納される。商品タイトルは、商品の簡単な説明を示す文字列である。商品タイトルは、単語の羅列であってもよい。商品タイトルや商品の詳細な説明文等は、店舗の担当者によって入力される。

例えば、辞書データＤは、オンラインショッピングモールでよく入力されるクエリに含まれるトークン、又は、オンラインショッピングモールの商品ページにおける商品タイトルに基づいて作成されてもよい。辞書データＤの語は、商品タイトルがそのまま格納されていてもよいし、商品タイトルに含まれる名詞が格納されてもよい。商品タイトルから名詞を抽出する方法は、公知の形態素解析等を利用すればよい。変形例３では、商品ジャンルごとに、当該商品ジャンルの商品の商品タイトルに基づいて辞書データＤが作成される場合を説明するが、特に商品ジャンルに関係なく、辞書データＤが作成されてもよい。

変形例３のクエリ整形システムＳは、クエリに対応する商品ジャンルを特定するジャンル特定部１１１を更に含む。商品ジャンルは、商品を分類するために利用される情報である。商品ジャンルは、商品カテゴリと呼ばれることもある。商品ジャンルは、商品の属性の１つである。クエリに対応する商品ジャンルとは、クエリに関連付けられた商品ジャンルである。例えば、クエリに商品ジャンルが含まれる場合には、クエリに含まれる商品ジャンルは、クエリに対応する商品ジャンルである。クエリに商品ジャンルが付帯する場合には、クエリに付帯した商品ジャンルは、クエリに対応する商品ジャンルである。

変形例３では、ユーザが商品ジャンルを指定するものとする。例えば、ユーザ端末２０は、ユーザが指定した商品ジャンルを、クエリとともにサーバ１０に送信する。サーバ１０は、ユーザ端末２０から商品ジャンル及びクエリを受信する。ジャンル特定部１１１は、ユーザ端末２０から受信した商品ジャンルを取得することによって、商品ジャンルを特定する。ユーザが商品ジャンルを指定しないこともあるので、この場合には、ジャンル特定部１１１の処理は省略される。

なお、商品ジャンルの特定方法は、上記の例に限られない。ジャンル特定部１１１は、クエリに含まれるトークンに基づいて、商品ジャンルを特定してもよい。この場合、データ記憶部１００には、トークンに含まれ得る文字列と、商品ジャンルと、の関係が定義されているものとする。例えば、商品ジャンル「電化製品」であれば、メーカー名や商品名といった文字列が関連付けられている。他にも例えば、商品ジャンル「被服」であれば、ブランド名やサイズといった文字列が関連付けられている。ジャンル特定部１１１は、上記関係に定義された文字列がクエリに含まれる場合、当該文字列に関連付けられた商品ジャンルを取得することによって、クエリに対応する商品ジャンルを特定する。

マッチング実行部１０２は、商品ジャンルに基づいて、マッチングを実行する。商品ジャンルごとに、当該商品ジャンルに属する商品の商品タイトルに基づいて作成された辞書データＤが用意されているものとする。マッチング実行部１０２は、商品ジャンルに応じた辞書データＤに基づいて、マッチングを実行する。マッチング実行部１０２は、オンラインショッピングサービスにおける商品タイトルを、辞書データＤとして利用してマッチングを実行する。

変形例３によれば、クエリに対応する商品ジャンルに基づいて、マッチングを実行する。これにより、商品タイトルを流用することによって、辞書データＤを作成する手間を省くことができる。また、オンラインサービスにおける検索精度が高まる。

また、クエリは、オンラインショッピングサービスの検索時に入力され、マッチング実行部１０２は、オンラインショッピングサービスにおける商品タイトルを、辞書データＤとして利用してマッチングを実行する。これにより、商品ジャンルを利用した適切なクエリ整形を実行できるので、クエリ整形の精度が効果的に高まる。例えば、商品ジャンルに応じた辞書データＤをマッチングで利用する場合には、マッチングで比較対象となる語を減らすことができ、サーバ１０の処理負荷を軽減できる。不必要なマッチングをしないことにより、処理を高速化できる。

［５－４．その他変形例］
例えば、上記変形例を組み合わせてもよい。

例えば、クエリ整形システムＳは、検索サービス及びオンラインショッピングサービス以外の他の任意のサービスに利用可能である。例えば、旅行予約サービス、電子決済サービス、金融サービス、通信サービス、又はコンテンツ配信サービスといった他のサービスの検索にクエリ整形システムＳが利用されてもよい。他にも例えば、ある単一の装置内でデータベースが検索される場合にクエリ整形システムＳが利用されてもよい。

例えば、マッチングの実行結果を学習モデルＭに考慮させる方法は、実施形態で説明した例に限られない。例えば、学習モデルＭは、第２文字特徴量と、第２トークン特徴量と、の平均を計算してもよいが、この場合の第２トークン特徴量の重み付け係数を、第１トークン特徴量の重み付け係数よりも小さくしてもよい。このようにすれば、一般的なCharacterBERTに比べて、第１トークンをより強く考慮させることができる。他にも例えば、第１トークン特徴量を利用せずに、第１文字と、第１トークンに付与された操作のラベルと、を何らかの形で特徴量化してもよい。この場合、これらの特徴量には、マッチングの実行結果が反映されているので、この特徴量に基づいて、第２トークンの整形を実行することによって、マッチングの実行結果を学習モデルＭに考慮させることができる。

例えば、サーバ１０で実現されるものとして説明した機能は、ユーザ端末２０又は他のコンピュータで実現されてもよいし、複数のコンピュータで分担されてもよい。例えば、データ記憶部１００に記憶されるものとしたデータは、データベースサーバに記憶されていてもよい。

Ｓクエリ整形システム、Ｎネットワーク、１０サーバ、１１，２１制御部、１２，２２記憶部、１３，２３通信部、２０ユーザ端末、２４操作部、２５表示部、ＤＢ検索対象データベース、Ｐ１トップページ、１００データ記憶部、１０１トークン取得部、１０２マッチング実行部、１０３判定部、１０４第１トークン整形部、１０５第２トークン整形部、１０６整形済みクエリ取得部、１０７検索部、１０８提示部、１０９第１スコア取得部、１１０第２スコア取得部、１１１ジャンル特定部。

Claims

クエリに含まれる複数のトークンを取得するトークン取得部と、
前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行部と、
前記複数のトークンに含まれる文字の文字系列と、前記マッチングの実行結果に基づくクエリ整形の操作の操作系列と、をクエリ整形に関する学習モデルに入力して前記文字系列の文字特徴量を取得する第２トークン整形部と、
を含み、
前記第２トークン整形部は、
前記複数のトークンのうち前記辞書データにマッチした第１トークンに含まれる第１文字の特徴に関する第１文字特徴量を前記学習モデルに基づいて計算し、前記第１トークンの特徴に関する第１トークン特徴量を所定の計算方法に基づいて計算し、前記第１文字特徴量及び前記第１トークン特徴量の平均を計算し、
前記平均が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記文字の属性を示す出力系列に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第２トークンを整形する、
クエリ整形システム。
前記クエリ整形システムは、前記マッチングの実行結果に基づいて、前記第１トークンを整形する第１トークン整形部を更に含み、
前記操作系列は、前記第１トークンに対する前記操作を示し、
前記第２トークン整形部は、整形済みの前記第１トークンと、前記学習モデルと、に基づいて、前記第１文字特徴量を計算する、
請求項１に記載のクエリ整形システム。
前記第１トークン整形部は、前記マッチングの実行結果に基づいて、複数の前記第１トークンのうち、整形する必要がある前記第１トークンを整形する、
請求項２に記載のクエリ整形システム。
前記第２トークン整形部は、
前記第２トークンに含まれる第２文字の特徴に関する第２文字特徴量を前記学習モデルに基づいて計算し、
前記第２文字特徴量が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記出力系列に基づいて、前記第２トークンを整形する、
請求項１～３の何れかに記載のクエリ整形システム。
前記計算方法は、入力された文字列の特徴量を計算する計算モデルを利用した方法である、
請求項４に記載のクエリ整形システム。
前記第２トークン整形部は、
前記マッチングの実行結果に基づいて、前記平均に関する重み付け係数を決定し、
前記重み付け係数に基づいて、前記平均を計算する、
請求項１～３の何れかに記載のクエリ整形システム。
前記第２トークン整形部は、前記第２トークン自体の特徴に関する第２トークン特徴量には基づかずに、前記第１文字特徴量、前記第１トークン特徴量、及び前記第２文字特徴量に基づいて、前記第２トークンを整形する、
請求項４に記載のクエリ整形システム。
前記出力系列は、前記第２トークンに含まれる第２文字ごとに、前記属性を示す、
請求項１～３の何れかに記載のクエリ整形システム。
前記マッチング実行部は、複数の前記辞書データの各々を利用した前記マッチングを実行し、
前記第１トークンは、前記複数の辞書データのうちの少なくとも１つにマッチした前記トークンであり、
前記第２トークンは、前記複数の辞書データの何れにもマッチしなかった前記トークンである、
請求項１～３の何れかに記載のクエリ整形システム。
前記クエリ整形システムは、前記複数のトークンの全てが前記辞書データにマッチしたか否かを判定する判定部を更に含み、
前記第２トークン整形部は、前記複数のトークンの全てが前記辞書データにマッチしたと判定された場合には前記第２トークンの整形をせず、前記複数のトークンの一部だけが前記辞書データにマッチしたと判定された場合に、前記第２トークンを整形する、
請求項１～３の何れかに記載のクエリ整形システム。
前記第２トークン整形部は、前記出力系列に基づいて、複数の操作のうちの何れかを選択し、当該選択された操作に基づいて、前記第２トークンを整形する、
請求項１～３の何れかに記載のクエリ整形システム。
前記クエリ整形システムは、
前記マッチングの実行結果に基づいて、前記第１トークンに関する第１スコアを取得する第１スコア取得部と、
前記学習モデルの処理結果に基づいて、前記第１トークンに関する第２スコアを取得する第２スコア取得部と、
前記第１スコアと、前記第２スコアと、に基づいて、前記マッチングの実行結果と、前記学習モデルの処理結果と、の何れかを選択し、当該選択された方に基づいて、前記第１トークンを整形する第１トークン整形部と、
を更に含む請求項１～３の何れかに記載のクエリ整形システム。
前記出力系列は、前記第２トークンを分割するか否かに関する分割要否情報を含み、
前記第２トークン整形部は、前記分割要否情報に基づいて、前記第２トークンを整形する、
請求項１～３の何れかに記載のクエリ整形システム。
前記第２トークン整形部は、前記分割要否情報が分割することを示す前記第２トークンを、辞書データを利用して分割することによって、前記第２トークンを整形する、
請求項１３に記載のクエリ整形システム。
前記クエリは、オンラインショッピングサービスの検索時に入力され、
前記クエリ整形システムは、前記クエリに対応する商品ジャンルを特定する商品ジャンル特定部を更に含み、
前記マッチング実行部は、前記商品ジャンルに基づいて、前記マッチングを実行する、
請求項１～３の何れかに記載のクエリ整形システム。
前記クエリは、オンラインショッピングサービスの検索時に入力され、
前記マッチング実行部は、前記オンラインショッピングサービスにおける商品タイトルを、前記辞書データとして利用して前記マッチングを実行する、
請求項１～３の何れかに記載のクエリ整形システム。
前記クエリ整形システムは、
整形済みの前記第２トークンに基づいて、検索処理を実行する検索部と、
前記クエリを入力したユーザに、前記検索処理の実行結果を提示する提示部と、
を更に含む請求項１～３の何れかに記載のクエリ整形システム。
クエリに含まれる複数のトークンを取得するトークン取得ステップと、
前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行ステップと、
前記複数のトークンに含まれる文字の文字系列と、前記マッチングの実行結果に基づくクエリ整形の操作の操作系列と、をクエリ整形に関する学習モデルに入力して前記文字系列の文字特徴量を取得する第２トークン整形ステップと、
を含み、
前記第２トークン整形ステップは、
前記複数のトークンのうち前記辞書データにマッチした第１トークンに含まれる第１文字の特徴に関する第１文字特徴量を前記学習モデルに基づいて計算し、前記第１トークンの特徴に関する第１トークン特徴量を所定の計算方法に基づいて計算し、前記第１文字特徴量及び前記第１トークン特徴量の平均を計算し、
前記平均が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記文字の属性を示す出力系列に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第２トークンを整形する、
クエリ整形方法。
クエリに含まれる複数のトークンを取得するトークン取得部、
前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行部、
前記複数のトークンに含まれる文字の文字系列と、前記マッチングの実行結果に基づくクエリ整形の操作の操作系列と、をクエリ整形に関する学習モデルに入力して前記文字系列の文字特徴量を取得する第２トークン整形部、
としてコンピュータを機能させ、
前記第２トークン整形部は、
前記複数のトークンのうち前記辞書データにマッチした第１トークンに含まれる第１文字の特徴に関する第１文字特徴量を前記学習モデルに基づいて計算し、前記第１トークンの特徴に関する第１トークン特徴量を所定の計算方法に基づいて計算し、前記第１文字特徴量及び前記第１トークン特徴量の平均を計算し、
前記平均が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記文字の属性を示す出力系列に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第２トークンを整形する、
プログラム。