JP7441982B2 - クエリ整形システム、クエリ整形方法、及びプログラム - Google Patents

クエリ整形システム、クエリ整形方法、及びプログラム Download PDF

Info

Publication number
JP7441982B2
JP7441982B2 JP2023009005A JP2023009005A JP7441982B2 JP 7441982 B2 JP7441982 B2 JP 7441982B2 JP 2023009005 A JP2023009005 A JP 2023009005A JP 2023009005 A JP2023009005 A JP 2023009005A JP 7441982 B2 JP7441982 B2 JP 7441982B2
Authority
JP
Japan
Prior art keywords
token
query
character
formatting
tokens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023009005A
Other languages
English (en)
Other versions
JP2023127542A (ja
Inventor
祐輝 中山
浩司 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Priority to JP2023132511A priority Critical patent/JP2023154062A/ja
Publication of JP2023127542A publication Critical patent/JP2023127542A/ja
Application granted granted Critical
Publication of JP7441982B2 publication Critical patent/JP7441982B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、クエリ整形システム、クエリ整形方法、及びプログラムに関する。
従来、クエリに基づいて、検索処理を実行する技術が知られている。クエリは、原則として自由に入力可能なので、検索には適さないクエリが入力されることがある。例えば、語Aと語Bの間にスペースを入力する必要があったとしても、語Aと語Bの間にスペースが入力されないことがある。例えば、何らかの理由で、1つの語を構成する文字の間にスペースが入力されることもある。このため、クエリを適切に整形することが求められている。
例えば、クエリは、固有表現を含むことが多いので、固有表現認識タスクを利用して、クエリを整形することが考えられる。固有表現認識タスクの一例として、非特許文献1及び非特許文献2の技術が知られている。非特許文献1には、文章に含まれる人名又は地名等の固有表現を認識するBi-LSTM-CRFが記載されている。非特許文献2には、医療文書に含まれる病名又は症状等の固有表現を認識するBERT-CRFが記載されている。
「多分わかりやすいBi-LSTM-CRF入門」、[online]、[2022年2月11日検索]、インターネット、<URL:https://qiita.com/wakafar/items/c9a05713f579f436d36d> 「五井野琢也、濱上知樹」、「BERTを用いた医療文書からの固有表現抽出」、[online]、[2022年2月11日検索]、インターネット、<URL:https://www.sice.or.jp/org/i-sys/is48/paper/SICE-IS_2021_paper_4.pdf>
しかしながら、非特許文献1及び非特許文献2の技術は、一定程度の長さを有する文章に含まれる固有表現を認識することを想定しているので、比較的短いクエリに含まれる固有表現を認識できない。このため、非特許文献1-2の技術をクエリ整形に適用したとしても、クエリ整形の精度を高めることができない。この点は、他の固有表現認識タスクも同様であり、従来の技術では、クエリ整形の精度を高めることはできなかった。
本開示の目的の1つは、クエリ整形の精度を高めることである。
本開示に係るクエリ整形システムは、クエリに含まれる複数のトークンを取得するトークン取得部と、前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行部と、前記複数のトークンのうち前記辞書データにマッチした第1トークンと、クエリ整形に関する学習モデルと、に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第2トークンを整形する第2トークン整形部と、を含む。
クエリ整形システムの全体構成の一例を示す図である。 ユーザ端末に表示される画面の一例を示す図である。 本実施形態で実現される機能の一例を示す機能ブロック図である。 クエリ整形システムにおける全体の流れの一例を示す図である。 第1学習モデルからの出力の一例を示す図である。 クエリ整形システムで実行される処理の一例を示すフロー図である。 変形例における機能ブロック図である。
[1.クエリ整形システムの全体構成]
本開示に係るクエリ整形システムの実施形態の一例を説明する。図1は、クエリ整形システムの全体構成の一例を示す図である。クエリ整形システムSは、ネットワークNに接続可能なサーバ10及びユーザ端末20を含む。ネットワークNは、インターネット又はLAN等の任意のネットワークである。クエリ整形システムSは、少なくとも1つのコンピュータを含めばよく、図1の例に限られない。
サーバ10は、サーバコンピュータである。制御部11は、少なくとも1つのプロセッサを含む。記憶部12は、RAM等の揮発性メモリと、ハードディスク等の不揮発性メモリと、を含む。通信部13は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。
ユーザ端末20は、ユーザのコンピュータである。例えば、ユーザ端末20は、パーソナルコンピュータ、スマートフォン、タブレット端末、又はウェアラブル端末である。制御部21、記憶部22、及び通信部23の物理的構成は、それぞれ制御部11、記憶部12、及び通信部13と同様である。操作部24は、タッチパネル等の入力デバイスである。表示部25は、液晶ディスプレイ又は有機ELディスプレイである。
なお、記憶部12,22に記憶されるプログラムは、ネットワークNを介して供給されてもよい。また、各コンピュータには、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、メモリカードスロット)と、外部機器とデータの入出力をするための入出力部(例えば、USBポート)と、の少なくとも一方が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラムが、読取部及び入出力部の少なくとも一方を介して供給されてもよい。
[2.クエリ整形システムの概要]
図2は、ユーザ端末20に表示される画面の一例を示す図である。本実施形態では、ウェブサイトの検索サービスにクエリ整形システムSを適用する場合を例に挙げる。クエリ整形システムSは、種々のサービスに適用可能である。他のサービスへの適用例は、後述する。例えば、ユーザは、ユーザ端末20のブラウザ又はアプリケーションを起動し、検索サービスのトップページP1にアクセスする。
サーバ10は、トップページP1及び検索結果のページといった種々のページを、ユーザに提供可能である。ユーザは、入力フォームF10に任意のクエリを入力し、検索サービスを利用する。本実施形態では、クエリが英語で入力される場合を説明するが、クエリは、任意の言語で入力可能である。例えば、クエリは、日本語、中国語、スペイン語、フランス語、又はアラビア語といった他の言語で入力されてもよい。
クエリは、ユーザが検索時に入力した語である。語とは、少なくとも1つの文字、少なくとも1つの数字、少なくとも1つの記号、又はこれらの組み合わせである。語は、キーワードと呼ばれることもある。語を構成する個々の文字、数字、又は記号は、要素と呼ばれることもある。クエリは、語以外の検索条件(例えば、数値範囲や属性等)を含んでもよい。ユーザが入力したクエリと、サーバ10に記憶されたインデックスと、が比較されることによって、検索が実行される。
クエリは、少なくとも1つのトークンを含む。トークンは、クエリに含まれる語の単位である。トークンは、少なくとも1つの語を含む。トークンは、1つの語から構成されることもあるし、複数の語から構成されることもある。トークンが複数の語から構成される場合には、個々の語の間には、スペースがあってもよいし、アンダーバーやハイフン等の何らかの記号が配置されてもよい。本実施形態では、複数のトークンを含むクエリを想定するが、クエリは、1つのトークンのみを含んでもよい。
例えば、ユーザが、架空のアパレルブランド「The South Mountain」の商品を検索するために、クエリ「The South Mountain」を入力したとする。このクエリは、語「The」、語「South」、及び語「Mountain」といった3つの語を含む。検索の精度を高めるためには、これら3つの語は、1セットで扱って初めてアパレルブランド名を意味するので、別々のトークンとして扱うのではなく、1つのトークンとして扱った方がよい。このようなクエリは、3つの語から構成される1つのトークンを含む。このため、複数の語がスペースで区切られていたとしても、当該複数の語が1つのトークンに相当することもある。
一方、例えば、ユーザが、ハワイにある山を検索するために、クエリ「Hawaii mountains」を入力したとする。このクエリは、語「Hawaii」及び語「mountains」といった2つの語から構成される。これら2つの語は、クエリ「The South Mountain」とは異なり、個々の語が独立した意味を有するので、1セットで扱う必要は無く、別々のトークンとして扱った方がよい。このようなクエリは、1つの語から構成される2つのトークンを含む。
ただし、サーバ10は、クエリを受信した時点では、複数の語から構成されるトークンなのか、1つの語から構成されるトークンなのか、を特定することが難しい。このため、サーバ10は、クエリを受信した時点では、ひとまず、スペースによって区切られた部分をトークンとみなすものとする。例えば、クエリ「The South Mountain」であれば、サーバ10は、ひとまず、トークン「The」、トークン「South」、及びトークン「Mountain」といった3つのトークンが含まれるものとみなす。クエリ「Hawaii mountains」であれば、サーバ10は、ひとまず、トークン「Hawaii」及びトークン「mountains」といった2つのトークンが含まれるものとみなす。
なお、サーバ10は、予め定められたルールに基づいて、クエリからトークンとみなす部分を特定すればよい。ひとまずトークンとみなされる部分は、スペースによって区切られた部分に限られない。例えば、サーバ10は、何らかの区切りを意味する記号に基づいて、クエリからトークンとみなす部分を特定してもよい。例えば、この記号は、括弧、アンダーバー、ハイフン、カンマ、又はピリオドであってもよい。更に、サーバ10は、複数のルールを組み合わせて、クエリからトークンとみなす部分を特定してもよい。
図2の例では、クエリ「Tokyo restaurant」は、トークン「Tokyo」と、トークン「restaurant」と、を含む。クエリ「U.S.A. championship」は、トークン「U.S.A.」と、トークン「championship」と、を含む。これら2つのクエリの個々のトークンは、独立した意味を持った名詞である。このような名詞は、独立した意味を有するので、AND条件又はOR条件でつなげて検索しても問題ないことが多い。このため、これら2つのクエリは、適切な位置にスペースが挿入されており、検索時のトークンとして適切である。
クエリ「Tokyorestaurant」は、スペースが存在しないので、1つのトークン「Tokyorestaurant」だけを含む。本来であれば、名詞「Tokyo」と、名詞「restaurant」と、の間にスペースが必要であるが、これらの名詞の間にはスペースが存在しない。例えば、スペースの入力を億劫に感じたユーザが文字だけを入力したり、ユーザが音声入力をしたりすると、複数のトークンに分けるべき複数の語が1つのトークンになることがある。このクエリは、適切な位置にスペースが挿入されていないので、検索時のトークンとして不適切である。
クエリ「U.S.A. champion ship」は、1つの名詞である「championship」のうち、「champion」と「ship」の間にスペースが入力されている。このため、このクエリは、適切に入力されたクエリ「U.S.A. championship」とは異なり、トークン「U.S.A.」、トークン「champion」、及びトークン「ship」を含む。ユーザが、「champion」と「ship」の間にスペースを誤入力したり、ウェブサイトや文書ファイルからコピーペーストしたりすると、1つのトークンにすべきものが複数のトークンに分けられることがある。このクエリも、適切な位置にスペースが挿入されていないので、検索時のトークンとして不適切である。
そこで、本実施形態では、適切なトークンとなるようにクエリ整形が実行される。クエリ整形は、ひとまずトークンとみなしたものを、適切なトークンに調整することである。クエリ整形は、クエリのチャンキングと呼ばれることもある。本実施形態では、クエリ整形の操作として、分割、結合、及びセグメント化の3つを例に挙げるが、クエリ整形の操作は、これら3つのうちの何れか1つ又は2つのみを意味してもよい。クエリ整形の操作とは、クエリをどのように整形するかである。操作は、整形の種類ということもできる。
分割は、1つのトークンを複数のトークンに分けることである。当該複数のトークンの間には、スペースが配置される。先述した1つのトークン「Tokyorestaurant」を「Tokyo」と「restaurant」の2つのトークンにすることは、分割に相当する。「Tokyo」と「restaurant」の間には、スペースが配置される。
結合は、複数のトークンを1つのトークンにまとめ上げることである。当該複数のトークンの間のスペースは削除される。先述した「champion」と「ship」の2つのトークンを1つのトークン「championship」にすることは、結合に相当する。「champion」と「ship」の間のスペースは削除される。
セグメント化は、複数のトークンを1つのトークンにまとめ上げるといった点では、結合と同様であるが、スペースが削除されない点で結合とは異なる。先述した「The」と「South」と「Mountain」の3つのトークンを1つのトークン「The South Mountain」にすることは、セグメント化に相当する。「The」と「South」の間のスペースと、「South」と「Mountain」の間のスペースと、は削除されない。
クエリ整形システムSは、一般的な形態素解析等のクエリ整形ではなく、辞書データを利用したマッチング手法と、学習モデルを利用した機械学習手法と、を効果的に組み合わせた新規なクエリ整形を実行することによって、クエリ整形の精度を高めるようにしている。以降、本実施形態の詳細を説明する。
[3.クエリ整形システムで実現される機能]
図3は、本実施形態で実現される機能の一例を示す機能ブロック図である。図4は、クエリ整形システムSにおける全体の流れの一例を示す図である。以降、図4の流れを参照しつつ、図3の各機能の詳細を説明する。図4のように、クエリ整形の処理は、大きく分けて、2つのステージに分けられている。ステージ1は、マッチング手法である。ステージ2は、ステージ1のマッチングの実行結果を考慮した機械学習手法である。
本実施形態では、ステージ1のマッチング手法と、ステージ2の機械学習手法と、が図3の各機能により実現される。例えば、データ記憶部100は、記憶部12を主として実現される。トークン取得部101、マッチング実行部102、判定部103、第1トークン整形部104、第2トークン整形部105、整形済みクエリ取得部106、検索部107、及び提示部108は、制御部11を主として実現される。
[データ記憶部]
データ記憶部100は、クエリ整形に必要なデータを記憶する。例えば、データ記憶部100は、検索対象データベースDB、第1辞書データD1、第2辞書データD2、第3辞書データD3、第1学習モデルM1、及び第2学習モデルM2を記憶する。以降、第1辞書データD1、第2辞書データD2、及び第3辞書データD3を区別しない時は、単に辞書データDと記載する。同様に、第1学習モデルM1及び第2学習モデルM2を区別しない時は、単に学習モデルMと記載する。
検索対象データベースDBは、検索対象となるデータが格納されたデータベースである。検索対象データベース DBには、クエリとの比較対象となるインデックスが格納されている。本実施形態では、ウェブサイトが検索対象に相当するので、種々のウェブサイトから抽出された語を含むインデックスが格納される。ウェブサイトがカテゴリ分けされている場合には、カテゴリもインデックスに相当する。インデックスとして利用可能な情報自体は、公知の種々の情報であってよい。例えば、検索対象データベースDBには、ウェブサイトのインデックスと、ウェブサイトのURLと、が関連付けられて格納される。
辞書データDは、検索時のトークンとして適切な語が格納されたデータである。辞書データDに格納された語は、1つの語だけで構成されることもあるし、複数の語を含むこともある。例えば、架空のアパレルブランド「The South Mountain」を1つのトークンとしたい場合には、これら3つの語が1つの語として辞書データDに格納されている。辞書データD自体は、公知の種々の辞書データDを利用可能である。例えば、国語辞典又はインターネット百科事典のデータに基づいて、辞書データDが作成されてもよい。よく入力されるクエリに含まれるトークンが辞書データDに格納されていてもよい。
本実施形態では、第1辞書データD1、第2辞書データD2、及び第3辞書データD3といった3つの辞書データDが利用される場合を例に挙げる。ステージ1のマッチング手法で利用される辞書データDは、本実施形態の例に限られない。例えば、1つの辞書データDだけが利用されてもよいし、2つ又は4つ以上の辞書データDが利用されてもよい。
例えば、第1辞書データD1には、ある特定分野でよく用いられる語が格納される。第2辞書データD2には、インターネット百科事典に掲載された一般的な語が格納される。第3辞書データD3には、接頭辞に相当する語、接尾辞に相当する語、及び共起性のある語の少なくとも1つが格納される。第1辞書データD1、第2辞書データD2、及び第3辞書データD3は、クエリ整形システムSの管理者により作成されるものとするが、インターネット上に公開されているものであってもよい。
学習モデルMは、機械学習を利用したモデルである。機械学習自体は、自然言語処理で利用される種々の方法を利用可能であり、例えば、教師有り学習、半教師有り学習、又は教師無し学習を利用可能である。学習モデルMは、AI(Artificial Intelligence)と呼ばれることもある。例えば、学習モデルMは、CharacterBERT等のTransformerに基づく事前学習済みの自然言語処理モデルが利用されてもよいし、文字ベースのCNN(Convolutional Neural Network)が利用されてもよい。また、例えば、学習モデルMとして、Bi-LSTM、Bi-LSTM-CRF、又はWord2Vec等の他の手法が部分的に利用されてもよい。他にも例えば、TransformerモデルをベースとしたBERT及びELECTRAが利用されてもよい。
本実施形態では、第1学習モデルM1及び第2学習モデルM2といった2つの学習モデルMが利用される場合を例に挙げる。ステージ2の機械学習手法で利用される学習モデルMは、本実施形態の例に限られない。例えば、1つの学習モデルMだけが利用されてもよいし、3つ以上の学習モデルMが利用されてもよい。複数の学習モデルMが利用される場合には、個々の学習モデルMの機械学習手法は、互いに異なってもよい。
例えば、第1学習モデルM1は、ファインチューニング済みのCharacterBERTである。例えば、第1学習モデルM1は、いわゆる系列ラベリング問題を解く手法で用いられるモデルである。第1学習モデルM1には、トークンに含まれる個々の文字が入力される。第1学習モデルM1は、個々の文字の特徴に関する文字特徴量を計算する。あるトークンが5文字だったとすると、5つの文字特徴量が計算される。特徴量自体は、公知の種々の計算方法で計算可能である。特徴量は、任意の形式で表現可能であり、例えば、多次元ベクトル、配列、又は単一の数値で表現可能である。特徴量は、埋め込み表現と呼ばれることもある。第1学習モデルM1は、最終的な出力として文字特徴量を出力してもよいし、最終的な出力を得るための中間的な計算結果として文字特徴量を出力してもよい。
例えば、第2学習モデルM1は、個々の文字ではなく、トークン自体の特徴量に関するトークン特徴量を計算する。トークン特徴量は、トークンに含まれる個々の文字ではなく、トークンの全体的な特徴量という意味で文字特徴量とは異なるが、特徴量の意味自体は、文字特徴量と同様である。トークン特徴量も、任意の形式で表現可能であり、公知の種々の計算方法で計算可能である。第2学習モデルM1は、ある一定程度の長さの文字列の特徴量を計算可能なモデルであればよく、Bi-LSTM、Bi-LSTM-CRF、又はWord2Vecであってもよい。第2学習モデルM2は、最終的な出力としてトークン特徴量を出力してもよいし、最終的な出力を得るための中間的な計算結果としてトークン特徴量を出力してもよい。
[トークン取得部]
トークン取得部101は、クエリに含まれる複数のトークンを取得する。トークン取得部101は、予め定められた方法に基づいて、クエリの中から、トークンの区切り位置を特定する。本実施形態では、スペースによってトークンが区切られる場合を説明するので、トークン取得部101は、クエリに含まれるスペースの位置を特定し、クエリの中から複数のトークンを取得する。スペースではなく特定の記号によってトークンが区切られる場合には、トークン取得部101は、クエリに含まれる当該記号の位置に基づいて、クエリの中から複数のトークンを取得してもよい。
本実施形態では、トークン取得部101は、ユーザ端末20から、ユーザが入力したクエリに含まれる複数のトークンを取得する場合を例に挙げるが、トークン取得部101は、過去に入力されたクエリが格納されたデータベースから、当該クエリに含まれる複数のトークンを取得してもよい。クエリには、1つのトークンのみが含まれることもあるので、トークン取得部101は、クエリに含まれる1つのトークンのみを取得してもよい。クエリに複数のトークンが含まれる場合だったとしても、トークン取得部101は、クエリに含まれる一部のトークンだけを取得してもよい。
[マッチング実行部]
マッチング実行部102は、複数のトークンに基づいて、辞書データDを利用したマッチングを実行する。マッチングとは、複数のトークンと、辞書データDに格納された語と、を比較することである。本実施形態では、個々のトークンと、辞書データDに格納された語と、を比較することがマッチングに相当する場合を説明するが、複数のトークンをひとかたまりとして、辞書データDに格納された語と比較することがマッチングに相当してもよい。
本実施形態では、複数の辞書データDが用意されているので、マッチング実行部102は、複数の辞書データDの各々を利用したマッチングを実行する。1つの辞書データDのみが用意されている場合には、マッチング実行部102は、1つの辞書データDのみを利用したマッチングを実行する。マッチング実行部102は、マッチングにより、複数のトークンの各々を、第1トークン又は第2トークンの何れかに分類する。
第1トークンは、辞書データDにマッチしたトークンである。本実施形態のように、複数の辞書データDが用意されている場合には、第1トークンは、複数の辞書データDのうちの少なくとも1つにマッチしたトークンである。本実施形態では、複数の辞書データDのうちの何れか1つにでもマッチしたトークンは、第1トークンに分類されるものとするが、閾値以上の辞書データDにマッチすることが、第1トークンに分類されるための条件になってもよい。この閾値は、2以上であってよい。この閾値は、クエリ整形システムSの管理者が指定可能であってもよい。
第2トークンは、辞書データDにマッチしなかったトークンである。本実施形態のように、複数の辞書データDが用意されている場合には、第2トークンは、複数の辞書データDの何れにもマッチしなかったトークンである。第1トークンに分類される条件の閾値として2以上の値が設定されている場合には、第2トークンは、どの辞書データDにもマッチしなかったトークン、又は、閾値未満の辞書データDにしかマッチしなかったトークンである。
例えば、マッチング実行部102は、個々のトークンと、辞書データDに格納された語と、が一致するか否かを判定することによって、マッチングを実行する。即ち、マッチング実行部102は、個々のトークンと一致する語が辞書データDに存在するか否かを判定する。本実施形態では、完全一致が判定される場合を説明するが、部分一致が判定されてもよい。部分一致は、前方一致、中間一致、又は後方一致の何れであってもよい。本実施形態では、マッチングの一例として、文字列の中の最も左側の文字から一致する文字を探索する手法(いわゆる最左最長マッチ)を説明する。
例えば、ユーザが「Dinner Ita lian Tokyorestaurant」といったクエリを入力したとする。この場合、ユーザは、誤入力により「Ita」と「lian」の間にスペースを入力してしまい、かつ、「Tokyo」と「restaurant」の間にスペースを入力しなかったと思われる。このクエリは、「Dinner Italian Tokyo restaurant」といったクエリに整形されるべきである。
トークン取得部101は、クエリ「Dinner Ita lian Tokyorestaurant」におけるスペースの位置に基づいて、「Dinner」、「Ita」、「lian」、「Tokyorestaurant」といった4つのトークンを取得する。マッチング実行部102は、これら4つのトークンの各々と、辞書データDと、のマッチングを実行する。ここでは、「Dinner」、「Italian」、「Tokyo」、「restaurant」といった語が辞書データDに格納されているものとする。
1つ目のトークン「Dinner」は、辞書データDに存在するので、マッチング実行部102は、このトークンを第1トークンに分類する。2つ目のトークン「Ita」と、3つ目のトークン「lian」と、の間にはスペースが配置されているが、いわゆる最左最長マッチでは語「Italian」にマッチングするので、マッチング実行部102は、これら2つのトークンを第1トークンに分類する。4つ目のトークン「Tokyorestaurant」は、辞書データDの語「Tokyo」と語「restaurant」の組み合わせであるが、最左最長マッチではマッチしないので、マッチング実行部102は、このトークンを第2トークンに分類する。
本実施形態では、マッチング実行部102は、第1辞書データD1、第2辞書データD2、及び第3辞書データD3を利用して、上記説明したようなマッチングを実行する。例えば、図4のように、入力系列であるクエリをxとする。クエリxに含まれるトークンをx(iは、後述のl(アルファベットのエル)以下の自然数)とする。トークンの総数をl(lは、2以上の整数)とすると、x=x・・・xである。
例えば、整形済みのクエリをyとする。整形済みのクエリyは、整形済みのトークンの系列ということもできる。クエリxから整形済みのクエリyを取得することは、クエリ整形システムSの目的の1つである。整形済みのクエリyに含まれるトークンをy(Iは、後述のL以下の自然数)とする。整形済みのクエリyに含まれるトークンの総数をL(Lは、2以上の整数)とすると、y=y・・・yである。
例えば、クエリ整形における操作の系列をoとする。操作oは、トークンxに対する操作o集まりである。このため、o=o・・・oである。先述したように、本実施形態では、分割、結合、及びセグメント化の3つの操作を例に挙げるので、操作oは、「Split」、「Merge」、「Segment」、又は「Single」となる。「Single」は、操作を必要としないトークンxに付与される。これら4つは、操作内容を示すラベルということができる。
トークンxが第1トークンであれば、操作oは、「Split」、「Merge」、「Segment」、又は「Single」になる。即ち、これら4つのうちの何れかの操作oが付与されることは、トークンxが第1トークンに分類されることに相当する。トークンxが第2トークンであれば、操作oは、これら4つのうちの何れでもない「Uncertain」になる。「Uncertain」は、暫定的なラベルということができる。即ち、「Uncertain」の操作oが付与されることは、トークンxが第2トークンに分類されることに相当する。
図4のように、マッチング実行部102は、トークンx=x・・・xと、第1辞書データD1と、のマッチングを実行する。例えば、トークンxと、トークンxと、が第1辞書データD1の語とマッチしたとする。先述した例であれば、トークンxが「Ita」であり、トークンxが「lian」である場合に、第1辞書データD1に格納された1つの語「Italian」とマッチする。マッチング実行部102は、トークンx,xの各々を、互いに結合すべき第1トークンに分類する。即ち、マッチング実行部102は、操作o,oの各々を「Merge」にする。
マッチング実行部102は、第1辞書データD1を利用したマッチングが完了すると、クエリxから、第1辞書データD1とマッチしたトークンx,xを抜き出す。図4のように、第2辞書データD2とのマッチングの対象になるのは、クエリx=x,x,x・・・xとなる。例えば、トークンxが第2辞書データD2の語とマッチしたとする。先述した例であれば、トークンxが「Dinner」である場合に、第2辞書データD2の1つの語「Dinner」とマッチする。マッチング実行部102は、トークンxを、操作が不要な第1トークンに分類する。即ち、マッチング実行部102は、操作oを「Single」にする。
マッチング実行部102は、第2辞書データD2を利用したマッチングが完了すると、クエリxから、第2辞書データD2とマッチしたトークンxを抜き出す。図4のように、第3辞書データD3とのマッチングの対象になるのは、クエリx=x,x・・・xとなる。例えば、トークンxが第3辞書データD3の接尾辞とマッチしたとすると、マッチング実行部102は、トークンxを、操作が不要な第1トークンに分類する。即ち、マッチング実行部102は、操作oを「Single」にする。なお、第3辞書データD3とのマッチングの前には、クエリxに対して形態素解析が実行されて形態素に分解されてもよい。第3辞書データD3を利用したマッチングでは、共起尺度等の指標が計算されたうえでマッチングが実行されてもよい。
トークンx・・・xの各々は、どの辞書データDにもマッチしなかったので、マッチング実行部102は、トークンx・・・xを、第2トークンとして分類する。即ち、マッチング実行部102は、操作o・・・oを「Uncertain」にする。以上により、マッチングが完了する。以降の説明では、特に図4を参照する必要のない時は、クエリやトークン等の符号を省略する。
なお、本実施形態では、「Split」の操作は、マッチングで付与されないものとするが、マッチングによって「Split」の操作が付与されてもよい。また、図4の例では、辞書データDにマッチしたトークンがクエリから抜き出される場合を説明したが、マッチしたトークンだったとしても、クエリから抜き出されなくてもよい。例えば、マッチング実行部102は、第1辞書データD1とマッチしたトークンと、第2辞書データD2及び第3辞書データD3と、のマッチングを実行してもよい。
[判定部]
判定部103は、トークン取得部101により取得された複数のトークンの全てが辞書データDにマッチしたか否かを判定する。即ち、判定部103は、複数のトークンの中に、辞書データDにマッチしなかったトークンが存在するか否かを判定する。判定部103は、複数のトークンの全てが第1トークンであるか否か判定する、又は、複数のトークンの中に第2トークンが存在するか否かを判定するということもできる。
図4では、「Uncertainラベルを持つ」の判定が判定部103の処理に相当する。第3辞書データD3までのマッチングが完了したクエリxの中に、操作oが「Uncertain」であるトークンxが存在しないことは、全てのトークンxが辞書データDにマッチしたことに相当する。判定部103は、操作o=o・・・oに基づいて、全てのトークンxが辞書データDにマッチしたか否かを判定する。図4の例では、トークンx・・・xは辞書データDにマッチせず、「Uncertainラベルを持つ」トークンが存在するので、図4の判定処理は「Y」になる。
[第1トークン整形部]
第1トークン整形部104は、マッチングの実行結果に基づいて、第1トークンを整形する。本実施形態では、「Single」の第1トークンは整形されないので、第1トークン整形部104は、マッチングの実行結果に基づいて、複数の第1トークンのうち、整形する必要がある第1トークンを整形する。整形する必要がある第1トークンは、「Single」以外の操作oが付与された第1トークンである。本実施形態では、辞書データDとのマッチングでは「Split」は付与されないので、第1トークン整形部104は、「Merge」又は「Segment」の第1トークンを整形する。
例えば、第1トークン整形部104は、互いに連続する複数の第1トークンに「Merge」が付与された場合、当該第1トークン間のスペースを削除して1つのトークンとなるように、当該複数の第1トークンを整形する。先述した「Ita」と「lian」といった2つの第1トークンであれば、第1トークン整形部104は、「Ita」と「lian」の間のスペースを削除し、1つのトークン「Italian」になるように、これら2つの第1トークンを整形する。
例えば、第1トークン整形部104は、互いに連続する複数の第1トークンに「Segment」が付与された場合、当該第1トークン間のスペースを削除せずに1つのトークンとなるように、当該複数の第1トークンを整形する。先述した「The」、「South」、「Mountain」といった3つの第1トークンであれば、第1トークン整形部104は、これらの間のスペースを削除せず、1つのトークン「The South Mountain」となるように、これら3つの第1トークンを整形する。整形後の第1トークンは、セグメント化されたことを示すように、クォーテーション又はダブルクォーテーション等の記号で囲われてもよい。
図4の例であれば、トークンx,xが「Merge」なので、第1トークン整形部104は、トークンx,xの間のスペースを削除し、これら2つを結合させて1つのトークンにする。図4の例では、第1トークン整形部104による整形済みのクエリをx(rは、後述のm以下の自然数)とする。xr=x・・・x(mは、2以上の整数)である。ここでは、トークンx,xが結合されて1つ減っているので、mの数値は、lよりも1少ない。
なお、整形方法自体は、種々の方法を利用可能である。例えば、第1トークンに「Split」を付与可能なマッチングが実行される場合には、第1トークン整形部104は、「Split」の第1トークンが複数に分割されるように、当該第1トークンを整形してもよい。例えば、ある辞書データDを利用して付与された操作と、他の辞書データDを利用して付与された操作と、が異なっていれば、多数決により操作が決定されてもよいし、辞書データDに指定された優先順位に応じて操作が決定されてもよい。
[第2トークン整形部]
第2トークン整形部105は、複数のトークンのうち辞書データDにマッチした第1トークンと、クエリ整形に関する学習モデルMと、に基づいて、複数のトークンのうち辞書データDにマッチしなかった第2トークンを整形する。学習モデルMは、第2トークンを整形するために、第2トークン自体の情報だけではなく、第1トークンに関する情報も参照する。即ち、学習モデルMは、第2トークンだけではなく、マッチングの実行結果も参照し、第2トークンを整形する。学習モデルMは、トークンの文字的な特徴だけではなく、どのトークンが辞書データDにマッチしたかを考慮できるようになる。第2トークン整形部105は、学習モデルMの内部的な計算結果、又は、学習モデルMからの出力を、第1トークンに関する情報を利用して変更し、第2トークンを整形する。
本実施形態では、第2トークンに対する操作として複数種類の操作が用意されているので、第2トークン整形部105は、第1トークンと、学習モデルMと、に基づいて、複数の操作のうちの何れかを選択する。第2トークン整形部105は、当該選択された操作に基づいて、第2トークンを整形する。例えば、第2トークン整形部105は、「Split」、「Merge」、「Segment」、及び「Single」といった4つの操作のうちの何れかを選択する。操作は、第1トークンと第2トークンで異なってもよい。第2トークン整形部105は、これら4つのうちの何れか3つ又は何れか2つの中から、第2トークンに対する操作を選択してもよい。
本実施形態では、第1トークン整形部104により第1トークンが整形された場合には、第2トークン整形部105は、整形済みの第1トークンと、学習モデルMと、に基づいて、第2トークンを整形する。即ち、学習モデルMは、整形された第1トークンについては、整形済みの状態の第1トークンに関する情報を参照し、第2トークンの整形に用いられる。図4の例であれば、「Merge」の第1トークンx,xが整形されて1つの第1トークンになるので、1つに整形された第1トークンに関する情報が、学習モデルMによって参照される。
例えば、第2トークン整形部105は、複数の第1トークンのうちの一部のみが整形された場合には、整形済みの第1トークン、整形されなかった第1トークン、及び学習モデルMに基づいて、第2トークンを整形する。この場合、学習モデルMは、整形済みの第1トークンに関する情報と、整形されなかった第1トークンに関する情報と、の両方を参照する。図4の例であれば、「Single」の第1トークンx,xは整形されず、「Merge」の第1トークンx,xが整形されるので、これら両方の第1トークンに関する情報が、学習モデルMによって参照される。
本実施形態では、「Uncertain」を持つクエリx=x・・・xが与えられた場合に、「Uncertain」のトークンに含まれる文字が、「B」、「I」、「O」、「E」、「S」の何れかに分類される。この分類は、BIOESチャンキングと呼ばれることもある。属性「B」は、語の開始を意味する。属性「I」は、語の内部を意味する。属性「E」は、語の終端を意味する。属性「S」は、一文字の語であることを意味する。属性「O」は、空白を意味する。
例えば、スペースを含むクエリxの文字系列をc=c1,1・・・cm,nとする。ci,jは、i番目のトークン内のj番目の文字である。例えば、i番目のトークンが「Dinner」だったとすると、ci,1は「D」であり、ci,2は「i」であり、ci,3は「n」であり、ci,4は「n」であり、ci,5は「e」であり、ci,6は「r」である。
図4の例では、学習モデルMの出力系列をz=z1,1・・・zm,nとする。zi,jは、文字ci,jの属性である。即ち、zi,jは、「B」、「I」、「O」、「E」、「S」の何れかである。ステージ2における機械学習手法は、文字系列c=c1,1・・・cm,nから出力系列をz=z1,1・・・zm,nを予測するタスクを解くことになる。第2トークン整形部105は、出力系列zに基づいて、「Uncertain」のトークンのラベルを「Split」、「Merge」、「Segment」、又は「Single」の何れかに更新する。
本実施形態では、ステージ2の機械学習手法は、文字系列cの文字特徴量の取得、マッチングの実行結果を考慮したトークン特徴量との結合、全結合、及びCRFの4層からなる。これらの4層は、第1学習モデルM1に含まれるものとするが、複数の学習モデルMに分けられていてもよい。第2学習モデルM2は、第2段階の層におけるトークン特徴量の計算で利用される。トークン特徴量は、第2学習モデルM2ではなく、第1学習モデルM1の層により計算されてもよい。
なお、図4の「CLS」と「SEP」は、それぞれ冒頭と末尾を示す文字列である。これらの文字列についても特徴量が計算されるものとする。また、本実施形態では、第2トークン整形部105は、文字系列cだけではなく、操作系列oも第1学習モデルM1に入力するものとするが、第2トークン整形部105は、操作系列oの一部は第1学習モデルM1に入力しなくてもよい。例えば、第2トークン整形部105は、操作系列oのうち、第1トークンの操作oだけを第1学習モデルM1に入力してもよい。
例えば、第2トークン整形部105は、第1学習モデルM1に基づいて、第1トークンに含まれる第1文字ごとに、当該第1文字の特徴に関する第1文字特徴量を計算する。第1文字は、第1トークンに含まれる個々の文字である。図4の例では、第1トークンx,x,x,xが存在する(ただし、第1トークンx,xは1つに結合される)ので、これらに含まれる個々の文字は、第1文字に相当する。図4では、第1文字に関係するボックスに網掛けの背景を付与している。
例えば、第1トークンxが第1文字c1,1,c1,2を含んだとすると、第2トークン整形部105は、第1学習モデルM1に基づいて、文字c1,1の第1文字特徴量h1,1と、文字c1,2の第1文字特徴量h1,2と、を計算する。第2トークン整形部105は、他の第1トークンに含まれる他の第1文字についても同様に、第1文字特徴量を計算する。この計算方法自体は、公知の方法であってよい。本実施形態では、第1学習モデルM1がファインチューニング済みのCharacterBERTなので、CharacterBERTで規定される計算方法に基づいて、第1文字特徴量が計算される。
例えば、第2トークン整形部105は、第1学習モデルMに基づいて、第2トークンに含まれる第2文字ごとに、当該第2文字の特徴に関する第2文字特徴量を計算する。第2文字は、第2トークンに含まれる個々の文字である。図4の例では、第2トークンx,・・・,xが存在するので、これらに含まれる個々の文字は、第2文字に相当する。図4の例では、第2トークンxは、文字c5,1等の複数の第2文字を含む。
第2トークン整形部105は、第1学習モデルM1に基づいて、文字c5,1の第2文字特徴量h5,1を計算する。第2トークン整形部105は、他の第2トークンに含まれる他の第2文字についても同様に、第2文字特徴量を計算する。この計算方法も、第1文字特徴量と同様に、公知の方法であってよい。図4の例では、第2トークン整形部105は、第1学習モデルM1に基づいて、第1文字特徴量及び第2文字特徴量を含む文字特徴量H=[h[CLS],h1,1,・・・,hm,l,h[SEP]]を取得する。hi,jは、文字ci,jに対応する文字特徴量である。
例えば、第2トークン整形部105は、所定の計算方法に基づいて計算された、第1トークン自体の特徴に関する第1トークン特徴量を取得する。本実施形態では、この計算方法は、入力された文字列の特徴量を計算する第2学習モデルM2を利用した方法である。第2学習モデルMは、計算モデルの一例である。このため、第2学習モデルMについて説明している箇所は、計算モデルと読み替えることができる。第2トークン整形部105は、第2学習モデルM2により計算された第1トークン特徴量を取得する。
図4の例では、第2トークン整形部105は、第2学習モデルM2に基づいて、第1文字c1,1,c1,2を含む第1トークンxの第1トークン特徴量wを取得する。第1トークン特徴量wは、これら2つの第1文字c1,1,c1,2で共通である。第2トークン整形部105は、他の第1トークンについても同様に、第1トークン特徴量を取得する。第2学習モデルM2による第1トークン特徴量の計算方法自体は、公知の方法であってよい。例えば、BERT、Bi-LSTM、Bi-LSTM-CRF、又はWord2Vec等で規定される計算方法に基づいて、第2文字特徴量が計算される。
例えば、第2トークン整形部105は、第1文字特徴量、第1トークン特徴量、及び第2文字特徴量に基づいて、第2トークンを整形する。例えば、第2トークン整形部105は、第1文字ごとに、当該第1文字の第1文字特徴量と、第1トークン特徴量と、の平均を計算し、当該計算された平均と、第2文字特徴量と、に基づいて、第2トークンを整形する。
図4の例では、第2トークン整形部105は、文字c1,1の第1文字特徴量h1,1と、第1トークン特徴量wと、の平均を計算する。ここでは、単純平均とする。第2トークン整形部105は、文字c1,2の第1文字特徴量h1,2と、第1トークン特徴量wと、の平均を計算する。第2トークン整形部105は、他の第1文字についても同様に、第1文字特徴量と第1トークン特徴量の平均を計算する。
図4のように、第2トークン整形部105は、第2トークン自体の特徴に関する第2トークン特徴量には基づかずに、第1文字特徴量、第1トークン特徴量、及び第2文字特徴量に基づいて、第2トークンを整形する。図4の例では、第2トークンxの文字c5,1の第2文字特徴量に対しては、第2トークンx自体の特徴量との平均が計算されない。第2トークン整形部105は、他の第2トークンについても同様に、第2文字特徴量と第2トークン特徴量の平均を計算せずに、第2文字特徴量をそのまま利用する。
図4の例では、第2トークン整形部105は、第1学習モデルM1の全結合層及びCRF層に対し、平均が計算された後の文字特徴量H=[h[CLS],h1,1,・・・,hm,l,h[SEP]]を入力する。CRF層からは、個々の文字に対する「B」、「I」、「O」、「E」、「S」のラベリング結果が出力される。即ち、第2トークン整形部105は、第1トークンと、学習モデルMと、に基づいて、第2トークンに含まれる第2文字ごとに、クエリ整形に関するラベリングを実行し、ラベリングの実行結果に基づいて、第2トークンを整形する。本実施形態では、個々の文字に対し、「B」、「I」、「O」、「E」、「S」の何れかの属性を付与することがラベリングに相当する。
図5は、第1学習モデルM1からの出力の一例を示す図である。図5では、トークン「Tokyorestaurant」と、トークン「championship」と、の各々に対する第1学習モデルM1の出力を示している。ここでは、説明の都合上、これら2つとも第2トークンとするが、第1トークンであったとしても、同様の出力が得られてもよい。
図5のように、本実施形態では、第1学習モデルM1は、第2トークンを分割する否かに関する分割要否情報を出力する。先述した「B」、「I」、「O」、「E」、「S」は、分割要否情報の一例である。第2トークン整形部105は、分割要否情報に基づいて、第2トークンを整形する。例えば、第2トークン整形部105は、第1学習モデルM1から出力された分割要否情報が分割要を示すトークンを分割すると決定する。第2トークン整形部105は、第1学習モデルM1から出力された分割要否情報が分割不要を示すトークンを分割しないと決定する。
トークン「Tokyorestaurant」は、15個の文字(15個のアルファベット)により構成されるので、第1学習モデルM1は、15個の属性を特定する。個々の文字の属性は、図5の通りである。第1学習モデルM1は、最初の属性Bの文字からその後の属性Eまでの部分(1番目の「T」から5番目の「o」までの「Tokyo」)を、1つのトークンと推定する。第1学習モデルM1は、次の属性Bの文字からその後の属性Eまでの部分(6番目の「r」から15番目の「t」までの「restaurant」)を、1つのトークンと推定する。
第1学習モデルM1は、入力された1つのトークン「Tokyorestaurant」に2つのトークンがあると推定したので、トークン「Tokyorestaurant」を分割することを示す分割要否情報を出力する。第1学習モデルM1は、上記推定した個々のトークンを出力してもよい。この場合、第1学習モデルM1は、トークン「Tokyorestaurant」の分割も実行する。第1学習モデルM1は、トークン「Tokyorestaurant」を2つに分割し、トークン「Tokyo」と、トークン「restaurant」と、を出力してもよい。
トークン「championship」は、12個の文字(12個のアルファベット)により構成されるので、第1学習モデルM1は、12個の属性を特定する。個々の文字の属性は、図5の通りである。第1学習モデルM1は、最初の属性Bの文字からその後の属性Eまでの部分(1番目の「c」から12番目の「p」までの「championship」)を、1つのトークンと推定する。第1学習モデルM1は、入力された1つのトークン「championship」が1つのトークンであると推定したので、トークン「championship」を分割しないことを示す分割要否情報を出力する。
以上のように、第1学習モデルM1は、属性Bの文字からその後の属性Eの文字までの間を1つのトークンと推定する。第1学習モデルM1は、属性Sの文字も1つのトークンと推定する。第1学習モデルM1は、入力された1つのトークンに対して複数のトークンが推定された場合(例えば、属性Bの文字と、属性Eの文字と、ペアが複数存在する場合)、入力された1つのトークンを分割することを示す分割要否情報を出力する。学習モデルMは、入力された1つのトークンに対して1つのトークンが推定された場合(例えば、属性Bの文字と、属性Eの文字と、ペアが1つだけ存在する場合)、入力された1つのトークンを分割しないことを示す分割要否情報を出力する。
第2トークン整形部105は、分割要否情報が分割することを示す第2トークンを、辞書データDを利用して分割することによって、第2トークンを整形してもよい。本実施形態では、第1辞書データD1が利用される場合を説明するが、第2トークン整形部105は、第2辞書データD2又は第3辞書データD3を利用して第2トークンを分割してもよい。第2トークン整形部105は、ある第2トークンを分割することを分割要否情報が示す場合、この第2トークンと、第1辞書データD1と、が部分一致するか否かを判定する。第2トークン整形部105は、この第2トークンと部分一致する語が第1辞書データD1に存在する場合、このトークンが、この語から構成されるトークンと、それ以外の部分から構成されるトークンと、を含むように分割する。
本実施形態では、第2トークン整形部105は、判定部103により複数のトークンの全てが辞書データDにマッチしたと判定された場合には第2トークンの整形をしない。この場合、複数のトークンの全てが第1トークンなので、第1トークンの整形が必要だったとしても、第1トークン整形部104のみでクエリ整形が完了する。第2トークン整形部105は、判定部103により複数のトークンの一部だけが辞書データDにマッチしたと判定された場合に、第2トークンを整形する。
なお、第2トークン整形部105は、マッチングの実行結果と、学習モデルMと、に基づいて、第2トークンを整形すればよく、第2トークンの整形方法は、本実施形態の例に限られない。例えば、第1学習モデルM1の機能と、第2学習モデルM2の機能と、が1つの学習モデルMにまとめられている場合には、第2トークン整形部105は、当該1つの学習モデルMに基づいて、第2トークンを整形してもよい。
他にも例えば、トークンに含まれる文字に着目するのではなく、トークンに含まれる形態素に着目して、第2トークンが整形されてもよい。この場合、第2トークン整形部105は、第1トークン及び第2トークンに対し、形態素解析を実行する。形態素解析自体は、公知の種々の方法を利用可能である。形態素は、1文字のこともあれば、複数の文字を含むこともある。ここでは、第1トークンに含まれる形態素を第1形態素という。第2トークンに含まれる形態素を第2形態素という。
第2トークン整形部105は、学習モデルMに基づいて、第1形態素の特徴に関する第1形態素特徴量と、第2形態素の特徴量に関する第2形態素特徴量を計算する。第2トークン整形部105は、第1形態素特徴量と、第1トークン特徴量と、の平均を計算する。第2トークン整形部105は、当該計算された平均と、第2形態素特徴量と、を全結合層及びCRF層に入力し、第2形態素のラベリングを実行する。第2トークン整形部105は、第2形態素に付与された属性に基づいて、第2トークンを整形する。
他にも例えば、第2トークン整形部105は、整形済みの第1トークンと、第2トークンと、をそのまま学習モデルMに入力してもよい。この場合、第2トークン整形部105は、学習モデルMに基づいて、整形済みの第1トークンの第1トークン特徴量と、第2トークンの特徴に関する第2トークン特徴量と、を計算する。第2トークン整形部105は、第1トークン特徴量と、第2トークン特徴量と、を全結合層及びCRF層に入力し、第2トークンのラベリングを実行する。第2トークン整形部105は、第2トークンに付与された属性に基づいて、第2トークンを整形する。
[整形済みクエリ取得部]
整形済みクエリ取得部106は、辞書データDを利用したマッチングの実行結果と、学習モデルMを利用した処理結果と、に基づいて、整形済みのクエリyを取得する。例えば、第1トークンの整形と、第2トークンの整形と、の両方が実行された場合には、整形済みクエリ取得部106は、整形済みの第1トークンと、整形済みの第2トークンと、を含む整形済みのクエリyを取得する。例えば、第1トークンの整形が実行されず、第2トークンの整形のみが実行された場合には、整形済みクエリ取得部106は、整形されていない第1トークンと、整形済みの第2トークンと、を含む整形済みのクエリyを取得する。
例えば、第1トークンの整形が実行されて、第2トークンの整形が実行されなかった場合には、整形済みクエリ取得部106は、整形済みの第1トークンと、整形されていない第2トークンと、を含む整形済みのクエリyを取得する。例えば、第1トークンの整形と、第2トークンの整形と、の何れも実行されなかった場合には、整形済みクエリ取得部106は、整形されていない第1トークンと、整形されていない第2トークンと、を含む整形済みのクエリyを取得する。
[検索部]
検索部107は、整形済みの第2トークンに基づいて、検索処理を実行する。検索部107は、少なくとも整形済みの第2トークンに基づいて検索処理を実行すればよい。本実施形態では、整形済みクエリ取得部106が整形済みのクエリyを取得するので、検索部107は、検索対象データベースDBと、整形済みのクエリyと、に基づいて、検索処理を実行する。検索部107は、検索対象データベースDBに格納されたインデックスと、整形済みのクエリyと、を比較することによって、検索処理を実行する。検索処理自体は、公知の種々の方法を利用可能である。例えば、整形済みのクエリyに複数のトークンが含まれる場合には、検索部107は、複数のトークンをOR条件で検索処理を実行する。図2の例であれば、クエリ「Tokyo restaurant」と、クエリ「U.S.A. championship」と、はクエリ整形されないので、検索部107は、これらのクエリのまま検索処理を実行する。
一方、図2のクエリ「Tokyorestaurant」は、トークン「Tokyo」と、トークン「restaurant」と、に分割される。このため、検索部107は、これら2つのトークンに分割されるように(間にスペースが埋め込まれるように)整形されたクエリ「Tokyo restaurant」に基づいて、検索処理を実行する。クエリ「U.S.A. champion ship」は、トークン「U.S.A.」はそのままであるが、トークン「champion」と、トークン「ship」と、が結合されて「champion ship」になる。このため、検索部107は、これら2つのトークンが1つに結合されるように(間にスペースが存在しないように)クエリ整形されたクエリ「U.S.A. championship」に基づいて、検索処理を実行する。
[提示部]
提示部108は、クエリを入力したユーザに、検索処理の実行結果を提示する。本実施形態では、画像を利用して視覚的に実行結果が提示される場合を説明するが、音声を利用して聴覚的に実行結果が提示されてもよい。検索処理の実行結果は、検索でヒットしたインデックスの一覧である。例えば、提示部108は、検索処理の実行結果を含む画面の表示データ(例えば、HTMLデータ)を生成し、ユーザ端末20に送信する。
[4.クエリ整形システムで実行される処理]
図6は、クエリ整形システムSで実行される処理の一例を示すフロー図である。この処理は、制御部11,21が記憶部12,22に記憶されたプログラムに従って動作することによって実行される。
ユーザ端末20は、ユーザがトップページP1のリンク等を選択するとサーバ10にアクセスし、検索サービスのトップページP1を表示部25に表示させる(S1)。ユーザ端末20は、操作部24からのユーザの操作に基づいて、入力フォームF10に対するクエリの入力を受け付ける(S2)。ユーザ端末20は、サーバ10に、ユーザが入力したクエリを送信する(S3)。
サーバ10は、ユーザ端末20からクエリを受信すると(S4)、クエリに含まれる複数のトークンを取得する(S5)。サーバ10は、複数のトークンに基づいて、辞書データDを利用したマッチングを実行する(S6)。S6では、サーバ10は、図4を参照して説明した流れにより、複数のトークンに基づいて、第1辞書データD1~第3辞書データD3の各々を利用したマッチングを実行する。
サーバ10は、S6におけるマッチングの実行結果に基づいて、第1トークンを整形する(S7)。サーバ10は、複数のトークンの全てが辞書データDにマッチしたか否かを判定する(S8)。複数のトークンの全てが辞書データDにマッチしたと判定された場合(S8;Y)、続くS9~S12の処理が実行されることなく、S13の処理が実行される。即ち、クエリに第2トークンが存在しないので、整形済みの第1トークンに基づいて、検索処理が実行される。
一方、複数のトークンの全てが辞書データDにマッチしたと判定されない場合(S8;N)、サーバ10は、第1学習モデルM1に基づいて、文字特徴量を計算する(S9)。S9では、サーバ10は、第1文字特徴量と、第2文字特徴量と、を計算する。サーバ10は、第2学習モデルM2に基づいて、第1トークン特徴量を計算する(S10)。サーバ10は、第1文字の第1文字特徴量と、第1トークン特徴量と、の平均を計算する(S11)。サーバ10は、S11における平均と、第2文字の第2文字特徴量と、に基づいて、第2トークンを整形する(S12)。
サーバ10は、S7及びS12の少なくとも一方の処理結果に基づいて、整形済みのクエリを取得し、検索対象データベースDBに対する検索処理を実行する(S13)。サーバ10は、ユーザ端末20に、S13における検索結果を送信する(S14)。ユーザ端末20は、サーバ10から検索結果のデータを受信すると、検索結果を表示部25に表示させ(S15)、本処理は終了する。
本実施形態のクエリ整形システムSによれば、クエリに含まれる複数のトークンに基づいて、辞書データDを利用したマッチングを実行する。クエリ整形システムSは、辞書データDにマッチした第1トークンと、学習モデルMと、に基づいて、辞書データDにマッチしなかった第2トークンを整形する。これにより、マッチングの実行結果を機械学習手法で利用して第2トークンを正確に整形できるので、クエリ整形の精度が高まる。例えば、ユーザがコピーアンドペーストによってクエリを入力した場合には、クエリの中に全体的にスペースが含まれがちである。この場合、第1トークンが「Merge」である場合には、第2トークンも「Merge」になることがある。他にも例えば、律儀なユーザがクエリを手入力した場合には、クエリに含まれるトークンが全体的に正しいことがある。この場合、第1トークンが「Single」である場合には、第2トークンも「Single」になることもある。このため、例えば、マッチングの実行結果を考慮した機械学習手法とすることによって、学習モデルMは、第1トークンと同様の傾向が第2トークンに存在しうることを考慮できるので、クエリ整形の精度が高まる。
また、クエリ整形システムSは、整形済みの第1トークンと、学習モデルMと、に基づいて、第2トークンを整形する。これにより、第1トークンと第2トークンの両方を整形できるので、クエリ整形の精度がより高まる。更に、整形後の第1トークンを利用することによって、より正確な情報を学習モデルMに考慮させることができるので、クエリ整形の精度がより高まる。
また、クエリ整形システムSは、複数の第1トークンのうちの一部のみが整形された場合には、整形済みの第1トークン、整形されなかった第1トークン、及び学習モデルMに基づいて、第2トークンを整形する。これにより、整形する必要がない第1トークンが存在する場合には、この第1トークンの情報も学習モデルMに考慮させることができるので、クエリ整形の精度がより高まる。
また、クエリ整形システムSは、学習モデルMに基づいて、第2トークンに含まれる第2文字ごとに、当該第2文字の特徴に関する第2文字特徴量を計算し、第1文字特徴量、第1トークン特徴量、及び第2文字特徴量に基づいて、第2トークンを整形する。これにより、より細かな文字単位で第2トークンを整形できるので、クエリ整形の精度がより高まる。クエリ整形で利用する特徴量も、より細かな文字単位で計算できるので、文字同士の前後関係をより詳細に考慮してクエリ整形を実行し、クエリ整形の精度がより高まる。
また、クエリ整形システムSは、第2学習モデルM2により計算された第1トークン特徴量を取得する。これにより、第1トークン特徴量を計算するための専用の第2学習モデルM2を利用できるので、より正確な第1トークン特徴量を計算し、クエリ整形の精度がより高まる。第1学習モデルM1と第2学習モデルM2とで役割分担をすることができるので、クエリ整形を高速化できる。例えば、本実施形態のように、リアルタイムな検索処理でクエリ整形を利用する場合には、第1学習モデルM1と第2学習モデルM2の各々の処理を並行して実行することで、検索結果の提示に要する時間を短縮できる。
また、クエリ整形システムSは、第1文字特徴量及び第1トークン特徴量の平均と、第2文字特徴量と、に基づいて、第2トークンを整形する。これにより、第1トークン特徴量を利用して、マッチングで得られた情報を学習モデルMに考慮させることができるので、クエリ整形の精度がより高まる。また、平均を計算する処理自体は、計算量が少ないので、サーバ10の処理負荷を軽減できる。計算量が少ない処理を採用することによって、クエリ整形を高速化できる。
また、クエリ整形システムSは、第2トークン自体の特徴に関する第2トークン特徴量には基づかずに、第1文字特徴量、第1トークン特徴量、及び第2文字特徴量に基づいて、第2トークンを整形する。これにより、マッチングで得られた情報を学習モデルMに考慮させつつ、不適切な埋め込み表現を避けることができる。例えば、文字レベルの系列ラベリングタスクにおいて、全ての文字に対して単語の埋め込み表現が考慮されたとすると、ラベルが不明確な単語についても考慮されてしまうことがある。この点、クエリ整形システムSは、ラベルが「Uncertain」であり不明確な第2トークンについては、あえて第2トークン特徴量を学習モデルMに考慮させないことによって、クエリ整形の精度が高まる。
また、クエリ整形システムSは、第1トークンと、学習モデルMと、に基づいて、第2トークンに含まれる第2文字ごとに実行されたラベリングの実行結果に基づいて、第2トークンを整形する。これにより、より細かい文字単位で第2トークンを整形できるので、クエリ整形の精度がより高まる。
また、第1トークンは、複数の辞書データDのうちの少なくとも1つにマッチしたトークンであり、第2トークンは、複数の辞書データDの何れにもマッチしなかったトークンである。これにより、複数の辞書データDを総合的に考慮したマッチングを実行できるので、マッチングの精度が高まる。その結果、精度の高いマッチングで得られた情報を学習モデルMに考慮させることができるので、クエリ整形の精度がより高まる。
また、クエリ整形システムSは、複数のトークンの全てが辞書データDにマッチしたと判定された場合には第2トークンの整形をせず、複数のトークンの一部だけが辞書データDにマッチしたと判定された場合に、第2トークンを整形する。これにより、マッチングだけでクエリ整形が完了する場合に、機械学習手法の処理をスキップすることができるので、不要な処理を実行する必要がなくなり、サーバ10の処理負荷を軽減できる。その結果、クエリ整形を高速化できる。
また、クエリ整形システムSは、第1トークンと、学習モデルMと、に基づいて、複数の操作のうちの何れかを選択し、当該選択された操作に基づいて、第2トークンを整形する。これにより、複数の操作を利用してクエリ整形を実行できるので、クエリ整形の精度がより高まる。例えば、トークンの分割だけではなく、分割、結合、セグメント化といった種々の操作を利用してクエリ整形を実行できる。
また、クエリ整形システムSは、学習モデルMから出力された分割要否情報に基づいて、第2トークンを整形する。これにより、本当に分割するか否かを決定できるので、クエリ整形の精度がより高まる。例えば、マッチング手法ではトークンの分割が難しかったとしても、学習モデルMを利用してトークンの分割が可能になる。
また、クエリ整形システムSは、分割要否情報が分割することを示す第2トークンを、辞書データDを利用して分割することによって、第2トークンを整形する。これにより、辞書データDを利用して本当に分割するか否かを決定できるので、クエリ整形の精度がより高まる。
また、クエリ整形システムSは、整形済みの第2トークンに基づいて実行された検索処理の実行結果をユーザに提示する。これにより、整形済みの第2トークンに基づく検索処理を実行できるので、検索処理の精度が高まる。
[5.変形例]
なお、本開示は、以上に説明した実施形態に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。
図7は、変形例における機能ブロック図である。第1スコア取得部109、第2スコア取得部110、及びジャンル特定部111を含む。これらは、制御部11を主として実現される。
[5-1.変形例1]
例えば、実施形態では、第1文字特徴量と、第1トークン特徴量と、の単純平均が計算される場合を説明したが、これらの加重平均が計算されてもよい。加重平均では、第1文字特徴量と、第1トークン特徴量と、の少なくとも一方に、重み付け係数が設定される。変形例1では、第1トークン特徴量にだけ重み付け係数が設定される場合を説明するが、第1文字特徴量にだけ重み付け係数が設定されてもよいし、これらの両方に重み付け係数が設定されてもよい。
変形例1の第2トークン整形部105は、マッチングの実行結果に基づいて、平均に関する重み付け係数を決定し、重み付け係数に基づいて、平均を計算する。マッチングの実行結果は、マッチングの精度である。例えば、複数の辞書データDを利用したマッチングであれば、第1トークンがマッチした辞書データDの数は、マッチングの実行結果に相当する。例えば、部分一致を許容するマッチングであれば、第1トークンがマッチした文字数は、マッチングの実行結果に相当する。
第2トークン整形部105は、マッチングの精度が高いほど、第1トークン特徴量が重点的に考慮されるように、重み付け係数を決定する。変形例1では、第1トークン特徴量にだけ重み付け係数が設定されるので、第2トークン整形部105は、マッチングの精度が高いほど、第1トークン特徴量の重み付け係数が高くなるように、重み付け係数を決定する。第1文字特徴量にも重み付け係数が設定される場合には、第2トークン整形部105は、マッチングの精度が高いほど、第1文字特徴量の重み付け係数が低くなるように、重み付け係数を決定すればよい。重み付け係数が考慮される点で実施形態の平均とは異なるが、他の点については、実施形態と同様である。
変形例1によれば、マッチングの実行結果に応じた重み付け係数に基づいて、第1文字特徴量と、第1トークン特徴量と、の平均を計算する。これにより、マッチングの実行結果を学習モデルMにより効果的に考慮させることができるので、クエリ整形の精度がより高まる。
[5-2.変形例2]
例えば、第1トークンに含まれる第1文字の属性も学習モデルMから取得可能である。この場合、マッチング手法における第1トークンの整形結果と、学習モデルMにおける第1トークンの整形結果と、が異なることがある。実施形態では、マッチング手法における整形結果が正しいものとしたが、学習モデルMにおける整形結果のスコアが高いのであれば、学習モデルMにおける整形結果が正しいものとしてもよい。変形例2のクエリ整形システムSは、第1スコア取得部109及び第2スコア取得部110を含む。
第1スコア取得部109は、マッチングの実行結果に基づいて、第1トークンに関する第1スコアを取得する。第1スコアは、変形例1で説明したマッチングの精度である。例えば、第1スコアは、複数の辞書データDのうち、第1トークンにマッチした辞書データDの数である。例えば、第1スコアは、第1トークンにマッチした文字数である。辞書データDと、当該辞書データを参照する何らかの学習モデルと、を利用したマッチングを採用するのであれば、第1スコアは、当該学習モデルが計算したスコアであってもよい。
第2スコア取得部110は、学習モデルMの処理結果に基づいて、第1トークンに関する第2スコアを取得する。第2スコアは、学習モデルMが計算したスコアである。例えば、学習モデルMは、個々の文字のラベリングを実行する場合に、ラベルの確度を示す第2スコアを計算する。この第2スコアは、蓋然性と呼ばれることもある。スコアの計算方法自体は、公知の機械学習で利用される方法を利用すればよい。
第1トークン整形部104は、第1スコアと、第2スコアと、に基づいて、マッチングの実行結果と、学習モデルMの処理結果と、の何れかを選択し、当該選択された方に基づいて、第1トークンを整形する。例えば、第1トークン整形部104は、第1スコアが第2スコアよりも高い場合には、マッチングの実行結果に基づいて、第1トークンを整形する。第1トークン整形部104は、第2スコアが第1スコアよりも高い場合には、学習モデルMの処理結果に基づいて、第1トークンを整形する。学習モデルMの処理結果に基づく第1トークンの整形方法自体は、第2トークンと同様であり、「B」、「I」、「O」、「E」、「S」の属性に基づいて、第1トークンが整形されるようにすればよい。
変形例2によれば、マッチングの実行結果に応じた第1スコアと、学習モデルMの処理結果に応じた第2スコアと、に基づいて選択された方に基づいて、第1トークンを整形する。これにより、第1トークンを精度よく整形できるので、クエリ整形の精度がより高まる。
[5-3.変形例3]
例えば、実施形態では、ウェブサイトの検索サービスにおいて英語のクエリが入力される場合を例に挙げて説明した。クエリ整形システムSは、任意のサービスにおける任意の言語のクエリに適用可能であり、サービス及び言語は、実施形態の例に限られない。変形例3では、オンラインショッピングサービスにおいて日本語のクエリが入力される場合を例に挙げる。
変形例3のクエリは、オンラインショッピングサービスの検索時に入力される。ユーザは、任意のクエリを入力し、所望の商品を検索する。ユーザは、クエリの1つとして、ジャンル、在庫の有無、カラー、サイズ、産地、又はメーカー等の種々の属性を指定することもできる。クエリは、オンラインショッピングサービスの検索時に入力される。
変形例3の検索対象データベースDBは、オンラインショッピングモールで販売される商品に関する情報を含む。例えば、検索対象データベースDBは、商品を販売する店舗を識別可能な店舗ID、個々の商品を識別可能な商品ID、商品の検索用に抽出されたキーワードを含むインデックス、商品タイトル、商品ジャンル等の属性、商品の詳細な説明文、商品の画像、及び商品の価格といった情報が格納される。商品タイトルは、商品の簡単な説明を示す文字列である。商品タイトルは、単語の羅列であってもよい。商品タイトルや商品の詳細な説明文等は、店舗の担当者によって入力される。
例えば、辞書データDは、オンラインショッピングモールでよく入力されるクエリに含まれるトークン、又は、オンラインショッピングモールの商品ページにおける商品タイトルに基づいて作成されてもよい。辞書データDの語は、商品タイトルがそのまま格納されていてもよいし、商品タイトルに含まれる名詞が格納されてもよい。商品タイトルから名詞を抽出する方法は、公知の形態素解析等を利用すればよい。変形例3では、商品ジャンルごとに、当該商品ジャンルの商品の商品タイトルに基づいて辞書データDが作成される場合を説明するが、特に商品ジャンルに関係なく、辞書データDが作成されてもよい。
変形例3のクエリ整形システムSは、クエリに対応する商品ジャンルを特定するジャンル特定部111を更に含む。商品ジャンルは、商品を分類するために利用される情報である。商品ジャンルは、商品カテゴリと呼ばれることもある。商品ジャンルは、商品の属性の1つである。クエリに対応する商品ジャンルとは、クエリに関連付けられた商品ジャンルである。例えば、クエリに商品ジャンルが含まれる場合には、クエリに含まれる商品ジャンルは、クエリに対応する商品ジャンルである。クエリに商品ジャンルが付帯する場合には、クエリに付帯した商品ジャンルは、クエリに対応する商品ジャンルである。
変形例3では、ユーザが商品ジャンルを指定するものとする。例えば、ユーザ端末20は、ユーザが指定した商品ジャンルを、クエリとともにサーバ10に送信する。サーバ10は、ユーザ端末20から商品ジャンル及びクエリを受信する。ジャンル特定部111は、ユーザ端末20から受信した商品ジャンルを取得することによって、商品ジャンルを特定する。ユーザが商品ジャンルを指定しないこともあるので、この場合には、ジャンル特定部111の処理は省略される。
なお、商品ジャンルの特定方法は、上記の例に限られない。ジャンル特定部111は、クエリに含まれるトークンに基づいて、商品ジャンルを特定してもよい。この場合、データ記憶部100には、トークンに含まれ得る文字列と、商品ジャンルと、の関係が定義されているものとする。例えば、商品ジャンル「電化製品」であれば、メーカー名や商品名といった文字列が関連付けられている。他にも例えば、商品ジャンル「被服」であれば、ブランド名やサイズといった文字列が関連付けられている。ジャンル特定部111は、上記関係に定義された文字列がクエリに含まれる場合、当該文字列に関連付けられた商品ジャンルを取得することによって、クエリに対応する商品ジャンルを特定する。
マッチング実行部102は、商品ジャンルに基づいて、マッチングを実行する。商品ジャンルごとに、当該商品ジャンルに属する商品の商品タイトルに基づいて作成された辞書データDが用意されているものとする。マッチング実行部102は、商品ジャンルに応じた辞書データDに基づいて、マッチングを実行する。マッチング実行部102は、オンラインショッピングサービスにおける商品タイトルを、辞書データDとして利用してマッチングを実行する。
変形例3によれば、クエリに対応する商品ジャンルに基づいて、マッチングを実行する。これにより、商品タイトルを流用することによって、辞書データDを作成する手間を省くことができる。また、オンラインサービスにおける検索精度が高まる。
また、クエリは、オンラインショッピングサービスの検索時に入力され、マッチング実行部102は、オンラインショッピングサービスにおける商品タイトルを、辞書データDとして利用してマッチングを実行する。これにより、商品ジャンルを利用した適切なクエリ整形を実行できるので、クエリ整形の精度が効果的に高まる。例えば、商品ジャンルに応じた辞書データDをマッチングで利用する場合には、マッチングで比較対象となる語を減らすことができ、サーバ10の処理負荷を軽減できる。不必要なマッチングをしないことにより、処理を高速化できる。
[5-4.その他変形例]
例えば、上記変形例を組み合わせてもよい。
例えば、クエリ整形システムSは、検索サービス及びオンラインショッピングサービス以外の他の任意のサービスに利用可能である。例えば、旅行予約サービス、電子決済サービス、金融サービス、通信サービス、又はコンテンツ配信サービスといった他のサービスの検索にクエリ整形システムSが利用されてもよい。他にも例えば、ある単一の装置内でデータベースが検索される場合にクエリ整形システムSが利用されてもよい。
例えば、マッチングの実行結果を学習モデルMに考慮させる方法は、実施形態で説明した例に限られない。例えば、学習モデルMは、第2文字特徴量と、第2トークン特徴量と、の平均を計算してもよいが、この場合の第2トークン特徴量の重み付け係数を、第1トークン特徴量の重み付け係数よりも小さくしてもよい。このようにすれば、一般的なCharacterBERTに比べて、第1トークンをより強く考慮させることができる。他にも例えば、第1トークン特徴量を利用せずに、第1文字と、第1トークンに付与された操作のラベルと、を何らかの形で特徴量化してもよい。この場合、これらの特徴量には、マッチングの実行結果が反映されているので、この特徴量に基づいて、第2トークンの整形を実行することによって、マッチングの実行結果を学習モデルMに考慮させることができる。
例えば、サーバ10で実現されるものとして説明した機能は、ユーザ端末20又は他のコンピュータで実現されてもよいし、複数のコンピュータで分担されてもよい。例えば、データ記憶部100に記憶されるものとしたデータは、データベースサーバに記憶されていてもよい。
S クエリ整形システム、N ネットワーク、10 サーバ、11,21 制御部、12,22 記憶部、13,23 通信部、20 ユーザ端末、24 操作部、25 表示部、DB 検索対象データベース、P1 トップページ、100 データ記憶部、101 トークン取得部、102 マッチング実行部、103 判定部、104 第1トークン整形部、105 第2トークン整形部、106 整形済みクエリ取得部、107 検索部、108 提示部、109 第1スコア取得部、110 第2スコア取得部、111 ジャンル特定部。

Claims (19)

  1. クエリに含まれる複数のトークンを取得するトークン取得部と、
    前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行部と、
    前記複数のトークンに含まれる文字の文字系列と、前記マッチングの実行結果に基づくクエリ整形の操作の操作系列と、をクエリ整形に関する学習モデルに入力して前記文字系列の文字特徴量を取得する第2トークン整形部と、
    を含み、
    前記第2トークン整形部は、
    前記複数のトークンのうち前記辞書データにマッチした第1トークンに含まれる第1文字の特徴に関する第1文字特徴量を前記学習モデルに基づいて計算し、前記第1トークンの特徴に関する第1トークン特徴量を所定の計算方法に基づいて計算し、前記第1文字特徴量及び前記第1トークン特徴量の平均を計算し、
    前記平均が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記文字の属性を示す出力系列に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第2トークンを整形する
    クエリ整形システム。
  2. 前記クエリ整形システムは、前記マッチングの実行結果に基づいて、前記第1トークンを整形する第1トークン整形部を更に含み、
    前記操作系列は、前記第1トークンに対する前記操作を示し、
    前記第2トークン整形部は、整形済みの前記第1トークンと、前記学習モデルと、に基づいて、前記第1文字特徴量計算する、
    請求項1に記載のクエリ整形システム。
  3. 前記第1トークン整形部は、前記マッチングの実行結果に基づいて、複数の前記第1トークンのうち、整形する必要がある前記第1トークンを整形する、
    請求項2に記載のクエリ整形システム。
  4. 前記第2トークン整形部は、
    記第2トークンに含まれる第2文字特徴に関する第2文字特徴量を前記学習モデルに基づいて計算し、
    記第2文字特徴量が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記出力系列に基づいて、前記第2トークンを整形する、
    請求項1~3の何れかに記載のクエリ整形システム。
  5. 前記計算方法は、入力された文字列の特徴量を計算する計算モデルを利用した方法である、
    請求項4に記載のクエリ整形システム。
  6. 前記第2トークン整形部は、
    前記マッチングの実行結果に基づいて、前記平均に関する重み付け係数を決定し、
    前記重み付け係数に基づいて、前記平均を計算する、
    請求項1~3の何れかに記載のクエリ整形システム。
  7. 前記第2トークン整形部は、前記第2トークン自体の特徴に関する第2トークン特徴量には基づかずに、前記第1文字特徴量、前記第1トークン特徴量、及び前記第2文字特徴量に基づいて、前記第2トークンを整形する、
    請求項4に記載のクエリ整形システム。
  8. 前記出力系列前記第2トークンに含まれる第2文字ごとに、前記属性を示す、
    請求項1~3の何れかに記載のクエリ整形システム。
  9. 前記マッチング実行部は、複数の前記辞書データの各々を利用した前記マッチングを実行し、
    前記第1トークンは、前記複数の辞書データのうちの少なくとも1つにマッチした前記トークンであり、
    前記第2トークンは、前記複数の辞書データの何れにもマッチしなかった前記トークンである、
    請求項1~3の何れかに記載のクエリ整形システム。
  10. 前記クエリ整形システムは、前記複数のトークンの全てが前記辞書データにマッチしたか否かを判定する判定部を更に含み、
    前記第2トークン整形部は、前記複数のトークンの全てが前記辞書データにマッチしたと判定された場合には前記第2トークンの整形をせず、前記複数のトークンの一部だけが前記辞書データにマッチしたと判定された場合に、前記第2トークンを整形する、
    請求項1~3の何れかに記載のクエリ整形システム。
  11. 前記第2トークン整形部は、前記出力系列に基づいて、複数の操作のうちの何れかを選択し、当該選択された操作に基づいて、前記第2トークンを整形する、
    請求項1~3の何れかに記載のクエリ整形システム。
  12. 前記クエリ整形システムは、
    前記マッチングの実行結果に基づいて、前記第1トークンに関する第1スコアを取得する第1スコア取得部と、
    前記学習モデルの処理結果に基づいて、前記第1トークンに関する第2スコアを取得する第2スコア取得部と、
    前記第1スコアと、前記第2スコアと、に基づいて、前記マッチングの実行結果と、前記学習モデルの処理結果と、の何れかを選択し、当該選択された方に基づいて、前記第1トークンを整形する第1トークン整形部と、
    を更に含む請求項1~3の何れかに記載のクエリ整形システム。
  13. 前記出力系列は、前記第2トークンを分割する否かに関する分割要否情報を含み
    前記第2トークン整形部は、前記分割要否情報に基づいて、前記第2トークンを整形する、
    請求項1~3の何れかに記載のクエリ整形システム。
  14. 前記第2トークン整形部は、前記分割要否情報が分割することを示す前記第2トークンを、辞書データを利用して分割することによって、前記第2トークンを整形する、
    請求項1に記載のクエリ整形システム。
  15. 前記クエリは、オンラインショッピングサービスの検索時に入力され、
    前記クエリ整形システムは、前記クエリに対応する商品ジャンルを特定する商品ジャンル特定部を更に含み、
    前記マッチング実行部は、前記商品ジャンルに基づいて、前記マッチングを実行する、
    請求項1~3の何れかに記載のクエリ整形システム。
  16. 前記クエリは、オンラインショッピングサービスの検索時に入力され、
    前記マッチング実行部は、前記オンラインショッピングサービスにおける商品タイトルを、前記辞書データとして利用して前記マッチングを実行する、
    請求項1~3の何れかに記載のクエリ整形システム。
  17. 前記クエリ整形システムは、
    整形済みの前記第2トークンに基づいて、検索処理を実行する検索部と、
    前記クエリを入力したユーザに、前記検索処理の実行結果を提示する提示部と、
    を更に含む請求項1~3の何れかに記載のクエリ整形システム。
  18. クエリに含まれる複数のトークンを取得するトークン取得ステップと、
    前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行ステップと、
    前記複数のトークンに含まれる文字の文字系列と、前記マッチングの実行結果に基づくクエリ整形の操作の操作系列と、をクエリ整形に関する学習モデルに入力して前記文字系列の文字特徴量を取得する第2トークン整形ステップと、
    を含み、
    前記第2トークン整形ステップは、
    前記複数のトークンのうち前記辞書データにマッチした第1トークンに含まれる第1文字の特徴に関する第1文字特徴量を前記学習モデルに基づいて計算し、前記第1トークンの特徴に関する第1トークン特徴量を所定の計算方法に基づいて計算し、前記第1文字特徴量及び前記第1トークン特徴量の平均を計算し、
    前記平均が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記文字の属性を示す出力系列に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第2トークンを整形する
    クエリ整形方法。
  19. クエリに含まれる複数のトークンを取得するトークン取得部、
    前記複数のトークンに基づいて、辞書データを利用したマッチングを実行するマッチング実行部、
    前記複数のトークンに含まれる文字の文字系列と、前記マッチングの実行結果に基づくクエリ整形の操作の操作系列と、をクエリ整形に関する学習モデルに入力して前記文字系列の文字特徴量を取得する第2トークン整形部
    としてコンピュータを機能させ
    前記第2トークン整形部は、
    前記複数のトークンのうち前記辞書データにマッチした第1トークンに含まれる第1文字の特徴に関する第1文字特徴量を前記学習モデルに基づいて計算し、前記第1トークンの特徴に関する第1トークン特徴量を所定の計算方法に基づいて計算し、前記第1文字特徴量及び前記第1トークン特徴量の平均を計算し、
    前記平均が計算された後の前記文字特徴量に応じて前記学習モデルが出力した前記文字の属性を示す出力系列に基づいて、前記複数のトークンのうち前記辞書データにマッチしなかった第2トークンを整形する
    プログラム。
JP2023009005A 2022-03-01 2023-01-24 クエリ整形システム、クエリ整形方法、及びプログラム Active JP7441982B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023132511A JP2023154062A (ja) 2022-03-01 2023-08-16 クエリ整形システム、クエリ整形方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263268702P 2022-03-01 2022-03-01
US63/268,702 2022-03-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023132511A Division JP2023154062A (ja) 2022-03-01 2023-08-16 クエリ整形システム、クエリ整形方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2023127542A JP2023127542A (ja) 2023-09-13
JP7441982B2 true JP7441982B2 (ja) 2024-03-01

Family

ID=87850559

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023009005A Active JP7441982B2 (ja) 2022-03-01 2023-01-24 クエリ整形システム、クエリ整形方法、及びプログラム
JP2023132511A Pending JP2023154062A (ja) 2022-03-01 2023-08-16 クエリ整形システム、クエリ整形方法、及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023132511A Pending JP2023154062A (ja) 2022-03-01 2023-08-16 クエリ整形システム、クエリ整形方法、及びプログラム

Country Status (2)

Country Link
US (1) US20230281229A1 (ja)
JP (2) JP7441982B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259643A1 (en) 2008-04-15 2009-10-15 Yahoo! Inc. Normalizing query words in web search

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259643A1 (en) 2008-04-15 2009-10-15 Yahoo! Inc. Normalizing query words in web search

Also Published As

Publication number Publication date
JP2023154062A (ja) 2023-10-18
US20230281229A1 (en) 2023-09-07
JP2023127542A (ja) 2023-09-13

Similar Documents

Publication Publication Date Title
US9483460B2 (en) Automated formation of specialized dictionaries
US20100205198A1 (en) Search query disambiguation
JP4521343B2 (ja) 文書処理装置及び文書処理方法
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
CN108319583B (zh) 从中文语料库提取知识的方法与系统
WO2017157200A1 (zh) 特征词汇提取方法及装置
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
US20110246464A1 (en) Keyword presenting device
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
JP6409071B2 (ja) 文の並び替え方法および計算機
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP7441982B2 (ja) クエリ整形システム、クエリ整形方法、及びプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP7117168B2 (ja) 情報処理装置および情報処理方法
JP7326637B2 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
WO2015125088A1 (en) Document characterization method
JP4934819B2 (ja) 情報抽出装置、その方法及びプログラム
JP2002183195A (ja) 概念検索方式
CN116186211B (zh) 一种文本攻击性检测和转换的方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230124

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240219

R150 Certificate of patent or registration of utility model

Ref document number: 7441982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150