JP6261669B2 - Query calibration system and method - Google Patents
Query calibration system and method Download PDFInfo
- Publication number
- JP6261669B2 JP6261669B2 JP2016134985A JP2016134985A JP6261669B2 JP 6261669 B2 JP6261669 B2 JP 6261669B2 JP 2016134985 A JP2016134985 A JP 2016134985A JP 2016134985 A JP2016134985 A JP 2016134985A JP 6261669 B2 JP6261669 B2 JP 6261669B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- calibration
- candidate
- proofreading
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本発明は、ユーザが入力したクエリに対して校正結果を提供するクエリ校正システムおよび方法に関し、より詳細には、翻訳モデルに基づいてユーザのクエリに対する校正結果を提供するクエリ校正システムおよび方法に関する。 The present invention relates to a query calibration system and method for providing a calibration result for a query input by a user, and more particularly to a query calibration system and method for providing a calibration result for a user query based on a translation model.
ユーザは、検索エンジンのようなサイトを通じ、所期の情報を得るために検索を行うことができる。ユーザは、ユーザの端末を通じて検索エンジンのクエリ入力ウィンドウにクエリを入力し、出力された検索結果を確認することによって所期の情報を得ることができる。 A user can perform a search to obtain desired information through a site such as a search engine. The user can obtain desired information by inputting a query to the query input window of the search engine through the user's terminal and confirming the output search result.
しかし、ユーザが端末を通じてこのようなクエリを入力するときに、端末のキーボードへの入力ミスおよび/または韓英変換キーの選択ミスなどにより、本来の意図とは異なる誤字脱字を含んだクエリが入力される場合が発生することがある。特に、ユーザの端末がタッチスクリーンを備える場合には、誤ったタッチ入力などにより、誤字脱字を含んだクエリが入力される可能性がさらに高くなることもある。 However, when a user inputs such a query through the terminal, a query including a typographical error that is different from the original intention is input due to an input error on the keyboard of the terminal and / or a selection error of the Korean-English conversion key. May occur. In particular, when the user terminal includes a touch screen, there is a possibility that a query including a typographical error may be further input due to an erroneous touch input or the like.
誤字脱字を含んだクエリが検索エンジンに入力された場合、出力される検索結果にユーザが意図していた所期の情報が含まれなくなるが、これは検索品質の劣化に繋がるようにもなる。 When a query including a typographical error is input to the search engine, the intended search information intended by the user is not included in the output search result, but this also leads to deterioration in search quality.
したがって、ユーザが誤字脱字を含むクエリを入力したとしても、ユーザが本来より意図していた所期の情報を検索結果として得ることができるように、入力されたクエリを所期の正字クエリに変換してユーザに提供する方法が求められている。 Therefore, even if the user enters a query that includes typographical errors, the entered query is converted to the intended orthographic query so that the user can get the expected information as the search result. Thus, there is a demand for a method for providing the information to the user.
特許文献1(公開日2011年1月25日)は、統計データに基づいて誤字脱字クエリと判定されたユーザクエリに対して全体クエリ単位または単語単位によって校正を行うシステムおよび方法を開示している。 Patent Document 1 (publication date: January 25, 2011) discloses a system and method for calibrating a user query determined to be a typographical error query based on statistical data in units of entire queries or words. .
上述した情報は、理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が通常の技術者に提示できることを含まないこともある。 The information described above is merely for helping understanding, and may include content that does not form part of the prior art, or may not include that the prior art can be presented to a normal engineer.
一実施形態は、翻訳モデルに基づいてユーザクエリの校正候補への変換に関する確率を計算し最適な校正候補を抽出することにより、ユーザのクエリおよび校正候補の編集距離に制限なく、最適な校正候補を校正結果として提供する、ユーザクエリ校正システムおよび方法を提供する。 In one embodiment, the optimal proofreading candidate is calculated without calculating the optimal proofreading candidate by calculating the probability of conversion of the user query to the proofreading candidate based on the translation model, without limiting the edit distance between the user query and the proofreading candidate. A user query proofing system and method are provided.
一側面において、入力されたクエリに対する検索結果のログ情報に基づき、前記クエリに対する少なくとも1つの校正候補に関する情報を抽出する校正情報抽出部、前記の抽出された情報に基づき、前記クエリの前記校正候補への変換に関する少なくとも1つのパラメータを取得するパラメータ取得部、および前記の取得されたパラメータに基づき、前記クエリの前記少なくとも1つの校正候補のそれぞれへの変換と関連する確率を計算し、前記の計算された確率に基づき、前記クエリに対する校正結果として前記校正候補のうちから少なくとも1つの校正候補を抽出する校正結果生成部を備える、クエリ校正システムを提供する。 In one aspect, a proofreading information extraction unit that extracts information on at least one proofreading candidate for the query based on log information of a search result for the input query, and the proofreading candidate for the query based on the extracted information A parameter acquisition unit for acquiring at least one parameter relating to the conversion to, and a probability associated with the conversion of the query to each of the at least one calibration candidate based on the acquired parameter, There is provided a query proofreading system including a proofreading result generation unit that extracts at least one proofreading candidate from among the proofreading candidates as a proofreading result for the query based on the obtained probability.
前記校正情報抽出部は、前記ログ情報を使用して前記クエリが誤字脱字を含むかを判定してもよい。 The proofreading information extraction unit may determine whether the query includes a typographical error using the log information.
前記校正情報抽出部は、前記クエリが誤字脱字を含む場合、前記クエリに対する少なくとも1つの校正候補を識別してもよい。 The proofreading information extraction unit may identify at least one proofreading candidate for the query when the query includes a typographical error.
前記ログ情報は、ユーザによって第1クエリが入力された後に第2クエリが入力されるまでの時間、前記検索結果に対するユーザのクリック情報、前記第1クエリと前記第2クエリとの類似度に関する情報、および前記検索結果の属性のうち少なくとも1つを含んでもよい。 The log information includes a time from when the first query is input by the user until the second query is input, user click information with respect to the search result, and information on the similarity between the first query and the second query. , And at least one of the search result attributes.
前記検索結果の属性は、前記検索結果が含むコンテンツのカテゴリであってもよい。 The attribute of the search result may be a content category included in the search result.
前記パラメータ取得部は、前記クエリに含まれる要素が前記校正候補それぞれに含まれる要素に変換される確率、前記クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値、および前記クエリの前記校正候補それぞれへの変換の自然性の程度を示す確率のうち少なくとも1つをパラメータとして取得してもよい。 The parameter acquisition unit includes a probability that an element included in the query is converted into an element included in each of the calibration candidates, a numerical value indicating a positional relationship of the element included in the query with respect to each element of the calibration candidate, and the query At least one of the probabilities indicating the degree of naturalness of the conversion to each of the calibration candidates may be acquired as a parameter.
前記クエリに含まれる要素は、前記クエリに含まれる音節であり、前記校正候補それぞれに含まれる要素は、前記校正候補それぞれに含まれる音節であってもよい。 The element included in the query may be a syllable included in the query, and the element included in each of the calibration candidates may be a syllable included in each of the calibration candidates.
前記校正結果生成部は、前記校正結果として前記少なくとも1つの校正候補のうちから校正候補を抽出するにあたり、前記クエリに含まれる要素が配列される順序および前記少なくとも1つの校正候補の対応する要素が配列される順序を等しいものとして仮定してもよい。 When the calibration result generation unit extracts calibration candidates from the at least one calibration candidate as the calibration result, the order in which the elements included in the query are arranged and the corresponding elements of the at least one calibration candidate are The order of arrangement may be assumed to be equal.
前記校正結果として抽出された少なくとも1つの校正候補は、ユーザによる前記クエリの入力に対する検索結果に含まれてもよい。 The at least one proofreading candidate extracted as the proofreading result may be included in a search result for the input of the query by the user.
前記の取得されたパラメータは複数であってもよい。 The acquired parameter may be plural.
前記校正結果生成部は、前記の取得されたパラメータの倍またはログ加算に基づいて前記確率を計算してもよい。 The calibration result generation unit may calculate the probability based on a double of the acquired parameter or log addition.
前記校正候補は複数であってもよい。 There may be a plurality of calibration candidates.
前記校正結果生成部は、前記の複数の校正候補のそれぞれに対して計算された前記確率の分布に基づき、前記の複数の校正候補のうち少なくとも1つの校正候補を、前記クエリに対する校正結果としての校正候補抽出から除外してもよい。 The calibration result generator generates at least one calibration candidate among the plurality of calibration candidates as a calibration result for the query based on the probability distribution calculated for each of the plurality of calibration candidates. You may exclude from proofreading candidate extraction.
前記確率は、数式によって計算されてもよい。 The probability may be calculated by a mathematical formula.
前記数式は、 The formula is
lは前記校正候補それぞれの長さであり、mは前記校正候補それぞれの長さであり、jは前記校正候補のインデックスであり、iは前記クエリのインデックスである。 l is the length of each proofreading candidate, m is the length of each proofreading candidate, j is the index of the proofreading candidate, and i is the index of the query.
TRは、前記クエリに含まれるi番目の要素が前記校正候補それぞれに含まれるj番目の要素に変換される確率を示す関数である。 TR is a function indicating the probability that the i-th element included in the query is converted to the j-th element included in each of the calibration candidates.
ALは、前記クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値を示す関数である。 AL is a function indicating a numerical value indicating the positional relationship between the elements included in the query and the elements of each calibration candidate.
PLMは、前記クエリの前記校正候補それぞれへの変換の自然性の程度の確率を示す関数である。 PLM is a function indicating the probability of the degree of naturalness of conversion of the query into each of the calibration candidates.
前記校正情報抽出部および前記パラメータ取得部のうち少なくとも1つは、分散処理システムとして実現されてもよい。 At least one of the calibration information extraction unit and the parameter acquisition unit may be realized as a distributed processing system.
前記校正候補に関する情報は、前記クエリおよび各校正候補で構成された誤字脱字−正字ペアを含んでもよい。 The information related to the proofreading candidates may include a typographical error-correction pair composed of the query and each proofreading candidate.
前記確率は、前記クエリが入力されるときに各校正候補が発生する条件付き確率であってもよい。 The probability may be a conditional probability that each calibration candidate occurs when the query is input.
他の一側面において、入力されたクエリに対する検索結果のログ情報に基づき、前記クエリに対する少なくとも1つの校正候補に関する情報を抽出する段階、前記の抽出された情報に基づき、前記クエリの前記校正候補への変換に関する少なくとも1つのパラメータを取得する段階、前記の取得されたパラメータに基づき、前記クエリの前記少なくとも1つの校正候補のそれぞれへの変換と関連する確率を計算する段階、および前記の計算された確率に基づき、前記クエリに対する校正結果として前記校正候補のうちから少なくとも1つの校正候補を抽出する段階を含む、クエリ校正方法が提供される。 In another aspect, extracting information on at least one proofreading candidate for the query based on log information of a search result for the input query, to the proofreading candidate for the query based on the extracted information Obtaining at least one parameter relating to the transformation of the query, calculating a probability associated with the transformation of the query to each of the at least one calibration candidates based on the obtained parameter, and the calculated A query proofreading method is provided that includes extracting at least one proofreading candidate from the proofreading candidates as a proofreading result for the query based on the probability.
前記校正候補に関する情報を抽出する段階は、前記ログ情報を使用して前記クエリが誤字脱字を含むかを判定する段階を含んでもよい。 Extracting information about the proofreading candidates may include determining whether the query includes typographical errors using the log information.
前記校正候補に関する情報を抽出する段階は、前記クエリが誤字脱字を含む場合、前記クエリに対する少なくとも1つの校正候補を識別する段階を含んでもよい。 Extracting information about the proofreading candidates may include identifying at least one proofreading candidate for the query if the query includes typographical errors.
前記パラメータを取得する段階は、前記クエリに含まれる要素が前記校正候補それぞれに含まれる要素に変換される確率、前記クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値、および前記クエリの前記校正候補それぞれへの変換の自然性の程度を示す確率のうち少なくとも1つをパラメータとして取得してもよい。 The step of obtaining the parameters includes: a probability that an element included in the query is converted into an element included in each of the calibration candidates; a numerical value indicating a positional relationship of the element included in the query with respect to the element of each calibration candidate; and At least one of the probabilities indicating the degree of naturalness of conversion of the query into each of the calibration candidates may be acquired as a parameter.
前記クエリ校正方法は、前記校正結果として抽出された少なくとも1つの校正候補を、ユーザによる前記クエリの入力に対する検索結果として出力する段階をさらに含んでもよい。 The query proofreading method may further include outputting at least one proofreading candidate extracted as the proofreading result as a search result for the input of the query by a user.
前記校正候補は複数であってもよい。 There may be a plurality of calibration candidates.
前記少なくとも1つの校正候補を抽出する段階は、前記の複数の校正候補のそれぞれに対して計算された前記確率の分布に基づき、前記の複数の校正候補のうち少なくとも1つの校正候補を、前記クエリに対する校正結果としての校正候補抽出から除外する段階を含んでもよい。 The step of extracting the at least one calibration candidate is based on the probability distribution calculated for each of the plurality of calibration candidates, and at least one calibration candidate is selected from the plurality of calibration candidates. The method may include a step of excluding from the calibration candidate extraction as a calibration result for.
翻訳モデルに基づいてユーザクエリの校正候補への変換に関する確率を計算して最適な校正候補を抽出することにより、ユーザのクエリおよび校正候補の編集距離に制限なく、ユーザのクエリに対してユーザの意図に符合する最適な校正候補を校正結果として提供することができる。 By calculating the probability of conversion of user queries to proofreading candidates based on the translation model and extracting the optimal proofreading candidates, the user's query and proofreading candidate can be edited regardless of the editing distance of the user's query. An optimum calibration candidate that matches the intention can be provided as a calibration result.
翻訳モデルに基づいてユーザクエリの校正候補への変換に関する確率を計算して最適な校正候補を抽出することにより、ユーザのクエリに対する校正の正確性を損なうことなく、校正のカバレッジを向上させることができる。 By calculating the probability of conversion of user queries to proofreading candidates based on the translation model and extracting the best proofreading candidates, it is possible to improve proofreading coverage without compromising the accuracy of proofreading for user queries. it can.
以下、本発明の実試形態について、添付の図面を参照しながら詳細に説明する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, practical embodiments of the present invention will be described in detail with reference to the accompanying drawings.
図1は、一実施形態における、ユーザクエリ校正システムの動作方法を示した図である。 FIG. 1 is a diagram illustrating a method of operating a user query calibration system according to an embodiment.
図に示すユーザクエリ校正システム100(以下、クエリ校正システムとする)は、ユーザの端末から入力されたユーザクエリ(以下、クエリとする)を処理し、前記クエリに対する適切な校正結果を提供するシステムである。例えば、ユーザは、PCまたはモバイル端末(例えば、携帯電話、スマートフォン、タブレットPDAなど)を通じてクエリを入力することができ、クエリ校正システム100は、ユーザが入力したクエリに誤字脱字が存在するかを判定し、誤字脱字が存在すると判定された場合には、該当のクエリに対する校正結果としての校正候補を提供することができる。
A user query proofreading system 100 (hereinafter referred to as a query proofing system) shown in the figure processes a user query (hereinafter referred to as a query) input from a user terminal, and provides an appropriate proofreading result for the query. It is. For example, a user can input a query through a PC or a mobile terminal (eg, a mobile phone, a smartphone, a tablet PDA, etc.), and the
端末を通じて入力されたユーザのクエリは、例えば、コンテンツの検索および/または照会、または情報の取得のような作業の実行を要求するために、検索エンジンなどに入力されるキーワードまたは文字列であってよい。クエリは少なくとも1つの要素で構成されてもよく、クエリを構成する各要素は単語または音節であってもよい。 The user query input through the terminal is a keyword or a character string input to a search engine or the like in order to request execution of work such as content search and / or inquiry or information acquisition, for example. Good. The query may be composed of at least one element, and each element constituting the query may be a word or a syllable.
校正システム100は、ユーザが過去に入力したクエリに対する検索情報のログ情報に基づいて、入力されたクエリが正字であるかを判定し、該当のクエリの校正結果となり得る校正候補(群)を識別し、校正候補(群)のうち最適な校正候補を校正結果として提供することができる。
The
校正結果として決まった校正候補は、ユーザクエリと共にあるいは別に、ユーザクエリに対する検索結果として提供されてもよい。または、校正結果として決まった校正候補は、ユーザクエリに対する検索結果に含まれてもよい。さらに、校正結果として決まった校正候補に対する検索結果は、ユーザクエリに対する検索結果として提供されてもよい。 The proofreading candidate determined as the proofreading result may be provided as a search result for the user query together with or separately from the user query. Or the proofreading candidate decided as a proofreading result may be contained in the search result with respect to a user query. Furthermore, a search result for a proofreading candidate determined as a proofreading result may be provided as a search result for a user query.
校正結果は、ユーザのクエリ入力に対してリアルタイムで提供されてもよい。 Calibration results may be provided in real time for user query inputs.
入力されたクエリに対して校正候補(群)を識別して校正結果を提供する方法については、図2乃至図7を参照しながらさらに詳しく説明する。 A method of identifying a calibration candidate (group) for an input query and providing a calibration result will be described in more detail with reference to FIGS.
図2は、一実施形態における、ユーザクエリ校正システムを示した図である。図2を参照しながら、上述したクエリ校正システム100についてさらに詳しく説明する。クエリ校正システム100は、プロセッサ210を含んでよい。プロセッサ210は、ユーザのクエリを処理しクエリに対する校正結果を提供するために要求されるプログラムを実行したり、関連する演算を処理したりするための構成であってよい。プロセッサ210は、校正情報抽出部220、校正結果生成部230、およびパラメータ取得部240を含んでよい。校正情報抽出部220、校正結果生成部230、およびパラメータ取得部240のそれぞれは、プロセッサ210内で(または、図に示すものとは異なりプロセッサ210外部で)別のハードウェア構成によって実現されてもよい。図2では、プロセッサ210は単数で示されているが、複数のプロセッサであってもよく、プロセッサ内の少なくとも1つのコアを意味するものであってもよい。言い換えれば、校正情報抽出部220、校正結果生成部230、およびパラメータ取得部240のうち少なくとも一部は、プロセッサ210とは異なるプロセッサ210または異なるハードウェア構成内で実現されてもよい。
FIG. 2 is a diagram illustrating a user query proofing system in one embodiment. The above-described
または、校正情報抽出部220、校正結果生成部230、およびパラメータ取得部240は、プロセッサ210が実行する機能を示す構成であってもよい。言い換えれば、校正情報抽出部220、校正結果生成部230、およびパラメータ取得部240のそれぞれは、ソフトウェアモジュールとして構成されてもよい。
Or the structure which shows the function which the
校正システム100は、通信部250をさらに含んでよい。通信部250は、外部サーバまたはその他の端末からデータおよび情報を送受信することができる。例えば、通信部250は、ユーザの端末からクエリを受信したり、検索結果のログ情報を取得したり、ユーザクエリおよびユーザクエリに対する校正結果を出力したりするための構成であってよい。
The
校正情報抽出部220は、予め入力されているクエリに対する検索結果のログ情報に基づき、ユーザの端末から入力されたクエリに対する少なくとも1つの校正候補に関する情報を抽出することができる。校正情報抽出部220は、SVM基盤の誤字脱字−正字候補検出器(SVM based Errata−Correct Candidate Detector)に対応してもよい。
The proofreading
校正情報抽出部220は、前記ログ情報を使用して前記クエリが誤字脱字を含むかを判定し、前記クエリが誤字脱字を含む場合には、前記クエリに対する少なくとも1つの校正候補を識別することができる。
The proofreading
校正候補に関する情報は、クエリおよび各校正候補として構成された誤字脱字−正字ペアを含んでもよい。言い換えれば、識別されたクエリ−各校正候補は誤字脱字−正字のペアであってもよく、識別された誤字脱字−正字ペアは、データベース(図示せず)内に格納されて管理されてもよい。 The information about the proofreading candidates may include a query and a typographical error-correction pair configured as each proofreading candidate. In other words, the identified query-each proofreading candidate may be a typographical-letter-correction pair, and the identified typographical-letter-correction pair may be stored and managed in a database (not shown). .
ログ情報は、所定の期間にユーザ(ら)によって入力されたクエリ(群)および該当のクエリ(群)による検索結果(群)に関するログ情報であってもよい。ログ情報は、ユーザによって第1クエリが入力された後、その次に入力される第2クエリが入力されるまでの時間、クエリに対する検索結果に対するユーザのクリック情報、第1クエリと第2クエリとの類似度に関する情報および検索結果の属性のうち少なくとも1つを含んでもよい。 The log information may be log information related to a query (group) input by a user (or the like) during a predetermined period and a search result (group) based on the corresponding query (group). The log information includes the time from when the first query is input by the user until the second query to be input next is input, the user click information for the search result for the query, the first query and the second query, May include at least one of information on the degree of similarity and an attribute of a search result.
ログ情報が、ユーザによって第1クエリが入力された後、その次に入力される第2クエリが入力されるまでの時間を含む場合、例えば、第1クエリが入力された後、所定の時間以内に第2クエリが入力された場合に、校正情報抽出部220は、第1クエリが誤字脱字を含む(または含む可能性が高い)と判定してもよい。第1クエリが入力された後、所定の時間以後に第2クエリが入力された場合に、校正情報抽出部220は、第1クエリおよび第2クエリを互いに別のクエリとして判定してもよい。
When the log information includes a time from when the first query is input by the user until the second query to be input next is input, for example, within a predetermined time after the first query is input When the second query is input to the proofreading information, the proofreading
ログ情報が、クエリに対する検索結果に対するユーザのクリック情報を含む場合、例えば、クエリの検索結果に対してユーザのクリックが存在する場合に、校正情報抽出部220は、前記クエリが誤字脱字を含まない(または含まない可能性が高い)と判定してもよい。
When the log information includes user click information for the search result for the query, for example, when there is a user click for the query search result, the proofreading
ログ情報が含む、前記第1クエリと前記第2クエリとの類似度に関する情報は、第1クエリと第2クエリとの編集距離(edit distance)であってもよい。編集距離は、レーベンシュタイン距離(Levenshtein distance)であってもよい。ユーザによって第1クエリが入力された後、その次に第2クエリが入力された場合に、第1クエリと第2クエリとの編集距離が所定の値以下であるとき、校正情報抽出部220は、第1クエリが誤字脱字を含む(または含む可能性が高い)と判定してもよい。反対に、第1クエリと第2クエリとの編集距離が所定の値を超えるとき、校正情報抽出部220は、第1クエリおよび第2クエリを互いに別のクエリとして判定してもよい。
The information related to the similarity between the first query and the second query included in the log information may be an edit distance between the first query and the second query. The edit distance may be a Levenshtein distance. When the second query is input after the first query is input by the user, when the edit distance between the first query and the second query is equal to or less than a predetermined value, the calibration
ログ情報が含む検索結果の属性は、検索結果が含むコンテンツの種類またはカテゴリであってもよい。例えば、カテゴリは、ウェブ文書、音楽、イメージ、ブログ、ニュース、および人物情報のうちいずれか1つであってもよい。校正情報抽出部220は、クエリに対する検索結果に含まれるコンテンツがウェブ文書だけである場合、該当のクエリは誤字脱字を含む(または含む可能性が高い)と判定してもよい。
The attribute of the search result included in the log information may be the type or category of content included in the search result. For example, the category may be any one of a web document, music, an image, a blog, news, and personal information. When the content included in the search result for the query is only the web document, the proofreading
クエリに対する校正候補を識別するにあたり、上述した実施形態のようにログ情報を考慮することで、クエリが誤字脱字を含んでいるかをより正確に判定することができ、クエリに対するより正確な校正候補(群)を識別することができる。 In identifying the proofreading candidate for the query, by considering the log information as in the above-described embodiment, it is possible to more accurately determine whether the query includes a typographical error, and a more accurate proofreading candidate for the query ( Group).
校正情報抽出部220は、分散処理システム、例えば、Hadoop基盤の分散処理システムを使用して実現されてもよい。分散処理システムを基盤として実現することで、校正情報抽出部220は、膨大な量のデータを高速で処理することができる。
The calibration
パラメータ取得部240は、校正情報抽出部220によって抽出された情報に基づき、入力されたクエリの校正候補への変換に関する少なくとも1つのパラメータを取得することができる。パラメータは、クエリの校正候補のそれぞれへの変換と関連する確率を計算するために使用されてもよい。
The
パラメータ取得部240は、クエリに含まれる要素が校正候補それぞれに含まれる要素に変換される確率、クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値、およびクエリの校正候補それぞれへの変換の自然性の程度を示す確率のうち少なくとも1つをパラメータとして取得してもよい。クエリに含まれる要素は、前記クエリに含まれる音節であり、前記校正候補それぞれに含まれる要素は、前記校正候補それぞれに含まれる音節であってもよい。
The
パラメータ取得部240は、例えば、IBM(登録商標) MODEL 2技法を使用するアルゴリズムに基づき、クエリの校正候補のそれぞれへの変換と関連する確率を計算するために必要となるパラメータを取得してもよく、確率および整列パラメータ取得部242および言語モデルパラメータ取得部244を含んでもよい。
For example, the
確率および整列パラメータ取得部242は、例えば、期待値最大化(Expectation−Maximization;EM)アルゴリズムを使用してクエリに含まれる要素が校正候補それぞれに含まれる要素に変換される確率およびクエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値を計算するIBM MODEL 2パラメータEM学習器(IBM MODEL 2 Parameter EM Learner)に対応してもよい。
The probability and alignment
言語モデルパラメータ取得部244は、例えば、クエリの校正候補それぞれへの変換の自然性の程度を示す確率として言語モデル(Language Model;LM)パラメータを計算するLMパラメータ学習器(LM Parameter Learner)であってもよい。確率および整列パラメータ取得部242および言語モデルパラメータ取得部244は、分散処理システム、例えば、Hadoop基盤の分散処理システムを使用して実現されてもよい。分散処理システムを基盤として実現することで、パラメータ取得部240は、膨大な量のデータを高速で処理することができる。
The language model
確率および整列パラメータ取得部242および言語モデルパラメータ取得部244の詳しい動作については、図3乃至図6を参照しながらさらに詳しく説明する。
Detailed operations of the probability and alignment
校正結果生成部230は、パラメータ取得部240によって取得されたパラメータに基づき、クエリの少なくとも1つの校正候補のそれぞれへの変換と関連する確率を計算することができる。例えば、校正結果生成部230は、パラメータ取得部240によって取得されたパラメータの倍またはログ加算に基づいて前記確率を計算してもよい。クエリの校正候補への変換と関連する確率は、クエリが入力されるときに各校正候補が発生する条件付き確率であってもよい。校正結果生成部230は、下記の数式(1)を使用し、クエリが少なくとも1つの校正候補のそれぞれに変換される確率を計算してもよい。
The calibration
ここで、lは校正候補それぞれの長さであり、mはクエリの長さであり、jは校正候補それぞれに含まれる要素のインデックスであり、iはクエリに含まれる要素のインデックスである。TRは、前記クエリに含まれるi番目の要素が前記校正候補それぞれに含まれるj番目の要素に変換される確率を示す関数である。例えば、TRは、帯域確率を計算するための関数であってもよい。ALは、前記クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値を示す関数である。例えば、ALは、整列確率を計算するための関数であってもよい。PLMは、クエリの校正候補それぞれへの変換の自然性の程度を示す確率を示す関数である。例えば、PLMは、LMパラメータを計算するための関数であってもよい。 Here, l is the length of each proofreading candidate, m is the length of the query , j is the index of the element included in each proofreading candidate, and i is the index of the element included in the query. TR is a function indicating the probability that the i-th element included in the query is converted to the j-th element included in each of the calibration candidates. For example, TR may be a function for calculating a band probability. AL is a function indicating a numerical value indicating the positional relationship between the elements included in the query and the elements of each calibration candidate. For example, AL may be a function for calculating the alignment probability. PLM is a function indicating a probability indicating the degree of naturalness of conversion of each query into proofreading candidates. For example, PLM may be a function for calculating LM parameters.
校正結果生成部230は、各校正候補に対して計算された確率に基づき、クエリに対する校正結果として校正候補のうちから少なくとも1つの校正候補を抽出することができる。抽出される校正候補は、所期の(最適な)校正候補であって、ユーザクエリに対する正字クエリであってもよい。校正結果生成部230は、校正結果として少なくとも1つの校正候補のうちから校正候補を抽出するにあたり、クエリに含まれる要素が配列される順序および前記少なくとも1つの校正候補の対応する要素が配列される順序を等しいものと仮定してもよい。言い換えれば、クエリと校正候補との間には、モノトニックアライメント(monotonic alignment)が仮定されてもよい。
The calibration
また、校正結果生成部230は、複数の校正候補のそれぞれに対して計算された前記確率の分布に基づき、複数の校正候補のうち少なくとも1つの校正候補を、クエリに対する校正結果としての校正候補抽出から除外してもよい。
In addition, the calibration
校正結果生成部230は、例えば、IBM MODEL 2技法を使用するアルゴリズムに基づいてクエリに対する校正結果を生成するIBM MODEL 2デコーダ(IBM MODEL 2 Decoder)に対応してもよい。
The calibration
校正結果生成部230の詳しい動作については、図7および図8を参照しながらさらに詳しく説明する。
Detailed operation of the calibration
図1を参照しながら上述した技術的特徴についての説明は、図2に対してもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIG. 1 can be applied to FIG.
図3は、一実施形態における、ユーザクエリの校正候補への変換に関するパラメータの取得方法を概念的に示した図である。 FIG. 3 is a diagram conceptually illustrating a method for obtaining parameters relating to conversion of a user query into a proofreading candidate according to an embodiment.
図3は、図2を参照しながら上述した、クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値を計算する方法を概念的に示した図である。図3では、ユーザが入力したクエリは「ニューバランス シンチユン」であり、校正候補は「ニューバランス シンチョン」であると仮定する。「要素」とは、クエリおよび校正候補を構成する音節を示すものである。 FIG. 3 is a diagram conceptually illustrating a method of calculating a numerical value indicating the positional relationship of the elements included in the query with respect to the elements of each calibration candidate described above with reference to FIG. In FIG. 3, it is assumed that the query input by the user is “New Balance Shinchon” and the proofreading candidate is “New Balance Shinchon”. An “element” indicates a syllable constituting a query and a proofreading candidate.
クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値とは、クエリの各要素が校正候補の各要素の位置に対応するようになる確率を意味してもよく、図3において各矢印に対応する値を意味してもよい。言い換えれば、各矢印に対応する値は、上述したAL関数に基づいて決められた値(整列確率)であってもよい。 The numerical value indicating the positional relationship of the elements included in the query with respect to the elements of each calibration candidate may mean the probability that each element of the query corresponds to the position of each element of the calibration candidate. It may mean a value corresponding to an arrow. In other words, the value corresponding to each arrow may be a value (alignment probability) determined based on the above-described AL function.
図に示すように、確率および整列パラメータ取得部242は、分散システム上でEMアルゴリズムを使用する反復(iteration)プロセスを実行することにより、クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値を計算してもよい。
As shown in the figure, the probability and alignment
図1および図2を参照しながら上述した技術的特徴についての説明は、図2に対してもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIG. 1 and FIG. 2 can be applied to FIG.
図4Aおよび図4Bは、一実施形態における、ユーザクエリの校正候補への変換に関するパラメータとしての帯域確率および整列確率の取得方法を示す疑似コード(pseudo code)を示した図である。図に示すアルゴリズムは、確率および整列パラメータ取得部242によって実行されてもよい。
4A and 4B are diagrams illustrating pseudo code indicating a method for obtaining a band probability and an alignment probability as parameters relating to conversion of a user query into a proofreading candidate according to an embodiment. The algorithm shown in the figure may be executed by the probability and alignment
確率および整列パラメータ取得部242は、マッパー(mapper)およびリデューサー(reducer)で構成されてもよい。
The probability and alignment
マッパーの動作は、下記のアルゴリズムで示されてもよい(図4A参照)。 The operation of the mapper may be shown by the following algorithm (see FIG. 4A).
ここで、音節trigramを使用して計算されたscoreに対する、出力としてのesti_prob(k,i,j)は、TR(Erratai|Correctionj)を計算するために使用されてもよい。また、Len関数を使用して計算されたscoreに対する、出力としてのesti_prob(k,i,j)値は、AL(j|i,l,m)dmfを計算するために使用されてもよい。一方、esti_prob値は、t−1段階(step)におけるリデューサーの出力であってもよい。初期esti_prob値は、1/Len(入力)であってもよい。上述したアルゴリズムを基盤とした計算は、ディスクメモリマップド(disk memory mapped)I/O方式の完全ハッシュ(perfect hash)として格納されたデータを、分散型システムを構成する各hadoopノードによってローディングすることを通じて行われてもよい。 Here, for the score calculated using the syllable trigram, Esti_prob as an output (k, i, j) is, TR | may be used to calculate the (Errata i Correction j). Also, the output esti_prob (k, i, j) value for score calculated using the Len function may be used to calculate AL (j | i, l, m) dmf. On the other hand, the esti_prob value may be an output of the reducer in the t-1 stage. The initial esti_prob value may be 1 / Len (input). In the calculation based on the above-mentioned algorithm, data stored as a perfect hash of a disk memory mapped I / O method is loaded by each of the hardoop nodes constituting the distributed system. May be done through.
図4に示す出力されたデータのように、リデューサーは、ALおよびTRの計算に必要な因子をそれぞれ「C」および「M」に区別してもよい(1st key)。出力されたデータのうち分母にならなければならない情報(音節、インデックス、文字列の長さ)が区分されてもよく、分母であるか分子であるかは「0」、「1」で区分されてもよい(2nd key、3rd key)。さらに、分子となる情報(音節、インデックス)も区分されてもよい。出力されたデータのうち、フィールドの最後の値をscoreとしてもよい。 As in the output data shown in FIG. 4, the reducer may distinguish the factors necessary for calculating AL and TR into “C” and “M”, respectively (1st key). Of the output data, the information (syllable, index, length of character string) that must be the denominator may be divided, and whether it is a denominator or numerator is classified by "0", "1" (2nd key, 3rd key). Furthermore, information (syllables, indexes) that become molecules may also be classified. Of the output data, the last value of the field may be score.
マッパーの出力が整列された後にsumとなる結果は、リデューサーの動作を示す下記のアルゴリズムで表現されてもよい(図4B参照)。 The result that results in a sum after the mapper outputs are aligned may be represented by the following algorithm that shows the operation of the reducer (see FIG. 4B).
図2および図3を参照しながら上述したパラメータに対応する、TR(帯域確率)およびAL(整列確率)は、前記アルゴリズムによって計算されてもよい。また、計算されたesti_prob(k,i,j)は、t+1段階でscore値をアップデートするために使用されてもよく、完全ハッシュ構造でディスクまたはデータベースに格納されて管理されてもよい。 TR (band probability) and AL (alignment probability) corresponding to the parameters described above with reference to FIGS. 2 and 3 may be calculated by the algorithm. In addition, the calculated esti_prob (k, i, j) may be used to update the score value in the t + 1 stage, or may be stored and managed in a disk or database in a complete hash structure.
図1乃至図3を参照しながら上述した技術的特徴についての説明は、ここでもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIGS. 1 to 3 can be applied as it is here, and therefore, the redundant description is omitted.
図5は、図4Aおよび図4Bのアルゴリズムによるパラメータ取得方法のパフォーマンスを示した図である。 FIG. 5 is a diagram showing the performance of the parameter acquisition method based on the algorithm of FIGS. 4A and 4B.
図5では、24個のマッパーおよび20個のリデューサーが使用され、合計15個のノード(2.2GHz、48GRAM)が使用された。入力としては約3千7百万個の誤字脱字−正字ペアデータが使用され、出力としては約2億5千7百万個のモデルパラメータが得られた。 In FIG. 5, 24 mappers and 20 reducers were used, for a total of 15 nodes (2.2 GHz, 48 GRAM). About 37 million typographical error-correction pair data was used as input, and about 257 million model parameters were obtained as output.
結果を詳察すると、各EM段階あたり11乃至14分を所要したことが確認された(合計9乃至10回の反復プロセスが行われる)。 A closer look at the results confirmed that it took 11 to 14 minutes per EM stage (a total of 9 to 10 iterations were performed).
図6は、一実施形態における、ユーザクエリの校正候補への変換に関するパラメータとしてのLMパラメータの取得方法を示した図である。図6で示すアルゴリズムは、図2を参照しながら上述したクエリの校正候補それぞれへの変換の自然性の程度を示す確率(LMパラメータ)を計算する方法を示している。図に示すアルゴリズムは、言語モデルパラメータ取得部244によって実行されてもよい。LMパラメータは、クエリが校正候補に変換されるために必要となる文脈および/または自然性の程度を確率で示したものである。
FIG. 6 is a diagram illustrating a method for acquiring an LM parameter as a parameter related to conversion of a user query into a proofreading candidate according to an embodiment. The algorithm shown in FIG. 6 shows a method of calculating a probability (LM parameter) indicating the degree of naturalness of conversion of each of the queries described above with reference to FIG. The algorithm shown in the figure may be executed by the language model
言語モデルパラメータ取得部244は、平滑化(Smoothing)プロセスおよび線形補間(linear interpolation)プロセスを実行することによってLMパラメータを取得してもよい。ただし、平滑化プロセスは、処理されなければならない誤字脱字−正字ペアの数が極めて多い場合(例えば、10億個以上)にのみ実行されてもよい。
The language model
言語モデルパラメータ取得部242は、マッパーおよびリデューサーで構成されてもよい。LMパラメータを取得するにあたり、分母ローカルSUM(local sum)計算は、例えば、リデューサーキー(reducer key)に分母となる情報をFirst−Priority−Keyで生成することによって実行されてもよい。
The language model
LMパラメータを取得するにあたり、分散環境における統計学習は、スパーク(Spark)を使用して実行されてもよい。 In obtaining the LM parameters, statistical learning in a distributed environment may be performed using Spark.
図に示すアルゴリズムにおいて、入力されたクエリおよびその頻度はそれぞれ「あかさたなはまや」、「99」と「あかさたなはまが」、「1」とが仮定された。推定された10gram確率がLMパラメータとして計算されてもよく、10gram確率は、8gram確率および9gram確率を計算した後、補間によって推定されてもよい。 In the algorithm shown in the figure, the input query and its frequency were assumed to be “Akasana Hamaya”, “99”, “Akasana Hamaga”, and “1”, respectively. The estimated 10 gram probability may be calculated as the LM parameter, and the 10 gram probability may be estimated by interpolation after calculating the 8 gram probability and the 9 gram probability.
段階1で、マッパーは8乃至10gramを抽出してもよく、リデューサーは頻度合計を計算してもよい。前記段階1は、例えば、文字列「abcd」に対してP(d|abc)を計算するための前処理過程であってもよい。LMパラメータの計算は、「min(N)gram」、「N−1gram」、「Ngram」形式のキー構造(N=8乃至10)を使用して実行されてもよく、したがって、分母優先頻度合計の計算を容易に実行することができる。
In
段階2で、段階1の結果を使用し(map=‘cat’&sort)、リデューサーは8乃至10gramそれぞれの確率値を計算してもよい。ここで、8gramの分母は、sum(cnt_of_all(8gram))に割り当てられてもよい。
In
段階3で、段階2で計算された8乃至10gram確率値を使用して10gram確率が線形補間されてもよい。マッパーは、段階1と同じキーを生成し、1番目のキー(1st key)を文字列の逆順に変換し、「最終」音節を基準として8乃至10gramが分類(sort)およびリデューサーにグルーピング(grouping)されるようにしてもよい。リデューサーは、線形補間を実行することによって最終的なLMパラメータを生成してもよい。例えば、「あいうえ」の文字列に対し、LMパラメータPLM(た|さかあ)は、a×PLM(た|さかあ)、b×PLM(た|さか)およびc×PLM(た|さ)の合計で計算されてもよい。ここで、加重値a、bおよびcは、「A statistical Part−of−Speech Tagger,T.Brant et al,2000」で提案された方法に基づいて計算されてもよい。unseen確率は、1/sum(cnt_of_all(10gram)+cnt_of_dic(10gram))で計算されてもよい。
In
下記の表1は、図に示すアルゴリズムによるLMパラメータ取得方法のパフォーマンスを示す。表1の結果については、24個のマッパーおよび20個のリデューサーが使用され、合計15個のノード(2.2GHz、48GRAM)が使用された。 Table 1 below shows the performance of the LM parameter acquisition method according to the algorithm shown in the figure. For the results in Table 1, 24 mappers and 20 reducers were used, for a total of 15 nodes (2.2 GHz, 48 GRAM).
図1乃至5を参照しながら上述した技術的特徴についての説明は、ここでもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIGS. 1 to 5 can be applied here as it is, and thus the redundant description is omitted.
図7は、一実施形態における、ユーザクエリに対する校正結果としての校正候補を抽出する方法を示した概念図である。図7は、例えば、IBM MODEL 2技法を使用するアルゴリズムを基盤としてクエリに対する校正結果を生成するIBM MODEL 2デコーダに対応する校正結果生成部230のクエリに対する最適の校正候補を抽出する方法を示している。
FIG. 7 is a conceptual diagram illustrating a method for extracting a proofreading candidate as a proofreading result for a user query according to an embodiment. FIG. 7 shows a method of extracting an optimum calibration candidate for a query of a calibration
最適な校正候補は、下記の数式(2)によって決められてもよい。 The optimal calibration candidate may be determined by the following mathematical formula (2).
言い換えれば、クエリに対する複数の校正候補のうち、上述した数式(1)に基づいて計算された確率が最大である校正候補を最適な校正候補として決めて抽出してもよい。 In other words, among the plurality of calibration candidates for the query, the calibration candidate having the maximum probability calculated based on the above formula (1) may be determined and extracted as the optimal calibration candidate.
クエリと校正候補との間には、モノトニックアライメントが仮定されてもよい。また、最適な校正候補は、ダイナミックアルゴリズム(dynamic algorithm)を使用して決められてもよい。また、複数の校正候補のそれぞれに対して計算された前記確率の分布に基づき、複数の校正候補のうち少なくとも1つの校正候補が、クエリに対する校正結果としての校正候補抽出から除外されてもよい。例えば、確率分布で点値として示される中間確率値に対応する校正候補は、不必要な校正候補として校正候補抽出過程から除外されてもよい。前記過程により、校正候補の数が多い場合でも、最適な校正候補を高速で決めることができる。 Monotonic alignment may be assumed between the query and the proofreading candidate. In addition, the optimal calibration candidate may be determined using a dynamic algorithm. Further, based on the probability distribution calculated for each of a plurality of calibration candidates, at least one calibration candidate among the plurality of calibration candidates may be excluded from the calibration candidate extraction as a calibration result for the query. For example, calibration candidates corresponding to intermediate probability values indicated as point values in the probability distribution may be excluded from the calibration candidate extraction process as unnecessary calibration candidates. According to the above process, even when the number of calibration candidates is large, an optimal calibration candidate can be determined at high speed.
段階1で、校正結果生成部230は、クエリに対する可能な校正候補に対し、計算されたTRおよびALパラメータを使用し、最適な校正候補決定のための情報を生成してもよい。
In
段階2で、校正結果生成部230は、音節単位でクエリをデコードすることによって最適な校正候補を決めてもよい。段階2では、例えば、帯域確率、整列確率、およびLMパラメータのうち少なくとも1つによって計算された点数(score)に基づいて不必要な校正候補が除外されてもよい。図に示す例示では、クエリ「ニューバランス シンチユン」に対して「ニューバランス シンチョン」が最適な校正候補として決められた。
In
校正結果生成部230は、1000乃至1500 TPS/coreの速度で実現されてもよい。段階1および2については、図8のアルゴリズムを参照しながらさらに詳しく説明する。図1乃至図6を参照しながら上述した技術的特徴についての説明は、ここでもそのまま適用することができるため、重複する説明は省略する。
The calibration
図8は、一実施形態における、ユーザクエリに対する校正結果としての校正候補を抽出する方法を示した疑似コードである。図8では、図7を参照しながら上述した最適な校正候補を抽出するための段階1および2についてさらに詳しく説明する。
FIG. 8 is a pseudo code showing a method of extracting a proofreading candidate as a proofreading result for a user query according to an embodiment. In FIG. 8,
段階1で、校正結果生成部230は、クエリに対する可能な校正候補に対し、計算されたTRおよびALパラメータを使用し、最適な校正候補決定のための情報を生成してもよい。クエリは音節単位でトークン化されてもよく、有限状態トランスデューサ(finite state transducer)に基づいてクエリに対してすべての可能なALおよびTRパラメータが抽出されてもよい。抽出されたALおよびTRパラメータは格納されてもよく(データベースまたはメモリなどに)、クエリの音節インデックス(syllable index)にマッピングされてもよい。
In
段階2で、校正結果生成部230は、校正候補のうちから最適な校正候補を決めてもよい。段階1における出力(入力クエリおよびそのALおよびTRパラメータ)は、段階2における入力となってもよい。下記のアルゴリズムを通じて入力の校正候補に対する点数が計算されてもよく、点数に基づいて1つの校正候補が最適な校正候補として決められてもよい。
In
帯域確率、整列確率、およびLMパラメータに基づいて計算された点数にしたがって不必要な校正候補が除外され、計算された点数にしたがって校正候補のうちから最適な校正候補が決められてもよい。決められた最適な校正候補は、上述した校正結果として抽出された校正候補に対応してもよく、ユーザのクエリに対する検索結果として提供されてもよい。 An unnecessary calibration candidate may be excluded according to the score calculated based on the band probability, the alignment probability, and the LM parameter, and the optimal calibration candidate may be determined from the calibration candidates according to the calculated score. The determined optimum proofreading candidate may correspond to the proofreading candidate extracted as the proofreading result described above, or may be provided as a search result for the user query.
図1乃至図7を参照しながら上述した技術的特徴についての説明は、ここでもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIGS. 1 to 7 can be applied here as it is, and therefore, redundant description is omitted.
図9は、一実施形態における、ユーザクエリ校正システムの動作方法を示したフローチャートである。 FIG. 9 is a flowchart illustrating a method of operating the user query proofing system in one embodiment.
段階910で、校正情報抽出部220は、予め入力されているクエリに対する検索結果のログ情報に基づき、ユーザクエリに対する少なくとも1つの校正候補に関する情報を抽出することができる。抽出される校正候補に関する情報は、クエリおよび校正候補で構成される誤字脱字−正字ペアを含んでもよい。
In
段階920で、パラメータ取得部240は、段階910で抽出された情報に基づき、クエリの校正候補への変換に関する少なくとも1つのパラメータを取得することができる。クエリの校正候補への変換に対する帯域確率のパラメータおよび整列確率のパラメータは、パラメータ取得部240の確率および整列パラメータ取得部242によって計算および取得されてもよい。クエリの校正候補への変換に対するLMパラメータは、パラメータ取得部240の言語モデルパラメータ取得部244によって計算および取得されてもよい。
In
段階930で、校正結果生成部230は、段階920で取得されたパラメータに基づき、クエリの校正候補(群)のそれぞれへの変換と関連する確率を計算することができる。例えば、校正結果生成部230は、上述した数式(1)を使用して前記確率の計算を実行してもよい。
In
段階940で、校正結果生成部230は、段階930で計算された確率に基づき、クエリに対する校正結果として校正候補(群)のうちから少なくとも1つの校正候補を抽出することができる。例えば、校正結果生成部230は、上述した数式(2)を使用して校正候補(群)のうちから1つの校正候補を校正結果として抽出してもよい。
In
段階950で、クエリ校正システム100の通信部250は、段階940で抽出された校正結果としての校正候補を、ユーザのクエリ入力に対する検索結果として出力することができる。また、ユーザのクエリ入力に対する検索結果には、抽出された校正結果が含まれてもよい。
In
図1乃至図8を参照しながら上述した技術的特徴についての説明は、ここでもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIG. 1 to FIG. 8 can be applied as it is here, and thus the redundant description is omitted.
図10は、一実施形態における、ユーザクエリに対する少なくとも1つの校正候補に関する情報を抽出する方法を示したフローチャートである。 FIG. 10 is a flow diagram illustrating a method for extracting information about at least one proofreading candidate for a user query in one embodiment.
後述する段階1010および1020は、図9を参照しながら上述した段階910に含まれてもよい。
段階1010で、校正情報抽出部220は、検索結果のログ情報を使用してクエリが誤字脱字を含むかを判定することができる。クエリが誤字脱字を含まなければ、該当のクエリは正字クエリに該当すると判定されるため、別途の校正結果が提供される必要はない。
In
クエリが誤字脱字を含む場合、段階1020で、校正情報抽出部220は、クエリに対する少なくとも1つの校正候補を識別することができる。例えば、校正情報抽出部220は、校正候補を識別することにより、クエリ−校正候補に対する少なくとも1つの誤字脱字−正字ペアを校正候補に関する情報として識別してもよい。
If the query includes a typographical error, in
図1乃至図9を参照しながら上述した技術的特徴についての説明は、ここでもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIGS. 1 to 9 can be applied as it is here, and therefore, the redundant description is omitted.
図11は、一実施形態における、ユーザクエリに対する校正候補のうち不必要な校正候補を除外することによって校正結果としての校正候補を抽出する方法を示したフローチャートである。 FIG. 11 is a flowchart illustrating a method for extracting a calibration candidate as a calibration result by excluding unnecessary calibration candidates from calibration candidates for a user query according to an embodiment.
後述する段階1110および1120は、図9を参照しながら上述した段階940に含まれてもよい。
段階1110で、校正結果生成部230は、複数の校正候補のそれぞれに対して段階930で計算された確率の分布に基づき、複数の校正候補のうち少なくとも1つの校正候補を、クエリに対する校正結果としての校正候補抽出過程から除外することができる。
In
段階1120で、校正結果生成部230は、段階1110によって不必要な校正候補が除外された複数の校正候補のうちから少なくとも1つの校正候補をクエリに対する校正結果として抽出することができる。
In
図1乃至図10を参照しながら上述した技術的特徴についての説明は、ここでもそのまま適用することができるため、重複する説明は省略する。 The description of the technical features described above with reference to FIGS. 1 to 10 can be applied here as it is, and therefore, redundant description is omitted.
下記では、従来技術と比較した本実施形態の効果および技術的な改善事項について説明する。 Below, the effect of this embodiment compared with a prior art and the technical improvement matter are demonstrated.
効果および技術的改善事項の評価において、IBM MODEL 2の学習のために使用されたデータは、IBM_SET−7およびIBM_SET−21によってそれぞれ示した。IBM_SET−7は、7日間のクエリに対する誤字脱字−校正候補のデータであり、IBM_SET−21は、21日間のクエリに対する誤字脱字−校正候補のデータである。また、LMパラメータの学習のために使用されたデータは、LM_SET−21_Q5およびLM_SET−2015_Q30によってそれぞれ示した。LM_SET−21_Q5は、21日間のクエリに対して累積頻度が5以上のクエリに対するデータを示しており、LM_SET−2015_Q30は、2015年までの全体クエリに対して累積頻度が30以上のクエリに対するデータを示している。テストセットとしては、unseenランダムサンプリングによる21,219件の誤字脱字−>正字データを構築した。実施形態との比較のための従来技術としては、最新の学習データを使用することが仮定される。
In the evaluation of effects and technical improvements, the data used for learning
下記の表2および表3は、IBM MODEL 2の学習データおよびLM学習データを増加させた場合、カバレージおよび品質が向上するかを示している。表2では、LM_SET−2015_Q30の使用が固定された。表3では、IBM_SET−21の使用が固定された。
Tables 2 and 3 below show whether the coverage and quality are improved when the
表2および表3の場合すべてにおいて、カバレージの増加および正確度の増加が確認された。下記の表4は、従来技術(AS−IS)および実施形態(TO−BE)のSEEN TESTの結果を示している。従来技術のシステムおよび実施形態のシステムのモデリングパワー(性能)を比較するために、学習に既に使用されていた(SEEN)データが評価のために使用された。 In all cases of Tables 2 and 3, increased coverage and increased accuracy were observed. Table 4 below shows the results of SEEN TEST of the prior art (AS-IS) and the embodiment (TO-BE). In order to compare the modeling power (performance) of the prior art system and the system of the embodiment, the data already used for learning (SEEN) was used for the evaluation.
前記のように、カバレージおよび正確度において、実施形態の場合が従来技術よりもさらに優れることが確認された。 As described above, it was confirmed that the embodiment is further superior to the prior art in terms of coverage and accuracy.
下記の表5は、従来技術(AS−IS)および実施形態(TO−BE)のUNSEEN TESTの結果を示している。従来技術のシステムおよび実施形態のシステムのモデリングパワー(性能)を比較するために、学習データに存在しない(UNSEEN)データが評価のために使用された。 Table 5 below shows the results of UNSEEN TEST of the prior art (AS-IS) and the embodiment (TO-BE). In order to compare the modeling power (performance) of the prior art system and the embodiment system, UNSEEN data was used for the evaluation.
前記のように、実施形態の場合、従来技術に比べてカバレージが約222%増加した反面、正確度の減少は2%に過ぎないことが確認された。 As described above, in the case of the embodiment, it was confirmed that the coverage was increased by about 222% compared to the prior art, but the accuracy decrease was only 2%.
下記の表6および表7は、誤字脱字ではないクエリを正字クエリとしてどのくらい認識するかに対する従来技術および実施形態の比較結果を示している。表6において、評価データ1は、正字と見なされたショッピングドメインQC topの5,000件のデータである。表7において、評価データ2は、正字と見なされたUNSEEN & low QCの地図飲食店名データの17,040件のデータである。
Tables 6 and 7 below show the comparison results of the prior art and the embodiment for how much a query that is not a typographical error is recognized as an orthographic query. In Table 6, the
前記のように、従来技術に比べて実施形態の正字認識率がさらに高いことが確認された。 As described above, it has been confirmed that the positive character recognition rate of the embodiment is higher than that of the prior art.
下記の表8は、誤字脱字校正の従来技術(AS−IS)および実施形態(TO−BE)の比較結果を示している。 Table 8 below shows a comparison result between the prior art (AS-IS) and the embodiment (TO-BE) of typographical error correction.
前記のように、校正カバレージにおいて、実施形態の場合が従来技術よりも優れることが確認された。 As described above, in the calibration coverage, it was confirmed that the embodiment is superior to the conventional technique.
例えば、実施形態のシステムは、従来技術のシステムに比べて2乃至3倍の校正カバレージ向上の効果がある反面、校正正確度の劣化はほぼ無いか極めて少ないことが確認された。 For example, the system of the embodiment has an effect of improving the calibration coverage by 2 to 3 times compared to the system of the prior art, but it has been confirmed that there is almost no or very little deterioration of the calibration accuracy.
また、実施形態のシステムによると、校正カバレージが従来技術に比べて広くなることから、ユーザが誤字脱字クエリを入力した場合に、正字クエリを再入力しなければならない頻度が少なくなるため、正しい検索結果を出力するためのクエリ入力(クライアントの観点)および検索結果処理(検索サーバの観点)に求められるデータ処理量および計算量を減少させることができる効果がある。さらに、ユーザの端末がモバイル端末の場合に、誤字脱字クエリを入力した場合、正字クエリを再入力しなければならない頻度が少なくなるため、端末のバッテリー節約効果も達成することができる。 In addition, according to the system of the embodiment, since the proofreading coverage is wider than that of the prior art, when the user inputs a typographical lexical query, the frequency of having to re-enter the typographical query is reduced. There is an effect that it is possible to reduce the amount of data processing and calculation required for query input (client perspective) and search result processing (search server perspective) for outputting results. Furthermore, when the user's terminal is a mobile terminal, if a typographical error query is input, the frequency of having to re-input the normal character query is reduced, so that the battery saving effect of the terminal can also be achieved.
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてもよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてもよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素(processing element)および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでもよい。また、並列プロセッサ(parallel processor)のような、他の処理構成(processing configuration)も可能である。 The apparatus described above may be realized by hardware components, software components, and / or a combination of hardware and software components. For example, the devices and components described in the embodiments include, for example, a processor, a controller, an ALU (arithmic logic unit), a digital signal processor, a microcomputer, an FPGA (field programmable gate array), a PLU (programmable logic unit), a micro It may be implemented using one or more general purpose or special purpose computers, such as a processor or various devices that can execute and respond to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the OS. The processing device may also respond to software execution, access data, and store, manipulate, process and generate data. For convenience of understanding, a single processing device may be described as being used, but those skilled in the art will recognize that the processing device includes multiple processing elements and / or multiple types of processing elements. But you can understand. For example, the processing device may include a plurality of processors or a processor and a controller. Also, other processing configurations such as a parallel processor are possible.
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置(virtual equipment)、コンピュータ格納媒体または装置、または伝送される信号波(signal wave)に永久的または一時的に具現化(embody)されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてもよい。 The software may include computer programs, code, instructions, or a combination of one or more of these, configuring the processor to operate as desired, or instructing the processor independently or collectively. You may do it. Software and / or data can be interpreted based on a processing device or provide instructions or data to a processing device, any type of machine, component, physical device, virtual equipment, computer storage medium Alternatively, it may be permanently or temporarily embodied in a device, or a transmitted signal wave. The software may be distributed over computer systems connected by a network and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてもよい。前記コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでもよい。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよいし、コンピュータソフトウェア当業者に公知な使用可能なものであってもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピディスクおよび磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体およびROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。上述したハードウェア装置は、実施形態の動作を実行するために1つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同じである。 The method according to the embodiment may be realized in the form of program instructions executable by various computer means and recorded on a computer-readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment or may be usable by those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magneto-optical media such as floppy disks. And hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language code such as that generated by a compiler, but also high-level language code that is executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
以上のように、実施形態を限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能である。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、および/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiment has been described based on the limited embodiment and the drawings, but those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in a different order than the described method and / or components of the described system, structure, apparatus, circuit, etc. may be in a different form than the described method. Appropriate results can be achieved even when combined or combined, or opposed or replaced by other components or equivalents.
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Accordingly, even different embodiments belong to the appended claims as long as they are equivalent to the claims.
100:クエリ校正システム
210:プロセッサ
220:校正情報抽出部
230:校正結果生成部
240:パラメータ取得部
250:通信部
100: Query calibration system 210: Processor 220: Calibration information extraction unit 230: Calibration result generation unit 240: Parameter acquisition unit 250: Communication unit
Claims (19)
前記の抽出された情報に基づき、前記クエリの前記校正候補への変換に関するパラメータを取得するパラメータ取得部、および
前記の取得されたパラメータに基づき、前記クエリの前記少なくとも1つの校正候補のそれぞれへの変換と関連する確率を計算し、前記の計算された確率に基づき、前記クエリに対する校正結果として前記校正候補のうちから少なくとも1つの校正候補を抽出する校正結果生成部
を備え、
前記パラメータ取得部は、前記クエリに含まれる要素が前記校正候補それぞれに含まれる要素に変換される確率、前記クエリに含まれる要素の各校正候補の要素に対する位置関係、および前記クエリの前記校正候補それぞれへの変換の自然性の程度をパラメータとして取得する、クエリ校正システム。 A proofreading information extraction unit that extracts information on at least one proofreading candidate for the query based on log information related to one or more queries input in advance ;
Based on the extracted information, the parameter acquisition unit for acquiring Rupa parameter relates to a conversion to the calibration candidate of the query, and based on the obtained parameters, the at least one calibration candidate of the query the probability associated with the conversion to respectively calculate, based on the calculated probabilities, Bei example calibration result generation unit for extracting at least one calibration candidate from among the calibration candidate as a calibration result for said query,
The parameter acquisition unit includes a probability that an element included in the query is converted into an element included in each of the calibration candidates, a positional relationship of the elements included in the query with respect to the elements of each calibration candidate, and the calibration candidates of the query A query proofreading system that acquires the degree of naturalness of conversion to each as a parameter .
前記校正結果生成部は、
前記の複数の校正候補のそれぞれに対して計算された前記確率の分布に基づき、前記の複数の校正候補のうち少なくとも1つの校正候補を、前記クエリに対する校正結果としての校正候補抽出から除外する、請求項1乃至7のうちいずれか一項に記載のクエリ校正システム。 The proofreading candidates are plural,
The calibration result generation unit
Excluding at least one of the plurality of calibration candidates from the calibration candidate extraction as a calibration result for the query based on the probability distribution calculated for each of the plurality of calibration candidates; The query proofreading system according to any one of claims 1 to 7 .
前記数式は、
lは前記校正候補それぞれの長さであり、mは前記クエリの長さであり、jは前記校正候補それぞれに含まれる要素のインデックスであり、iは前記クエリに含まれる要素のインデックスであり、
TRは、前記クエリに含まれるi番目の要素が前記校正候補それぞれに含まれるj番目の要素に変換される確率を示す関数であり、ALは、前記クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値を示す関数であり、PLMは、前記クエリの前記校正候補それぞれへの変換の自然性の程度の確率を示す関数である、請求項1乃至8のうちいずれか一項に記載のクエリ校正システム。 The probability associated with the transformation is calculated by a mathematical formula;
The formula is
l is the length of each proofreading candidate, m is the length of the query , j is the index of an element included in each of the proofreading candidates, i is the index of an element included in the query,
TR is a function indicating the probability that the i-th element included in the query is converted to the j-th element included in each of the calibration candidates, and AL is an element of each calibration candidate of the elements included in the query is a function indicating a number indicating the positional relationship, P LM is the function indicating the probability of the degree of naturalness of conversion to the calibration candidates each of the query, any one of the claims 1 to 8 Query calibration system as described in.
前記コンピュータが、前記の抽出された情報に基づき、前記クエリの前記校正候補への変換に関するパラメータを取得する段階、
前記コンピュータが、前記の取得されたパラメータに基づき、前記クエリの前記少なくとも1つの校正候補のそれぞれへの変換と関連する確率を計算する段階、および
前記コンピュータが、前記の計算された確率に基づき、前記クエリに対する校正結果として前記校正候補のうちから少なくとも1つの校正候補を抽出する段階
を含み、
前記パラメータを取得する段階は、
前記コンピュータが、前記クエリに含まれる要素が前記校正候補それぞれに含まれる要素に変換される確率、前記クエリに含まれる要素の各校正候補の要素に対する位置関係、および前記クエリの前記校正候補それぞれへの変換の自然性の程度をパラメータとして取得する、クエリ校正方法。 Extracting information about at least one proofreading candidate for the query based on log information associated with the one or more pre- entered queries;
The computer, on the basis of the extracted information, the step of acquiring the related Rupa parameters for the conversion to the calibration candidate of the query,
Stage the computer is that based on the obtained parameters, the computation of a probability associated with the conversion to each of the at least one calibration candidate of the query, and
The computer, on the basis of said calculated probability, viewed including the step of extracting at least one calibration candidate from among the calibration candidate as a calibration result for said query,
Obtaining the parameter comprises:
To the probability that an element included in the query is converted into an element included in each of the calibration candidates, the positional relationship of the element included in the query with respect to the element of each calibration candidate, and each of the calibration candidates of the query Query calibration method that obtains the degree of naturalness of transformation as a parameter .
前記コンピュータが、前記ログ情報を使用して前記クエリが誤字脱字を含むかを判定する段階、および
前記コンピュータが、前記クエリが誤字脱字を含む場合、前記クエリに対する少なくとも1つの校正候補を識別する段階
を含む、請求項13に記載のクエリ校正方法。 The step of extracting information about the proofreading candidates includes
The computer uses the log information to determine whether the query includes typos; and
The query proofreading method according to claim 13 , wherein the computer includes identifying at least one proofreading candidate for the query if the query includes a typographical error.
をさらに含む、請求項13または14に記載のクエリ校正方法。 Said computer, at least one calibration candidate, further comprising the step of outputting as a search result to the input of the query by a user, the query calibration method of claim 13 or 14, which is extracted as the calibration results.
前記少なくとも1つの校正候補を抽出する段階は、
前記コンピュータが、前記の複数の校正候補のそれぞれに対して計算された前記確率の分布に基づき、前記の複数の校正候補のうち少なくとも1つの校正候補を、前記クエリに対する校正結果としての校正候補抽出から除外する段階
を含む、請求項13乃至15のうちいずれか一項に記載のクエリ校正方法。 The proofreading candidates are plural,
Extracting the at least one proofreading candidate comprises:
The computer, on the basis of the distribution of the probability calculated for each of the plurality of calibration candidates for the calibration candidate extraction of at least one calibration candidate among the plurality of calibration candidates for the, as a calibration result for said query The query proofreading method according to any one of claims 13 to 15 , including a step of excluding from the query.
前記数式は、
lは前記校正候補それぞれの長さであり、mは前記クエリの長さであり、jは前記校正候補それぞれに含まれる要素のインデックスであり、iは前記クエリに含まれる要素のインデックスであり、
TRは、前記クエリに含まれるi番目の要素が前記校正候補それぞれに含まれるj番目の要素に変換される確率を示す関数であり、ALは、前記クエリに含まれる要素の各校正候補の要素に対する位置関係を示す数値を示す関数であり、PLMは、前記クエリの前記校正候補それぞれへの変換の自然性の程度の確率を示す関数である、請求項13乃至16のうちいずれか一項に記載のクエリ校正方法。 The probability associated with the transformation is calculated by a mathematical formula;
The formula is
l is the length of each proofreading candidate, m is the length of the query , j is the index of an element included in each of the proofreading candidates, i is the index of an element included in the query ,
TR is a function indicating the probability that the i-th element included in the query is converted to the j-th element included in each of the calibration candidates, and AL is an element of each calibration candidate of the elements included in the query is a function indicating a number indicating the positional relationship, P LM is the function indicating the probability of the degree of naturalness of conversion to the calibration candidates each of the query, any one of claims 13 to 16 Query calibration method described in.
A computer-readable recording medium storing the computer program according to claim 18 .
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150129880A KR101839121B1 (en) | 2015-09-14 | 2015-09-14 | System and method for correcting user's query |
KR10-2015-0129880 | 2015-09-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017059216A JP2017059216A (en) | 2017-03-23 |
JP6261669B2 true JP6261669B2 (en) | 2018-01-17 |
Family
ID=58390989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016134985A Active JP6261669B2 (en) | 2015-09-14 | 2016-07-07 | Query calibration system and method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6261669B2 (en) |
KR (1) | KR101839121B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10138341B2 (en) | 2014-07-28 | 2018-11-27 | Boral Ip Holdings (Australia) Pty Limited | Use of evaporative coolants to manufacture filled polyurethane composites |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102445172B1 (en) * | 2019-10-25 | 2022-09-20 | 주식회사 케이티 | Method and apparatus for interpreting intention of query |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7254774B2 (en) * | 2004-03-16 | 2007-08-07 | Microsoft Corporation | Systems and methods for improved spell checking |
US7321892B2 (en) * | 2005-08-11 | 2008-01-22 | Amazon Technologies, Inc. | Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users |
US20110295897A1 (en) * | 2010-06-01 | 2011-12-01 | Microsoft Corporation | Query correction probability based on query-correction pairs |
US10176168B2 (en) * | 2011-11-15 | 2019-01-08 | Microsoft Technology Licensing, Llc | Statistical machine translation based search query spelling correction |
KR101509727B1 (en) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | Apparatus for creating alignment corpus based on unsupervised alignment and method thereof, and apparatus for performing morphological analysis of non-canonical text using the alignment corpus and method thereof |
-
2015
- 2015-09-14 KR KR1020150129880A patent/KR101839121B1/en active IP Right Grant
-
2016
- 2016-07-07 JP JP2016134985A patent/JP6261669B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10138341B2 (en) | 2014-07-28 | 2018-11-27 | Boral Ip Holdings (Australia) Pty Limited | Use of evaporative coolants to manufacture filled polyurethane composites |
Also Published As
Publication number | Publication date |
---|---|
KR101839121B1 (en) | 2018-04-26 |
JP2017059216A (en) | 2017-03-23 |
KR20170032084A (en) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844368B (en) | Method for man-machine conversation, neural network system and user equipment | |
Ling et al. | Latent predictor networks for code generation | |
JP5128629B2 (en) | Part-of-speech tagging system, part-of-speech tagging model training apparatus and method | |
JP5901001B1 (en) | Method and device for acoustic language model training | |
JP3998668B2 (en) | Morphological analyzer, method and program | |
JP2019526142A (en) | Search term error correction method and apparatus | |
US10528664B2 (en) | Preserving and processing ambiguity in natural language | |
CN114218932B (en) | Aviation fault text abstract generation method and device based on fault causal map | |
US20190130308A1 (en) | Learning the structure of hierarchical extraction models | |
JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
CN113051894B (en) | Text error correction method and device | |
CN110874536A (en) | Corpus quality evaluation model generation method and bilingual sentence pair inter-translation quality evaluation method | |
CN111488742A (en) | Method and device for translation | |
WO2022164668A1 (en) | Natural language source code search using using neural transformers | |
EP4285217A1 (en) | Natural language source code search using using neural transformers | |
US9460086B2 (en) | Method and apparatus for performing bilingual word alignment | |
JP6261669B2 (en) | Query calibration system and method | |
Eger | Sequence alignment with arbitrary steps and further generalizations, with applications to alignments in linguistics | |
CN113468883A (en) | Fusion method and device of position information and computer readable storage medium | |
CN114580439B (en) | Translation model training method, translation device, translation equipment and storage medium | |
US20220284188A1 (en) | Machine based expansion of contractions in text in digital media | |
JP6486789B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
Lee | N-Gram Language Model | |
Lee et al. | Improved model adaptation approach for recognition of reduced-frame-rate continuous speech | |
KR102146625B1 (en) | Apparatus and method for computing incrementally infix probabilities based on automata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6261669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |