JP2022077150A - Character string comparison system - Google Patents
Character string comparison system Download PDFInfo
- Publication number
- JP2022077150A JP2022077150A JP2020187844A JP2020187844A JP2022077150A JP 2022077150 A JP2022077150 A JP 2022077150A JP 2020187844 A JP2020187844 A JP 2020187844A JP 2020187844 A JP2020187844 A JP 2020187844A JP 2022077150 A JP2022077150 A JP 2022077150A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- fluctuation
- output
- combination
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008859 change Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、文字列比較システムに関する。 The present invention relates to a character string comparison system.
文献1には、文書データから用語を抽出する用語抽出部と、抽出された用語の任意のペアの類似度を算出する類似度算出部と、類似度に基づいて、用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、を備える表記ゆれ検出装置が記載されている。このような装置によれば、入力された文章データ中における表記ゆれが特定される。
In
ここで、例えばデータベースにおける氏名等の突合を行う際において、データベースに保持されている文字列と入力された文字列とが完全には一致しておらず、突合を行うことができない場合がある。このような場合においては、例えば表記ゆれ等が特定できたとしても、データベースに保持されている文字列と入力された文字列とを同一のデータとして扱ってよいか判別できず、上述した突合を適切に行うことができない。 Here, for example, when matching a name or the like in a database, the character string held in the database and the input character string may not completely match, and the matching may not be possible. In such a case, for example, even if the notation fluctuation can be specified, it cannot be determined whether the character string stored in the database and the input character string can be treated as the same data, and the above-mentioned collision is performed. I can't do it properly.
本発明は上記実情に鑑みてなされたものであり、マッチング対象の文字列とユーザが入力した文字列とが一致していない場合において、マッチング対象の文字列に対応する文字列であってユーザが入力することを意図していた文字列を導出し出力することを目的とする。 The present invention has been made in view of the above circumstances, and when the character string to be matched and the character string input by the user do not match, the character string corresponding to the character string to be matched is used by the user. The purpose is to derive and output the character string that was intended to be input.
本発明の一態様に係る文字列比較システムは、ユーザが入力した第1の文字列、及び、マッチング対象の第2の文字列を取得する取得部と、第1の文字列と、該第1の文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する組合せ生成部と、予め記憶されている文字間のゆらぎやすさに基づいて、第1の文字列と各組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定するスコア算出部と、第2の文字列と各候補文字列とを比較し、第2の文字列との近似度が高い候補文字列ほど、出力文字列として導出されやすくなるように、該出力文字列を導出する比較部と、出力文字列を出力する出力部と、を備える。 The character string comparison system according to one aspect of the present invention includes a first character string input by the user, an acquisition unit for acquiring a second character string to be matched, a first character string, and the first character string. Based on the combination generator that generates the changed character string of multiple patterns in which at least a part of the characters included in the character string is changed as a combination character string, and the easiness of fluctuation between the characters stored in advance, the first A score calculation unit that calculates a fluctuation score between one character string and each combination character string and determines a plurality of candidate character strings from each combination character string based on the fluctuation score, and a second A comparison unit that compares the character string with each candidate character string and derives the output character string so that the candidate character string having a higher degree of approximation to the second character string is more likely to be derived as an output character string. It includes an output unit that outputs an output character string.
本発明の一態様に係る文字列比較システムでは、第1の文字列に含まれる文字の一部が変更された組合せ文字列が複数パターン生成され、文字間のゆらぎやすさが考慮されて組合せ文字列のゆらぎスコアが算出されて該ゆらぎスコアに基づいて複数の候補文字列が決定され、第2の文字列と各候補文字列とが比較されることによって第2の文字列に近似した出力文字列が導出され、該出力文字列が出力される。例えばデータベースにおける氏名等の突合を行う場合においては、データベースに保持されている情報と入力された情報とが互いに異なり(表記ゆれ、異体字等が問題となり)、上述した突合等を行えないことがある。この点、本発明の一態様に係る文字列比較システムでは、組合せ文字列のうち、第2の文字列に近しい文字列が出力文字列とされるため、例えば第2の文字列を予めデータベースに保持されている正解データとしておくことにより、入力された第1の文字列が第2の文字列に一致しない場合であっても、第2の文字列に対応する文字列を出力することが可能になり、上述した突合等を適切に行うことができる。さらに、本発明の一態様に係る文字列比較システムでは、組合せ文字列の中から、文字間のゆらぎやすさが考慮されて候補文字列が決定されている。これにより、実際にゆらぎやすい文字列が候補文字列とされるため、例えばユーザが誤入力している場合において、ユーザが真に入力したかった可能性が高い文字列を候補文字列とすることができる。以上のような文字列比較システムによれば、マッチング対象の文字列とユーザが入力した文字列とが一致していない場合において、マッチング対象の文字列に対応する文字列であってユーザが入力することを意図していた文字列を導出し出力することができる。 In the character string comparison system according to one aspect of the present invention, a plurality of patterns of combined character strings in which a part of the characters included in the first character string is changed are generated, and the combined characters are considered in consideration of the easiness of fluctuation between the characters. The fluctuation score of the column is calculated, a plurality of candidate character strings are determined based on the fluctuation score, and the output character approximated to the second character string is compared between the second character string and each candidate character string. The column is derived and the output string is output. For example, when matching names in the database, the information stored in the database and the input information are different from each other (problems such as notational fluctuations and variant characters), and the above-mentioned matching cannot be performed. be. In this respect, in the character string comparison system according to one aspect of the present invention, among the combined character strings, the character string close to the second character string is regarded as the output character string. Therefore, for example, the second character string is stored in the database in advance. By keeping the correct answer data as it is held, it is possible to output the character string corresponding to the second character string even if the input first character string does not match the second character string. Therefore, the above-mentioned collision and the like can be appropriately performed. Further, in the character string comparison system according to one aspect of the present invention, a candidate character string is determined from the combined character strings in consideration of the easiness of fluctuation between characters. As a result, a character string that is likely to fluctuate is used as a candidate character string. Therefore, for example, when a user makes an erroneous input, a character string that the user is likely to have truly wanted to input should be used as a candidate character string. Can be done. According to the character string comparison system as described above, when the character string to be matched and the character string input by the user do not match, the character string corresponding to the character string to be matched is input by the user. It is possible to derive and output the character string that was intended to be.
本発明によれば、入力された文字列に誤りがある場合において、ユーザが真に入力したかった正しい文字列を出力することができる。 According to the present invention, when there is an error in the input character string, the correct character string that the user really wanted to input can be output.
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same reference numerals are used for the same or equivalent elements, and duplicate description is omitted.
図1は、本実施形態に係る単語マッチングシステム10(文字列比較システム)の概要を説明する図である。単語マッチングシステム10は、例えば、あるコミュニティ(自治体等)において、ユーザから入力された氏名又は住所等の情報とデータベースに予め登録されているこれらの情報との突合を行うシステムである。単語マッチングシステム10は、ユーザから入力された情報(文字列)とデータベースに予め登録されている情報(文字列)とが一致しない場合において、ユーザから入力された文字列について、表記ゆれや異体字での入力が発生している可能性を考慮して変換(詳細は後述)を行い、データベースに予め登録されている情報(文字列)との突合を可能にする。
FIG. 1 is a diagram illustrating an outline of a word matching system 10 (character string comparison system) according to the present embodiment. The
図1に示されるように、単語マッチングシステム10は、端末1から情報を取得する。端末1は、ユーザからの入力を受け付けることができると共に通信可能な通信端末であり、コミュニティ(自治体)に設置されたPC、タブレット端末、PC等である。また、単語マッチングシステム10は、マッチング対象の文字列(ユーザから入力された文字列と突合する文字列)を、端末1を介してデータベース50から取得する。データベース50は、マッチング対象の文字列についてのデータ集合である。データベース50は、図3に示されるように、種別(カテゴリ)毎に複数の文字列を記憶している。図3に示される例では、データベース50は住民票に紐づく情報を管理するデータベースであり、種別とは住民ID、氏名、住所、生年月日である。
As shown in FIG. 1, the
図1に示されるように、端末1は、ユーザから入力データ(文字列)の入力を受け付ける。ここでの文字列とは、例えば氏名又は住所等についての文字列である。端末1は、文字列と共に、該文字列の種別(氏名又は住所等)の入力を受け付けてもよい。そして、端末1は、データベース50から、マッチング対象の文字列を取得する。端末1は、データベース50において記憶されている全ての文字列を取得してもよいし、ユーザから入力された文字列と同じ種別の文字列のみを取得してもよい。すなわち、端末1は、例えばユーザから氏名の文字列の入力を受け付けた場合には、データベース50から種別が氏名である文字列のみを取得してもよい。なお、端末1によるデータベース50からの情報の取得は、単語マッチングシステム10からの指示に基づいて行われてもよい。端末1は、ユーザから入力を受け付けた文字列であるユーザ入力文字列(第1の文字列)、及び、データベース50から取得した文字列であるマッチング対象文字列(第2の文字列)を単語マッチングシステム10に送信する。
As shown in FIG. 1, the
単語マッチングシステム10は、端末1からユーザ入力文字列及びマッチング対象文字列の入力を受け付ける。そして、単語マッチングシステム10は、ユーザ入力文字列に含まれる文字の少なくとも一部を変更した変更文字列を複数パターン生成する。例えば図5に示される例では、「渡辺太郎」というユーザ入力文字列から、「渡邊太郎」「渡邊太朗」「渡邉太郎」「渡邉太朗」「渡辺太朗」という5パターンの変更文字列を生成している。単語マッチングシステム10は、ユーザ入力文字列及び複数パターンの変更文字列を、組合せ文字列として生成する。
The
そして、単語マッチングシステム10は、予め記憶されている文字間のゆらぎやすさに基づいて、ユーザ入力文字列と組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する。ここでのゆらぎやすさとは、互いの文字間での表記ゆれの生じやすさである。本実施形態では、文字間のゆらぎやすさが高いほど、文字列間のゆらぎスコアが低くなる。単語マッチングシステム10は、ゆらぎスコアが低い組合せ文字列ほど候補文字列に決定されやすくなるように、複数の候補文字列を決定する。
Then, the
そして、単語マッチングシステム10は、マッチング対象文字列と各候補文字列とを比較し、各候補文字列のうち、マッチング対象文字列に最も近しい(近似する)候補文字列を出力文字列として導出する。また、単語マッチングシステム10は、出力文字列とマッチング対象文字列との近似度合いを示す近似度スコアを導出する。当該近似度スコアは、マッチング対象文字列を記憶しているデータベース50にユーザからの入力データ(詳細には、ゆらぎやすさを考慮してユーザ入力文字列から導出された候補文字列)が存在する可能性を示すスコアである。単語マッチングシステム10は、出力文字列、該出力文字列のゆらぎスコア、及び該出力文字列の近似度スコアを端末1に送信する。端末1は、これらの情報を出力する。なお、端末1は、近似度スコアが所定値よりも低い場合には、データベース50にユーザからの入力データ(詳細には、ゆらぎやすさを考慮してユーザ入力文字列から導出された候補文字列)が存在しないとして出力文字列を出力せず、存在しない旨の表記を出力してもよい。
Then, the
次に、図2を参照して、単語マッチングシステム10の機能の詳細を説明する。図2は、図1の単語マッチングシステム10の機能ブロック図である。図2に示されるように、単語マッチングシステム10は、機能的な構成として、入力部11(取得部)と、組合せ生成部12と、組合せスコア算出部13(スコア算出部)と、比較部14と、出力部15と、を備えている。
Next, with reference to FIG. 2, the details of the function of the
入力部11は、ユーザが入力したユーザ入力文字列(第1の文字列)、及び、マッチング対象のマッチング対象文字列(第2の文字列)を端末1から取得する。入力部11は、取得した情報を組合せ生成部12に出力する。入力部11は、マッチング対象文字列として、種別毎に複数の文字列が予め記憶されたデータベース50(データ集合)から、ユーザ入力文字列と種別が同じ文字列のみを、端末1を介して取得してもよい。入力部11は、例えば、まずユーザ入力文字列を取得すると共に、当該ユーザ入力文字列と同じ種別の文字列を取得するように端末1に指示を行うことによって、ユーザ入力文字列と種別が同じ文字列のみを端末1を介して取得してもよい。例えば図3に示されるデータベース50のように、データ集合が表形式で記憶されている場合には、入力部11は、端末1に対して文字列を取得する列(例えば「氏名」の列)を指定し、ユーザ入力文字列と種別が同じ文字列のみを取得してもよい。また、データ集合が構造化されているが表形式でない場合(例えば1行ずつのテキスト等)やデータ集合が構造化されていない場合(例えばWeb上の文章等)においては、入力部11は、例えば固有表現抽出によって各文字列にカテゴリを付与し、特定のカテゴリが付与された文字列のみを取得してもよい。
The
組合せ生成部12は、ユーザ入力文字列と、該ユーザ入力文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する。例えば図5に示されるように、「渡辺太郎」というユーザ入力文字列が入力された場合、組合せ生成部12は、ユーザ入力文字列である(1)「渡辺太郎」と、該「渡辺太郎」との文字列に含まれる文字の1つ又は2つを変更した5パターンの変更文字列(2)「渡邊太郎」、(3)「渡邊太朗」、(4)「渡邉太郎」、(5)「渡邉太朗」、(6)「渡辺太朗」とを、組合せ文字列として生成する。組合せ生成部12は、組合せ文字列を組合せスコア算出部13に出力する。
The
組合せスコア算出部13は、予め記憶されている文字間のゆらぎやすさに基づいて、ユーザ入力文字列と各組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する。単語マッチングシステム10は、文字間のゆらぎやすさを示す文字間のゆらぎスコアを予め記憶している。図4は、記憶されているゆらぎやすさ情報の一例を示す図である。図4に示されるように、単語マッチングシステム10では、例えばタブにより区切られた3列のデータとしてゆらぎやすさ情報が記憶されている。図4に示されるゆらぎやすさ情報では、例えば、「沢」「澤」「1704」がタブにより区切られている。これは、「沢」「澤」の間でのゆらぎスコアが「1704」であることを示している。ここでのゆらぎやすさとは、互いの文字間での表記ゆれの生じやすさである。本実施形態では、文字間のゆらぎやすさが高いほど、文字間のゆらぎスコアが低くなる。そして、組合せスコア算出部13は、文字列に含まれる各文字間のゆらぎスコアをトータルすることにより、文字列間のゆらぎスコアを算出する(詳細は後述)。
The combination
組合せスコア算出部13は、各組合せ文字列について、ユーザ入力文字列との編集距離を更に考慮して、文字列間のゆらぎスコアを算出する。編集距離とは、ある文字列を別の文字列に変形する際に必要な「挿入」「編集」「置換」による最小の操作回数で定義されるものであり、二つの文字列を互いに同じにするために必要となるコストを示すものである。例えば、図5に示される例において、ユーザ入力文字列である「渡辺太郎」と組合せ文字列の1つである(1)「渡辺太郎」(ユーザ入力文字列と同じ)とは互いに全ての文字が同一であるので編集距離が「0」であり、ユーザ入力文字列である「渡辺太郎」と組合せ文字列の1つである(2)「渡邊太郎」とは互いに1文字異なるので編集距離が「1」であり、ユーザ入力文字列である「渡辺太郎」と組合せ文字列の1つである(3)「渡邊太朗」とは互いに2文字異なるので編集距離が「2」である。
The combination
組合せスコア算出部13は、上述したような編集距離と、文字間のゆらぎスコアとを考慮して、文字列間のゆらぎスコアを算出する。具体的には、組合せスコア算出部13は、以下の数式に基づいて文字列間のゆらぎスコアを算出する。
文字列間のゆらぎスコア=Σ(編集距離×exp(文字間のゆらぎスコア×-1))
The combination
Fluctuation score between character strings = Σ (editing distance x exp (fluctuation score between characters x -1))
いま、図5に示される各組合せ文字列について、それぞれ、上記数式によりユーザ入力文字列との間でのゆらぎスコアを算出するとする。そして、図6に示されるように、単語マッチングシステム10において各文字間のゆらぎやすさを示すゆらぎスコアが記憶されているとする。このような文字間のゆらぎスコアは、図6に示されるように、2つの文字が決まればゆらぎスコアが算出される変換辞書として記憶されていてもよい。図6に示される例では、ユーザ入力文字列に含まれる「辺」が「邊」となる場合のゆらぎスコアが「a」であり、「辺」が「邉」となる場合のゆらぎスコアが「b」であり、「邊」が「辺」となる場合のゆらぎスコアが「c」であり、「郎」が「朗」となる場合のゆらぎスコアが「d」であるとされている。この場合、ユーザ入力文字列との編集距離が「0」である(互いに全ての文字が同一である)(1)「渡辺太郎」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「0」と算出される。また、ユーザ入力文字列との編集距離が「1」である(2)「渡邊太郎」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×a」と算出される。また、ユーザ入力文字列との編集距離が「2」である(3)「渡邊太朗」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×a+1×d」と算出される。また、ユーザ入力文字列との編集距離が「1」である(4)「渡邉太郎」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×b」と算出される。また、ユーザ入力文字列との編集距離が「2」である(5)「渡邉太朗」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×b+1×d」と算出される。また、ユーザ入力文字列との編集距離が「1」である(6)「渡辺太朗」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×d」と算出される。
Now, for each combination character string shown in FIG. 5, it is assumed that the fluctuation score with the user input character string is calculated by the above formula. Then, as shown in FIG. 6, it is assumed that the
組合せスコア算出部13は、このようにして算出したゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する。組合せスコア算出部13は、例えば、ゆらぎスコアが所定値よりも小さい組合せ文字列を全て候補文字列とする。或いは、組合せスコア算出部13は、ゆらぎスコアの小ささが所定の順番までの組合せ文字列を、候補文字列としてもよい。組合せスコア算出部13は、各候補文字列と各候補文字列のゆらぎスコアとを比較部14に出力する。
The combination
比較部14は、マッチング対象文字列と各候補文字列とを比較し、マッチング対象文字列との近似度が高い候補文字列ほど、出力文字列として導出されやすくなるように、該出力文字列を導出する。比較部14は、例えば、マッチング対象文字列に最も近似する(近しい)候補文字列を出力文字列として導出する。なお、比較部14は、出力文字列として複数の文字列を導出してもよい。文字列間の近似度合いについては、例えば編集距離等により導出されてもよい。また、比較部14は、出力文字列とマッチング対象文字列との近似度合いを示す近似度スコアを導出する。当該近似度スコアは、マッチング対象文字列を記憶しているデータベース50にユーザからの入力データ(詳細には、ゆらぎやすさを考慮してユーザ入力文字列から導出された候補文字列)が存在する可能性を示すスコアである。比較部14は、出力文字列、該出力文字列のゆらぎスコア、及び該出力文字列の近似度スコアを出力部15に送信する。
The
出力部15は、出力文字列を出力する。詳細には、出力部15は、出力文字列と、出力文字列のゆらぎスコアと、出力文字列の近似度スコアとを、共に、端末1に送信(出力)する。
The
次に、単語マッチングシステム10が実施する処理について、図7を参照して説明する。図7は、本実施形態に係る単語マッチングシステム10の処理を示すフローチャートである。
Next, the process performed by the
図7に示されるように、単語マッチングシステム10では、最初に端末1から文字列データ(ユーザ入力文字列及びマッチング対象文字列)の入力が受け付けられる(ステップS1)。つづいて、単語マッチングシステム10では、ユーザ入力文字列と、該ユーザ入力文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とが、組合せ文字列として生成される(ステップS2)。
As shown in FIG. 7, in the
つづいて、単語マッチングシステム10では、予め記憶されている文字間のゆらぎやすさ(ゆらぎ頻度)に基づいて、ユーザ入力文字列と組合せ文字列との間でのゆらぎスコアが算出され、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列が決定される(ステップS3)。
Subsequently, in the
つづいて、単語マッチングシステム10では、マッチング対象文字列と各候補文字列とが比較され、マッチング対象文字列員最も近似する候補文字列が出力文字列として導出される(ステップS4)。最後に、単語マッチングシステム10では、出力文字列、出力文字列のゆらぎスコア、及び出力文字列の近似度スコアが端末1に送信される(ステップS5)。
Subsequently, in the
次に、本実施形態に係る単語マッチングシステム10の作用効果について説明する。
Next, the operation and effect of the
本実施形態に係る単語マッチングシステム10は、ユーザが入力したユーザ入力文字列、及び、マッチング対象のマッチング対象文字列を取得する入力部11と、ユーザ入力文字列と、該ユーザ入力文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する組合せ生成部12と、予め記憶されている文字間のゆらぎやすさに基づいて、ユーザ入力文字列と各組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する組合せスコア算出部13と、マッチング対象文字列と各候補文字列とを比較し、マッチング対象文字列に最も近似する候補文字列を出力文字列として導出する比較部14と、出力文字列を出力する出力部15と、を備える。
The
本実施形態に係る単語マッチングシステム10では、ユーザ入力文字列に含まれる文字の一部が変更された組合せ文字列が複数パターン生成され、文字間のゆらぎやすさが考慮されて組合せ文字列のゆらぎスコアが算出されて該ゆらぎスコアに基づいて複数の候補文字列が決定され、マッチング対象文字列と各候補文字列とが比較されることによってマッチング対象文字列に近似した出力文字列が導出され、該出力文字列が出力される。例えばデータベース50における氏名等の突合を行う場合においては、データベース50に保持されている情報とユーザから入力された情報とが互いに異なり(表記ゆれ、異体字等が問題となり)、上述した突合等を行えないことがある。この点、本実施形態に係る単語マッチングシステム10では、組合せ文字列のうち、マッチング対象文字列に近しい文字列が出力文字列とされるため、マッチング対象文字列を予めデータベース50に保持されている正解データとしておくことにより、入力されたユーザ入力文字列がマッチング対象文字列に一致しない場合であっても、マッチング対象文字列に対応する文字列を出力することが可能になり、上述した突合等を適切に行うことができる。さらに、本実施形態に係る単語マッチングシステム10では、組合せ文字列の中から、文字間のゆらぎやすさが考慮されて候補文字列が決定されている。これにより、実際にゆらぎやすい文字列が候補文字列とされるため、例えばユーザが誤入力している場合において、ユーザが真に入力したかった可能性が高い文字列を候補文字列とすることができる。以上のような単語マッチングシステム10によれば、マッチング対象文字列とユーザ入力文字列とが一致していない場合において、マッチング対象文字列に対応する文字列であってユーザが入力することを意図していた文字列を導出し出力することができる。
In the
出力部15は、出力文字列と共に、出力文字列のゆらぎスコアを出力してもよい。これにより、ユーザ入力文字列と出力文字列との間でのゆらぎやすさがどの程度であるかが出力され、出力文字列の尤もらしさ(出力文字列が、ユーザが意図するものである確率の高さ)を示すことが可能になる。
The
組合せスコア算出部13は、ユーザ入力文字列との編集距離を更に考慮して、各組合せ文字列のゆらぎスコアを算出してもよい。編集距離が考慮されることにより、文字列間の類似度を考慮して、誤入力されやすい文字列を候補文字列とすることができる。
The combination
入力部11は、種別毎に複数の文字列が予め記憶されたデータベース50から、ユーザ入力文字列と種別が同じである文字列を、マッチング対象文字列として取得してもよい。同じ種別の文字列間で比較されることとなり、比較処理の精度を向上させると共に、比較処理を簡易化することができる。
The
最後に、単語マッチングシステム10のハードウェア構成について、図8を参照して説明する。上述の単語マッチングシステム10(単語マッチングサーバ)は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
Finally, the hardware configuration of the
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。単語マッチングシステム10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
In the following description, the word "device" can be read as a circuit, a device, a unit, or the like. The hardware configuration of the
単語マッチングシステム10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
For each function in the
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、単語マッチングシステム10の組合せスコア算出部13等の制御機能はプロセッサ1001で実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、単語マッチングシステム10の組合せスコア算出部13等の制御機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
Further, the
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(ElectricallyErasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
The
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
The
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
The
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
Further, each device such as the
また、単語マッチングシステム10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
Further, the
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。 Although the present embodiment has been described in detail above, it is clear to those skilled in the art that the present embodiment is not limited to the embodiment described in the present specification. This embodiment can be implemented as an amendment or modification without departing from the spirit and scope of the present invention as determined by the description of the scope of claims. Therefore, the description of the present specification is for the purpose of illustration and does not have any limiting meaning to the present embodiment.
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broad-band)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-Wide Band)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 Each aspect / embodiment described herein includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA. (Registered Trademarks), GSM (Registered Trademarks), CDMA2000, UMB (Ultra Mobile Broad-band), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-Wide) Band), Bluetooth®, and other systems that utilize suitable systems and / or extended next-generation systems based on them may be applied.
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The processing procedures, sequences, flowcharts, and the like of each aspect / embodiment described in the present specification may be rearranged in order as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order and are not limited to the particular order presented.
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input / output information and the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Information to be input / output may be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組合せて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect / embodiment described in the present specification may be used alone, in combination, or may be switched and used according to the execution. Further, the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit notification, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software, whether called software, firmware, middleware, microcode, hardware description language, or other names, is an instruction, instruction set, code, code segment, program code, program, subprogram, software module. , Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, features, etc. should be broadly interpreted.
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software may use wired technology such as coaxial cable, fiber optic cable, twist pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to website, server, or other. When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組合せによって表されてもよい。 The information, signals, etc. described herein may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。 The terms described in the present specification and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 Further, the information, parameters, etc. described in the present specification may be represented by an absolute value, a relative value from a predetermined value, or another corresponding information. ..
ユーザ端末は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。 User terminals may be mobile communication terminals, subscriber stations, mobile units, subscriber units, wireless units, remote units, mobile devices, wireless devices, wireless communication devices, remote devices, mobile subscriber stations, access terminals, etc. It may also be referred to as a mobile device, wireless device, remote device, handset, user agent, mobile client, client, or some other suitable term.
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。 The terms "determining" and "determining" as used herein may include a wide variety of actions. "Judgment", "decision" is, for example, calculating, computing, processing, deriving, investigating, looking up (eg, table, database or another). It may include searching in the data structure), considering that the confirmation (ascertaining) is "judgment" and "decision". Also, "judgment" and "decision" are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access. It may include (for example, accessing data in memory) to be regarded as "judgment" or "decision". In addition, "judgment" and "decision" are considered to be "judgment" and "decision" when the things such as solving, selecting, choosing, establishing, and comparing are regarded as "judgment" and "decision". Can include. That is, "judgment" and "decision" may include considering some action as "judgment" and "decision".
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 The phrase "based on" as used herein does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 As used herein by designations such as "first", "second", etc., any reference to that element does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 As long as "include", "including", and variations thereof are used herein or within the scope of the claims, these terms are similar to the term "comprising". In addition, it is intended to be inclusive. Moreover, the term "or" as used herein or in the claims is intended to be non-exclusive.
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。 In the present specification, a plurality of devices shall be included unless the device has only one device apparently in context or technically.
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。 The entire disclosure is intended to include the plural, unless the context clearly indicates the singular.
10…単語マッチングシステム、11…入力部(取得部)12…組合せ生成部、13…組合せスコア算出部(スコア算出部)、14…比較部、15…出力部、50…データベース。 10 ... word matching system, 11 ... input unit (acquisition unit) 12 ... combination generation unit, 13 ... combination score calculation unit (score calculation unit), 14 ... comparison unit, 15 ... output unit, 50 ... database.
Claims (4)
前記第1の文字列と、該第1の文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する組合せ生成部と、
予め記憶されている文字間のゆらぎやすさに基づいて、前記第1の文字列と各前記組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各前記組合せ文字列の中から複数の候補文字列を決定するスコア算出部と、
前記第2の文字列と各前記候補文字列とを比較し、前記第2の文字列との近似度が高い前記候補文字列ほど、出力文字列として導出されやすくなるように、該出力文字列を導出する比較部と、
前記出力文字列を出力する出力部と、を備える文字列比較システム。 An acquisition unit that acquires the first character string input by the user and the second character string to be matched.
A combination generation unit that generates a combination character string of the first character string and a plurality of patterns of change character strings in which at least a part of the characters included in the first character string is changed.
The fluctuation score between the first character string and each combination character string is calculated based on the fluctuation easiness between the characters stored in advance, and each combination character string is calculated based on the fluctuation score. A score calculation unit that determines multiple candidate character strings from among
The output character string is compared with the second character string and each candidate character string so that the candidate character string having a higher degree of approximation to the second character string is more likely to be derived as an output character string. And the comparison part to derive
A character string comparison system including an output unit that outputs the output character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020187844A JP2022077150A (en) | 2020-11-11 | 2020-11-11 | Character string comparison system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020187844A JP2022077150A (en) | 2020-11-11 | 2020-11-11 | Character string comparison system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022077150A true JP2022077150A (en) | 2022-05-23 |
Family
ID=81654287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020187844A Pending JP2022077150A (en) | 2020-11-11 | 2020-11-11 | Character string comparison system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022077150A (en) |
-
2020
- 2020-11-11 JP JP2020187844A patent/JP2022077150A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10152473B2 (en) | English input method and input device | |
JP7222082B2 (en) | Recognition error correction device and correction model | |
US20190258615A1 (en) | Data normalization system | |
JP2010140475A (en) | Method, apparatus and computer program for providing input order independent character input mechanism | |
JP6976448B2 (en) | Machine translation controller | |
US11663420B2 (en) | Dialogue system | |
JP2021124913A (en) | Retrieval device | |
JP7043593B2 (en) | Dialogue server | |
JP2022077150A (en) | Character string comparison system | |
JP2018067264A (en) | Data search program, data search device, and data search method | |
US10942934B2 (en) | Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus | |
WO2021215262A1 (en) | Punctuation mark delete model training device, punctuation mark delete model, and determination device | |
CN115827125A (en) | Interface control testing method and device | |
JP7194759B2 (en) | Translation data generation system | |
US11651246B2 (en) | Question inference device | |
JP7016405B2 (en) | Dialogue server | |
CN111753548A (en) | Information acquisition method and device, computer storage medium and electronic equipment | |
WO2022130940A1 (en) | Presentation device | |
JP7477359B2 (en) | Writing device | |
JP6809971B2 (en) | Name identification device | |
US20220277731A1 (en) | Word weight calculation system | |
US20220245363A1 (en) | Generation device and normalization model | |
JP6976447B2 (en) | Machine translation controller | |
WO2024048036A1 (en) | Store determination device | |
US20230015324A1 (en) | Retrieval device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240417 |