JP2022077150A - Character string comparison system - Google Patents

Character string comparison system Download PDF

Info

Publication number
JP2022077150A
JP2022077150A JP2020187844A JP2020187844A JP2022077150A JP 2022077150 A JP2022077150 A JP 2022077150A JP 2020187844 A JP2020187844 A JP 2020187844A JP 2020187844 A JP2020187844 A JP 2020187844A JP 2022077150 A JP2022077150 A JP 2022077150A
Authority
JP
Japan
Prior art keywords
character string
fluctuation
output
combination
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020187844A
Other languages
Japanese (ja)
Inventor
優太朗 白水
Yutaro Shiromizu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2020187844A priority Critical patent/JP2022077150A/en
Publication of JP2022077150A publication Critical patent/JP2022077150A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

To provide a character string comparison system for deriving and outputting a character string that corresponds to a matching target character string and that a user has intended to input.SOLUTION: A word matching system 10 includes: an input unit 11 for acquiring a user input character string and a matching target character string; a combination generation unit 12 for generating, as a combination character string, a user input character string and a plurality of patterns of changed character strings in which at least a part of a character included in the user input character is changed; a combination score calculation unit 13 for calculating a fluctuation score between the user input character string and each combination character string based on the ease of fluctuation between characters and for determining a plurality of candidate character strings from among each combination character string based on the fluctuation score; a comparison unit 14 for deriving a candidate character string that is close to the matching target character string as an output character string; and an output unit 15 for outputting the output character string.SELECTED DRAWING: Figure 2

Description

本発明は、文字列比較システムに関する。 The present invention relates to a character string comparison system.

文献1には、文書データから用語を抽出する用語抽出部と、抽出された用語の任意のペアの類似度を算出する類似度算出部と、類似度に基づいて、用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、を備える表記ゆれ検出装置が記載されている。このような装置によれば、入力された文章データ中における表記ゆれが特定される。 In Document 1, a term extraction unit that extracts terms from document data, a similarity calculation unit that calculates the similarity of any pair of extracted terms, and a pair of terms based on the similarity are candidates for notational fluctuation. A notational fluctuation detection device including a notational fluctuation candidate determination unit for determining whether or not the above is described. According to such a device, notational fluctuations in the input text data are specified.

特開2012-256197号公報Japanese Unexamined Patent Publication No. 2012-256197

ここで、例えばデータベースにおける氏名等の突合を行う際において、データベースに保持されている文字列と入力された文字列とが完全には一致しておらず、突合を行うことができない場合がある。このような場合においては、例えば表記ゆれ等が特定できたとしても、データベースに保持されている文字列と入力された文字列とを同一のデータとして扱ってよいか判別できず、上述した突合を適切に行うことができない。 Here, for example, when matching a name or the like in a database, the character string held in the database and the input character string may not completely match, and the matching may not be possible. In such a case, for example, even if the notation fluctuation can be specified, it cannot be determined whether the character string stored in the database and the input character string can be treated as the same data, and the above-mentioned collision is performed. I can't do it properly.

本発明は上記実情に鑑みてなされたものであり、マッチング対象の文字列とユーザが入力した文字列とが一致していない場合において、マッチング対象の文字列に対応する文字列であってユーザが入力することを意図していた文字列を導出し出力することを目的とする。 The present invention has been made in view of the above circumstances, and when the character string to be matched and the character string input by the user do not match, the character string corresponding to the character string to be matched is used by the user. The purpose is to derive and output the character string that was intended to be input.

本発明の一態様に係る文字列比較システムは、ユーザが入力した第1の文字列、及び、マッチング対象の第2の文字列を取得する取得部と、第1の文字列と、該第1の文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する組合せ生成部と、予め記憶されている文字間のゆらぎやすさに基づいて、第1の文字列と各組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定するスコア算出部と、第2の文字列と各候補文字列とを比較し、第2の文字列との近似度が高い候補文字列ほど、出力文字列として導出されやすくなるように、該出力文字列を導出する比較部と、出力文字列を出力する出力部と、を備える。 The character string comparison system according to one aspect of the present invention includes a first character string input by the user, an acquisition unit for acquiring a second character string to be matched, a first character string, and the first character string. Based on the combination generator that generates the changed character string of multiple patterns in which at least a part of the characters included in the character string is changed as a combination character string, and the easiness of fluctuation between the characters stored in advance, the first A score calculation unit that calculates a fluctuation score between one character string and each combination character string and determines a plurality of candidate character strings from each combination character string based on the fluctuation score, and a second A comparison unit that compares the character string with each candidate character string and derives the output character string so that the candidate character string having a higher degree of approximation to the second character string is more likely to be derived as an output character string. It includes an output unit that outputs an output character string.

本発明の一態様に係る文字列比較システムでは、第1の文字列に含まれる文字の一部が変更された組合せ文字列が複数パターン生成され、文字間のゆらぎやすさが考慮されて組合せ文字列のゆらぎスコアが算出されて該ゆらぎスコアに基づいて複数の候補文字列が決定され、第2の文字列と各候補文字列とが比較されることによって第2の文字列に近似した出力文字列が導出され、該出力文字列が出力される。例えばデータベースにおける氏名等の突合を行う場合においては、データベースに保持されている情報と入力された情報とが互いに異なり(表記ゆれ、異体字等が問題となり)、上述した突合等を行えないことがある。この点、本発明の一態様に係る文字列比較システムでは、組合せ文字列のうち、第2の文字列に近しい文字列が出力文字列とされるため、例えば第2の文字列を予めデータベースに保持されている正解データとしておくことにより、入力された第1の文字列が第2の文字列に一致しない場合であっても、第2の文字列に対応する文字列を出力することが可能になり、上述した突合等を適切に行うことができる。さらに、本発明の一態様に係る文字列比較システムでは、組合せ文字列の中から、文字間のゆらぎやすさが考慮されて候補文字列が決定されている。これにより、実際にゆらぎやすい文字列が候補文字列とされるため、例えばユーザが誤入力している場合において、ユーザが真に入力したかった可能性が高い文字列を候補文字列とすることができる。以上のような文字列比較システムによれば、マッチング対象の文字列とユーザが入力した文字列とが一致していない場合において、マッチング対象の文字列に対応する文字列であってユーザが入力することを意図していた文字列を導出し出力することができる。 In the character string comparison system according to one aspect of the present invention, a plurality of patterns of combined character strings in which a part of the characters included in the first character string is changed are generated, and the combined characters are considered in consideration of the easiness of fluctuation between the characters. The fluctuation score of the column is calculated, a plurality of candidate character strings are determined based on the fluctuation score, and the output character approximated to the second character string is compared between the second character string and each candidate character string. The column is derived and the output string is output. For example, when matching names in the database, the information stored in the database and the input information are different from each other (problems such as notational fluctuations and variant characters), and the above-mentioned matching cannot be performed. be. In this respect, in the character string comparison system according to one aspect of the present invention, among the combined character strings, the character string close to the second character string is regarded as the output character string. Therefore, for example, the second character string is stored in the database in advance. By keeping the correct answer data as it is held, it is possible to output the character string corresponding to the second character string even if the input first character string does not match the second character string. Therefore, the above-mentioned collision and the like can be appropriately performed. Further, in the character string comparison system according to one aspect of the present invention, a candidate character string is determined from the combined character strings in consideration of the easiness of fluctuation between characters. As a result, a character string that is likely to fluctuate is used as a candidate character string. Therefore, for example, when a user makes an erroneous input, a character string that the user is likely to have truly wanted to input should be used as a candidate character string. Can be done. According to the character string comparison system as described above, when the character string to be matched and the character string input by the user do not match, the character string corresponding to the character string to be matched is input by the user. It is possible to derive and output the character string that was intended to be.

本発明によれば、入力された文字列に誤りがある場合において、ユーザが真に入力したかった正しい文字列を出力することができる。 According to the present invention, when there is an error in the input character string, the correct character string that the user really wanted to input can be output.

本実施形態に係る単語マッチングシステムの概要を説明する図である。It is a figure explaining the outline of the word matching system which concerns on this embodiment. 図1の単語マッチングシステムの機能ブロック図である。It is a functional block diagram of the word matching system of FIG. データ集合の一例を示す表である。It is a table which shows an example of a data set. 記憶されているゆらぎやすさ情報の一例を示す図である。It is a figure which shows an example of the easiness of fluctuation information which is stored. 組合せ文字列のゆらぎスコア算出の一例を示す図である。It is a figure which shows an example of the fluctuation score calculation of a combination character string. 変換辞書(ゆらぎやすさ情報)の一例を示す図である。It is a figure which shows an example of a conversion dictionary (fluctuation easiness information). 本実施形態に係る単語マッチングシステムの処理を示すフローチャートである。It is a flowchart which shows the processing of the word matching system which concerns on this embodiment. 本実施形態に係る単語マッチングシステムのハードウェア構成を示す図である。It is a figure which shows the hardware composition of the word matching system which concerns on this embodiment.

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same reference numerals are used for the same or equivalent elements, and duplicate description is omitted.

図1は、本実施形態に係る単語マッチングシステム10(文字列比較システム)の概要を説明する図である。単語マッチングシステム10は、例えば、あるコミュニティ(自治体等)において、ユーザから入力された氏名又は住所等の情報とデータベースに予め登録されているこれらの情報との突合を行うシステムである。単語マッチングシステム10は、ユーザから入力された情報(文字列)とデータベースに予め登録されている情報(文字列)とが一致しない場合において、ユーザから入力された文字列について、表記ゆれや異体字での入力が発生している可能性を考慮して変換(詳細は後述)を行い、データベースに予め登録されている情報(文字列)との突合を可能にする。 FIG. 1 is a diagram illustrating an outline of a word matching system 10 (character string comparison system) according to the present embodiment. The word matching system 10 is, for example, a system in a certain community (local government or the like) that collates information such as a name or address input by a user with these information registered in advance in a database. In the word matching system 10, when the information (character string) input by the user and the information (character string) registered in the database in advance do not match, the character string input by the user has a notational fluctuation or a variant character. Conversion (details will be described later) is performed in consideration of the possibility that the input in is generated, and it is possible to collate with the information (character string) registered in advance in the database.

図1に示されるように、単語マッチングシステム10は、端末1から情報を取得する。端末1は、ユーザからの入力を受け付けることができると共に通信可能な通信端末であり、コミュニティ(自治体)に設置されたPC、タブレット端末、PC等である。また、単語マッチングシステム10は、マッチング対象の文字列(ユーザから入力された文字列と突合する文字列)を、端末1を介してデータベース50から取得する。データベース50は、マッチング対象の文字列についてのデータ集合である。データベース50は、図3に示されるように、種別(カテゴリ)毎に複数の文字列を記憶している。図3に示される例では、データベース50は住民票に紐づく情報を管理するデータベースであり、種別とは住民ID、氏名、住所、生年月日である。 As shown in FIG. 1, the word matching system 10 acquires information from the terminal 1. The terminal 1 is a communication terminal capable of accepting input from a user and capable of communicating, and is a PC, a tablet terminal, a PC, or the like installed in a community (local government). Further, the word matching system 10 acquires a character string to be matched (a character string that matches a character string input from the user) from the database 50 via the terminal 1. The database 50 is a data set for a character string to be matched. As shown in FIG. 3, the database 50 stores a plurality of character strings for each type (category). In the example shown in FIG. 3, the database 50 is a database that manages information associated with a resident's card, and the types are a resident ID, a name, an address, and a date of birth.

図1に示されるように、端末1は、ユーザから入力データ(文字列)の入力を受け付ける。ここでの文字列とは、例えば氏名又は住所等についての文字列である。端末1は、文字列と共に、該文字列の種別(氏名又は住所等)の入力を受け付けてもよい。そして、端末1は、データベース50から、マッチング対象の文字列を取得する。端末1は、データベース50において記憶されている全ての文字列を取得してもよいし、ユーザから入力された文字列と同じ種別の文字列のみを取得してもよい。すなわち、端末1は、例えばユーザから氏名の文字列の入力を受け付けた場合には、データベース50から種別が氏名である文字列のみを取得してもよい。なお、端末1によるデータベース50からの情報の取得は、単語マッチングシステム10からの指示に基づいて行われてもよい。端末1は、ユーザから入力を受け付けた文字列であるユーザ入力文字列(第1の文字列)、及び、データベース50から取得した文字列であるマッチング対象文字列(第2の文字列)を単語マッチングシステム10に送信する。 As shown in FIG. 1, the terminal 1 accepts input of input data (character string) from the user. The character string here is, for example, a character string for a name, an address, or the like. The terminal 1 may accept input of the type (name, address, etc.) of the character string together with the character string. Then, the terminal 1 acquires the character string to be matched from the database 50. The terminal 1 may acquire all the character strings stored in the database 50, or may acquire only the character strings of the same type as the character strings input by the user. That is, for example, when the terminal 1 accepts the input of the character string of the name from the user, the terminal 1 may acquire only the character string whose type is the name from the database 50. The acquisition of information from the database 50 by the terminal 1 may be performed based on an instruction from the word matching system 10. The terminal 1 uses a user input character string (first character string), which is a character string input from the user, and a matching target character string (second character string), which is a character string acquired from the database 50, as words. It is transmitted to the matching system 10.

単語マッチングシステム10は、端末1からユーザ入力文字列及びマッチング対象文字列の入力を受け付ける。そして、単語マッチングシステム10は、ユーザ入力文字列に含まれる文字の少なくとも一部を変更した変更文字列を複数パターン生成する。例えば図5に示される例では、「渡辺太郎」というユーザ入力文字列から、「渡邊太郎」「渡邊太朗」「渡邉太郎」「渡邉太朗」「渡辺太朗」という5パターンの変更文字列を生成している。単語マッチングシステム10は、ユーザ入力文字列及び複数パターンの変更文字列を、組合せ文字列として生成する。 The word matching system 10 accepts the input of the user input character string and the matching target character string from the terminal 1. Then, the word matching system 10 generates a plurality of patterns of changed character strings in which at least a part of the characters included in the user input character string is changed. For example, in the example shown in FIG. 5, five patterns of modified character strings "Taro Watanabe", "Taro Watanabe", "Taro Watanabe", "Taro Watanabe", and "Taro Watanabe" are generated from the user input character string "Taro Watanabe". ing. The word matching system 10 generates a user input character string and a plurality of patterns of changed character strings as a combination character string.

そして、単語マッチングシステム10は、予め記憶されている文字間のゆらぎやすさに基づいて、ユーザ入力文字列と組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する。ここでのゆらぎやすさとは、互いの文字間での表記ゆれの生じやすさである。本実施形態では、文字間のゆらぎやすさが高いほど、文字列間のゆらぎスコアが低くなる。単語マッチングシステム10は、ゆらぎスコアが低い組合せ文字列ほど候補文字列に決定されやすくなるように、複数の候補文字列を決定する。 Then, the word matching system 10 calculates a fluctuation score between the user input character string and the combination character string based on the fluctuation easiness between the characters stored in advance, and each of them is based on the fluctuation score. Determine multiple candidate character strings from the combination character strings. The easiness of fluctuation here is the easiness of notational fluctuation between characters. In the present embodiment, the higher the ease of fluctuation between characters, the lower the fluctuation score between character strings. The word matching system 10 determines a plurality of candidate character strings so that a combination character string having a lower fluctuation score is more likely to be determined as a candidate character string.

そして、単語マッチングシステム10は、マッチング対象文字列と各候補文字列とを比較し、各候補文字列のうち、マッチング対象文字列に最も近しい(近似する)候補文字列を出力文字列として導出する。また、単語マッチングシステム10は、出力文字列とマッチング対象文字列との近似度合いを示す近似度スコアを導出する。当該近似度スコアは、マッチング対象文字列を記憶しているデータベース50にユーザからの入力データ(詳細には、ゆらぎやすさを考慮してユーザ入力文字列から導出された候補文字列)が存在する可能性を示すスコアである。単語マッチングシステム10は、出力文字列、該出力文字列のゆらぎスコア、及び該出力文字列の近似度スコアを端末1に送信する。端末1は、これらの情報を出力する。なお、端末1は、近似度スコアが所定値よりも低い場合には、データベース50にユーザからの入力データ(詳細には、ゆらぎやすさを考慮してユーザ入力文字列から導出された候補文字列)が存在しないとして出力文字列を出力せず、存在しない旨の表記を出力してもよい。 Then, the word matching system 10 compares the matching target character string with each candidate character string, and derives the candidate character string closest to (approximate) to the matching target character string as an output character string among the candidate character strings. .. Further, the word matching system 10 derives an approximation score indicating the degree of approximation between the output character string and the matching target character string. The approximation score has input data from the user (specifically, a candidate character string derived from the user input character string in consideration of easiness of fluctuation) in the database 50 that stores the matching target character string. It is a score indicating the possibility. The word matching system 10 transmits the output character string, the fluctuation score of the output character string, and the approximation score of the output character string to the terminal 1. The terminal 1 outputs these information. When the degree of approximation score is lower than the predetermined value, the terminal 1 has input data from the user in the database 50 (specifically, a candidate character string derived from the user input character string in consideration of easiness of fluctuation). ) Does not exist, the output character string may not be output, and a notation indicating that it does not exist may be output.

次に、図2を参照して、単語マッチングシステム10の機能の詳細を説明する。図2は、図1の単語マッチングシステム10の機能ブロック図である。図2に示されるように、単語マッチングシステム10は、機能的な構成として、入力部11(取得部)と、組合せ生成部12と、組合せスコア算出部13(スコア算出部)と、比較部14と、出力部15と、を備えている。 Next, with reference to FIG. 2, the details of the function of the word matching system 10 will be described. FIG. 2 is a functional block diagram of the word matching system 10 of FIG. As shown in FIG. 2, the word matching system 10 has an input unit 11 (acquisition unit), a combination generation unit 12, a combination score calculation unit 13 (score calculation unit), and a comparison unit 14 as functional configurations. And an output unit 15.

入力部11は、ユーザが入力したユーザ入力文字列(第1の文字列)、及び、マッチング対象のマッチング対象文字列(第2の文字列)を端末1から取得する。入力部11は、取得した情報を組合せ生成部12に出力する。入力部11は、マッチング対象文字列として、種別毎に複数の文字列が予め記憶されたデータベース50(データ集合)から、ユーザ入力文字列と種別が同じ文字列のみを、端末1を介して取得してもよい。入力部11は、例えば、まずユーザ入力文字列を取得すると共に、当該ユーザ入力文字列と同じ種別の文字列を取得するように端末1に指示を行うことによって、ユーザ入力文字列と種別が同じ文字列のみを端末1を介して取得してもよい。例えば図3に示されるデータベース50のように、データ集合が表形式で記憶されている場合には、入力部11は、端末1に対して文字列を取得する列(例えば「氏名」の列)を指定し、ユーザ入力文字列と種別が同じ文字列のみを取得してもよい。また、データ集合が構造化されているが表形式でない場合(例えば1行ずつのテキスト等)やデータ集合が構造化されていない場合(例えばWeb上の文章等)においては、入力部11は、例えば固有表現抽出によって各文字列にカテゴリを付与し、特定のカテゴリが付与された文字列のみを取得してもよい。 The input unit 11 acquires the user input character string (first character string) input by the user and the matching target character string (second character string) to be matched from the terminal 1. The input unit 11 outputs the acquired information to the combination generation unit 12. The input unit 11 acquires only a character string having the same type as the user input character string from the database 50 (data set) in which a plurality of character strings for each type are stored in advance as the matching target character string via the terminal 1. You may. For example, the input unit 11 first acquires a user input character string, and then instructs the terminal 1 to acquire a character string of the same type as the user input character string, so that the type is the same as the user input character string. Only the character string may be acquired via the terminal 1. For example, when the data set is stored in a tabular format as in the database 50 shown in FIG. 3, the input unit 11 is a column for acquiring a character string for the terminal 1 (for example, a column of “name”). May be specified and only the character string having the same type as the user input character string may be acquired. Further, when the data set is structured but not in tabular form (for example, text line by line) or when the data set is not structured (for example, text on the Web), the input unit 11 may be used. For example, a category may be assigned to each character string by unique expression extraction, and only the character string to which a specific category is assigned may be acquired.

組合せ生成部12は、ユーザ入力文字列と、該ユーザ入力文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する。例えば図5に示されるように、「渡辺太郎」というユーザ入力文字列が入力された場合、組合せ生成部12は、ユーザ入力文字列である(1)「渡辺太郎」と、該「渡辺太郎」との文字列に含まれる文字の1つ又は2つを変更した5パターンの変更文字列(2)「渡邊太郎」、(3)「渡邊太朗」、(4)「渡邉太郎」、(5)「渡邉太朗」、(6)「渡辺太朗」とを、組合せ文字列として生成する。組合せ生成部12は、組合せ文字列を組合せスコア算出部13に出力する。 The combination generation unit 12 generates a user input character string and a plurality of patterns of changed character strings in which at least a part of the characters included in the user input character string is changed as a combination character string. For example, as shown in FIG. 5, when the user input character string "Taro Watanabe" is input, the combination generation unit 12 has the user input character string (1) "Taro Watanabe" and the "Taro Watanabe". 5 patterns of changed character strings that change one or two of the characters included in the character string (2) "Taro Watanabe", (3) "Taro Watanabe", (4) "Taro Watanabe", (5) "Taro Watanabe" and (6) "Taro Watanabe" are generated as a combination character string. The combination generation unit 12 outputs the combination character string to the combination score calculation unit 13.

組合せスコア算出部13は、予め記憶されている文字間のゆらぎやすさに基づいて、ユーザ入力文字列と各組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する。単語マッチングシステム10は、文字間のゆらぎやすさを示す文字間のゆらぎスコアを予め記憶している。図4は、記憶されているゆらぎやすさ情報の一例を示す図である。図4に示されるように、単語マッチングシステム10では、例えばタブにより区切られた3列のデータとしてゆらぎやすさ情報が記憶されている。図4に示されるゆらぎやすさ情報では、例えば、「沢」「澤」「1704」がタブにより区切られている。これは、「沢」「澤」の間でのゆらぎスコアが「1704」であることを示している。ここでのゆらぎやすさとは、互いの文字間での表記ゆれの生じやすさである。本実施形態では、文字間のゆらぎやすさが高いほど、文字間のゆらぎスコアが低くなる。そして、組合せスコア算出部13は、文字列に含まれる各文字間のゆらぎスコアをトータルすることにより、文字列間のゆらぎスコアを算出する(詳細は後述)。 The combination score calculation unit 13 calculates the fluctuation score between the user input character string and each combination character string based on the fluctuation easiness between the characters stored in advance, and each of them is based on the fluctuation score. Determine multiple candidate character strings from the combination character strings. The word matching system 10 stores in advance the fluctuation score between characters, which indicates the ease of fluctuation between characters. FIG. 4 is a diagram showing an example of stored fluctuation easiness information. As shown in FIG. 4, in the word matching system 10, fluctuation easiness information is stored as, for example, three columns of data separated by tabs. In the fluctuation easiness information shown in FIG. 4, for example, "sawa", "sawa", and "1704" are separated by tabs. This indicates that the fluctuation score between "Sawa" and "Sawa" is "1704". The easiness of fluctuation here is the easiness of notational fluctuation between characters. In the present embodiment, the higher the ease of fluctuation between characters, the lower the fluctuation score between characters. Then, the combination score calculation unit 13 calculates the fluctuation score between the character strings by totaling the fluctuation scores between the characters included in the character string (details will be described later).

組合せスコア算出部13は、各組合せ文字列について、ユーザ入力文字列との編集距離を更に考慮して、文字列間のゆらぎスコアを算出する。編集距離とは、ある文字列を別の文字列に変形する際に必要な「挿入」「編集」「置換」による最小の操作回数で定義されるものであり、二つの文字列を互いに同じにするために必要となるコストを示すものである。例えば、図5に示される例において、ユーザ入力文字列である「渡辺太郎」と組合せ文字列の1つである(1)「渡辺太郎」(ユーザ入力文字列と同じ)とは互いに全ての文字が同一であるので編集距離が「0」であり、ユーザ入力文字列である「渡辺太郎」と組合せ文字列の1つである(2)「渡邊太郎」とは互いに1文字異なるので編集距離が「1」であり、ユーザ入力文字列である「渡辺太郎」と組合せ文字列の1つである(3)「渡邊太朗」とは互いに2文字異なるので編集距離が「2」である。 The combination score calculation unit 13 calculates the fluctuation score between the character strings for each combination character string in consideration of the editing distance from the user input character string. The edit distance is defined by the minimum number of operations required for "inserting", "editing", and "replacement" when transforming one character string into another, and makes the two character strings the same as each other. It shows the cost required to do so. For example, in the example shown in FIG. 5, the user input character string "Taro Watanabe" and one of the combination character strings (1) "Taro Watanabe" (same as the user input character string) are all characters. The editing distance is "0" because they are the same, and the editing distance is different from the user input character string "Taro Watanabe" and one of the combination character strings (2) "Taro Watanabe". The editing distance is "2" because "1" is two characters different from "Taro Watanabe" which is a user input character string and (3) "Taro Watanabe" which is one of the combination character strings.

組合せスコア算出部13は、上述したような編集距離と、文字間のゆらぎスコアとを考慮して、文字列間のゆらぎスコアを算出する。具体的には、組合せスコア算出部13は、以下の数式に基づいて文字列間のゆらぎスコアを算出する。
文字列間のゆらぎスコア=Σ(編集距離×exp(文字間のゆらぎスコア×-1))
The combination score calculation unit 13 calculates the fluctuation score between character strings in consideration of the editing distance as described above and the fluctuation score between characters. Specifically, the combination score calculation unit 13 calculates the fluctuation score between character strings based on the following mathematical formula.
Fluctuation score between character strings = Σ (editing distance x exp (fluctuation score between characters x -1))

いま、図5に示される各組合せ文字列について、それぞれ、上記数式によりユーザ入力文字列との間でのゆらぎスコアを算出するとする。そして、図6に示されるように、単語マッチングシステム10において各文字間のゆらぎやすさを示すゆらぎスコアが記憶されているとする。このような文字間のゆらぎスコアは、図6に示されるように、2つの文字が決まればゆらぎスコアが算出される変換辞書として記憶されていてもよい。図6に示される例では、ユーザ入力文字列に含まれる「辺」が「邊」となる場合のゆらぎスコアが「a」であり、「辺」が「邉」となる場合のゆらぎスコアが「b」であり、「邊」が「辺」となる場合のゆらぎスコアが「c」であり、「郎」が「朗」となる場合のゆらぎスコアが「d」であるとされている。この場合、ユーザ入力文字列との編集距離が「0」である(互いに全ての文字が同一である)(1)「渡辺太郎」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「0」と算出される。また、ユーザ入力文字列との編集距離が「1」である(2)「渡邊太郎」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×a」と算出される。また、ユーザ入力文字列との編集距離が「2」である(3)「渡邊太朗」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×a+1×d」と算出される。また、ユーザ入力文字列との編集距離が「1」である(4)「渡邉太郎」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×b」と算出される。また、ユーザ入力文字列との編集距離が「2」である(5)「渡邉太朗」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×b+1×d」と算出される。また、ユーザ入力文字列との編集距離が「1」である(6)「渡辺太朗」については、上記数式に基づき、ユーザ入力文字列に対するゆらぎスコアが「1×d」と算出される。 Now, for each combination character string shown in FIG. 5, it is assumed that the fluctuation score with the user input character string is calculated by the above formula. Then, as shown in FIG. 6, it is assumed that the word matching system 10 stores a fluctuation score indicating the ease of fluctuation between each character. As shown in FIG. 6, such a fluctuation score between characters may be stored as a conversion dictionary in which a fluctuation score is calculated once two characters are determined. In the example shown in FIG. 6, the fluctuation score when the "edge" included in the user input character string is "邊" is "a", and the fluctuation score when the "edge" is "邉" is "". It is said that the fluctuation score when "b" is "b" and "邊" is "side" is "c", and the fluctuation score when "ro" is "ro" is "d". In this case, the editing distance from the user input character string is "0" (all characters are the same) (1) For "Taro Watanabe", the fluctuation score for the user input character string is based on the above formula. It is calculated as "0". Further, for (2) "Taro Watanabe" whose editing distance from the user input character string is "1", the fluctuation score for the user input character string is calculated as "1 x a" based on the above mathematical formula. Further, for (3) "Taro Watanabe" whose editing distance from the user input character string is "2", the fluctuation score for the user input character string is calculated as "1 x a + 1 x d" based on the above formula. .. Further, for (4) "Taro Watanabe" whose editing distance from the user input character string is "1", the fluctuation score for the user input character string is calculated as "1 x b" based on the above mathematical formula. Further, for (5) "Taro Watanabe" whose editing distance from the user input character string is "2", the fluctuation score for the user input character string is calculated as "1 × b + 1 × d" based on the above formula. .. Further, for (6) "Taro Watanabe" whose editing distance from the user input character string is "1", the fluctuation score for the user input character string is calculated as "1 × d" based on the above mathematical formula.

組合せスコア算出部13は、このようにして算出したゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する。組合せスコア算出部13は、例えば、ゆらぎスコアが所定値よりも小さい組合せ文字列を全て候補文字列とする。或いは、組合せスコア算出部13は、ゆらぎスコアの小ささが所定の順番までの組合せ文字列を、候補文字列としてもよい。組合せスコア算出部13は、各候補文字列と各候補文字列のゆらぎスコアとを比較部14に出力する。 The combination score calculation unit 13 determines a plurality of candidate character strings from each combination character string based on the fluctuation score calculated in this way. The combination score calculation unit 13 uses, for example, all combination character strings whose fluctuation score is smaller than a predetermined value as candidate character strings. Alternatively, the combination score calculation unit 13 may use a combination character string having a small fluctuation score up to a predetermined order as a candidate character string. The combination score calculation unit 13 outputs each candidate character string and the fluctuation score of each candidate character string to the comparison unit 14.

比較部14は、マッチング対象文字列と各候補文字列とを比較し、マッチング対象文字列との近似度が高い候補文字列ほど、出力文字列として導出されやすくなるように、該出力文字列を導出する。比較部14は、例えば、マッチング対象文字列に最も近似する(近しい)候補文字列を出力文字列として導出する。なお、比較部14は、出力文字列として複数の文字列を導出してもよい。文字列間の近似度合いについては、例えば編集距離等により導出されてもよい。また、比較部14は、出力文字列とマッチング対象文字列との近似度合いを示す近似度スコアを導出する。当該近似度スコアは、マッチング対象文字列を記憶しているデータベース50にユーザからの入力データ(詳細には、ゆらぎやすさを考慮してユーザ入力文字列から導出された候補文字列)が存在する可能性を示すスコアである。比較部14は、出力文字列、該出力文字列のゆらぎスコア、及び該出力文字列の近似度スコアを出力部15に送信する。 The comparison unit 14 compares the matching target character string with each candidate character string, and sets the output character string so that the candidate character string having a higher degree of closeness to the matching target character string is more likely to be derived as an output character string. Derived. The comparison unit 14 derives, for example, a candidate character string that is closest (closest) to the matching target character string as an output character string. The comparison unit 14 may derive a plurality of character strings as output character strings. The degree of approximation between character strings may be derived from, for example, the editing distance. Further, the comparison unit 14 derives an approximation score indicating the degree of approximation between the output character string and the matching target character string. The approximation score has input data from the user (specifically, a candidate character string derived from the user input character string in consideration of easiness of fluctuation) in the database 50 that stores the matching target character string. It is a score indicating the possibility. The comparison unit 14 transmits the output character string, the fluctuation score of the output character string, and the approximation score of the output character string to the output unit 15.

出力部15は、出力文字列を出力する。詳細には、出力部15は、出力文字列と、出力文字列のゆらぎスコアと、出力文字列の近似度スコアとを、共に、端末1に送信(出力)する。 The output unit 15 outputs an output character string. Specifically, the output unit 15 transmits (outputs) the output character string, the fluctuation score of the output character string, and the approximation score of the output character string to the terminal 1.

次に、単語マッチングシステム10が実施する処理について、図7を参照して説明する。図7は、本実施形態に係る単語マッチングシステム10の処理を示すフローチャートである。 Next, the process performed by the word matching system 10 will be described with reference to FIG. 7. FIG. 7 is a flowchart showing the processing of the word matching system 10 according to the present embodiment.

図7に示されるように、単語マッチングシステム10では、最初に端末1から文字列データ(ユーザ入力文字列及びマッチング対象文字列)の入力が受け付けられる(ステップS1)。つづいて、単語マッチングシステム10では、ユーザ入力文字列と、該ユーザ入力文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とが、組合せ文字列として生成される(ステップS2)。 As shown in FIG. 7, in the word matching system 10, input of character string data (user input character string and matching target character string) is first received from the terminal 1 (step S1). Subsequently, in the word matching system 10, a user input character string and a plurality of patterns of changed character strings in which at least a part of the characters included in the user input character string are changed are generated as a combination character string (step S2). ).

つづいて、単語マッチングシステム10では、予め記憶されている文字間のゆらぎやすさ(ゆらぎ頻度)に基づいて、ユーザ入力文字列と組合せ文字列との間でのゆらぎスコアが算出され、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列が決定される(ステップS3)。 Subsequently, in the word matching system 10, a fluctuation score between a user input character string and a combination character string is calculated based on the fluctuation easiness (fluctuation frequency) between characters stored in advance, and the fluctuation score is calculated. A plurality of candidate character strings are determined from each combination character string based on (step S3).

つづいて、単語マッチングシステム10では、マッチング対象文字列と各候補文字列とが比較され、マッチング対象文字列員最も近似する候補文字列が出力文字列として導出される(ステップS4)。最後に、単語マッチングシステム10では、出力文字列、出力文字列のゆらぎスコア、及び出力文字列の近似度スコアが端末1に送信される(ステップS5)。 Subsequently, in the word matching system 10, the matching target character string and each candidate character string are compared, and the candidate character string that most closely matches the matching target character string member is derived as an output character string (step S4). Finally, in the word matching system 10, the output character string, the fluctuation score of the output character string, and the approximation score of the output character string are transmitted to the terminal 1 (step S5).

次に、本実施形態に係る単語マッチングシステム10の作用効果について説明する。 Next, the operation and effect of the word matching system 10 according to the present embodiment will be described.

本実施形態に係る単語マッチングシステム10は、ユーザが入力したユーザ入力文字列、及び、マッチング対象のマッチング対象文字列を取得する入力部11と、ユーザ入力文字列と、該ユーザ入力文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する組合せ生成部12と、予め記憶されている文字間のゆらぎやすさに基づいて、ユーザ入力文字列と各組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各組合せ文字列の中から複数の候補文字列を決定する組合せスコア算出部13と、マッチング対象文字列と各候補文字列とを比較し、マッチング対象文字列に最も近似する候補文字列を出力文字列として導出する比較部14と、出力文字列を出力する出力部15と、を備える。 The word matching system 10 according to the present embodiment includes a user input character string input by the user, an input unit 11 for acquiring a matching target character string to be matched, a user input character string, and the user input character string. A combination generation unit 12 that generates a plurality of patterns of changed character strings in which at least a part of the characters is changed as a combination character string, and a user input character string based on the easiness of fluctuation between characters stored in advance. The combination score calculation unit 13 that calculates the fluctuation score between each combination character string and determines a plurality of candidate character strings from each combination character string based on the fluctuation score, the matching target character string and each. It includes a comparison unit 14 that compares with a candidate character string and derives a candidate character string that most closely matches the matching target character string as an output character string, and an output unit 15 that outputs an output character string.

本実施形態に係る単語マッチングシステム10では、ユーザ入力文字列に含まれる文字の一部が変更された組合せ文字列が複数パターン生成され、文字間のゆらぎやすさが考慮されて組合せ文字列のゆらぎスコアが算出されて該ゆらぎスコアに基づいて複数の候補文字列が決定され、マッチング対象文字列と各候補文字列とが比較されることによってマッチング対象文字列に近似した出力文字列が導出され、該出力文字列が出力される。例えばデータベース50における氏名等の突合を行う場合においては、データベース50に保持されている情報とユーザから入力された情報とが互いに異なり(表記ゆれ、異体字等が問題となり)、上述した突合等を行えないことがある。この点、本実施形態に係る単語マッチングシステム10では、組合せ文字列のうち、マッチング対象文字列に近しい文字列が出力文字列とされるため、マッチング対象文字列を予めデータベース50に保持されている正解データとしておくことにより、入力されたユーザ入力文字列がマッチング対象文字列に一致しない場合であっても、マッチング対象文字列に対応する文字列を出力することが可能になり、上述した突合等を適切に行うことができる。さらに、本実施形態に係る単語マッチングシステム10では、組合せ文字列の中から、文字間のゆらぎやすさが考慮されて候補文字列が決定されている。これにより、実際にゆらぎやすい文字列が候補文字列とされるため、例えばユーザが誤入力している場合において、ユーザが真に入力したかった可能性が高い文字列を候補文字列とすることができる。以上のような単語マッチングシステム10によれば、マッチング対象文字列とユーザ入力文字列とが一致していない場合において、マッチング対象文字列に対応する文字列であってユーザが入力することを意図していた文字列を導出し出力することができる。 In the word matching system 10 according to the present embodiment, a plurality of patterns of combined character strings in which some of the characters included in the user input character string are changed are generated, and fluctuations of the combined character strings are taken into consideration in consideration of fluctuations between characters. A score is calculated, a plurality of candidate character strings are determined based on the fluctuation score, and an output character string close to the matching target character string is derived by comparing the matching target character string with each candidate character string. The output character string is output. For example, when collating a name or the like in the database 50, the information held in the database 50 and the information input by the user are different from each other (problems such as notation fluctuation and variant characters), and the above-mentioned collation or the like is performed. There are some things you can't do. In this respect, in the word matching system 10 according to the present embodiment, among the combined character strings, the character string close to the matching target character string is regarded as the output character string, so that the matching target character string is stored in the database 50 in advance. By setting it as correct answer data, even if the input user input character string does not match the matching target character string, it is possible to output the character string corresponding to the matching target character string, and the above-mentioned collision etc. Can be done properly. Further, in the word matching system 10 according to the present embodiment, a candidate character string is determined from the combined character strings in consideration of the ease of fluctuation between characters. As a result, a character string that is likely to fluctuate is used as a candidate character string. Therefore, for example, when a user makes an erroneous input, a character string that the user is likely to have truly wanted to input should be used as a candidate character string. Can be done. According to the word matching system 10 as described above, when the matching target character string and the user input character string do not match, the character string corresponding to the matching target character string is intended to be input by the user. It is possible to derive and output the character string that was used.

出力部15は、出力文字列と共に、出力文字列のゆらぎスコアを出力してもよい。これにより、ユーザ入力文字列と出力文字列との間でのゆらぎやすさがどの程度であるかが出力され、出力文字列の尤もらしさ(出力文字列が、ユーザが意図するものである確率の高さ)を示すことが可能になる。 The output unit 15 may output the fluctuation score of the output character string together with the output character string. As a result, the degree of fluctuation between the user input character string and the output character string is output, and the plausibility of the output character string (the probability that the output character string is intended by the user). Height) can be shown.

組合せスコア算出部13は、ユーザ入力文字列との編集距離を更に考慮して、各組合せ文字列のゆらぎスコアを算出してもよい。編集距離が考慮されることにより、文字列間の類似度を考慮して、誤入力されやすい文字列を候補文字列とすることができる。 The combination score calculation unit 13 may calculate the fluctuation score of each combination character string in consideration of the editing distance from the user input character string. By considering the editing distance, it is possible to select a character string that is easily erroneously input as a candidate character string in consideration of the similarity between the character strings.

入力部11は、種別毎に複数の文字列が予め記憶されたデータベース50から、ユーザ入力文字列と種別が同じである文字列を、マッチング対象文字列として取得してもよい。同じ種別の文字列間で比較されることとなり、比較処理の精度を向上させると共に、比較処理を簡易化することができる。 The input unit 11 may acquire a character string having the same type as the user input character string as a matching target character string from the database 50 in which a plurality of character strings are stored in advance for each type. Character strings of the same type are compared, so that the accuracy of the comparison process can be improved and the comparison process can be simplified.

最後に、単語マッチングシステム10のハードウェア構成について、図8を参照して説明する。上述の単語マッチングシステム10(単語マッチングサーバ)は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。 Finally, the hardware configuration of the word matching system 10 will be described with reference to FIG. The word matching system 10 (word matching server) described above is physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like. May be good.

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。単語マッチングシステム10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。 In the following description, the word "device" can be read as a circuit, a device, a unit, or the like. The hardware configuration of the word matching system 10 may be configured to include one or more of the devices shown in the figure, or may be configured to include some of the devices.

単語マッチングシステム10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。 For each function in the word matching system 10, by loading predetermined software (program) on hardware such as the processor 1001 and the memory 1002, the processor 1001 performs an operation, and communication by the communication device 1004, the memory 1002, and the storage are performed. It is realized by controlling the reading and / or writing of the data in 1003.

プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、単語マッチングシステム10の組合せスコア算出部13等の制御機能はプロセッサ1001で実現されてもよい。 Processor 1001 operates, for example, an operating system to control the entire computer. The processor 1001 may be composed of a central processing unit (CPU) including an interface with a peripheral device, a control device, an arithmetic unit, a register, and the like. For example, the control function of the combination score calculation unit 13 of the word matching system 10 may be realized by the processor 1001.

また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、単語マッチングシステム10の組合せスコア算出部13等の制御機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。 Further, the processor 1001 reads a program (program code), a software module and data from the storage 1003 and / or the communication device 1004 into the memory 1002, and executes various processes according to these. As the program, a program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used. For example, the control function of the combination score calculation unit 13 of the word matching system 10 may be realized by a control program stored in the memory 1002 and operated by the processor 1001, or may be realized in the same manner for other functional blocks. good. Although it has been described that the various processes described above are executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001. Processor 1001 may be mounted on one or more chips. The program may be transmitted from the network via a telecommunication line.

メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(ElectricallyErasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。 The memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (ElectricallyErasable Programmable ROM), and a RAM (Random Access Memory). You may. The memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like. The memory 1002 can store a program (program code), a software module, or the like that can be executed to implement the wireless communication method according to the embodiment of the present invention.

ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。 The storage 1003 is a computer-readable recording medium, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, an optical magnetic disk (for example, a compact disk, a digital versatile disk, a Blu-ray). It may consist of at least one (registered trademark) disk), smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like. The storage 1003 may be referred to as an auxiliary storage device. The storage medium described above may be, for example, a database, server or other suitable medium containing memory 1002 and / or storage 1003.

通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。 The communication device 1004 is hardware (transmission / reception device) for communicating between computers via a wired and / or wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.

入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。 The input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside. The output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside. The input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).

また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。 Further, each device such as the processor 1001 and the memory 1002 is connected by a bus 1007 for communicating information. The bus 1007 may be composed of a single bus or may be composed of different buses between the devices.

また、単語マッチングシステム10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。 Further, the word matching system 10 includes hardware such as a microprocessor, a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured by, and a part or all of each functional block may be realized by the hardware. For example, the processor 1001 may be implemented on at least one of these hardware.

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。 Although the present embodiment has been described in detail above, it is clear to those skilled in the art that the present embodiment is not limited to the embodiment described in the present specification. This embodiment can be implemented as an amendment or modification without departing from the spirit and scope of the present invention as determined by the description of the scope of claims. Therefore, the description of the present specification is for the purpose of illustration and does not have any limiting meaning to the present embodiment.

本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broad-band)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-Wide Band)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 Each aspect / embodiment described herein includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA. (Registered Trademarks), GSM (Registered Trademarks), CDMA2000, UMB (Ultra Mobile Broad-band), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-Wide) Band), Bluetooth®, and other systems that utilize suitable systems and / or extended next-generation systems based on them may be applied.

本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The processing procedures, sequences, flowcharts, and the like of each aspect / embodiment described in the present specification may be rearranged in order as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order and are not limited to the particular order presented.

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input / output information and the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Information to be input / output may be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.

判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).

本明細書で説明した各態様/実施形態は単独で用いてもよいし、組合せて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect / embodiment described in the present specification may be used alone, in combination, or may be switched and used according to the execution. Further, the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit notification, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software, whether called software, firmware, middleware, microcode, hardware description language, or other names, is an instruction, instruction set, code, code segment, program code, program, subprogram, software module. , Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, features, etc. should be broadly interpreted.

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software may use wired technology such as coaxial cable, fiber optic cable, twist pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to website, server, or other. When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.

本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組合せによって表されてもよい。 The information, signals, etc. described herein may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.

なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。 The terms described in the present specification and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.

また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 Further, the information, parameters, etc. described in the present specification may be represented by an absolute value, a relative value from a predetermined value, or another corresponding information. ..

ユーザ端末は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。 User terminals may be mobile communication terminals, subscriber stations, mobile units, subscriber units, wireless units, remote units, mobile devices, wireless devices, wireless communication devices, remote devices, mobile subscriber stations, access terminals, etc. It may also be referred to as a mobile device, wireless device, remote device, handset, user agent, mobile client, client, or some other suitable term.

本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。 The terms "determining" and "determining" as used herein may include a wide variety of actions. "Judgment", "decision" is, for example, calculating, computing, processing, deriving, investigating, looking up (eg, table, database or another). It may include searching in the data structure), considering that the confirmation (ascertaining) is "judgment" and "decision". Also, "judgment" and "decision" are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access. It may include (for example, accessing data in memory) to be regarded as "judgment" or "decision". In addition, "judgment" and "decision" are considered to be "judgment" and "decision" when the things such as solving, selecting, choosing, establishing, and comparing are regarded as "judgment" and "decision". Can include. That is, "judgment" and "decision" may include considering some action as "judgment" and "decision".

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 The phrase "based on" as used herein does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".

本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 As used herein by designations such as "first", "second", etc., any reference to that element does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.

「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 As long as "include", "including", and variations thereof are used herein or within the scope of the claims, these terms are similar to the term "comprising". In addition, it is intended to be inclusive. Moreover, the term "or" as used herein or in the claims is intended to be non-exclusive.

本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。 In the present specification, a plurality of devices shall be included unless the device has only one device apparently in context or technically.

本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。 The entire disclosure is intended to include the plural, unless the context clearly indicates the singular.

10…単語マッチングシステム、11…入力部(取得部)12…組合せ生成部、13…組合せスコア算出部(スコア算出部)、14…比較部、15…出力部、50…データベース。 10 ... word matching system, 11 ... input unit (acquisition unit) 12 ... combination generation unit, 13 ... combination score calculation unit (score calculation unit), 14 ... comparison unit, 15 ... output unit, 50 ... database.

Claims (4)

ユーザが入力した第1の文字列、及び、マッチング対象の第2の文字列を取得する取得部と、
前記第1の文字列と、該第1の文字列に含まれる文字の少なくとも一部を変更した複数パターンの変更文字列とを、組合せ文字列として生成する組合せ生成部と、
予め記憶されている文字間のゆらぎやすさに基づいて、前記第1の文字列と各前記組合せ文字列との間でのゆらぎスコアを算出し、該ゆらぎスコアに基づいて、各前記組合せ文字列の中から複数の候補文字列を決定するスコア算出部と、
前記第2の文字列と各前記候補文字列とを比較し、前記第2の文字列との近似度が高い前記候補文字列ほど、出力文字列として導出されやすくなるように、該出力文字列を導出する比較部と、
前記出力文字列を出力する出力部と、を備える文字列比較システム。
An acquisition unit that acquires the first character string input by the user and the second character string to be matched.
A combination generation unit that generates a combination character string of the first character string and a plurality of patterns of change character strings in which at least a part of the characters included in the first character string is changed.
The fluctuation score between the first character string and each combination character string is calculated based on the fluctuation easiness between the characters stored in advance, and each combination character string is calculated based on the fluctuation score. A score calculation unit that determines multiple candidate character strings from among
The output character string is compared with the second character string and each candidate character string so that the candidate character string having a higher degree of approximation to the second character string is more likely to be derived as an output character string. And the comparison part to derive
A character string comparison system including an output unit that outputs the output character string.
前記出力部は、前記出力文字列と共に、前記出力文字列の前記ゆらぎスコアを出力する、請求項1記載の文字列比較システム。 The character string comparison system according to claim 1, wherein the output unit outputs the fluctuation score of the output character string together with the output character string. 前記スコア算出部は、前記第1の文字列との編集距離を更に考慮して、各前記組合せ文字列の前記ゆらぎスコアを算出する、請求項1又は2記載の文字列比較システム。 The character string comparison system according to claim 1 or 2, wherein the score calculation unit calculates the fluctuation score of each combination character string in consideration of the editing distance from the first character string. 前記取得部は、種別毎に複数の文字列が予め記憶されたデータ集合から、前記第1の文字列と種別が同じである文字列を、前記第2の文字列として取得する、請求項1~3のいずれか一項記載の文字列比較システム。 The acquisition unit acquires, as the second character string, a character string having the same type as the first character string from a data set in which a plurality of character strings are stored in advance for each type. The character string comparison system according to any one of 3 to 3.
JP2020187844A 2020-11-11 2020-11-11 Character string comparison system Pending JP2022077150A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020187844A JP2022077150A (en) 2020-11-11 2020-11-11 Character string comparison system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020187844A JP2022077150A (en) 2020-11-11 2020-11-11 Character string comparison system

Publications (1)

Publication Number Publication Date
JP2022077150A true JP2022077150A (en) 2022-05-23

Family

ID=81654287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020187844A Pending JP2022077150A (en) 2020-11-11 2020-11-11 Character string comparison system

Country Status (1)

Country Link
JP (1) JP2022077150A (en)

Similar Documents

Publication Publication Date Title
US10152473B2 (en) English input method and input device
JP7222082B2 (en) Recognition error correction device and correction model
US20190258615A1 (en) Data normalization system
JP2010140475A (en) Method, apparatus and computer program for providing input order independent character input mechanism
JP6976448B2 (en) Machine translation controller
US11663420B2 (en) Dialogue system
JP2021124913A (en) Retrieval device
JP7043593B2 (en) Dialogue server
JP2022077150A (en) Character string comparison system
JP2018067264A (en) Data search program, data search device, and data search method
US10942934B2 (en) Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus
WO2021215262A1 (en) Punctuation mark delete model training device, punctuation mark delete model, and determination device
CN115827125A (en) Interface control testing method and device
JP7194759B2 (en) Translation data generation system
US11651246B2 (en) Question inference device
JP7016405B2 (en) Dialogue server
CN111753548A (en) Information acquisition method and device, computer storage medium and electronic equipment
WO2022130940A1 (en) Presentation device
JP7477359B2 (en) Writing device
JP6809971B2 (en) Name identification device
US20220277731A1 (en) Word weight calculation system
US20220245363A1 (en) Generation device and normalization model
JP6976447B2 (en) Machine translation controller
WO2024048036A1 (en) Store determination device
US20230015324A1 (en) Retrieval device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240417