JP2023039822A - Information processing device, information processing method, and information processing program - Google Patents

Information processing device, information processing method, and information processing program Download PDF

Info

Publication number
JP2023039822A
JP2023039822A JP2021147126A JP2021147126A JP2023039822A JP 2023039822 A JP2023039822 A JP 2023039822A JP 2021147126 A JP2021147126 A JP 2021147126A JP 2021147126 A JP2021147126 A JP 2021147126A JP 2023039822 A JP2023039822 A JP 2023039822A
Authority
JP
Japan
Prior art keywords
character string
information processing
variant
similarity
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021147126A
Other languages
Japanese (ja)
Inventor
伸裕 鍜治
Nobuhiro Kaji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2021147126A priority Critical patent/JP2023039822A/en
Publication of JP2023039822A publication Critical patent/JP2023039822A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

To provide an information processing device, an information processing method, and an information processing program capable of appropriately determining similarity between character strings.SOLUTION: In an information processing system in which a terminal device and an information processing device are communicatively connected by wire or radio via a communication network, an information processing device 100 includes an acquisition unit 131 and a determination unit 133. The acquisition unit 131 acquires a first variant notation character string obtained by converting a first character string, which is a predetermined character string, into a variant notation, and a second variant notation character string obtained by converting a second character string, which is a character string different from the first character string, into a variant notation. The determination unit 133 determines similarity between the first character string and the second character string based on the first variant notation character string and the second variant notation character string.SELECTED DRAWING: Figure 3

Description

本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。 The present invention relates to an information processing device, an information processing method, and an information processing program.

ユーザが入力した文字列を訂正(変換)する技術が提供されている。例えば、ユーザが入力したクエリに誤記が含まれる場合等において、その誤記を訂正した上で検索結果をユーザに提供する技術が提供されている(例えば特許文献1等)。 Techniques for correcting (converting) a character string input by a user have been provided. For example, when a query input by a user contains a typographical error, there is provided a technique for correcting the typographical error and providing the user with search results (for example, Patent Document 1, etc.).

特許第6529456号公報Japanese Patent No. 6529456

しかしながら、上記の従来技術では、文字列を適切に訂正できない場合がある。例えば、従来技術では第1文字列とその第1文字列の誤記として入力され得る第2文字列とを対応付けた辞書を用いて、文字列を変換しているに過ぎず、辞書に含まれない文字列については対応することが難しい。そのため、文字列を訂正するためにも文字列間の類似性を適切に判定することが望まれている。 However, the above-described conventional techniques may not be able to properly correct character strings. For example, in the prior art, the character string is simply converted using a dictionary that associates the first character string with the second character string that can be input as an error in the first character string. It is difficult to deal with non-existent character strings. Therefore, it is desired to appropriately determine the similarity between character strings in order to correct the character strings.

本願は、上記に鑑みてなされたものであって、文字列間の類似性を適切に判定する情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。 The present application has been made in view of the above, and an object thereof is to provide an information processing apparatus, an information processing method, and an information processing program for appropriately determining similarity between character strings.

本願に係る情報処理装置は、所定の文字列である第1文字列を異表記に変換した第1異表記文字列と、前記第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列とを取得する取得部と、前記第1異表記文字列と、前記第2異表記文字列とに基づいて、前記第1文字列と前記第2文字列との類似性を判定する判定部と、を備えたことを特徴とする。 An information processing apparatus according to the present application provides a first variant character string obtained by converting a first character string, which is a predetermined character string, into a different notation, and a second character string, which is a character string different from the first character string. an acquisition unit that acquires a second variant character string converted into notation, and the first variant character string and the second variant character string based on the first variant character string and the second variant character string. and a determination unit that determines similarity with.

実施形態の一態様によれば、文字列間の類似性を適切に判定することができるという効果を奏する。 According to one aspect of the embodiment, it is possible to appropriately determine the similarity between character strings.

図1は、実施形態に係る情報処理の一例を示す図である。FIG. 1 is a diagram illustrating an example of information processing according to an embodiment. 図2は、文字列と異表記との関係の一例を示す図である。FIG. 2 is a diagram showing an example of the relationship between character strings and different notations. 図3は、実施形態に係る情報処理装置の構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of an information processing apparatus according to the embodiment; 図4は、実施形態に係る判定用情報記憶部の一例を示す図である。FIG. 4 is a diagram illustrating an example of a determination information storage unit according to the embodiment; 図5は、実施形態に係る文字列情報記憶部の一例を示す図である。FIG. 5 is a diagram illustrating an example of a character string information storage unit according to the embodiment; 図6は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。FIG. 6 is a flowchart illustrating an example of processing by the information processing apparatus according to the embodiment; 図7は、オートマトンに関する一例を示す概念図である。FIG. 7 is a conceptual diagram showing an example of an automaton. 図8は、ハードウェア構成の一例を示す図である。FIG. 8 is a diagram illustrating an example of a hardware configuration;

以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Hereinafter, modes for implementing an information processing apparatus, an information processing method, and an information processing program (hereinafter referred to as "embodiments") according to the present application will be described in detail with reference to the drawings. The information processing apparatus, information processing method, and information processing program according to the present application are not limited to this embodiment. Also, in each of the following embodiments, the same parts are denoted by the same reference numerals, and overlapping descriptions are omitted.

(実施形態)
〔1.情報処理〕
図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の一例を示す図である。図1では、情報処理装置100は、ユーザが入力したクエリ(文字列)を対象として類似性の判定を行い、判定結果を基に文字列の訂正(変更)を行う場合を一例として示す。なお、図1で示す処理は一例に過ぎず、類似性の判定及び文字列の訂正(変更)の対象は、クエリに限らず、文字列であれば、どのような文字列が対象であってもよい。
(embodiment)
[1. information processing]
An example of information processing according to the embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of information processing according to an embodiment. FIG. 1 shows an example in which the information processing apparatus 100 performs similarity determination on a query (character string) input by a user, and corrects (changes) the character string based on the determination result. Note that the processing shown in FIG. 1 is only an example, and the targets for similarity determination and character string correction (change) are not limited to queries, and any character string can be targeted. good too.

まず、情報処理システム1の構成について説明する。図1に示すように、情報処理システム1は、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは図示しない所定の通信網を介して、有線または無線により通信可能に接続される。なお、図1に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100が含まれてもよい。 First, the configuration of the information processing system 1 will be described. As shown in FIG. 1 , the information processing system 1 includes a terminal device 10 and an information processing device 100 . The terminal device 10 and the information processing device 100 are communicably connected by wire or wirelessly via a predetermined communication network (not shown). Note that the information processing system 1 shown in FIG. 1 may include a plurality of terminal devices 10 and a plurality of information processing apparatuses 100 .

情報処理装置100は、文字列を異表記に変換した文字列(「異表記文字列」ともいう)に基づいて、文字列間との類似性を判定するコンピュータである。例えば、情報処理装置100は、所定の文字列である第1文字列を異表記に変換した第1異表記文字列と、第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列とに基づいて、第1文字列と第2文字列との類似性を判定する。以下では、所定の対象を示す文字列を第1文字列とし、ユーザが入力したクエリ(文字列)を第2文字列として説明する。 The information processing apparatus 100 is a computer that determines similarity between character strings based on character strings obtained by converting character strings into different notations (also referred to as “character strings with different notations”). For example, the information processing apparatus 100 converts a first character string, which is a predetermined character string, into different notations, and a second character string, which is a character string different from the first character string, in different notations. Similarity between the first character string and the second character string is determined based on the second variant character string converted to . In the following description, a character string indicating a predetermined target is defined as a first character string, and a query (character string) input by a user is defined as a second character string.

図1では、情報処理装置100は、クエリを入力したユーザが利用する端末装置10に、検索結果を提供する検索装置としても機能する。例えば、情報処理装置100は、ウェブページの対象として検索処理を実行する検索エンジンとしての機能を有する。なお、訂正要否を判定し用いるクエリを確定した後の処理、すなわちクエリを用いて検索を行う点は通常の検索エンジンと同様であるため、適宜詳細な説明を省略する。例えば、情報処理装置100は、クエリを用いた検索処理の対象となる対象情報群であるウェブページ群が、インデックスされて格納されたデータベースを有し、そのデータベースの情報を対象として検索処理を実行する。なお、検索される対象は、ウェブページに限らず、クエリを用いて検索可能であれば、どのような情報であってもよく、例えば電子商取引における商品等の取引対象等、様々な検索対象であってもよい。 In FIG. 1, the information processing device 100 also functions as a search device that provides search results to the terminal device 10 used by the user who has input the query. For example, the information processing apparatus 100 has a function as a search engine that executes search processing for web pages. Note that the processing after determining whether or not correction is necessary and determining the query to be used, that is, performing a search using the query, is the same as in a normal search engine, so detailed description thereof will be omitted as appropriate. For example, the information processing apparatus 100 has a database in which a group of web pages, which is a group of target information to be searched using a query, is indexed and stored, and executes search processing on the information in the database. do. The target to be searched is not limited to web pages, and can be any information as long as it can be searched using a query. There may be.

図1では情報処理装置100が検索装置としても機能する、すなわち情報処理装置100と検索装置とが一体である場合を説明するが、情報処理装置100と検索装置とは別体であってもよい。この場合、情報処理システム1には、クエリを対象とした検索処理を実行し、検索結果を提供する検索サービスを提供する検索装置が含まれる。例えば、情報処理装置100は、ユーザが入力したクエリ、または訂正後のクエリを検索装置へ送信し、検索装置から検索結果を受信し、その検索結果をユーザが利用する端末装置10に送信する。なお、検索装置が直接ユーザが利用する端末装置10へ検索結果を送信してもよい。 FIG. 1 illustrates a case where the information processing device 100 also functions as a search device, that is, the information processing device 100 and the search device are integrated. However, the information processing device 100 and the search device may be separate entities. . In this case, the information processing system 1 includes a search device that executes a search process for a query and provides a search service that provides search results. For example, the information processing device 100 transmits a query input by the user or a corrected query to the search device, receives search results from the search device, and transmits the search results to the terminal device 10 used by the user. Note that the search device may directly transmit the search result to the terminal device 10 used by the user.

端末装置10は、ユーザによって利用されるデバイス(コンピュータ)である。端末装置10は、ユーザによる操作を受け付ける。端末装置10は、ユーザによるクエリの入力を受け付ける。端末装置10は、情報処理装置100から提供された検索結果を表示する。 The terminal device 10 is a device (computer) used by a user. The terminal device 10 receives an operation by a user. The terminal device 10 receives a query input by the user. The terminal device 10 displays search results provided from the information processing device 100 .

また、端末装置10は、加速度センサやジャイロセンサ等を有し、ユーザの運動状態を検知する。また、端末装置10は、GPSセンサ等の位置センサを有し、ユーザの位置情報を検知する。また、端末装置10は、温度センサや気圧センサ等の種々の機能を有し、温度や気圧等のユーザの置かれている環境情報を検知し、取得可能であってもよい。また、端末装置10は、心拍センサ等の種々の機能を有し、ユーザの生体情報を検知し、取得可能であってもよい。例えば、端末装置10を利用するユーザは、端末装置10と通信可能なウェアラブルデバイスを身に付けることにより、端末装置10によりユーザ自身のコンテキスト情報を取得可能としてもよい。例えば、端末装置10を利用するユーザは、端末装置10と通信可能なリストバンド型のウェアラブルデバイスを身に付けることにより、端末装置10によりユーザ自身の心拍(脈拍)に関する情報を端末装置10が取得可能としてもよい。また、端末装置10は、画像センサを有してもよい。なお、上記は一例であり、端末装置10は、様々な情報を検知するセンサを有してもよい。 In addition, the terminal device 10 has an acceleration sensor, a gyro sensor, and the like, and detects the motion state of the user. The terminal device 10 also has a position sensor such as a GPS sensor, and detects user position information. Further, the terminal device 10 may have various functions such as a temperature sensor and an air pressure sensor, and may be capable of detecting and acquiring environment information such as temperature and air pressure in which the user is placed. In addition, the terminal device 10 may have various functions such as a heartbeat sensor, and may be capable of detecting and acquiring biological information of the user. For example, a user using the terminal device 10 may acquire the user's own context information from the terminal device 10 by wearing a wearable device capable of communicating with the terminal device 10 . For example, a user using the terminal device 10 wears a wristband-type wearable device that can communicate with the terminal device 10, so that the terminal device 10 acquires information about the user's own heartbeat (pulse). It may be possible. Also, the terminal device 10 may have an image sensor. Note that the above is just an example, and the terminal device 10 may have a sensor that detects various information.

また、以下では、端末装置10をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置10と読み替えることもできる。なお、端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。図1では、端末装置10がノート型PCである場合を示す。 Moreover, below, the terminal device 10 may be described as a user. That is, hereinafter, the user can also be read as the terminal device 10 . The terminal device 10 is implemented by, for example, a smart phone, a tablet terminal, a notebook PC (Personal Computer), a desktop PC, a mobile phone, a PDA (Personal Digital Assistant), or the like. FIG. 1 shows a case where the terminal device 10 is a notebook PC.

以下、図1を用いて、情報処理の一例を説明する。図1では、ユーザがユーザID「U1」により識別されるユーザ(以下、「ユーザU1」とする場合がある)である場合を示す。端末装置10は、ユーザU1による「ホゲ神津尾」というクエリの入力を受け付ける(ステップS11)。なお、「ホゲ神津尾」は具体的な対象がない文字列であるものとする。例えば、「ホゲ神津尾」は、「ホゲ行動」と入力したかったユーザU1が入力を誤った(スペルミスの)文字列であるものとする。図1に示す例において、ユーザU1は、端末装置10の画面に表示された検索サイトのページ中の検索窓にクエリ「ホゲ神津尾」を入力し、検索実行のボタンを押下する。 An example of information processing will be described below with reference to FIG. FIG. 1 shows a case where the user is identified by a user ID "U1" (hereinafter sometimes referred to as "user U1"). The terminal device 10 receives an input of a query "Huge Kozuo" by the user U1 (step S11). It should be noted that "hogekozuo" is a character string with no specific target. For example, "hogekozuo" is assumed to be a character string that the user U1 who wanted to input "hoge action" mistyped (mispelled). In the example shown in FIG. 1, the user U1 inputs the query "hoge kozuo" into the search window in the page of the search site displayed on the screen of the terminal device 10, and presses the search execution button.

そして、端末装置10は、クエリ「ホゲ神津尾」を情報処理装置100へ送信する(ステップS12)。端末装置10からクエリ「ホゲ神津尾」を受信した情報処理装置100は、受信したクエリ「ホゲ神津尾」である第2文字列CS2と比較するキーワード(第1文字列)を取得する(ステップS13)。情報処理装置100は、「ホゲ神津尾」と比較するキーワード(第1文字列)をキーワード群DBから取得する。キーワード群DBに含まれる各文字列は、各々が対象を示す文字列である。例えば、キーワード群DBは、新語やスペルミスが生じやすい単語が含まれる。例えば、キーワード群DBは、文字列情報記憶部122(図5参照)に記憶される。 Then, the terminal device 10 transmits the query "hoge kozuo" to the information processing device 100 (step S12). The information processing device 100, which has received the query "Hoge Kozuo" from the terminal device 10, acquires a keyword (first character string) to be compared with the second character string CS2, which is the received query "Hoge Kozuo" (step S13). ). The information processing apparatus 100 acquires a keyword (first character string) to be compared with "hogekozuo" from the keyword group DB. Each character string included in the keyword group DB is a character string that indicates a target. For example, the keyword group DB includes new words and words that are likely to be misspelled. For example, the keyword group DB is stored in the character string information storage unit 122 (see FIG. 5).

情報処理装置100は、キーワード群DBを検索し「ホゲ神津尾」と比較する第1文字列をキーワード群DBから取得する。例えば、情報処理装置100は、キーワード群DB中の文字列のうち、クエリ「ホゲ神津尾」と少なくとも一部が一致する文字列を第1文字列として取得する。図1では、情報処理装置100は、クエリ「ホゲ神津尾」と文字列「ホゲ」が一致する文字列「ホゲ行動」を取得する。すなわち、情報処理装置100は、文字列「ホゲ行動」をクエリ「ホゲ神津尾」である第2文字列CS2と比較する第1文字列CS1として取得する。なお、「ホゲ行動」は具体的な対象を示す文字列(例えばエンターテインメント商品のタイトル等)であるものとする。 The information processing apparatus 100 searches the keyword group DB and acquires from the keyword group DB a first character string to be compared with "hogekozuo". For example, the information processing apparatus 100 acquires, as the first character string, a character string that at least partially matches the query “hogekozuo” from among the character strings in the keyword group DB. In FIG. 1 , the information processing apparatus 100 acquires the character string “hoge action” in which the query “hoge kozuo” matches the character string “hoge”. That is, the information processing apparatus 100 acquires the character string "hoge action" as the first character string CS1 to be compared with the second character string CS2, which is the query "hoge kozuo". It should be noted that "hoge behavior" is a character string indicating a specific object (for example, the title of an entertainment product, etc.).

なお、図1では説明を簡単にするために、1つの第1文字列のみを取得する場合を示すが、情報処理装置100は、複数の第1文字列を取得し、各第1文字列とクエリ「ホゲ神津尾」との類似度を算出し、類似度が最も高い第1文字列を対象として、類似性の判定や文字列の訂正(変更)の処理を行ってもよい。 Note that FIG. 1 shows a case where only one first character string is acquired for the sake of simplicity of explanation, but the information processing apparatus 100 acquires a plurality of first character strings, and each first character string and The degree of similarity with the query “hogekozuo” may be calculated, and the processing of determining the similarity and correcting (changing) the character string may be performed on the first character string with the highest degree of similarity.

情報処理装置100は、文字列「ホゲ行動」である第1文字列CS1を異表記に変換する(ステップS14)。図1では、情報処理装置100は、第1文字列CS1がローマ字に変換することにより、ローマ字の文字列「hogekoudou」である第1異表記文字列DN1を生成する。なお、情報処理装置100は、第1文字列を第1異表記文字列へ変換可能であれば、どのような情報を用いて変換を行ってもよい。例えば、情報処理装置100は、第1文字列と第1異表記文字列とが対応付けられた一覧リストを用いて、変換を行ってもよい。 The information processing apparatus 100 converts the first character string CS1, which is the character string "hoge action", into a different notation (step S14). In FIG. 1, the information processing apparatus 100 converts the first character string CS1 into Romaji to generate a first variant character string DN1 that is the Romaji character string "hogekoudou". Note that the information processing apparatus 100 may perform conversion using any information as long as the first character string can be converted into the first variant character string. For example, the information processing apparatus 100 may perform conversion using a list in which the first character string and the first variant character string are associated with each other.

また、情報処理装置100は、文字列「ホゲ神津尾」である第2文字列CS2を異表記に変換する(ステップS15)。図1では、情報処理装置100は、第2文字列CS2がローマ字に変換することにより、ローマ字の文字列「hogekouduo」である第2異表記文字列DN2を生成する。なお、情報処理装置100は、第2文字列を第2異表記文字列へ変換可能であれば、どのような情報を用いて変換を行ってもよい。例えば、情報処理装置100は、端末装置10からユーザU1が文字列「ホゲ神津尾」を入力した際にどのキーをタッチ(選択)したかを示す入力情報を受信し、その入力情報を用いて、変換を行ってもよい。 Further, the information processing apparatus 100 converts the second character string CS2, which is the character string "hogekozuo", into a different notation (step S15). In FIG. 1, the information processing apparatus 100 converts the second character string CS2 into Romaji to generate the second variant character string DN2, which is the Romaji character string "hogekouduo". Note that the information processing apparatus 100 may use any information to convert the second character string into the second variant character string, as long as the second character string can be converted. For example, the information processing apparatus 100 receives input information indicating which key was touched (selected) when the user U1 entered the character string "hogekozuo" from the terminal device 10, and uses the input information to , may be converted.

そして、情報処理装置100は、第1異表記文字列と、第2異表記文字列とに基づいて、第1文字列と第2文字列との類似度を算出する(ステップS16)。図1では、情報処理装置100は、第1異表記文字列DN1と、第2異表記文字列DN2とに基づいて、第1文字列CS1と第2文字列CS2との類似度を算出する。すなわち、情報処理装置100は、ローマ字の文字列「hogekoudou」と、ローマ字の文字列「hogekouduo」とに基づいて、文字列「ホゲ行動」と文字列「ホゲ神津尾」との類似度を算出する。 Then, the information processing apparatus 100 calculates the degree of similarity between the first character string and the second character string based on the first different notation character string and the second different notation character string (step S16). In FIG. 1, the information processing apparatus 100 calculates the degree of similarity between the first character string CS1 and the second character string CS2 based on the first different notation character string DN1 and the second different notation character string DN2. That is, the information processing apparatus 100 calculates the degree of similarity between the character string “hoge action” and the character string “hoge koudou” based on the Roman character string “hogekoudou” and the Roman character string “hogekouduo”. .

例えば、情報処理装置100は、ローマ字の文字列「hogekoudou」と、ローマ字の文字列「hogekouduo」との間の編集距離を、文字列「ホゲ行動」と文字列「ホゲ神津尾」との類似度として算出する。図1では、情報処理装置100は、文字列「ホゲ行動」と文字列「ホゲ神津尾」との類似度VL1を算出する。類似度VL1は具体的な数値であるものとする。なお、上記は一例に過ぎず、情報処理装置100は、様々な値を類似度として用いてもよく、例えば編集距離の逆数を類似度として用いてもよいし、編集距離の逆数を正規化した値を類似度として用いてもよい。 For example, the information processing apparatus 100 calculates the edit distance between the Romaji character string “hogekoudou” and the Romaji character string “hogekouduo” as the similarity between the character strings “hogeaction” and the character string “hogekozuo”. Calculate as In FIG. 1, the information processing apparatus 100 calculates the degree of similarity VL1 between the character string "hoge action" and the character string "hoge kozuo". It is assumed that the similarity VL1 is a specific numerical value. In addition, the above is only an example, the information processing apparatus 100 may use various values as the similarity, for example, the reciprocal of the edit distance may be used as the similarity, or the reciprocal of the edit distance is normalized A value may be used as the degree of similarity.

そして、情報処理装置100は、算出した類似度を用いて、第1文字列と第2文字列との類似性を判定する(ステップS17)。例えば、情報処理装置100は、算出した類似度を用いて、第1文字列と第2文字列との類似性を判定し、類似性が高いと判定した場合、第2文字列を第1文字列に訂正すると判定する。情報処理装置100は、算出した類似度と閾値とを比較して、第1文字列と第2文字列との類似性を判定する。なお、情報処理装置100は、閾値を外部装置から取得してもよいし、判定用情報記憶部121(図4参照)に記憶した閾値を用いてもよい。 Then, the information processing apparatus 100 uses the calculated degree of similarity to determine the similarity between the first character string and the second character string (step S17). For example, the information processing apparatus 100 uses the calculated degree of similarity to determine the similarity between the first character string and the second character string. It is determined to correct the row. The information processing apparatus 100 compares the calculated degree of similarity with a threshold to determine the similarity between the first character string and the second character string. The information processing apparatus 100 may acquire the threshold from an external device, or may use the threshold stored in the determination information storage unit 121 (see FIG. 4).

図1では、情報処理装置100は、閾値TH1を用いて第1文字列と第2文字列との類似性を判定する。閾値TH1は具体的な数値であるものとする。情報処理装置100は、算出した類似度VL1と閾値TH1とを比較して、第1文字列と第2文字列との類似性を判定する。図1では、情報処理装置100は、算出した類似度VL1が閾値TH1未満であるため、文字列「ホゲ行動」と文字列「ホゲ神津尾」との類似性が高いと判定する。そのため、情報処理装置100は、判定結果RSに示すように、クエリ「ホゲ神津尾」に訂正が必要であると判定する。そして、情報処理装置100は、クエリ「ホゲ神津尾」を、第1文字列CS1である文字列「ホゲ行動」に変更し、文字列「ホゲ行動」を訂正後クエリとして用いると判定する。 In FIG. 1, the information processing apparatus 100 determines the similarity between the first character string and the second character string using a threshold TH1. Assume that the threshold TH1 is a specific numerical value. The information processing apparatus 100 compares the calculated similarity VL1 with the threshold TH1 to determine the similarity between the first character string and the second character string. In FIG. 1, the information processing apparatus 100 determines that the similarity between the character string "hoge action" and the character string "hoge kozuo" is high because the calculated similarity VL1 is less than the threshold TH1. Therefore, the information processing apparatus 100 determines that the query "hogekozuo" needs to be corrected, as indicated by the determination result RS. Then, the information processing apparatus 100 changes the query "hoge Kozuo" to the character string "hoge action", which is the first character string CS1, and determines to use the character string "hoge action" as the post-correction query.

情報処理装置100は、クエリ「ホゲ神津尾」を訂正後クエリ「ホゲ行動」に訂正する。そして、情報処理装置100は、訂正後クエリ「ホゲ行動」を用いて、検索処理を実行する。 The information processing apparatus 100 corrects the query "hoge Kozuo" to the post-correction query "hoge action". Then, the information processing apparatus 100 executes search processing using the post-correction query “hoge action”.

そして、情報処理装置100は、訂正後クエリ「ホゲ行動」の検索結果をユーザU1が利用する端末装置10へ提供する(ステップS18)。図1では、情報処理装置100は、クエリ「ホゲ神津尾」ではなく訂正後クエリ「ホゲ行動」での検索結果であることを通知する情報と共に、「ホゲ行動」の検索結果を表示するコンテンツを端末装置10へ提供してもよい。なお、情報処理装置100が行う情報提供が上記限らず、様々な態様であってもよい。例えば、情報処理装置100は、検索結果を提供する前に、クエリ「ホゲ神津尾」を訂正後クエリ「ホゲ行動」に訂正するか否かをユーザU1に確認する情報を提供してもよい。この場合、情報処理装置100は、ユーザU1が選択したクエリに対応する検索結果を端末装置10へ提供してもよい。また、情報処理装置100は、訂正後クエリ「ホゲ行動」の検索結果とともに、クエリ「ホゲ神津尾」の検索結果を提供してもよい。 Then, the information processing device 100 provides the terminal device 10 used by the user U1 with the search result of the corrected query “hoge action” (step S18). In FIG. 1, the information processing apparatus 100 displays content displaying search results for "hoge action" together with information notifying that the search results are for the corrected query "hoge action" instead of the query "hoge Kozuo". It may be provided to the terminal device 10 . Note that the provision of information by the information processing apparatus 100 is not limited to the above, and may be in various forms. For example, the information processing apparatus 100 may provide information for confirming to the user U1 whether or not to correct the query "hoge Kozuo" to the post-correction query "hoge behavior" before providing the search results. In this case, the information processing device 100 may provide the terminal device 10 with search results corresponding to the query selected by the user U1. Further, the information processing apparatus 100 may provide the search results of the query "hoge kozuo" along with the search results of the post-correction query "hoge action".

上述したように、情報処理装置100は、文字列を異表記に変換した異表記文字列に基づいて、文字列間との類似性を判定することにより、文字列間の類似性を適切に判定することができる。例えば、情報処理装置100は、文字列「ホゲ行動」と文字列「ホゲ神津尾」とをそのまま比較した場合、最初の「ホゲ」以外は全く異なる文字列となる。一方で、情報処理装置100は、文字列「ホゲ行動」の異表記文字列「hogekoudou」と文字列「ホゲ神津尾」の異表記文字列「hogekouduo」とを比較した場合、「hogekoud」までは一致する。すなわち、文字列「ホゲ行動」の異表記文字列「hogekoudou」と文字列「ホゲ神津尾」の異表記文字列「hogekouduo」との間は、最後の2文字が「ou」と「uo」とであることのみが差異であり、隣接文字の転置であることが分かる。そのため、情報処理装置100は、異表記に変換した異表記文字列に基づいて、文字列間との類似性を判定することにより、文字列間の類似性を適切に判定することができる。 As described above, the information processing apparatus 100 appropriately determines the similarity between character strings by determining the similarity between character strings based on the different notation character strings obtained by converting character strings into different notations. can do. For example, when the information processing apparatus 100 compares the character string "hoge action" and the character string "hoge kozuo" as they are, the character strings other than the first "hoge" are completely different. On the other hand, when the information processing apparatus 100 compares the variant character string "hogekoudou" of the character string "hoge action" with the variant character string "hogekouduo" of the character string "hogekozuo", up to "hogekoud" match. That is, between the variant character string "hogekoudou" of the character string "hoge action" and the variant character string "hogekoudouo" of the character string "hogekozuo", the last two characters are "ou" and "uo". is the only difference, and it turns out to be the transposition of the adjacent characters. Therefore, the information processing apparatus 100 can appropriately determine the similarity between the character strings by determining the similarity between the character strings based on the variant character strings converted to the different notations.

例えば、文字列を単純に比較する既存手法の場合、文字一致率が低い場合、文字列間の類似性を判定することが難しい。一方で、情報処理装置100は、文字列を異表記に変換した異表記文字列に基づいて、文字列間との類似性を判定することで、文字一致率が低い文字列間であっても適切に類似性を判定することができる。なお、上述した処理例では、検索エンジンのスペル訂正のケース(用途)を一例として説明したが、情報処理装置100による処理が適用可能であればどのような用途に用いられてもよく、例えばクエリログからスペルミスとその訂正結果を抽出する用途等の様々な用途に用いられてもよい。 For example, in the existing method of simply comparing character strings, it is difficult to determine similarity between character strings when the character matching rate is low. On the other hand, the information processing apparatus 100 determines the similarity between the character strings based on the variant character strings obtained by converting the character strings into the variant notations. Similarity can be determined appropriately. In the above-described processing example, the case (use) of spelling correction of a search engine has been described as an example. It may be used for various purposes such as for extracting spelling errors and their correction results from the .

〔1-1.文字列と異表記の関係の例〕
ここで、文字列と異表記の関係の例について図2を用いて説明する。図2は、文字列と異表記との関係の一例を示す図である。図2に示す第1ケースCS1及び第2ケースCS2は、文字一致率が低く、既存手法では類似性の判定が困難な場合の一例を示す。
[1-1. Example of relationship between character strings and different notations]
Here, an example of the relationship between character strings and different notations will be described with reference to FIG. FIG. 2 is a diagram showing an example of the relationship between character strings and different notations. A first case CS1 and a second case CS2 shown in FIG. 2 show an example of a case where the character matching rate is low and it is difficult to determine the similarity with the existing method.

図2中の第1ケースCS1は、1文字のみの違いの例を示す。この場合、第1文字列「藤井君」は、所定の対象(有名人等)を示す文字列である。また、第2文字列「ふしい君」は、所定の対象を示さない文字列、例えば「藤井君」の入力ミスである。 A first case CS1 in FIG. 2 shows an example of a difference of only one character. In this case, the first character string "Fujii-kun" is a character string indicating a predetermined target (celebrity, etc.). The second character string "Fushii-kun" is an input error of a character string that does not indicate a predetermined target, for example, "Fujii-kun".

例えば、情報処理装置100は、文字列「藤井君」と文字列「ふしい君」とをそのまま比較した場合、最後の「君」以外は全く異なる文字列となる。一方で、情報処理装置100は、文字列「藤井君」の異表記文字列「hujiikun」と文字列「ふしい君」の異表記文字列「husiikun」とを比較した場合、3文字目が「j」と「s」とであることの差異のみであり、1文字のみの違いであることが分かる。 For example, when the information processing apparatus 100 directly compares the character string "Fujii-kun" and the character string "Fushii-kun", the character strings other than the last "kun" are completely different. On the other hand, when the information processing apparatus 100 compares the variant character string "hujiikun" of the character string "Fujii-kun" with the variant character string "husiikun" of the character string "Fushii-kun", the third character is " It can be seen that the only difference is that they are "j" and "s", and that there is only one letter difference.

そのため、情報処理装置100は、異表記に変換した異表記文字列に基づいて、文字列間との類似性を判定することにより、文字列間の類似性を適切に判定することができる。なお、図2中の第2ケースCS2は、図1で例示した隣接文字の転置の例であるため詳細な説明は省略する。 Therefore, the information processing apparatus 100 can appropriately determine the similarity between the character strings by determining the similarity between the character strings based on the variant character strings converted to the different notations. Note that the second case CS2 in FIG. 2 is an example of the transposition of adjacent characters illustrated in FIG. 1, and detailed description thereof will be omitted.

〔1-2.オートマトン〕
なお、情報処理装置100は、上記に限らず様々な技術を用いて、文字列の類似性を判定してもよい。例えば、全てのローマ字表記の可能性を考慮するのは計算効率面で改善の余地がある。
[1-2. automaton〕
Note that the information processing apparatus 100 may determine the similarity of character strings using various techniques, not limited to the above. For example, there is room for improvement in terms of computational efficiency in considering all possible romaji notations.

そこで、情報処理装置100は、オートマトンに関する技術を用いて、文字列の類似性を判定してもよい。この点について、図7を用いて一例を説明する。図7は、オートマトンに関する一例を示す概念図である。 Therefore, the information processing apparatus 100 may determine the similarity of character strings using a technique related to automaton. An example of this point will be described with reference to FIG. FIG. 7 is a conceptual diagram showing an example of an automaton.

図7中の遷移図GR1は、図1で説明した文字列「ホゲ神津尾」中の文字列「神津尾」をオートマトンで表現した図を示す。例えば、遷移図GR1のうち太字になっている矢印の経路(第1経路)が選択されることを示す。すなわち、図7は「k」→「o」→「u」→「d」→「u」→「o」の順の第1経路が選択された場合を示す。 A transition diagram GR1 in FIG. 7 shows a diagram in which the character string "Kozuo" in the character string "hogekozuo" described in FIG. 1 is represented by an automaton. For example, it indicates that the route (first route) indicated by a bold arrow in the transition diagram GR1 is selected. That is, FIG. 7 shows a case where the first route in the order of 'k'→'o'→'u'→'d'→'u'→'o' is selected.

図7中の遷移図GR2は、図1で説明した文字列「ホゲ行動」中の文字列「行動」をオートマトンで表現した図を示す。例えば、遷移図GR2のうち点線になっている矢印の経路(第2経路)が選択されることを示す。すなわち、図7は「k」→「o」→「u」→「d」→「o」→「u」の順の第2経路が選択された場合を示す。 A transition diagram GR2 in FIG. 7 shows a diagram in which the character string "action" in the character string "hoge action" described in FIG. 1 is represented by an automaton. For example, it indicates that the path (second path) indicated by the dotted arrow in the transition diagram GR2 is selected. That is, FIG. 7 shows a case where the second route is selected in the order of 'k'->'o'->'u'->'d'->'o'->'u'.

図7の例では、遷移図GR1のうち太字になっている第1経路と、遷移図GR2のうち点線になっている第2経路の編集距離が1であり(uo→ouの転置操作が発生)、これは全組み合わせの中で最小なので、「ホゲ神津尾」と「ホゲ行動」の編集距離は1となる。図7では、例えば、情報処理装置100は、「ホゲ神津尾」と「ホゲ行動」との類似度を「1」と算出する。 In the example of FIG. 7, the edit distance between the bold first path in the transition diagram GR1 and the dotted second path in the transition diagram GR2 is 1 (uo→ou transposition operation occurs. ), and since this is the smallest of all combinations, the edit distance between ``Hoge Kozuo'' and ``Hoge action'' is 1. In FIG. 7, for example, the information processing apparatus 100 calculates the degree of similarity between "hoge Kozuo" and "hoge behavior" as "1".

例えば、情報処理装置100は、異表記候補をオートマトンで表現し、オートマトン間で効率的に計算可能な尺度(オートマトンの編集距離など)を類似度としてもよい。また、情報処理装置100は、オートマトンは重み付き(ローマ字表記の確信度のようなもの)にして、重みを類似度に反映させても良い。 For example, the information processing apparatus 100 may express alternative spelling candidates with automatons, and use a scale (such as an edit distance of automatons) that can be efficiently calculated between automatons as the degree of similarity. In addition, the information processing apparatus 100 may weight the automaton (like the certainty factor of romaji notation) and reflect the weight in the similarity factor.

例えば、情報処理装置100は、全てのローマ字表記の可能性を、オートマトンを用いて簡潔に表現し、2つのオートマトンの編集距離(始点から終点までの経路ペアのうち編集距離が最小のもの)を類似度としてもよい。この場合、例えば、情報処理装置100は、下記の文献に開示されている技術を用いてもよい。
・Mehryar Mohri, “Edit-Distance of Weighted Automata: General Definitions and Algorithms”, International Journal of Foundations of Computer Science, 2003.
For example, the information processing apparatus 100 concisely expresses all the possibilities of romaji notation using an automaton, and the edit distance of two automatons (the one with the smallest edit distance among the path pairs from the start point to the end point) is It may be a degree of similarity. In this case, for example, the information processing apparatus 100 may use the technique disclosed in the following document.
・Mehryar Mohri, “Edit-Distance of Weighted Automata: General Definitions and Algorithms”, International Journal of Foundations of Computer Science, 2003.

なお、上記は一例に過ぎず、情報処理装置100は、オートマトンに関する技術を適宜用いてもよい。情報処理装置100は、カナとローマ字とのぞれぞれが別ルート(経路)で含まれているオートマトン等、複数種別の表記を含むオートマトンを用いてもよい。 Note that the above is merely an example, and the information processing apparatus 100 may appropriately use a technique related to automaton. The information processing apparatus 100 may use an automaton that includes a plurality of types of notation, such as an automaton that includes different routes (paths) for kana and romaji.

〔1-3.文字列及び異表記の例〕
なお、上記の例では、日本語を対象として処理を説明したが、情報処理装置100は、日本語に限らず様々な言語が対象として処理を行ってもよい。例えば、情報処理装置100は、英語、中国語等の様々な言語の文字列を対象として処理を行ってもよい。
[1-3. Examples of character strings and different notations]
In the above example, the processing has been described for Japanese, but the information processing apparatus 100 may perform processing for various languages other than Japanese. For example, the information processing apparatus 100 may process character strings in various languages such as English and Chinese.

例えば、例えば、情報処理装置100は、英語を対象とする場合、英語表記の文字列の発音を示す発音記号を異表記文字列として処理を行ってもよい。例えば、情報処理装置100は、中国語を対象とする場合、中国語表記の文字列の発音を示すピンインを異表記文字列として処理を行ってもよい。なお、いずれの言語であっても、類似度を算出や類似性の判定については、上述した日本語の場合と同様に行えばよく、詳細な説明は省略する。 For example, when targeting English, the information processing apparatus 100 may perform processing using phonetic symbols indicating the pronunciation of a character string written in English as a different notation character string. For example, when targeting Chinese, the information processing apparatus 100 may perform processing using pinyin, which indicates the pronunciation of a character string written in Chinese, as a different notation character string. In any language, calculation of similarity and determination of similarity may be performed in the same manner as in the case of Japanese described above, and detailed description thereof will be omitted.

〔2.情報処理装置の構成〕
次に、図3を用いて、実施形態に係る情報処理装置100の構成について説明する。図3は、実施形態に係る情報処理装置100の構成例を示す図である。図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
[2. Configuration of Information Processing Device]
Next, the configuration of the information processing apparatus 100 according to the embodiment will be described using FIG. FIG. 3 is a diagram illustrating a configuration example of the information processing apparatus 100 according to the embodiment. As shown in FIG. 3, the information processing apparatus 100 has a communication section 110, a storage section 120, and a control section . The information processing apparatus 100 includes an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from an administrator of the information processing apparatus 100, and a display unit (for example, a liquid crystal display, etc.) for displaying various information. may have.

(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、所定の通信網(ネットワーク)と有線または無線で接続され、端末装置10との間で情報の送受信を行う。
(Communication unit 110)
The communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. The communication unit 110 is connected to a predetermined communication network (network) by wire or wirelessly, and transmits and receives information to and from the terminal device 10 .

(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図3に示すように、判定用情報記憶部121と、文字列情報記憶部122とを有する。なお、記憶部120は、上記以外にも様々な情報を記憶してもよい。
(storage unit 120)
The storage unit 120 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 120 according to the embodiment has a determination information storage unit 121 and a character string information storage unit 122, as shown in FIG. Note that the storage unit 120 may store various information other than the above.

(判定用情報記憶部121)
実施形態に係る判定用情報記憶部121は、判定に関する様々な情報を記憶する。例えば、判定用情報記憶部121は、閾値等、類似性の判定に用いる情報を記憶する。図4は、実施形態に係る判定用情報記憶部の一例を示す図である。図4では、判定用情報記憶部121は、「条件ID」、「条件情報」、「内容」といった項目を有する。
(Determination information storage unit 121)
The determination information storage unit 121 according to the embodiment stores various information regarding determination. For example, the judgment information storage unit 121 stores information used for similarity judgment, such as a threshold value. FIG. 4 is a diagram illustrating an example of a determination information storage unit according to the embodiment; In FIG. 4, the determination information storage unit 121 has items such as "condition ID", "condition information", and "contents".

「条件ID」は、条件を識別する情報を示す。「条件情報」は、判定に用いる情報が記憶される。「内容」は、対応する条件情報がどのような処理に用いられるかを示す。 "Condition ID" indicates information identifying a condition. "Condition information" stores information used for determination. "Content" indicates what kind of processing the corresponding condition information is used for.

図4では、条件ID「CD1」により識別される条件は、閾値TH1であることを示す。なお、閾値TH1は、例えば0.7、5、10等の具体的な数値であるものとする。また、閾値TH1は、類似性判定に用いられることを示す。 FIG. 4 shows that the condition identified by the condition ID "CD1" is the threshold TH1. Note that the threshold TH1 is assumed to be a specific numerical value such as 0.7, 5, or 10, for example. Also, the threshold TH1 indicates that it is used for similarity determination.

なお、判定用情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。 It should be noted that the determination information storage unit 121 may store various types of information, not limited to the above, depending on the purpose.

(文字列情報記憶部122)
実施形態に係る文字列情報記憶部122は、文字列に関する情報を記憶する。文字列情報記憶部122は、所定の対象を示す文字列を記憶する。例えば、文字列情報記憶部122は、新語など、所定の対象を示すがスペルミスが生じやすい文字列を記憶する。図5は、本開示の第1の実施形態に係る文字列情報記憶部の一例を示す図である。図5では、文字列情報記憶部122は、「文字列ID」、「文字列」といった項目が含まれる。
(Character string information storage unit 122)
The character string information storage unit 122 according to the embodiment stores information about character strings. The character string information storage unit 122 stores character strings indicating predetermined objects. For example, the character string information storage unit 122 stores a character string such as a new word that indicates a predetermined target but is likely to be misspelled. FIG. 5 is a diagram illustrating an example of a character string information storage unit according to the first embodiment of the present disclosure; In FIG. 5, the character string information storage unit 122 includes items such as "character string ID" and "character string".

「文字列ID」は、所定の対象を示す文字列として登録された文字列を識別するための識別情報を示す。「文字列」は、文字列を示す。 "Character string ID" indicates identification information for identifying a character string registered as a character string indicating a predetermined object. "Character string" indicates a character string.

図5に示す例では、文字列ID「KW1」により識別される文字列(文字列KW1)は、文字列「ホゲ行動」であることを示す。例えば、文字列「ホゲ行動」は、ユーザのスペルミスが多い文字列である。 In the example shown in FIG. 5, the character string (character string KW1) identified by the character string ID "KW1" indicates the character string "hoge action". For example, the string “hogebehavior” is a string that is frequently misspelled by users.

なお、文字列情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、文字列情報記憶部122に記憶される文字列(正解文字列)は、新語など、スペルミスが生じやすい文字列を管理する外部装置から情報処理装置100が取得してもよい。 It should be noted that the character string information storage unit 122 may store various types of information, not limited to the above, depending on the purpose. For example, the character strings (correct character strings) stored in the character string information storage unit 122 may be acquired by the information processing apparatus 100 from an external device that manages character strings that are likely to be misspelled, such as new words.

(制御部130)
図3の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(control unit 130)
Returning to the description of FIG. 3, the control unit 130 is a controller, and is stored in a storage device inside the information processing apparatus 100 by, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). Various programs (corresponding to an example of an information processing program) are executed by using the RAM as a work area. Also, the control unit 130 is a controller, and is implemented by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図3に示すように、制御部130は、取得部131と、算出部132と、判定部133と、処理部134と、提供部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。 As shown in FIG. 3, the control unit 130 includes an acquisition unit 131, a calculation unit 132, a determination unit 133, a processing unit 134, and a provision unit 135, and has information processing functions and actions described below. realize or perform Note that the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 3, and may be another configuration as long as it performs information processing described later. Moreover, the connection relationship between the processing units of the control unit 130 is not limited to the connection relationship shown in FIG. 3, and may be another connection relationship.

(取得部131)
取得部131は、記憶部120から各種の情報を取得する。取得部131は、判定用情報記憶部121から類似性の判定に用いる情報を取得する。取得部131は、文字列情報記憶部122から、ユーザが入力したクエリとの比較対象となる文字列を取得する。
(Acquisition unit 131)
Acquisition unit 131 acquires various types of information from storage unit 120 . The acquisition unit 131 acquires information used for similarity determination from the determination information storage unit 121 . The acquisition unit 131 acquires a character string to be compared with the query input by the user from the character string information storage unit 122 .

取得部131は、通信部110を介して、外部の情報処理装置から各種情報を受信する。取得部131は、端末装置10から各種情報を受信する。取得部131は、端末装置10からユーザが入力したクエリを取得する。取得部131は、文字列を異表記に変換する外部装置(変換サーバ)から文字列が異表記に変換された異表記文字列を受信してもよい。例えば、取得部131は、提供部135が送信した文字列を受信した変換サーバが受信した文字列を異表記に変換した異表記文字列を変換サーバから受信してもよい。 Acquisition unit 131 receives various types of information from an external information processing device via communication unit 110 . The acquisition unit 131 receives various information from the terminal device 10 . The acquisition unit 131 acquires a query input by the user from the terminal device 10 . The acquiring unit 131 may receive a variant character string in which the character string is converted into the variant notation from an external device (conversion server) that converts the character string into the variant notation. For example, the acquiring unit 131 may receive, from the conversion server, a variant character string obtained by converting the character string received by the conversion server that received the character string transmitted by the providing unit 135 into a variant notation.

取得部131は、所定の文字列である第1文字列を取得する。取得部131は、所定の対象を示す第1文字列を取得する。取得部131は、第1文字列とは異なる文字列である第2文字列を取得する。取得部131は、対象を示さない第2文字列を取得する。取得部131は、ユーザが入力したクエリである第2文字列を取得する。 Acquisition unit 131 acquires a first character string that is a predetermined character string. Acquisition unit 131 acquires a first character string indicating a predetermined target. Acquisition unit 131 acquires a second character string that is different from the first character string. Acquisition unit 131 acquires a second character string that does not indicate a target. Acquisition unit 131 acquires a second character string that is a query input by the user.

取得部131は、所定の文字列である第1文字列を異表記に変換した第1異表記文字列を取得する。取得部131は、所定の対象を示す第1文字列の第1異表記文字列を取得する。取得部131は、第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列を取得する。取得部131は、対象を示さない第2文字列の第2異表記文字列を取得する。取得部131は、ユーザが入力したクエリである第2文字列の第2異表記文字列を取得する。 The acquisition unit 131 acquires a first variant character string obtained by converting a first character string, which is a predetermined character string, into variant notation. The acquisition unit 131 acquires a first variant character string of a first character string indicating a predetermined object. The acquisition unit 131 acquires a second variant character string obtained by converting the second character string, which is a character string different from the first character string, into variant notation. The acquisition unit 131 acquires a second variant character string of the second character string that does not indicate the object. The acquisition unit 131 acquires the second variant character string of the second character string that is the query input by the user.

取得部131は、第1文字列の発音を示す第1異表記文字列と、第2文字列の発音を示す第2異表記文字列とを取得する。取得部131は、第1文字列の発音記号である第1異表記文字列と、第2文字列の発音記号である第2異表記文字列とを取得する。取得部131は、日本語の表記体系に該当する第1文字列の発音を示す第1異表記文字列と、日本語の表記体系に該当する第2文字列の発音を示す第2異表記文字列とを取得する。 The acquisition unit 131 acquires a first variant character string indicating the pronunciation of the first character string and a second variant character string indicating the pronunciation of the second character string. The acquisition unit 131 acquires a first variant character string that is the phonetic symbol of the first character string and a second variant character string that is the phonetic symbol of the second character string. The acquisition unit 131 obtains a first variant character string indicating the pronunciation of the first character string corresponding to the Japanese writing system, and a second variant character string indicating the pronunciation of the second character string corresponding to the Japanese writing system. Get the columns and

取得部131は、漢字、ひらがな、及びカタカナの少なくとも1つを含む第1文字列の発音を示す第1異表記文字列と、漢字、ひらがな、及びカタカナの少なくとも1つを含む第2文字列の発音を示す第2異表記文字列とを取得する。取得部131は、第1文字列がローマ字に変換された第1異表記文字列と、第2文字列がローマ字に変換された第2異表記文字列とを取得する。 The obtaining unit 131 obtains a first variant character string indicating the pronunciation of a first character string including at least one of kanji, hiragana, and katakana, and a second character string including at least one of kanji, hiragana, and katakana. Acquire a second variant character string that indicates the pronunciation. The acquisition unit 131 acquires a first variant character string in which the first character string is converted into Roman characters, and a second variant character string in which the second character string is converted into Roman characters.

(算出部132)
算出部132は、各種情報を算出する。算出部132は、記憶部120に記憶された各種情報に基づいて、種々の情報を算出する。算出部132は、取得部131により取得された各種情報に基づいて、種々の情報を算出する。
(Calculation unit 132)
The calculator 132 calculates various types of information. The calculation unit 132 calculates various information based on various information stored in the storage unit 120 . The calculation unit 132 calculates various information based on the various information acquired by the acquisition unit 131 .

算出部132は、第1異表記文字列と、第2異表記文字列との類似度を算出する。算出部132は、第1異表記文字列と、第2異表記文字列との間の編集距離に基づいて、類似度を算出する。算出部132は、第1異表記文字列と、第2異表記文字列との間の編集距離を類似度として算出する。算出部132は、オートマトンにより導出した編集距離に基づいて、類似度を算出する。 The calculation unit 132 calculates the degree of similarity between the first variant character string and the second variant character string. The calculation unit 132 calculates the degree of similarity based on the edit distance between the first variant character string and the second variant character string. The calculation unit 132 calculates the edit distance between the first variant character string and the second variant character string as the degree of similarity. The calculator 132 calculates the degree of similarity based on the edit distance derived by the automaton.

算出部132は、各種情報を生成してもよい。算出部132は、文字列を変換した変換文字列を生成してもよい。算出部132は、第1文字列を異表記に変換した第1異表記文字列を生成してもよい。算出部132は、第2文字列を異表記に変換した第2異表記文字列を生成してもよい。算出部132は、文字列をローマ字表記に変換することにより、異表記文字列を生成してもよい。算出部132は、文字列を発音記号に変換することにより、異表記文字列を生成してもよい。 The calculator 132 may generate various types of information. The calculation unit 132 may generate a converted character string by converting the character string. The calculation unit 132 may generate the first variant character string by converting the first character string into the variant notation. The calculation unit 132 may generate a second variant character string by converting the second character string into a variant notation. The calculation unit 132 may generate the variant character string by converting the character string into Roman characters. The calculator 132 may generate the variant character string by converting the character string into phonetic symbols.

(判定部133)
判定部133は、各種情報を判定する。例えば、判定部133は、取得部131により外部装置から取得された各種情報に基づいて、各種情報を判定する。例えば、判定部133は、記憶部120に記憶された情報に基づいて、各種情報を判定する。例えば、判定部133は、判定用情報記憶部121や文字列情報記憶部122に記憶された情報を用いて、判定を行う。
(Determination unit 133)
The determination unit 133 determines various types of information. For example, the determination unit 133 determines various information based on various information acquired from the external device by the acquisition unit 131 . For example, the determination unit 133 determines various types of information based on information stored in the storage unit 120 . For example, the determination unit 133 performs determination using information stored in the determination information storage unit 121 and the character string information storage unit 122 .

判定部133は、第1異表記文字列と、第2異表記文字列とに基づいて、第1文字列と第2文字列との類似性を判定する。判定部133は、算出部132により算出された類似度を用いて、第1文字列と第2文字列との類似性を判定する。判定部133は、類似度が所定値以上である場合、第1文字列と第2文字列との類似性が高いと判定する。判定部133は、第1文字列と第2文字列との類似性が高いと判定した場合、第2文字列を第1文字列に訂正すると判定する。 Based on the first variant character string and the second variant character string, the determination unit 133 determines the similarity between the first character string and the second character string. The determination unit 133 uses the degree of similarity calculated by the calculation unit 132 to determine the similarity between the first character string and the second character string. If the degree of similarity is greater than or equal to a predetermined value, the determination unit 133 determines that the similarity between the first character string and the second character string is high. When determining that the similarity between the first character string and the second character string is high, the determination unit 133 determines to correct the second character string to the first character string.

(処理部134)
処理部134は、各種の処理を実行する。処理部134は、ユーザが入力したクエリに基づく検索処理を実行する。処理部134は、判定部133によりユーザが入力したクエリに訂正が不要と判定された場合、ユーザが入力したクエリを用いて検索処理を実行する。処理部134は、ユーザに提供する情報を生成する。処理部134は、ユーザに提供するコンテンツを生成する。
(Processing unit 134)
The processing unit 134 executes various types of processing. The processing unit 134 executes search processing based on the query input by the user. When the determination unit 133 determines that the query input by the user does not need to be corrected, the processing unit 134 performs search processing using the query input by the user. The processing unit 134 generates information to be provided to the user. The processing unit 134 generates content to be provided to the user.

処理部134は、判定部133によりユーザが入力したクエリに訂正(変更)が必要と判定された場合、ユーザが入力したクエリの表記を訂正する。例えば、処理部134は、ユーザが入力したクエリの表記を、比較した文字列に訂正(変更)する。そして、処理部134は、訂正(変更)後の文字列を用いて検索処理を実行する。 When the determination unit 133 determines that the query input by the user needs to be corrected (changed), the processing unit 134 corrects the notation of the query input by the user. For example, the processing unit 134 corrects (changes) the notation of the query input by the user to the compared character string. Then, the processing unit 134 executes search processing using the corrected (changed) character string.

(提供部135)
提供部135は、通信部110を介して、端末装置10へ情報を送信する。提供部135は、ユーザが利用する端末装置10へ検索サービスを提供する。例えば、提供部135は、処理部134による検索処理の結果である検索結果を端末装置10へ送信する。提供部135は、処理部134により生成された情報を端末装置10へ送信する。
(Providing unit 135)
The providing unit 135 transmits information to the terminal device 10 via the communication unit 110 . The providing unit 135 provides a search service to the terminal device 10 used by the user. For example, the providing unit 135 transmits search results, which are results of search processing by the processing unit 134 , to the terminal device 10 . The providing unit 135 transmits the information generated by the processing unit 134 to the terminal device 10 .

提供部135は、文字列を異表記に変換する外部装置(変換サーバ)に文字列を送信してもよい。例えば、提供部135は、異表記への変換を要求する文字列を変換サーバへ送信してもよい。 The providing unit 135 may transmit the character string to an external device (conversion server) that converts the character string into different notations. For example, the providing unit 135 may transmit a character string requesting conversion to a variant notation to the conversion server.

〔3.処理フロー〕
次に、図6を用いて、実施形態に係る情報処理システム1による情報処理の手順について説明する。図6は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。
[3. Processing flow]
Next, the procedure of information processing by the information processing system 1 according to the embodiment will be described with reference to FIG. FIG. 6 is a flowchart illustrating an example of processing by the information processing apparatus according to the embodiment;

図6に示すように、情報処理装置100は、所定の文字列である第1文字列を異表記に変換した第1異表記文字列を取得する(ステップS101)。また、情報処理装置100は、第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列を取得する(ステップS102)。 As shown in FIG. 6, the information processing apparatus 100 acquires a first variant character string obtained by converting a first character string, which is a predetermined character string, into variant notation (step S101). The information processing apparatus 100 also acquires a second variant character string obtained by converting the second character string, which is a character string different from the first character string, into the variant notation (step S102).

情報処理装置100は、第1異表記文字列と、第2異表記文字列とに基づいて、第1文字列と第2文字列との類似性を判定する(ステップS103)。 The information processing apparatus 100 determines the similarity between the first character string and the second character string based on the first different notation character string and the second different notation character string (step S103).

〔4.効果〕
上述してきたように、実施形態に係る情報処理装置100は、取得部131と、判定部133とを有する。取得部131は、所定の文字列である第1文字列を異表記に変換した第1異表記文字列と、第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列とを取得する。判定部133は、第1異表記文字列と、第2異表記文字列とに基づいて、第1文字列と第2文字列との類似性を判定する。
[4. effect〕
As described above, the information processing device 100 according to the embodiment has the acquisition unit 131 and the determination unit 133 . The acquisition unit 131 converts a first character string, which is a predetermined character string, into different notations, and a second character string, which is a character string different from the first character string, into different notations. Acquire a second variant character string. Based on the first variant character string and the second variant character string, the determination unit 133 determines the similarity between the first character string and the second character string.

このように、実施形態に係る情報処理装置100は、文字列の異表記を用いて文字列間の類似性を判定することにより、文字列間の類似性を適切に判定することができる。 In this manner, the information processing apparatus 100 according to the embodiment can appropriately determine similarity between character strings by determining similarity between character strings using different notations of character strings.

また、実施形態に係る情報処理装置100は、算出部132を有する。算出部132は、第1異表記文字列と、第2異表記文字列との類似度を算出する。判定部133は、算出部132により算出された類似度を用いて、第1文字列と第2文字列との類似性を判定する。 Further, the information processing apparatus 100 according to the embodiment has a calculator 132 . The calculation unit 132 calculates the degree of similarity between the first variant character string and the second variant character string. The determination unit 133 uses the degree of similarity calculated by the calculation unit 132 to determine the similarity between the first character string and the second character string.

このように、実施形態に係る情報処理装置100は、第1異表記文字列と、第2異表記文字列との類似度を算出し、算出した類似度を用いて、第1文字列と第2文字列との類似性を判定することにより、文字列間の類似性を適切に判定することができる。 As described above, the information processing apparatus 100 according to the embodiment calculates the similarity between the first variant character string and the second variant character string, and uses the calculated similarity to calculate the first character string and the second variant character string. By determining the similarity between two character strings, the similarity between character strings can be appropriately determined.

また、実施形態に係る情報処理装置100において、算出部132は、第1異表記文字列と、第2異表記文字列との間の編集距離に基づいて、類似度を算出する。 In addition, in the information processing apparatus 100 according to the embodiment, the calculation unit 132 calculates the degree of similarity based on the edit distance between the first variant character string and the second variant character string.

このように、実施形態に係る情報処理装置100は、第1異表記文字列と、第2異表記文字列との間の編集距離に基づいて、類似度を算出することにより、文字列間の類似度を適切に算出することができる。 As described above, the information processing apparatus 100 according to the embodiment calculates the degree of similarity based on the edit distance between the first variant character string and the second variant character string. Similarity can be calculated appropriately.

また、実施形態に係る情報処理装置100において、算出部132は、第1異表記文字列と、第2異表記文字列との間の編集距離を類似度として算出する。 Further, in the information processing apparatus 100 according to the embodiment, the calculation unit 132 calculates the edit distance between the first variant character string and the second variant character string as the degree of similarity.

このように、実施形態に係る情報処理装置100は、第1異表記文字列と、第2異表記文字列との間の編集距離を類似度とすることにより、文字列間の類似度を適切に算出することができる。 In this way, the information processing apparatus 100 according to the embodiment uses the edit distance between the first variant character string and the second variant character string as the degree of similarity, so that the similarity between the character strings can be appropriately determined. can be calculated to

また、実施形態に係る情報処理装置100において、算出部132は、オートマトンにより導出した編集距離に基づいて、類似度を算出する。 Also, in the information processing apparatus 100 according to the embodiment, the calculation unit 132 calculates the degree of similarity based on the edit distance derived by the automaton.

このように、実施形態に係る情報処理装置100は、オートマトンにより導出した編集距離に基づいて、類似度を算出することにより、文字列間の類似度を適切に算出することができる。 Thus, the information processing apparatus 100 according to the embodiment can appropriately calculate the similarity between character strings by calculating the similarity based on the edit distance derived by the automaton.

また、実施形態に係る情報処理装置100において、判定部133は、類似度が所定値以上である場合、第1文字列と第2文字列との類似性が高いと判定する。 Further, in the information processing apparatus 100 according to the embodiment, the determination unit 133 determines that the similarity between the first character string and the second character string is high when the degree of similarity is equal to or greater than a predetermined value.

このように、実施形態に係る情報処理装置100は、類似度が所定値以上である場合、第1文字列と第2文字列との類似性が高いと判定することにより、文字列間の類似性を適切に判定することができる。 As described above, the information processing apparatus 100 according to the embodiment determines that the similarity between the first character string and the second character string is high when the degree of similarity is equal to or greater than a predetermined value, thereby determining the similarity between the character strings. gender can be determined appropriately.

また、実施形態に係る情報処理装置100において、取得部131は、所定の対象を示す第1文字列の第1異表記文字列と、第2文字列の第2異表記文字列とを取得する。判定部133は、第1文字列と第2文字列との類似性が高いと判定した場合、第2文字列を第1文字列に訂正すると判定する。 Further, in the information processing apparatus 100 according to the embodiment, the acquisition unit 131 acquires a first variant character string of the first character string indicating a predetermined object and a second variant character string of the second character string. . When determining that the similarity between the first character string and the second character string is high, the determination unit 133 determines to correct the second character string to the first character string.

このように、実施形態に係る情報処理装置100は、所定の対象を示す第1文字列と、第2文字列との類似性が高いと判定した場合、第2文字列を第1文字列に訂正すると判定することにより、文字列間の類似性に応じて文字列を適切に訂正可能にすることができる。 As described above, when the information processing apparatus 100 according to the embodiment determines that the first character string indicating the predetermined target and the second character string are highly similar, the second character string is changed to the first character string. By determining to correct the character string, it is possible to appropriately correct the character string according to the similarity between the character strings.

また、実施形態に係る情報処理装置100において、取得部131は、第1文字列の発音を示す第1異表記文字列と、第2文字列の発音を示す第2異表記文字列とを取得する。 Further, in the information processing apparatus 100 according to the embodiment, the acquisition unit 131 acquires a first variant character string indicating the pronunciation of the first character string and a second variant character string indicating the pronunciation of the second character string. do.

このように、実施形態に係る情報処理装置100は、文字列の発音を示す異表記を用いて文字列間の類似性を判定することにより、文字列間の類似性を適切に判定することができる。 As described above, the information processing apparatus 100 according to the embodiment can appropriately determine the similarity between character strings by determining the similarity between character strings using different notations indicating the pronunciation of the character strings. can.

また、実施形態に係る情報処理装置100において、取得部131は、第1文字列の発音記号である第1異表記文字列と、第2文字列の発音記号である第2異表記文字列とを取得する。 Further, in the information processing apparatus 100 according to the embodiment, the acquisition unit 131 obtains a first variant character string that is the phonetic symbol of the first character string and a second variant character string that is the phonetic symbol of the second character string. to get

このように、実施形態に係る情報処理装置100は、文字列の発音記号を用いて文字列間の類似性を判定することにより、文字列間の類似性を適切に判定することができる。 As described above, the information processing apparatus 100 according to the embodiment can appropriately determine similarity between character strings by determining similarity between character strings using the phonetic symbols of the character strings.

また、実施形態に係る情報処理装置100において、取得部131は、日本語の表記体系に該当する第1文字列の発音を示す第1異表記文字列と、日本語の表記体系に該当する第2文字列の発音を示す第2異表記文字列とを取得する。 Further, in the information processing apparatus 100 according to the embodiment, the acquisition unit 131 includes a first variant character string indicating the pronunciation of the first character string corresponding to the Japanese writing system, and a first variant character string corresponding to the Japanese writing system. Acquire a second variant character string that indicates the pronunciation of the two character strings.

このように、実施形態に係る情報処理装置100は、日本語の文字列を対象として、文字列間の類似性を適切に判定することができる。 In this way, the information processing apparatus 100 according to the embodiment can appropriately determine the similarity between character strings for Japanese character strings.

また、実施形態に係る情報処理装置100において、取得部131は、漢字、ひらがな、及びカタカナの少なくとも1つを含む第1文字列の発音を示す第1異表記文字列と、漢字、ひらがな、及びカタカナの少なくとも1つを含む第2文字列の発音を示す第2異表記文字列とを取得する。 In addition, in the information processing apparatus 100 according to the embodiment, the acquisition unit 131 may generate a first variant character string indicating the pronunciation of the first character string including at least one of kanji, hiragana, and katakana, and and a second variant character string indicating the pronunciation of the second character string including at least one katakana character.

このように、実施形態に係る情報処理装置100は、漢字、ひらがな、及びカタカナの少なくとも1つを含む文字列を対象として、文字列間の類似性を適切に判定することができる。 In this way, the information processing apparatus 100 according to the embodiment can appropriately determine similarity between character strings for character strings including at least one of kanji, hiragana, and katakana.

また、実施形態に係る情報処理装置100において、取得部131は、第1文字列がローマ字に変換された第1異表記文字列と、第2文字列がローマ字に変換された第2異表記文字列とを取得する。 In addition, in the information processing apparatus 100 according to the embodiment, the acquisition unit 131 obtains a first variant character string in which the first character string is converted into Roman characters, and a second variant character string in which the second character string is converted into Roman characters. Get the columns and

このように、実施形態に係る情報処理装置100は、文字列がローマ字に変換された異表記を用いて文字列間の類似性を判定することにより、文字列間の類似性を適切に判定することができる。 In this way, the information processing apparatus 100 according to the embodiment appropriately determines similarity between character strings by determining similarity between character strings using different notations in which character strings are converted into Roman letters. be able to.

〔5.ハードウェア構成〕
また、上述した実施形態に係る情報処理装置100や端末装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に挙げて説明する。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
[5. Hardware configuration]
Further, the information processing device 100 and the terminal device 10 according to the above-described embodiments are implemented by a computer 1000 configured as shown in FIG. 8, for example. The information processing apparatus 100 will be described below as an example. FIG. 8 is a diagram illustrating an example of a hardware configuration; The computer 1000 is connected to an output device 1010 and an input device 1020, and an arithmetic device 1030, a primary storage device 1040, a secondary storage device 1050, an output I/F (Interface) 1060, an input I/F 1070, and a network I/F 1080 are buses. It has a form connected by 1090.

演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。 Arithmetic device 1030 operates based on programs stored in primary storage device 1040 and secondary storage device 1050, programs read from input device 1020, and the like, and executes various types of processing. The arithmetic unit 1030 is implemented by, for example, a CPU (Central Processing Unit), MPU (Micro Processing Unit), ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array), or the like.

一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USBメモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。 The primary storage device 1040 is a memory device such as a RAM (Random Access Memory) that temporarily stores data used for various calculations by the arithmetic device 1030 . The secondary storage device 1050 is a storage device in which data used for various calculations by the arithmetic device 1030 and various databases are registered. State Drive), flash memory, or the like. The secondary storage device 1050 may be an internal storage or an external storage. Also, the secondary storage device 1050 may be a removable storage medium such as a USB memory or an SD (Secure Digital) memory card. Also, the secondary storage device 1050 may be a cloud storage (online storage), a NAS (Network Attached Storage), a file server, or the like.

出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェイスであり、例えば、USB等により実現される。 The output I/F 1060 is an interface for transmitting information to be output to the output device 1010 that outputs various information such as a display, a projector, and a printer. (Digital Visual Interface) and HDMI (registered trademark) (High Definition Multimedia Interface). Also, the input I/F 1070 is an interface for receiving information from various input devices 1020 such as a mouse, keyboard, keypad, buttons, scanner, etc., and is realized by, for example, USB.

また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。 Also, the output I/F 1060 and the input I/F 1070 may be wirelessly connected to the output device 1010 and the input device 1020, respectively. That is, the output device 1010 and the input device 1020 may be wireless devices.

また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。 Also, the output device 1010 and the input device 1020 may be integrated like a touch panel. In this case, the output I/F 1060 and the input I/F 1070 may also be integrated as an input/output I/F.

なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。 Note that the input device 1020 includes, for example, optical recording media such as CDs (Compact Discs), DVDs (Digital Versatile Discs), PDs (Phase change rewritable discs), magneto-optical recording media such as MOs (Magneto-Optical discs), and tapes. It may be a device that reads information from a medium, a magnetic recording medium, a semiconductor memory, or the like.

ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。 Network I/F 1080 receives data from other devices via network N and sends the data to arithmetic device 1030, and also transmits data generated by arithmetic device 1030 via network N to other devices.

演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。 Arithmetic device 1030 controls output device 1010 and input device 1020 via output I/F 1060 and input I/F 1070 . For example, arithmetic device 1030 loads a program from input device 1020 or secondary storage device 1050 onto primary storage device 1040 and executes the loaded program.

例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。 For example, when the computer 1000 functions as the information processing device 100 , the arithmetic device 1030 of the computer 1000 implements the functions of the control unit 130 by executing a program loaded on the primary storage device 1040 . Further, arithmetic device 1030 of computer 1000 may load a program acquired from another device via network I/F 1080 onto primary storage device 1040 and execute the loaded program. Further, the arithmetic unit 1030 of the computer 1000 may cooperate with another device via the network I/F 1080, and call functions, data, etc. of the program from another program of the other device for use.

〔6.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
[6. others〕
Although the embodiments of the present application have been described above, the present invention is not limited by the contents of these embodiments. In addition, the components described above include those that can be easily assumed by those skilled in the art, those that are substantially the same, and those within the so-called equivalent range. Furthermore, the components described above can be combined as appropriate. Furthermore, various omissions, replacements, or modifications of components can be made without departing from the gist of the above-described embodiments.

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。 Further, among the processes described in the above embodiments, all or part of the processes described as being automatically performed can be manually performed, or the processes described as being performed manually can be performed manually. All or part of this can also be done automatically by known methods. In addition, information including processing procedures, specific names, various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each drawing is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。 Also, each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.

例えば、上述した情報処理装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。 For example, the information processing apparatus 100 described above may be implemented by a plurality of server computers, and depending on the function, may be implemented by calling an external platform or the like using an API (Application Programming Interface), network computing, or the like. can be changed flexibly.

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Also, the above-described embodiments and modifications can be appropriately combined within a range that does not contradict the processing content.

また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。 Also, the above-mentioned "section, module, unit" can be read as "means" or "circuit". For example, the acquisition unit can be read as acquisition means or an acquisition circuit.

1 情報処理システム
100 情報処理装置
120 記憶部
121 判定用情報記憶部
122 文字列情報記憶部
130 制御部
131 取得部
132 算出部
133 判定部
134 処理部
135 提供部
10 端末装置
1 information processing system 100 information processing device 120 storage unit 121 determination information storage unit 122 character string information storage unit 130 control unit 131 acquisition unit 132 calculation unit 133 determination unit 134 processing unit 135 provision unit 10 terminal device

Claims (14)

所定の文字列である第1文字列を異表記に変換した第1異表記文字列と、前記第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列とを取得する取得部と、
前記第1異表記文字列と、前記第2異表記文字列とに基づいて、前記第1文字列と前記第2文字列との類似性を判定する判定部と、
を備えることを特徴とする情報処理装置。
A first variant character string obtained by converting a first character string, which is a predetermined character string, into an alternative notation, and a second variant notation obtained by converting a second character string, which is a character string different from the first character string, into an alternative notation. an acquisition unit that acquires a character string;
a determination unit that determines similarity between the first character string and the second character string based on the first different notation character string and the second different notation character string;
An information processing device comprising:
前記第1異表記文字列と、前記第2異表記文字列との類似度を算出する算出部、
をさらに備え、
前記判定部は、
前記算出部により算出された前記類似度を用いて、前記第1文字列と前記第2文字列との類似性を判定する
ことを特徴とする請求項1に記載の情報処理装置。
a calculation unit that calculates the degree of similarity between the first variant character string and the second variant character string;
further comprising
The determination unit is
The information processing apparatus according to claim 1, wherein the similarity between the first character string and the second character string is determined using the degree of similarity calculated by the calculation unit.
前記算出部は、
前記第1異表記文字列と、前記第2異表記文字列との間の編集距離に基づいて、前記類似度を算出する
ことを特徴とする請求項2に記載の情報処理装置。
The calculation unit
The information processing apparatus according to claim 2, wherein the similarity is calculated based on an edit distance between the first variant character string and the second variant character string.
前記算出部は、
前記第1異表記文字列と、前記第2異表記文字列との間の編集距離を前記類似度として算出する
ことを特徴とする請求項3に記載の情報処理装置。
The calculation unit
The information processing apparatus according to claim 3, wherein an edit distance between the first variant character string and the second variant character string is calculated as the degree of similarity.
前記算出部は、
オートマトンにより導出した前記編集距離に基づいて、前記類似度を算出する
ことを特徴とする請求項3または請求項4に記載の情報処理装置。
The calculation unit
The information processing apparatus according to claim 3 or 4, wherein the similarity is calculated based on the edit distance derived by an automaton.
前記判定部は、
前記類似度が所定値以上である場合、前記第1文字列と前記第2文字列との類似性が高いと判定する
ことを特徴とする請求項2~5のいずれか1項に記載の情報処理装置。
The determination unit is
Information according to any one of claims 2 to 5, characterized in that, when the degree of similarity is equal to or greater than a predetermined value, it is determined that the similarity between the first character string and the second character string is high. processing equipment.
前記取得部は、
所定の対象を示す前記第1文字列の前記第1異表記文字列と、前記第2文字列の前記第2異表記文字列とを取得し、
前記判定部は、
前記第1文字列と前記第2文字列との類似性が高いと判定した場合、前記第2文字列を前記第1文字列に訂正すると判定する
ことを特徴とする請求項6に記載の情報処理装置。
The acquisition unit
Acquiring the first variant character string of the first character string and the second variant character string of the second character string indicating a predetermined object;
The determination unit is
7. The information according to claim 6, wherein when it is determined that the similarity between the first character string and the second character string is high, it is determined that the second character string is corrected to the first character string. processing equipment.
前記取得部は、
前記第1文字列の発音を示す前記第1異表記文字列と、前記第2文字列の発音を示す前記第2異表記文字列とを取得する
ことを特徴とする請求項1~7のいずれか1項に記載の情報処理装置。
The acquisition unit
The first variant character string indicating the pronunciation of the first character string and the second variant character string indicating the pronunciation of the second character string are obtained according to any one of claims 1 to 7. 1. The information processing apparatus according to 1.
前記取得部は、
前記第1文字列の発音記号である前記第1異表記文字列と、前記第2文字列の発音記号である前記第2異表記文字列とを取得する
ことを特徴とする請求項8に記載の情報処理装置。
The acquisition unit
9. The method according to claim 8, wherein the first variant character string, which is the phonetic symbol of the first character string, and the second variant character string, which is the phonetic symbol of the second character string, are obtained. information processing equipment.
前記取得部は、
日本語の表記体系に該当する前記第1文字列の発音を示す前記第1異表記文字列と、日本語の表記体系に該当する前記第2文字列の発音を示す前記第2異表記文字列とを取得する
ことを特徴とする請求項8または請求項9に記載の情報処理装置。
The acquisition unit
The first variant character string indicating the pronunciation of the first character string corresponding to the Japanese writing system, and the second variant character string indicating the pronunciation of the second character string corresponding to the Japanese writing system. 10. The information processing apparatus according to claim 8 or 9, characterized by obtaining and.
前記取得部は、
漢字、ひらがな、及びカタカナの少なくとも1つを含む前記第1文字列の発音を示す前記第1異表記文字列と、漢字、ひらがな、及びカタカナの少なくとも1つを含む前記第2文字列の発音を示す前記第2異表記文字列とを取得する
ことを特徴とする請求項10に記載の情報処理装置。
The acquisition unit
the first variant character string indicating the pronunciation of the first character string including at least one of kanji, hiragana, and katakana; and the pronunciation of the second character string including at least one of kanji, hiragana, and katakana. 11. The information processing apparatus according to claim 10, wherein the second variant character string indicating the character string is acquired.
前記取得部は、
前記第1文字列がローマ字に変換された前記第1異表記文字列と、前記第2文字列がローマ字に変換された前記第2異表記文字列とを取得する
ことを特徴とする請求項10または請求項11に記載の情報処理装置。
The acquisition unit
10. Acquiring the first variant character string obtained by converting the first character string into Roman characters and the second variant character string obtained by converting the second character string into Roman characters. Or the information processing apparatus according to claim 11 .
コンピュータが実行する情報処理方法であって、
所定の文字列である第1文字列を異表記に変換した第1異表記文字列と、前記第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列とを取得する取得工程と、
前記第1異表記文字列と、前記第2異表記文字列とに基づいて、前記第1文字列と前記第2文字列との類似性を判定する判定工程と、
を含むことを特徴とする情報処理方法。
A computer-executed information processing method comprising:
A first variant character string obtained by converting a first character string, which is a predetermined character string, into an alternative notation, and a second variant notation obtained by converting a second character string, which is a character string different from the first character string, into an alternative notation. a retrieving step of retrieving a character string;
a determining step of determining similarity between the first character string and the second character string based on the first different character string and the second different character string;
An information processing method comprising:
所定の文字列である第1文字列を異表記に変換した第1異表記文字列と、前記第1文字列とは異なる文字列である第2文字列を異表記に変換した第2異表記文字列とを取得する取得手順と、
前記第1異表記文字列と、前記第2異表記文字列とに基づいて、前記第1文字列と前記第2文字列との類似性を判定する判定手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
A first variant character string obtained by converting a first character string, which is a predetermined character string, into an alternative notation, and a second variant notation obtained by converting a second character string, which is a character string different from the first character string, into an alternative notation. a retrieving procedure for retrieving a string;
a determination procedure for determining similarity between the first character string and the second character string based on the first different notation character string and the second different notation character string;
An information processing program characterized by causing a computer to execute
JP2021147126A 2021-09-09 2021-09-09 Information processing device, information processing method, and information processing program Pending JP2023039822A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021147126A JP2023039822A (en) 2021-09-09 2021-09-09 Information processing device, information processing method, and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021147126A JP2023039822A (en) 2021-09-09 2021-09-09 Information processing device, information processing method, and information processing program

Publications (1)

Publication Number Publication Date
JP2023039822A true JP2023039822A (en) 2023-03-22

Family

ID=85613724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021147126A Pending JP2023039822A (en) 2021-09-09 2021-09-09 Information processing device, information processing method, and information processing program

Country Status (1)

Country Link
JP (1) JP2023039822A (en)

Similar Documents

Publication Publication Date Title
KR101465770B1 (en) Word probability determination
US9824085B2 (en) Personal language model for input method editor
US9965569B2 (en) Truncated autosuggest on a touchscreen computing device
KR20100047221A (en) Dictionary word and phrase determination
CN107783976B (en) User information mining method and device
US20140026043A1 (en) Computer product, input support method, and input support apparatus
US20140380169A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
US20190303437A1 (en) Status reporting with natural language processing risk assessment
US9690797B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
US10387543B2 (en) Phoneme-to-grapheme mapping systems and methods
CN107239209B (en) Photographing search method, device, terminal and storage medium
CN108628911B (en) Expression prediction for user input
US20230274096A1 (en) Multilingual support for natural language processing applications
US20160196266A1 (en) Inferring seniority based on canonical titles
JP2023039822A (en) Information processing device, information processing method, and information processing program
WO2019225560A1 (en) Search word suggestion device, method for generating unique expression information, and program for generating unique expression information
JP2012083815A (en) Character string conversion device, character string conversion method, computer program and recording medium
US20180052819A1 (en) Predicting terms by using model chunks
JP7354072B2 (en) Information processing device, information processing method, and information processing program
JP7212655B2 (en) Information processing device, information processing method, and information processing program
JP7407139B2 (en) Generation device, generation method and generation program
JP6203083B2 (en) Unknown word extraction device and unknown word extraction method
JP2021179860A (en) Information processing device, information processing method, and program
JP2017117109A (en) Information processing device, information processing system, information retrieval method, and program
JP5230664B2 (en) Similar word search server and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231025

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20231026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240408

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240419