JP2010134922A - Similar word determination method and system - Google Patents
Similar word determination method and system Download PDFInfo
- Publication number
- JP2010134922A JP2010134922A JP2009266174A JP2009266174A JP2010134922A JP 2010134922 A JP2010134922 A JP 2010134922A JP 2009266174 A JP2009266174 A JP 2009266174A JP 2009266174 A JP2009266174 A JP 2009266174A JP 2010134922 A JP2010134922 A JP 2010134922A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language
- similar word
- input
- input character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、検索サービスに関し、より詳細には、外国語または該当する外国語発音の韓国語表記に対する類似語を推奨クエリーとして提供する方法およびシステムに関する。 The present invention relates to a search service, and more particularly, to a method and system for providing a similar word as a recommended query to a foreign language or a Korean expression of a corresponding foreign language pronunciation.
最近、科学技術の発展および経済水準の向上によって超高速インターネットのような通信網の普及と超高速通信網の利用者が急激に増加しており、このような超高速通信網の利用者の急激な増加は、通信網を介した新規サービスの開発およびサービスアイテムの多様化を可能にした。このような通信網を用いたサービスの中で最も一般的なサービスが、検索サービスであるといえる。 Recently, with the development of science and technology and the improvement of economic standards, the spread of communication networks such as the ultra-high-speed Internet and the number of users of ultra-high-speed communication networks are increasing rapidly. The increase allowed the development of new services and the diversification of service items via the communication network. It can be said that the most common service among services using such a communication network is a search service.
検索サービスとは、ユーザからクエリーが入力されたときに、入力されたクエリーに対応する検索結果(例えば、入力されたクエリーを含むウェブサイト、入力されたクエリーを含む記事、または入力されたクエリーを含むファイル名を有するイメージなど)をユーザに提供するサービスを意味する。 When a query is entered by a user, a search service is a search result corresponding to the entered query (for example, a website containing the entered query, an article containing the entered query, or an entered query). A service that provides a user with an image having a file name to include.
しかしながら、検索サービスを利用するユーザは、クエリーを入力するにあたり、クエリーを正確に入力することができずにクエリーを打ち間違えて入力することや、自分が所望するクエリーが正確に分からずに自分が入力を所望したクエリーを正確に入力することができないことがある。このような場合、検索サービス提供者は、実際に入力されたクエリーに基づいて検索を実行することとなり、この結果、ユーザは自分が所望する検索結果の提供を受けられなくなるという不便さがある。 However, when using a search service, a user cannot enter a query correctly because he / she enters the query incorrectly, or he / she does not know exactly what query he / she wants. In some cases, it is not possible to accurately input a query desired to be input. In such a case, the search service provider performs a search based on the actually inputted query, and as a result, there is an inconvenience that the user cannot receive the search result desired by the user.
このような不便さを解決するために、最近の検索サービスは、ユーザが入力したクエリーに対する推奨クエリーの提供または関連するクエリーの提供などのような多様な検索サービスを提供している。ここで、推奨クエリーの提供とは、ユーザによって入力されたクエリーと類似するクエリーのうちの一部を推奨クエリーとして提供するサービスを意味する。 In order to solve such inconvenience, recent search services provide various search services such as providing a recommended query for a query input by a user or providing a related query. Here, the provision of a recommended query means a service that provides a part of a query similar to a query input by a user as a recommended query.
特に、このような推奨クエリーの提供において、ユーザが外国語に熟練しておらずに該当する外国語の表記または発音が正確に分からない場合には、ユーザが検索しようとするクエリーの外国語表記または該当する外国語発音の韓国語表記を誤って入力し、ユーザが所望する検索結果を正確に提供することができないという問題点がある。 In particular, in providing such a recommended query, if the user is not proficient in a foreign language and does not know the correct foreign language notation or pronunciation, the foreign language notation of the query that the user is trying to search for Alternatively, there is a problem in that the user cannot correctly provide a desired search result by erroneously inputting the corresponding Korean pronunciation of the foreign language pronunciation.
本発明は、上述した問題点を解決するためのものであって、ユーザが検索しようとするクエリーに対する該当する外国語表記または発音が正確に分からない場合にも、類似する外国語文字列または類似する発音に該当する外国語文字列を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することをその技術的課題とする。 The present invention is for solving the above-described problem, and even when a foreign language expression or pronunciation corresponding to a query to be searched by a user is not accurately understood, a similar foreign language character string or similar It is an object of the present invention to provide a similar word determination method and system that can provide a foreign language character string corresponding to a pronunciation as a recommended query.
また、本発明は、ユーザが検索しようとするクエリーが外国語である場合、該当する外国語は分からないが該当する外国語発音の母国語表記が分かる場合にも、発音が類似する外国語を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することを他の技術的課題とする。 In addition, the present invention provides a foreign language whose pronunciation is similar even when the query to be searched by a user is a foreign language, even when the corresponding foreign language is unknown but the native language notation of the corresponding foreign language pronunciation is known. It is another technical problem to provide a method and system for determining a similar word that can be provided as a recommended query.
さらに、本発明は、ユーザが検索しようとするクエリーが中国語、英語などの多様な言語である場合にも、類似する単語を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することを他の技術的課題とする。 Furthermore, the present invention provides a similar word determination method and system capable of providing similar words as recommended queries even when a query to be searched by a user is in various languages such as Chinese and English. This is another technical issue.
本発明の一実施形態に係る類似語決定方法は、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出するステップと、前記候補文字列の中で前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップとを含む。 The similar word determination method according to an embodiment of the present invention includes a step of determining whether an input character string is a first language or a second language, and when the input character string is the second language, Calculating an edit distance between a character string in which the pronunciation of the candidate character string is written in the second language and the input character string among candidate character strings written in the first language; and The candidate character string written in the first language corresponding to the character string written in the second language whose edit distance from the input character string is not more than a reference value is determined as a similar word of the input character string Including the step of.
ここで、前記第2言語が母国語である場合、前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とし、好ましくは、前記第2言語が韓国語である場合、前記母国語に対する音差変換器は、韓国語音差変換器であることを特徴とする。ここで、音差変換器は、第1言語を第2言語である母国語の発音表記に変換することができる。 Here, when the second language is a native language, the character string in which the pronunciation of the candidate character string is expressed in the second language is converted by the sound difference converter for the candidate character string with respect to the native language. Preferably, when the second language is Korean, the sound difference converter for the native language is a Korean sound difference converter. Here, the sound difference converter can convert the first language into the phonetic notation of the native language that is the second language.
一方、前記判断ステップにおいて、前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出するステップと、前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップとをさらに含むことを特徴とする。 On the other hand, in the determination step, when the input character string is in the first language, a step of calculating an edit distance between the candidate character string and the input character string, and the edit distance in the candidate character string is Determining a candidate character string that is equal to or less than a reference value as a similar word of the input character string.
また、前記編集距離を算出するステップにおいて、前記第2言語からなる入力文字列を前記第1言語に変換が可能であるか否かを判断するステップをさらに含み、前記第2言語からなる入力文字列を前記第1言語に変換が可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出することを特徴とする。 The step of calculating the edit distance further includes a step of determining whether or not the input character string made of the second language can be converted to the first language, and the input character made of the second language When a string cannot be converted into the first language, an edit distance between a character string representing the pronunciation of the candidate character string in the second language and the input character string is calculated.
そして、本発明の一実施形態に係る類似語決定方法は、前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換するステップと、前記第1言語に変換された文字列と前記候補文字列との編集距離を算出するステップと、前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップとをさらに含むことを特徴とする。 Then, in the similar word determination method according to an embodiment of the present invention, when the input character string composed of the second language can be converted into the first language, the input character string composed of the second language is converted into the first character string. A step of converting into one language, a step of calculating an edit distance between the character string converted into the first language and the candidate character string, and a candidate whose edit distance is not more than a reference value in the candidate character string And a step of determining a character string as a similar word of the input character string.
このとき、前記変換するステップにおいて、前記第1言語が外国語である場合、前記入力文字列を該当する外国語に対する音差復元器を用いて前記該当する外国語からなる文字列に変換することを特徴とする。一実施形態において、前記第1言語が日本語である場合、前記該当する外国語に対する音差復元器は、日本語音差復元器とすることができる。 At this time, in the step of converting, when the first language is a foreign language, the input character string is converted into a character string composed of the corresponding foreign language using a sound difference restoration device for the corresponding foreign language. It is characterized by. In one embodiment, when the first language is Japanese, the sound difference restorer for the corresponding foreign language can be a Japanese sound difference restorer.
一実施形態において、前記第1言語は外国語のうちのいずれか1つであり、前記第2言語は母国語とすることができる。また、前記入力文字列および候補文字列は、検索クエリーとすることができる。 In one embodiment, the first language may be any one of foreign languages, and the second language may be a native language. Further, the input character string and the candidate character string can be a search query.
一方、本発明の一実施形態に係る類似語決定方法は、前記判断ステップの前に、ユーザ端末から前記入力文字列を受信するステップをさらに含み、前記類似語決定ステップの後に、前記決定した類似語を推奨クエリーとして前記ユーザ端末に提供するステップをさらに含むことを特徴とする。 Meanwhile, the similar word determination method according to an embodiment of the present invention further includes a step of receiving the input character string from a user terminal before the determination step, and the determined similarity is after the similar word determination step. The method further includes providing a word as a recommended query to the user terminal.
一実施形態において、前記候補文字列は、予め格納された候補文字列の中で前記入力文字列との編集距離が基準値以下である候補文字列または前記入力文字列と共通した文字を含む候補文字列の中で前記入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つから選定されることを特徴とする。 In one embodiment, the candidate character string includes a candidate character string having an edit distance with respect to the input character string that is equal to or less than a reference value among candidate character strings stored in advance or a candidate that includes characters common to the input character string The character string is selected from at least one candidate character string having a character similarity score within the upper N rank among the character strings.
ここで、前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための各演算別にワイルドカード文字(Wild Card Character)検索を用いて選定されることを特徴とし、前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さ差を用いて決定されることを特徴とする。 Here, a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings is selected using a wild card character search for each operation for calculating the edit distance. The candidate character string including characters common to the input character string is a candidate character string including N-gram common to the input character string, and the character similarity score is common to the input character string N-gram size, the number of the common N-grams, the similarity of the position where the common N-gram is found, and the length difference between the input character string and each candidate character string It is determined by using.
上述した目的を達成するために、本発明の一実施形態に係る類似語決定システムは、ユーザ端末から入力文字列を受信し、前記入力文字列に対する類似語を推奨クエリーとして前記ユーザ端末に提供するユーザインターフェース部と、前記入力文字列が第2言語である場合、第1言語で表記された候補文字列の中で前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定して前記ユーザインターフェース部に提供する類似語決定部とを含む。 To achieve the above object, a similar word determination system according to an embodiment of the present invention receives an input character string from a user terminal and provides the user terminal with a similar word corresponding to the input character string as a recommended query. When the user interface unit and the input character string are in the second language, the character string expressing the pronunciation of the candidate character string in the second language and the input character among the candidate character strings expressed in the first language A candidate character string written in the first language corresponding to a character string written in the second language whose edit distance to the column is equal to or less than a reference value, and determining the candidate character string written in the first language as a similar word of the input character string; And a similar word determination unit provided to
本発明によれば、ユーザが検索しようとするクエリーが外国語である場合、正確な外国語が分からない場合にも、表記が類似する外国語を推奨クエリーとして提供することができるという効果がある。 According to the present invention, when a query to be searched by a user is a foreign language, even when an accurate foreign language is not known, a foreign language having a similar notation can be provided as a recommended query. .
また、本発明は、ユーザが検索しようとするクエリーが外国語である場合、該当する外国語は分からないが該当する外国語発音の母国語表記が分かる場合にも、発音が類似する外国語を推奨クエリーとして提供することができるという効果がある。 In addition, the present invention provides a foreign language whose pronunciation is similar even when the query to be searched by a user is a foreign language, even when the corresponding foreign language is unknown but the native language notation of the corresponding foreign language pronunciation is known. There is an effect that it can be provided as a recommended query.
さらに、本発明は、ユーザが検索しようとするクエリーが中国語、英語などの多様な言語である場合にも、類似する単語を推奨クエリーとして提供することができるという効果がある。 Furthermore, the present invention has an effect that similar words can be provided as a recommended query even when a query to be searched by a user is in various languages such as Chinese and English.
以下、添付の図面を参照しながら、本発明の実施形態について詳しく説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
図1は、本発明の一実施形態に係る類似語決定システムが含まれたネットワーク構成を示す図である。図に示すように、類似語決定システム100は、インターネット110を介して接続したユーザ端末120から入力文字列を受信し、受信した入力文字列に対する類似語を決定し、決定した類似語を推奨クエリーとしてユーザ端末120に提供する。このような類似語決定システム100は、図に示すように、ユーザインターフェース部130と、候補文字列提供部140と、類似語決定部150とを含む。
FIG. 1 is a diagram illustrating a network configuration including a similar word determination system according to an embodiment of the present invention. As shown in the figure, the similar
まず、ユーザインターフェース部130は、ユーザ端末120から外国語で表記された入力文字列または外国語の発音が韓国語で表記された入力文字列を受信し、後述する類似語決定部150から、類似語が入力文字列に対する推奨クエリーとしてユーザ端末120に提供する。
First, the
候補文字列提供部140は、ユーザに提供する推奨クエリーを決定するための入力文字列との編集距離算出のために、候補文字列を類似語決定部150に提供する。本発明における候補文字列は、予め格納されたクエリーのうちの一部が候補文字列として選定されたものであり、類似語決定部150は、予め格納しておいたすべてのクエリーを対象として入力文字列と編集距離を計算するのではなく、候補文字列提供部140から提供された候補文字列と入力文字列との編集距離を計算することによって入力クエリーに対する類似語提供サービスの応答速度を改善することができる。
The candidate character
ここで、候補文字列提供部140で提供する候補文字列は、入力文字列との編集距離が基準値以下である候補文字列または入力文字列と共通した文字を含む候補文字列の中で入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つをデータベース(図示せず)に予め格納しておくことができる。
Here, the candidate character string provided by the candidate character
また、候補文字列の中で編集距離が基準値以下である候補文字列は、編集距離算出のための各演算別にワイルドカード文字検索を用いて選定することができる。 A candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings can be selected using a wild card character search for each operation for calculating the edit distance.
ここで、各演算は、挿入演算、削除演算、交換演算、および転位演算を含むものであって、挿入演算は特定の文字列に新たな文字を追加することによって発生する演算を意味し、削除演算は特定の文字列に含まれた文字を削除することによって発生する演算を意味し、交換演算は特定の文字列に含まれた文字を新たな文字に交換することによって発生する演算を意味し、転位演算は特定の文字列に含まれた互いに隣接した文字の順序を変更することによって発生する演算を意味する。 Here, each operation includes an insertion operation, a deletion operation, an exchange operation, and a transposition operation, and the insertion operation means an operation that occurs when a new character is added to a specific character string. An operation means an operation generated by deleting a character included in a specific character string, and an exchange operation means an operation generated by exchanging a character included in a specific character string with a new character. The transposition operation means an operation generated by changing the order of adjacent characters included in a specific character string.
そして、入力文字列と共通した文字を含む候補文字列は、入力文字列と共通したN−gramを含む候補文字列であり、文字類似度点数は、入力文字列と共通したN−gramの大きさ、共通したN−gramの個数、共通したN−gramが発見された位置の類似度、および入力文字列と各候補文字列の間の長さの差を用いて決定することができる。 A candidate character string including a character common to the input character string is a candidate character string including an N-gram common to the input character string, and the character similarity score is a large N-gram common to the input character string. It can be determined using the number of common N-grams, the similarity of the position where the common N-gram is found, and the difference in length between the input character string and each candidate character string.
類似語決定部150は、入力文字列が第1言語の発音に該当する第2言語で表記した文字列である場合、候補文字列提供部140によって提供された予め格納された候補文字列の中で候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離が基準値以下である第2言語で表記した文字列に該当する候補文字列を入力文字列の類似語として決定し、ユーザインターフェース部130に提供する。このために、類似語決定部150は、図2に示すように、入力文字列判断部210と、文字列変換要否判断部220と、第1編集距離算出部230と、第1決定部240と、第2編集距離算出部250と、第2決定部260と、文字列変換部270とを含む。以下、図2を参照しながら、類似語決定部150について具体的に説明する。
When the input character string is a character string written in the second language corresponding to the pronunciation of the first language, the similar
入力文字列判断部210は、入力文字列が第1言語で表記された文字列であるか、または第1言語の発音に該当する第2言語で表記された文字列であるかを判断する。一実施形態において、第1言語は外国語のうちのいずれか1つとすることができ、第2言語は母国語とすることができる。例えば、大韓民国において、第1言語は外国語である日本語、中国語、および英語などの多様な外国語のうちの1つとすることができ、第2言語は母国語である韓国語とすることができる。仮に、第1言語が日本語である場合、入力文字列はひらがな、カタカナ、および漢字のうちの少なくとも1つを含むようにしてもよい。ここで、入力文字列および候補文字列は、検索クエリーとすることができる。
The input character
一実施形態において、入力文字列判断部210は、入力文字列の各文字の文字コードにより、入力文字列が第1言語で表記された文字列であるか第2言語で表記された文字列であるかを判断することができる。例えば、第1言語が日本語、第2言語が韓国語であると仮定すると、入力文字列判断部210は、入力文字列のすべての音節のそれぞれの文字コードを確認し、すべての文字がハングルである場合にのみ入力文字列が韓国語であると判断することができ、日本語と韓国語が共に表記されている場合には入力文字列が日本語であると判断することができる。より好ましくは、入力文字列の各文字をUCS−2コードに変換し、Unicode(ユニコード)値が0xAC00と0xD7A3という領域内に存在すれば、入力文字列を韓国語と判断することができる。
In one embodiment, the input character
一方、本発明において、第1言語および第2言語は、本発明に記載された言語に制限されるものではなく、第1言語および第2言語は多様な言語とすることができる。また、説明の便宜上、以下では、第1言語が日本語および第2言語が韓国語であると仮定して説明する。 On the other hand, in the present invention, the first language and the second language are not limited to the languages described in the present invention, and the first language and the second language can be various languages. For convenience of explanation, the following description will be made assuming that the first language is Japanese and the second language is Korean.
言い換えれば、入力文字列判断部210は、ユーザ端末を介して入力された文字列が日本語文字列であるかまたは日本語の発音が韓国語で表記された文字列であるかを判断する。
In other words, the input character
文字列変換要否判断部220は、入力文字列判断部210によって入力文字列が第2言語で表記された入力文字列であると判断した場合、この入力文字列が第1言語で表記された文字列に変換が可能であるか否かを判断する。例えば、入力文字列が
(「タップリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
(「タップルリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断する。
When the character string conversion
If it is (Korean notation for “Tappuri”, the same applies hereinafter), it is determined that conversion to Japanese is possible because the corresponding Japanese notation “Plenty” exists, and the input character string But
If it is (Korean notation for “Tapluri”, the same applies hereinafter), it is determined that conversion to Japanese is impossible because there is no corresponding Japanese notation.
第1編集距離算出部230は、入力文字列判断部210によって入力文字列が第2言語で表記された文字列であると判断された場合、候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離を算出する。例えば、入力文字列が、発音が韓国語で表記された文字列である
である場合、入力文字列である
と候補文字列の発音である韓国語文字列との編集距離を算出する。
When the input character
Is the input string
And the edit distance between the Korean character string that is the pronunciation of the candidate character string.
一実施形態において、第1編集距離算出部230は、文字列変換要否判断部220により、第2言語で表記された入力文字列を第1言語で表記された文字列に変換可能でないと判断した場合、候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離を算出することができる。言い換えれば、上述したように、
のような韓国語で表記された入力文字列が日本語に変換が不可能である場合には、
と候補文字列の発音に該当する
、
(「タッスル」の韓国語表記、以下同じ)、
(「タタエル」の韓国語表記、以下同じ)などのような文字列と編集距離を算出する。
In one embodiment, the first edit
If the input string written in Korean cannot be converted to Japanese,
Corresponds to the pronunciation of the candidate string
,
(Korean notation for "Tassle", the same applies below),
(Tatael is written in Korean, the same applies hereinafter) and the edit distance are calculated.
第1決定部240は、候補文字列の中で入力文字列との編集距離が基準値以下である第2言語で表記された文字列に該当する候補文字列を入力文字列の類似語として決定する。例えば、入力文字列が韓国語で表記された文字列である
の場合、
と編集距離が基準値以下である
、
、
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。一方、本発明における編集距離の基準値は、状況によって変更が可能であり、特定の数値に限定されるものではない。
The
in the case of,
And edit distance is below the reference value
,
,
Candidate character strings corresponding to ‘full’, ‘tact’, and ‘come’ can be determined as similar words in the input character string. On the other hand, the edit distance reference value in the present invention can be changed depending on the situation, and is not limited to a specific numerical value.
ここで、第2言語が韓国語である場合、候補文字列の発音に該当する第2言語で表記された文字列は、候補文字列に対する韓国語音差変換器を用いて得ることができる。一例として、音差変換器は、候補文字列を第2言語の発音表記で構成された文字列に変換することができる。例えば、候補文字列が日本語であり第2言語が韓国語である場合、音差変換器は、日本語を韓国語の発音表記に変換することができる。具体的に、日本語である候補文字列が「たっぷり」である場合、音差変換器は、「たっぷり」を韓国語の発音表記で構成された文字列である
に変換することができる。
Here, when the second language is Korean, the character string written in the second language corresponding to the pronunciation of the candidate character string can be obtained using a Korean sound difference converter for the candidate character string. As an example, the sound difference converter can convert a candidate character string into a character string composed of phonetic notation of the second language. For example, if the candidate character string is Japanese and the second language is Korean, the sound difference converter can convert Japanese into Korean phonetic notation. Specifically, if the candidate character string in Japanese is “full”, the tone difference converter is a character string composed of “full” in Korean phonetic notation.
Can be converted to
第2編集距離算出部250は、入力文字列判断部210によって入力文字列が第1言語で表記された文字列として判断された場合、候補文字列と入力文字列との編集距離を算出する。例えば、入力文字列が日本語である「たっぷる」と入力された場合、候補文字列と入力文字列である「たっぷる」との編集距離を算出する。
When the input character
第2決定部260は、候補文字列の中で第2編集距離算出部250によって算出された編集距離が基準値以下である候補文字列を入力文字列の類似語として決定する。例えば、入力文字列が日本語である「たっぷる」である場合、候補文字列と入力文字列である「たっぷる」との編集距離が基準値以下である候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列である「たっぷる」の類似語として決定する。
The
文字列変換部270は、文字列変換要否判断部220によって第2言語で表記された入力文字列が第1言語で表記された文字列に変換が可能であると判断された場合、第2言語で表記された入力文字列を第1言語で表記された文字列に変換する。ここで、第2編集距離算出部250は、文字列変換部270によって変換された第1言語で表記された文字列に変換された入力文字列と候補文字列との編集距離を算出することができる。
If the character string conversion
一実施形態において、文字列変換部270は、第1言語が日本語である場合、入力文字列を日本語文字列に変換する日本語音差復元器とすることができる。
In one embodiment, the character
一方、上述した実施形態においては、候補文字列提供部140が類似語決定システム100に含まれるものと記載したが、実施形態の変形例においては、別のシステムに含むこともでき、データベース(図示せず)がその役割の代わりをすることもできる。
On the other hand, in the above-described embodiment, it has been described that the candidate character
以下、図3を参照しながら、本発明に係る類似語決定方法を説明する。図3は、本発明の一実施形態に係る類似語決定方法を示すフローチャートである。 Hereinafter, the similar word determination method according to the present invention will be described with reference to FIG. FIG. 3 is a flowchart illustrating a similar word determination method according to an embodiment of the present invention.
図に示すように、ユーザによって入力された文字列を、ユーザ端末を介して受信する(S300)。 As shown in the figure, the character string input by the user is received via the user terminal (S300).
次に、入力文字列が第1言語であるかまたは第2言語であるかを判断する(S310)。ここで、第1言語は日本語、中国語、および英語のうちの1つとすることができ、第2言語は韓国語とすることができる。言い換えれば、入力文字列が日本語であるかまたは該当する日本語発音の韓国語表記であるかを判断する。また、第1言語が日本語である場合、入力文字列は、ひらがな、カタカナ、および漢字のうちの少なくとも1つを含むようにしてもよい。 Next, it is determined whether the input character string is the first language or the second language (S310). Here, the first language can be one of Japanese, Chinese, and English, and the second language can be Korean. In other words, it is determined whether the input character string is in Japanese or the Korean notation of the corresponding Japanese pronunciation. When the first language is Japanese, the input character string may include at least one of hiragana, katakana, and kanji.
次に、入力文字列が第2言語である場合、第2言語からなる入力文字列を第1言語に変換が可能であるか否かを判断する(S320)。例えば、入力文字列が
である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断することができる。
Next, when the input character string is in the second language, it is determined whether or not the input character string in the second language can be converted into the first language (S320). For example, if the input string is
, It is determined that conversion to Japanese is possible because the corresponding Japanese notation “plentiful” exists, and the input string is
In the case of, it can be determined that conversion to Japanese is impossible because there is no corresponding Japanese notation.
次に、入力文字列が第1言語に変換が不可能である場合、第1言語で表記された候補文字列の中で候補文字列の発音を第2言語で表記した文字列と入力文字列との編集距離を算出する(S330)。ここで、入力文字列および候補文字列は、検索クエリーとすることができる。例えば、入力文字列が、発音が韓国語で表記された文字列である
である場合、入力文字列である
と候補文字列の発音を韓国語で表記した文字列との編集距離を算出する。
Next, when the input character string cannot be converted into the first language, the character string expressing the pronunciation of the candidate character string in the second language and the input character string among the candidate character strings expressed in the first language The edit distance is calculated (S330). Here, the input character string and the candidate character string can be a search query. For example, the input string is a string whose pronunciation is written in Korean
Is the input string
And the edit distance between the candidate character string and the character string describing the pronunciation of the candidate character string in Korean.
ここで、候補文字列は、予め格納された候補文字列の中で入力文字列との編集距離が基準値以下である候補文字列または入力文字列と共通した文字を含む候補文字列の中で入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つとすることができる。 Here, the candidate character string is a candidate character string that includes a character that is common to the input character string or a candidate character string whose edit distance to the input character string is equal to or less than a reference value among the candidate character strings stored in advance. It can be set as at least one of the candidate character strings whose character similarity score with the input character string is within the top N.
また、候補文字列の中で編集距離が基準値以下である候補文字列は、編集距離算出のための演算毎にワイルドカード文字検索を用いて選定することができる。 In addition, a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings can be selected using a wild card character search for each calculation for calculating the edit distance.
そして、入力文字列と共通した文字を含む候補文字列は、入力文字列と共通したN−gramを含む候補文字列であり、文字類似度点数は、入力文字列と共通したN−gramの大きさ、共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および入力文字列と各候補文字列との間の長さの差を用いて決定することができる。 A candidate character string including a character common to the input character string is a candidate character string including an N-gram common to the input character string, and the character similarity score is a large N-gram common to the input character string. The number of common N-grams, the similarity of the position where the common N-gram is found, and the difference in length between the input character string and each candidate character string can be determined. .
次に、候補文字列の中で入力文字列との編集距離が基準値以下である第2言語で表記した文字列に該当する第1言語で表記された候補文字列を入力文字列の類似語として決定する(S340)。例えば、入力文字列が韓国語で表記された文字列である
である場合、
と編集距離が基準値以下である
、
、
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。
Next, the candidate character string expressed in the first language corresponding to the character string expressed in the second language whose edit distance to the input character string is equal to or less than the reference value among the candidate character strings is similar to the input character string (S340). For example, the input string is a string written in Korean
If it is,
And edit distance is below the reference value
,
,
Candidate character strings corresponding to ‘full’, ‘tact’, and ‘come’ can be determined as similar words in the input character string.
最後に、決定した類似語を推奨クエリーとしてユーザ端末に提供する(S350)。 Finally, the determined similar word is provided to the user terminal as a recommended query (S350).
一方、S310ステップにおいて、入力文字列が第1言語である場合、候補文字列と入力文字列との編集距離を算出し(S360)、候補文字列の中で編集距離が基準値以下である候補文字列を入力文字列の類似語として決定する(S370)。例えば、入力文字列が日本語である「たっぷる」である場合、候補文字列と入力文字列である「たっぷる」との編集距離が基準値以下の候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列である「たっぷる」の類似語として決定する。 On the other hand, if the input character string is in the first language in step S310, the edit distance between the candidate character string and the input character string is calculated (S360), and the candidate whose edit distance is equal to or less than the reference value among the candidate character strings. The character string is determined as a similar word of the input character string (S370). For example, if the input character string is “Japanese” that is Japanese, “Tapuri”, which is a candidate character string whose edit distance between the candidate character string and the input character string “Taple” is below the reference value, “ “Tataru” and “Tameru” are determined as similar words to “Tapuru” which is the input character string.
また、S320ステップにおいて、入力文字列が第1言語に変換が可能である場合、第2言語からなる入力文字列を第1言語に変換し(S380)、第1言語に変換された入力文字列と候補文字列との編集距離を算出する(S360)。 In step S320, if the input character string can be converted to the first language, the input character string made of the second language is converted to the first language (S380), and the input character string converted to the first language is converted. And the edit distance between the candidate character string and the candidate character string (S360).
上述した類似語決定方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータで読取可能な媒体に記録されてもよい。当該記録媒体は、プログラム命令、データファイル、データ構造なども単独または組み合わせて含んでもよい。記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。 The similar word determination method described above may be recorded on a computer readable medium including program instructions for executing various operations realized by a computer. The recording medium may include program instructions, data files, data structures, etc. alone or in combination. The recording medium and the program instructions may be specially designed and configured for the purposes of the present invention, and may be known and usable by those skilled in the computer software art.
コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。一方、このような記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体であってもよい。 Examples of the computer-readable recording medium include a hard disk, a floppy (registered trademark) disk, a magnetic medium such as a magnetic tape, an optical recording medium such as a CD-ROM and a DVD, and a magnetic medium such as a floppy disk. Included are optical devices and hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. On the other hand, such a recording medium may be a transmission medium such as an optical or metal line or a waveguide including a carrier wave that transmits a signal for storing program instructions, data structures, and the like.
プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行可能な高級言語コードを含む。上述のハードウェア装置は、本発明の上述の実施形態の動作をするために、1つ以上のソフトウェアモジュールとして動作するよう設定されてもよく、その逆も同様である。 Examples of the program instructions include not only machine language codes generated by a compiler but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the above-described embodiments of the present invention, and vice versa.
上述したように、本発明のいくつかの実施形態を参照して説明したが、本発明はこれに限定されるものではない。該当する技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。 As described above, the present invention has been described with reference to some embodiments of the present invention, but the present invention is not limited thereto. Those skilled in the art can understand that the present invention can be variously modified and changed without departing from the spirit and scope of the present invention described in the claims. It will be possible.
100:類似語決定システム
110:インターネット
120:ユーザ端末
130:ユーザインターフェース部
140:候補文字列提供部
150:類似語決定部
100: Similar word determination system 110: Internet 120: User terminal 130: User interface unit 140: Candidate character string providing unit 150: Similar word determination unit
Claims (22)
前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離を算出するステップと、
前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を、前記入力文字列の類似語として決定するステップと、
を含むことを特徴とする類似語決定方法。 Determining whether the input string is a first language or a second language;
When the input character string is the second language, among the candidate character strings expressed in the first language, the character string expressing the pronunciation of the candidate character string in the second language, and the input character string Calculating the edit distance between and
Among the candidate character strings, a candidate character string written in the first language corresponding to a character string written in the second language whose edit distance from the input character string is equal to or less than a reference value is input to the candidate character string. Determining as a string similarity word;
A similar word determination method comprising:
前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項1に記載の類似語決定方法。 When the second language is a native language,
The similar word determination method according to claim 1, wherein a character string in which the pronunciation of the candidate character string is expressed in the second language is converted by a sound difference converter for the native language. .
前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出するステップと、
前記候補文字列の中で、前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップと、
をさらに含むことを特徴とする請求項1に記載の類似語決定方法。 In the determining step,
When the input character string is in the first language, calculating an edit distance between the candidate character string and the input character string;
Determining a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings as a similar word of the input character string;
The similar word determination method according to claim 1, further comprising:
前記第2言語からなる入力文字列を前記第1言語に変換が可能であるか否かを判断するステップをさらに含み、
前記第2言語からなる入力文字列を前記第1言語に変換が可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離を算出することを特徴とする請求項1に記載の類似語決定方法。 In the step of calculating the edit distance,
Determining whether or not the input character string in the second language can be converted into the first language;
When the input character string in the second language cannot be converted into the first language, the edit distance between the character string expressing the pronunciation of the candidate character string in the second language and the input character string is calculated. The similar word determination method according to claim 1, wherein:
前記前記第1言語に変換された文字列と前記候補文字列との編集距離を算出するステップと、
前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップと、
をさらに含むことを特徴とする請求項1に記載の類似語決定方法。 When the input character string consisting of the second language can be converted into the first language, the step of converting the input character string consisting of the second language into the first language;
Calculating an edit distance between the character string converted into the first language and the candidate character string;
Determining a candidate character string whose edit distance is not more than a reference value among the candidate character strings as a similar word of the input character string;
The similar word determination method according to claim 1, further comprising:
前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語に対する音差復元器を用いて前記該当の外国語からなる文字列に変換することを特徴とする請求項5に記載の外国語類似語決定方法。 In the step of converting to the first language,
When the first language is a foreign language, the input character string composed of the second language is converted into the character string composed of the corresponding foreign language by using a sound difference restorer for the corresponding foreign language. The foreign language similar word determination method according to claim 5.
前記類似語決定ステップの後に、前記決定された類似語を推奨クエリーとして前記ユーザ端末に提供するステップをさらに含むことを特徴とする請求項1に記載の類似語決定方法。 Prior to the determining step, further comprising receiving the input string from a user terminal;
The method of claim 1, further comprising the step of providing the determined similar word as a recommended query to the user terminal after the similar word determining step.
予め格納された候補文字列の中で前記入力文字列との編集距離が基準値以下である候補文字列、または前記入力文字列と共通した文字を含む候補文字列の中で前記入力文字列との文字類似度点数が上位N位以内である候補文字列の中の少なくとも1つから選定されることを特徴とする請求項1に記載の類似語決定方法。 The candidate string is
A candidate character string whose edit distance to the input character string is a reference value or less among candidate character strings stored in advance, or the input character string among candidate character strings including characters common to the input character string, The similar word determination method according to claim 1, wherein the character similarity score is selected from at least one of candidate character strings that are within the top N ranks.
前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さ差を用いて決定することを特徴とする請求項10に記載の類似語決定方法。 The candidate character string including characters common to the input character string is a candidate character string including N-gram common to the input character string,
The character similarity score includes the N-gram size common to the input character string, the number of the common N-grams, the similarity of the position where the common N-gram is found, and the input character string. The method according to claim 10, wherein the determination is performed using a difference in length between the candidate character strings and the candidate character strings.
前記入力文字列が第2言語である場合、第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記した候補文字列を前記入力文字列の類似語として決定し、前記ユーザインターフェース部に提供する類似語決定部と、
含むことを特徴とする類似語決定システム。 A user interface unit that receives an input character string from a user terminal and provides the user terminal with a similar word for the input character string as a recommended query;
When the input character string is the second language, among the candidate character strings written in the first language, the character string expressing the pronunciation of the candidate character string in the second language, the input character string, A candidate character string written in the first language corresponding to a character string written in the second language whose edit distance is equal to or less than a reference value is determined as a similar word of the input character string and provided to the user interface unit A similar word determination unit;
Similar word determination system characterized by including.
前記入力文字列が第1言語であるかまたは第2言語であるかを判断する入力文字列判断部と、
前記入力文字列が前記第2言語である場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出する第1編集距離算出部と、
前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した候補文字列を前記入力文字列の類似語として決定する第1決定部と、
を含むことを特徴とする請求項14に記載の類似語決定システム。 The similar word determination unit
An input character string determination unit for determining whether the input character string is in a first language or a second language;
When the input character string is in the second language, a first edit distance calculating unit that calculates an edit distance between the character string in which the pronunciation of the candidate character string is expressed in the second language and the input character string;
A first determination unit that determines a candidate character string expressed in the second language, the edit distance of which is less than or equal to a reference value, among the candidate character strings as a similar word of the input character string;
The similar word determination system according to claim 14, comprising:
前記第2言語で表記された入力文字列を前記第1言語で表記された文字列に変換が可能であるか否かを判断する文字列変換要否判断部をさらに含み、
前記第1編集距離算出部が前記第2言語からなる文字列を前記第1言語に変換が可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出することを特徴とする請求項15に記載の類似語決定システム。 The similar word determination unit
A character string conversion necessity determination unit that determines whether or not the input character string written in the second language can be converted into a character string written in the first language;
When the first edit distance calculation unit cannot convert the character string composed of the second language into the first language, the character string expressing the pronunciation of the candidate character string in the second language and the input character string The similar word determination system according to claim 15, wherein the edit distance is calculated.
前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項14に記載の類似語決定システム。 When the second language is a native language,
15. The similar word determination system according to claim 14, wherein a character string in which the pronunciation of the candidate character string is expressed in the second language is converted by a sound difference converter for the native language. .
前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出する第2編集距離算出部と、
前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定する第2決定部と、
をさらに含むことを特徴とする請求項14に記載の類似語決定システム。 The similar word determination unit
A second editing distance calculating unit that calculates an editing distance between the candidate character string and the input character string when the input character string is in the first language;
A second determination unit that determines a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings as a similar word of the input character string;
The similar word determination system according to claim 14, further comprising:
前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換する文字列変換部をさらに含み、
前記第2編集距離算出部は、前記第1言語に変換された文字列と前記候補文字列との編集距離を算出することを特徴とする請求項18に記載の類似語決定システム。 The similar word determination unit
When the input character string consisting of the second language can be converted into the first language, the image processing apparatus further includes a character string conversion unit that converts the input character string consisting of the second language into the first language,
The similar word determination system according to claim 18, wherein the second editing distance calculation unit calculates an editing distance between the character string converted into the first language and the candidate character string.
前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語からなる文字列に変換する前記該当する外国語に対する音差復元器であることを特徴とする請求項19に記載の外国語類似語決定システム。 The character string converter
When the first language is a foreign language, it is a sound difference restorer for the corresponding foreign language that converts an input character string composed of the second language into a character string composed of the corresponding foreign language. Item 20. The foreign language similar word determination system according to Item 19.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2008-0124248 | 2008-12-08 | ||
KR1020080124248A KR101049358B1 (en) | 2008-12-08 | 2008-12-08 | Method and system for determining synonyms |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010134922A true JP2010134922A (en) | 2010-06-17 |
JP5323652B2 JP5323652B2 (en) | 2013-10-23 |
Family
ID=42346105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009266174A Active JP5323652B2 (en) | 2008-12-08 | 2009-11-24 | Similar word determination method and system |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5323652B2 (en) |
KR (1) | KR101049358B1 (en) |
CN (1) | CN101751465B (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014194774A (en) * | 2013-03-28 | 2014-10-09 | Estsoft Corp | Misspelling correction system and misspelling correction method |
CN104239495A (en) * | 2014-09-09 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | Search method and search device |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268176B (en) * | 2012-06-26 | 2017-10-31 | 北京奇虎科技有限公司 | A kind of recommendation method based on search keyword |
KR101286296B1 (en) | 2012-11-29 | 2013-07-15 | 김건오 | Method and system for managing a wordgraph |
DE112013006764T5 (en) * | 2013-03-04 | 2015-11-19 | Mitsubishi Electric Corporation | search device |
KR101699478B1 (en) * | 2015-06-23 | 2017-01-25 | 주식회사 비엔알아이 | Server for analyzing naming and method for analyzing the same |
KR102353381B1 (en) | 2019-04-30 | 2022-01-19 | 정철환 | Electronic device, method, and computer program for supporting naming process |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0410052A (en) * | 1990-04-27 | 1992-01-14 | Fuji Xerox Co Ltd | Preparing retrieving device for electronic dictionary of foreign language |
JPH0628396A (en) * | 1992-07-06 | 1994-02-04 | Canon Inc | Electronic dictionary |
JPH08339376A (en) * | 1995-06-12 | 1996-12-24 | Toshiba Corp | Foreign language retrieving device and information retrieving system |
JP2000127647A (en) * | 1998-04-27 | 2000-05-09 | Nobuyuki Sotani | English vocabulary retrieval/check dictionary with kana heading and english vocabulary retrieval/check device |
JP2000231559A (en) * | 1999-02-12 | 2000-08-22 | Matsushita Electric Ind Co Ltd | Information processor |
JP2003178087A (en) * | 2002-10-21 | 2003-06-27 | Fuji Xerox Co Ltd | Retrieval device and method for electronic foreign language dictionary |
JP2005258637A (en) * | 2004-03-10 | 2005-09-22 | Nippon Hoso Kyokai <Nhk> | Translation word extraction device and program |
JP2006039866A (en) * | 2004-07-26 | 2006-02-09 | Patolis Corp | Similar word retrieval device, method, and program, and storage medium recording the program, and information retrieval device |
JP2006039871A (en) * | 2004-07-26 | 2006-02-09 | Patolis Corp | Synonym retrieval device, method, and program, storage medium recording the program, and information retrieval device |
JP2007122719A (en) * | 2005-10-26 | 2007-05-17 | Nhn Corp | Automatic completion recommendation word provision system linking plurality of languages and method thereof |
JP2008084070A (en) * | 2006-09-28 | 2008-04-10 | Toshiba Corp | Structured document retrieval device and program |
JP2008140074A (en) * | 2006-11-30 | 2008-06-19 | Casio Comput Co Ltd | Example sentence retrieving device and example sentence retrieval processing program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100318762B1 (en) * | 1999-10-01 | 2002-01-04 | 윤덕용 | Phonetic distance method for similarity comparison of foreign words |
KR100542757B1 (en) * | 2003-10-02 | 2006-01-20 | 한국전자통신연구원 | Automatic expansion Method and Device for Foreign language transliteration |
US7584093B2 (en) * | 2005-04-25 | 2009-09-01 | Microsoft Corporation | Method and system for generating spelling suggestions |
KR100793378B1 (en) * | 2006-06-28 | 2008-01-11 | 엔에이치엔(주) | Method for comparing similarity of loan word pronunciation and recommending word and system thereof |
-
2008
- 2008-12-08 KR KR1020080124248A patent/KR101049358B1/en active IP Right Grant
-
2009
- 2009-11-24 JP JP2009266174A patent/JP5323652B2/en active Active
- 2009-12-07 CN CN2009102503983A patent/CN101751465B/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0410052A (en) * | 1990-04-27 | 1992-01-14 | Fuji Xerox Co Ltd | Preparing retrieving device for electronic dictionary of foreign language |
JPH0628396A (en) * | 1992-07-06 | 1994-02-04 | Canon Inc | Electronic dictionary |
JPH08339376A (en) * | 1995-06-12 | 1996-12-24 | Toshiba Corp | Foreign language retrieving device and information retrieving system |
JP2000127647A (en) * | 1998-04-27 | 2000-05-09 | Nobuyuki Sotani | English vocabulary retrieval/check dictionary with kana heading and english vocabulary retrieval/check device |
JP2000231559A (en) * | 1999-02-12 | 2000-08-22 | Matsushita Electric Ind Co Ltd | Information processor |
JP2003178087A (en) * | 2002-10-21 | 2003-06-27 | Fuji Xerox Co Ltd | Retrieval device and method for electronic foreign language dictionary |
JP2005258637A (en) * | 2004-03-10 | 2005-09-22 | Nippon Hoso Kyokai <Nhk> | Translation word extraction device and program |
JP2006039866A (en) * | 2004-07-26 | 2006-02-09 | Patolis Corp | Similar word retrieval device, method, and program, and storage medium recording the program, and information retrieval device |
JP2006039871A (en) * | 2004-07-26 | 2006-02-09 | Patolis Corp | Synonym retrieval device, method, and program, storage medium recording the program, and information retrieval device |
JP2007122719A (en) * | 2005-10-26 | 2007-05-17 | Nhn Corp | Automatic completion recommendation word provision system linking plurality of languages and method thereof |
JP2008084070A (en) * | 2006-09-28 | 2008-04-10 | Toshiba Corp | Structured document retrieval device and program |
JP2008140074A (en) * | 2006-11-30 | 2008-06-19 | Casio Comput Co Ltd | Example sentence retrieving device and example sentence retrieval processing program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014194774A (en) * | 2013-03-28 | 2014-10-09 | Estsoft Corp | Misspelling correction system and misspelling correction method |
CN104239495A (en) * | 2014-09-09 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | Search method and search device |
CN104239495B (en) * | 2014-09-09 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | Searching method and searcher |
Also Published As
Publication number | Publication date |
---|---|
JP5323652B2 (en) | 2013-10-23 |
KR20100065747A (en) | 2010-06-17 |
CN101751465B (en) | 2013-05-08 |
KR101049358B1 (en) | 2011-07-13 |
CN101751465A (en) | 2010-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101435265B1 (en) | Method for disambiguating multiple readings in language conversion | |
TWI437449B (en) | Multi-mode input method and input method editor system | |
JP4058071B2 (en) | Example translation device, example translation method, and example translation program | |
JP5513898B2 (en) | Shared language model | |
CN103026318B (en) | Input method editor | |
US8073680B2 (en) | Language detection service | |
JP5323652B2 (en) | Similar word determination method and system | |
US8209166B2 (en) | Apparatus, method, and computer program product for machine translation | |
JP4319860B2 (en) | Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system | |
JP2010520531A (en) | Integrated pinyin and image input | |
US20150169676A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP2010520532A (en) | Input stroke count | |
JP2000298667A (en) | Kanji converting device by syntax information | |
CN1975716A (en) | Chinese to English translation method and system | |
JP2019159826A (en) | Display control program, display control device, and display control method | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
KR20120045906A (en) | Apparatus and method for correcting error of corpus | |
JP2019095603A (en) | Information generation program, word extraction program, information processing device, information generation method and word extraction method | |
JP7483085B1 (en) | Information processing system, information processing device, information processing method, and program | |
JP7115187B2 (en) | Information processing device, information processing method and program | |
JP2018147205A (en) | Information processing device and information processing program | |
JP2010211004A (en) | Dictionary preparing device, dictionary preparing system, dictionary preparing method, and dictionary preparing program | |
JP2000200268A (en) | Handwritten character input and converting device, document preparing device, and computer-readable recording medium | |
JP2015014877A (en) | Unknown word classification program and information processing device | |
CN113268984A (en) | Text processing method and device, storage medium and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121009 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130109 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130207 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5323652 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |