JP2010134922A - Similar word determination method and system - Google Patents

Similar word determination method and system Download PDF

Info

Publication number
JP2010134922A
JP2010134922A JP2009266174A JP2009266174A JP2010134922A JP 2010134922 A JP2010134922 A JP 2010134922A JP 2009266174 A JP2009266174 A JP 2009266174A JP 2009266174 A JP2009266174 A JP 2009266174A JP 2010134922 A JP2010134922 A JP 2010134922A
Authority
JP
Japan
Prior art keywords
character string
language
similar word
input
input character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009266174A
Other languages
Japanese (ja)
Other versions
JP5323652B2 (en
Inventor
Tae Il Kim
泰 壹 金
Yoon Suh Ki
允 舒 寄
Do Gil Lee
道 佶 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NHN Corp
Original Assignee
NHN Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NHN Corp filed Critical NHN Corp
Publication of JP2010134922A publication Critical patent/JP2010134922A/en
Application granted granted Critical
Publication of JP5323652B2 publication Critical patent/JP5323652B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a similar word determination method and system. <P>SOLUTION: The similar word determination method includes steps of: determining whether an input character string is a first language or a second language; calculating editing distance between a character string by writing pronunciation of a candidate character string in the second language among candidate character strings written in the first language and the input character string when the input character string is the second language; and determining the candidate character string written in the first language corresponding to the character string written in the second language whose editing distance with the input character string is equal to or less than a reference value among the candidate character strings as a similar word of the input character string. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、検索サービスに関し、より詳細には、外国語または該当する外国語発音の韓国語表記に対する類似語を推奨クエリーとして提供する方法およびシステムに関する。   The present invention relates to a search service, and more particularly, to a method and system for providing a similar word as a recommended query to a foreign language or a Korean expression of a corresponding foreign language pronunciation.

最近、科学技術の発展および経済水準の向上によって超高速インターネットのような通信網の普及と超高速通信網の利用者が急激に増加しており、このような超高速通信網の利用者の急激な増加は、通信網を介した新規サービスの開発およびサービスアイテムの多様化を可能にした。このような通信網を用いたサービスの中で最も一般的なサービスが、検索サービスであるといえる。   Recently, with the development of science and technology and the improvement of economic standards, the spread of communication networks such as the ultra-high-speed Internet and the number of users of ultra-high-speed communication networks are increasing rapidly. The increase allowed the development of new services and the diversification of service items via the communication network. It can be said that the most common service among services using such a communication network is a search service.

検索サービスとは、ユーザからクエリーが入力されたときに、入力されたクエリーに対応する検索結果(例えば、入力されたクエリーを含むウェブサイト、入力されたクエリーを含む記事、または入力されたクエリーを含むファイル名を有するイメージなど)をユーザに提供するサービスを意味する。   When a query is entered by a user, a search service is a search result corresponding to the entered query (for example, a website containing the entered query, an article containing the entered query, or an entered query). A service that provides a user with an image having a file name to include.

しかしながら、検索サービスを利用するユーザは、クエリーを入力するにあたり、クエリーを正確に入力することができずにクエリーを打ち間違えて入力することや、自分が所望するクエリーが正確に分からずに自分が入力を所望したクエリーを正確に入力することができないことがある。このような場合、検索サービス提供者は、実際に入力されたクエリーに基づいて検索を実行することとなり、この結果、ユーザは自分が所望する検索結果の提供を受けられなくなるという不便さがある。   However, when using a search service, a user cannot enter a query correctly because he / she enters the query incorrectly, or he / she does not know exactly what query he / she wants. In some cases, it is not possible to accurately input a query desired to be input. In such a case, the search service provider performs a search based on the actually inputted query, and as a result, there is an inconvenience that the user cannot receive the search result desired by the user.

このような不便さを解決するために、最近の検索サービスは、ユーザが入力したクエリーに対する推奨クエリーの提供または関連するクエリーの提供などのような多様な検索サービスを提供している。ここで、推奨クエリーの提供とは、ユーザによって入力されたクエリーと類似するクエリーのうちの一部を推奨クエリーとして提供するサービスを意味する。   In order to solve such inconvenience, recent search services provide various search services such as providing a recommended query for a query input by a user or providing a related query. Here, the provision of a recommended query means a service that provides a part of a query similar to a query input by a user as a recommended query.

特に、このような推奨クエリーの提供において、ユーザが外国語に熟練しておらずに該当する外国語の表記または発音が正確に分からない場合には、ユーザが検索しようとするクエリーの外国語表記または該当する外国語発音の韓国語表記を誤って入力し、ユーザが所望する検索結果を正確に提供することができないという問題点がある。   In particular, in providing such a recommended query, if the user is not proficient in a foreign language and does not know the correct foreign language notation or pronunciation, the foreign language notation of the query that the user is trying to search for Alternatively, there is a problem in that the user cannot correctly provide a desired search result by erroneously inputting the corresponding Korean pronunciation of the foreign language pronunciation.

本発明は、上述した問題点を解決するためのものであって、ユーザが検索しようとするクエリーに対する該当する外国語表記または発音が正確に分からない場合にも、類似する外国語文字列または類似する発音に該当する外国語文字列を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することをその技術的課題とする。   The present invention is for solving the above-described problem, and even when a foreign language expression or pronunciation corresponding to a query to be searched by a user is not accurately understood, a similar foreign language character string or similar It is an object of the present invention to provide a similar word determination method and system that can provide a foreign language character string corresponding to a pronunciation as a recommended query.

また、本発明は、ユーザが検索しようとするクエリーが外国語である場合、該当する外国語は分からないが該当する外国語発音の母国語表記が分かる場合にも、発音が類似する外国語を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することを他の技術的課題とする。   In addition, the present invention provides a foreign language whose pronunciation is similar even when the query to be searched by a user is a foreign language, even when the corresponding foreign language is unknown but the native language notation of the corresponding foreign language pronunciation is known. It is another technical problem to provide a method and system for determining a similar word that can be provided as a recommended query.

さらに、本発明は、ユーザが検索しようとするクエリーが中国語、英語などの多様な言語である場合にも、類似する単語を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することを他の技術的課題とする。   Furthermore, the present invention provides a similar word determination method and system capable of providing similar words as recommended queries even when a query to be searched by a user is in various languages such as Chinese and English. This is another technical issue.

本発明の一実施形態に係る類似語決定方法は、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出するステップと、前記候補文字列の中で前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップとを含む。   The similar word determination method according to an embodiment of the present invention includes a step of determining whether an input character string is a first language or a second language, and when the input character string is the second language, Calculating an edit distance between a character string in which the pronunciation of the candidate character string is written in the second language and the input character string among candidate character strings written in the first language; and The candidate character string written in the first language corresponding to the character string written in the second language whose edit distance from the input character string is not more than a reference value is determined as a similar word of the input character string Including the step of.

ここで、前記第2言語が母国語である場合、前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とし、好ましくは、前記第2言語が韓国語である場合、前記母国語に対する音差変換器は、韓国語音差変換器であることを特徴とする。ここで、音差変換器は、第1言語を第2言語である母国語の発音表記に変換することができる。   Here, when the second language is a native language, the character string in which the pronunciation of the candidate character string is expressed in the second language is converted by the sound difference converter for the candidate character string with respect to the native language. Preferably, when the second language is Korean, the sound difference converter for the native language is a Korean sound difference converter. Here, the sound difference converter can convert the first language into the phonetic notation of the native language that is the second language.

一方、前記判断ステップにおいて、前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出するステップと、前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップとをさらに含むことを特徴とする。   On the other hand, in the determination step, when the input character string is in the first language, a step of calculating an edit distance between the candidate character string and the input character string, and the edit distance in the candidate character string is Determining a candidate character string that is equal to or less than a reference value as a similar word of the input character string.

また、前記編集距離を算出するステップにおいて、前記第2言語からなる入力文字列を前記第1言語に変換が可能であるか否かを判断するステップをさらに含み、前記第2言語からなる入力文字列を前記第1言語に変換が可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出することを特徴とする。   The step of calculating the edit distance further includes a step of determining whether or not the input character string made of the second language can be converted to the first language, and the input character made of the second language When a string cannot be converted into the first language, an edit distance between a character string representing the pronunciation of the candidate character string in the second language and the input character string is calculated.

そして、本発明の一実施形態に係る類似語決定方法は、前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換するステップと、前記第1言語に変換された文字列と前記候補文字列との編集距離を算出するステップと、前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップとをさらに含むことを特徴とする。   Then, in the similar word determination method according to an embodiment of the present invention, when the input character string composed of the second language can be converted into the first language, the input character string composed of the second language is converted into the first character string. A step of converting into one language, a step of calculating an edit distance between the character string converted into the first language and the candidate character string, and a candidate whose edit distance is not more than a reference value in the candidate character string And a step of determining a character string as a similar word of the input character string.

このとき、前記変換するステップにおいて、前記第1言語が外国語である場合、前記入力文字列を該当する外国語に対する音差復元器を用いて前記該当する外国語からなる文字列に変換することを特徴とする。一実施形態において、前記第1言語が日本語である場合、前記該当する外国語に対する音差復元器は、日本語音差復元器とすることができる。   At this time, in the step of converting, when the first language is a foreign language, the input character string is converted into a character string composed of the corresponding foreign language using a sound difference restoration device for the corresponding foreign language. It is characterized by. In one embodiment, when the first language is Japanese, the sound difference restorer for the corresponding foreign language can be a Japanese sound difference restorer.

一実施形態において、前記第1言語は外国語のうちのいずれか1つであり、前記第2言語は母国語とすることができる。また、前記入力文字列および候補文字列は、検索クエリーとすることができる。   In one embodiment, the first language may be any one of foreign languages, and the second language may be a native language. Further, the input character string and the candidate character string can be a search query.

一方、本発明の一実施形態に係る類似語決定方法は、前記判断ステップの前に、ユーザ端末から前記入力文字列を受信するステップをさらに含み、前記類似語決定ステップの後に、前記決定した類似語を推奨クエリーとして前記ユーザ端末に提供するステップをさらに含むことを特徴とする。   Meanwhile, the similar word determination method according to an embodiment of the present invention further includes a step of receiving the input character string from a user terminal before the determination step, and the determined similarity is after the similar word determination step. The method further includes providing a word as a recommended query to the user terminal.

一実施形態において、前記候補文字列は、予め格納された候補文字列の中で前記入力文字列との編集距離が基準値以下である候補文字列または前記入力文字列と共通した文字を含む候補文字列の中で前記入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つから選定されることを特徴とする。   In one embodiment, the candidate character string includes a candidate character string having an edit distance with respect to the input character string that is equal to or less than a reference value among candidate character strings stored in advance or a candidate that includes characters common to the input character string The character string is selected from at least one candidate character string having a character similarity score within the upper N rank among the character strings.

ここで、前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための各演算別にワイルドカード文字(Wild Card Character)検索を用いて選定されることを特徴とし、前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さ差を用いて決定されることを特徴とする。   Here, a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings is selected using a wild card character search for each operation for calculating the edit distance. The candidate character string including characters common to the input character string is a candidate character string including N-gram common to the input character string, and the character similarity score is common to the input character string N-gram size, the number of the common N-grams, the similarity of the position where the common N-gram is found, and the length difference between the input character string and each candidate character string It is determined by using.

上述した目的を達成するために、本発明の一実施形態に係る類似語決定システムは、ユーザ端末から入力文字列を受信し、前記入力文字列に対する類似語を推奨クエリーとして前記ユーザ端末に提供するユーザインターフェース部と、前記入力文字列が第2言語である場合、第1言語で表記された候補文字列の中で前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定して前記ユーザインターフェース部に提供する類似語決定部とを含む。   To achieve the above object, a similar word determination system according to an embodiment of the present invention receives an input character string from a user terminal and provides the user terminal with a similar word corresponding to the input character string as a recommended query. When the user interface unit and the input character string are in the second language, the character string expressing the pronunciation of the candidate character string in the second language and the input character among the candidate character strings expressed in the first language A candidate character string written in the first language corresponding to a character string written in the second language whose edit distance to the column is equal to or less than a reference value, and determining the candidate character string written in the first language as a similar word of the input character string; And a similar word determination unit provided to

本発明によれば、ユーザが検索しようとするクエリーが外国語である場合、正確な外国語が分からない場合にも、表記が類似する外国語を推奨クエリーとして提供することができるという効果がある。   According to the present invention, when a query to be searched by a user is a foreign language, even when an accurate foreign language is not known, a foreign language having a similar notation can be provided as a recommended query. .

また、本発明は、ユーザが検索しようとするクエリーが外国語である場合、該当する外国語は分からないが該当する外国語発音の母国語表記が分かる場合にも、発音が類似する外国語を推奨クエリーとして提供することができるという効果がある。   In addition, the present invention provides a foreign language whose pronunciation is similar even when the query to be searched by a user is a foreign language, even when the corresponding foreign language is unknown but the native language notation of the corresponding foreign language pronunciation is known. There is an effect that it can be provided as a recommended query.

さらに、本発明は、ユーザが検索しようとするクエリーが中国語、英語などの多様な言語である場合にも、類似する単語を推奨クエリーとして提供することができるという効果がある。   Furthermore, the present invention has an effect that similar words can be provided as a recommended query even when a query to be searched by a user is in various languages such as Chinese and English.

本発明の一実施形態に係る類似語決定システムを概略的に示すブロック図である。1 is a block diagram schematically showing a similar word determination system according to an embodiment of the present invention. 図1に示す類似語決定部の詳細な構成を示す図である。It is a figure which shows the detailed structure of the similar word determination part shown in FIG. 本発明の一実施形態に係る類似語決定方法を示すフローチャートである。It is a flowchart which shows the similar word determination method which concerns on one Embodiment of this invention.

以下、添付の図面を参照しながら、本発明の実施形態について詳しく説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

図1は、本発明の一実施形態に係る類似語決定システムが含まれたネットワーク構成を示す図である。図に示すように、類似語決定システム100は、インターネット110を介して接続したユーザ端末120から入力文字列を受信し、受信した入力文字列に対する類似語を決定し、決定した類似語を推奨クエリーとしてユーザ端末120に提供する。このような類似語決定システム100は、図に示すように、ユーザインターフェース部130と、候補文字列提供部140と、類似語決定部150とを含む。   FIG. 1 is a diagram illustrating a network configuration including a similar word determination system according to an embodiment of the present invention. As shown in the figure, the similar word determination system 100 receives an input character string from a user terminal 120 connected via the Internet 110, determines a similar word for the received input character string, and recommends the determined similar word to the recommended query. To the user terminal 120. Such a similar word determination system 100 includes a user interface unit 130, a candidate character string providing unit 140, and a similar word determination unit 150, as shown in the figure.

まず、ユーザインターフェース部130は、ユーザ端末120から外国語で表記された入力文字列または外国語の発音が韓国語で表記された入力文字列を受信し、後述する類似語決定部150から、類似語が入力文字列に対する推奨クエリーとしてユーザ端末120に提供する。   First, the user interface unit 130 receives an input character string written in a foreign language or an input character string in which the pronunciation of the foreign language is written in Korean from the user terminal 120, and receives a similar word from the similar word determination unit 150 described later. The word is provided to the user terminal 120 as a recommended query for the input character string.

候補文字列提供部140は、ユーザに提供する推奨クエリーを決定するための入力文字列との編集距離算出のために、候補文字列を類似語決定部150に提供する。本発明における候補文字列は、予め格納されたクエリーのうちの一部が候補文字列として選定されたものであり、類似語決定部150は、予め格納しておいたすべてのクエリーを対象として入力文字列と編集距離を計算するのではなく、候補文字列提供部140から提供された候補文字列と入力文字列との編集距離を計算することによって入力クエリーに対する類似語提供サービスの応答速度を改善することができる。   The candidate character string providing unit 140 provides the candidate character string to the similar word determining unit 150 in order to calculate the edit distance with the input character string for determining the recommended query to be provided to the user. The candidate character strings in the present invention are those in which some of the pre-stored queries are selected as candidate character strings, and the similar word determination unit 150 inputs all the pre-stored queries as targets. Rather than calculating the character string and edit distance, the response speed of the similar word providing service to the input query is improved by calculating the edit distance between the candidate character string provided from the candidate character string providing unit 140 and the input character string. can do.

ここで、候補文字列提供部140で提供する候補文字列は、入力文字列との編集距離が基準値以下である候補文字列または入力文字列と共通した文字を含む候補文字列の中で入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つをデータベース(図示せず)に予め格納しておくことができる。   Here, the candidate character string provided by the candidate character string providing unit 140 is input in a candidate character string whose edit distance to the input character string is equal to or less than a reference value or a candidate character string including characters common to the input character string At least one of the candidate character strings whose character similarity score with the character string is within the upper N ranks can be stored in advance in a database (not shown).

また、候補文字列の中で編集距離が基準値以下である候補文字列は、編集距離算出のための各演算別にワイルドカード文字検索を用いて選定することができる。   A candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings can be selected using a wild card character search for each operation for calculating the edit distance.

ここで、各演算は、挿入演算、削除演算、交換演算、および転位演算を含むものであって、挿入演算は特定の文字列に新たな文字を追加することによって発生する演算を意味し、削除演算は特定の文字列に含まれた文字を削除することによって発生する演算を意味し、交換演算は特定の文字列に含まれた文字を新たな文字に交換することによって発生する演算を意味し、転位演算は特定の文字列に含まれた互いに隣接した文字の順序を変更することによって発生する演算を意味する。   Here, each operation includes an insertion operation, a deletion operation, an exchange operation, and a transposition operation, and the insertion operation means an operation that occurs when a new character is added to a specific character string. An operation means an operation generated by deleting a character included in a specific character string, and an exchange operation means an operation generated by exchanging a character included in a specific character string with a new character. The transposition operation means an operation generated by changing the order of adjacent characters included in a specific character string.

そして、入力文字列と共通した文字を含む候補文字列は、入力文字列と共通したN−gramを含む候補文字列であり、文字類似度点数は、入力文字列と共通したN−gramの大きさ、共通したN−gramの個数、共通したN−gramが発見された位置の類似度、および入力文字列と各候補文字列の間の長さの差を用いて決定することができる。   A candidate character string including a character common to the input character string is a candidate character string including an N-gram common to the input character string, and the character similarity score is a large N-gram common to the input character string. It can be determined using the number of common N-grams, the similarity of the position where the common N-gram is found, and the difference in length between the input character string and each candidate character string.

類似語決定部150は、入力文字列が第1言語の発音に該当する第2言語で表記した文字列である場合、候補文字列提供部140によって提供された予め格納された候補文字列の中で候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離が基準値以下である第2言語で表記した文字列に該当する候補文字列を入力文字列の類似語として決定し、ユーザインターフェース部130に提供する。このために、類似語決定部150は、図2に示すように、入力文字列判断部210と、文字列変換要否判断部220と、第1編集距離算出部230と、第1決定部240と、第2編集距離算出部250と、第2決定部260と、文字列変換部270とを含む。以下、図2を参照しながら、類似語決定部150について具体的に説明する。   When the input character string is a character string written in the second language corresponding to the pronunciation of the first language, the similar word determination unit 150 includes the candidate character strings stored in advance provided by the candidate character string providing unit 140. The candidate character string corresponding to the character string expressed in the second language whose edit distance between the character string expressed in the second language corresponding to the pronunciation of the candidate character string and the input character string is equal to or less than the reference value is input character string And are provided to the user interface unit 130. For this purpose, as shown in FIG. 2, the similar word determination unit 150 includes an input character string determination unit 210, a character string conversion necessity determination unit 220, a first editing distance calculation unit 230, and a first determination unit 240. A second edit distance calculation unit 250, a second determination unit 260, and a character string conversion unit 270. Hereinafter, the similar word determination unit 150 will be described in detail with reference to FIG.

入力文字列判断部210は、入力文字列が第1言語で表記された文字列であるか、または第1言語の発音に該当する第2言語で表記された文字列であるかを判断する。一実施形態において、第1言語は外国語のうちのいずれか1つとすることができ、第2言語は母国語とすることができる。例えば、大韓民国において、第1言語は外国語である日本語、中国語、および英語などの多様な外国語のうちの1つとすることができ、第2言語は母国語である韓国語とすることができる。仮に、第1言語が日本語である場合、入力文字列はひらがな、カタカナ、および漢字のうちの少なくとも1つを含むようにしてもよい。ここで、入力文字列および候補文字列は、検索クエリーとすることができる。   The input character string determination unit 210 determines whether the input character string is a character string written in the first language or a character string written in the second language corresponding to the pronunciation of the first language. In one embodiment, the first language can be any one of the foreign languages and the second language can be the native language. For example, in the Republic of Korea, the first language can be one of a variety of foreign languages such as Japanese, Chinese, and English, and the second language should be the native language, Korean. Can do. If the first language is Japanese, the input character string may include at least one of hiragana, katakana, and kanji. Here, the input character string and the candidate character string can be a search query.

一実施形態において、入力文字列判断部210は、入力文字列の各文字の文字コードにより、入力文字列が第1言語で表記された文字列であるか第2言語で表記された文字列であるかを判断することができる。例えば、第1言語が日本語、第2言語が韓国語であると仮定すると、入力文字列判断部210は、入力文字列のすべての音節のそれぞれの文字コードを確認し、すべての文字がハングルである場合にのみ入力文字列が韓国語であると判断することができ、日本語と韓国語が共に表記されている場合には入力文字列が日本語であると判断することができる。より好ましくは、入力文字列の各文字をUCS−2コードに変換し、Unicode(ユニコード)値が0xAC00と0xD7A3という領域内に存在すれば、入力文字列を韓国語と判断することができる。   In one embodiment, the input character string determination unit 210 is a character string written in the first language or a character string written in the second language, depending on the character code of each character of the input character string. It can be judged whether there is. For example, assuming that the first language is Japanese and the second language is Korean, the input character string determination unit 210 checks the character codes of all syllables in the input character string, and all characters are in Korean. It can be determined that the input character string is Korean only when the input character string is Japanese. If both Japanese and Korean are written, it can be determined that the input character string is Japanese. More preferably, each character of the input character string is converted into a UCS-2 code, and if the Unicode value exists in the area of 0xAC00 and 0xD7A3, the input character string can be determined as Korean.

一方、本発明において、第1言語および第2言語は、本発明に記載された言語に制限されるものではなく、第1言語および第2言語は多様な言語とすることができる。また、説明の便宜上、以下では、第1言語が日本語および第2言語が韓国語であると仮定して説明する。   On the other hand, in the present invention, the first language and the second language are not limited to the languages described in the present invention, and the first language and the second language can be various languages. For convenience of explanation, the following description will be made assuming that the first language is Japanese and the second language is Korean.

言い換えれば、入力文字列判断部210は、ユーザ端末を介して入力された文字列が日本語文字列であるかまたは日本語の発音が韓国語で表記された文字列であるかを判断する。   In other words, the input character string determination unit 210 determines whether the character string input via the user terminal is a Japanese character string or whether the Japanese pronunciation is a character string written in Korean.

文字列変換要否判断部220は、入力文字列判断部210によって入力文字列が第2言語で表記された入力文字列であると判断した場合、この入力文字列が第1言語で表記された文字列に変換が可能であるか否かを判断する。例えば、入力文字列が

Figure 2010134922
(「タップリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
Figure 2010134922
(「タップルリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断する。 When the character string conversion necessity determination unit 220 determines that the input character string is an input character string expressed in the second language by the input character string determination unit 210, the input character string is expressed in the first language. It is determined whether or not conversion to a character string is possible. For example, if the input string is
Figure 2010134922
If it is (Korean notation for “Tappuri”, the same applies hereinafter), it is determined that conversion to Japanese is possible because the corresponding Japanese notation “Plenty” exists, and the input character string But
Figure 2010134922
If it is (Korean notation for “Tapluri”, the same applies hereinafter), it is determined that conversion to Japanese is impossible because there is no corresponding Japanese notation.

第1編集距離算出部230は、入力文字列判断部210によって入力文字列が第2言語で表記された文字列であると判断された場合、候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離を算出する。例えば、入力文字列が、発音が韓国語で表記された文字列である

Figure 2010134922
である場合、入力文字列である
Figure 2010134922
と候補文字列の発音である韓国語文字列との編集距離を算出する。 When the input character string determination unit 210 determines that the input character string is a character string described in the second language, the first edit distance calculation unit 230 displays the second edit distance in the second language corresponding to the pronunciation of the candidate character string. The edit distance between the inputted character string and the input character string is calculated. For example, the input string is a string whose pronunciation is written in Korean
Figure 2010134922
Is the input string
Figure 2010134922
And the edit distance between the Korean character string that is the pronunciation of the candidate character string.

一実施形態において、第1編集距離算出部230は、文字列変換要否判断部220により、第2言語で表記された入力文字列を第1言語で表記された文字列に変換可能でないと判断した場合、候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離を算出することができる。言い換えれば、上述したように、

Figure 2010134922
のような韓国語で表記された入力文字列が日本語に変換が不可能である場合には、
Figure 2010134922
と候補文字列の発音に該当する
Figure 2010134922

Figure 2010134922
(「タッスル」の韓国語表記、以下同じ)、
Figure 2010134922
(「タタエル」の韓国語表記、以下同じ)などのような文字列と編集距離を算出する。 In one embodiment, the first edit distance calculation unit 230 determines that the character string conversion necessity determination unit 220 cannot convert an input character string written in the second language into a character string written in the first language. In this case, the edit distance between the character string written in the second language corresponding to the pronunciation of the candidate character string and the input character string can be calculated. In other words, as mentioned above,
Figure 2010134922
If the input string written in Korean cannot be converted to Japanese,
Figure 2010134922
Corresponds to the pronunciation of the candidate string
Figure 2010134922
,
Figure 2010134922
(Korean notation for "Tassle", the same applies below),
Figure 2010134922
(Tatael is written in Korean, the same applies hereinafter) and the edit distance are calculated.

第1決定部240は、候補文字列の中で入力文字列との編集距離が基準値以下である第2言語で表記された文字列に該当する候補文字列を入力文字列の類似語として決定する。例えば、入力文字列が韓国語で表記された文字列である

Figure 2010134922
の場合、
Figure 2010134922
と編集距離が基準値以下である
Figure 2010134922

Figure 2010134922

Figure 2010134922
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。一方、本発明における編集距離の基準値は、状況によって変更が可能であり、特定の数値に限定されるものではない。 The first determination unit 240 determines a candidate character string corresponding to a character string written in a second language whose edit distance to the input character string is equal to or less than a reference value among the candidate character strings as a similar word of the input character string To do. For example, the input string is a string written in Korean
Figure 2010134922
in the case of,
Figure 2010134922
And edit distance is below the reference value
Figure 2010134922
,
Figure 2010134922
,
Figure 2010134922
Candidate character strings corresponding to ‘full’, ‘tact’, and ‘come’ can be determined as similar words in the input character string. On the other hand, the edit distance reference value in the present invention can be changed depending on the situation, and is not limited to a specific numerical value.

ここで、第2言語が韓国語である場合、候補文字列の発音に該当する第2言語で表記された文字列は、候補文字列に対する韓国語音差変換器を用いて得ることができる。一例として、音差変換器は、候補文字列を第2言語の発音表記で構成された文字列に変換することができる。例えば、候補文字列が日本語であり第2言語が韓国語である場合、音差変換器は、日本語を韓国語の発音表記に変換することができる。具体的に、日本語である候補文字列が「たっぷり」である場合、音差変換器は、「たっぷり」を韓国語の発音表記で構成された文字列である

Figure 2010134922
に変換することができる。 Here, when the second language is Korean, the character string written in the second language corresponding to the pronunciation of the candidate character string can be obtained using a Korean sound difference converter for the candidate character string. As an example, the sound difference converter can convert a candidate character string into a character string composed of phonetic notation of the second language. For example, if the candidate character string is Japanese and the second language is Korean, the sound difference converter can convert Japanese into Korean phonetic notation. Specifically, if the candidate character string in Japanese is “full”, the tone difference converter is a character string composed of “full” in Korean phonetic notation.
Figure 2010134922
Can be converted to

第2編集距離算出部250は、入力文字列判断部210によって入力文字列が第1言語で表記された文字列として判断された場合、候補文字列と入力文字列との編集距離を算出する。例えば、入力文字列が日本語である「たっぷる」と入力された場合、候補文字列と入力文字列である「たっぷる」との編集距離を算出する。   When the input character string determining unit 210 determines that the input character string is a character string written in the first language, the second edit distance calculating unit 250 calculates an edit distance between the candidate character string and the input character string. For example, if the input character string is input as “TAPUL” which is Japanese, the edit distance between the candidate character string and “TAPLUL” which is the input character string is calculated.

第2決定部260は、候補文字列の中で第2編集距離算出部250によって算出された編集距離が基準値以下である候補文字列を入力文字列の類似語として決定する。例えば、入力文字列が日本語である「たっぷる」である場合、候補文字列と入力文字列である「たっぷる」との編集距離が基準値以下である候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列である「たっぷる」の類似語として決定する。   The second determination unit 260 determines a candidate character string whose edit distance calculated by the second edit distance calculation unit 250 is equal to or less than a reference value among the candidate character strings as a similar word of the input character string. For example, if the input character string is Japanese “Tapuru”, “Candidate” is a candidate character string whose edit distance between the candidate character string and the input character string “Tapuru” is less than or equal to the reference value, “Tat” and “Respond” are determined as similar words to the input character string “Tapuru”.

文字列変換部270は、文字列変換要否判断部220によって第2言語で表記された入力文字列が第1言語で表記された文字列に変換が可能であると判断された場合、第2言語で表記された入力文字列を第1言語で表記された文字列に変換する。ここで、第2編集距離算出部250は、文字列変換部270によって変換された第1言語で表記された文字列に変換された入力文字列と候補文字列との編集距離を算出することができる。   If the character string conversion necessity determination unit 220 determines that the input character string written in the second language can be converted into a character string written in the first language, the character string conversion unit 270 An input character string expressed in a language is converted into a character string expressed in a first language. Here, the second edit distance calculation unit 250 may calculate the edit distance between the input character string converted into the character string written in the first language converted by the character string conversion unit 270 and the candidate character string. it can.

一実施形態において、文字列変換部270は、第1言語が日本語である場合、入力文字列を日本語文字列に変換する日本語音差復元器とすることができる。   In one embodiment, the character string conversion unit 270 may be a Japanese sound difference restorer that converts an input character string into a Japanese character string when the first language is Japanese.

一方、上述した実施形態においては、候補文字列提供部140が類似語決定システム100に含まれるものと記載したが、実施形態の変形例においては、別のシステムに含むこともでき、データベース(図示せず)がその役割の代わりをすることもできる。   On the other hand, in the above-described embodiment, it has been described that the candidate character string providing unit 140 is included in the similar word determination system 100. However, in a modified example of the embodiment, the candidate character string providing unit 140 may be included in another system and the database (FIG. (Not shown) can take the place of that role.

以下、図3を参照しながら、本発明に係る類似語決定方法を説明する。図3は、本発明の一実施形態に係る類似語決定方法を示すフローチャートである。   Hereinafter, the similar word determination method according to the present invention will be described with reference to FIG. FIG. 3 is a flowchart illustrating a similar word determination method according to an embodiment of the present invention.

図に示すように、ユーザによって入力された文字列を、ユーザ端末を介して受信する(S300)。   As shown in the figure, the character string input by the user is received via the user terminal (S300).

次に、入力文字列が第1言語であるかまたは第2言語であるかを判断する(S310)。ここで、第1言語は日本語、中国語、および英語のうちの1つとすることができ、第2言語は韓国語とすることができる。言い換えれば、入力文字列が日本語であるかまたは該当する日本語発音の韓国語表記であるかを判断する。また、第1言語が日本語である場合、入力文字列は、ひらがな、カタカナ、および漢字のうちの少なくとも1つを含むようにしてもよい。   Next, it is determined whether the input character string is the first language or the second language (S310). Here, the first language can be one of Japanese, Chinese, and English, and the second language can be Korean. In other words, it is determined whether the input character string is in Japanese or the Korean notation of the corresponding Japanese pronunciation. When the first language is Japanese, the input character string may include at least one of hiragana, katakana, and kanji.

次に、入力文字列が第2言語である場合、第2言語からなる入力文字列を第1言語に変換が可能であるか否かを判断する(S320)。例えば、入力文字列が

Figure 2010134922
である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
Figure 2010134922
である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断することができる。 Next, when the input character string is in the second language, it is determined whether or not the input character string in the second language can be converted into the first language (S320). For example, if the input string is
Figure 2010134922
, It is determined that conversion to Japanese is possible because the corresponding Japanese notation “plentiful” exists, and the input string is
Figure 2010134922
In the case of, it can be determined that conversion to Japanese is impossible because there is no corresponding Japanese notation.

次に、入力文字列が第1言語に変換が不可能である場合、第1言語で表記された候補文字列の中で候補文字列の発音を第2言語で表記した文字列と入力文字列との編集距離を算出する(S330)。ここで、入力文字列および候補文字列は、検索クエリーとすることができる。例えば、入力文字列が、発音が韓国語で表記された文字列である

Figure 2010134922
である場合、入力文字列である
Figure 2010134922
と候補文字列の発音を韓国語で表記した文字列との編集距離を算出する。 Next, when the input character string cannot be converted into the first language, the character string expressing the pronunciation of the candidate character string in the second language and the input character string among the candidate character strings expressed in the first language The edit distance is calculated (S330). Here, the input character string and the candidate character string can be a search query. For example, the input string is a string whose pronunciation is written in Korean
Figure 2010134922
Is the input string
Figure 2010134922
And the edit distance between the candidate character string and the character string describing the pronunciation of the candidate character string in Korean.

ここで、候補文字列は、予め格納された候補文字列の中で入力文字列との編集距離が基準値以下である候補文字列または入力文字列と共通した文字を含む候補文字列の中で入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つとすることができる。   Here, the candidate character string is a candidate character string that includes a character that is common to the input character string or a candidate character string whose edit distance to the input character string is equal to or less than a reference value among the candidate character strings stored in advance. It can be set as at least one of the candidate character strings whose character similarity score with the input character string is within the top N.

また、候補文字列の中で編集距離が基準値以下である候補文字列は、編集距離算出のための演算毎にワイルドカード文字検索を用いて選定することができる。   In addition, a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings can be selected using a wild card character search for each calculation for calculating the edit distance.

そして、入力文字列と共通した文字を含む候補文字列は、入力文字列と共通したN−gramを含む候補文字列であり、文字類似度点数は、入力文字列と共通したN−gramの大きさ、共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および入力文字列と各候補文字列との間の長さの差を用いて決定することができる。   A candidate character string including a character common to the input character string is a candidate character string including an N-gram common to the input character string, and the character similarity score is a large N-gram common to the input character string. The number of common N-grams, the similarity of the position where the common N-gram is found, and the difference in length between the input character string and each candidate character string can be determined. .

次に、候補文字列の中で入力文字列との編集距離が基準値以下である第2言語で表記した文字列に該当する第1言語で表記された候補文字列を入力文字列の類似語として決定する(S340)。例えば、入力文字列が韓国語で表記された文字列である

Figure 2010134922
である場合、
Figure 2010134922
と編集距離が基準値以下である
Figure 2010134922

Figure 2010134922

Figure 2010134922
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。 Next, the candidate character string expressed in the first language corresponding to the character string expressed in the second language whose edit distance to the input character string is equal to or less than the reference value among the candidate character strings is similar to the input character string (S340). For example, the input string is a string written in Korean
Figure 2010134922
If it is,
Figure 2010134922
And edit distance is below the reference value
Figure 2010134922
,
Figure 2010134922
,
Figure 2010134922
Candidate character strings corresponding to ‘full’, ‘tact’, and ‘come’ can be determined as similar words in the input character string.

最後に、決定した類似語を推奨クエリーとしてユーザ端末に提供する(S350)。   Finally, the determined similar word is provided to the user terminal as a recommended query (S350).

一方、S310ステップにおいて、入力文字列が第1言語である場合、候補文字列と入力文字列との編集距離を算出し(S360)、候補文字列の中で編集距離が基準値以下である候補文字列を入力文字列の類似語として決定する(S370)。例えば、入力文字列が日本語である「たっぷる」である場合、候補文字列と入力文字列である「たっぷる」との編集距離が基準値以下の候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列である「たっぷる」の類似語として決定する。   On the other hand, if the input character string is in the first language in step S310, the edit distance between the candidate character string and the input character string is calculated (S360), and the candidate whose edit distance is equal to or less than the reference value among the candidate character strings. The character string is determined as a similar word of the input character string (S370). For example, if the input character string is “Japanese” that is Japanese, “Tapuri”, which is a candidate character string whose edit distance between the candidate character string and the input character string “Taple” is below the reference value, “ “Tataru” and “Tameru” are determined as similar words to “Tapuru” which is the input character string.

また、S320ステップにおいて、入力文字列が第1言語に変換が可能である場合、第2言語からなる入力文字列を第1言語に変換し(S380)、第1言語に変換された入力文字列と候補文字列との編集距離を算出する(S360)。   In step S320, if the input character string can be converted to the first language, the input character string made of the second language is converted to the first language (S380), and the input character string converted to the first language is converted. And the edit distance between the candidate character string and the candidate character string (S360).

上述した類似語決定方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータで読取可能な媒体に記録されてもよい。当該記録媒体は、プログラム命令、データファイル、データ構造なども単独または組み合わせて含んでもよい。記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。   The similar word determination method described above may be recorded on a computer readable medium including program instructions for executing various operations realized by a computer. The recording medium may include program instructions, data files, data structures, etc. alone or in combination. The recording medium and the program instructions may be specially designed and configured for the purposes of the present invention, and may be known and usable by those skilled in the computer software art.

コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。一方、このような記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体であってもよい。   Examples of the computer-readable recording medium include a hard disk, a floppy (registered trademark) disk, a magnetic medium such as a magnetic tape, an optical recording medium such as a CD-ROM and a DVD, and a magnetic medium such as a floppy disk. Included are optical devices and hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. On the other hand, such a recording medium may be a transmission medium such as an optical or metal line or a waveguide including a carrier wave that transmits a signal for storing program instructions, data structures, and the like.

プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行可能な高級言語コードを含む。上述のハードウェア装置は、本発明の上述の実施形態の動作をするために、1つ以上のソフトウェアモジュールとして動作するよう設定されてもよく、その逆も同様である。   Examples of the program instructions include not only machine language codes generated by a compiler but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the above-described embodiments of the present invention, and vice versa.

上述したように、本発明のいくつかの実施形態を参照して説明したが、本発明はこれに限定されるものではない。該当する技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。   As described above, the present invention has been described with reference to some embodiments of the present invention, but the present invention is not limited thereto. Those skilled in the art can understand that the present invention can be variously modified and changed without departing from the spirit and scope of the present invention described in the claims. It will be possible.

100:類似語決定システム
110:インターネット
120:ユーザ端末
130:ユーザインターフェース部
140:候補文字列提供部
150:類似語決定部
100: Similar word determination system 110: Internet 120: User terminal 130: User interface unit 140: Candidate character string providing unit 150: Similar word determination unit

Claims (22)

入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、
前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離を算出するステップと、
前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を、前記入力文字列の類似語として決定するステップと、
を含むことを特徴とする類似語決定方法。
Determining whether the input string is a first language or a second language;
When the input character string is the second language, among the candidate character strings expressed in the first language, the character string expressing the pronunciation of the candidate character string in the second language, and the input character string Calculating the edit distance between and
Among the candidate character strings, a candidate character string written in the first language corresponding to a character string written in the second language whose edit distance from the input character string is equal to or less than a reference value is input to the candidate character string. Determining as a string similarity word;
A similar word determination method comprising:
前記第2言語が母国語である場合、
前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項1に記載の類似語決定方法。
When the second language is a native language,
The similar word determination method according to claim 1, wherein a character string in which the pronunciation of the candidate character string is expressed in the second language is converted by a sound difference converter for the native language. .
前記判断ステップにおいて、
前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出するステップと、
前記候補文字列の中で、前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップと、
をさらに含むことを特徴とする請求項1に記載の類似語決定方法。
In the determining step,
When the input character string is in the first language, calculating an edit distance between the candidate character string and the input character string;
Determining a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings as a similar word of the input character string;
The similar word determination method according to claim 1, further comprising:
前記編集距離を算出するステップにおいて、
前記第2言語からなる入力文字列を前記第1言語に変換が可能であるか否かを判断するステップをさらに含み、
前記第2言語からなる入力文字列を前記第1言語に変換が可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離を算出することを特徴とする請求項1に記載の類似語決定方法。
In the step of calculating the edit distance,
Determining whether or not the input character string in the second language can be converted into the first language;
When the input character string in the second language cannot be converted into the first language, the edit distance between the character string expressing the pronunciation of the candidate character string in the second language and the input character string is calculated. The similar word determination method according to claim 1, wherein:
前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換するステップと、
前記前記第1言語に変換された文字列と前記候補文字列との編集距離を算出するステップと、
前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップと、
をさらに含むことを特徴とする請求項1に記載の類似語決定方法。
When the input character string consisting of the second language can be converted into the first language, the step of converting the input character string consisting of the second language into the first language;
Calculating an edit distance between the character string converted into the first language and the candidate character string;
Determining a candidate character string whose edit distance is not more than a reference value among the candidate character strings as a similar word of the input character string;
The similar word determination method according to claim 1, further comprising:
前記第1言語に変換するステップにおいて、
前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語に対する音差復元器を用いて前記該当の外国語からなる文字列に変換することを特徴とする請求項5に記載の外国語類似語決定方法。
In the step of converting to the first language,
When the first language is a foreign language, the input character string composed of the second language is converted into the character string composed of the corresponding foreign language by using a sound difference restorer for the corresponding foreign language. The foreign language similar word determination method according to claim 5.
前記第1言語は外国語のうちのいずれか1つであり、前記第2言語は母国語であることを特徴とする請求項1に記載の類似語決定方法。   The method of claim 1, wherein the first language is any one of foreign languages, and the second language is a native language. 前記入力文字列および候補文字列は、検索クエリーであることを特徴とする請求項1に記載の類似語決定方法。   The similar word determination method according to claim 1, wherein the input character string and the candidate character string are search queries. 前記判断ステップの前に、ユーザ端末から前記入力文字列を受信するステップをさらに含み、
前記類似語決定ステップの後に、前記決定された類似語を推奨クエリーとして前記ユーザ端末に提供するステップをさらに含むことを特徴とする請求項1に記載の類似語決定方法。
Prior to the determining step, further comprising receiving the input string from a user terminal;
The method of claim 1, further comprising the step of providing the determined similar word as a recommended query to the user terminal after the similar word determining step.
前記候補文字列は、
予め格納された候補文字列の中で前記入力文字列との編集距離が基準値以下である候補文字列、または前記入力文字列と共通した文字を含む候補文字列の中で前記入力文字列との文字類似度点数が上位N位以内である候補文字列の中の少なくとも1つから選定されることを特徴とする請求項1に記載の類似語決定方法。
The candidate string is
A candidate character string whose edit distance to the input character string is a reference value or less among candidate character strings stored in advance, or the input character string among candidate character strings including characters common to the input character string, The similar word determination method according to claim 1, wherein the character similarity score is selected from at least one of candidate character strings that are within the top N ranks.
前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための演算毎にワイルドカード文字検索を用いて選定されることを特徴とする請求項10に記載の類似語決定方法。   The candidate character string whose edit distance is not more than a reference value among the candidate character strings is selected using a wild card character search for each calculation for calculating the edit distance. Similar word determination method of description. 前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、
前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さ差を用いて決定することを特徴とする請求項10に記載の類似語決定方法。
The candidate character string including characters common to the input character string is a candidate character string including N-gram common to the input character string,
The character similarity score includes the N-gram size common to the input character string, the number of the common N-grams, the similarity of the position where the common N-gram is found, and the input character string. The method according to claim 10, wherein the determination is performed using a difference in length between the candidate character strings and the candidate character strings.
請求項1乃至12の何れか一に記載の方法を実行させるためのプログラムを記録したことを特徴とするコンピュータで読み込み可能な記録媒体。   A computer-readable recording medium having recorded thereon a program for executing the method according to any one of claims 1 to 12. ユーザ端末から入力文字列を受信し、前記入力文字列に対する類似語を推奨クエリーとして前記ユーザ端末に提供するユーザインターフェース部と、
前記入力文字列が第2言語である場合、第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記した候補文字列を前記入力文字列の類似語として決定し、前記ユーザインターフェース部に提供する類似語決定部と、
含むことを特徴とする類似語決定システム。
A user interface unit that receives an input character string from a user terminal and provides the user terminal with a similar word for the input character string as a recommended query;
When the input character string is the second language, among the candidate character strings written in the first language, the character string expressing the pronunciation of the candidate character string in the second language, the input character string, A candidate character string written in the first language corresponding to a character string written in the second language whose edit distance is equal to or less than a reference value is determined as a similar word of the input character string and provided to the user interface unit A similar word determination unit;
Similar word determination system characterized by including.
前記類似語決定部は、
前記入力文字列が第1言語であるかまたは第2言語であるかを判断する入力文字列判断部と、
前記入力文字列が前記第2言語である場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出する第1編集距離算出部と、
前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した候補文字列を前記入力文字列の類似語として決定する第1決定部と、
を含むことを特徴とする請求項14に記載の類似語決定システム。
The similar word determination unit
An input character string determination unit for determining whether the input character string is in a first language or a second language;
When the input character string is in the second language, a first edit distance calculating unit that calculates an edit distance between the character string in which the pronunciation of the candidate character string is expressed in the second language and the input character string;
A first determination unit that determines a candidate character string expressed in the second language, the edit distance of which is less than or equal to a reference value, among the candidate character strings as a similar word of the input character string;
The similar word determination system according to claim 14, comprising:
前記類似語決定部は、
前記第2言語で表記された入力文字列を前記第1言語で表記された文字列に変換が可能であるか否かを判断する文字列変換要否判断部をさらに含み、
前記第1編集距離算出部が前記第2言語からなる文字列を前記第1言語に変換が可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出することを特徴とする請求項15に記載の類似語決定システム。
The similar word determination unit
A character string conversion necessity determination unit that determines whether or not the input character string written in the second language can be converted into a character string written in the first language;
When the first edit distance calculation unit cannot convert the character string composed of the second language into the first language, the character string expressing the pronunciation of the candidate character string in the second language and the input character string The similar word determination system according to claim 15, wherein the edit distance is calculated.
前記第2言語が母国語である場合、
前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項14に記載の類似語決定システム。
When the second language is a native language,
15. The similar word determination system according to claim 14, wherein a character string in which the pronunciation of the candidate character string is expressed in the second language is converted by a sound difference converter for the native language. .
前記類似語決定部は、
前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出する第2編集距離算出部と、
前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定する第2決定部と、
をさらに含むことを特徴とする請求項14に記載の類似語決定システム。
The similar word determination unit
A second editing distance calculating unit that calculates an editing distance between the candidate character string and the input character string when the input character string is in the first language;
A second determination unit that determines a candidate character string whose edit distance is equal to or less than a reference value among the candidate character strings as a similar word of the input character string;
The similar word determination system according to claim 14, further comprising:
前記類似語決定部は、
前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換する文字列変換部をさらに含み、
前記第2編集距離算出部は、前記第1言語に変換された文字列と前記候補文字列との編集距離を算出することを特徴とする請求項18に記載の類似語決定システム。
The similar word determination unit
When the input character string consisting of the second language can be converted into the first language, the image processing apparatus further includes a character string conversion unit that converts the input character string consisting of the second language into the first language,
The similar word determination system according to claim 18, wherein the second editing distance calculation unit calculates an editing distance between the character string converted into the first language and the candidate character string.
前記文字列変換部は、
前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語からなる文字列に変換する前記該当する外国語に対する音差復元器であることを特徴とする請求項19に記載の外国語類似語決定システム。
The character string converter
When the first language is a foreign language, it is a sound difference restorer for the corresponding foreign language that converts an input character string composed of the second language into a character string composed of the corresponding foreign language. Item 20. The foreign language similar word determination system according to Item 19.
前記第1言語は外国語の中のいずれか1つであり、前記第2言語は母国語であることを特徴とする請求項14に記載の類似語決定システム。   The similar word determination system according to claim 14, wherein the first language is any one of foreign languages, and the second language is a native language. 前記入力文字列および候補文字列は、検索クエリーであることを特徴とする請求項14に記載の類似語決定システム。   The similar word determination system according to claim 14, wherein the input character string and the candidate character string are search queries.
JP2009266174A 2008-12-08 2009-11-24 Similar word determination method and system Active JP5323652B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2008-0124248 2008-12-08
KR1020080124248A KR101049358B1 (en) 2008-12-08 2008-12-08 Method and system for determining synonyms

Publications (2)

Publication Number Publication Date
JP2010134922A true JP2010134922A (en) 2010-06-17
JP5323652B2 JP5323652B2 (en) 2013-10-23

Family

ID=42346105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009266174A Active JP5323652B2 (en) 2008-12-08 2009-11-24 Similar word determination method and system

Country Status (3)

Country Link
JP (1) JP5323652B2 (en)
KR (1) KR101049358B1 (en)
CN (1) CN101751465B (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014194774A (en) * 2013-03-28 2014-10-09 Estsoft Corp Misspelling correction system and misspelling correction method
CN104239495A (en) * 2014-09-09 2014-12-24 百度在线网络技术(北京)有限公司 Search method and search device

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268176B (en) * 2012-06-26 2017-10-31 北京奇虎科技有限公司 A kind of recommendation method based on search keyword
KR101286296B1 (en) 2012-11-29 2013-07-15 김건오 Method and system for managing a wordgraph
DE112013006764T5 (en) * 2013-03-04 2015-11-19 Mitsubishi Electric Corporation search device
KR101699478B1 (en) * 2015-06-23 2017-01-25 주식회사 비엔알아이 Server for analyzing naming and method for analyzing the same
KR102353381B1 (en) 2019-04-30 2022-01-19 정철환 Electronic device, method, and computer program for supporting naming process

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0410052A (en) * 1990-04-27 1992-01-14 Fuji Xerox Co Ltd Preparing retrieving device for electronic dictionary of foreign language
JPH0628396A (en) * 1992-07-06 1994-02-04 Canon Inc Electronic dictionary
JPH08339376A (en) * 1995-06-12 1996-12-24 Toshiba Corp Foreign language retrieving device and information retrieving system
JP2000127647A (en) * 1998-04-27 2000-05-09 Nobuyuki Sotani English vocabulary retrieval/check dictionary with kana heading and english vocabulary retrieval/check device
JP2000231559A (en) * 1999-02-12 2000-08-22 Matsushita Electric Ind Co Ltd Information processor
JP2003178087A (en) * 2002-10-21 2003-06-27 Fuji Xerox Co Ltd Retrieval device and method for electronic foreign language dictionary
JP2005258637A (en) * 2004-03-10 2005-09-22 Nippon Hoso Kyokai <Nhk> Translation word extraction device and program
JP2006039866A (en) * 2004-07-26 2006-02-09 Patolis Corp Similar word retrieval device, method, and program, and storage medium recording the program, and information retrieval device
JP2006039871A (en) * 2004-07-26 2006-02-09 Patolis Corp Synonym retrieval device, method, and program, storage medium recording the program, and information retrieval device
JP2007122719A (en) * 2005-10-26 2007-05-17 Nhn Corp Automatic completion recommendation word provision system linking plurality of languages and method thereof
JP2008084070A (en) * 2006-09-28 2008-04-10 Toshiba Corp Structured document retrieval device and program
JP2008140074A (en) * 2006-11-30 2008-06-19 Casio Comput Co Ltd Example sentence retrieving device and example sentence retrieval processing program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100318762B1 (en) * 1999-10-01 2002-01-04 윤덕용 Phonetic distance method for similarity comparison of foreign words
KR100542757B1 (en) * 2003-10-02 2006-01-20 한국전자통신연구원 Automatic expansion Method and Device for Foreign language transliteration
US7584093B2 (en) * 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
KR100793378B1 (en) * 2006-06-28 2008-01-11 엔에이치엔(주) Method for comparing similarity of loan word pronunciation and recommending word and system thereof

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0410052A (en) * 1990-04-27 1992-01-14 Fuji Xerox Co Ltd Preparing retrieving device for electronic dictionary of foreign language
JPH0628396A (en) * 1992-07-06 1994-02-04 Canon Inc Electronic dictionary
JPH08339376A (en) * 1995-06-12 1996-12-24 Toshiba Corp Foreign language retrieving device and information retrieving system
JP2000127647A (en) * 1998-04-27 2000-05-09 Nobuyuki Sotani English vocabulary retrieval/check dictionary with kana heading and english vocabulary retrieval/check device
JP2000231559A (en) * 1999-02-12 2000-08-22 Matsushita Electric Ind Co Ltd Information processor
JP2003178087A (en) * 2002-10-21 2003-06-27 Fuji Xerox Co Ltd Retrieval device and method for electronic foreign language dictionary
JP2005258637A (en) * 2004-03-10 2005-09-22 Nippon Hoso Kyokai <Nhk> Translation word extraction device and program
JP2006039866A (en) * 2004-07-26 2006-02-09 Patolis Corp Similar word retrieval device, method, and program, and storage medium recording the program, and information retrieval device
JP2006039871A (en) * 2004-07-26 2006-02-09 Patolis Corp Synonym retrieval device, method, and program, storage medium recording the program, and information retrieval device
JP2007122719A (en) * 2005-10-26 2007-05-17 Nhn Corp Automatic completion recommendation word provision system linking plurality of languages and method thereof
JP2008084070A (en) * 2006-09-28 2008-04-10 Toshiba Corp Structured document retrieval device and program
JP2008140074A (en) * 2006-11-30 2008-06-19 Casio Comput Co Ltd Example sentence retrieving device and example sentence retrieval processing program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014194774A (en) * 2013-03-28 2014-10-09 Estsoft Corp Misspelling correction system and misspelling correction method
CN104239495A (en) * 2014-09-09 2014-12-24 百度在线网络技术(北京)有限公司 Search method and search device
CN104239495B (en) * 2014-09-09 2018-06-05 百度在线网络技术(北京)有限公司 Searching method and searcher

Also Published As

Publication number Publication date
JP5323652B2 (en) 2013-10-23
KR20100065747A (en) 2010-06-17
CN101751465B (en) 2013-05-08
KR101049358B1 (en) 2011-07-13
CN101751465A (en) 2010-06-23

Similar Documents

Publication Publication Date Title
KR101435265B1 (en) Method for disambiguating multiple readings in language conversion
TWI437449B (en) Multi-mode input method and input method editor system
JP4058071B2 (en) Example translation device, example translation method, and example translation program
JP5513898B2 (en) Shared language model
CN103026318B (en) Input method editor
US8073680B2 (en) Language detection service
JP5323652B2 (en) Similar word determination method and system
US8209166B2 (en) Apparatus, method, and computer program product for machine translation
JP4319860B2 (en) Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system
JP2010520531A (en) Integrated pinyin and image input
US20150169676A1 (en) Generating a Table of Contents for Unformatted Text
JP2010520532A (en) Input stroke count
JP2000298667A (en) Kanji converting device by syntax information
CN1975716A (en) Chinese to English translation method and system
JP2019159826A (en) Display control program, display control device, and display control method
US8977538B2 (en) Constructing and analyzing a word graph
KR20120045906A (en) Apparatus and method for correcting error of corpus
JP2019095603A (en) Information generation program, word extraction program, information processing device, information generation method and word extraction method
JP7483085B1 (en) Information processing system, information processing device, information processing method, and program
JP7115187B2 (en) Information processing device, information processing method and program
JP2018147205A (en) Information processing device and information processing program
JP2010211004A (en) Dictionary preparing device, dictionary preparing system, dictionary preparing method, and dictionary preparing program
JP2000200268A (en) Handwritten character input and converting device, document preparing device, and computer-readable recording medium
JP2015014877A (en) Unknown word classification program and information processing device
CN113268984A (en) Text processing method and device, storage medium and electronic equipment

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130109

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130717

R150 Certificate of patent or registration of utility model

Ref document number: 5323652

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250