JP5323652B2 - 類似語決定方法およびシステム - Google Patents

類似語決定方法およびシステム Download PDF

Info

Publication number
JP5323652B2
JP5323652B2 JP2009266174A JP2009266174A JP5323652B2 JP 5323652 B2 JP5323652 B2 JP 5323652B2 JP 2009266174 A JP2009266174 A JP 2009266174A JP 2009266174 A JP2009266174 A JP 2009266174A JP 5323652 B2 JP5323652 B2 JP 5323652B2
Authority
JP
Japan
Prior art keywords
character string
language
input
input character
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009266174A
Other languages
English (en)
Other versions
JP2010134922A (ja
Inventor
泰 壹 金
允 舒 寄
道 佶 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2010134922A publication Critical patent/JP2010134922A/ja
Application granted granted Critical
Publication of JP5323652B2 publication Critical patent/JP5323652B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、検索サービスに関し、より詳細には、外国語または該当する外国語発音の韓国語表記に対する類似語を推奨クエリーとして提供する方法およびシステムに関する。
最近、科学技術の発展および経済水準の向上によって超高速インターネットのような通信網の普及と超高速通信網の利用者が急激に増加しており、このような超高速通信網の利用者の急激な増加は、通信網を介した新規サービスの開発およびサービスアイテムの多様化を可能にした。このような通信網を用いたサービスの中で最も一般的なサービスが、検索サービスであるといえる。
検索サービスとは、ユーザからクエリーが入力されたときに、入力されたクエリーに対応する検索結果(例えば、入力されたクエリーを含むウェブサイト、入力されたクエリーを含む記事、または入力されたクエリーを含むファイル名を有するイメージなど)をユーザに提供するサービスを意味する。
しかしながら、検索サービスを利用するユーザは、クエリーを入力するにあたり、クエリーを正確に入力することができずにクエリーを打ち間違えて入力することや、自分が所望するクエリーが正確に分からずに自分が入力を所望したクエリーを正確に入力することができないことがある。このような場合、検索サービス提供者は、実際に入力されたクエリーに基づいて検索を実行することとなり、この結果、ユーザは自分が所望する検索結果の提供を受けられなくなるという不便さがある。
このような不便さを解決するために、最近の検索サービスは、ユーザが入力したクエリーに対する推奨クエリーの提供または関連するクエリーの提供などのような多様な検索サービスを提供している。ここで、推奨クエリーの提供とは、ユーザによって入力されたクエリーと類似するクエリーのうちの一部を推奨クエリーとして提供するサービスを意味する。
特に、このような推奨クエリーの提供において、ユーザが外国語に熟練しておらずに該当する外国語の表記または発音が正確に分からない場合には、ユーザが検索しようとするクエリーの外国語表記または該当する外国語発音の韓国語表記を誤って入力し、ユーザが所望する検索結果を正確に提供することができないという問題点がある。
本発明は、上述した問題点を解決するためのものであって、ユーザが検索しようとするクエリーに対する該当する外国語表記または発音が正確に分からない場合にも、類似する外国語文字列または類似する発音に該当する外国語文字列を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することをその技術的課題とする。
また、本発明は、ユーザが検索しようとするクエリーが外国語である場合、該当する外国語は分からないが該当する外国語発音の母国語表記が分かる場合にも、発音が類似する外国語を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することを他の技術的課題とする。
さらに、本発明は、ユーザが検索しようとするクエリーが中国語、英語などの多様な言語である場合にも、類似する単語を推奨クエリーとして提供することができる類似語決定方法およびシステムを提供することを他の技術的課題とする。
本発明の一実施形態に係る類似語決定方法は、コンピュータが、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、前記コンピュータが、前記入力文字列が前記第2言語である場合、前記第2言語からなる入力文字列を前記第1言語に変換可能であるかを判断するステップと、前記コンピュータが、前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換するステップと、前記コンピュータが、前記第1言語に変換された文字列と候補文字列との編集距離を算出するステップと、前記コンピュータが、前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定するステップとを含み、前記コンピュータが、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断する
ここで、前記第2言語が母国語である場合、前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とし、好ましくは、前記第2言語が韓国語である場合、前記母国語に対する音差変換器は、韓国語音差変換器であることを特徴とする。ここで、音差変換器は、第1言語を第2言語である母国語の発音表記に変換することができる。
一方、前記コンピュータが、前記入力文字列が第1言語であるかまたは第2言語であるかを判断するステップにおいて、前記コンピュータが、前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出するステップと、をさらに含むことを特徴とする。
また、前記第2言語からなる入力文字列を前記第1言語に変換が可能でない場合、前記コンピュータが、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出するステップと、前記コンピュータが、前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップと、を含むことを特徴とする。
このとき、前記第1言語に変換するステップにおいて、前記コンピュータが、前記第1言語が外国語である場合、前記入力文字列を該当する外国語に対する音差復元器を用いて前記該当する外国語からなる文字列に変換することを特徴とする。一実施形態において、前記第1言語が日本語である場合、前記該当する外国語に対する音差復元器は、日本語音差復元器とすることができる。
一実施形態において、前記第1言語は外国語のうちのいずれか1つであり、前記第2言語は母国語とすることができる。また、前記入力文字列および候補文字列は、検索クエリーとすることができる。
一方、本発明の一実施形態に係る類似語決定方法は、前記判断ステップの前に、前記コンピュータが、ユーザ端末から前記入力文字列を受信するステップをさらに含み、前記コンピュータが、前記類似語決定ステップの後に、前記決定した類似語を推奨クエリーとして前記ユーザ端末に提供するステップをさらに含むことを特徴とする。
一実施形態において、コンピュータが、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、前記コンピュータが、前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出するステップと、前記コンピュータが、前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップと、を含み、前記コンピュータが、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断し、前記入力文字列の類似語として決定する前記候補文字列を前記第2言語で表記した文字列は、前記入力文字列と共通した文字を含み、前記入力文字列の類似語として決定する前記候補文字列を前記第2言語で表記した文字列は、前記入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つから選定されることを特徴とする。前記第2言語が母国語である場合、前記コンピュータが前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換される。
ここで、前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための各演算別にワイルドカード文字(Wild Card Character)検索を用いて選定されることを特徴とし、前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さ差を用いて決定されることを特徴とする。
上述した目的を達成するために、本発明の一実施形態に係る類似語決定システムは、入力文字列が第1言語であるかまたは第2言語であるかを判断する入力文字列判断部と、前記第2言語で表記された入力文字列を前記第1言語で表記された文字列に変換可能であるかを判断する文字列変換要否判断部と、前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換する文字列変換部と、前記第1言語に変換された文字列と候補文字列との編集距離を算出する第2編集距離算出部と、前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定する第2決定部とを含み、前記入力文字列判断部は、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断する
本発明によれば、ユーザが検索しようとするクエリーが外国語である場合、正確な外国語が分からない場合にも、表記が類似する外国語を推奨クエリーとして提供することができるという効果がある。
また、本発明は、ユーザが検索しようとするクエリーが外国語である場合、該当する外国語は分からないが該当する外国語発音の母国語表記が分かる場合にも、発音が類似する外国語を推奨クエリーとして提供することができるという効果がある。
さらに、本発明は、ユーザが検索しようとするクエリーが中国語、英語などの多様な言語である場合にも、類似する単語を推奨クエリーとして提供することができるという効果がある。
本発明の一実施形態に係る類似語決定システムを概略的に示すブロック図である。 図1に示す類似語決定部の詳細な構成を示す図である。 本発明の一実施形態に係る類似語決定方法を示すフローチャートである。
以下、添付の図面を参照しながら、本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態に係る類似語決定システムが含まれたネットワーク構成を示す図である。図に示すように、類似語決定システム100は、インターネット110を介して接続したユーザ端末120から入力文字列を受信し、受信した入力文字列に対する類似語を決定し、決定した類似語を推奨クエリーとしてユーザ端末120に提供する。このような類似語決定システム100は、図に示すように、ユーザインターフェース部130と、候補文字列提供部140と、類似語決定部150とを含む。
まず、ユーザインターフェース部130は、ユーザ端末120から外国語で表記された入力文字列または外国語の発音が韓国語で表記された入力文字列を受信し、後述する類似語決定部150から、類似語が入力文字列に対する推奨クエリーとしてユーザ端末120に提供する。
候補文字列提供部140は、ユーザに提供する推奨クエリーを決定するための入力文字列との編集距離算出のために、候補文字列を類似語決定部150に提供する。本発明における候補文字列は、予め格納されたクエリーのうちの一部が候補文字列として選定されたものであり、類似語決定部150は、予め格納しておいたすべてのクエリーを対象として入力文字列と編集距離を計算するのではなく、候補文字列提供部140から提供された候補文字列と入力文字列との編集距離を計算することによって入力クエリーに対する類似語提供サービスの応答速度を改善することができる。
ここで、候補文字列提供部140で提供する候補文字列は、入力文字列との編集距離が基準値以下である候補文字列または入力文字列と共通した文字を含む候補文字列の中で入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つをデータベース(図示せず)に予め格納しておくことができる。
また、候補文字列の中で編集距離が基準値以下である候補文字列は、編集距離算出のための各演算別にワイルドカード文字検索を用いて選定することができる。
ここで、各演算は、挿入演算、削除演算、交換演算、および転位演算を含むものであって、挿入演算は特定の文字列に新たな文字を追加することによって発生する演算を意味し、削除演算は特定の文字列に含まれた文字を削除することによって発生する演算を意味し、交換演算は特定の文字列に含まれた文字を新たな文字に交換することによって発生する演算を意味し、転位演算は特定の文字列に含まれた互いに隣接した文字の順序を変更することによって発生する演算を意味する。
そして、入力文字列と共通した文字を含む候補文字列は、入力文字列と共通したN−gramを含む候補文字列であり、文字類似度点数は、入力文字列と共通したN−gramの大きさ、共通したN−gramの個数、共通したN−gramが発見された位置の類似度、および入力文字列と各候補文字列の間の長さの差を用いて決定することができる。
類似語決定部150は、入力文字列が第1言語の発音に該当する第2言語で表記した文字列である場合、候補文字列提供部140によって提供された予め格納された候補文字列の中で候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離が基準値以下である第2言語で表記した文字列に該当する候補文字列を入力文字列の類似語として決定し、ユーザインターフェース部130に提供する。このために、類似語決定部150は、図2に示すように、入力文字列判断部210と、文字列変換要否判断部220と、第1編集距離算出部230と、第1決定部240と、第2編集距離算出部250と、第2決定部260と、文字列変換部270とを含む。以下、図2を参照しながら、類似語決定部150について具体的に説明する。
入力文字列判断部210は、入力文字列が第1言語で表記された文字列であるか、または第1言語の発音に該当する第2言語で表記された文字列であるかを判断する。一実施形態において、第1言語は外国語のうちのいずれか1つとすることができ、第2言語は母国語とすることができる。例えば、大韓民国において、第1言語は外国語である日本語、中国語、および英語などの多様な外国語のうちの1つとすることができ、第2言語は母国語である韓国語とすることができる。仮に、第1言語が日本語である場合、入力文字列はひらがな、カタカナ、および漢字のうちの少なくとも1つを含むようにしてもよい。ここで、入力文字列および候補文字列は、検索クエリーとすることができる。
一実施形態において、入力文字列判断部210は、入力文字列の各文字の文字コードにより、入力文字列が第1言語で表記された文字列であるか第2言語で表記された文字列であるかを判断することができる。例えば、第1言語が日本語、第2言語が韓国語であると仮定すると、入力文字列判断部210は、入力文字列のすべての音節のそれぞれの文字コードを確認し、すべての文字がハングルである場合にのみ入力文字列が韓国語であると判断することができ、日本語と韓国語が共に表記されている場合には入力文字列が日本語であると判断することができる。より好ましくは、入力文字列の各文字をUCS−2コードに変換し、Unicode(ユニコード)値が0xAC00と0xD7A3という領域内に存在すれば、入力文字列を韓国語と判断することができる。
一方、本発明において、第1言語および第2言語は、本発明に記載された言語に制限されるものではなく、第1言語および第2言語は多様な言語とすることができる。また、説明の便宜上、以下では、第1言語が日本語および第2言語が韓国語であると仮定して説明する。
言い換えれば、入力文字列判断部210は、ユーザ端末を介して入力された文字列が日本語文字列であるかまたは日本語の発音が韓国語で表記された文字列であるかを判断する。
文字列変換要否判断部220は、入力文字列判断部210によって入力文字列が第2言語で表記された入力文字列であると判断した場合、この入力文字列が第1言語で表記された文字列に変換が可能であるか否かを判断する。例えば、入力文字列が
Figure 0005323652
(「タップリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
Figure 0005323652
(「タップルリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断する。
第1編集距離算出部230は、入力文字列判断部210によって入力文字列が第2言語で表記された文字列であると判断された場合、候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離を算出する。例えば、入力文字列が、発音が韓国語で表記された文字列である
Figure 0005323652
である場合、入力文字列である
Figure 0005323652
と候補文字列の発音である韓国語文字列との編集距離を算出する。
一実施形態において、第1編集距離算出部230は、文字列変換要否判断部220により、第2言語で表記された入力文字列を第1言語で表記された文字列に変換可能でないと判断した場合、候補文字列の発音に該当する第2言語で表記された文字列と入力文字列との編集距離を算出することができる。言い換えれば、上述したように、
Figure 0005323652
のような韓国語で表記された入力文字列が日本語に変換が不可能である場合には、
Figure 0005323652
と候補文字列の発音に該当する
Figure 0005323652

Figure 0005323652
(「タッスル」の韓国語表記、以下同じ)、
Figure 0005323652
(「タタエル」の韓国語表記、以下同じ)などのような文字列と編集距離を算出する。
第1決定部240は、候補文字列の中で入力文字列との編集距離が基準値以下である第2言語で表記された文字列に該当する候補文字列を入力文字列の類似語として決定する。例えば、入力文字列が韓国語で表記された文字列である
Figure 0005323652
の場合、
Figure 0005323652
と編集距離が基準値以下である
Figure 0005323652

Figure 0005323652

Figure 0005323652
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。一方、本発明における編集距離の基準値は、状況によって変更が可能であり、特定の数値に限定されるものではない。
ここで、第2言語が韓国語である場合、候補文字列の発音に該当する第2言語で表記された文字列は、候補文字列に対する韓国語音差変換器を用いて得ることができる。一例として、音差変換器は、候補文字列を第2言語の発音表記で構成された文字列に変換することができる。例えば、候補文字列が日本語であり第2言語が韓国語である場合、音差変換器は、日本語を韓国語の発音表記に変換することができる。具体的に、日本語である候補文字列が「たっぷり」である場合、音差変換器は、「たっぷり」を韓国語の発音表記で構成された文字列である
Figure 0005323652
に変換することができる。
第2編集距離算出部250は、入力文字列判断部210によって入力文字列が第1言語で表記された文字列として判断された場合、候補文字列と入力文字列との編集距離を算出する。例えば、入力文字列が日本語である「たっぷる」と入力された場合、候補文字列と入力文字列である「たっぷる」との編集距離を算出する。
第2決定部260は、候補文字列の中で第2編集距離算出部250によって算出された編集距離が基準値以下である候補文字列を入力文字列の類似語として決定する。例えば、入力文字列が日本語である「たっぷる」である場合、候補文字列と入力文字列である「たっぷる」との編集距離が基準値以下である候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列である「たっぷる」の類似語として決定する。
文字列変換部270は、文字列変換要否判断部220によって第2言語で表記された入力文字列が第1言語で表記された文字列に変換が可能であると判断された場合、第2言語で表記された入力文字列を第1言語で表記された文字列に変換する。ここで、第2編集距離算出部250は、文字列変換部270によって変換された第1言語で表記された文字列に変換された入力文字列と候補文字列との編集距離を算出することができる。
一実施形態において、文字列変換部270は、第1言語が日本語である場合、入力文字列を日本語文字列に変換する日本語音差復元器とすることができる。
一方、上述した実施形態においては、候補文字列提供部140が類似語決定システム100に含まれるものと記載したが、実施形態の変形例においては、別のシステムに含むこともでき、データベース(図示せず)がその役割の代わりをすることもできる。
以下、図3を参照しながら、本発明に係る類似語決定方法を説明する。図3は、本発明の一実施形態に係る類似語決定方法を示すフローチャートである。
図に示すように、ユーザによって入力された文字列を、ユーザ端末を介して受信する(S300)。
次に、入力文字列が第1言語であるかまたは第2言語であるかを判断する(S310)。ここで、第1言語は日本語、中国語、および英語のうちの1つとすることができ、第2言語は韓国語とすることができる。言い換えれば、入力文字列が日本語であるかまたは該当する日本語発音の韓国語表記であるかを判断する。また、第1言語が日本語である場合、入力文字列は、ひらがな、カタカナ、および漢字のうちの少なくとも1つを含むようにしてもよい。
次に、入力文字列が第2言語である場合、第2言語からなる入力文字列を第1言語に変換が可能であるか否かを判断する(S320)。例えば、入力文字列が
Figure 0005323652
である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
Figure 0005323652
である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断することができる。
次に、入力文字列が第1言語に変換が不可能である場合、第1言語で表記された候補文字列の中で候補文字列の発音を第2言語で表記した文字列と入力文字列との編集距離を算出する(S330)。ここで、入力文字列および候補文字列は、検索クエリーとすることができる。例えば、入力文字列が、発音が韓国語で表記された文字列である
Figure 0005323652
である場合、入力文字列である
Figure 0005323652
と候補文字列の発音を韓国語で表記した文字列との編集距離を算出する。
ここで、候補文字列は、予め格納された候補文字列の中で入力文字列との編集距離が基準値以下である候補文字列または入力文字列と共通した文字を含む候補文字列の中で入力文字列との文字類似度点数が上位N位以内である候補文字列のうちの少なくとも1つとすることができる。
また、候補文字列の中で編集距離が基準値以下である候補文字列は、編集距離算出のための演算毎にワイルドカード文字検索を用いて選定することができる。
そして、入力文字列と共通した文字を含む候補文字列は、入力文字列と共通したN−gramを含む候補文字列であり、文字類似度点数は、入力文字列と共通したN−gramの大きさ、共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および入力文字列と各候補文字列との間の長さの差を用いて決定することができる。
次に、候補文字列の中で入力文字列との編集距離が基準値以下である第2言語で表記した文字列に該当する第1言語で表記された候補文字列を入力文字列の類似語として決定する(S340)。例えば、入力文字列が韓国語で表記された文字列である
Figure 0005323652
である場合、
Figure 0005323652
と編集距離が基準値以下である
Figure 0005323652

Figure 0005323652

Figure 0005323652
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。
最後に、決定した類似語を推奨クエリーとしてユーザ端末に提供する(S350)。
一方、S310ステップにおいて、入力文字列が第1言語である場合、候補文字列と入力文字列との編集距離を算出し(S360)、候補文字列の中で編集距離が基準値以下である候補文字列を入力文字列の類似語として決定する(S370)。例えば、入力文字列が日本語である「たっぷる」である場合、候補文字列と入力文字列である「たっぷる」との編集距離が基準値以下の候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列である「たっぷる」の類似語として決定する。
また、S320ステップにおいて、入力文字列が第1言語に変換が可能である場合、第2言語からなる入力文字列を第1言語に変換し(S380)、第1言語に変換された入力文字列と候補文字列との編集距離を算出する(S360)。
上述した類似語決定方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータで読取可能な媒体に記録されてもよい。当該記録媒体は、プログラム命令、データファイル、データ構造なども単独または組み合わせて含んでもよい。記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。
コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。一方、このような記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体であってもよい。
プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行可能な高級言語コードを含む。上述のハードウェア装置は、本発明の上述の実施形態の動作をするために、1つ以上のソフトウェアモジュールとして動作するよう設定されてもよく、その逆も同様である。
上述したように、本発明のいくつかの実施形態を参照して説明したが、本発明はこれに限定されるものではない。該当する技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。
100:類似語決定システム
110:インターネット
120:ユーザ端末
130:ユーザインターフェース部
140:候補文字列提供部
150:類似語決定部

Claims (23)

  1. コンピュータが、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、
    前記コンピュータが、前記入力文字列が前記第2言語である場合、前記第2言語からなる入力文字列を前記第1言語に変換可能であるかを判断するステップと、
    前記コンピュータが、前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換するステップと、
    前記コンピュータが、前記第1言語に変換された文字列と候補文字列との編集距離を算出するステップと、
    前記コンピュータが、前記候補文字列の中で、前記編集距離が基準値以下である候補文字列を、前記入力文字列の類似語として決定するステップと、
    を含み、
    前記コンピュータが、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
    前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断することを特徴とする類似語決定方法。
  2. 前記コンピュータが、前記入力文字列が第1言語であるかまたは第2言語であるかを判断するステップにおいて、
    前記コンピュータが、前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出するステップと、
    をさらに含むことを特徴とする請求項1に記載の類似語決定方法。
  3. 前記第2言語からなる入力文字列を前記第1言語に変換が可能でない場合、前記コンピュータが、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離を算出するステップと、
    前記コンピュータが、前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップと、
    を含むことを特徴とする請求項1に記載の類似語決定方法。
  4. 前記第1言語に変換するステップにおいて、
    前記コンピュータが、前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語に対する音差復元器を用いて前記該当の外国語からなる文字列に変換することを特徴とする請求項1に記載の類似語決定方法。
  5. 前記第1言語は外国語のうちのいずれか1つであり、前記第2言語は母国語であることを特徴とする請求項1に記載の類似語決定方法。
  6. 前記入力文字列および候補文字列は、検索クエリーであることを特徴とする請求項1に記載の類似語決定方法。
  7. 前記判断ステップの前に、前記コンピュータが、ユーザ端末から前記入力文字列を受信するステップをさらに含み、
    前記コンピュータが、前記類似語決定ステップの後に、前記決定された類似語を推奨クエリーとして前記ユーザ端末に提供するステップをさらに含むことを特徴とする請求項1に記載の類似語決定方法。
  8. コンピュータが、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、
    前記コンピュータが、前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出するステップと、
    前記コンピュータが、前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップと、を含み、
    前記コンピュータが、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
    前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断し、
    前記入力文字列の類似語として決定する前記候補文字列を前記第2言語で表記した文字列は、前記入力文字列と共通した文字を含み、
    前記入力文字列の類似語として決定する前記候補文字列を前記第2言語で表記した文字列は、前記入力文字列との文字類似度点数が上位N位以内である候補文字列の中の少なくとも1つから選定されることを特徴とする類似語決定方法。
  9. 前記第2言語が母国語である場合、
    前記コンピュータが前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項8に記載の類似語決定方法。
  10. 前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための演算毎にワイルドカード文字検索を用いて選定されることを特徴とする請求項1に記載の類似語決定方法。
  11. 前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、
    前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さ差を用いて決定することを特徴とする請求項9に記載の類似語決定方法。
  12. 請求項1乃至11の何れか一に記載の方法を実行させるためのプログラムを記録したことを特徴とするコンピュータで読み込み可能な記録媒体。
  13. 入力文字列が第1言語であるかまたは第2言語であるかを判断する入力文字列判断部と、
    前記第2言語で表記された入力文字列を前記第1言語で表記された文字列に変換可能であるかを判断する文字列変換要否判断部と、
    前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換する文字列変換部と、
    前記第1言語に変換された文字列と候補文字列との編集距離を算出する第2編集距離算出部と、
    前記候補文字列の中で、前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定する第2決定部と、
    含み、
    前記入力文字列判断部は、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
    前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断することを特徴とする類似語決定システム。
  14. 前記第2言語が母国語である場合、
    前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項13に記載の類似語決定システム。
  15. 前記第2編集距離算出部が、
    前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出し、
    前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定することを特徴とする請求項13に記載の類似語決定システム。
  16. 前記第2言語からなる文字列を前記第1言語に変換可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出する第1編集距離算出部と、
    前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定する第1決定部と、
    をさらに含むことを特徴とする請求項13に記載の類似語決定システム。
  17. 前記文字列変換部は、
    前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語からなる文字列に変換する前記該当する外国語に対する音差復元器であることを特徴とする請求項13に記載の類似語決定システム。
  18. 前記第1言語は外国語の中のいずれか1つであり、前記第2言語は母国語であることを特徴とする請求項13に記載の類似語決定システム。
  19. 前記入力文字列および候補文字列は、検索クエリーであることを特徴とする請求項13に記載の類似語決定システム。
  20. ユーザ端末から入力文字列を受信し、前記入力文字列に対する類似語を推奨クエリーとして前記ユーザ端末に提供するユーザインターフェース部をさらに備えることを特徴とする請求項13に記載の類似語決定システム。
  21. 前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための演算毎にワイルドカード文字検索を用いて選定されることを特徴とする請求項13に記載の類似語決定システム。
  22. 入力文字列が第1言語であるかまたは第2言語であることを判断する入力文字列判断部と、
    前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出する第1編集距離算出部と、
    前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定する第1決定部と、
    前記入力文字列と共通した文字を含み、前記入力文字列との文字類似度点数が上位N位以内である候補文字列の中の少なくとも1つを提供する候補文字列提供部と、
    を備え
    前記入力文字列判断部は、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
    前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断することを特徴とする類似語決定システム。
  23. 前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、
    前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さの差を用いて決定されることを特徴とする請求項22に記載の類似語決定システム。
JP2009266174A 2008-12-08 2009-11-24 類似語決定方法およびシステム Active JP5323652B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2008-0124248 2008-12-08
KR1020080124248A KR101049358B1 (ko) 2008-12-08 2008-12-08 유사어 결정 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2010134922A JP2010134922A (ja) 2010-06-17
JP5323652B2 true JP5323652B2 (ja) 2013-10-23

Family

ID=42346105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009266174A Active JP5323652B2 (ja) 2008-12-08 2009-11-24 類似語決定方法およびシステム

Country Status (3)

Country Link
JP (1) JP5323652B2 (ja)
KR (1) KR101049358B1 (ja)
CN (1) CN101751465B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268176B (zh) * 2012-06-26 2017-10-31 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法
KR101286296B1 (ko) 2012-11-29 2013-07-15 김건오 워드그래프 관리 방법 및 시스템
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
KR101483433B1 (ko) * 2013-03-28 2015-01-16 (주)이스트소프트 오타 교정 시스템 및 오타 교정 방법
CN104239495B (zh) * 2014-09-09 2018-06-05 百度在线网络技术(北京)有限公司 搜索方法和搜索装置
KR101699478B1 (ko) * 2015-06-23 2017-01-25 주식회사 비엔알아이 네이밍 분석 서버 및 분석 방법
KR102353381B1 (ko) 2019-04-30 2022-01-19 정철환 작명을 지원하는 전자 장치, 방법, 및 컴퓨터 프로그램

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3285149B2 (ja) * 1990-04-27 2002-05-27 富士ゼロックス株式会社 外国語電子辞書検索方法及び装置
JPH0628396A (ja) * 1992-07-06 1994-02-04 Canon Inc 電子化辞書装置
JPH08339376A (ja) * 1995-06-12 1996-12-24 Toshiba Corp 外国語検索装置及び情報検索システム
JP2000127647A (ja) * 1998-04-27 2000-05-09 Nobuyuki Sotani カナ見出しによる英単語の検索・調査用辞書および英単語の検索・調査装置
JP2000231559A (ja) * 1999-02-12 2000-08-22 Matsushita Electric Ind Co Ltd 情報処理装置
KR100318762B1 (ko) * 1999-10-01 2002-01-04 윤덕용 외래어 음차표기의 음성적 거리 계산방법
JP3677016B2 (ja) * 2002-10-21 2005-07-27 富士ゼロックス株式会社 外国語電子辞書検索装置
KR100542757B1 (ko) * 2003-10-02 2006-01-20 한국전자통신연구원 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP4035111B2 (ja) * 2004-03-10 2008-01-16 日本放送協会 対訳語抽出装置、及び対訳語抽出プログラム
JP4511892B2 (ja) * 2004-07-26 2010-07-28 ヤフー株式会社 類義語検索装置、その方法、そのプログラム、および、情報検索装置
JP4936650B2 (ja) * 2004-07-26 2012-05-23 ヤフー株式会社 類似単語検索装置、その方法、そのプログラム、および、情報検索装置
US7584093B2 (en) * 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
KR100643801B1 (ko) * 2005-10-26 2006-11-10 엔에이치엔(주) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
KR100793378B1 (ko) * 2006-06-28 2008-01-11 엔에이치엔(주) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템
JP2008084070A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 構造化文書検索装置およびプログラム
JP2008140074A (ja) * 2006-11-30 2008-06-19 Casio Comput Co Ltd 例文検索装置および例文検索処理プログラム

Also Published As

Publication number Publication date
CN101751465B (zh) 2013-05-08
KR20100065747A (ko) 2010-06-17
JP2010134922A (ja) 2010-06-17
CN101751465A (zh) 2010-06-23
KR101049358B1 (ko) 2011-07-13

Similar Documents

Publication Publication Date Title
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP5323652B2 (ja) 類似語決定方法およびシステム
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
US8073680B2 (en) Language detection service
JP5513898B2 (ja) 共有された言語モデル
US20120059646A1 (en) Script Detection Service
JP2009015512A (ja) 機械翻訳を行う装置、方法およびプログラム
JP2010520531A (ja) 統合ピンイン及び画入力
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2000298667A (ja) 構文情報による漢字変換装置
KR101941692B1 (ko) 한국어 개체명 인식방법 및 장치
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
US8977538B2 (en) Constructing and analyzing a word graph
de Mendonça Almeida et al. Evaluating phonetic spellers for user-generated content in Brazilian Portuguese
CN114398876B (zh) 一种基于有限状态转换器的文本纠错方法和装置
JP2010211004A (ja) 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム
JP5481095B2 (ja) 文字列入力装置、文字列入力方法、およびプログラム
JP7115187B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5853688B2 (ja) 言語処理プログラム、言語処理装置および言語処理方法
JP2000200268A (ja) 手書き文字入力変換装置及び文書作成装置とコンピュ―タ読み取り可能な記録媒体
JP2015014877A (ja) 未知語分類プログラム及び情報処理装置
CN112951204A (zh) 语音合成方法和装置
JP5297234B2 (ja) 日本語エイリアスデータベースを利用して長音及び促音に対するエラーを減らし、日本語入力機の使用の際に単字検索機能を提供する方法及びシステム
CN113268984A (zh) 文本处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130109

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130717

R150 Certificate of patent or registration of utility model

Ref document number: 5323652

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250