JP2011008784A - System and method for automatically recommending japanese word by using roman alphabet conversion - Google Patents
System and method for automatically recommending japanese word by using roman alphabet conversion Download PDFInfo
- Publication number
- JP2011008784A JP2011008784A JP2010141508A JP2010141508A JP2011008784A JP 2011008784 A JP2011008784 A JP 2011008784A JP 2010141508 A JP2010141508 A JP 2010141508A JP 2010141508 A JP2010141508 A JP 2010141508A JP 2011008784 A JP2011008784 A JP 2011008784A
- Authority
- JP
- Japan
- Prior art keywords
- word
- japanese
- hiragana
- kanji
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Abstract
Description
本発明は、入力された日本語に対する類似語を推薦するシステムおよび方法に関し、より詳しくは、入力された日本語の発音をローマ字に変換して類似語を推薦するシステムおよび方法に関する。 The present invention relates to a system and method for recommending similar words for input Japanese, and more particularly, to a system and method for recommending similar words by converting input Japanese pronunciation into Roman characters.
ユーザは、所望する情報を得るために検索エンジンの検索ウィンドウに単語を入力して検索を行う。このとき、ユーザが単語を誤って入力して誤字が発生する場合、誤字によって検索される文書(検索結果)の品質が落ちたり、検索される文書の数がほとんどないという問題が発生していた。かかる問題を解決するために従来の検索エンジンでは、このような単語を誤字として判断し、ユーザが実際に入力しようとした誤字に対応する単語(検索語)を推薦する機能を備えている。 The user performs a search by entering a word in a search window of a search engine in order to obtain desired information. At this time, when a user mistakenly inputs a word and a typographical error occurs, there is a problem that the quality of a document (search result) searched by the typographical character is deteriorated or the number of documents to be searched is scarce . In order to solve such a problem, a conventional search engine has a function of determining such a word as a typo and recommending a word (search word) corresponding to the typo actually entered by the user.
一方、ユーザが単語を入力して検索を行ったとしても、ユーザの所望する検索結果を得るための最適な単語をユーザが入力しているケースは、少数に過ぎない。このため、検索エンジンが、ユーザが入力したその単語に対する検索結果を提供したとしても、ユーザはその検索結果に対して不満を持つことになる。そこで、このような問題を解決するために従来の検索エンジンは、ユーザが入力した単語に対する関連語または類似語を提供することによって検索の正確度の向上を図っている。 On the other hand, even if the user performs a search by inputting a word, there are only a few cases in which the user has input an optimal word for obtaining a search result desired by the user. For this reason, even if the search engine provides a search result for the word input by the user, the user is dissatisfied with the search result. Therefore, in order to solve such a problem, the conventional search engine aims to improve the accuracy of the search by providing related words or similar words for the word input by the user.
しかしながら、上述した各状況は、特に日本語を用いて検索する場合に以下のような問題があった。すなわち、ユーザが入力した検索語としての日本語を誤字と判断して正しい単語を提示したり、あるいはユーザが入力した日本語に対する類似語を提供する場合、従来はその正確度を保証することができなかった。何よりも、日本語は、漢字、ひらがな、及びカタカナの形態で表現され、また、1つの単語がこれら3つの形態を含んでいるため、ユーザが入力した単語に対して適切な単語を推薦することが難しいという問題があった。したがって、漢字、ひらがな、及びカタカナの各形態の日本語が入力されても適切な単語を推薦する方法が切に求められる。 However, each of the above-described situations has the following problems especially when searching using Japanese. In other words, if the Japanese search term input by the user is judged as a typo and the correct word is presented, or if a similar word for the Japanese input by the user is provided, the accuracy is conventionally guaranteed. could not. Above all, Japanese is expressed in the form of kanji, hiragana, and katakana, and since one word contains these three forms, it is recommended to recommend an appropriate word for the word entered by the user There was a problem that was difficult. Accordingly, there is a strong demand for a method for recommending an appropriate word even when Japanese characters in kanji, hiragana, and katakana are input.
本発明は、入力された日本語単語の発音をローマ字に変換し、変換されたローマ字に基づいて単語に対する類似語を検索することによって、日本語に対する類似語検索の正確度を向上させるシステムおよび方法を提供することを目的とする。 The present invention relates to a system and method for improving the accuracy of similar word search for Japanese by converting the pronunciation of an input Japanese word into Roman letters and searching for similar words for the word based on the converted Roman letters. The purpose is to provide.
また、本発明の他の目的は、入力された日本語単語が誤字であるかを判別し、誤字である場合に類似語を検索して正解単語を提供することによって、ユーザが検索語(質疑語)を誤って入力しても適切な正解単語を推薦して検索の正確度を向上させるシステムおよび方法を提供することにある。 Another object of the present invention is to determine whether an input Japanese word is a typographical error, and to search for a similar word and provide a correct word when the typographical error is a typographical character, so that the user can search for It is an object of the present invention to provide a system and method for improving the accuracy of a search by recommending an appropriate correct word even if a word) is erroneously input.
また、本発明の他の目的は、入力された日本語単語が漢字である場合、機械学習によって生成した学習データを介してトークンに分割し、分割されたトークンに対してひらがなに変換することで、迅速で正確な漢字−ひらがな変換を行うことができるシステムおよび方法を提供することにある。 Another object of the present invention is to divide the token into tokens via learning data generated by machine learning and convert the divided tokens into hiragana when the input Japanese word is kanji. An object of the present invention is to provide a system and method capable of performing quick and accurate kanji-hiragana conversion.
また、本発明の他の目的は、ユーザが入力した日本語単語の形態と異なる形態の類似語を検索して推薦することによって、ユーザがより正確な検索を行うことができるようにしたシステムおよび方法を提供することにある。 Another object of the present invention is to provide a system that allows a user to perform a more accurate search by searching for and recommending similar words in a form different from the form of Japanese words input by the user. It is to provide a method.
本発明の一実施形態に係る日本語自動推薦システムは、日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換するローマ字変換部と、前記変換されたローマ字に基づいて前記単語に対する類似語を検索する類似語検索部と、を含むことを特徴とする。 An automatic Japanese recommendation system according to an embodiment of the present invention includes a romaji conversion unit that converts pronunciation of a word expressed in Japanese hiragana or katakana form into romaji, and the word based on the converted romaji A similar word search unit that searches for similar words for.
また、本発明の一実施形態に係る日本語自動推薦システムは、前記検索された類似語を前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦する類似語推薦部をさらに含むことができる。 The automatic Japanese recommendation system according to an embodiment of the present invention recommends similar word recommendation by converting the searched similar word into the Japanese form of any one of the hiragana, katakana, or kanji. May further include a portion.
本発明の一実施形態に係る日本語自動推薦システムは、入力された単語を分析して前記単語が誤字であるか否かを判断する誤字判断部をさらに含むことができる。 The automatic Japanese recommendation system according to an embodiment of the present invention may further include a typographical error determination unit that analyzes an input word and determines whether the word is a typo.
本発明の一実施形態に係る日本語自動推薦システムは、入力された単語が誤字である場合、類似度点数または単語の入力頻度による編集距離に基づいて、前記検索された類似語のうちの前記単語に対する正解単語を選択する正解単語選択部をさらに含むことができる。 In the Japanese automatic recommendation system according to an embodiment of the present invention, when the input word is a typographical error, based on the similarity score or the edit distance according to the input frequency of the word, A correct word selection unit for selecting a correct word for the word may be further included.
本発明の一実施形態に係る日本語自動推薦システムは、入力された単語が漢字である場合、トークン分割学習データを用いて前記単語をトークン別に分割し、漢字−ひらがな変換学習データを用いて前記分割されたトークンに対応するひらがなに変換する漢字−ひらがな変換部をさらに含むことができる。 In the Japanese automatic recommendation system according to an embodiment of the present invention, when an input word is kanji, the word is divided into tokens using token division learning data, and the kanji-Hiragana conversion learning data is used to divide the word. It may further include a Kanji-Hiragana conversion unit for converting into hiragana corresponding to the divided tokens.
本発明の一実施形態に係る日本語自動推薦方法は、日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換するステップと、前記変換されたローマ字に基づいて前記単語に対する類似語を検索するステップと、を含むことができる。 An automatic Japanese recommendation method according to an embodiment of the present invention includes a step of converting a pronunciation of a word expressed in Japanese hiragana form or katakana form into Roman letters, and similarity to the word based on the converted Roman letters Searching for words.
本発明の一実施形態によれば、入力された日本語単語の発音をローマ字に変換し、変換されたローマ字に基づいて単語に対する類似語を検索することによって、日本語に対する類似語検索の正確度を向上させることができる。 According to an embodiment of the present invention, the pronunciation of an input Japanese word is converted to Roman characters, and the similar word search accuracy for Japanese is searched by searching similar words for the word based on the converted Roman characters. Can be improved.
本発明の一実施形態によれば、入力された日本語単語が誤字であるかを判別し、誤字である場合、類似語を検索して正解単語を提供することによって、ユーザが検索質疑を誤って入力しても適切な正解単語を推薦して検索の正確度を向上させることができる。 According to an embodiment of the present invention, it is determined whether an input Japanese word is a typographical error. Even if entered, the correct correct word can be recommended to improve the accuracy of the search.
本発明の一実施形態によれば、入力された日本語単語が漢字である場合、機械学習を介して生成した学習データによってトークンに分割し、分割されたトークンに対してひらがなに変換することによって迅速で正確な漢字−ひらがな変換を行うことができる。 According to an embodiment of the present invention, when an input Japanese word is a kanji, it is divided into tokens by learning data generated through machine learning, and converted into hiragana for the divided tokens. Quick and accurate Kanji-Hiragana conversion can be performed.
本発明の一実施形態によれば、ユーザが入力した日本語単語の形態と異なる形態の類似語を検索して推薦することによって、ユーザにさらに正確な検索を行うことができるようにすることができる。 According to an embodiment of the present invention, it is possible to perform a more accurate search for a user by searching for and recommending similar words in a form different from the form of a Japanese word input by the user. it can.
以下、添付された図面に記載の内容を参照して本発明に係る実施形態を詳細に説明する。ただし、本発明が以下に説明する実施形態によって制限又は限定されることはない。また、各図面に提示された同じ参照符号は同じ部材を示す。 Hereinafter, embodiments according to the present invention will be described in detail with reference to the contents described in the accompanying drawings. However, this invention is not restrict | limited or limited by embodiment described below. Moreover, the same referential mark shown in each drawing shows the same member.
図1は、本発明の一実施形態に係る日本語自動推薦システムの全体構成を示すブロックダイアグラムである。 FIG. 1 is a block diagram showing the overall configuration of a Japanese automatic recommendation system according to an embodiment of the present invention.
本実施形態の日本語自動推薦システム100は、コンピュータにより構成され、コンピュータが備える制御部(CPU)が、所定のプログラムを読み込むことにより後述する各部101〜106が実現される。また、本実施形態の日本語自動推薦システム100の1つの態様としては、検索サービスを提供するウェブサーバ又は検索語(質疑語)を用いた検索処理を遂行する検索サーバ(検索エンジン)の一部に組み込まれたり、ウェブサーバ又は検索サーバに対して別構成で接続されるコンピュータ装置として構成される。
The automatic
この場合、本実施形態の日本語自動推薦システム100は、ユーザ端末から所定の検索窓に入力された日本語単語の検索語(質疑語)に対し、後述する1つ又は複数の類似語を自動的に抽出し、抽出された類似語(検索語が誤字であると判断された場合に、類似語の中から抽出された正解語を含む)は、検索語に対する検索結果ページに露出される。日本語自動推薦システム100は、検索サーバが行う検索語に対する所定の検索結果の生成処理とは個別に、検索窓に入力された日本語単語を用いた類似語の抽出処理を遂行することができ、ウェブサーバや検索サーバの一部として組み込まれる場合は、ウェブサーバ又は検索サーバが、検索窓に対する検索語の入力をトリガーに、入力された日本語単語の検索語(質疑語)に対し、1つ又は複数の類似語を自動的に抽出し、抽出された類似語を含む検索結果ページを生成して検索要請をしたユーザのユーザ端末に伝送する。また、ウェブサーバ又は検索サーバに対して別構成で接続される場合は、ウェブサーバ又は検索サーバから検索窓に入力された検索語をネットワークを通じて受信し、受信した日本語単語の検索語(質疑語)に対して1つ又は複数の類似語を自動的に抽出し、抽出した類似語をウェブサーバ又は検索サーバに伝送する。
In this case, the automatic
図1に示すように、本実施形態の日本語自動推薦システム100は、誤字判断部101、漢字−ひらがな変換部102、ローマ字変換部103、類似語検索部104、類似語推薦部105、および正解単語選択部106を含んで構成される。
As shown in FIG. 1, the automatic
日本語検索において、ユーザは所望する情報検索のために日本語を入力するが、このとき、ユーザは漢字、ひらがな、またはカタカナの各形態の日本語の単語A107を入力することができる。日本語自動推薦システム100は、ユーザが入力した各形態の単語107の発音をローマ字に変換することによって、より正確な日本語単語B108を推薦する。
In Japanese search, the user inputs Japanese for desired information search. At this time, the user can input a Japanese word A107 in each form of kanji, hiragana or katakana. The automatic
本発明の一実施形態として、誤字判断部101により所定の画面からユーザにより入力された日本語単語が誤字であるか否かを判断し、ユーザが誤字を入力した場合には、日本語自動推薦システム100は、漢字−ひらがな変換部102、ローマ字変換部103、類似語検索部104、及び類似語推薦部105により類似語を抽出し、正解単語選択部106が誤字に対する正しい単語(正解単語)を当該誤字に対して抽出された複数の類似語の中から選択して提供する。また、本発明の他の一実施形態として、誤字判断部101によって入力された日本語単語が誤字でないと判断された場合、または、誤字判断部101の判断処理とは無関係に、ユーザが誤字でない正確な単語を入力した場合、日本語自動推薦システム100は、漢字−ひらがな変換部102、ローマ字変換部103、類似語検索部104、及び類似語推薦部105を介して類似語を提供することができる。以下の説明では、ユーザが誤字を入力する場合を中心に説明する。
As one embodiment of the present invention, it is determined whether or not a Japanese word input by a user from a predetermined screen by the typographical
誤字判断部101は、ユーザ端末を通じてユーザから入力された単語107を分析して単語107が誤字であるか否かを判断する。この場合、ローマ字変換部103は、ユーザが入力した単語107が誤字であると判断された場合、単語107をローマ字に変換する。
The typographical
一例として、誤字判断部101は、ユーザが入力した単語107が予め設定した誤字データに含まれるか否かに基づいて単語107が誤字であるか否かを判断することができる。具体的に、誤字判断部101は、予め登載された単語や検索エンジンで構築されたコンテンツDB目録、手動レビュー等によって決められ、所定の記憶領域に記憶される誤字データを用いて、ユーザが入力した単語107が誤字データに含まれる場合に誤字として判断する。
As an example, the
また、他の一例として、誤字判断部101は、ユーザが入力した単語107の入力頻度または文書出現の頻度が、予め設定された基準頻度よりも低いか否かに基づいて単語107が誤字であるか否かを判断するようにしてもよい。
As another example, the typographical
このとき、単語107の入力頻度は、ユーザが入力した単語107の入力回数を意味する。すなわち、誤字判断部101は、入力頻度の低い単語107を誤字として判断することができる。また、文書出現の頻度は、入力された単語107を用いて文書を検索した際に、検索結果として抽出される文書の個数(回数)、言い換えれば、文書内に単語107を含む文書数を意味する。誤字判断部101は、単語107を文書内に含む文書数が所定の基準数よりも少ない場合に、文書出現の頻度が低い単語であると判断し、当該単語107を誤字として判断する。なお、この場合、日本語自動推薦システム100は、ユーザの単語入力に対して入力された単語別に入力回数を集計する機能やユーザが入力した単語を文書内に含む文書数を取得する機能を備えることができ、単語別の入力回数、文書数及びこれらの各々に対して予め設定される基準頻度(基準入力回数、基準文書数)等の情報を所定の記憶領域に記憶する。
At this time, the input frequency of the
また、誤字判断部101は、単語107に対して文書出現の頻度が質疑頻度(単語107による質疑が入力された回数、例えば、単語107の入力頻度)よりも低い場合、該当の単語107を誤字として判断することもできる。また、誤字判断部101は、文書出現の頻度が低いながら連続した単語107(文書出現の頻度が低い、単語と単語が繋がっている連続した単語107)を誤字として判断するように構成してもよい。
In addition, the typographical
また、他の一例として、誤字判断部101は、ユーザが入力した単語107が形態素に分離されるか否かに基づいて単語107が誤字であるか否かを判断することができる。このとき、誤字判断部101は、入力された単語が形態素分析器や品詞タッガー(part of speech tagger)によって各形態素に分離される場合、該当単語107が誤字でないと判断することができる。言い換えれば、単語が誤字である場合、形態素(例えば、それ以上分解したら言語意味をなさなくなるまで分割して抽出された意味を持つ言語の最小の単位)に分離することができないため、誤字判断部101は、単語が形態素に分離される場合、ユーザが入力した単語107を正字(誤字でない単語)として判断することができる。
As another example, the
漢字−ひらがな変換部102は、入力された単語107が漢字である場合、トークン分割学習データを用いて単語をトークン別に分割する。また、漢字−ひらがな変換部102は、漢字−ひらがな変換学習データを用いて分割されたトークンに対応する単語又は文字をひらがなに変換する。なお、日本語は、同じ漢字であっても使い方によって読み方が異なるため、漢字に対応する正確なひらがなに変換することが重要であるが、漢字−ひらがな変換部102の詳細な処理については、図3を参照して具体的に後述する。
When the
ローマ字変換部103は、日本語のひらがな形態またはカタカナ形態に表現された単語107を、その発音に基づいてローマ字(romaji)に変換する。、単語107が漢字である場合には、漢字−ひらがな変換部102によって単語107がひらがなに変換された後、ひらがなに変換された単語107を各ひらがな文字の発音に対応するローマ字に基づいて、ローマ字変換部103がローマ字に変換する。例えば、入力された単語が漢字の「映画」である場合、漢字−ひらがな変換部102によって「えいが」に変換され、ローマ字変換部103は、ひらがなに変換された単語の発音に基づいてローマ字(eiga)に変換する。ローマ字変換部103がローマ字に変換する例について図4を参照して具体的に後述する。
The
類似語検索部104は、ローマ字変換部103によって変換されたローマ字に基づいて単語107に対する類似語を所定の類似語群から検索(抽出)する。一例として、類似語検索部104は、ローマ字に変換された単語の類似度(類似度点数)に基づいて当該単語に対する類似語を抽出することができる。ひらがな/カタカナまたは漢字の文字形態で、入力された単語と類似語として抽出される単語との間の類似度を測定することは編集距離の解像度が極めて低く、かつ正確度が落ちるため、本発明によれば、双方の単語を発音に基づいてローマ字に変換して類似度を測定する。例えば、「オリゴン」と「オリコン」を直接に比較することよりも、これをローマ字に変換し、「origon」と「orikon」とを比較することによって、より正確に類似度を比較することができる。
The similar
このとき、類似度点数は、単語の長さに応じた入力頻度、単語が長音、中点、促音または濁音を含むか否かによる編集距離、または単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定(算出)される。一例として、単語が漢字である場合、類似語検索部104は、漢字がローマ字に変換された形態の比較結果(ローマ字に変換された後の単語間の類似度)、漢字がひらがなに変換された形態の比較結果(ひらがなに変換された後の単語間の類似度)、および漢字の形態の比較結果(漢字形態での単語間の類似度)に基づいて、類似度点数を決めることができる。類似語検索については図2を参照して具体的に後述する。
At this time, the similarity score is at least one of an input frequency corresponding to the length of the word, an edit distance depending on whether the word includes a long sound, a middle point, a prompt sound or a muddy sound, or a comparison degree of the original state of the word. Is determined (calculated) based on As an example, when the word is a kanji, the similar
類似語推薦部105は、検索された類似語をひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態の単語108に変換して推薦する。ユーザは推薦される単語108を入力して検索を行うことができる。この場合、類似語推薦部105は、所定のページや画面等に抽出された入力された単語107に対する類似語である単語108を露出させる処理を遂行する。また、検索サーバの検索結果が露出される検索結果ページに類似語である単語108を露出させたり、検索結果ページを生成するウェブサーバや検索サーバに、単語108を送信する。
The similar
なお、一例として、類似語推薦部105は、検索された類似語をユーザが入力した単語107の日本語形態と異なる形態の単語108に変換して推薦するようにしてもよい。例えば、ユーザがひらがな形態の単語107を入力した場合、類似語推薦部105は、入力された単語107に対する類似語を漢字形態の単語108に変換してユーザに推薦するようにしてもよい。
As an example, the similar
正解単語選択部106は、ユーザから入力された単語107が誤字である場合、類似度点数または単語の入力頻度に基づく編集距離に基づいて、検索された類似語のうちの単語107に対する正解単語108を選択する。すなわち、誤字である入力された単語107に対して複数の類似語が検索される場合、正解単語選択部106は、類似度点数が最も高い又は所定の基準値よりも高い類似語、または当該単語の入力頻度が所定の基準値よりも高い類似語を正解単語108として選択して提供することができる。なお、編集距離は、単語間の類似度を判断するための直接的な根拠(基準)であり、編集距離が低ければ類似度が高くなる。すなわち、単語の入力頻度に基づく編集距離とは、例えば、入力頻度の高ければ高いほど単語の編集距離が低く付与されることを意味し、入力頻度に応じた編集距離、言い換えれば、単語の入力頻度に基づいて類似語を正解単語として選択することができる。
When the
図2は、本発明の一実施形態に係る入力される単語に対してローマ字変換によって日本語を自動的に推薦する過程を示す図である。 FIG. 2 is a diagram illustrating a process of automatically recommending Japanese by Romaji conversion for an input word according to an embodiment of the present invention.
ユーザ端末を介してユーザから日本語からなる単語が入力されると、誤字判断部101は、入力された単語が誤字であるかを判断する。上述したように、誤字判断部101は、単語が予め設定された誤字データに含まれるか否か、単語の入力頻度または文書出現の頻度が予め設定された基準頻度よりも低いか否か、または単語が形態素に分離されるか否かに基づいて、単語が誤字であるか否かを判断する。
When a Japanese word is input from the user via the user terminal, the typographical
ユーザから入力された単語が誤字であると判断された場合、正解単語選択部106は、入力された単語に対して検索された類似語の中から所定の基準を満たす類似語を正解単語として選択して提供する。なお、入力された単語が誤字でないと判断された場合、すなわち、正字であると判断された場合には、正解単語選択部106は、動作しない。
When it is determined that the word input from the user is a typo, the correct
図2に示すように、入力された日本語単語は、ひらがな形態、カタカナ形態、または漢字形態のうちのいずれか1つであり、入力された単語がひらがな形態またはカタカナ形態である場合、ローマ字変換部103は、日本語のひらがな形態またはカタカナ形態に表現された単語の発音に基づいてローマ字(romaji)に変換する。
As shown in FIG. 2, the input Japanese word is in any one of the hiragana form, the katakana form, or the kanji form, and if the inputted word is in the hiragana form or the katakana form, the romaji conversion is performed. The
一方、入力された単語が漢字形態である場合、漢字を直接ローマ字に変換することが難しいため、漢字−ひらがな変換部102によってひらがな形態に正規化する過程を経てることができる。具体的に、漢字−ひらがな変換部102は、トークン分割学習データを用いて漢字をトークン別に分割し、漢字−ひらがな変換学習データを用いて分割されたトークンに対応する単語又は文字をひらがなに変換することができる。そして、ローマ字変換部103は、漢字−ひらがな変換部102によって変換されたひらがなをその発音に対応するローマ字に変換する。
On the other hand, when the input word is in the kanji form, it is difficult to directly convert the kanji into the romaji. Therefore, the kanji-
類似語検索部104は、変換されたローマ字に基づいて単語に対する類似語を所定の類似語群から検索する。具体的に、類似語検索部104は、ローマ字に変換された単語の類似度点数に基づいて単語に対する類似語を検索する。
The similar
一例として、類似度点数は、単語の長さに応じた入力頻度、単語が長音、中点、促音、または濁音が含まれるか否かに基づく編集距離、または単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定される。 As an example, the similarity score is an input frequency according to the length of the word, an edit distance based on whether the word includes a long sound, a middle point, a prompt sound, or a cloudy sound, or a comparison degree of the original state of the word. Determined based on at least one of the following.
単語の長さ、information−information [編集距離、類似度]
長音:ハロワーク(誤字)、ハロ-ワ-ク(誤字)、ハローワーク(正解)
中点:ピートローズ(誤字)、ピート・ローズ(正解)
半濁音:オリゴン(誤字)、オリコン(正解)
促音:ビクカメラ(誤字)ビックカメラ(正解)
原型:花よりだんごファイナル(誤字)花より男子ファイナル(正解)
Word length, information-information [edit distance, similarity]
Long sound: Hello Work (wrong), Hello Work (wrong), Hello Work (correct)
Midpoint: Pete Rose (typo), Pete Rose (correct)
Semi-turbid sound: Oligon (typo), Oricon (correct answer)
Encouragement sound: BicCamera (typo) Biccamera (correct answer)
Prototype: Dango Final from Flower (Typographical) Boys Final from Flower (Correct)
単語の長さが短いほど単語の入力頻度(入力回数)が増加するため、類似度検索部104は、単語の長さが短いほど類似度点数を増加させることができる(高い類似度点数を付与することができる)。言い換えれば、単語の長さに応じた入力頻度に基づく類似度点数とは、単語の長さとその単語の入力頻度との関係に基づいて、単語の長さが短いほど入力頻度が増加することに起因する単語の長さに応じて付与される類似度点である。
Since the word input frequency (input count) increases as the word length is shorter, the
日本語の長音(ー)は、他の文字に比べて容易に挿入され、または削除されるため、類似語検索部104は、単語に長音が含まれる場合、編集距離を小さく加重して類似度点数を増加させることができる。具体的には、単語に長音が含まれる場合、長音分編集距離が大きくなるが、長音は、他の文字に比べて容易に挿入され、または削除されるため、長音を含む編集距離に対して小さい加重値(例えば、0以上1未満の数字)を適用(乗算)し、長音を含む単語の編集距離を小さく調整し、類似度点数を増加させることができる。また、同様に、日本語の中点(・)は他の文字に比べて容易に挿入され、または削除されるため、類似語検索部104は、単語に中点が含まれる場合、編集距離を小さく加重して類似度点数を増加させてもよい。さらには、日本語の促音(っ)は、容易に省略されたり、類似発音として誤って用いられる場合が多いため、類似語検索部104は、入力された単語に促音が含まれる場合に編集距離を小さく加重して類似度点数を増加させることもできる。
Since the Japanese long sound (-) is easily inserted or deleted compared to other characters, the similar
また、ローマ字に変換された形態だけでなく、類似語検索部104は、単語の原型状態の比較結果を類似度点数に反映することができる。原型状態を比較することによって、ローマ字に正規化した状態で類似語を検索する結果のエラーを補完することができる。例えば、入力された単語が「うとん」である場合、類似語検索部104は「うろん」よりも原型状態が類似する「うどん」の類似度点数を高く付与することによって、ローマ字変換によって類似度を判断するときのエラーを補完することができる。
Moreover, not only the form converted into the Roman character but the similar
また、一例として、単語が漢字である場合、類似語検索部104は、ローマ字に変換された形態の比較結果、ひらがなに変換された形態の比較結果、および漢字本来の形態の比較結果に基づいて類似度点数を決定することもできる。具体的に、単語が漢字である場合、類似語検索部104は、下記の数式1によって類似度点数を決定することができる。
Further, as an example, when the word is a Chinese character, the similar
ここで、qはユーザが入力した日本語(質疑語)、tは類似語を意味する。また、a、b、cは定数を意味する。このとき、a、b、cは、機械学習機能等によって導き出すことができる。 Here, q means Japanese (question word) input by the user, and t means a similar word. Moreover, a, b, and c mean constants. At this time, a, b, and c can be derived by a machine learning function or the like.
このような過程を通じて類似語が検索(抽出)されると、図2に示すように、類似語推薦部105は、検索された類似語をひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦する。例えば、入力された単語がひらがな形態である場合、類似語推薦部105は、検索された類似語をひらがな形態、カタカナ形態、または漢字状態のうちのいずれか1つの日本語形態に変換して推薦することができる。すなわち、類似語推薦部105は、検索された類似語を入力された単語の日本語形態と異なる形態に変換して推薦することができる。
When similar words are searched (extracted) through such a process, as shown in FIG. 2, the similar
また、一例として、類似語推薦部105は、ローマ字に変換された状態の類似度とローマ字に変換されない状態の類似度との差が、予め設定した基準を超える場合、ローマ字に変換された状態の類似度が高い場合であっても該当の類似語を推薦しないようにすることができる。さらに他の一例としては、類似語推薦部105は、入力された単語が推薦される類似語よりもさらに多く用いられる場合に類似語を推薦しなくてもよい(ユーザに推薦される類似語の質疑頻度と、ユーザによって入力された単語107による質疑頻度(入力頻度)とを比較し、ユーザに推薦される類似語の質疑頻度がユーザによって入力された単語107による質疑頻度よりも低い場合、言い換えれば、ユーザが入力した単語107が推薦される類似語よりもその頻度が高い場合、あえて使用頻度の低い類似語を推薦しない)。
Also, as an example, the similar
また、入力された単語が誤字である場合、正解単語選択部106は、類似度点数または単語の入力頻度による編集距離に基づいて、検索された類似語のうちの単語に対する正解単語を選択してもよい。具体的に、正解単語選択部106は、類似度点数が最も高いか、または単語の入力頻度が高くて編集距離が低い類似語を単語に対する正解単語を選択することができる。
When the input word is a typo, the correct
図3は、本発明の一実施形態に係る漢字からひらがなに変換する過程を示す図である。 FIG. 3 is a diagram illustrating a process of converting kanji into hiragana according to an embodiment of the present invention.
本発明の一実施形態に係る漢字−ひらがな変換部102は、入力された漢字をひらがなに変換する。ローマ字変換部103は、漢字−ひらがな変換部102によって変換されたひらがな及び入力されたひらがな及びカタカナをローマ字に変換してもよい。
The Kanji-
一例として、漢字−ひらがな変換部102は、トークン分割学習データ302を用いてトークン分割処理305を遂行し、入力された漢字304をトークン別に分割する。そして、漢字−ひらがな変換学習データ303を用いて漢字−ひらがな変換処理306を遂行し、トークン分割処理によって分割されたトークン305を対応するひらがな307に変換する。
As an example, the Kanji-
例えば、入力された単語が「僕と彼女の生きる道」である場合、トークン分割学習データ302を用いて、「僕、と、彼女、の、生き、る、道」のようにトークン分割処理を行い、各トークンバイグラムから最大の確率値を有するひらがな状態列を選択する。具体的には、「僕−ぼく と 彼女−かのじょ の 生きる−いきる 道−みち」と変換し、最終的に「ぼくとかのじょのいきるみち」のひらがな形態に変換する。
For example, if the input word is “Me and her way of life”, token
このとき、学習データは、日本語ニュースまたは日本語ブログに掲示された文書のような日本語文書301において漢字304に対応するひらがな学習文書を作り、学習文書に基づいて、所定の機械学習アルゴリズムによって入力形態に従うひらがなを選択して組み合わせることで決定することができる。
At this time, the learning data creates a hiragana learning document corresponding to the
一例として、トークン分割学習データ302は、漢字の形態素トークン別に分離するコーパス(corpus)を用いて、隠れマルコフモデル(Hidden Markov Model:HMM)基盤の分かち書き学習アルゴリズムに基づいて決定することができる。このとき、音節トライグラム(trigam)HMM基盤の分かち書き学習アルゴリズムに基づいてトークン分割学習データ302が決定することもできる。
As an example, the token
また、一例として、漢字−ひらがな変換学習データ303は、漢字304の形態素トークン別に分離するコーパスに基づく学習アルゴリズムに基づいて決定されたユニグラム(unigram)辞書303−1およびバイグラム(bigram)辞書303−2を含むことができる。この場合、ユニグラム辞書303−1は、トークンとひらがなとの間の頻度数(トークン−ひらがな)で構築することができる。バイグラム辞書303−2は、トークン間の頻度数(トークン1−トークン2)で構築することができる。すなわち、漢字−ひらがな変換部102は、日本語文書301から所定の学習処理に基づいて決定されたトークン分割学習データ302および漢字−ひらがな変換学習データ303を用いて漢字304をひらがな307に変換することができる。
Further, as an example, the kanji-hiragana
また、他の一例としては、漢字−ひらがな変換部102は、トークン分割学習データ301に基づいて漢字304から分割されたトークンに対し、2つのトークン毎にバイグラム辞書303−2を検索して、最大の確率を有するトークンを選択することができる。また、漢字−ひらがな変換部102は、最終的に選択されたトークンに対してユニグラム辞書303−1に対応するひらがな307に変換する。なお、バイグラム辞書303−2の情報量が足りない場合、漢字−ひらがな変換部102は、ユニグラム辞書303−1を用いて最大の確率を有するトークンを選択することができる。
As another example, the kanji-
図4は、本発明の一実施形態におけるひらがな又はカタカナをローマ字に変換する一例を示す図である。 FIG. 4 is a diagram illustrating an example of converting hiragana or katakana into romaji according to an embodiment of the present invention.
同図に示すように、「あ」行と「か」行に対してローマ字に変換する一例を示している。ローマ字変換部103は、日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字(romaji)に変換する。このとき、入力された単語が漢字である場合、漢字−ひらがな変換部102によって漢字をひらがなに変換する。
As shown in the figure, an example is shown in which “a” and “ka” lines are converted to Roman characters. The
同図に示すように、「あ」行に対してローマ字変換部103は、ひらがな「あ」をローマ字「a」に変換する。また、ローマ字変換部103は、ひらがな「い」をローマ字「i」に変換する。同様に、ローマ字変換部103は各ひらがな「う」を「u」に、「え」を「e」に、「お」を「o」に変換する。このような変換過程を通じて日本語自動推薦システム100は、ひらがなまたはカタカナをローマ字に変換し変換されたローマ字を用いることでより精密に入力された単語の類似語を検索することができる。
As shown in the figure, for the “a” line, the Roman
また、上述したように、ひらがなとカタカナをそのまま用いて類似語を検索する場合は、編集距離の解像度が低いため、人間ではないサーバのような機械の場合、「オリゴン」と「オリコン」を区別することが難しい。この場合、「オリゴン」と「オリコン」をローマ字の「origon」と「orikon」で比較することによって、より精密な類似度点数を算定して類似語推薦の正確度を向上させることができる。 Also, as described above, when searching for similar words using hiragana and katakana as they are, the resolution of the edit distance is low, so in the case of a machine such as a non-human server, “oligon” is distinguished from “oricon”. Difficult to do. In this case, by comparing “Oligon” and “Oricon” with the Roman letters “origon” and “orikon”, it is possible to calculate a more precise similarity score and improve the accuracy of similar word recommendation.
図5は、本発明の一実施形態に係る日本語自動推薦方法の全体の処理遷移を示すフローチャートである。 FIG. 5 is a flowchart showing overall process transition of the automatic Japanese recommendation method according to the embodiment of the present invention.
同図を参照すると、日本語自動推薦システム100は、ユーザ端末に表示された所定のページ又は画面を介してユーザから入力された単語が誤字であるかを判断する(S501)。このとき、入力された単語が誤字である場合、日本語自動推薦システム100は、単語に対する類似語の中から正解単語を選択して提供する(S507)。
Referring to the figure, the automatic
日本語自動推薦システム100は、入力された単語が誤字でなく正字である場合であっても、入力された単語に対する類似語を自動的に推薦することができる。日本語自動推薦システム100は、入力された単語が漢字であるかを判断する(S502)。なお単語が漢字であると判断された場合、日本語自動推薦システム100は、漢字をひらがなに変換し(S503)、その後、ステップS504を遂行する。入力された単語が漢字でない場合は、ステップS504における変換過程を経ない。
The automatic
具体的に、日本語自動推薦システム100は、単語が漢字であると判断された場合又は入力された単語に漢字が含まれると判別された場合、トークン分割学習データを用いて単語をトークン別に分割し、さらに漢字−ひらがな変換学習データを用いて分割されたトークンに対応するひらがなに変換する。
Specifically, the automatic
このとき、トークン分割学習データは、漢字の形態素トークン別に分離するコーパスを用いて隠れマルコフモデル基盤の分かち書き学習アルゴリズムに基づいて決定することができる。また、漢字−ひらがな変換学習データは、漢字の形態素トークン別に分離されるコーパスに基づく学習アルゴリズムによって決定されたバイグラム辞書およびユニグラム辞書を含むことができる。ここで、バイグラム辞書は、トークンとの間の頻度数で構築され、ユニグラム辞書は、トークンとひらがなとの間の頻度数で構築される。 At this time, the token division learning data can be determined based on a hidden Markov model-based division learning algorithm using a corpus that is separated by kanji morpheme tokens. In addition, the kanji-hiragana conversion learning data may include a bigram dictionary and a unigram dictionary determined by a learning algorithm based on a corpus that is separated for each kanji morpheme token. Here, the bigram dictionary is constructed with the frequency number between tokens, and the unigram dictionary is constructed with the frequency number between tokens and hiragana.
この場合、日本語自動推薦システム100は、分割されたトークンに対してバイグラム辞書を検索して最大の確率を示すトークンを選択し、選択されたトークンに対してユニグラム辞書に対応するひらがなに変換する。
In this case, the automatic
日本語自動推薦システム100は、日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換する(S504)。日本語自動推薦システム100は、変換されたローマ字に基づいて入力された単語に対する類似語を検索する(S505)。
The automatic
なお、一例として、日本語自動推薦システム100は、ローマ字に変換された単語の類似度点数に基づいて入力された単語に対する類似語を検索することができる。このとき、類似度点数は、単語の長さに応じた入力頻度、単語が長音、中点、促音、または濁音が含まれるか否かによる編集距離または単語の原型状態の比較程度のうちの少なくとも1つに基づいて、またはこれらを組み合わせて決定することができる。
As an example, the automatic
また、日本語自動推薦システム100は、検索された類似語をひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換してユーザに推薦することもできる(S506)。このとき、類似語推薦部105は、検索された類似語を入力された単語の日本語形態と異なる形態に変換して推薦することができる。
In addition, the automatic
また他の一例として、ローマ字に変換された状態の類似度とローマ字に変換されない状態の類似度との差が予め設定した基準を超える場合、日本語自動推薦システム100は、類似語を推薦しないように構成することもできる。また、他の一例としては、入力された単語が推薦される類似語よりもさらに多く用いられる場合、日本語自動推薦システムは類似語を推薦しなくてもよい。
As another example, if the difference between the similarity in the state converted to Romaji and the similarity in the state not converted to Romaji exceeds a preset criterion, the automatic
日本語自動推薦システム100は、ステップS501において、入力された単語が誤字であると判断される場合、類似度点数または単語出現頻度(例えば、単語の入力頻度)による編集距離に基づいて、検索された類似語の中から単語に対する正解単語を選択して提供する(S507)。
If it is determined in step S501 that the input word is a typographical error, the Japanese
図5において具体的に説明していない部分は、図1〜図4の説明を参考することができる。 The description of FIGS. 1 to 4 can be referred to for portions not specifically described in FIG.
また、本発明の一実施形態に係る日本語自動推薦方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともでき、記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体でもある。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。上述したハードウェア装置は、本発明の動作を行うため1つ以上のソフトウェアモジュールとして作動するよう構成され、その逆も同様である。 The automatic Japanese recommendation method according to an embodiment of the present invention includes a computer-readable recording medium including program instructions for executing various operations realized by a computer. The recording medium may include program instructions, data files, data structures, etc. alone or in combination, and the recording medium and program instructions may be specially designed and configured for the purposes of the present invention, It may be known and usable by those skilled in the computer software art. Examples of computer-readable recording media include magnetic media such as hard disks, floppy (registered trademark) disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magnetic-lights such as floppy disks. A medium and a hardware device specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like are included. The recording medium is also a transmission medium such as an optical or metal line or a waveguide including a carrier wave that transmits a signal for storing program instructions, data structures, and the like. Examples of program instructions include not only machine language code generated by a compiler but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above is configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
上述したように、本発明の好ましい実施形態を参照して説明したが、該当の技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の技術的思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。 As described above, the preferred embodiments of the present invention have been described with reference to the preferred embodiments, but those skilled in the relevant technical field will not depart from the spirit and scope of the present invention described in the claims. It will be understood that various modifications and changes can be made to the present invention within the scope. In other words, the technical scope of the present invention is defined based on the claims, and is not limited by the best mode for carrying out the invention.
100:日本語自動推薦システム
101:誤字判断部
102:漢字−ひらがな変換部
103:ローマ字変換部
104:類似語検索部
105:類似語推薦部
106:正解単語選択部
DESCRIPTION OF SYMBOLS 100: Automatic Japanese recommendation system 101: Wrong character judgment part 102: Kanji-Hiragana conversion part 103: Roman character conversion part 104: Similar word search part 105: Similar word recommendation part 106: Correct word selection part
Claims (27)
前記変換されたローマ字に基づいて前記単語に対する類似語を検索する類似語検索部と、
を含むことを特徴とする日本語自動推薦システム。 A romaji conversion unit that converts the pronunciation of words expressed in Japanese hiragana or katakana forms into romaji,
A similar word search unit that searches for similar words for the word based on the converted romaji;
An automatic Japanese recommendation system characterized by including
前記類似度点数は、前記単語の長さに応じる入力頻度、前記単語が長音、中点、促音、または濁音を含むか否かによる編集距離、または前記単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定されることを特徴とする請求項1に記載の日本語自動推薦システム。 The similar word search unit searches for a similar word for the word based on the similarity score of the word converted into the Roman characters,
The similarity score is at least one of an input frequency according to the length of the word, an edit distance based on whether the word includes a long sound, a midpoint, a prompt sound, or a muddy sound, or a comparison degree of the original state of the word. The automatic Japanese recommendation system according to claim 1, wherein the automatic Japanese recommendation system is determined based on one.
前記ローマ字変換部は、前記入力された単語が誤字である場合、前記単語をローマ字に変換することを特徴とする請求項1に記載の日本語自動推薦システム。 A typographical error determination unit that analyzes the input word to determine whether the word is a typo;
2. The automatic Japanese recommendation system according to claim 1, wherein, when the input word is an erroneous character, the Roman character conversion unit converts the word into a Roman character.
前記バイグラム辞書は、トークンとの間の頻度数で構築され、
前記ユニグラム辞書は、トークンとひらがなとの間の頻度数で構築されることを特徴とする請求項10に記載の日本語自動推薦システム。 The kanji-hiragana conversion learning data includes a bigram dictionary and a unigram dictionary determined by learning based on a corpus that separates kanji morpheme tokens;
The bigram dictionary is built with a frequency number between tokens,
The automatic Japanese recommendation system according to claim 10, wherein the unigram dictionary is constructed with a frequency number between tokens and hiragana.
日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換するステップと、
前記変換されたローマ字に基づいて前記単語に対する類似語を検索するステップと、
を含むことを特徴とする日本語自動推薦方法。 The steps performed by the computer are
Converting the pronunciation of a word expressed in Japanese hiragana or katakana form into romaji,
Searching for similar words for the word based on the converted romaji;
An automatic Japanese recommendation method characterized by including
前記類似度点数は、前記単語の長さに応じる入力頻度、前記単語が長音、促音、または濁音を含むか否かによる編集距離、または前記単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定されることを特徴とする請求項14に記載の日本語自動推薦方法。 The step of searching for a similar word with respect to the word searches for the similar word with respect to the word based on the similarity score of the word converted into the Roman character,
The similarity score is at least one of an input frequency according to the length of the word, an editing distance depending on whether the word includes a long sound, a prompt sound, or a muddy sound, or a degree of comparison of the original state of the word. The automatic Japanese recommendation method according to claim 14, wherein the automatic Japanese recommendation method is determined based on the determination.
前記単語の発音をローマ字に変換するステップは、前記入力された単語が誤字である場合、前記単語をローマ字に変換することを特徴とする請求項14に記載の日本語自動推薦方法。 Analyzing the input word to determine whether the word is a typo;
15. The automatic Japanese recommendation method according to claim 14, wherein the step of converting the pronunciation of the word into a Roman character converts the word into a Roman character when the input word is a typographical error.
前記バイグラム辞書は、トークンとの間の頻度数で構築され、
前記ユニグラム辞書は、トークンとひらがなとの間の頻度数で構築されることを特徴とする請求項23に記載の日本語自動推薦方法。 The kanji-hiragana conversion learning data includes a bigram dictionary and a unigram dictionary determined by corpus-based learning that separates kanji morpheme tokens;
The bigram dictionary is built with a frequency number between tokens,
The automatic Japanese recommendation method according to claim 23, wherein the unigram dictionary is constructed with a frequency number between tokens and hiragana.
前記分割されたトークンに対し、バイグラム辞書を検索して最大の確率を表すトークンを選択するステップと、
前記選択されたトークンに対し、ユニグラム辞書に対応するひらがなに変換するステップと、
を含むことを特徴とする請求項23に記載の日本語自動推薦方法。 The step of converting into hiragana corresponding to the divided tokens is as follows:
Searching the bigram dictionary for the divided tokens to select a token representing the maximum probability;
Converting the selected token into a hiragana corresponding to a unigram dictionary;
The automatic Japanese recommendation method according to claim 23, comprising:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2009-0056609 | 2009-06-24 | ||
KR1020090056609A KR101086550B1 (en) | 2009-06-24 | 2009-06-24 | System and method for recommendding japanese language automatically using tranformatiom of romaji |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011008784A true JP2011008784A (en) | 2011-01-13 |
JP5097802B2 JP5097802B2 (en) | 2012-12-12 |
Family
ID=43511696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010141508A Active JP5097802B2 (en) | 2009-06-24 | 2010-06-22 | Japanese automatic recommendation system and method using romaji conversion |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5097802B2 (en) |
KR (1) | KR101086550B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462740A (en) * | 2019-01-18 | 2020-07-28 | 奥多比公司 | Voice command matching for voice-assisted application prototyping for non-speech alphabetic languages |
US20210342693A1 (en) * | 2017-08-18 | 2021-11-04 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
DE102019007797B4 (en) | 2019-01-18 | 2023-11-30 | Adobe Inc. | Matching voice commands while testing voice-assisted app prototypes for languages with non-phonetic alphabets |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047488B (en) * | 2019-03-01 | 2022-04-12 | 北京彩云环太平洋科技有限公司 | Voice translation method, device, equipment and control equipment |
US11250221B2 (en) | 2019-03-14 | 2022-02-15 | Sap Se | Learning system for contextual interpretation of Japanese words |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6211932A (en) * | 1985-07-10 | 1987-01-20 | Hitachi Ltd | Information retrieving method |
JPH0315980A (en) * | 1989-06-14 | 1991-01-24 | Hitachi Ltd | Different description and synonym developing method for retrieving character string |
JP2009266110A (en) * | 2008-04-28 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | Information processor, full name identifying method, information processing system, and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198676A (en) * | 1997-01-13 | 1998-07-31 | Matsushita Electric Ind Co Ltd | Device and method for japanese morpheme analysis |
AUPR824601A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and system (npw004) |
-
2009
- 2009-06-24 KR KR1020090056609A patent/KR101086550B1/en active IP Right Grant
-
2010
- 2010-06-22 JP JP2010141508A patent/JP5097802B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6211932A (en) * | 1985-07-10 | 1987-01-20 | Hitachi Ltd | Information retrieving method |
JPH0315980A (en) * | 1989-06-14 | 1991-01-24 | Hitachi Ltd | Different description and synonym developing method for retrieving character string |
JP2009266110A (en) * | 2008-04-28 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | Information processor, full name identifying method, information processing system, and program |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210342693A1 (en) * | 2017-08-18 | 2021-11-04 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
US11610123B2 (en) * | 2017-08-18 | 2023-03-21 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
CN111462740A (en) * | 2019-01-18 | 2020-07-28 | 奥多比公司 | Voice command matching for voice-assisted application prototyping for non-speech alphabetic languages |
JP2020118955A (en) * | 2019-01-18 | 2020-08-06 | アドビ インコーポレイテッド | Voice command matching during testing of voice-assisted application prototype for language using non-phonetic alphabet |
JP7111682B2 (en) | 2019-01-18 | 2022-08-02 | アドビ インコーポレイテッド | Speech command matching during testing of a speech-assisted application prototype for languages using non-phonetic writing systems |
US11727929B2 (en) | 2019-01-18 | 2023-08-15 | Adobe Inc. | Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets |
DE102019007797B4 (en) | 2019-01-18 | 2023-11-30 | Adobe Inc. | Matching voice commands while testing voice-assisted app prototypes for languages with non-phonetic alphabets |
Also Published As
Publication number | Publication date |
---|---|
JP5097802B2 (en) | 2012-12-12 |
KR20100138194A (en) | 2010-12-31 |
KR101086550B1 (en) | 2011-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101435265B1 (en) | Method for disambiguating multiple readings in language conversion | |
CN107729313B (en) | Deep neural network-based polyphone pronunciation distinguishing method and device | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
US9069753B2 (en) | Determining proximity measurements indicating respective intended inputs | |
KR101650112B1 (en) | Machine learning for transliteration | |
US7424675B2 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors | |
US7165019B1 (en) | Language input architecture for converting one text form to another text form with modeless entry | |
CN107291684B (en) | Word segmentation method and system for language text | |
CN103678684A (en) | Chinese word segmentation method based on navigation information retrieval | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
US20070179779A1 (en) | Language information translating device and method | |
CN111460793A (en) | Error correction method, device, equipment and storage medium | |
JP5097802B2 (en) | Japanese automatic recommendation system and method using romaji conversion | |
JP6778655B2 (en) | Word concatenation discriminative model learning device, word concatenation detection device, method, and program | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
KR102251554B1 (en) | Method for generating educational foreign language text by adjusting text difficulty | |
CN107870900B (en) | Method, apparatus and recording medium for providing translated text | |
KR102552811B1 (en) | System for providing cloud based grammar checker service | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
JP2017156890A (en) | Synonym detecting device, synonym detecting method and synonym detection computer program | |
JPWO2009041661A1 (en) | Information processing apparatus and program | |
JP5169602B2 (en) | Morphological analyzer, morphological analyzing method, and computer program | |
KR101461062B1 (en) | System and method for recommendding japanese language automatically using tranformatiom of romaji | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
JP3939264B2 (en) | Morphological analyzer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5097802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |