JP2007156545A - Symbol string conversion method, word translation method, its device, its program and recording medium - Google Patents

Symbol string conversion method, word translation method, its device, its program and recording medium Download PDF

Info

Publication number
JP2007156545A
JP2007156545A JP2005346898A JP2005346898A JP2007156545A JP 2007156545 A JP2007156545 A JP 2007156545A JP 2005346898 A JP2005346898 A JP 2005346898A JP 2005346898 A JP2005346898 A JP 2005346898A JP 2007156545 A JP2007156545 A JP 2007156545A
Authority
JP
Japan
Prior art keywords
word
symbol string
symbol
character
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005346898A
Other languages
Japanese (ja)
Other versions
JP4266222B2 (en
Inventor
Katsuto Sudo
克仁 須藤
Hideki Isozaki
秀樹 磯崎
Hajime Tsukada
元 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005346898A priority Critical patent/JP4266222B2/en
Publication of JP2007156545A publication Critical patent/JP2007156545A/en
Application granted granted Critical
Publication of JP4266222B2 publication Critical patent/JP4266222B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device for converting a first word belonging to a certain language system into a second word corresponding to the other language system. <P>SOLUTION: A word translation device 5B is provided with: a word output part 5 for preparing a database by referring to a transliteration probability model 7, and using approximation under the consideration of a word set maximizing conditioned probability with the character history of the word set as conditions, and for retrieving a second word corresponding to an input first word; a conversion candidate retrieving part 40 for outputting a third word extracted from document data acquired by electronic equipment 50 connected to a communication network NW based on the first word as a conversion candidate to the second word; and a conversion possibility calculating part 30 for calculating status transition weight based on the third word acquired by the conversion candidate retrieval part 40 by referring to a composite database acquired by compounding the history relating to characters comprising the third word with the database prepared by the word output part 5. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、例えば、情報検索システム、質問応答システム、機械翻訳システムに利用される記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体に関する。   The present invention relates to a symbol string conversion method, a word translation method, an apparatus thereof, a program thereof, and a recording medium used in, for example, an information search system, a question answering system, and a machine translation system.

従来、例えば、情報検索システム、質問応答システム、機械翻訳システムにおいて、言語横断的な変換、すなわち、原言語の単語あるいは複合語(以下、単に単語という)から対象言語の単語への変換(翻訳)が必要な場合がある。このように言語横断的な変換が必要な場合には、一般に、辞書のように単語の変換規則を記述したデータベースが利用される。   Conventionally, for example, in an information retrieval system, a question answering system, and a machine translation system, cross-language conversion, that is, conversion (translation) from a source language word or compound word (hereinafter simply referred to as a word) to a target language word. May be necessary. When such cross-language conversion is necessary, a database describing word conversion rules such as a dictionary is generally used.

また、単語を構成する文字(記号)に着目して、単語の翻訳(記号列の変換)を、文字単位の変換として捉える「翻字」という技術が知られている(例えば、非特許文献1、非特許文献2)。この翻字によれば、例えば、変換すべき言語の種類が多い場合にも、それに対応した種々の辞書を必ずしも整備しておかなくてもよいことが期待される。   Further, a technique called “transliteration” is known in which word translation (symbol string conversion) is regarded as character-by-character conversion by focusing on characters (symbols) constituting a word (for example, Non-Patent Document 1). Non-Patent Document 2). According to this transliteration, for example, even when there are many types of languages to be converted, it is expected that it is not always necessary to prepare various dictionaries corresponding thereto.

非特許文献1に開示された翻字技術では、単語の発音に対応する記号を利用して、翻字の確からしさ(単語の変換の確からしさ)を示す確率モデルを予め作成しておき、原言語の単語(文字)から、この確からしさが最も大きくなるような対象言語の単語(文字)を求める。具体的には、両言語の対応する単語組の複数のデータを含む学習データから確率モデルを作成する際に、原言語の文字が原言語の発音に変換される確率と、原言語の発音が対象言語の発音に変化する確率と、対象言語の発音が対象言語の文字に変換される確率と、を統計的に求めておき、確率の積によって翻字の確からしさを計算することとしている。   In the transliteration technique disclosed in Non-Patent Document 1, a probability model indicating the certainty of transliteration (the certainty of conversion of a word) is created in advance using a symbol corresponding to the pronunciation of a word. From the words (characters) in the language, the words (characters) in the target language that have the greatest probability are obtained. Specifically, when creating a probabilistic model from learning data that includes multiple sets of corresponding word pairs in both languages, the probability that the source language characters are converted to the source language pronunciation and the source language pronunciation The probability of changing to the pronunciation of the target language and the probability that the pronunciation of the target language is converted into characters of the target language are statistically obtained, and the probability of transliteration is calculated by the product of the probabilities.

また、非特許文献2に開示された翻字技術は、カタカナ(日本語)で表記される単語から、アルファベット(英語)で表記される単語への翻字を実現するものである。具体的には、この翻字技術では、カタカナ表記をローマ字表記に置き換えた各文字から英単語の各文字への変換確率を示す確率モデルを予め作成しておき、この確率モデルを利用して翻字を行う。なお、この場合には、1文字単位の変換だけではなく、着目する文字の前後の文字(複数の文字)に関して、対応付け可能な複数文字間の変換確率も利用している。
K. Knight et al, “Machine Transliteration”, Computational Linguistics, 1998,vol.24,No.4, p.599-612 E. Brill et al. “Automatically Harvesting Katakana-English Term Pairs from Search Engine Query Logs” in Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, 2001, p.393-399
In addition, the transliteration technique disclosed in Non-Patent Document 2 realizes transliteration from words expressed in katakana (Japanese) to words expressed in alphabet (English). Specifically, in this transliteration technique, a probability model indicating the conversion probability from each letter in which katakana notation is replaced with Roman letter notation to each letter of English words is created in advance, and transliteration is performed using this probability model. Do the letter. In this case, not only conversion in units of characters but also conversion probabilities between a plurality of characters that can be associated with each other before and after the character of interest (a plurality of characters) are used.
K. Knight et al, “Machine Transliteration”, Computational Linguistics, 1998, vol.24, No.4, p.599-612 E. Brill et al. “Automatically Harvesting Katakana-English Term Pairs from Search Engine Query Logs” in Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, 2001, p.393-399

しかしながら、前記した翻字技術(記号変換技術)には、以下に示す問題がある。
すなわち、非特許文献1に開示された技術では、学習データ中の原言語の単語と対象言語の単語の両方とも単語の読みが既知でなければ、確率モデルを作成することができないという問題がある。また、発音体系の異なる言語対においては発音間の対応をとることが困難である。
However, the transliteration technique (symbol conversion technique) described above has the following problems.
In other words, the technique disclosed in Non-Patent Document 1 has a problem in that a probability model cannot be created unless both the source language word and the target language word in the learning data are known. . Moreover, it is difficult to take correspondence between pronunciations in language pairs with different pronunciation systems.

一方、非特許文献2に開示された技術では、カタカナをローマ字表記にすることでアルファベットとの対応関係をとりやすくすることは可能であるが、日英翻訳以外の様々な言語に対応して翻字を実現するためには、発音情報と同等な効力のある別の情報がさらに必要となるという問題がある。   On the other hand, with the technology disclosed in Non-Patent Document 2, it is possible to make the correspondence with the alphabet easier by converting Katakana to Roman letters, but it is compatible with various languages other than Japanese-English translation. In order to realize the character, there is a problem that another information having the same effect as the pronunciation information is further required.

そこで、本発明では、以上のような問題点に鑑みてなされたものであり、所定の記号体系に属する記号列を、任意の記号体系に属する対応した記号列に変換することのできる技術を提供することを目的とする。   Accordingly, the present invention has been made in view of the above-described problems, and provides a technique capable of converting a symbol string belonging to a predetermined symbol system into a corresponding symbol string belonging to an arbitrary symbol system. The purpose is to do.

前記課題を解決するため、請求項1に記載の記号列変換方法は、異なる記号体系にそれぞれ属する同じ意味の記号列の組合わせである記号列組における記号の同時生起頻度を利用した記号列変換装置の記号列変換方法であって、前記記号列変換装置は、第1の記号体系に属する第1の記号列を入力するステップと、前記同時生起頻度および前記記号列組の中の記号組の出現順序の頻度を利用して、前記入力された第1の記号列に対応する第2の記号体系に属する第2の記号列を推定するステップと、前記推定された第2の記号列を出力するステップとを含んで実行することを特徴とする。   In order to solve the above-mentioned problem, the symbol string conversion method according to claim 1 is a symbol string conversion using a symbol co-occurrence frequency in a symbol string set which is a combination of symbol strings having the same meaning belonging to different symbol systems. A symbol string conversion method for a device, wherein the symbol string conversion device includes a step of inputting a first symbol string belonging to a first symbol system, and a symbol set in the symbol string set in the co-occurrence frequency and the symbol string set. Estimating a second symbol string belonging to a second symbol system corresponding to the input first symbol string using the frequency of appearance order, and outputting the estimated second symbol string And the step of executing.

かかる手順によれば、記号列変換装置は、入力された第1の記号列を構成する記号の出現順序に対応した順序で出現することが尤もらしい記号から構成された第2の記号列を推定することができる。したがって、入力される第1の記号列が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習(未知)の記号列であっても第2の記号列を出力することが可能となる。ここで、記号組の出現順序の頻度を利用する場合に、出現順序の確率値の対数をとって符号を逆転させる等の処理を行って生成した状態遷移重みを利用することもできる。この状態遷移重みを用いる場合には、記号列変換装置は、状態遷移重みが最小となるような第2の記号列を探索する。   According to this procedure, the symbol string conversion apparatus estimates a second symbol string composed of symbols that are likely to appear in an order corresponding to the appearance order of the symbols constituting the input first symbol string. can do. Therefore, even if the input first symbol string is an unlearned (unknown) symbol string that is not registered in advance in the learning database used for calculating the co-occurrence frequency, the second symbol string is output. It becomes possible to do. Here, when using the frequency of the appearance order of the symbol set, it is also possible to use the state transition weight generated by performing processing such as taking the logarithm of the probability value of the appearance order and reversing the sign. When using this state transition weight, the symbol string converter searches for the second symbol string that minimizes the state transition weight.

また、請求項1に記載の記号列変換装置が利用する同時生起頻度を格納した記号変換確率モデルを作成する記号変換確率モデル作成装置は、以下に示すような記号変換確率モデル作成方法を利用することができる。すなわち、前記記号変換確率モデル作成装置は、学習データベースにデータとして記憶された第1の記号列および第2の記号列に基づいて、前記第1の記号列および第2の記号列をそれぞれ構成する第1の記号と第2の記号との間の関連度(共起頻度、カイ二乗値など)を計算すると共に、前記第1の記号と前記第2の記号のうちのいずれかに対応する記号がない場合に仮想的な空記号を用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとして格納する記号間関連度データベースを作成するステップと、前記学習データベースに記憶されたデータと、前記記号間関連度データベースに記憶されたデータと、に基づいて、前記第1の記号列と前記第2の記号列との間で対応付けられた記号間の関連度および仮想的な関連度のそれぞれの和または積が最大となるように対応付けられた、2つの記号列の組から成る記号列組を生成し、生成した記号列組をデータとして格納する記号列組データベースを作成するステップと、前記記号列組データベースに記憶されたデータを参照して、前記同時生起頻度を、前記記号列組の出現順序の頻度として計算し、前記記号変換確率モデルを作成するステップとを含んで実行するようにしてもよい。   Further, a symbol conversion probability model creating apparatus for creating a symbol conversion probability model storing a co-occurrence frequency used by the symbol string converting apparatus according to claim 1 uses a symbol conversion probability model creating method as described below. be able to. That is, the symbol conversion probability model creation device configures the first symbol string and the second symbol string, respectively, based on the first symbol string and the second symbol string stored as data in the learning database. A degree of association (co-occurrence frequency, chi-square value, etc.) between the first symbol and the second symbol, and a symbol corresponding to one of the first symbol and the second symbol Calculating a virtual relevance using a virtual empty symbol when there is no symbol, and creating an inter-symbol relevance database that stores the calculated relevance and virtual relevance as data, and the learning database The degree of association between symbols associated between the first symbol string and the second symbol string based on the data stored in the data and the data stored in the inter-symbol association degree database And virtual Create a symbol string set consisting of two symbol string pairs that are correlated so that the sum or product of each relevance is maximized, and create a symbol string set database that stores the generated symbol string pairs as data And referring to data stored in the symbol string set database, calculating the co-occurrence frequency as a frequency of appearance order of the symbol string set, and creating the symbol conversion probability model May be executed.

また、請求項2に記載の記号列変換方法は、請求項1に記載の記号列変換方法において、前記第2の記号列を推定するステップは、前記同時生起頻度に基づいて、前記第1の記号列と前記第2の記号列とを記号単位で対応付けた組から成る任意の記号列組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる記号列組を探索し、この探索された記号列組に関する前記出現順序の頻度を利用して、前記第2の記号列を推定することを特徴とする。   Further, the symbol string conversion method according to claim 2 is the symbol string conversion method according to claim 1, wherein the step of estimating the second symbol string is based on the co-occurrence frequency. The frequency of the appearance order is calculated for each symbol string set composed of a set in which the symbol string and the second symbol string are associated with each other in symbol units, and the frequency of the appearance order is calculated based on the result of the calculation. The second symbol string is estimated using the frequency of the appearance order with respect to the searched symbol string set.

かかる手順によれば、記号列変換装置は、第1の記号列と第2の記号列とを記号単位で対応付けた組から成る記号列組における出現順序の頻度のうち、その出現順序の頻度が最大となる対応付けがなされた記号組だけを考慮する近似を用いて記号列組を推定するので、探索の枝刈りなどによって解探索空間を削減することができる。   According to such a procedure, the symbol string conversion device has a frequency of appearance order among the frequencies of appearance order in a symbol string set composed of a set in which the first symbol string and the second symbol string are associated with each other in symbol units. Since the symbol string set is estimated by using an approximation that considers only the symbol set with which the correspondence is maximized, the solution search space can be reduced by pruning the search.

また、請求項3に記載の記号列変換方法は、請求項1または請求項2に記載の記号列変換方法において、前記第2の記号列を推定するステップは、前記同時生起頻度に基づいて、前記第1の記号列と前記第2の記号列とを記号単位で対応付けた組から成る任意の記号列組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる記号列組を探索し、この探索された記号列組に関する前記出現順序の頻度をデータとして格納するデータベースを作成するステップと、前記データベースを参照して、前記第2の記号列を探索するステップとを有することを特徴とする。   The symbol string conversion method according to claim 3 is the symbol string conversion method according to claim 1 or 2, wherein the step of estimating the second symbol string is based on the co-occurrence frequency. The frequency of the appearance order is calculated for each symbol string set composed of a set in which the first symbol string and the second symbol string are associated in symbol units, and based on the result of the calculation, Searching for a symbol string set having the highest frequency of appearance order, creating a database for storing the frequency of appearance order relating to the searched symbol string set as data, and referring to the database, the second And searching for a symbol string.

かかる手順によれば、記号列変換装置は、出現順序の頻度が最大となる対応付けがなされた記号組だけを考慮する近似を用いて探索した記号列組に関する出現順序の頻度をデータとして格納するデータベースを作成し、作成したデータベースを参照して第2の記号列を探索する。したがって、入力される第1の記号列が、同時生起頻度を計算するために利用された学習データベースに予め登録されている学習済み(既知)の記号列の場合に、学習データベースに第1の記号列とペアで登録されていた第2の記号列を変換結果として出力することが可能となる。   According to such a procedure, the symbol string conversion device stores, as data, the frequency of the appearance order related to the symbol string set searched using approximation that considers only the symbol set associated with the highest frequency of the appearance order. A database is created, and the second symbol string is searched with reference to the created database. Therefore, when the input first symbol string is a learned (known) symbol string registered in advance in the learning database used for calculating the co-occurrence frequency, the first symbol string is stored in the learning database. The second symbol string registered in pairs with the string can be output as a conversion result.

また、請求項4に記載の単語翻訳方法は、請求項1乃至請求項3のいずれか一項に記載の記号列変換方法において、前記記号列が文字で構成された単語である単語翻訳方法であって、前記記号列変換装置は、入力される単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得するステップと、前記取得された文書データから、予め定められた個数の単語を、前記入力される単語からの変換候補として抽出するステップとをさらに含んで実行することを特徴とする。   The word translation method according to claim 4 is the word translation method according to any one of claims 1 to 3, wherein the symbol string is a word composed of characters. The symbol string conversion device acquires document data from an electronic device connected to a communication network based on an input word, and a predetermined number of words from the acquired document data. And a step of extracting as a conversion candidate from the inputted word.

このような手順によれば、記号列変換装置は、単語翻訳装置として機能し、任意の言語体系に属する第1の単語を、他の言語体系で対応する第2の単語に変換する。なお、言語体系で用いられる文字は表音文字であることが好ましい。そして、記号列変換装置は、通信ネットワークから取得した文書データから単語を、翻訳のために入力される第1の単語からの変換候補として抽出する。したがって、入力される第1の単語が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習(未知)の単語であっても、通信ネットワークから抽出された現存する単語を、翻訳結果として採用して出力することが可能となる。   According to such a procedure, the symbol string conversion device functions as a word translation device, and converts a first word belonging to an arbitrary language system into a corresponding second word in another language system. The characters used in the language system are preferably phonetic characters. Then, the symbol string conversion device extracts words from the document data acquired from the communication network as conversion candidates from the first word input for translation. Therefore, even if the input first word is an unlearned (unknown) word that is not registered in advance in the learning database used for calculating the co-occurrence frequency, the existing first word extracted from the communication network exists. A word can be adopted and output as a translation result.

また、請求項5に記載の単語翻訳装置は、異なる言語体系にそれぞれ属する同じ意味の単語の組合わせである単語組における文字の同時生起頻度を利用した単語翻訳装置であって、第1の言語体系に属する第1の単語を入力する入力手段と、前記同時生起頻度および前記単語組の中の文字組の出現順序の頻度を利用して、前記入力された第1の単語に対応する第2の言語体系に属する第2の単語を推定する単語探索手段と、前記推定された第2の単語を出力する出力手段とを備えることを特徴とする。   The word translation device according to claim 5 is a word translation device using the simultaneous occurrence frequency of characters in a word set which is a combination of words having the same meaning belonging to different language systems, wherein the first language A second word corresponding to the input first word by using the input means for inputting the first word belonging to the system, and the frequency of the simultaneous occurrence and the appearance order of the character set in the word set; And a word search means for estimating a second word belonging to the language system and an output means for outputting the estimated second word.

かかる構成によれば、単語翻訳装置は、入力された第1の単語を構成する文字の出現順序に対応した順序で出現することが尤もらしい文字から構成された第2の単語を推定することができる。ここで、例えば、第1の単語をカタカナ表記、第2の単語をアルファベット表記とすることができる。この単語翻訳装置によれば、入力される第1の単語が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習(未知)の単語であっても第2の単語を出力することが可能となる。ここで、文字組の出現順序の頻度を利用する場合に、出現順序の確率値の対数をとって符号を逆転させる等の処理を行って生成した状態遷移重みを利用することもできる。この状態遷移重みを用いる場合には、単語翻訳装置は、状態遷移重みが最小となるような第2の単語を探索する。   According to such a configuration, the word translation device can estimate a second word composed of characters that are likely to appear in an order corresponding to the appearance order of the characters constituting the input first word. it can. Here, for example, the first word can be written in katakana and the second word can be written in alphabet. According to this word translation apparatus, even if the input first word is an unlearned (unknown) word that is not registered in advance in the learning database used to calculate the co-occurrence frequency, the second word A word can be output. Here, when the frequency of the appearance order of character sets is used, it is also possible to use the state transition weight generated by performing processing such as taking the logarithm of the probability value of the appearance order and reversing the sign. When this state transition weight is used, the word translation device searches for a second word that minimizes the state transition weight.

また、請求項6に記載の単語翻訳装置は、請求項5に記載の単語翻訳装置において、前記単語探索手段は、前記同時生起頻度に基づいて、前記第1の単語と前記第2の単語とを文字単位で対応付けた組から成る任意の単語組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組に関する前記出現順序の頻度を利用して、前記第2の単語を推定することを特徴とする。   Further, the word translation device according to claim 6 is the word translation device according to claim 5, wherein the word search means is configured to determine the first word and the second word based on the co-occurrence frequency. Is calculated for each word set consisting of a set of characters associated with each other, and based on the result of the calculation, a word set having the maximum frequency of appearance is searched for. The second word is estimated using the frequency of the appearance order related to the searched word set.

かかる構成によれば、単語翻訳装置は、第1の単語と第2の単語とを文字単位で対応付けた組から成る単語組における出現順序の頻度のうち、その出現順序の頻度が最大となる対応付けがなされた文字組だけを考慮する近似を用いて単語を推定するので、探索の枝刈りなどによって解探索空間を削減することができる。   According to such a configuration, the word translation device has the highest appearance order frequency among the appearance order frequencies in the word set composed of a set in which the first word and the second word are associated in character units. Since the word is estimated using an approximation that considers only the character sets that are associated, the solution search space can be reduced by pruning the search.

また、請求項7に記載の単語翻訳装置は、請求項5または請求項6に記載の単語翻訳装置において、前記同時生起頻度に基づいて、前記第1の単語と前記第2の単語とを文字単位で対応付けた組から成る任意の単語組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組に関する前記出現順序の頻度をデータとして格納するデータベースを作成するデータベース作成手段をさらに備え、前記単語探索手段は、前記データベースを参照して、前記第2の単語を探索することを特徴とする。   Further, the word translation device according to claim 7 is the word translation device according to claim 5 or 6, wherein the first word and the second word are converted into characters based on the co-occurrence frequency. The frequency of the appearance order is calculated in an arbitrary word set composed of pairs associated in units, and based on the result of the calculation, the word set that maximizes the frequency of the appearance order is searched, and this search is performed. Database creation means for creating a database for storing the frequency of appearance order related to the word set as data, wherein the word search means searches for the second word with reference to the database. To do.

かかる構成によれば、単語翻訳装置は、出現順序の頻度が最大となる対応付けがなされた文字組だけを考慮する近似を用いて探索した単語組に関する出現順序の頻度をデータとして格納するデータベースを作成し、作成したデータベースを参照して第2の単語を探索する。したがって、入力される第1の単語が、同時生起頻度を計算するために利用された学習データベースに予め登録されている学習済み(既知)の単語の場合に、学習データベースに第1の単語とペアで登録されていた第2の単語を翻訳結果として出力することが可能となる。   According to such a configuration, the word translation device stores a database that stores, as data, the frequency of appearance order related to a word set searched using approximation that considers only the character set associated with the highest frequency of appearance order. The second word is searched with reference to the created database. Therefore, when the input first word is a learned (known) word registered in advance in the learning database used for calculating the co-occurrence frequency, the first word is paired with the first word in the learning database. It becomes possible to output the 2nd word registered by (2) as a translation result.

また、請求項8に記載の単語翻訳装置は、請求項5乃至請求項7のいずれか一項に記載の単語翻訳装置において、前記入力手段に入力される前記第1の単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得する文書データ取得手段と、前記取得された文書データから、予め定められた個数の単語を、前記第1の単語からの変換候補として抽出する変換候補抽出手段とをさらに備えることを特徴とする。   Further, the word translation device according to claim 8 is the word translation device according to any one of claims 5 to 7, wherein communication is performed based on the first word input to the input means. Document data acquisition means for acquiring document data from an electronic device connected to the network, and a conversion candidate for extracting a predetermined number of words as conversion candidates from the first word from the acquired document data And an extraction means.

かかる構成によれば、単語翻訳装置は、通信ネットワークから取得した文書データから単語を、翻訳のために入力される第1の単語からの変換候補として抽出する。したがって、入力される第1の単語が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習(未知)の単語であっても、通信ネットワークから抽出された現存する単語を、翻訳結果として採用して出力することが可能となる。   According to such a configuration, the word translation device extracts words from the document data acquired from the communication network as conversion candidates from the first word input for translation. Therefore, even if the input first word is an unlearned (unknown) word that is not registered in advance in the learning database used for calculating the co-occurrence frequency, the existing first word extracted from the communication network exists. A word can be adopted and output as a translation result.

また、請求項9に記載の記号列変換プログラムは、請求項1乃至請求項3のいずれか一項に記載の記号列変換方法をコンピュータに実行させることを特徴とする。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。   A symbol string conversion program according to claim 9 causes a computer to execute the symbol string conversion method according to any one of claims 1 to 3. By being configured in this way, a computer in which this program is installed can realize each function based on this program.

また、請求項10に記載の単語翻訳プログラムは、請求項4に記載の単語翻訳方法をコンピュータに実行させることを特徴とする。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。   A word translation program according to claim 10 causes a computer to execute the word translation method according to claim 4. By being configured in this way, a computer in which this program is installed can realize each function based on this program.

また、請求項11に記載の記録媒体は、請求項9に記載の記号列変換プログラムまたは請求項10に記載の単語翻訳プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。   A recording medium according to an eleventh aspect is characterized in that the symbol string conversion program according to the ninth aspect or the word translation program according to the tenth aspect is recorded. By being configured in this way, a computer equipped with this recording medium can realize each function based on a program recorded on this recording medium.

本発明によれば、所定の記号体系に属する記号列を、任意の記号体系に属する対応した記号列に変換することができる。特に、発音やローマ字化規則などの情報を利用することなく、既知の記号変換結果の出現順序を考慮して変換することが可能である。   According to the present invention, a symbol string belonging to a predetermined symbol system can be converted into a corresponding symbol string belonging to an arbitrary symbol system. In particular, it is possible to perform conversion in consideration of the appearance order of known symbol conversion results without using information such as pronunciation and Romanization rules.

以下、本発明の実施形態について、適宜図面を参照しながら説明する。
[単語翻訳システムの構成]
(第1の実施形態)
図1は、本発明の第1の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。単語翻訳システム(記号列変換システム)1は、変換元文字列である第1の単語(記号列)と、この第1の単語に対応した変換先文字列である第2の単語とをそれぞれ構成する文字の同時生起確率(同時生起頻度)をデータとして格納した翻字確率モデルを利用して、入力された第1の単語を第2の単語へ変換して出力するものである。ここで、第1の単語とは、第1の言語体系に属する複数の第1の文字から構成されている。同様に、第2の単語は、第2の言語体系に属する複数の第2の文字から構成されている。また、同時生起確率とは、第1の文字の出現と、該第1の文字の変換結果としての第2の文字の出現とが同時に生起する確率である。以下では、第1の単語をソース単語、第1の文字をソース文字、第2の単語をターゲット単語、第2の文字をターゲット文字と呼ぶ場合もある。
Hereinafter, embodiments of the present invention will be described with reference to the drawings as appropriate.
[Configuration of word translation system]
(First embodiment)
FIG. 1 is a diagram illustrating a configuration example of a word translation system including a word translation apparatus according to the first embodiment of the present invention. The word translation system (symbol string conversion system) 1 includes a first word (symbol string) that is a conversion source character string and a second word that is a conversion destination character string corresponding to the first word. Using the transliteration probability model in which the co-occurrence probability (co-occurrence frequency) of the character to be stored is stored as data, the input first word is converted into the second word and output. Here, the first word is composed of a plurality of first characters belonging to the first language system. Similarly, the second word is composed of a plurality of second characters belonging to the second language system. The co-occurrence probability is a probability that the appearance of the first character and the appearance of the second character as a conversion result of the first character occur at the same time. Hereinafter, the first word may be referred to as a source word, the first character as a source character, the second word as a target word, and the second character as a target character.

この単語翻訳システム1は、図1に示すように、記憶装置2と、記憶装置3と、翻字確率モデル作成装置(記号変換確率モデル作成装置)4と、単語翻訳装置(記号列変換装置)5とを備えている。
記憶装置2は、学習データベース6を記憶したものであって、一般的なハードディスク等の記憶手段である。
学習データベース6は、ソース単語とターゲット単語の組である。
As shown in FIG. 1, the word translation system 1 includes a storage device 2, a storage device 3, a transliteration probability model creation device (symbol conversion probability model creation device) 4, and a word translation device (symbol string conversion device). And 5.
The storage device 2 stores a learning database 6 and is a storage means such as a general hard disk.
The learning database 6 is a set of source words and target words.

記憶装置3は、翻字確率モデル(記号変換確率モデル)7を記憶したものであって、一般的なハードディスク等の記憶手段である。
翻字確率モデル7は、ソース文字からターゲット文字への翻字確率を、ソース文字とターゲット文字の同時生起確率をデータとして格納するものである。
The storage device 3 stores a transliteration probability model (symbol conversion probability model) 7 and is a storage means such as a general hard disk.
The transliteration probability model 7 stores the transliteration probability from the source character to the target character, and the co-occurrence probability of the source character and the target character as data.

翻字確率モデル作成装置(記号変換確率モデル作成装置)4と、単語翻訳装置(記号列変換装置)5は、一般的なコンピュータ(計算機)であり、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、KB/CRT(Key Board/Cathode Ray Tube)と、入力/出力インタフェースとを含んで構成されている。   The transliteration probability model creation device (symbol conversion probability model creation device) 4 and the word translation device (symbol string conversion device) 5 are general computers (computers) such as a CPU (Central Processing Unit) and a RAM. (Random Access Memory), ROM (Read Only Memory), HDD (Hard Disk Drive), KB / CRT (Key Board / Cathode Ray Tube), and an input / output interface.

翻字確率モデル作成装置(記号変換確率モデル作成装置)4は、学習データベース6に基づいて、ソース文字とターゲット文字との対応関係を求め、このソース文字とターゲット文字との間の翻字確率を、直前(N−1)個の翻字結果を考慮して決定するNグラムモデルとしてモデル化して、翻字確率モデル7を作成するものである。
単語翻訳装置(記号列変換装置)5は、1つのソース単語を入力として、翻字確率モデル7を用いて、ソース単語に対応するターゲット単語を出力するものである。
The transliteration probability model creation device (symbol conversion probability model creation device) 4 obtains the correspondence between the source character and the target character based on the learning database 6, and calculates the transliteration probability between the source character and the target character. A transliteration probability model 7 is created by modeling as an N-gram model determined in consideration of the previous (N-1) transliteration results.
The word translation device (symbol string conversion device) 5 outputs a target word corresponding to a source word using a transliteration probability model 7 with one source word as an input.

[翻字確率モデル作成装置の構成]
図2は、図1に示した翻字確率モデル作成装置の構成例を示す機能ブロック図である。
翻字確率モデル作成装置4は、図2に示すように、入力手段10と、記憶手段(RAM等)11と、文字間関連度データベース作成手段(記号間関連度データベース作成手段)12と、単語組データベース作成手段(記号列組データベース作成手段)13と、生起確率計算手段14と、書込手段15とを備えている。
[Configuration of transliteration probability model creation device]
FIG. 2 is a functional block diagram illustrating a configuration example of the transliteration probability model creation device illustrated in FIG. 1.
As shown in FIG. 2, the transliteration probability model creation device 4 includes an input means 10, a storage means (RAM, etc.) 11, a character-to-character relationship database creation means (a symbol-to-symbol relationship degree database creation means) 12, a word A set database creation means (symbol string set database creation means) 13, an occurrence probability calculation means 14, and a writing means 15 are provided.

入力手段10は、入力インターフェースであり、学習データベース6から、ソース文字とターゲット文字とを入力し、文字間関連度データベース作成手段12と、単語組データベース作成手段13とに出力するものである。この入力手段10は、入力装置Mからデータベース作成の指示等を入力する。入力装置Mは、例えば、マウスやキーボード等のポインティングデバイスである。
記憶手段11は、RAMと、ROMと、HDDとを含んでおり、HDDに、文字間関連度データベース(記号間関連度データベース)16と、単語組データベース(記号列組データベース)17とを記憶するものである。
The input means 10 is an input interface for inputting source characters and target characters from the learning database 6 and outputting them to the inter-character relevance degree database creating means 12 and the word set database creating means 13. The input means 10 inputs a database creation instruction or the like from the input device M. The input device M is a pointing device such as a mouse or a keyboard, for example.
The storage means 11 includes a RAM, a ROM, and an HDD, and stores an inter-character relevance database (inter-symbol relevance database) 16 and a word group database (symbol string group database) 17 in the HDD. Is.

文字間関連度データベース16は、ソース文字とターゲット文字との間の統計的な関連度をデータとして格納するものである。ここで、関連度Assoc(s,t)とは、ソース文字sに対する翻字候補としてターゲット文字tが現れ易いことを指す尺度である。例えば、ソース文字sを含むソース単語S0に対応するターゲット単語T0にターゲット文字tが多く含まれていたり、このソース単語S0に対応しないターゲット単語T1にターゲット文字tがあまり含まれていなかったりする場合には、関連度Assoc(s,t)は高くなる。この関連度は、具体的には、共起頻度や、統計量の検定に用いられるカイ二乗値、カイ二乗値を0〜1の範囲に正規化した値であるφ2などを用いることができる。
単語組データベース17は、ソース単語とターゲット単語との間で対応付けられた文字間の関連度のそれぞれの積が最大となるように対応付けられた、2つの単語の組から成る単語組をデータとして格納するものである。
The inter-character relevance database 16 stores the statistical relevance between the source character and the target character as data. Here, the association level Assoc (s, t) is a scale indicating that the target character t is likely to appear as a transliteration candidate for the source character s. For example, the target word T 0 corresponding to the source word S 0 including the source character s includes many target characters t, or the target word T 1 not corresponding to the source word S 0 includes too many target characters t. If not, the relevance level Assoc (s, t) is high. Specifically, the degree of association can be the co-occurrence frequency, the chi-square value used for statistical tests, φ 2 that is a value obtained by normalizing the chi-square value to a range of 0 to 1, and the like. .
The word set database 17 stores a word set made up of two sets of words associated with each other so that the product of the relevance between the characters associated with the source word and the target word is maximized. Is stored as

文字間関連度データベース作成手段12は、学習データベース6に記憶されたデータに基づいて、ソース文字とターゲット文字との間の統計的な関連度を計算すると共に、ソース文字とターゲット文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字φを用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベース16を作成するものである。本実施形態では、仮想的な関連度として、ソース文字sがターゲット文字tのどの文字とも対応しない場合の仮想的な関連度Assoc(s,φt)と、ターゲット文字tがソース文字sのどの文字とも対応しない場合の仮想的な関連度Assoc(φs,t)との2種類を用いる。 The character-to-character relevance database creating means 12 calculates a statistical relevance between the source character and the target character based on the data stored in the learning database 6, and of the source character and the target character. When there is no character corresponding to any of the characters, a virtual relevance degree using the virtual empty character φ is calculated, and the inter-character relevance degree database 16 using the calculated relevance degree and the virtual relevance degree as data is created. Is. In the present embodiment, as the virtual relevance, the virtual relevance degree Assoc (s, φ t ) when the source character s does not correspond to any character of the target character t, and the target character t which of the source character s Two types are used: a virtual relevance level Assoc (φ s , t) when it does not correspond to a character.

単語組データベース作成手段13は、学習データベース6に記憶されたデータと、文字間関連度データベース16に記憶されたデータと、に基づいて、ソース単語とターゲット単語との間で対応付けられた文字間の関連度および仮想的な関連度のそれぞれの積が最大となるように(最適となるように)対応付けられた、2つの単語の組から成る単語組を生成し、生成した単語組をデータとする単語組データベース17を作成するものである。   The word set database creation means 13 uses the data stored in the learning database 6 and the data stored in the inter-character relevance database 16 to inter-character spacing associated between the source word and the target word. Generate a word set consisting of two word sets that are associated with each other so that the product of the relevance level and the virtual relevance level is maximized (optimal), and the generated word set is data The word set database 17 is created.

ここで、単語組データベース17が作成されるまでの具体例について図3を参照して説明する。図3は、図2に示した単語組データベースが作成されるまでの具体例を示す説明図である。ここでは、第1の言語体系が日本語(カタカナ)で第2の言語体系が英語(アルファベット)5としている。   Here, a specific example until the word set database 17 is created will be described with reference to FIG. FIG. 3 is an explanatory diagram showing a specific example until the word set database shown in FIG. 2 is created. Here, the first language system is Japanese (Katakana) and the second language system is English (alphabet) 5.

図3の(a)に示すように、第1の単語(ソース単語)Sとして「アイスクリーム」、第2の単語(ターゲット単語)Tとして「ice cream」を想定する。ここで想定したように、単語は、単語数が1つに制限されるものではなく、複数個の単語から成る複合語(例えば、ice cream)であってもよい。   As shown in (a) of FIG. 3, “ice cream” is assumed as the first word (source word) S, and “ice cream” is assumed as the second word (target word) T. As assumed here, the number of words is not limited to one, but may be a compound word (for example, ice cream) including a plurality of words.

ここで、第1の単語Sは、m個の第1の文字(ソース文字s1,s2,…,sm)で構成されるものとする。したがって、「アイスクリーム」の場合には、第1の単語Sは、図3の(b)に示すように、m=7なので、7個の文字ID(s1〜s7)が付されることとなる。 Here, the first word S is assumed to be composed of m first characters (source characters s 1 , s 2 ,..., S m ). Therefore, in the case of “ice cream”, since the first word S is m = 7 as shown in FIG. 3B, seven character IDs (s 1 to s 7 ) are attached. It will be.

同様に、第2の単語Tは、n個の第2の文字(ターゲット文字t1,t2,…,tn)で構成されるものとする。したがって、「ice cream」の場合には、第2の単語Tは、図3の(c)に示すように、n=8なので、8個の文字ID(t1〜t8)が付されることとなる。ここで、空白を無視して文字列を結合することとしたが、空白も文字として扱ってもよい。なお、空白に限らず、アンダーバー等の他の記号を同様に扱ってもよいことはもちろんである。 Similarly, it is assumed that the second word T is composed of n second characters (target characters t 1 , t 2 ,..., T n ). Therefore, in the case of “ice cream”, since the second word T is n = 8 as shown in FIG. 3C, eight character IDs (t 1 to t 8 ) are attached. It will be. Here, it is assumed that the character string is combined while ignoring the white space, but the white space may be treated as a character. Of course, other symbols such as underbars may be handled in the same manner, not limited to spaces.

図3の(b)と図3の(c)とを比較すると、文字の個数が異なる(m<n)。本実施形態では、文字間の対応関係は、第1の文字の1文字と第2の文字の1文字の1対1対応であり、それぞれ対応する文字がない場合には空文字を必要とする。すなわち、第1の単語Sと第2の単語Tとを文字単位で最適となるように対応付けると、第1の単語では、図3の(d)に示すように、空文字φ(文字ID「φs」)が2つ挿入される。同様に、第2の単語では、図3の(e)に示すように、空文字φ(文字ID「φt」)が1つ挿入される。このように対応付けが最適化されたときには、文字の個数は等しくなる。このときの個数をl個(エル個)とすると、一般に、l≧mかつl≧nと表すことができる。なお、この場合には、l=9である。 When FIG. 3B and FIG. 3C are compared, the number of characters is different (m <n). In the present embodiment, the correspondence between characters is one-to-one correspondence between one character of the first character and one character of the second character, and an empty character is required when there is no corresponding character. That is, when the first word S and the second word T are associated with each other so as to be optimal in character units, the first word has an empty character φ (character ID “φ” as shown in FIG. Two s ") are inserted. Similarly, in the second word, one empty character φ (character ID “φ t ”) is inserted as shown in FIG. When the correspondence is optimized in this way, the number of characters becomes equal. If the number at this time is 1 (el), it can be generally expressed as l ≧ m and l ≧ n. In this case, l = 9.

図3の(d)および図3の(e)に示された空文字入りのそれぞれの単語から、図3の(f)に示すように、単語組を生成する。そして、この単語組を構成する両言語の文字間の対応付けAを、A=a1,a2,…,alとする。そして、対応付けAの要素、すなわち、文字組IDを、ai=(sj,tk)で示すこととする。ここで、sjはs1,…,smのいずれか、もしくはφsであり、tkはt1,…,tnのいずれか、もしくはφtのことである。 As shown in (f) of FIG. 3, a word set is generated from each of the words with blank characters shown in (d) of FIG. 3 and (e) of FIG. Then, the correspondence A between the characters of both languages constituting this word set is set as A = a 1 , a 2 ,. The element of association A, that is, the character set ID is represented by a i = (s j , t k ). Here, s j is s 1, ..., one of s m, or a phi s, t k is t 1, ..., is that one or phi t of t n.

また、本実施形態では、対応付けが最適化されたときには、空文字を入れる前のs1,…,sm,t1,…,tnの各文字をその順序を変えることなく対応づけるものとする。言い換えると、I>iなるaI=(sJ,tK)に対して、J>j、K>kの関係がある。具体的には、図6の(f)に示すように、文字組ID「a2」、「a3」において、文字組(イ,i)、文字組(ス,c)の各要素を比較すると、第1の単語側(ソース側)の「イ」と「ス」との順序は、元の「アイスクリーム」の順序と同じであり、また、第2の単語側(ターゲット側)の「i」と「c」との順序は、元の「ice cream」の順序と同じである。つまり、対応付けによっても順序は不変である。 Further, in the present embodiment, when the correspondence is optimized, I s 1 before placing an empty, ..., s m, t 1 , ..., and those associating without changing their order each character of t n To do. In other words, there is a relationship of J> j and K> k for a I = (s J , t K ) where I> i. Specifically, as shown in (f) of FIG. 6, each element of the character set (I, i) and character set (S, c) is compared in the character set IDs “a 2 ” and “a 3 ”. Then, the order of “i” and “su” on the first word side (source side) is the same as the order of the original “ice cream”, and “order” on the second word side (target side) The order of “i” and “c” is the same as that of the original “ice cream”. That is, the order is not changed by the association.

一方、仮に、例えば、図6の(g)に示すように、文字組ID「a2」、「a3」において、文字組(イ,e)、文字組(ス,c)の各要素を比較すると、第1の単語側(ソース側)の「イ」と「ス」との順序は、元の「アイスクリーム」の順序と同じであるが、第2の単語側(ターゲット側)の「e」と「c」との順序は、元の「ice cream」の順序と逆転している。つまり、対応付けによって順序が変化していることとなる。要するに、本実施形態では、最適な対応付けによって、図6の(g)に示すような対応付けは排除され、図6の(f)に示すように対応付けがなされる。 On the other hand, for example, as shown in FIG. 6G, each element of the character set (I, e) and the character set (S, c) in the character set IDs “a 2 ” and “a 3 ” In comparison, the order of “i” and “su” on the first word side (source side) is the same as the order of the original “ice cream”, but on the second word side (target side) “ The order of “e” and “c” is reversed from the original “ice cream” order. That is, the order is changed by the association. In short, in the present embodiment, the association shown in (g) of FIG. 6 is eliminated by the optimum association, and the association is made as shown in (f) of FIG.

単語組データベース作成手段13は、式(1)に基づいて、文字間の関連度および仮想的な関連度のそれぞれの積が最大となるような対応付け(最適な対応付け)A^(Aハット)を求める。なお、式(1)において、Assoc(ai)は、所定の対応付け「A」がなされた文字組aiのソース文字とターゲット文字との関連度であり、「argmax A (y)、ただしy=f(A)」は、yが最大となるときの「A」を求めることを意味する。
また、単語組データベース作成手段13は、式(2)に基づいて、最適な対応付けA^を求めるようにしてもよい。この場合には、文字間の関連度および仮想的な関連度のそれぞれの和が最大となるような対応付けが求められることとなる。
Based on the formula (1), the word set database creating means 13 creates a correspondence (optimum correspondence) A ^ (A hat) that maximizes the product of the degree of association between characters and the degree of virtual association. ) In Expression (1), Assoc (a i ) is the degree of association between the source character and target character of the character set a i for which a predetermined association “A” has been made, and “argmax A (y), “y = f (A)” means to obtain “A” when y is maximum.
Further, the word set database creating means 13 may obtain an optimum association A ^ based on the formula (2). In this case, the association is calculated so that the sum of the relevance between characters and the virtual relevance is maximized.

Figure 2007156545
Figure 2007156545

Figure 2007156545
Figure 2007156545

図2に戻って、翻字確率モデル作成装置4の構成例の説明を続ける。
生起確率計算手段14は、単語組データベース17に記憶されたデータを参照して、同時生起確率を、単語組を構成するソース単語およびターゲット単語において、ソース文字とターゲット文字の文字組の出現順序の確率(出現順序の頻度)を計算し、翻字確率モデル7を作成するものである。ここで、出現順序の確率とは、着目するソース文字またはターゲット文字が出現するまでの各文字の状態遷移を示す履歴を条件とする条件付き確率である。つまり、生起確率計算手段14は、あるソース文字の出現と、そのソース文字の翻字結果であるターゲット文字の出現とが同時に生起する確率を、あるソース文字の直前(N−1)個のソース文字の履歴と、当該ターゲット文字の直前(N−1)個のターゲット文字の履歴とを用いて翻字確率モデル7を作成する。例えば、図3を参照して説明したソース文字(文字ID「sj」)とターゲット文字(文字ID「tk」)を利用すると、対応付けられ単語組において、ソース文字とターゲット文字とで表現される文字組(文字組ID「ai」)が現れる確率(同時生起確率)P(ai)は、直前(N−1)個の文字組(ai-1,…,ai-N+1)の条件付き確率で表すことができる。なお、Nは、Nグラム言語モデルにおける「N」を示す数値である。また、以下、単に確率という場合には、同時生起確率を意味する。
Returning to FIG. 2, the description of the configuration example of the transliteration probability model creation device 4 will be continued.
The occurrence probability calculation means 14 refers to the data stored in the word set database 17 to determine the co-occurrence probability of the appearance order of the character set of the source character and the target character in the source word and the target word constituting the word set. The probability (frequency of appearance order) is calculated, and the transliteration probability model 7 is created. Here, the probability of the appearance order is a conditional probability on the condition that the state transition of each character until the focused source character or target character appears is a condition. That is, the occurrence probability calculation means 14 determines the probability that the appearance of a certain source character and the appearance of the target character, which is the transliteration result of the source character, occur at the same time (N−1) sources immediately before the certain source character. The transliteration probability model 7 is created using the character history and the history of (N-1) target characters immediately before the target character. For example, when the source character (character ID “s j ”) and the target character (character ID “t k ”) described with reference to FIG. 3 are used, the source character and the target character are represented in the associated word group. The probability (co-occurrence probability) P (a i ) of appearing character sets (character set ID “a i ”) is the immediately preceding (N−1) character sets (a i−1 ,..., A i−N +1 ) with a conditional probability. N is a numerical value indicating “N” in the N-gram language model. Further, hereinafter, the simple probability means the co-occurrence probability.

そこで、生起確率計算手段14は、単語組データベース17を用いて、条件付き確率P(ai|ai-1,…,ai-N+1)を計算する。ここで、Nに大きな値を設定すると、大多数の条件付き確率が「0」となり、その結果、確率モデルとして汎用性が劣化してしまうことから、生起確率計算手段14は、Nを比較的小さな値(例えば、1,2,3)としたときの確率値を用いて平滑化処理する。これにより、直前(N−1)文字の条件付き確率が「0」にならないため、任意の翻字結果に対して「0」ではない確率値を与えることができる。この平滑化処理としては、自然言語処理や音声認識に利用されるNグラム言語モデルに適用される公知の平滑化技術を利用することができる(例えば、「確率的言語モデル」北研二、東京大学出版会、1999、第3章、言語と計算−4を参照)。 Therefore, the occurrence probability calculation means 14 calculates a conditional probability P (a i | a i−1 ,..., A i−N + 1 ) using the word set database 17. Here, when a large value is set for N, the majority of conditional probabilities become “0”, and as a result, the versatility of the probability model deteriorates. Smoothing is performed using the probability value when the value is small (for example, 1, 2, 3). Thereby, since the conditional probability of the immediately preceding (N−1) character does not become “0”, a probability value that is not “0” can be given to any transliteration result. As the smoothing process, a known smoothing technique applied to an N-gram language model used for natural language processing or speech recognition can be used (for example, “stochastic language model” Kenji Kita, University of Tokyo (See Publishing, 1999, Chapter 3, Languages and Calculations-4).

書込手段15は、生起確率計算手段14で計算された確率値を翻字確率モデル7として記憶装置3(図1参照)に書き込むものである。   The writing means 15 writes the probability value calculated by the occurrence probability calculating means 14 into the storage device 3 (see FIG. 1) as the transliteration probability model 7.

なお、前記した文字間関連度データベース作成手段12と、単語組データベース作成手段13と、生起確率計算手段14は、CPUが記憶手段11のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。   The inter-character relevance database creating means 12, the word set database creating means 13, and the occurrence probability calculating means 14 are such that the CPU expands a predetermined program stored in the ROM or the like of the storage means 11 to the RAM. It is realized by executing.

[単語翻訳装置の構成]
図4は、図1に示した単語翻訳装置の構成例を示す機能ブロック図である。
単語翻訳装置5は、翻字確率モデル作成装置4で作成された翻字確率モデル7に基づいて、入力装置Mから入力されるソース単語を構成するソース文字をターゲット文字に翻字することによってターゲット単語への翻訳(変換)を実現し、翻訳したターゲット単語を出力装置Dへ出力するものである。
[Configuration of word translation device]
4 is a functional block diagram illustrating a configuration example of the word translation apparatus illustrated in FIG.
Based on the transliteration probability model 7 created by the transliteration probability model creation device 4, the word translation device 5 translates the source characters constituting the source word input from the input device M into the target characters. Translation (conversion) into words is realized, and the translated target words are output to the output device D.

(翻訳原理)
ここで、単語翻訳装置5における翻訳(記号列変換)の原理を数式に基づいて説明する。なお、この翻訳原理の説明において「ターゲット単語T」という場合には、ソース単語Sと1対1に対応する正確に翻訳された該当する単語と、それに類似した単語とを含んでおり、いわば、ターゲット単語候補と呼べるものを意味している。
(Translation principle)
Here, the principle of translation (symbol string conversion) in the word translation apparatus 5 will be described based on mathematical expressions. In the description of the translation principle, the term “target word T” includes an accurately translated word corresponding to the source word S on a one-to-one basis, and a word similar thereto, so to speak, It means what can be called target word candidates.

入力されたソース単語Sと、その正確な翻訳結果を含むターゲット単語Tとが、翻字確率モデル7において単語組として現れる同時生起確率は、入力されたソース単語Sのソース文字と、ターゲット単語Tのターゲット文字との文字間の対応付けAによって、それぞれ異なったものとなっている。このとき、入力されたソース単語Sと、そのターゲット単語Tとの同時生起確率P(S,T,A)は、式(3)に示すように、条件付き確率の積で表すことができる。   The co-occurrence probabilities that the input source word S and the target word T including the exact translation result appear as a word set in the transliteration probability model 7 are the source character of the input source word S and the target word T Are different depending on the correspondence A between the characters and the target character. At this time, the co-occurrence probability P (S, T, A) of the input source word S and the target word T can be expressed as a product of conditional probabilities as shown in Expression (3).

Figure 2007156545
Figure 2007156545

文字間の対応付けAとしては、多数の可能性があるため、それらをすべて考慮してソース単語Sとターゲット単語Tとが翻字確率モデル7に基づいて翻字される単語の組として現れる最終的な確率P(S,T)は、式(4)で示されることとなる。   Since there are many possibilities as the correspondence A between characters, the source word S and the target word T appear as a set of words that are transliterated based on the transliteration probability model 7 in consideration of all of them. The typical probability P (S, T) is expressed by the equation (4).

Figure 2007156545
Figure 2007156545

前記した式(4)によると、確率P(S,T)を正確に求めるには、各対応付けAに対する確率値の総和を計算しなければならないことになる。しかしながら、すべての対応付けAを考慮すると、計算が膨大になるため実用的ではない。そこで、計算量を削減するために、本実施形態では、以下の近似を導入することとする。すなわち、式(5)に示すように、対応付けAに対する確率値を最大にするときの対応付けAを、最適な対応付けA′として採用する。   According to the above equation (4), in order to accurately determine the probability P (S, T), the sum of the probability values for each association A must be calculated. However, considering all the correspondences A, the calculation becomes enormous, which is not practical. Therefore, in order to reduce the amount of calculation, the following approximation is introduced in this embodiment. That is, as shown in Expression (5), the association A when the probability value for the association A is maximized is adopted as the optimum association A ′.

Figure 2007156545
Figure 2007156545

そして、前記した式(5)で示される最適な対応付けA′のみを考慮する近似を行う。このような計算のためには、公知のViterbiアルゴリズムが利用可能である。この近似により、前記した式(4)で示した確率P(S,T)は、式(6)のように近似されることとなる。なお、式(6)の具体的な計算に際しては、前記した式(3)が利用されることとなる。   Then, an approximation is performed in consideration of only the optimum association A ′ expressed by the above-described equation (5). A known Viterbi algorithm can be used for such calculation. By this approximation, the probability P (S, T) shown in the above equation (4) is approximated as in equation (6). In the specific calculation of Expression (6), Expression (3) described above is used.

Figure 2007156545
Figure 2007156545

単語翻訳装置5は、ソース単語Sに対する最適なターゲット単語T′の探索として、任意のターゲット単語Tに対する任意の文字間の対応付けを考慮し、その上で前記した式(6)を満たすものを探索することになるため、探索の枝刈りなどによって解探索空間を削減することができる。   The word translation device 5 considers the correspondence between arbitrary characters with respect to an arbitrary target word T as a search for the optimal target word T ′ with respect to the source word S, and further satisfies the above-described equation (6). Since the search is performed, the solution search space can be reduced by pruning the search.

前記した式(6)の探索、すなわち、最適なターゲット単語T′を探索する方法として、本実施形態では、公知の重み付き有限状態トランスデューサ(WFST:Weighted Finite State Transducer)と呼ばれる有限状態機械を用いて効率的な探索を行う(非特許文献1参照)。このWFSTでは、状態遷移に対する重みが予め定義されており、ソース文字の系列を入力とし、ターゲット文字の系列を出力することができる。   As a search for the above-described equation (6), that is, a method for searching for the optimum target word T ′, in this embodiment, a known finite state machine called WFST (Weighted Finite State Transducer) is used. Efficient search (see Non-Patent Document 1). In this WFST, weights for state transitions are defined in advance, and a sequence of source characters can be input and a sequence of target characters can be output.

複数のWFSTの合成演算によって複数の有限状態機械の機能を統合することが可能である(非特許文献1参照)。つまり、ソース単語Sから、ソース単語Sの言語でもターゲット単語Tの言語でもない言語を示す中間言語の単語Iを翻訳生成する第1のWFSTと、この中間言語の単語Iから、ターゲット単語Tを翻訳生成する第2のWFSTと、を合成することにより、ソース単語Sからターゲット単語Tへの翻訳を実現するようにしてもよい。このように構成することで、例えば、ソース単語Sの言語とターゲット単語Tの言語との間の翻字を実現するための学習データベースが利用できなくとも、ソース単語Sの言語と中間言語との間の翻字を実現するための学習データベースと、中間言語とターゲット単語Tの言語との間の翻字を実現するための学習データベースと、をそれぞれ利用すれば、第1のWFSTと、第2のWFSTとを作成可能である。ここで、ソース単語Sからターゲット単語Tへの翻訳の際に変換に利用する中間言語の数は1つに限定されるものではなく、翻字を実現するための学習データベースが存在すれば複数種類の中間言語を介在させることも可能である。   It is possible to integrate the functions of a plurality of finite state machines by combining a plurality of WFSTs (see Non-Patent Document 1). That is, from the source word S, a first WFST that translates and generates an intermediate language word I indicating a language that is neither the language of the source word S nor the target word T, and the target word T is determined from the intermediate language word I. You may make it implement | achieve translation from the source word S to the target word T by synthesize | combining with 2nd WFST which carries out translation production | generation. With this configuration, for example, even if a learning database for realizing transliteration between the language of the source word S and the language of the target word T cannot be used, the language of the source word S and the intermediate language If the learning database for realizing transliteration between and the learning database for realizing transliteration between the intermediate language and the language of the target word T are respectively used, the first WFST and the second WFST can be created. Here, the number of intermediate languages used for conversion in the translation from the source word S to the target word T is not limited to one, and if there is a learning database for realizing transliteration, a plurality of types are available. It is also possible to intervene intermediate languages.

具体的には、本実施形態では、単語翻訳装置5は、以下に示すように、1種類のWFSTを、1種類のWFSTデータベースおよびWFST探索プログラムの組で構成するが、中間言語を介して合成演算可能な複数種類のWFSTを利用するようにしてもよい。この場合には、複数種類の翻字確率モデル7を利用することとなる。   Specifically, in the present embodiment, the word translation device 5 is configured by combining one type of WFST as a set of one type of WFST database and a WFST search program as shown below, but synthesizing it via an intermediate language. A plurality of types of WFST that can be calculated may be used. In this case, a plurality of types of transliteration probability models 7 are used.

(構成の具体例)
単語翻訳装置5は、前記した翻訳(記号列変換)原理を実現するために、図4に示すように、入力手段(第1の入力手段)21と、記憶手段22と、状態遷移情報データベース作成手段(データベース作成手段)23と、単語探索手段24と、出力手段(第1の出力手段)25と、状態遷移情報データベース26とを備えている。
(Specific example of configuration)
In order to realize the translation (symbol string conversion) principle described above, the word translation device 5 has an input means (first input means) 21, a storage means 22, and a state transition information database creation as shown in FIG. Means (database creation means) 23, word search means 24, output means (first output means) 25, and state transition information database 26 are provided.

入力手段(第1の入力手段)21は、入力インターフェースであり、入力装置Mから、ソース単語(第1の単語)を入力し、状態遷移情報データベース作成手段23と単語探索手段24とに出力するものである。また、入力手段21は、翻字確率モデル7からソース文字列およびターゲット文字列を入力し、状態遷移情報データベース作成手段23に出力する。
記憶手段22は、RAMと、ROMと、HDDとを含んでおり、HDDに、状態遷移情報データベース26を記憶するものである。
The input means (first input means) 21 is an input interface, which inputs a source word (first word) from the input device M and outputs it to the state transition information database creation means 23 and the word search means 24. Is. Further, the input means 21 inputs the source character string and the target character string from the transliteration probability model 7 and outputs them to the state transition information database creation means 23.
The storage means 22 includes a RAM, a ROM, and an HDD, and stores a state transition information database 26 in the HDD.

状態遷移情報データベース26は、前記したWFSTデータベースに相当する。この状態遷移情報データベース26は、ソース単語と、該ソース単語に文字間対応付けされたターゲット単語とを文字単位で対応付けた組から成る単語組の中の文字組の出現順序の確率に対応する重み(状態遷移重み)を、遷移元状態および遷移先状態と共に、データとして格納するものである。なお、重みの代わりに出現順序の確率そのものを格納するようにしても良い。
また、状態遷移情報データベース26は、具体的には、翻字確率モデル7に格納された単語組のソース文字の系列を入力対応データとして有する。また、状態遷移情報データベース26は、翻字確率モデル7に格納された単語組のターゲット文字の系列と、状態遷移重みとして前記した式(6)の確率値の重みとを、出力対応データとして有する。
The state transition information database 26 corresponds to the WFST database described above. This state transition information database 26 corresponds to the probability of the appearance order of character sets in a word set consisting of a set in which a source word and a target word associated with the source word are associated with each other in character units. The weight (state transition weight) is stored as data together with the transition source state and the transition destination state. Note that the appearance order probability itself may be stored instead of the weight.
In addition, the state transition information database 26 specifically includes a source character sequence of a word set stored in the transliteration probability model 7 as input correspondence data. Further, the state transition information database 26 has, as output correspondence data, the target character series of the word set stored in the transliteration probability model 7 and the weight of the probability value of the above-described equation (6) as the state transition weight. .

状態遷移情報データベース作成手段(データベース作成手段)23は、翻字確率モデル7に格納されたデータを参照して、状態遷移情報データベース26を作成するものである。この状態遷移情報データベース作成手段23は、ソース単語と、該ソース単語に文字間対応付けされたターゲット単語との組から成る単語組の中の文字組の出現順序の確率が最大となる単語組を考慮する近似(前記した式(6)に相当する)を用いて求められた確率に対応する重みを状態遷移重みとして計算する。なお、出現順序の確率を算出するための各確率値は予め求められている。   The state transition information database creation means (database creation means) 23 refers to the data stored in the transliteration probability model 7 and creates the state transition information database 26. The state transition information database creation means 23 selects a word set having the highest probability of the appearance order of the character set in the word set consisting of the source word and the target word associated with the source word. A weight corresponding to the probability obtained by using an approximation to be considered (corresponding to the above-described equation (6)) is calculated as a state transition weight. Each probability value for calculating the probability of the appearance order is obtained in advance.

ここで、状態遷移情報データベース作成手段23が計算する状態遷移重みについて説明する。前記した式(3)の条件付き確率P(ai|ai-1,…,ai-N+1)における条件ai-1,…,ai-N+1を履歴という。この履歴は、各文字組aiに対応する状態遷移の系列である。具体的には、i番目の文字組ai(sj,tk)に着目する。この文字組ai(sj,tk)は、ソース文字sjを入力として、ターゲット文字tkを出力するような状態遷移に対応している。この文字組ai(sj,tk)が出現するまでには、直前の(N−1)個の文字組ai-1,…,ai-N+1の状態遷移の系列を経ている。そこで、文字組ai(sj,tk)が対応している状態遷移に対して、条件付き確率P(ai|ai-1,…,ai-N+1)に対応する重みを状態遷移重みとして付与する。ここでは、この状態遷移重みを、条件付き確率の対数の符号を逆転させたもの、すなわち、−logP(ai|ai-1,…,ai-N+1)とする。ここで、対数の底は、例えば、2である。なお、ソース文字sjが空文字φ(文字ID「φs」)である場合には、入力されたソース文字と無関係に行われる状態遷移として実現される(これはε遷移と呼ばれる)。また、ターゲット文字tkが空文字φ(文字ID「φt」)である場合には、出力なしの状態遷移として実現される。 Here, the state transition weight calculated by the state transition information database creation unit 23 will be described. Conditional probability P of the formula (3) described above (a i | a i-1 , ..., a i-N + 1) Conditions a i-1 in, ..., a i-N + 1 of the history. This history is a series of state transitions corresponding to each character set a i . Specifically, attention is focused on the i-th character set a i (s j , t k ). This character set a i (s j, t k ) is input with a source character s j, it corresponds to the state transition for outputting the target character t k. This character set of a i (s j, t k ) until the advent of, just before the (N-1) number of character sets a i-1, ..., via the state transition sequence of a i-N + 1 Yes. Therefore, the weight corresponding to the conditional probability P (a i | a i−1 ,..., A i−N + 1 ) for the state transition corresponding to the character set a i (s j , t k ). Is assigned as a state transition weight. Here, the state transition weight is assumed to be the logarithm of the logarithm of the conditional probability, that is, −logP (a i | a i−1 ,..., A i−N + 1 ). Here, the base of the logarithm is 2, for example. When the source character s j is an empty character φ (character ID “φ s ”), it is realized as a state transition performed irrespective of the input source character (this is called an ε transition). When the target character t k is the empty character φ (character ID “φ t ”), this is realized as a state transition without output.

単語探索手段24は、入力された第1の単語に対応する第2の単語を推定するものであり、前記したWFST探索プログラムに相当する。この単語探索手段24は、状態遷移情報データベース26に記憶されたデータを参照して、入力されたソース単語Sに対応して前記した式(6)を満たす最適なターゲット単語Tを探索(推定)し、出力手段25に出力するものである。具体的には、単語探索手段24は、入力されたソース単語Sを構成するソース文字s1,…,smを順に状態遷移情報データベース26の入力対応データとした場合に、ε遷移も考慮して、状態遷移情報データベース26の出力対応データを探索し、探索した出力対応データに相当する文字系列(ターゲット文字列)の中で状態遷移重みが最小となるターゲット文字列を選択する。なお、本実施形態では、単語探索手段24は、状態遷移重みが最小となるターゲット文字列を選択するが、これに限定されずに、複数個選択するようにしてもよい。この場合には、変換候補として上位数個のターゲット単語を出力することとなる。また、単語探索手段24は、ターゲット単語(ターゲット文字列)と共に、その状態遷移重みの値を出力するようにしてもよい。この場合には、ターゲット単語と、入力されたソース単語との間で翻訳(記号列の変換)がどのくらい尤もらしいかを示す変換可能性として、この状態遷移重みの値を利用することができる。 The word search means 24 estimates a second word corresponding to the input first word, and corresponds to the above-described WFST search program. The word search means 24 searches (estimates) the optimum target word T that satisfies the above-described equation (6) corresponding to the input source word S with reference to the data stored in the state transition information database 26. And output to the output means 25. Specifically, the word search means 24, the source character s 1 constituting the source word S input, ..., when the input corresponding data sequentially state transition s m information database 26, epsilon transition is also taken into account Thus, the output correspondence data in the state transition information database 26 is searched, and the target character string having the smallest state transition weight is selected from the character series (target character string) corresponding to the searched output correspondence data. In the present embodiment, the word search unit 24 selects the target character string having the minimum state transition weight, but the present invention is not limited to this, and a plurality of target character strings may be selected. In this case, the top several target words are output as conversion candidates. The word search means 24 may output the value of the state transition weight together with the target word (target character string). In this case, the value of this state transition weight can be used as a conversion possibility indicating how likely the translation (symbol string conversion) is between the target word and the input source word.

なお、前記した状態遷移情報データベース作成手段23と、単語探索手段24とは、CPUが記憶手段22のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。
出力手段(第1の出力手段)25は、出力装置Dへの出力インターフェースであり、単語探索手段24によって探索されたターゲット単語を出力装置Dに出力するものである。なお、出力装置Dは、例えば、液晶ディスプレイ等の表示装置である。
The state transition information database creation means 23 and the word search means 24 described above are realized by the CPU developing and executing a predetermined program stored in the ROM or the like of the storage means 22 on the RAM. is there.
The output means (first output means) 25 is an output interface to the output device D, and outputs the target word searched by the word search means 24 to the output device D. The output device D is a display device such as a liquid crystal display, for example.

[翻字確率モデル作成装置の動作]
翻字確率モデル作成装置4の動作について図5を参照(適宜図2参照)して説明する。
図5は、図2に示した翻字確率モデル作成装置の動作を示すフローチャートである。
翻字確率モデル作成装置4は、文字間関連度データベース作成手段12によって、学習データベース6に格納されたデータに基づいて、ソース文字とターゲット文字との文字(記号)間関連度を計算し、文字間関連度データベース16を作成する(ステップS1)。
続いて、翻字確率モデル作成装置4は、単語組データベース作成手段13によって、学習データベース6に格納されたデータと、文字間関連度データベース16に格納されたデータとに基づいて、関連度の積が最大となる単語(記号列)組を生成し、単語組データベース17を作成する(ステップS2)。
続いて、翻字確率モデル作成装置4は、生起確率計算手段14によって、単語組データベース17に格納されたデータに基づいて、単語組の各単語(ソース単語およびターゲット単語)において、文字の同時生起確率を、履歴を条件とする条件付き確率として計算し、翻字確率モデル(記号変換確率モデル)7を作成する(ステップS3)。
[Operation of transliteration probability model creation device]
The operation of the transliteration probability model creation device 4 will be described with reference to FIG. 5 (refer to FIG. 2 as appropriate).
FIG. 5 is a flowchart showing the operation of the transliteration probability model creation apparatus shown in FIG.
The transliteration probability model creation device 4 calculates the relevance between characters (symbols) between the source character and the target character based on the data stored in the learning database 6 by the inter-character relevance database creating means 12. The interrelationship database 16 is created (step S1).
Subsequently, the transliteration probability model creation device 4 uses the word set database creation unit 13 to calculate the product of the relevance based on the data stored in the learning database 6 and the data stored in the inter-character relevance database 16. A word (symbol string) set that maximizes is generated, and a word set database 17 is created (step S2).
Subsequently, the transliteration probability model creation device 4 uses the occurrence probability calculation unit 14 to simultaneously generate characters in each word (source word and target word) of the word set based on the data stored in the word set database 17. The probability is calculated as a conditional probability with a history as a condition, and a transliteration probability model (symbol conversion probability model) 7 is created (step S3).

[単語翻訳装置の動作]
単語翻訳装置5の動作について図6を参照(適宜図4参照)して説明する。
図6は、図4に示した単語翻訳装置の動作を示すフローチャートである。
単語翻訳装置5は、状態遷移情報データベース作成手段23によって、翻字確率モデル(記号変換確率モデル)7に基づき、単語組を構成するソース単語とターゲット単語をそれぞれ構成するソース文字およびターゲット文字に関して、文字(記号)の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベース26を予め作成する(ステップS11)。
そして、単語翻訳装置5は、状態遷移情報データベース26が予め作成された状態で、入力手段21によって、入力装置Mから、翻訳対象である第1の単語(記号列)をソース単語として入力する(ステップS12)。
続いて、単語翻訳装置5は、ステップS11で予め作成された状態遷移情報データベース26に基づいて、単語探索手段24によって、第1の単語(ソース単語)に対応するターゲット単語として第2の単語(記号列)を探索する(ステップS13)。
続いて、単語翻訳装置5は、探索された第2の単語(ターゲット単語)を翻訳結果として出力する(ステップS14)。これにより、出力装置Dは、ターゲット単語を表示する。なお、単語翻訳装置5は、ターゲット単語と共に、その状態遷移重みの値を出力するようにしてもよい。
[Operation of word translation device]
The operation of the word translation device 5 will be described with reference to FIG. 6 (see FIG. 4 as appropriate).
FIG. 6 is a flowchart showing the operation of the word translation apparatus shown in FIG.
Based on the transliteration probability model (symbol conversion probability model) 7 by the state transition information database creation means 23, the word translation device 5 relates to the source characters and target characters that constitute the word set and the target word, respectively. The state transition weight corresponding to the conditional probability of the character (symbol) is calculated, and the state transition information database 26 is created in advance (step S11).
And the word translation apparatus 5 inputs the 1st word (symbol string) which is a translation object from the input device M as a source word by the input means 21 in the state by which the state transition information database 26 was created beforehand ( Step S12).
Subsequently, based on the state transition information database 26 created in advance in step S11, the word translation device 5 uses the word search unit 24 to select the second word (the target word corresponding to the first word (source word)) The symbol string is searched (step S13).
Subsequently, the word translation device 5 outputs the searched second word (target word) as a translation result (step S14). Thereby, the output device D displays the target word. The word translation device 5 may output the value of the state transition weight together with the target word.

第1の実施形態によれば、所定の言語体系に属する単語(第1の単語)を、任意の言語体系に属する対応した単語(第2の単語)に変換することができる。また、単語翻訳システム1では、翻字確率モデル作成装置4が、発音やローマ字化規則などの情報を利用することなく、学習データベース6に登録された第1の単語および第2の単語の組の集合のみを利用して、翻字確率モデル7を作成する。そのため、翻字確率モデル7を利用する単語翻訳装置5は、発音が不明な単語の処理の問題や、発音間の対応付けの問題や、ローマ字化に代表される表記変換のための知識などを必要とすることなく、既知の記号変換結果の履歴を考慮した翻訳を可能とすることができる。その結果、例えば、日本語のカタカナ(表音文字)を用いた英語(アルファベット、表音文字)文書の検索システムや、同種の質問応答システム、機械翻訳システムにおける翻訳処理において、翻訳辞書でカバーできない単語を扱うことができるようになる。なお、単語翻訳装置5は、状態遷移情報データベース作成手段23および状態遷移情報データベース26とを備えるベストモードで説明したが、これらは必須の構成ではない。   According to the first embodiment, a word (first word) belonging to a predetermined language system can be converted into a corresponding word (second word) belonging to an arbitrary language system. Moreover, in the word translation system 1, the transliteration probability model creation device 4 does not use information such as pronunciation and romaji rules, and sets the first and second word pairs registered in the learning database 6. The transliteration probability model 7 is created using only the set. For this reason, the word translation device 5 using the transliteration probability model 7 has the problem of processing a word whose pronunciation is unknown, the problem of association between pronunciations, knowledge for notation conversion represented by Romanization, and the like. It is possible to perform translation in consideration of the history of known symbol conversion results without the necessity. As a result, for example, the translation dictionary in English (alphabet, phonogram) document search systems using Japanese katakana (phonetic characters), similar question answering systems, and machine translation systems cannot be covered by translation dictionaries. You will be able to handle words. In addition, although the word translation apparatus 5 demonstrated in the best mode provided with the state transition information database preparation means 23 and the state transition information database 26, these are not essential structures.

(第2の実施形態)
図7は、本発明の第2の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム(記号列変換システム)1Aは、第1の単語(ソース単語)と、ソース単語の第2の単語(ターゲット単語)への変換候補の単語である1以上の第3の単語とを入力するものである。この単語翻訳システム1Aは、単語翻訳装置(記号列変換装置)5Aを備えている点を除いて、図1に示した単語翻訳システム1と同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。
(Second Embodiment)
FIG. 7 is a diagram illustrating a configuration example of a word translation system including a word translation apparatus according to the second embodiment of the present invention.
The word translation system (symbol string conversion system) 1A includes a first word (source word) and one or more third words that are candidates for conversion from the source word to the second word (target word). Input. This word translation system 1A is the same as the word translation system 1 shown in FIG. 1 except that it includes a word translation device (symbol string conversion device) 5A. For convenience of explanation, this word translation system 1A has the same configuration. Are denoted by the same reference numerals, and description and drawings are omitted as appropriate.

単語翻訳装置(記号列変換装置)5Aは、図7に示すように、単語出力部5と、変換可能性計算部30とを備えている。
単語出力部5は、図4に示した単語翻訳装置5(第1の実施形態)を指しており、同一の符号を付してある。
変換可能性計算部30は、単語翻訳装置5Aの外部から入力された第3の単語と、入力されたソース単語との間で翻訳(記号列の変換)がどのくらい尤もらしいかを示す変換可能性を確率値として出力するものである。
As shown in FIG. 7, the word translation device (symbol string conversion device) 5 </ b> A includes a word output unit 5 and a conversion possibility calculation unit 30.
The word output unit 5 points to the word translation device 5 (first embodiment) shown in FIG. 4 and is given the same reference numerals.
The conversion possibility calculation unit 30 indicates the likelihood of translation (symbol string conversion) between the third word input from the outside of the word translation device 5A and the input source word. Are output as probability values.

変換可能性計算部30は、ソース単語(第1の単語)Sと第3の単語の双方を入力とし、前記した式(6)で示される確率の積が最大となるような対応付けのときの重みを、それらに対する確率として計算して出力する機能を有する。つまり、変換可能性計算部30は第3の単語のソース単語Sからの変換可能性(尤度)を翻字確率モデル7に基づいて計算する。その際には状態遷移情報データベース作成手段23(図4参照)で作成した有限状態機械を利用する。   When the conversion possibility calculation unit 30 receives both the source word (first word) S and the third word as input, and performs the association such that the product of the probabilities expressed by the above equation (6) is maximized. Have the function of calculating and outputting the weights of these as probabilities for them. That is, the conversion possibility calculation unit 30 calculates the conversion possibility (likelihood) of the third word from the source word S based on the transliteration probability model 7. At that time, the finite state machine created by the state transition information database creating means 23 (see FIG. 4) is used.

[変換可能性計算部の構成]
図8は、図7に示した変換可能性計算部の構成例を示す機能ブロック図である。
変換可能性計算部30が最適な状態遷移系列を探索する方法として、本実施形態では、状態遷移情報データベース26(WFSTデータベース)と、ターゲット単語Tを構成するターゲット文字列とを受理する有限状態オートマトン(FSA:Finite State Automaton)との合成によって得られる重み付き有限状態オートマトン(WFSA:Weighted Finite State Automaton)を用いる。本実施形態では、このWFSAは、具体的には、WFSAデータベースと、WFSA探索プログラムとから構成される。
[Configuration of convertibility calculator]
FIG. 8 is a functional block diagram illustrating a configuration example of the convertibility calculation unit illustrated in FIG.
In the present embodiment, as a method for the convertibility calculation unit 30 to search for an optimal state transition sequence, a finite state automaton that accepts the state transition information database 26 (WFST database) and the target character string constituting the target word T is used. A weighted finite state automaton (WFSA) obtained by combining with (FSA: Finite State Automaton) is used. In the present embodiment, the WFSA specifically includes a WFSA database and a WFSA search program.

変換可能性計算部30は、前記したWFSAを実現するために、図7に示すように、入力手段(第2の入力手段)31と、記憶手段32と、合成状態遷移情報データベース作成手段33と、状態遷移重み計算手段34と、出力手段(第2の出力手段)35とを備えている。   As shown in FIG. 7, the convertibility calculation unit 30 includes an input unit (second input unit) 31, a storage unit 32, a combined state transition information database creation unit 33, as shown in FIG. , State transition weight calculating means 34 and output means (second output means) 35.

入力手段(第2の入力手段)31は、入力インターフェースであり、ソース単語(第1の単語)のターゲット単語(第2の単語)への変換候補の単語である1つ以上の第3の単語を入力装置Mから入力し、状態遷移重み計算手段34に出力するものである。また、入力手段31は、単語出力部5から状態遷移情報データベース26を入力し、合成状態遷移情報データベース作成手段33に出力する。   The input means (second input means) 31 is an input interface, and one or more third words that are conversion candidate words to the target word (second word) of the source word (first word) Is input from the input device M and output to the state transition weight calculation means 34. In addition, the input unit 31 inputs the state transition information database 26 from the word output unit 5 and outputs it to the combined state transition information database creation unit 33.

記憶手段32は、RAMと、ROMと、HDDとを含んでおり、HDDに、合成状態遷移情報データベース36を記憶するものである。
合成状態遷移情報データベース36は、前記したWFSAデータベースに相当し、入力予定の第3の単語を構成する第3の文字に関する履歴と、状態遷移情報データベース26に記憶されたデータとを合成した結果をデータとして格納するものである。図8では、合成状態遷移情報データベース36を1つだけ示しているが、第2の実施形態では、入力予定の各第3の単語と、状態遷移情報データベース26とをそれぞれ合成することにより、入力予定の第3の単語の個数だけ、合成状態遷移情報データベースを予め作成しておく。
The memory | storage means 32 contains RAM, ROM, and HDD, and memorize | stores the synthetic | combination state transition information database 36 in HDD.
The combined state transition information database 36 corresponds to the WFSA database described above, and combines the history of the third character constituting the third word to be input and the data stored in the state transition information database 26. It is stored as data. In FIG. 8, only one combined state transition information database 36 is shown. However, in the second embodiment, each third word scheduled to be input and the state transition information database 26 are combined to be input. The composite state transition information database is created in advance for the number of planned third words.

合成状態遷移情報データベース作成手段33は、入力予定の第3の単語を構成する第3の文字に関する履歴と、単語出力部5の状態遷移情報データベース26に記憶されたデータとを合成し、合成した結果をデータとする合成状態遷移情報データベース36を作成するものである。この合成状態遷移情報データベース作成手段33は、入力手段31から入力する第3の単語から、合成に必要なFSAを作成する。なお、合成状態遷移情報データベース作成手段33は、入力手段31から予め作成されたFSAを入力してデータベースの合成を行うようにしてもよい。   The synthesized state transition information database creation unit 33 synthesizes the history related to the third character constituting the third word to be input and the data stored in the state transition information database 26 of the word output unit 5 and synthesizes them. The composite state transition information database 36 using the result as data is created. The synthesized state transition information database creating unit 33 creates an FSA necessary for synthesis from the third word input from the input unit 31. Note that the combined state transition information database creating unit 33 may input the FSA created in advance from the input unit 31 and synthesize the database.

状態遷移重み計算手段34は、前記したWFSA探索プログラムに相当する。この状態遷移重み計算手段34は、合成状態遷移情報データベース36に記憶されたデータを参照して、入力手段21に入力された第1の単語を構成するソース文字(第1の文字)と、入力手段31に入力された第3の単語を構成する第3の文字と、から成る文字組の出現順序の確率として、前記した状態遷移重みを計算するものである。なお、状態遷移重みの代わりに条件付き確率そのものを計算するようにしても良い。
具体的には、状態遷移重み計算手段34は、第3の単語を構成する第3の文字を順に、当該第3の単語を構成する第3の文字の履歴がFSAとして合成された合成状態遷移情報データベース36の入力対応データとした場合に、ε遷移も考慮して、ソース文字(第1の文字)から第3の文字への状態遷移重みの合計値を計算する。そして、この計算処理を、入力された第3の単語に対応する合成状態遷移情報データベース36それぞれについて実行し、この合計値が、入力された複数の第3の単語の中で最小値となる第3の単語を探索し、そのときの最小値を変換可能性として出力手段35に出力する。
The state transition weight calculation means 34 corresponds to the above-described WFSA search program. The state transition weight calculation means 34 refers to the data stored in the combined state transition information database 36, and inputs the source characters (first characters) constituting the first word input to the input means 21, and the input The state transition weight described above is calculated as the probability of the appearance order of the character set composed of the third character constituting the third word input to the means 31. The conditional probability itself may be calculated instead of the state transition weight.
Specifically, the state transition weight calculating unit 34 sequentially combines the third character constituting the third word, and the combined state transition in which the history of the third character constituting the third word is synthesized as FSA. In the case of the input correspondence data in the information database 36, the total value of the state transition weights from the source character (first character) to the third character is calculated in consideration of the ε transition. Then, this calculation process is executed for each of the combined state transition information databases 36 corresponding to the input third word, and the total value is the minimum value among the plurality of input third words. 3 is searched, and the minimum value at that time is output to the output means 35 as the possibility of conversion.

なお、前記した合成状態遷移情報データベース作成手段33と、状態遷移重み計算手段34とは、CPUが記憶手段32のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。   The composite state transition information database creation means 33 and the state transition weight calculation means 34 described above are realized by the CPU developing and executing a predetermined program stored in the ROM or the like of the storage means 32 on the RAM. Is.

出力手段(第2の出力手段)35は、出力装置Dへの出力インターフェースであり、状態遷移重み計算手段34によって選択された第3の単語の状態遷移重み(または確率)を出力装置Dに出力するものである。なお、出力する状態遷移重みは、それぞれの値でも合計値でもよい。   The output means (second output means) 35 is an output interface to the output device D, and outputs the state transition weight (or probability) of the third word selected by the state transition weight calculation means 34 to the output device D. To do. Note that the state transition weights to be output may be each value or a total value.

[変換可能性計算部の動作]
変換可能性計算部30の動作について図9を参照(適宜図8参照)して説明する。
図9は、図8に示した変換可能性計算部の動作を示すフローチャートである。
変換可能性計算部30は、合成状態遷移情報データベース作成手段33によって、既知の入力予定の1以上の第3の単語(記号列)を構成する第3の文字(記号)の履歴を、状態遷移情報データベース26に合成し、合成状態遷移情報データベース36を予め作成する(ステップS21)。
そして、変換可能性計算部30は、合成状態遷移情報データベース36を予め作成した状態で、入力手段31によって、入力装置Mから、ソース単語としての第1の単語(記号列)の変換候補である第3の単語(記号列)を入力する(ステップS22)。
続いて、変換可能性計算部30は、状態遷移重み計算手段34によって、第1の単語を構成する第1の文字(記号)から、第3の単語を構成する第3の文字(記号)への状態遷移重みの合計値が、最小となる第3の単語を選択する(ステップS23)。
続いて、変換可能性計算部30は、状態遷移重み計算手段34によって選択された第3の単語の状態遷移重みを出力手段35によって出力する(ステップS24)。これにより、出力装置Dは、状態遷移重みを変換可能性として表示する。
[Operation of the convertibility calculator]
The operation of the convertibility calculation unit 30 will be described with reference to FIG. 9 (refer to FIG. 8 as appropriate).
FIG. 9 is a flowchart showing the operation of the convertibility calculation unit shown in FIG.
The conversion possibility calculation unit 30 uses the combined state transition information database creation unit 33 to convert the history of the third characters (symbols) constituting one or more third words (symbol strings) that are known to be input into the state transition. Combining with the information database 26, a combined state transition information database 36 is created in advance (step S21).
And the conversion possibility calculation part 30 is the conversion candidate of the 1st word (symbol string) as a source word from the input device M by the input means 31 in the state which produced the synthetic | combination state transition information database 36 beforehand. A third word (symbol string) is input (step S22).
Subsequently, the convertibility calculating unit 30 causes the state transition weight calculating unit 34 to change from the first character (symbol) constituting the first word to the third character (symbol) constituting the third word. The third word having the smallest total value of the state transition weights is selected (step S23).
Subsequently, the convertibility calculation unit 30 outputs the state transition weight of the third word selected by the state transition weight calculation unit 34 by the output unit 35 (step S24). Thereby, the output device D displays the state transition weight as the conversion possibility.

なお、以上の第2の実施形態の説明では、状態遷移重み計算手段34は、状態遷移重みの合計値を計算し、この合計値が、入力された複数の第3の単語の中で最小値となる第3の単語を探索するものとして説明したが、単に合計値または状態遷移重みの各値のみを出力するようにしてもよい。この場合には、出力装置Dに表示された状態遷移重みをユーザが目視により確認して、そのときの最小値となる第3の単語を選択すればよい。   In the above description of the second embodiment, the state transition weight calculation unit 34 calculates the total value of the state transition weights, and this total value is the minimum value among the plurality of input third words. In the above description, the third word is searched for. However, only the total value or each value of the state transition weight may be output. In this case, the user may visually check the state transition weight displayed on the output device D and select the third word that is the minimum value at that time.

第2の実施形態によれば、ソース単語(第1の単語)の変換候補として、複数の単語(第3の単語)を入力としたときに、ソース単語(第1の単語)から第3の単語への変換の確からしさを求めることができ、翻訳の精度を向上させることができる。また、ソース単語(第1の単語)が、学習データベース6に予め登録されていない未学習(未知)の単語であっても、第3の単語を、ソース単語(第1の単語)からの翻訳結果(変換候補)として採用することも可能となる。この場合、変換可能性が予め定められた値よりも高い第3の単語を翻訳結果として出力(表示)するようにしてもよい。   According to the second embodiment, when a plurality of words (third word) are input as conversion candidates of the source word (first word), the third word is converted from the source word (first word) to the third word. The certainty of conversion into words can be obtained, and the accuracy of translation can be improved. Even if the source word (first word) is an unlearned (unknown) word that is not registered in the learning database 6 in advance, the third word is translated from the source word (first word). It can also be adopted as a result (conversion candidate). In this case, a third word whose conversion possibility is higher than a predetermined value may be output (displayed) as a translation result.

(第3の実施形態)
図10は、本発明の第3の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム(記号列変換システム)1Bは、第1の単語(ソース単語)と共に単語翻訳装置5Bに入力される、ソース単語の第2の単語(ターゲット単語)への変換候補の単語である第3の単語を、単語翻訳装置5Bの外部から取得するものである。
この単語翻訳システム1Bは、単語翻訳装置(記号列変換装置)5Bを備えている点を除いて、図7に示した単語翻訳システム1Aと同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。
(Third embodiment)
FIG. 10 is a diagram illustrating a configuration example of a word translation system including a word translation apparatus according to the third embodiment of the present invention.
The word translation system (symbol string conversion system) 1B is a word that is a candidate for conversion to the second word (target word) of the source word that is input to the word translation device 5B together with the first word (source word). 3 words are acquired from outside the word translation device 5B.
This word translation system 1B is the same as the word translation system 1A shown in FIG. 7 except that it includes a word translation device (symbol string conversion device) 5B. For convenience of explanation, this word translation system 1B has the same configuration. Are denoted by the same reference numerals, and description and drawings are omitted as appropriate.

単語翻訳装置(記号列変換装置)5Bは、図10に示すように、単語出力部5と、変換可能性計算部30と、変換候補検索部40とを備えている。
変換候補検索部40は、通信ネットワークNWに接続された電子機器50から取得した文書データに基づいて抽出された単語群を第3の単語として変換可能性計算部30に入力するものである。
通信ネットワークNWは、例えば、インターネット等から構成されている。
電子機器50は、例えば、Webサーバ等のコンピュータ(情報処理装置)や、データベースを備えるハードディスク装置等の記憶装置である。
As shown in FIG. 10, the word translation device (symbol string conversion device) 5 </ b> B includes a word output unit 5, a conversion possibility calculation unit 30, and a conversion candidate search unit 40.
The conversion candidate search part 40 inputs the word group extracted based on the document data acquired from the electronic device 50 connected to the communication network NW to the conversion possibility calculation part 30 as a third word.
The communication network NW is composed of, for example, the Internet.
The electronic device 50 is a storage device such as a computer (information processing device) such as a Web server or a hard disk device including a database, for example.

[変換候補検索部の構成]
図11は、図10に示した変換候補検索部の構成例を示す機能ブロック図である。
変換候補検索部40は、図11に示すように、入力手段41と、記憶手段42と、文書データ取得手段43と、変換候補抽出手段44と、出力手段45とを備えている。
[Configuration of conversion candidate search unit]
FIG. 11 is a functional block diagram illustrating a configuration example of the conversion candidate search unit illustrated in FIG.
As shown in FIG. 11, the conversion candidate search unit 40 includes input means 41, storage means 42, document data acquisition means 43, conversion candidate extraction means 44, and output means 45.

入力手段41は、入力インターフェースであり、ソース単語(第1の単語)を入力装置Mから入力し、文書データ取得手段43に出力するものである。また、入力手段41は、通信ネットワークNWから文書データを入力し、文書データ取得手段43に出力する。
記憶手段42は、RAMと、ROMと、HDDとを含んでおり、入力手段41から入力する文書データ等のデータや、各種動作プログラム等を記憶するものである。
The input means 41 is an input interface, which inputs a source word (first word) from the input device M and outputs it to the document data acquisition means 43. The input unit 41 inputs document data from the communication network NW and outputs it to the document data acquisition unit 43.
The storage means 42 includes a RAM, a ROM, and an HDD, and stores data such as document data input from the input means 41, various operation programs, and the like.

文書データ取得手段43は、入力手段41に入力される第1の単語(ソース単語)に基づいて、通信ネットワークNWに接続された電子機器50から文書データを取得するものである。この文書データ取得手段43は、公知の技術であるインターネット上での文書検索方法、または、文書データベースに対する文書検索方法を利用して、入力されたソース単語を含む文書を検索する。なお、取得すべき文書数は、入力装置Mから指定してもよいし、予め指定された文書数を記憶手段42に格納しておくようにしてもよい。   The document data acquisition unit 43 acquires document data from the electronic device 50 connected to the communication network NW based on the first word (source word) input to the input unit 41. The document data obtaining unit 43 retrieves a document including the input source word by using a known document retrieval method on the Internet or a document retrieval method for a document database. The number of documents to be acquired may be designated from the input device M, or the number of documents designated in advance may be stored in the storage means 42.

変換候補抽出手段44は、文書データ取得手段43によって取得された文書データから、予め定められた個数の第3の単語を抽出し、出力手段45に出力するものである。変換候補抽出手段44による抽出方法は、任意であり、例えば、ターゲット言語で用いられている文字コードを用いた正規表現によるマッチングなどを利用してもよい。なお、抽出すべき単語数は、入力装置Mから指定してもよいし、予め指定された単語数を記憶手段42に格納しておくようにしてもよい。   The conversion candidate extraction unit 44 extracts a predetermined number of third words from the document data acquired by the document data acquisition unit 43 and outputs the third word to the output unit 45. The extraction method by the conversion candidate extraction unit 44 is arbitrary, and for example, matching by a regular expression using a character code used in the target language may be used. Note that the number of words to be extracted may be designated from the input device M, or the number of words designated in advance may be stored in the storage means 42.

なお、前記した文書データ取得手段43と、変換候補抽出手段44とは、CPUが記憶手段42のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。
出力手段45は、出力装置Dへの出力インターフェースであり、変換候補抽出手段44によって抽出された第3の単語を出力装置Dに出力するものである。
The document data acquisition unit 43 and the conversion candidate extraction unit 44 are realized by the CPU developing and executing a predetermined program stored in the ROM or the like of the storage unit 42 on the RAM. .
The output unit 45 is an output interface to the output device D, and outputs the third word extracted by the conversion candidate extraction unit 44 to the output device D.

[変換候補検索部の動作]
変換候補検索部40の動作について図12を参照(適宜図11参照)して説明する。
図12は、図8に示した変換候補検索部の動作を示すフローチャートである。
変換候補検索部40は、入力手段41によって、入力装置Mから、翻訳対象である第1の単語(記号列)をソース単語として入力する(ステップS31)。
続いて、変換候補検索部40は、文書データ取得手段43によって、入力された第1の単語(ソース単語)に基づいて、通信ネットワークNWから文書データを取得する(ステップS32)。
続いて、変換候補検索部40は、変換候補抽出手段44によって、取得された文書データから、変換候補である第3の単語(記号列)を抽出する(ステップS33)。
そして、変換候補検索部40は、出力手段45によって、抽出された第3の単語を変換可能性計算部30に出力する(ステップS34)。これにより、変換可能性計算部30では、第3の単語は、入力手段31(図8参照)によって、合成状態遷移情報データベース作成手段33(図8参照)に入力されることとなる。
[Operation of conversion candidate search unit]
The operation of the conversion candidate search unit 40 will be described with reference to FIG. 12 (see FIG. 11 as appropriate).
FIG. 12 is a flowchart showing the operation of the conversion candidate search unit shown in FIG.
The conversion candidate search part 40 inputs the 1st word (symbol string) which is a translation object from the input device 41 as a source word by the input means 41 (step S31).
Subsequently, the conversion candidate search unit 40 acquires document data from the communication network NW based on the input first word (source word) by the document data acquisition unit 43 (step S32).
Subsequently, the conversion candidate search unit 40 uses the conversion candidate extraction unit 44 to extract a third word (symbol string) that is a conversion candidate from the acquired document data (step S33).
And the conversion candidate search part 40 outputs the extracted 3rd word to the conversion possibility calculation part 30 by the output means 45 (step S34). Thereby, in the conversion possibility calculation part 30, the 3rd word will be input into the synthetic | combination state transition information database preparation means 33 (refer FIG. 8) by the input means 31 (refer FIG. 8).

第3の実施形態によれば、通信ネットワークから取得した文書データから抽出された単語を、第3の単語として入力し、この第3の単語の変換可能性を計算することができる。したがって、第2の単語として適切なものが探索されない場合でも、通信ネットワークから取得した第3の単語の変換可能性が適切な結果である場合に、この第3の単語を変換候補として採用することが可能となる。   According to the third embodiment, the word extracted from the document data acquired from the communication network can be input as the third word, and the convertibility of the third word can be calculated. Therefore, even when an appropriate second word is not searched, if the conversion possibility of the third word acquired from the communication network is an appropriate result, the third word is adopted as a conversion candidate. Is possible.

以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で様々に実施することができる。例えば、各実施形態では、ある言語体系に属する文字で構成された単語を変換対象(翻訳対象)としたが、この場合の「言語」とは、自然言語に限定されるものではなく、所定の規則に基づく記号体系であってもよい。この場合には、この記号体系に属する記号で構成された記号列を変換対象とする記号列変換方法、記号列変換装置および記号列変換プログラムとして実現することができる。   As mentioned above, although each embodiment of this invention was described, this invention is not limited to these, In the range which does not change the meaning, it can implement variously. For example, in each embodiment, a word composed of characters belonging to a certain language system is a conversion target (translation target). However, the “language” in this case is not limited to a natural language, It may be a symbol system based on rules. In this case, the present invention can be realized as a symbol string conversion method, a symbol string conversion device, and a symbol string conversion program for converting a symbol string composed of symbols belonging to this symbol system.

また、第2の実施形態の単語翻訳装置5Aや第3の実施形態の単語翻訳装置5Bでは、それぞれ、第1の実施形態の単語翻訳装置5で説明した入力手段21、記憶手段22、出力手段25とは、別に入力手段、記憶手段、出力手段を設けたが、これらは共通の構成としてもよく、また、入力装置Mや出力装置Dを共用するようにしてもよい。   In the word translation device 5A of the second embodiment and the word translation device 5B of the third embodiment, the input means 21, storage means 22, and output means described in the word translation device 5 of the first embodiment, respectively. 25, input means, storage means, and output means are provided separately, but these may have a common configuration, or the input device M and the output device D may be shared.

また、第3の実施形態の単語翻訳装置5Bでは、通信ネットワークNWから取得した単語の変換可能性を計算することを前提として説明したが、変換可能性計算部30は必須の構成ではない。単語翻訳装置5Bが変換可能性計算部30を備えない場合には、例えば、単語出力部5でソース単語(第1の単語)が未知の単語であると判別したときに、通信ネットワークNWから取得した1つ以上の単語を、ソース単語(第1の単語)からの変換候補としてそのまま採用し、出力装置Dに出力(表示)するようにしてもよい。   Further, the word translation device 5B of the third embodiment has been described on the assumption that the word conversion possibility acquired from the communication network NW is calculated, but the conversion possibility calculation unit 30 is not an essential component. When the word translation device 5B does not include the convertibility calculation unit 30, for example, when the word output unit 5 determines that the source word (first word) is an unknown word, it is acquired from the communication network NW. The one or more words may be used as conversion candidates from the source word (first word) and output (displayed) to the output device D.

次に、本発明の効果を確認した複数の実施例について説明する。各実施例では、ソース言語が日本語(カタカナで表記)、ターゲット言語が英語(アルファベットで表記)の場合の単語の変換を行った。   Next, a plurality of examples in which the effect of the present invention has been confirmed will be described. In each example, word conversion was performed when the source language was Japanese (indicated in katakana) and the target language was in English (indicated in alphabet).

[実施例1]
単語翻訳システム1(図1参照)において、翻字確率モデル作成装置4によって、翻字確率モデル7を予め作成し、第1の実施形態の単語翻訳装置5を用いて、ソース単語「ドナルド」からターゲット単語「donald」を取得した。
この場合には、翻字確率モデル作成装置4は、以下に示すようにして、翻字確率モデル7を作成した。
まず、学習データベース6には、図13(a)に例示するように、カタカナ表記1301の語と、アルファベット表記1302の語との組を格納した。
[Example 1]
In the word translation system 1 (see FIG. 1), a transliteration probability model 7 is created in advance by the transliteration probability model creation device 4, and the source word “Donald” is created using the word translation device 5 of the first embodiment. The target word “donald” was acquired.
In this case, the transliteration probability model creation device 4 created the transliteration probability model 7 as follows.
First, in the learning database 6, as illustrated in FIG. 13A, pairs of katakana notation 1301 words and alphabet notation 1302 words are stored.

また、翻字確率モデル作成装置4の文字間関連度データベース作成手段12(図2参照)は、関連度として、式(7)で示されるφ2(s,t)を用いた。このφ2(s,t)は、カイ二乗値を0〜1の範囲に正規化した値である(詳細はW. A. Gale and K. W. Church,”Identifying word correspondances in parallel texts Proceedings of the 4th DARPA workshop on Speech and Natural Language,1991を参照)。 Further, the inter-character relevance database creating means 12 (see FIG. 2) of the transliteration probability model creating apparatus 4 uses φ 2 (s, t) represented by the equation (7) as the relevance. This φ 2 (s, t) is a value obtained by normalizing the chi-square value to a range of 0 to 1 (for details, see WA Gale and KW Church, “Identifying word correspondances in parallel texts Proceedings of the 4th DARPA workshop on Speech and Natural Language, 1991).

Figure 2007156545
Figure 2007156545

ここで、freq(*)は、学習データベース6中で記号*が出現する単語組の数を示すものである。すなわち、freq(s)はソース文字sが出現する単語組の数を示し、freq(t)はターゲット文字tが出現する単語組の数を示し、freq(s,t)は両方とも出現する単語組の数を示す。また、Lは、学習データベース6中に格納されているすべての単語組の総数である。   Here, freq (*) indicates the number of word groups in which the symbol * appears in the learning database 6. That is, freq (s) indicates the number of word pairs in which the source character s appears, freq (t) indicates the number of word pairs in which the target character t appears, and freq (s, t) indicates both words that appear. Indicates the number of pairs. L is the total number of all word groups stored in the learning database 6.

この文字間関連度データベース作成手段12は、英単語の区切りとして現れるターゲット文字側の空白を削除し、一続きの単語であるようにして扱った。
作成された文字間関連度データベース16には、図13(b)に例示するように、学習データベース6内のターゲット文字1311ごとに、ソース文字との関連度1312が格納されている。例えば、ターゲット文字1311が「a」の場合には、ソース文字“ア”と「0.312370273233768」の関連度を有し、ソース文字“ラ”やソース文字“ナ”等とも所定の関連度を有している。同様に、ターゲット文字1311が「b」の場合には、ソース文字“ブ”と「0.247172957562107」の関連度を有していることが示されている。
This inter-character relevance database creating means 12 deletes the blank on the target character side that appears as a break between English words and treats it as a series of words.
In the created inter-character relevance database 16, as illustrated in FIG. 13B, the relevance 1312 with the source character is stored for each target character 1311 in the learning database 6. For example, when the target character 1311 is “a”, the source character “A” has a relevance level of “0.312370273233768”, and the source character “La”, the source character “NA”, etc. have a predetermined relevance level. ing. Similarly, when the target character 1311 is “b”, it is indicated that the source character “B” has an association degree of “0.247172957562107”.

また、文字間関連度データベース作成手段12は、ソース文字sとの空文字φtとの関連度Assoc(s,φt)としては、ソース文字sと他のターゲット文字との関連度の相乗平均を用いるト共に、空文字φsとターゲット文字tとの関連度Assoc(φs,t)としては、ターゲット文字tと他のソース文字との関連度の相乗平均を用いた。 Further, the inter-character relevance database creating means 12 calculates the geometric mean of the relevance between the source character s and other target characters as the relevance Assoc (s, φ t ) with the empty character φ t with the source character s. As the degree of association Assoc (φ s , t) between the empty character φ s and the target character t, the geometric average of the degree of association between the target character t and another source character was used.

次に、翻字確率モデル作成装置4の単語組データベース作成手段13(図2参照)は、図13の(a)に示すような学習データベース6と、図13(b)に示すような文字間関連度データベース16とを用いて、学習データベース6の各単語組に対して、前記した式(1)を満たすような文字間の対応付けを求め、図14に例示するような単語組データベース17を作成する。   Next, the word set database creation means 13 (see FIG. 2) of the transliteration probability model creation device 4 performs the learning database 6 as shown in FIG. 13A and the character spacing as shown in FIG. Using the relevance database 16, for each word set in the learning database 6, an association between characters that satisfies the above-described equation (1) is obtained, and a word set database 17 as illustrated in FIG. 14 is obtained. create.

図14に示すように、対応付け1401は、対応付けられたターゲット文字とソース文字とをコロンで結んで表記している。ここで、<eps>は、空文字φを表す記号であり、各行の左端の<s>:<s>は、語の開始点を示し、各行の右端</s>:</s>は、語の終了点を表す記号である。   As shown in FIG. 14, the association 1401 describes the associated target character and source character connected by a colon. Here, <eps> is a symbol representing the empty character φ, <s>: <s> at the left end of each line indicates the starting point of the word, and </ s>: </ s> at the right end of each line is A symbol representing the end point of a word.

次に、翻字確率モデル作成装置4の生起確率計算手段14(図2参照)は、図14に示す単語組データベース17から、N=3のトライグラムモデルを作成した。ここでは、生起確率計算手段14は、実際には、N=1のユニグラムモデルと、N=2のバイグラムモデルと、N=3のトライグラムモデルとをそれぞれ作成した。これにより、翻字確率モデル7には、図15に示すように、3種類の形式で各文字組の同時生起確率が格納される。   Next, the occurrence probability calculation means 14 (see FIG. 2) of the transliteration probability model creation apparatus 4 created a trigram model of N = 3 from the word set database 17 shown in FIG. Here, the occurrence probability calculation unit 14 actually created a unigram model with N = 1, a bigram model with N = 2, and a trigram model with N = 3. As a result, the transliteration probability model 7 stores the co-occurrence probability of each character set in three types as shown in FIG.

ユニグラムモデル(N=1)は、図15の(a)に示すように、生起確率1501と、第1表記1502と、平滑化係数1503の各データを備えている。
生起確率1501は、直前の単語と無関係に翻字文字組が生起する確率を対数で示している。
第1表記1502は、文字組の表記である
平滑化係数1503は、平滑化のための係数で、N>1のNグラムの確率を堆定するために利用される。
As shown in FIG. 15A, the unigram model (N = 1) includes occurrence probability 1501, first notation 1502, and smoothing coefficient 1503.
The occurrence probability 1501 indicates a logarithm of the probability that a transliterated character set will occur regardless of the immediately preceding word.
A first notation 1502 is a character set notation. A smoothing coefficient 1503 is a coefficient for smoothing, and is used to settle N-gram probabilities of N> 1.

バイグラムモデル(N=2)は、図15の(b)に示すように、生起確率1511と、第2表記1512と、第3表記1513と、平滑化係数1514の各データを備えている。
生起確率1511は、直前の1単語に依存して翻字文字組が生起する確率を対数で示している。
第2表記1512は、直前の文字組の表記である。
第3表記1513は、生起確率1511を求めるために用いた文字組である。
平滑化係数1514は、平滑化のための係数で、N>2のNグラムの確率を推定するために利用される。
As shown in FIG. 15B, the bigram model (N = 2) includes data of an occurrence probability 1511, a second notation 1512, a third notation 1513, and a smoothing coefficient 1514.
The occurrence probability 1511 indicates a logarithm of the probability that a transliterated character set occurs depending on the immediately preceding word.
The second notation 1512 is a notation of the immediately preceding character set.
A third notation 1513 is a character set used for obtaining the occurrence probability 1511.
The smoothing coefficient 1514 is a coefficient for smoothing, and is used to estimate the probability of N gram of N> 2.

トライグラムモデル(N=3)は、図15の(c)に示すように、生起確率1521と、第4表記1522と、第5表記1523と、第6表記1524の各データを備えている。
生起確率1521は、直前の2単語に依存して翻字文字組が生起する確率を対数で示している。
第4表記1522は、2つ前の文字組の表記である。
第5表記1523は、直前の文字組の表記である。
第6表記1524は、生起確率を求めるために用いた文字組である。
The trigram model (N = 3) includes data of occurrence probabilities 1521, fourth notation 1522, fifth notation 1523, and sixth notation 1524, as shown in FIG.
The occurrence probability 1521 indicates a logarithm of the probability that a transliterated character set occurs depending on the immediately preceding two words.
The fourth notation 1522 is the notation of the previous character set.
The fifth notation 1523 is the notation of the immediately preceding character set.
The sixth notation 1524 is a character set used to determine the occurrence probability.

これらのモデルの作成にあたって、生起確率計算手段14は、公知の言語モデル作成ツール「CMU-Cambridge SLM Toolkit」を利用した(P. Clarkson et a1, “Statistical language modeling using the CMU-Cambridge toolkit”, in Proceedings of EUROSPEECH97,1997,p.2707-2710)。なお、この際、図14または図15に示したコロンで結ばれた各文字組は一つの記号として扱われる。   In creating these models, the occurrence probability calculation means 14 used a known language model creation tool “CMU-Cambridge SLM Toolkit” (P. Clarkson et a1, “Statistical language modeling using the CMU-Cambridge toolkit”, in Proceedings of EUROSPEECH97, 1997, p.2707-2710). At this time, each character set connected by a colon shown in FIG. 14 or FIG. 15 is treated as one symbol.

また、これらのモデルの平滑化手法として、生起確率計算手段14は、公知のWitten-Bellの平滑化手法を利用した(I. H. Witten and T. C. Bell, “The zero-frequency problem: Estimating the prob-abilities of novel events in adaptive text compression”, IEEE Transaction of Information Theory,1991 vol. 37, no.4, p. 1085-1094)。   As a smoothing method for these models, the occurrence probability calculation means 14 uses a well-known Witten-Bell smoothing method (IH Witten and TC Bell, “The zero-frequency problem: Estimating the prob-abilities of novel events in adaptive text compression ”, IEEE Transaction of Information Theory, 1991 vol. 37, no. 4, p. 1085-1094).

次に、第1の実施形態の単語翻訳装置5は、状態遷移情報データベース作成手段23(図4参照)によって、図15に例示した翻字確率モデル7から、図16に例示するような状態遷移情報データベース26を作成する。なお、この際、図15に示したコロンで結ばれた各文字組は分解され、ソース文字は、状態遷移情報データベース26の入力対応データとして使用され、ターゲット文字は状態遷移情報データベース26の出力対応データとして使用される。   Next, the word translation device 5 according to the first embodiment uses the state transition information database creation unit 23 (see FIG. 4) to change the state transition as illustrated in FIG. 16 from the transliteration probability model 7 illustrated in FIG. An information database 26 is created. At this time, each character set connected by the colon shown in FIG. 15 is disassembled, the source character is used as input correspondence data of the state transition information database 26, and the target character is output correspondence of the state transition information database 26. Used as data.

状態遷移情報データベース26は、図16に示すように、状態識別1601と、第1状態番号1602と、第2状態番号1603と、ソース文字1604と、ターゲット文字1605と、状態遷移重み1606とを格納している。
状態識別1601は、初期状態「I」、遷移状態「T」、終了(受理)状態「F」をそれぞれ示すものである。
第1状態番号1602は、遷移元状態番号を示すものである。ただし、初期状態「I」や終了(受理)状態「F」においては、初期状態の状態番号や終了状態の状態番号を示す。第2状態番号1603は、遷移先状態番号を示すものである。
ソース文字1604は、入力記号に対応した入力対応データであり、図15に示したコロンで結ばれた各文字組が分解されたソース文字によって生成される。
ターゲット文字1605は、出力記号に対応した出力対応データであり、図15に示したコロンで結ばれた各文字組が分解されたターゲット文字によって生成される。
状態遷移重み1606は、遷移に与えられる重み(状態遷移重み)である。ただし、初期状態「I」や終了(受理)状態「F」においては、初期状態の重みや終了状態の重みを示す。なお、図16では、初期状態の重みや終了状態の重みは実質的に「0」としている。
As shown in FIG. 16, the state transition information database 26 stores a state identification 1601, a first state number 1602, a second state number 1603, a source character 1604, a target character 1605, and a state transition weight 1606. is doing.
The state identification 1601 indicates an initial state “I”, a transition state “T”, and an end (acceptance) state “F”.
The first state number 1602 indicates a transition source state number. However, in the initial state “I” and the end (acceptance) state “F”, the state number of the initial state and the state number of the end state are shown. The second state number 1603 indicates a transition destination state number.
The source character 1604 is input correspondence data corresponding to an input symbol, and is generated by a source character obtained by decomposing each character set connected by a colon shown in FIG.
A target character 1605 is output correspondence data corresponding to an output symbol, and is generated by a target character obtained by decomposing each character set connected by a colon shown in FIG.
The state transition weight 1606 is a weight (state transition weight) given to the transition. However, in the initial state “I” and the end (acceptance) state “F”, the initial state weight and the end state weight are shown. In FIG. 16, the weight in the initial state and the weight in the end state are substantially “0”.

この状態遷移情報データベース26は、翻字確率モデル7の文脈情報(条件付き確率)を反映したものとなっている。具体的には、図15に例示した翻字確率モデル7では、翻字文字組の同時生起確率は直前の最大2個(図15の(c)の場合)の翻字文字組によって決定されている。このときの同時生起確率(文脈情報または条件付き確率)は、図16においては、第1状態番号1602と、第2状態番号1603と(各状態)に保持されていることになる。   This state transition information database 26 reflects the context information (conditional probability) of the transliteration probability model 7. Specifically, in the transliteration probability model 7 illustrated in FIG. 15, the simultaneous occurrence probability of the transliterated character set is determined by the last two transliterated character sets (in the case of (c) in FIG. 15). Yes. The co-occurrence probability (context information or conditional probability) at this time is held in the first state number 1602 and the second state number 1603 (each state) in FIG.

以上のように各データベースが整備された状態で、第1の実施形態の単語翻訳装置5に、一例として、図17の(a)に示すように、入力単語1701として、ソース単語「ドナルド」を入力して翻訳した。すなわち、図16に例示した状態遷移情報データベース26をWFSTデータベースとし、かつ、単語探索手段24(図4参照)をWFST探索プログラムとしたWFSTを用いて、ソース単語をターゲット単語に変換した。このときの単語探索手段24の出力例を、図17の(b)に示す。   With each database maintained as described above, the source word “Donald” is input as the input word 1701 to the word translation apparatus 5 of the first embodiment as an example as shown in FIG. Input and translated. That is, the source words are converted into target words using WFST in which the state transition information database 26 illustrated in FIG. 16 is a WFST database and the word search means 24 (see FIG. 4) is a WFST search program. An output example of the word search means 24 at this time is shown in FIG.

図17の(b)に示す出力例には、対応状態番号1711と、入力記号1712と、出力記号1713と、状態遷移重み1714とが格納されている。
対応状態番号1711は、ソース単語と対応するターゲット単語とから成る単語組を構成する文字組の状態を示す状態番号である。ここで、文字組の状態は、条件付き確率を反映している。
入力記号1712は、ソース単語に対して最適な対応付けを実行したときのソース文字の系列を示している。なお、ターゲット単語に対応する文字が無い場合には、空文字φの代わりに<eps>が記載されている。また、<s>は語の開始点を示し、</s>は語の終了点を表す記号である。
In the output example shown in FIG. 17B, a corresponding state number 1711, an input symbol 1712, an output symbol 1713, and a state transition weight 1714 are stored.
The correspondence state number 1711 is a state number indicating the state of a character set that constitutes a word set including a source word and a corresponding target word. Here, the state of the character set reflects the conditional probability.
An input symbol 1712 indicates a sequence of source characters when an optimum association is executed for the source word. When there is no character corresponding to the target word, <eps> is described instead of the empty character φ. <S> indicates the start point of the word, and </ s> is a symbol indicating the end point of the word.

出力記号1713は、ターゲット単語に関し、入力記号1712と同様なものである。この出力記号1713の系列を連結すると、図17の(c)に示すように、出力単語1721として「donald」が生成される。そして、連結生成された「donald」は出力装置D(図4参照)に表示されることとなる。
状態遷移重み1714は、条件付き確率の対数の符号を逆転させた値である。
なお、この例では、スペルどおり正しく変換されたが、たとえ変換結果のスペルが正しくなかったとしても、探索空間を大きくしてより多くの変換候補を得ることができれば、例えば、情報検索システムにおいて、クエリに含めて利用することが可能となる。
The output symbol 1713 is similar to the input symbol 1712 regarding the target word. When the series of output symbols 1713 are connected, “donald” is generated as the output word 1721 as shown in FIG. The generated “donald” is displayed on the output device D (see FIG. 4).
The state transition weight 1714 is a value obtained by reversing the log of the conditional probability.
In this example, the conversion is correctly performed according to the spelling, but even if the conversion result is not spelled correctly, if the search space can be enlarged and more conversion candidates can be obtained, for example, in the information retrieval system, It can be used by including it in the query.

また、単語翻訳装置5は、ターゲット単語と共に、図17の(b)に示す状態遷移重み1714の値を出力するようにしてもよい。この場合には、ターゲット文字と、入力されたソース文字との間で翻訳(文字の変換)がどのくらい尤もらしいかを示す変換可能性として、この状態遷移重みの値を利用することができる。また、図17の(b)に示す状態遷移重み1714の合計値を出力するようにすれば、ターゲット単語と、入力されたソース単語との間で翻訳がどのくらい尤もらしいかを示すこともできる。   Moreover, you may make it the word translation apparatus 5 output the value of the state transition weight 1714 shown to (b) of FIG. 17 with a target word. In this case, the value of this state transition weight can be used as the possibility of conversion indicating how likely the translation (character conversion) is between the target character and the input source character. If the total value of the state transition weights 1714 shown in FIG. 17B is output, it is possible to indicate how likely the translation is between the target word and the input source word.

[実施例2]
実施例2は、実施例1に以下の内容を加えたものである。すなわち、単語翻訳システム1A(図7参照)において、第2の実施形態の単語翻訳装置5Aを用いて、第1の単語であるソース単語「レオパード」に対して、変換候補として、3つの第3の単語である「leopard」と、「lion」と、「leopon」とを入力したときのそれぞれの単語への変換可能性を計算した。なお、アルファベットはすべて小文字に置き換えられている。
[Example 2]
The second embodiment is obtained by adding the following contents to the first embodiment. That is, in the word translation system 1A (see FIG. 7), using the word translation device 5A of the second embodiment, three third candidates are converted as conversion candidates for the source word “leopard” that is the first word. The possibility of conversion to each word when “leopard”, “lion”, and “leopon” are input was calculated. All alphabets are replaced with lowercase letters.

そこで、単語翻訳装置5Aの変換可能性計算部30(図8参照)では、合成状態遷移情報データベース作成手段33は、入力手段31を介して第3の単語、例えば「leopard」を取得し、図18に示すように、この「leopard」に対応するデータベースであるFSA(有限状態オートマトン)を作成する。このFSAは、遷移元状態番号1801と、遷移先状態番号1802と、入力文字の表記1803と、出力文字の表記1804と、状態遷移重み1805とを備えている。例えば、遷移元状態番号1801が「1(one)」の行は、現在状態が「1(one)」で入力文字の表記1803として記号「l(エル)」を受け取った場合には、状態遷移重み1805を「0」として、出力文字の表記1804として記号「<eps>」を出力し(この場合には、何もしないことになる)、遷移先状態番号1802である「2」の状態に移行する。なお、表記の注釈は前記した通りである。   Therefore, in the convertibility calculation unit 30 (see FIG. 8) of the word translation device 5A, the synthesized state transition information database creation unit 33 acquires a third word, for example, “leopard” via the input unit 31, As shown in FIG. 18, an FSA (finite state automaton) that is a database corresponding to the “leopard” is created. This FSA includes a transition source state number 1801, a transition destination state number 1802, an input character notation 1803, an output character notation 1804, and a state transition weight 1805. For example, if the current state is “1 (one)” and the symbol “l (el)” is received as the input character notation 1803 in the row where the transition source state number 1801 is “1 (one)”, the state transition The weight 1805 is set to “0”, the symbol “<eps>” is output as the output character notation 1804 (in this case, nothing is done), and the transition destination state number 1802 is set to the state “2”. Transition. Note that the notation is as described above.

そして、合成状態遷移情報データベース作成手段33(図8参照)は、図18に例示したFSAと、図16に例示した状態遷移情報データベース26とを合成する。これにより、「leopard」が合成された合成状態遷移情報データベース36(WFSAデータベース)が作成される。同様に、図示は省略するが、他の入力予定の第3の単語「lion」および「leopon」についても、FSAを作成し、図16に例示した状態遷移情報データベース26と合成し、対応する合成状態遷移情報データベース36をそれぞれ作成する。そして、単語翻訳装置5Aは、例えば、「leopard」が入力されたときに、状態遷移重み計算手段34(図8参照)によって、作成された合成状態遷移情報データベース36を参照して、状態遷移重みを計算する。同様に、「lion」および「leopon」についても、状態遷移重みをそれぞれ計算する。そのときの計算結果を図19に示す。   Then, the combined state transition information database creation unit 33 (see FIG. 8) combines the FSA illustrated in FIG. 18 and the state transition information database 26 illustrated in FIG. As a result, a combined state transition information database 36 (WFSA database) in which “leopard” is combined is created. Similarly, although not shown, an FSA is created for the other third words “lion” and “leopon” to be input, and is synthesized with the state transition information database 26 illustrated in FIG. Each state transition information database 36 is created. Then, the word translation device 5A refers to the created state transition weight information database 36 by the state transition weight calculation means 34 (see FIG. 8), for example, when “leopaard” is input, and the state transition weight Calculate Similarly, state transition weights are calculated for “lion” and “leopon”, respectively. The calculation results at that time are shown in FIG.

変換可能性計算部30は、図19の(a)〜(c)に示すように、変換候補として入力された各第3の単語に対応する出力単語1901と、累計重み1902とを出力する。ここで、累計重み 1902は、ソース文字から第3の文字への状態遷移重みの合計値である。例えば、入力された「leopard」に関しては、図19の(a)に示すように、出力単語1901として「leopard」を出力し、累計重み1902として「12.799」を出力する。同様に、「lion」に関しては、図19の(b)に示すように、累計重み1902として「23.4622」を出力し、さらに、「leopon」に関しては、図19の(c)に示すように、累計重み1902として「17.98」を出力する。したがって、この例では、「レオパード」に対応して探索された「leopard」の累計重み1902が最小となっている。つまり、入力された3つの第3の単語のうち、「leopard」が最も変換可能性が高いことになる。   As shown in FIGS. 19A to 19C, the convertibility calculation unit 30 outputs an output word 1901 corresponding to each third word input as a conversion candidate, and a cumulative weight 1902. Here, the cumulative weight 1902 is the total value of the state transition weights from the source character to the third character. For example, with respect to the input “leopard”, “leopard” is output as the output word 1901 and “12.799” is output as the cumulative weight 1902 as shown in FIG. Similarly, for “lion”, “23.4622” is output as the cumulative weight 1902 as shown in FIG. 19B, and for “leapon”, as shown in FIG. 19C, “17.98” is output as the cumulative weight 1902. Therefore, in this example, the cumulative weight 1902 of “leopard” searched for “leopard” is the smallest. In other words, among the three input third words, “leopaard” has the highest conversion possibility.

なお、変換可能性計算部30は、図19の(d)〜(f)に示すように、計算結果をデータベースであるFSA(有限状態オートマトン)の形式で出力するようにしてもよい。これらのFSAは、対応状態番号1911と、入力文字の表記1912と、出力文字の表記1913と、状態遷移重み1914とを備えている。各項目は、図18に示したFSAと同様なものである。   Note that the conversion possibility calculation unit 30 may output the calculation result in the form of FSA (finite state automaton) that is a database, as shown in (d) to (f) of FIG. These FSAs include a corresponding state number 1911, an input character notation 1912, an output character notation 1913, and a state transition weight 1914. Each item is the same as the FSA shown in FIG.

また、本第3の実施例の代わりに、第3の単語「leopard」、「lion」および「leopon」と、状態遷移情報データベース26とを一度に合成することにより唯一の合成状態遷移情報データベース36を作成するようにしてもよい。この場合には、入力されたそれぞれの第3の単語は、この唯一の合成状態遷移情報データベース36に基づいて確率が計算され、変換可能性の最も高いもの(この場合には、「leopard」)が一位の候補として出力され、以下、変換可能性の高い順に出力されることになる。その結果、変換可能性を一度に比較することが可能となる。   Further, instead of the third embodiment, the third words “leopaard”, “lion” and “leopon” and the state transition information database 26 are combined at a time to create a unique combined state transition information database 36. You may make it create. In this case, each input third word has a probability calculated based on this unique combined state transition information database 36 and has the highest conversion possibility (in this case, “leopard”). Are output as the first candidate, and are output in descending order of possibility of conversion. As a result, the conversion possibilities can be compared at a time.

[実施例3]
実施例3は、実施例2に以下の内容を加えたものである。すなわち、単語翻訳システム1B(図10参照)において、第3の実施形態の単語翻訳装置5Bを用いて、第1の単語であるソース単語「スーパーカミオカンデ」に対して、変換候補である第3の単語をインターネットを利用して取得し、正解である「Super−Kamiokande」への変換可能性を計算した。
[Example 3]
Example 3 is obtained by adding the following contents to Example 2. That is, in the word translation system 1B (see FIG. 10), using the word translation device 5B of the third embodiment, the source word “Super-Kamiokande”, which is the first word, is a third conversion candidate. The word was acquired using the Internet, and the possibility of conversion to the correct “Super-Kamiokande” was calculated.

単語翻訳装置5Bの変換候補検索部40は、文書データ取得手段43(図11参照)によって、ソース単語「スーパーカミオカンデ」が含まれる文書を検索し、データベースとして記憶手段42に格納した。この記憶手段42に格納されたデータベースの一例を図20の(a)に示す。このデータベースは、図20の(a)に示すように、文書のタイトル2001と、文書の掲載されたホームページのアドレスを示すURL2002とを備え、10個の文書データ(No,501〜510)を格納している。   The conversion candidate search unit 40 of the word translation device 5B searches the document containing the source word “Super-Kamiokande” by the document data acquisition unit 43 (see FIG. 11) and stores it in the storage unit 42 as a database. An example of the database stored in the storage means 42 is shown in FIG. As shown in FIG. 20A, this database includes a document title 2001 and a URL 2002 indicating the address of a home page on which the document is posted, and stores ten document data (No. 501-510). is doing.

変換候補検索部40は、変換候補抽出手段44(図11参照)によって、各文書データ(No,501〜510)のURL2002にアクセスして、ソース単語「スーパーカミオカンデ」に対する変換候補としてふさわしい単語を、図20の(b)に示すように、抽出した。ここでは、変換候補抽出手段44は、図20の(b)に示すように、抽出単語2011として、各文書データ(No,501〜510)から1つずつ抽出した合計10個のアルファベット表記の語を、第3の単語として、変換可能性計算部30に出力した。   The conversion candidate search unit 40 accesses the URL 2002 of each document data (No. 501-510) by the conversion candidate extraction unit 44 (see FIG. 11), and selects a word suitable as a conversion candidate for the source word “Super-Kamiokande”. Extraction was performed as shown in FIG. Here, as shown in FIG. 20B, the conversion candidate extracting unit 44 extracts a total of ten alphabetic words extracted one by one from each document data (No, 501-510) as extracted words 2011. Is output to the conversion possibility calculation unit 30 as the third word.

これにより、変換可能性計算部30は、変換候補検索部40から入力した10個の第3の単語に関して、前記した実施例2で説明した動作を実行し、変換可能性(重み)を計算し、出力する。その出力データの例を、図20の(c)に示す。出力データは、図20の(c)に示すように、項目として、抽出単語2021と、変換可能性(重み)2022とを有している。この出力データによれば、No.611の「Super−Kamiokande」は、変換可能性(重み)2022が「19.9722」であり、この重みは、10個の抽出単語2021のうち最小の値となっている。つまり、No.611の「Super−Kamiokande」は、変換可能性が最大となっている。その結果、単語翻訳装置5Bは、ソース単語「スーパーカミオカンデ」に対して、インターネットを利用して変換候補となる単語を複数取得し、その中で、正解である「Super−Kamiokande」への変換可能性が最大であることを求めることができた。   Thereby, the convertibility calculation unit 30 performs the operation described in the second embodiment on the ten third words input from the conversion candidate search unit 40, and calculates the convertibility (weight). ,Output. An example of the output data is shown in FIG. As shown in (c) of FIG. 20, the output data has extracted words 2021 and convertibility (weight) 2022 as items. According to this output data, “Super-Kamiokande” No. 611 has a conversion possibility (weight) 2022 of “19.9722”, and this weight is the smallest value among the ten extracted words 2021. Yes. In other words, No. 611 “Super-Kamiokande” has the highest conversion possibility. As a result, the word translation device 5B obtains a plurality of conversion candidate words using the Internet for the source word “Super-Kamiokande”, and among them, conversion to the correct “Super-Kamiokande” is possible. We were able to ask for the greatest sex.

この第3の実施例によれば、入力されたソース単語(同様にターゲット単語)が、単語翻訳装置5Bが利用する翻字確率モデル7を作成する際に学習データベース6に登録されていなかった場合でも、ソース単語に対して最尤のターゲット単語に変換することが可能となる。すなわち、第1段階で、インターネットで取得した第3の単語をFSAとして状態遷移情報データベース26に合成しておき、第2段階で、第1の単語と、取得した第3の単語とを入力として、予め作成された合成状態遷移情報データベース36に基づいて、変換可能性を計算し、変換可能性が最も高い第3の単語を選択する。したがって、単語翻訳装置5Bは、固定された辞書に依存するのではなく、通信ネットワークNWを介して取得する実在の単語を変換候補とするので、実用性が高くなる。このため、人名や地名等の固有名詞の翻訳や、新語が次々に使用される記事やニュース等の翻訳に好適である。   According to the third embodiment, when the input source word (similarly the target word) is not registered in the learning database 6 when the transliteration probability model 7 used by the word translation device 5B is created. However, the source word can be converted into the most likely target word. That is, in the first stage, the third word acquired on the Internet is synthesized as FSA in the state transition information database 26, and in the second stage, the first word and the acquired third word are input. The conversion possibility is calculated based on the composite state transition information database 36 created in advance, and the third word having the highest conversion possibility is selected. Therefore, the word translation apparatus 5B does not depend on a fixed dictionary, but uses actual words acquired via the communication network NW as conversion candidates, so that the practicality becomes high. For this reason, it is suitable for the translation of proper nouns, such as a person name and a place name, and the translation of articles, news, etc. in which new words are used one after another.

本発明の第1の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。It is a figure which shows the structural example of the word translation system containing the word translation apparatus which concerns on the 1st Embodiment of this invention. 図1に示した翻字確率モデル作成装置の構成例を示す機能ブロック図である。It is a functional block diagram which shows the structural example of the transliteration probability model creation apparatus shown in FIG. 図2に示した単語組データベースが作成されるまでの具体例を示す説明図である。It is explanatory drawing which shows the specific example until the word set database shown in FIG. 2 is created. 図1に示した単語翻訳装置の構成例を示す機能ブロック図である。It is a functional block diagram which shows the structural example of the word translation apparatus shown in FIG. 図2に示した翻字確率モデル作成装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the transliteration probability model creation apparatus shown in FIG. 図4に示した単語翻訳装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the word translation apparatus shown in FIG. 本発明の第2の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。It is a figure which shows the structural example of the word translation system containing the word translation apparatus which concerns on the 2nd Embodiment of this invention. 図7に示した変換可能性計算部の構成例を示す機能ブロック図である。It is a functional block diagram which shows the structural example of the conversion possibility calculation part shown in FIG. 図8に示した変換可能性計算部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the conversion possibility calculation part shown in FIG. 本発明の第3の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。It is a figure which shows the structural example of the word translation system containing the word translation apparatus which concerns on the 3rd Embodiment of this invention. 図10に示した変換候補検索部の構成例を示す機能ブロック図である。It is a functional block diagram which shows the structural example of the conversion candidate search part shown in FIG. 図8に示した変換候補検索部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the conversion candidate search part shown in FIG. カタカナをアルファベットに変換する実施例の説明図であり、(a)は学習データベースの一例であり、(b)は文字間関連度データベースの一例である。It is explanatory drawing of the Example which converts a katakana into an alphabet, (a) is an example of a learning database, (b) is an example of an inter-character relationship degree database. 図13の(a)に示した学習データベースから作成された文字間対応付き単語組データベースの一例を示す説明図である。It is explanatory drawing which shows an example of the word set database with a correspondence between characters produced from the learning database shown to (a) of FIG. 図1に示した翻字確率モデルデータベースの一例を示す説明図であり、(a)はユニグラム、(b)はバイグラム、(c)はトライグラムのデータをそれぞれ示している。It is explanatory drawing which shows an example of the transliteration probability model database shown in FIG. 1, (a) is a unigram, (b) is a bigram, (c) has each shown the data of a trigram. 図4に示した状態遷移情報データベースの一例を示す説明図である。It is explanatory drawing which shows an example of the state transition information database shown in FIG. 単語翻訳の一例を示す説明図であり、(a)は入力単語、(b)は探索結果、(c)は出力単語を示している。It is explanatory drawing which shows an example of word translation, (a) is an input word, (b) is a search result, (c) has shown the output word. 第3の単語に関するFSAの一例を示す説明図である。It is explanatory drawing which shows an example of FSA regarding a 3rd word. 第2の実施形態に係る単語翻訳装置に第3の単語を3個入力した場合の探索結果の一例を示す説明図である。It is explanatory drawing which shows an example of the search result at the time of inputting the 3rd word to the word translation apparatus which concerns on 2nd Embodiment. 第3の実施形態に係る単語翻訳装置の変換候補検索部による第3の単語の検索の一例を示す説明図であり、(a)は検索文書、(b)は抽出単語、(c)は出力結果を示している。It is explanatory drawing which shows an example of the search of the 3rd word by the conversion candidate search part of the word translation apparatus concerning 3rd Embodiment, (a) is a search document, (b) is an extraction word, (c) is output Results are shown.

符号の説明Explanation of symbols

1(1A,1B) 単語翻訳システム(記号列変換システム)
2 記憶装置
3 記憶装置
4 翻字確率モデル作成装置(記号変換確率モデル作成装置)
5 単語翻訳装置(単語出力部)
5A,5B 単語翻訳装置(記号列変換装置)
6 学習データベース
7 翻字確率モデル(記号変換確率モデル)
10 入力手段
11 記憶手段
12 文字間関連度データベース作成手段(記号間関連度データベース作成手段)
13 単語組データベース作成手段(記号列組データベース作成手段)
14 生起確率計算手段
15 書込手段
16 文字間関連度データベース(記号間関連度データベース)
17 単語組データベース(記号列組データベース)
M 入力装置
21 入力手段(第1の入力手段)
22 記憶手段
23 状態遷移情報データベース作成手段(データベース作成手段)
24 単語探索手段
25 出力手段(第1の出力手段)
26 状態遷移情報データベース
D 出力装置
30 変換可能性計算部
31 入力手段(第2の入力手段)
32 記憶手段
33 合成状態遷移情報データベース作成手段
34 状態遷移重み計算手段
35 出力手段(第2の出力手段)
36 合成状態遷移情報データベース
40 変換候補検索部
50 電子機器
N 通信ネットワーク
41 入力手段
42 記憶手段
43 文書データ取得手段
44 変換候補抽出手段
45 出力手段
1 (1A, 1B) Word translation system (symbol string conversion system)
2 storage device 3 storage device 4 transliteration probability model creation device (symbol conversion probability model creation device)
5 Word translation device (word output unit)
5A, 5B Word translation device (symbol string conversion device)
6 Learning database 7 Transliteration probability model (symbol conversion probability model)
10 input means 11 storage means 12 character-to-character relevance database creation means (symbol relevance degree database creation means)
13 Word set database creation means (symbol string set database creation means)
14 occurrence probability calculation means 15 writing means 16 inter-character relevance database (inter-symbol relevance database)
17 Word set database (symbol string set database)
M input device 21 input means (first input means)
22 storage means 23 state transition information database creation means (database creation means)
24 word search means 25 output means (first output means)
26 state transition information database D output device 30 convertibility calculation unit 31 input means (second input means)
32 storage means 33 composite state transition information database creation means 34 state transition weight calculation means 35 output means (second output means)
36 Compound State Transition Information Database 40 Conversion Candidate Search Unit 50 Electronic Device N Communication Network 41 Input Means 42 Storage Means 43 Document Data Acquisition Means 44 Conversion Candidate Extraction Means 45 Output Means

Claims (11)

異なる記号体系にそれぞれ属する同じ意味の記号列の組合わせである記号列組における記号の同時生起頻度を利用した記号列変換装置の記号列変換方法であって、
前記記号列変換装置は、
第1の記号体系に属する第1の記号列を入力するステップと、
前記同時生起頻度および前記記号列組の中の記号組の出現順序の頻度を利用して、前記入力された第1の記号列に対応する第2の記号体系に属する第2の記号列を推定するステップと、
前記推定された第2の記号列を出力するステップと、
を含んで実行することを特徴とする記号列変換方法。
A symbol string conversion method of a symbol string conversion device that uses a symbol co-occurrence frequency in a symbol string set that is a combination of symbol strings of the same meaning belonging to different symbol systems,
The symbol string converter is
Inputting a first symbol string belonging to the first symbol system;
A second symbol string belonging to a second symbol system corresponding to the input first symbol string is estimated using the co-occurrence frequency and the frequency of the appearance order of the symbol groups in the symbol string set And steps to
Outputting the estimated second symbol string;
A symbol string conversion method comprising:
前記第2の記号列を推定するステップは、
前記同時生起頻度に基づいて、前記第1の記号列と前記第2の記号列とを記号単位で対応付けた組から成る任意の記号列組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる記号列組を探索し、この探索された記号列組に関する前記出現順序の頻度を利用して、前記第2の記号列を推定することを特徴とする請求項1に記載の記号列変換方法。
The step of estimating the second symbol string includes:
Based on the co-occurrence frequency, the frequency of the appearance order is calculated for each symbol string set composed of a set in which the first symbol string and the second symbol string are associated with each other in symbol units, Based on the calculation result, a symbol string set that maximizes the frequency of the appearance order is searched, and the second symbol string is estimated using the frequency of the appearance order related to the searched symbol string set. The symbol string conversion method according to claim 1.
前記第2の記号列を推定するステップは、
前記同時生起頻度に基づいて、前記第1の記号列と前記第2の記号列とを記号単位で対応付けた組から成る任意の記号列組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる記号列組を探索し、この探索された記号列組に関する前記出現順序の頻度をデータとして格納するデータベースを作成するステップと、
前記データベースを参照して、前記第2の記号列を探索するステップと、
を有することを特徴とする請求項1または請求項2に記載の記号列変換方法。
The step of estimating the second symbol string includes:
Based on the co-occurrence frequency, the frequency of the appearance order is calculated for each symbol string set composed of a set in which the first symbol string and the second symbol string are associated with each other in symbol units, Based on the calculation result, searching for a symbol string set that maximizes the frequency of the appearance order, and creating a database that stores the frequency of the appearance order related to the searched symbol string set as data;
Searching the second symbol string with reference to the database;
The symbol string conversion method according to claim 1 or 2, characterized by comprising:
請求項1乃至請求項3のいずれか一項に記載の記号列変換方法において、
前記記号列が文字で構成された単語である単語翻訳方法であって、
前記記号列変換装置は、
入力される単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得するステップと、
前記取得された文書データから、予め定められた個数の単語を、前記入力される単語からの変換候補として抽出するステップと、
をさらに含んで実行することを特徴とする単語翻訳方法。
The symbol string conversion method according to any one of claims 1 to 3,
A word translation method in which the symbol string is a word composed of letters,
The symbol string converter is
Obtaining document data from an electronic device connected to a communication network based on an input word;
Extracting a predetermined number of words from the acquired document data as conversion candidates from the input words;
A word translation method, further comprising:
異なる言語体系にそれぞれ属する同じ意味の単語の組合わせである単語組における文字の同時生起頻度を利用した単語翻訳装置であって、
第1の言語体系に属する第1の単語を入力する入力手段と、
前記同時生起頻度および前記単語組の中の文字組の出現順序の頻度を利用して、前記入力された第1の単語に対応する第2の言語体系に属する第2の単語を推定する単語探索手段と、
前記推定された第2の単語を出力する出力手段と、
を備えることを特徴とする単語翻訳装置。
A word translation device using the co-occurrence frequency of characters in a word set, which is a combination of words of the same meaning belonging to different language systems,
An input means for inputting a first word belonging to the first language system;
A word search for estimating a second word belonging to a second language system corresponding to the input first word, using the co-occurrence frequency and the appearance order frequency of the word set Means,
Output means for outputting the estimated second word;
A word translation device comprising:
前記単語探索手段は、
前記同時生起頻度に基づいて、前記第1の単語と前記第2の単語とを文字単位で対応付けた組から成る任意の単語組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組に関する前記出現順序の頻度を利用して、前記第2の単語を推定することを特徴とする請求項5に記載の単語翻訳装置。
The word search means includes
Based on the co-occurrence frequency, the frequency of the appearance order is calculated for each arbitrary word set composed of a set in which the first word and the second word are associated with each other in units of characters. The second word is estimated using the frequency of the appearance order relating to the searched word set based on the search for the word set having the highest appearance order frequency. Item 6. The word translation device according to Item 5.
前記同時生起頻度に基づいて、前記第1の単語と前記第2の単語とを文字単位で対応付けた組から成る任意の単語組において、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組に関する前記出現順序の頻度をデータとして格納するデータベースを作成するデータベース作成手段をさらに備え、
前記単語探索手段は、前記データベースを参照して、前記第2の単語を探索することを特徴とする請求項5または請求項6に記載の単語翻訳装置。
Based on the co-occurrence frequency, the frequency of the appearance order is calculated for each arbitrary word set composed of a set in which the first word and the second word are associated with each other in units of characters. A database creation means for searching for a word set having the maximum frequency of appearance order and creating a database for storing the frequency of appearance order related to the searched word set as data;
The word translation device according to claim 5 or 6, wherein the word search means searches for the second word with reference to the database.
前記入力手段に入力される前記第1の単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得する文書データ取得手段と、
前記取得された文書データから、予め定められた個数の単語を、前記第1の単語からの変換候補として抽出する変換候補抽出手段と、
をさらに備えることを特徴とする請求項5乃至請求項7のいずれか一項に記載の単語翻訳装置。
Document data acquisition means for acquiring document data from an electronic device connected to a communication network based on the first word input to the input means;
Conversion candidate extraction means for extracting a predetermined number of words as conversion candidates from the first word from the acquired document data;
The word translation device according to any one of claims 5 to 7, further comprising:
請求項1乃至請求項3のいずれか一項に記載の記号列変換方法をコンピュータに実行させることを特徴とする記号列変換プログラム。   A symbol string conversion program for causing a computer to execute the symbol string conversion method according to any one of claims 1 to 3. 請求項4に記載の単語翻訳方法をコンピュータに実行させることを特徴とする単語翻訳プログラム。   A word translation program for causing a computer to execute the word translation method according to claim 4. 請求項9に記載の記号列変換プログラムまたは請求項10に記載の単語翻訳プログラムが記録されたことを特徴とする記録媒体。   A recording medium in which the symbol string conversion program according to claim 9 or the word translation program according to claim 10 is recorded.
JP2005346898A 2005-11-30 2005-11-30 WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM Active JP4266222B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005346898A JP4266222B2 (en) 2005-11-30 2005-11-30 WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005346898A JP4266222B2 (en) 2005-11-30 2005-11-30 WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM

Publications (2)

Publication Number Publication Date
JP2007156545A true JP2007156545A (en) 2007-06-21
JP4266222B2 JP4266222B2 (en) 2009-05-20

Family

ID=38240873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005346898A Active JP4266222B2 (en) 2005-11-30 2005-11-30 WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM

Country Status (1)

Country Link
JP (1) JP4266222B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157888A (en) * 2007-12-28 2009-07-16 National Institute Of Information & Communication Technology Transliteration model generation device, transliteration apparatus, and computer program therefor
WO2009093307A1 (en) * 2008-01-22 2009-07-30 Fujitsu Limited Retrieval device and retrieval method
WO2012121063A1 (en) * 2011-03-04 2012-09-13 楽天株式会社 Transliteration device, program, recording medium, and method
JP2014021863A (en) * 2012-07-20 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> Symbol string association device, symbol string conversion model learning device, symbol string conversion device, method, and program
JP2014164403A (en) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> Reading allocation device and program
JP2015022508A (en) * 2013-07-18 2015-02-02 日本電信電話株式会社 Character string mapping device, method, and program
US10185710B2 (en) * 2015-06-30 2019-01-22 Rakuten, Inc. Transliteration apparatus, transliteration method, transliteration program, and information processing apparatus
JP2022510818A (en) * 2018-11-20 2022-01-28 アマゾン テクノロジーズ インコーポレイテッド Transliteration of data records for improved data matching

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157888A (en) * 2007-12-28 2009-07-16 National Institute Of Information & Communication Technology Transliteration model generation device, transliteration apparatus, and computer program therefor
WO2009093307A1 (en) * 2008-01-22 2009-07-30 Fujitsu Limited Retrieval device and retrieval method
US9323744B2 (en) 2011-03-04 2016-04-26 Rakuten, Inc. Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration
JP2012185679A (en) * 2011-03-04 2012-09-27 Rakuten Inc Transliteration device, transliteration program, computer-readable recording medium in which transliteration program is recorded and method of transliteration
KR101326354B1 (en) * 2011-03-04 2013-11-11 라쿠텐 인코포레이티드 Transliteration device, recording medium, and method
TWI465941B (en) * 2011-03-04 2014-12-21 Rakuten Inc A translation processing apparatus, a translation processing program, a computer-readable recording medium having a translation processing program, and a translation processing method
WO2012121063A1 (en) * 2011-03-04 2012-09-13 楽天株式会社 Transliteration device, program, recording medium, and method
JP2014021863A (en) * 2012-07-20 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> Symbol string association device, symbol string conversion model learning device, symbol string conversion device, method, and program
JP2014164403A (en) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> Reading allocation device and program
JP2015022508A (en) * 2013-07-18 2015-02-02 日本電信電話株式会社 Character string mapping device, method, and program
US10185710B2 (en) * 2015-06-30 2019-01-22 Rakuten, Inc. Transliteration apparatus, transliteration method, transliteration program, and information processing apparatus
JP2022510818A (en) * 2018-11-20 2022-01-28 アマゾン テクノロジーズ インコーポレイテッド Transliteration of data records for improved data matching
JP7254925B2 (en) 2018-11-20 2023-04-10 アマゾン テクノロジーズ インコーポレイテッド Transliteration of data records for improved data matching

Also Published As

Publication number Publication date
JP4266222B2 (en) 2009-05-20

Similar Documents

Publication Publication Date Title
JP5997217B2 (en) A method to remove ambiguity of multiple readings in language conversion
JP5599662B2 (en) System and method for converting kanji into native language pronunciation sequence using statistical methods
JP3768205B2 (en) Morphological analyzer, morphological analysis method, and morphological analysis program
US8321442B2 (en) Searching and matching of data
JP4266222B2 (en) WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM
JP5403696B2 (en) Language model generation apparatus, method and program thereof
CN103970798A (en) Technology for searching and matching data
JP2003514304A5 (en)
US20110218796A1 (en) Transliteration using indicator and hybrid generative features
JP5809381B1 (en) Natural language processing system, natural language processing method, and natural language processing program
JP2014120053A (en) Question answering device, method, and program
CN112818091A (en) Object query method, device, medium and equipment based on keyword extraction
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
JP5231484B2 (en) Voice recognition apparatus, voice recognition method, program, and information processing apparatus for distributing program
JP2020106880A (en) Information processing apparatus, model generation method and program
Zhang et al. Tracing a loose wordhood for Chinese input method engine
Jamro Sindhi language processing: A survey
Yeh et al. Chinese spelling checker based on an inverted index list with a rescoring mechanism
JP4084515B2 (en) Alphabet character / Japanese reading correspondence apparatus and method, alphabetic word transliteration apparatus and method, and recording medium recording the processing program therefor
JP5523929B2 (en) Text summarization apparatus, text summarization method, and text summarization program
JP4478042B2 (en) Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device
JP2017021602A (en) Text converting device, method, and program
JP5398638B2 (en) Symbol input support device, symbol input support method, and program
JP3952964B2 (en) Reading information determination method, apparatus and program
Celikkaya et al. A mobile assistant for Turkish

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090213

R150 Certificate of patent or registration of utility model

Ref document number: 4266222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350