JP2009199434A - Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program - Google Patents

Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program Download PDF

Info

Publication number
JP2009199434A
JP2009199434A JP2008041602A JP2008041602A JP2009199434A JP 2009199434 A JP2009199434 A JP 2009199434A JP 2008041602 A JP2008041602 A JP 2008041602A JP 2008041602 A JP2008041602 A JP 2008041602A JP 2009199434 A JP2009199434 A JP 2009199434A
Authority
JP
Japan
Prior art keywords
notation
english
japanese
pronunciation
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008041602A
Other languages
Japanese (ja)
Inventor
Michihiro Yamazaki
道弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008041602A priority Critical patent/JP2009199434A/en
Publication of JP2009199434A publication Critical patent/JP2009199434A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve the accuracy of conversion from a character string of an alphabetical notation into Japanese pronunciation. <P>SOLUTION: The alphabetical character string/Japanese pronunciation conversion apparatus includes: a rule database stored with rule data in which an English pronunciation notation is made to correspond to Japanese pronunciation corresponding to the English pronunciation notation based on the English pronunciation notation, English pronunciation notations connected before and after the English pronunciation notation concerned and an alphabetical notation corresponding to the English pronunciation notation; and a Japanese pronunciation conversion part for outputting Japanese pronunciation corresponding to an alphabetical character string from input information in which an English pronunciation notation partial string obtained by decomposing the English pronunciation notation string corresponding to the alphabetical character string into a plurality of components is made to correspond to each of a plurality of alphabetical character partial strings decomposed from the alphabetical character string by using the rule database. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

この発明は、英単語等のアルファベットからなる文字列を当該アルファベット文字列に対応する日本語読みへ変換するアルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラムに関するものである。   The present invention relates to an alphabet character string Japanese reading conversion device and an alphabet character string Japanese reading conversion program for converting a character string composed of alphabets such as English words into Japanese readings corresponding to the alphabetic character strings.

英単語等のアルファベット文字列を日本語の読みに変換する従来技術として、例えば、特開2001−142877公報(特許文献1)には、アルファベット文字列から直接日本語読みに変換する技術について開示されている。これは、アルファベット文字列の部分文字列と日本語読みとの対応付けをあらかじめ学習しておき、新しいアルファベット文字列が入力された際に最も確からしい部分文字列の組み合わせを求めて日本語読みに変換するものである。   As a conventional technique for converting an alphabet character string such as an English word into Japanese reading, for example, Japanese Patent Laid-Open No. 2001-142877 (Patent Document 1) discloses a technique for converting an alphabet character string directly into Japanese reading. ing. This is done by learning the correspondence between the partial character string of the alphabet string and Japanese reading in advance, and obtaining the most probable combination of partial strings when a new alphabet character string is input. To convert.

また、文献「K. Knight and J. Graehl 「Machine Transliteration」, Computational Linguistics, vol.24, No.4, pp. 599 - 612 (1998)」(非特許文献1)においては、英語の発音記号から日本語読みへの変換方法が開示されている。これは、英語の発音記号に対する日本語読みの確率情報に基づいて、英語の発音記号から日本語読みへ変換するものである。   In the document “K. Knight and J. Graehl“ Machine Transliteration ”, Computational Linguistics, vol.24, No.4, pp. 599-612 (1998)” (Non-Patent Document 1), A method for converting to Japanese reading is disclosed. This is to convert English phonetic symbols into Japanese readings based on probability information of Japanese readings with respect to English phonetic symbols.

他に、一般的な技術として、アルファベット文字列に対する日本語読みをあらかじめ用意しておき、このデータベースを用いて、アルファベット文字列を日本語読みに変換する技術がある。   In addition, as a general technique, there is a technique of preparing Japanese readings for alphabetic character strings in advance and converting the alphabetic character strings into Japanese readings using this database.

K. Knight and J. Graehl 「Machine Transliteration」, Computational Linguistics, vol.24, No.4, pp. 599 - 612 (1998)K. Knight and J. Graehl "Machine Transliteration", Computational Linguistics, vol.24, No.4, pp. 599-612 (1998) 特開2001−319022公報(段落番号[0011]、図1)JP 2001-319022 A (paragraph number [0011], FIG. 1)

しかしながら、アルファベット文字列の部分文字列と日本語読みとの対応付けをあらかじめ学習しておく従来技術においては、学習データに無いアルファベット文字列、例えば、特殊な読みをする英単語に対応できないと言う問題点がある。
また、英語発音表記の情報を用いないので、英語音声認識用の英語表記とその発音に関する既存のデータベースを使用することが出来ないと言う問題点がある。このような既存のデータベースとして、固有名詞などの特殊な読みをする英語表記などに対しても正しい発音が付与されているものもあるが、英語表記から直接日本語に変換する方法では、英語発音表記の情報を用いないので、これらの特殊な読みに対応することは難しい。
However, in the prior art in which the correspondence between the partial character string of the alphabet character string and the Japanese reading is learned in advance, it is said that it is not possible to deal with an alphabet character string that does not exist in the learning data, for example, an English word that makes a special reading. There is a problem.
In addition, since English pronunciation notation information is not used, there is a problem that it is not possible to use an existing database regarding English notation for English speech recognition and its pronunciation. Some of these existing databases also have correct pronunciation for English notation that reads special names such as proper nouns, but the method of converting from English notation directly to Japanese does not provide English pronunciation. Since notation information is not used, it is difficult to cope with these special readings.

また、英語の発音記号に対する日本語の読みの確率情報に基づいて、英語の発音記号から日本語の読みへ変換する従来技術においては、曖昧な母音を表す下記発音記号(1)など発音表記から日本語読みに変換するのが難しい発音が存在するという問題がある。例えば、図1に示すように曖昧母音@(X_SAMPA形式)に対応する日本語の母音としては、/a/、/i/、/e/、/o/(音素表記)等となる可能性がある。   Further, in the conventional technique for converting English phonetic symbols into Japanese readings based on the probability information of Japanese readings for English phonetic symbols, the phonetic notation such as the following phonetic symbols (1) representing ambiguous vowels is used. There is a problem that there are pronunciations that are difficult to convert into Japanese readings. For example, as shown in FIG. 1, Japanese vowels corresponding to ambiguous vowels @ (X_SAMPA format) may be / a /, / i /, / e /, / o / (phoneme notation), etc. is there.

Figure 2009199434
Figure 2009199434

また、アルファベット文字列とそのアルファベット文字列に対応する日本語読みとのデータを用いて、アルファベット文字列を日本語読みに変換する従来技術においては、新たなアルファベット文字列が追加される度に新たにデータベースを整備しなおす必要があり、コストがかかると言う問題点がある。   In addition, in the conventional technique for converting an alphabet character string into Japanese reading using data of an alphabet character string and a Japanese reading corresponding to the alphabet character string, a new alphabet character string is added each time a new alphabet character string is added. However, there is a problem that it is necessary to re-establish the database and it is expensive.

この発明は上記のような課題を解決するためになされたもので、アルファベット表記されている文字列の日本語読みへ変換精度を向上させることが出来るアルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラムを提供することを目的とする。   The present invention has been made to solve the above-described problems, and an alphabet character string Japanese reading conversion device and an alphabet character string capable of improving the conversion accuracy of a character string expressed in alphabet to Japanese reading. The purpose is to provide a Japanese reading conversion program.

この発明に係るアルファベット文字列日本語読み変換装置は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部とを備えたものである。   According to the present invention, there is provided an alphabetic character string Japanese reading conversion device based on an English pronunciation notation, an English pronunciation notation connected before and after the English pronunciation notation, and an alphabet notation corresponding to the English pronunciation notation. A rule database storing rule data in which notation and Japanese pronunciation corresponding to the English pronunciation notation are associated with each other, and each of the alphabet character substrings obtained by dividing the alphabet character string into a plurality of parts using the rule database Japanese input conversion that outputs Japanese readings corresponding to the above-mentioned alphabet character strings from input information associated with English pronunciation notation sub-sequences obtained by dividing the English phonetic notation sequence corresponding to the above-mentioned alphabet character strings into a plurality of Part.

この発明に係るアルファベット文字列日本語読み変換プログラムは、アルファベット文字列を当該アルファベット文字列に対応する日本語読みへ変換するために、コンピュータを、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出す規則データ読み出し手段と、上記規則データ読み出し手段で読み出された規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換手段として機能させるためのものである。   In order to convert an alphabet character string into a Japanese reading corresponding to the alphabet character string, the alphabet character string Japanese reading conversion program according to the present invention connects a computer with an English pronunciation notation and before and after the English pronunciation notation. From a rule database storing rule data in which the English pronunciation notation and Japanese pronunciation corresponding to the English pronunciation notation are associated with each other based on the English pronunciation notation and the alphabet notation corresponding to the English pronunciation notation , The rule data reading means for reading the rule data, and the rule data read by the rule data reading means, each of the alphabet character sub-strings into which the alphabet character string has been divided into a plurality of English phonetic notation subsequence with the corresponding English phonetic notation sequence broken down into multiple From the associated input information is intended to function as a Japanese readings converting means for outputting a read Japanese corresponding to the alphabetic character string.

この発明によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースを用いて、上記アルファベット文字列に対応する日本語読みを出力するので、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る効果がある。   According to the present invention, based on the English phonetic notation, the English phonetic notation connected before and after the English phonetic notation, and the alphabet notation corresponding to the English phonetic notation, the English phonetic notation and the English phonetic notation are supported. Using a rule database that stores rule data associated with Japanese readings, the Japanese readings corresponding to the above alphabetic character strings are output, so even if you cannot identify Japanese readings only with English pronunciation notation Since Japanese readings can be specified based on alphabetical notation corresponding to English pronunciation notation, there is an effect that the accuracy of Japanese reading conversion can be improved.

この発明によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出し、読み出された規則データを用いて、上記アルファベット文字列に対応する日本語読みを出力するので、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る効果がある。   According to the present invention, based on the English phonetic notation, the English phonetic notation connected before and after the English phonetic notation, and the alphabet notation corresponding to the English phonetic notation, the English phonetic notation and the English phonetic notation are supported. The rule data is read from the rule database in which rule data associated with Japanese readings is stored, and the Japanese readings corresponding to the alphabetic character strings are output using the read rule data. Even if the Japanese pronunciation cannot be specified only by the English pronunciation notation, the Japanese reading can be specified based on the alphabet notation corresponding to the English pronunciation notation, so that the accuracy of the Japanese reading conversion can be improved.

実施の形態1.
図2は、この発明の実施の形態1によるアルファベット文字列日本語読み変換装置を示す構成図である。本実施の形態では、本実施の形態におけるアルファベット文字列日本語読み変換装置が、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列を入力とし、上記アルファベット文字列に対応する日本語読みを出力する場合について説明する。
Embodiment 1 FIG.
FIG. 2 is a block diagram showing an alphabet character string Japanese reading conversion apparatus according to Embodiment 1 of the present invention. In the present embodiment, the alphabet character string Japanese reading conversion device in the present embodiment receives an alphabetic character string and an English pronunciation character string corresponding to the alphabet character string as input, and a Japanese character corresponding to the alphabet character string. A case where a reading is output will be described.

図2において、発音対応付け用データベース1は、アルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データが格納されている。本実施の形態では、アルファベット表記と当該アルファベット表記に対して取り得る英語発音表記の候補を持つ。アルファベット文字列・発音表記対応付け部2は、上記発音対応付け用データベース1を用いて、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付ける。   In FIG. 2, the pronunciation association database 1 stores pronunciation association data in which alphabetical expressions and English pronunciation expressions corresponding to the alphabetic expressions are associated. In the present embodiment, there are candidates for alphabet notation and English pronunciation notation that can be taken for the alphabet notation. The alphabet character string / phonetic notation association unit 2 uses the pronunciation correlating database 1 to convert an alphabet character string and an English phonetic notation string corresponding to the alphabet character string into a plurality of alphabet character substrings and English, respectively. While decomposing into phonetic notation subsequences, the decomposed alphabetic character subsequences are associated with English phonetic notation subsequences.

規則データベース3は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。本実施の形態では、上記規則データベース3は、発音表記変換規則データベース301と補正規則データベース302を備えている。   The rule database 3 corresponds to the English pronunciation notation and the English pronunciation notation based on the English pronunciation notation, the English pronunciation notation connected before and after the English pronunciation notation, and the alphabet notation corresponding to the English pronunciation notation. Stores rule data associated with Japanese readings. In the present embodiment, the rule database 3 includes a pronunciation notation conversion rule database 301 and a correction rule database 302.

上記発音表記変換規則データベース301は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、アルファベット表記の参照要否情報とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。補正規則データベース302は、例えば、上記発音表記変換規則データベース301の規則データにより、アルファベット表記の参照を要する場合に用いられるものであって、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。   The phonetic notation conversion rule database 301 stores the English phonetic notation and the English phonetic notation based on the English phonetic notation, the English phonetic notation connected before and after the English phonetic notation, and the reference necessity information of the alphabet notation. Stores rule data associated with corresponding Japanese readings. The correction rule database 302 is used, for example, when reference to alphabetical notation is required based on the rule data of the phonetic notation conversion rule database 301, and English pronunciation notation and English concatenated before and after the English pronunciation notation. Based on the phonetic notation and the alphabet notation corresponding to the English phonetic notation, rule data in which the English phonetic notation is associated with the Japanese pronunciation corresponding to the English phonetic notation is stored.

日本語読み変換部4は、上記規則データベース3を用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた変換対象情報(入力情報)から、上記アルファベット文字列に対応する日本語読みを出力する。本実施の形態では、上記アルファベット文字列・発音表記対応付け部2で対応付けられたアルファベット文字部分列と英語発音表記部分列とを変換対象情報(入力情報)として入力する。また、本実施の形態では、上記日本語読み変換部4は、英語発音表記日本語読み変換部401と、アルファベット表記日本語読み補正部402と、日本語読み出力部403とを備えている。   The Japanese reading conversion unit 4 uses the rule database 3 to divide an English phonetic expression string corresponding to the alphabet character string into a plurality of alphabet character substrings into which the alphabet character string has been decomposed into a plurality of characters. From the conversion target information (input information) associated with the English pronunciation notation subsequence, the Japanese reading corresponding to the alphabet character string is output. In the present embodiment, the alphabet character partial string and the English pronunciation notation partial string associated with each other by the alphabet character string / phonetic notation association unit 2 are input as conversion target information (input information). In the present embodiment, the Japanese reading conversion unit 4 includes an English pronunciation notation Japanese reading conversion unit 401, an alphabetical notation Japanese reading correction unit 402, and a Japanese reading output unit 403.

上記英語発音表記日本語読み変換部401は、上記発音表記変換規則データベース301を用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた変換対象情報(入力情報)から、上記アルファベット文字列に対応する日本語読みと、アルファベット表記の参照要否情報とを出力する。上記アルファベット表記日本語読み補正部402は、上記英語発音表記日本語読み変換部401の出力結果に基づいて、アルファベット表記の参照を要する英語発音表記部分列について、上記補正規則データベース302を用いて、上記アルファベット文字列に対応する日本語読みを補正して出力する。上記日本語読み出力部403は、上記アルファベット表記日本語読み補正部402から出力された日本語読みの形式を調整して出力する。   The English phonetic notation Japanese reading conversion unit 401 uses the phonetic notation conversion rule database 301 to generate an English phonetic notation corresponding to the alphabet character string for each of the alphabet character substrings obtained by dividing the alphabet character string into a plurality of parts. From the conversion target information (input information) associated with the English pronunciation notation subsequence in which the sequence is divided into a plurality, the Japanese reading corresponding to the alphabetic character string and the reference necessity information in alphabetic notation are output. Based on the output result of the English pronunciation notation Japanese reading conversion unit 401, the alphabet notation Japanese reading correction unit 402 uses the correction rule database 302 for the English pronunciation notation subsequence that requires alphabetical reference. Correct and output Japanese readings corresponding to the above alphabetic character strings. The Japanese reading output unit 403 adjusts and outputs the Japanese reading format output from the alphabetical Japanese reading correction unit 402.

本実施の形態では、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力する。また、上記英語発音表記日本語読み変換部401及びアルファベット表記日本語読み補正部402において、日本語読みの発音が複数候補存在する場合は、一つの英語発音表記列に対して複数の日本語読みを出力する。例えば、日本語読みの発音が複数候補として出力された箇所(英語発音表記部分列)について、入力されたアルファベット文字列に対する日本語読みが複数存在するものとして、確からしさを示す指標を付与して出力を行う。なお、上記構成において複数読みが存在しない場合は、読みが一つに決定されたものとして出力を行う。   In this embodiment, an index indicating the certainty is attached to the Japanese readings output for the English phonetic notation string and output. In addition, in the above-mentioned English pronunciation notation Japanese reading conversion unit 401 and alphabetical notation Japanese reading correction unit 402, if there are a plurality of pronunciations of Japanese readings, a plurality of Japanese readings for one English pronunciation notation sequence are provided. Is output. For example, for a place where pronunciations of Japanese readings are output as multiple candidates (English pronunciation notation subsequence), an index indicating the certainty is given assuming that there are multiple Japanese readings for the input alphabetic character string. Output. If there are no multiple readings in the above configuration, output is performed assuming that one reading is determined.

次に、動作について説明する。
本実施の形態では、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列との対を入力とする。アルファベット文字列に対する英語発音表記は、例えば英語用に整備されたアルファベット文字列(英単語)とその発音表記を記述したデータベースを使用して取得されたもの、あるいは、アルファベット文字列(英語表記)から英語発音表記(音素表記)に変換するプログラムを使用して英語発音表記に変換されたもの等で得られる。
このように、英語用に整備された読みデータベースや、英語表記から読みへの変換プログラムと組み合わせることにより、簡易かつ低コストで、アルファベット文字列に対応する英語発音表記を得ることができる。
Next, the operation will be described.
In the present embodiment, a pair of an alphabet character string and an English phonetic notation character string corresponding to the alphabet character string is input. English phonetic notation for alphabetical character strings is obtained from, for example, an alphabetic character string (English word) prepared for English and a database describing its phonetic notation, or from an alphabetic character string (English notation) It is obtained by converting it into English phonetic notation using a program that converts it into English phonetic notation (phoneme notation).
In this way, by combining with a reading database prepared for English and a program for converting English notation into reading, English pronunciation notation corresponding to an alphabet character string can be obtained easily and at low cost.

アルファベット文字列・発音表記対応付け部2は、発音対応付け用データベース1に格納されているアルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データを用いて、入力されたアルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付け、その情報を出力する。   The alphabet string / phonetic notation association unit 2 uses the pronunciation association data in which the alphabetic notation stored in the pronunciation association database 1 and the English pronunciation notation corresponding to the alphabetic notation are associated with each other. The input alphabet character string and the English pronunciation notation string corresponding to the alphabet character string are decomposed into a plurality of alphabet character substrings and English pronunciation notation substrings, respectively, and the decomposed alphabet character substring and English pronunciation Corresponds to the notation subsequence and outputs the information.

図3は、発音対応付け用データベース1に格納されているアルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データの例を示す。図3において、アルファベット表記、及び英語発音表記はそれぞれ1文字以上からなる文字列である。またアルファベット表記と英語発音表記との対応付けは一対一である必要はなく、一対多あるいは多対多の対応付けであってもかまわない。   FIG. 3 shows an example of pronunciation association data in which the alphabet notation stored in the pronunciation association database 1 is associated with the English pronunciation notation corresponding to the alphabet notation. In FIG. 3, the alphabetic notation and the English pronunciation notation are character strings each consisting of one or more characters. Further, the correspondence between alphabetic notation and English pronunciation notation is not necessarily one-to-one, and may be one-to-many or many-to-many correspondence.

また、対応付けの方法としてはDPマッチングなどで対応付けをおこなう。また各対応付けに確率をつけ、例えば、アルファベット表記Aに対して英語発音表記Bが出現する確率をP(B|A)と表記する場合、P(/e_H i/,a)=0.2、P(/{_H/,a)=0.1などとして、最大確率をとるものを選択しても良い。   Further, as a method of association, association is performed by DP matching or the like. Also, a probability is assigned to each association. For example, in the case where the probability of English pronunciation notation B appearing with respect to alphabet notation A is denoted as P (B | A), P (/ e_Hi /, a) = 0.2 , P (/ {_ H /, a) = 0.1 or the like may be selected so as to obtain the maximum probability.

次に、日本語読み変換部4は、規則データベース3を用いて、上記アルファベット文字列・発音表記対応付け部2で対応付けられたアルファベット文字部分列と英語発音表記部分列とを変換対象情報(入力情報)として、上記アルファベット文字列に対応する日本語読みを出力する。   Next, the Japanese reading conversion unit 4 uses the rule database 3 to convert the alphabet character substring and the English pronunciation notation subsequence associated with each other by the alphabet character string / phonetic notation association unit 2 into the conversion target information ( Japanese input corresponding to the above-mentioned alphabet character string is output as input information).

以下、日本語読み変換部4の動作について説明する。
まず、「英語発音表記からの日本語読み生成」を行う。
英語発音表記日本語読み変換部401は、英語発音表記列から日本語読み候補を作成すると共に、アルファベット表記の参照要否情報を出力する。英語発音表記列から日本語読み変換は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、に基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データにより変換を行う。この規則データは、発音表記変換規則データベース301に格納されている。
The operation of the Japanese reading conversion unit 4 will be described below.
First, "Generate Japanese readings from English pronunciation notation" is performed.
The English phonetic transcription Japanese reading conversion unit 401 creates Japanese reading candidates from the English phonetic transcription string and outputs alphabetical reference necessity information. Based on the English phonetic notation and the English phonetic notation connected before and after the English phonetic notation, the English phonetic notation sequence and the Japanese phonetic conversion are as follows. Conversion is performed using rule data associated with. This rule data is stored in the pronunciation notation conversion rule database 301.

図4は、発音表記変換規則データベース301に格納されている規則データ例を示す。
なお、図4では日本語の発音表記は音素表記、英語発音表記はX-SAMPA形式で表している。また、図4において、発音の先行、後続欄に記述されている「#」は無音を表し、先行に「#」が記述されている発音表記は先頭、後続に「#」が記述されている場合は最後尾であることを表している。また、「*」は任意の表記をあらわしているものであり、例えば発音先行欄に「*」が記述されている場合は、先行発音表記によらずに同じ変換を行うことを示している。また、「*」が記述されている場合は表記によらずに変換を行うことを意味し、表記欄に「参照」と記載されている規則はアルファベット表記に依存して日本語読みが変わることを意味している。また、この規則データで変換される日本語読みについて、複数の読みを指定することも可能である。
英語発音表記日本語読み変換部401は、表記欄に「参照」と記載されている場合、規則データに記載されている読みに一度変換すると共に、アルファベット表記参照用フラグ(アルファベット表記の参照要否情報)を立てておく。
FIG. 4 shows an example of rule data stored in the pronunciation notation conversion rule database 301.
In FIG. 4, Japanese phonetic notation is expressed in phoneme notation, and English phonetic notation is expressed in X-SAMPA format. In FIG. 4, “#” described in the preceding and succeeding pronunciation columns represents silence, and the pronunciation notation in which “#” is preceded is described in the beginning and “#” is described in the following. The case represents the tail. “*” Represents an arbitrary notation. For example, when “*” is described in the pronunciation preceding column, it indicates that the same conversion is performed regardless of the preceding pronunciation notation. In addition, if “*” is written, it means that conversion is performed without depending on the notation, and the rules that have “reference” in the notation column change the Japanese reading depending on the alphabet notation. Means. It is also possible to specify a plurality of readings for Japanese readings converted by this rule data.
In the case where “reference” is written in the notation column, the English phonetic notation Japanese reading conversion unit 401 converts the reading into the reading described in the rule data once, and the alphabet notation reference flag (whether or not to refer to the alphabet notation). Information).

以下に、英語発音表記日本語読み変換部401における日本語読み変換処理の例を示す。
例えば、trouble (/trV_Hbl/)に対して図4に示す規則で変換を行うと、先行発音表記なし(先頭)で後続発音表記が/r/の発音表記/t/に対する日本語読みは/to/、先行発音表記が/t/で後続発音表記が/V_H/(母音)の発音表記/r/に対する日本語読みは/r/、発音表記/V_H/に対する日本語読みは/a/、後続発音表記が/l/(子音)の発音表記/b/に対する日本語読みは/bu/、最後(後続母音なし)の発音表記/l/に対する日本語読みは/ru/となる。以上の変換により、trouble (/trV_Hbl/)の日本語読みは /toraburu/となる。
An example of Japanese phonetic conversion processing in the English phonetic transcription Japanese reading conversion unit 401 is shown below.
For example, if trouble (/ trV_Hbl /) is converted according to the rules shown in FIG. 4, the pronunciation of Japanese for the pronunciation notation / t / with no preceding pronunciation notation (first) and the following pronunciation notation is / to / /, Japanese pronunciation for / t /, preceding pronunciation notation / t / and subsequent pronunciation notation / V_H / (vowel) / r /, Japanese reading for / r /, pronunciation / V_H / The Japanese pronunciation for the pronunciation notation / b / with the pronunciation notation / l / (consonant) is / bu /, and the Japanese reading for the pronunciation notation / l / at the end (no subsequent vowel) is / ru /. With the above conversion, the Japanese reading of trouble (/ trV_Hbl /) is / toraburu /.

また、animal(/{_Hn@m@l/)の場合は、後続が子音する/{_H/に対する日本語読みが/a/、母音が後続する/n/に対する日本語読みが/n/、/@/は表記参照のため、以後のステップで補正するためのアルファベット表記参照用フラグ(アルファベット表記の参照要否情報)が立てられ、日本語読みとしては/{a,o}/(/a/または/o/)となる。母音が後続する/m/の日本語読みは/m/、語尾の/l/の日本語読みは/ru/にとなる。したがって本ステップでのanimal(/{_Hn@m@l/)日本語読み結果は、/an{a,o}m{a,o}ru/となり、英語発音表記/@/の箇所にアルファベット表記参照用フラグ(アルファベット表記の参照要否情報)が立てられる。   In the case of animal (/ {_ Hn @ m @ l /), the subsequent consonant is / {_ H / is the Japanese reading for / a /, the vowel is followed by / n / is the Japanese reading is / n /, Since / @ / is notation reference, an alphabet notation reference flag (alphabet notation reference necessity information) is set for correction in the subsequent steps, and / {a, o} / (/ a / Or / o /). The Japanese reading of / m / followed by a vowel is / m /, and the Japanese reading of / l / at the end is / ru /. Therefore, the animal (/ {_ Hn @ m @ l /) Japanese reading result at this step is / an {a, o} m {a, o} ru /, and is written in English pronunciation / @ / A reference flag (alphabetic reference necessity information) is set.

次に、「アルファベット表記による日本語読みの補正」を行う。
アルファベット表記日本語読み補正部402において、上記英語発音表記日本語読み変換部401の出力結果に基づいて、アルファベット表記の参照を要する英語発音表記部分列(アルファベット表記参照用フラグが立っている箇所)について、上記補正規則データベース302を用いて、発音表記と対応する箇所のアルファベット表記を参照し、日本語読みを補正して出力する。
Next, “correction of Japanese readings in alphabetical notation” is performed.
Based on the output result of the above-mentioned English pronunciation notation Japanese reading conversion unit 401, the English pronunciation notation correcting unit 402 requires English reference notation substrings (where the alphabet notation reference flag is set). Is corrected with reference to the alphabet notation of the portion corresponding to the phonetic notation using the correction rule database 302, and is output.

補正規則データベース302には、上記アルファベット表記日本語読み補正部402において、アルファベット表記を参照して日本語読みの補正を行う際に使用される規則データが格納されている。
図5は、補正規則データベース302に格納されている規則データの例を示す。
The correction rule database 302 stores rule data that is used when the alphabet reading Japanese reading correction unit 402 corrects Japanese reading with reference to the alphabet notation.
FIG. 5 shows an example of rule data stored in the correction rule database 302.

以下に、アルファベット表記日本語読み補正部402における補正処理の例を示す。
animal(/{_Hn@m@l/)を例に取ると、英語発音表記日本語読み変換部401で日本語読みに変換した結果/an{a,o}m{a,o}ru/となるが、英語発音表記/@/の2箇所にはアルファベット表記参照用フラグ(アルファベット表記の参照要否情報)が立っている。最初の/@/に関しては、先行発音表記/n/(子音)、後続発音表記/m/(子音)で、対応するアルファベット表記は「i」である。このため図5の規則データから日本語読みは/i/となる。また、2番目の/@/に関しては、先行発音表記/m/(子音)、後続発音表記/l/(子音)で、対応するアルファベット表記は「a」である。このため図5の規則から日本語読みは/a/となる。以上のように補正した結果、日本語読みは/animaru/となる。
Hereinafter, an example of correction processing in the alphabetical Japanese reading correction unit 402 will be described.
Taking animal (/ {_ Hn @ m @ l /) as an example, the result of conversion to Japanese reading by the English pronunciation notation Japanese reading conversion unit 401 / an {a, o} m {a, o} ru / However, alphabetic notation reference flags (alphabet notation reference necessity information) are set at two locations of English pronunciation notation / @ /. The first / @ / is precedent pronunciation notation / n / (consonant), subsequent pronunciation notation / m / (consonant), and the corresponding alphabet notation is “i”. Therefore, the Japanese reading is / i / from the rule data of FIG. The second / @ / is preceded pronunciation notation / m / (consonant), subsequent pronunciation notation / l / (consonant), and the corresponding alphabet notation is “a”. Therefore, the Japanese reading is / a / based on the rule of FIG. As a result of the correction as described above, the Japanese reading is / animaru /.

この母音/@/は、日本語の母音/a/、/e/、/i/、/o/、/u/とはことなる発音であり、中間的な発音となることから曖昧母音などとも呼ばれている。この母音が使用される英単語の例として他に例えば、system(/sI_Hst@m/)、supply(/s@plA_HI/)等がある。これらは通常日本語読みで表記するとシステム(/sisutemu/)、サプライ(/sapurai/)となり、英語発音表記/@/がそれぞれ、/e/、/a/となっていることがわかる。   This vowel / @ / is a pronunciation different from Japanese vowel / a /, / e /, / i /, / o /, / u / being called. Other examples of English words that use this vowel include system (/ sI_Hst @ m /), supply (/ s @ plA_HI /), and the like. When these are normally written in Japanese readings, they become a system (/ sisutemu /) and a supply (/ sapurai /), and the English pronunciation notation / @ / is / e / and / a /, respectively.

また、英語発音表記のみでは特定でずに、英語表記に影響を受ける子音の例として/n/がある。例えば、panel(/p{_Hnl/)、Stanley(/st{_Hnli/)、final(/fA_HInl/)、vinyl(/vA_HInl/)などがある。これらは、通常日本語読みで表記すると、パネル(/paneru/)、スタンリー(/sutaNrii/)、ファイナル(/fainaru/)、ビニール(/biniiru/)となり、英語発音表記/n/が日本語読みではそれぞれ/ne/、/N/、/na/、/ni/となっていることがわかる。これらの例では英語発音表記/n/に後続する英語発音表記は/l/であり、さらに先行発音表記が同じものでも日本語読みが異なっていることがわかる。この時、英語発音表記/n/に対応するアルファベット文字列はne、n、na、nyとなっている。この様な場合でも補正規則データベース302に記憶されている規則データを用いてそれぞれ、/ne/、/N/、/na/、/ni/に変換する。   In addition, there is / n / as an example of a consonant that is not specified only by English pronunciation notation but is affected by English notation. For example, panel (/ p {_Hnl /), Stanley (/ st {_Hnli /), final (/ fA_HInl /), vinyl (/ vA_HInl /), and the like. These are usually written in Japanese readings: panel (/ paneru /), stanley (/ sutaNrii /), final (/ fainaru /), vinyl (/ biniiru /), and English pronunciation notation / n / Then, it can be seen that they are / ne /, / N /, / na /, and / ni /, respectively. In these examples, the English pronunciation notation following the English pronunciation notation / n / is / l /, and it can be seen that the Japanese pronunciation is different even if the preceding pronunciation notation is the same. At this time, the alphabet string corresponding to the English pronunciation notation / n / is ne, n, na, ny. Even in such a case, the data is converted to / ne /, / N /, / na /, / ni / using the rule data stored in the correction rule database 302, respectively.

次に、「曖昧性が解消できなかった場合の処理」を行う。
日本語読み出力部403において、上記英語発音表記日本語読み変換部401及びアルファベット表記日本語読み補正部402において、日本語読みの発音が複数候補として出力された箇所について、入力されたアルファベット文字列に対する日本語読みが複数存在するものとして確からしさを示す指標(スコア(確率))を付与して出力を行う。なお、上記構成において複数読みが存在しない場合は、読みが一つに決定されたものとして出力を行う。また、確からしさを示す指標(スコア(確率))について、アルファベット文字列に対する日本語読み全体に対して付与する。また、日本語読みの発音が複数候補として出力された箇所について付与する。また、各アルファベット文字部分列又は各英語発音表記部分列について付与する。これらのいずれか少なくとも1つの指標を付与するものとする。
Next, “processing when ambiguity cannot be resolved” is performed.
In the Japanese reading output unit 403, the alphabetic character string input for the portion where the pronunciation of the Japanese reading is output as a plurality of candidates in the English pronunciation notation Japanese reading conversion unit 401 and the alphabet notation Japanese reading correction unit 402. An index (score (probability)) indicating the certainty is assigned and output, assuming that there are multiple Japanese readings for. If there are no multiple readings in the above configuration, output is performed assuming that one reading is determined. Also, an index (score (probability)) indicating the certainty is given to the entire Japanese reading for the alphabet character string. In addition, it is given for a portion where pronunciation of Japanese reading is output as a plurality of candidates. Moreover, it assign | provides about each alphabet character substring or each English pronunciation notation subsequence. Any one of these indices shall be given.

また、日本語読みの候補として出力された箇所のうち、日本語読みとして妥当でないものにたいしての補正や、長音化処理も行う。
例えば、日本語読みが複数存在するものとして出力される例として、発音記号列/k{_Hn/、対応するアルファベット文字列 can のような例がある。このような英単語としては、canada(/k{_Hn@d@/)、canopy(/k{_Hn@pi/)、canvas(/k{_Hnv@s/)などでありこれらのアルファベット文字列に対する日本語読みはそれぞれ、カナダ(/kanada/)、キャノピー(/kjanopii/)、キャンバス(/kjaNbasu/)となるが、canvasについてはカンバス(kaNbasu)と読む場合もあり、日本語読みとして/ka/、/kja/のどちらを割り当てることが難しい。この様な場合、日本語読みとしては/ka/、/kja/双方の読みがあるとして複数の候補が割り当てる。例えば、canada(/k{_Hn@d@/)に対しては、カナダ(/kanada/)及びキャナダ(/kjanada/)の2種類となる。
In addition, correction is made for a portion that is output as a candidate for Japanese reading, which is not appropriate as a Japanese reading, and a lengthening process is also performed.
For example, as an example that is output as a plurality of Japanese readings, there is an example such as phonetic symbol string / k {_Hn /, corresponding alphabetic character string can. Examples of such English words include canada (/ k {_Hn @ d @ /), canopy (/ k {_Hn @ pi /), canvas (/ k {_Hnv @ s /), etc. The Japanese readings are Canada (/ kana /), canopy (/ kjanopii /), canvas (/ kjaNbasu /), but canvas may be read as canvas (kaNbasu). , / Kja / is difficult to assign. In such a case, a plurality of candidates are assigned on the assumption that there are both / ka / and / kja / readings in Japanese. For example, for canada (/ k {_Hn @ d @ /), there are two types, Canada (/ kanada /) and canada (/ kjana /).

この2種類の複数読みの出力方法としては、/kanada/、/kjanada/とそのまま複数出力する方法以外に、/{ka,kja}nada/のように一部に複数読みが存在する箇所を指定して出力する方法がある。また、各データベース(発音表記変換規則データベース301、補正規則データベース302)で複数読みが存在する場合にその読みが選択される確率をあらかじめ定めておくことで、日本語読み出力部403の出力時に各読み確率を付与して/{ka:0.8,kja:0.2}nada/のように出力することも可能である。   As the output method of these two types of multiple reading, in addition to the method of outputting multiple as it is as / kana /, / kjana /, a part where multiple readings exist in a part such as / {ka, kja} nada / is specified. There is a way to output. In addition, when a plurality of readings exist in each database (pronunciation notation conversion rule database 301 and correction rule database 302), the probability of selecting the reading is determined in advance, so that each Japanese reading output unit 403 can output each reading. It is also possible to output such as /{ka:0.8, kja: 0.2} nada / by giving a reading probability.

また、日本語読みとして適当でないものの例としては、撥音(/N/,ン)や、促音(/Q/,ッ)など接続関係がある。例えば撥音が語頭にくる場合や、撥音が連続するような場合は通常ないため、このような場合、当該撥音を削除するなどして日本語読みとして適当な文字列になるように変更する。促音に関しても語等や語尾に現れるような場合、連続する場合は削除する。また促音に関しては母音が後続する場合や、後続する音素が/m/、/n/、/r/、/w/の場合ように通常促音が使用されない箇所においても削除、もしくは/cu/などへの置き換えを行う。また、エイ/ei/、オウ/ou/のように長音化しやすいものに関しては、日本語読みとして/{ei,ee}/、/{ou,oo}/のように長音化した日本語読みも複数候補として出力する。   Examples of things that are not suitable for Japanese reading include connection relations such as sound repellent (/ N /, n) and prompt sounds (/ Q /, t). For example, there is usually no case where the sound repellent comes to the beginning of the word or when the sound repellent continues. In such a case, the sound repellent is deleted so that the character string is changed to an appropriate character string for Japanese reading. When sounding sounds appear at the end of a word or the like, they are deleted if they are consecutive. As for the prompting sound, it is deleted even when the normal prompting sound is not used, such as when the vowel follows or when the following phoneme is / m /, / n /, / r /, / w /, or to / cu /, etc. Is replaced. In addition, for items that are prone to lengthening sounds such as ray / ei / and ou / ou /, Japanese readings with long sound like / {ei, ee} /, / {ou, oo} / Output as multiple candidates.

以上のように、「英語発音表記からの日本語読み生成」、「アルファベット表記による日本語読みの補正」、「曖昧性が解消できなかった場合の処理」を行い、入力されたアルファベット文字列に対応する日本語読みを出力する。
なお、本実施の形態では、日本語読み変換部4の動作説明を、英語発音表記日本語読み変換部401によリ一度日本語読みに変換したあと、表記を参照する必要がある箇所について、アルファベット表記日本語読み補正部402により日本語読みを補正し、最後に日本語読み出力部403により出力するものとして説明したが、上記構成を同時に動作させても良い。
また、発音表記変換規則データベース301と補正規則データベース302とを統合し、一つの規則データベースとして用いても良い。
As described above, "Generation of Japanese readings from English phonetic notation", "Correction of Japanese readings by alphabetic notation", and "Processing when ambiguity cannot be resolved" are applied to the input alphabet string. Output the corresponding Japanese reading.
In the present embodiment, the operation description of the Japanese reading conversion unit 4 is converted into Japanese readings once by the English pronunciation notation Japanese reading conversion unit 401, and then the notation needs to be referred to. Although it has been described that Japanese reading is corrected by the alphabetical Japanese reading correction unit 402 and is finally output by the Japanese reading output unit 403, the above-described configuration may be operated simultaneously.
Further, the pronunciation notation conversion rule database 301 and the correction rule database 302 may be integrated and used as one rule database.

また、上記述べた実施の形態において、上記の全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラム実行したり、CPU等の組み込みソフトウエアやファームウエアとしてプログラム実行することで達成できるものである。また、同様の動作をする回路、例えばLSI(Large Scale IC)、FPGA(Field Programmable Gate Array)、論理IC等の集積回路で実現しても良いし、あるいはディスクリート素子を組み合わせて実現しても良い。   In the embodiment described above, all or some of the above functions can be achieved by executing a program as software such as a personal computer or by executing a program as embedded software such as a CPU or firmware. It can be done. Further, it may be realized by an integrated circuit such as an LSI (Large Scale IC), an FPGA (Field Programmable Gate Array), or a logic IC, or may be realized by combining discrete elements. .

また、上記のソフトウエア等は、例えばROM、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、LAN、赤外線通信、Bluetooth、携帯電話のパケット通信等の有線・無線通信手段を用いてサーバコンピュータ上の記憶手段からダウンロードしたり、例えば、CD−ROM、CD−R、DVD、MOディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された上記ソフトウエアのプログラムコードが、上記実施の形態の機能を実現することとなり、これら記憶媒体等はこの発明を構成するものとなる。   The above software may be stored in advance in storage means such as a ROM, magnetic disk (hard disk, removable disk, etc.), nonvolatile semiconductor memory, etc. Download from storage means on the server computer using wired / wireless communication means such as infrared communication, Bluetooth, mobile phone packet communication, etc., for example, CD-ROM, CD-R, DVD, MO disk, magnetic disk ( (A hard disk, a removable disk, etc.), a non-volatile semiconductor memory, a magnetic tape or other storage medium, or a print medium such as a card printed with a barcode or the like. In this case, the program code of the software read from the storage medium or the like realizes the functions of the above-described embodiment, and these storage medium and the like constitute the present invention.

また、各部を同一の計算機上で構成する場合について説明したが、この発明はこれに限定されるものではなく、例えば、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。   Further, the case where each unit is configured on the same computer has been described, but the present invention is not limited to this, and for example, each unit may be configured by being divided into computers or processing devices distributed on a network. Good.

また、この発明は、1つ以上の複数の機器から構成されるシステムに適用しても良い。サーバコンピュータがこの発明の実施の形態を実現するプログラム等をネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータや、携帯電話、PDA等の携帯端末機器が配信されたプログラムを実行することができる。   In addition, the present invention may be applied to a system composed of one or more devices. The server computer distributes a program or the like for realizing the embodiment of the present invention using a communication means such as a network, and executes a program distributed by a plurality of client computers, mobile terminal devices such as mobile phones and PDAs. Can do.

以上のように、本実施の形態によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報について、当該入力情報の英語発音表記部分列と、当該英語発音表記部分列の前後に連接する英語発音表記と、上記英語発音表記部分列に対応するアルファベット表記とに基づいて、日本語読みを出力することにより、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る。   As described above, according to the present embodiment, the English pronunciation notation is based on the English pronunciation notation, the English pronunciation notation connected before and after the English pronunciation notation, and the alphabet notation corresponding to the English pronunciation notation. And the English pronunciation notation corresponding to the above-mentioned alphabet character string in each of the alphabet character substrings obtained by dividing the alphabet character string into a plurality of parts using the rule data in which the Japanese pronunciation corresponding to the English pronunciation notation is associated. For input information associated with English pronunciation notation subsequences that are divided into a plurality of columns, the English pronunciation notation subsequence of the input information, the English pronunciation notation concatenated before and after the English pronunciation notation subsequence, and the above English By outputting Japanese readings based on the alphabetical notation corresponding to the phonetic notation subsequence, Japanese readings can be identified with only English phonetic notation. Even If you do, because to read Japanese can be identified on the basis of alphabetical notation corresponding to the English pronunciation notation, it is possible to improve the accuracy of the Japanese reading conversion.

すなわち、例えば、英単語を日本人が読み上げる際には、日本語にはない英語母音(例えば、/@/)の日本語で使用される母音(/a/、/e/、/i/、/o/、/u/等)への置き換えや、連続する子音(/nl/)間への母音の挿入などが起きる。これらの置き換え/挿入は英語のアルファベット表記に影響を受けていることが多いため、日本語読み変換字に英語アルファベット表記を参照することにより、日本語読み変換の精度を向上させることが出来る。   That is, for example, when a Japanese reads out an English word, an vowel used in Japanese (/ a /, / e /, / i /, / O /, / u /, etc.) and insertion of vowels between consecutive consonants (/ nl /) occurs. Since these replacements / insertions are often influenced by the English alphabet notation, the accuracy of the Japanese reading conversion can be improved by referring to the English alphabet notation for the Japanese reading conversion characters.

また、本実施の形態においては、一つの英語発音表記列に対して複数の日本語読みを出力することにより、複数の読み方がありえる英単語や発音表記/アルファベット表記だけでは判断できないアルファベット文字列に対しても複数の読みを付与するので、より日本人の発音に近い読みを出力することが可能となる。   Also, in the present embodiment, by outputting a plurality of Japanese readings for one English phonetic notation string, it is possible to create an English character string that can have a plurality of readings and an alphabet character string that cannot be determined only by phonetic notation / alphabet notation. Also, since multiple readings are given, it is possible to output readings closer to Japanese pronunciation.

また、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力することにより、出力された日本語読みの精度が分かるので、例えば、ユーザに日本語読みの確からしさを提示することが可能となる。   In addition, the accuracy of the output Japanese reading can be understood by adding an index indicating the certainty to the Japanese reading output for the English phonetic notation sequence. It is possible to present the certainty of reading.

また、一つの英語発音表記列に対して出力される読みに対し、当該日本語読みの各部分文字列ごとに、確からしさを示す指標を付与して出力することにより、より詳細に、出力された日本語読みの精度が分かるので、例えば、ユーザに日本語読みの確からしさを詳細に提示することが可能となる。   In addition, with respect to the readings output for one English phonetic notation string, each partial character string of the Japanese readings is output with an index indicating the certainty, which is output in more detail. Since the accuracy of Japanese reading can be understood, for example, the accuracy of Japanese reading can be presented in detail to the user.

また、アルファベット文字列に対応した英語発音表記に基づいて日本語読みを出力するので、英語圏向けの読みデータベースや、読み付与プログラムを使用することが可能となり、日本語向けのデータベースを新たに整備せずに済むため、コストを抑えることが出来る。   In addition, because Japanese pronunciation is output based on English phonetic notation corresponding to alphabetical character strings, it is possible to use a reading database for English-speaking countries and a reading grant program, and a new database for Japanese has been established. The cost can be reduced because it is not necessary.

また、アルファベット文字列に対応した英語発音表記に基づいて日本語読みを出力するので、人名や地名など固有の発音を行う英単語や、アーティスト名など特殊な記号を混ぜた表記を行っている文字列などに対しても、英語読み用のデータベースに存在していれば日本語読みに変換することが可能である。   Also, because Japanese pronunciation is output based on English phonetic notation corresponding to alphabetic character strings, English words that produce unique pronunciations such as names of people and places, and characters that are mixed with special symbols such as artist names Columns can be converted into Japanese readings if they exist in the English reading database.

曖昧母音に対応する日本語読みの例Example of Japanese reading corresponding to ambiguous vowels 本発明実施の形態1におけるアルファベット文字列日本語読み変換装置を示す構成図である。It is a block diagram which shows the alphabet character string Japanese reading conversion apparatus in Embodiment 1 of this invention. 本発明実施の形態1における発音対応付け用データの一例を示す説明図である。It is explanatory drawing which shows an example of the data for pronunciation matching in Embodiment 1 of this invention. 本発明実施の形態1における発音表記変換規則データベース301に格納されている規則データの一例を示す説明図である。It is explanatory drawing which shows an example of the rule data stored in the pronunciation notation conversion rule database 301 in Embodiment 1 of this invention. 本発明実施の形態1における補正規則データベース302に格納されている規則データの一例を示す説明図である。It is explanatory drawing which shows an example of the rule data stored in the correction rule database 302 in Embodiment 1 of this invention.

符号の説明Explanation of symbols

1 発音対応付け用データベース、2 アルファベット文字列・発音表記対応付け部、3 規則データベース、4 日本語読み変換部、301 発音表記変換規則データベース、302 補正規則データベース、401 英語発音表記日本語読み変換部、402 アルファベット表記日本語読み補正部、403 日本語読み出力部。   1 phonetic correspondence database, 2 alphabetic character string / phonetic notation correspondence unit, 3 rule database, 4 Japanese phonetic conversion unit, 301 phonetic phonetic conversion rule database, 302 correction rule database, 401 English phonetic phonetic Japanese phonetic conversion unit , 402 Alphabetic notation Japanese reading correction unit, 403 Japanese reading output unit.

Claims (6)

英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、
上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部と
を備えたことを特徴とするアルファベット文字列日本語読み変換装置。
Based on the English phonetic notation, the English phonetic notation connected before and after the English phonetic notation, and the alphabet notation corresponding to the English phonetic notation, the English phonetic notation and the Japanese pronunciation corresponding to the English phonetic notation are A rule database in which the associated rule data is stored;
Using the rule database, each of the alphabet character substrings obtained by dividing the alphabet character string into a plurality of pieces is associated with an English pronunciation notation substring obtained by dividing the English phonetic expression string corresponding to the alphabet character string into a plurality of pieces. And a Japanese reading conversion unit for outputting a Japanese reading corresponding to the alphabetic character string from the input information.
アルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データが格納された発音対応付け用データベースと、
上記発音対応付け用データベースを用いて、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付けるアルファベット文字列・発音表記対応付け部とを備え、
上記日本語読み変換部は、上記アルファベット文字列・発音表記対応付け部で分解されると共に対応付けられたアルファベット文字部分列と英語発音表記部分列とを入力情報として用いることを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。
A pronunciation association database storing pronunciation association data in which alphabetic expressions and English pronunciation expressions corresponding to the alphabetic expressions are associated;
Using the pronunciation association database, the alphabet character string and the English pronunciation notation string corresponding to the alphabet character string are decomposed into a plurality of alphabet character substrings and an English pronunciation notation substring, respectively, An alphabet character string / phonetic notation correspondence unit for correlating the alphabet character substring and the English phonetic notation subsequence,
The Japanese reading conversion unit uses the alphabet character substring and the English pronunciation notation partial sequence that are decomposed and correlated by the alphabet character string / phonetic notation association unit as input information. The alphabet character string Japanese reading conversion apparatus of 1.
上記日本語読み変換部は、一つの英語発音表記列に対して複数の日本語読みを出力することを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。   2. The alphabet character string Japanese reading conversion apparatus according to claim 1, wherein the Japanese reading conversion unit outputs a plurality of Japanese readings for one English phonetic expression string. 上記日本語読み変換部は、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力することを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。   2. The alphabetic character string Japanese according to claim 1, wherein the Japanese reading conversion unit assigns an index indicating the certainty to the Japanese reading output for the English phonetic expression string. Word reading conversion device. 上記日本語読み変換部は、一つの英語発音表記列に対して出力される読みに対し、当該日本語読みの各部分文字列ごとに、確からしさを示す指標を付与して出力することを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。   The Japanese reading conversion unit outputs a reading output for one English pronunciation notation string with an index indicating the certainty for each partial character string of the Japanese reading. The alphabet character string Japanese reading conversion device according to claim 1. アルファベット文字列を当該アルファベット文字列に対応する日本語読みへ変換するために、コンピュータを
英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出す規則データ読み出し手段と、
上記規則データ読み出し手段で読み出された規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換手段として機能させるためのアルファベット文字列日本語読み変換プログラム。
In order to convert an alphabet string into Japanese pronunciation corresponding to the alphabet string, the computer uses English pronunciation notation, English pronunciation notation connected before and after the English pronunciation notation, and alphabet notation corresponding to the above English pronunciation notation A rule data reading means for reading out the rule data from a rule database storing rule data in which the English pronunciation notation and the Japanese reading corresponding to the English pronunciation notation are associated with each other,
Using the rule data read by the rule data reading means, each of the alphabet character substrings into which the alphabetic character string has been decomposed into a plurality of parts is divided into English pronunciation notation strings corresponding to the alphabetic character strings. An alphabet character string Japanese reading conversion program for functioning as a Japanese reading conversion means for outputting Japanese readings corresponding to the above-mentioned alphabet character strings from input information associated with English pronunciation notation subsequences.
JP2008041602A 2008-02-22 2008-02-22 Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program Pending JP2009199434A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008041602A JP2009199434A (en) 2008-02-22 2008-02-22 Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008041602A JP2009199434A (en) 2008-02-22 2008-02-22 Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program

Publications (1)

Publication Number Publication Date
JP2009199434A true JP2009199434A (en) 2009-09-03

Family

ID=41142847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008041602A Pending JP2009199434A (en) 2008-02-22 2008-02-22 Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program

Country Status (1)

Country Link
JP (1) JP2009199434A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106857A (en) * 2012-11-29 2014-06-09 Mitsubishi Electric Corp Alphabet reading estimation device
JP2019096173A (en) * 2017-11-27 2019-06-20 株式会社GoGyoJapan Japanese character conversion program and Japanese character conversion device
US11809831B2 (en) 2020-01-08 2023-11-07 Kabushiki Kaisha Toshiba Symbol sequence converting apparatus and symbol sequence conversion method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339376A (en) * 1995-06-12 1996-12-24 Toshiba Corp Foreign language retrieving device and information retrieving system
JPH10124501A (en) * 1996-10-21 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> Method for adding japanese reading and device and program medium for adding japanese reading
JPH10198664A (en) * 1997-01-10 1998-07-31 Hitachi Chiyou Lsi Syst:Kk Japanese language input system and medium for recorded with japanese language input program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339376A (en) * 1995-06-12 1996-12-24 Toshiba Corp Foreign language retrieving device and information retrieving system
JPH10124501A (en) * 1996-10-21 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> Method for adding japanese reading and device and program medium for adding japanese reading
JPH10198664A (en) * 1997-01-10 1998-07-31 Hitachi Chiyou Lsi Syst:Kk Japanese language input system and medium for recorded with japanese language input program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106857A (en) * 2012-11-29 2014-06-09 Mitsubishi Electric Corp Alphabet reading estimation device
JP2019096173A (en) * 2017-11-27 2019-06-20 株式会社GoGyoJapan Japanese character conversion program and Japanese character conversion device
JP7144795B2 (en) 2017-11-27 2022-09-30 株式会社GoGyoJapan Japanese character conversion program and Japanese character conversion device
US11809831B2 (en) 2020-01-08 2023-11-07 Kabushiki Kaisha Toshiba Symbol sequence converting apparatus and symbol sequence conversion method

Similar Documents

Publication Publication Date Title
JP7280382B2 (en) End-to-end automatic speech recognition of digit strings
JP6251958B2 (en) Utterance analysis device, voice dialogue control device, method, and program
JP5874640B2 (en) Voice conversion device, mobile phone terminal, voice conversion method and program
US20070255567A1 (en) System and method for generating a pronunciation dictionary
US20110208507A1 (en) Speech Correction for Typed Input
JP2005258439A (en) Generating large unit of graphoneme with mutual information criterion for character-to-sound conversion
JP2008262279A (en) Speech retrieval device
JP5502814B2 (en) Method and system for assigning diacritical marks to Arabic text
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
JP2013050742A (en) Speech recognition device and speech recognition method
JP2009199434A (en) Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program
JP2012003090A (en) Speech recognizer and speech recognition method
JP2010164918A (en) Speech translation device and method
US8438005B1 (en) Generating modified phonetic representations of indic words
JP6619932B2 (en) Morphological analyzer and program
JP3950957B2 (en) Language processing apparatus and method
JP6625961B2 (en) Pronunciation dictionary and acoustic model generation device, speech recognition device, method and program
JP2009258369A (en) Speech recognition dictionary creation device and speech recognition processing device
WO2023073887A1 (en) Information processing system, information processing device, information processing method, and recording medium
US11893349B2 (en) Systems and methods for generating locale-specific phonetic spelling variations
CN116229994B (en) Construction method and device of label prediction model of Arabic language
US11809831B2 (en) Symbol sequence converting apparatus and symbol sequence conversion method
US11080488B2 (en) Information processing apparatus, output control method, and computer-readable recording medium
KR20010073506A (en) Method for measuring global distance between character strings of the korean language
Gafni A Universal System for Automatic Text-to-Phonetics Conversion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121218