JP2018067125A - Reading estimation device and program - Google Patents
Reading estimation device and program Download PDFInfo
- Publication number
- JP2018067125A JP2018067125A JP2016204893A JP2016204893A JP2018067125A JP 2018067125 A JP2018067125 A JP 2018067125A JP 2016204893 A JP2016204893 A JP 2016204893A JP 2016204893 A JP2016204893 A JP 2016204893A JP 2018067125 A JP2018067125 A JP 2018067125A
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- reading
- data
- string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、漢字の読みを推定する読み推定装置及びプログラムに関する。 The present invention relates to a reading estimation device and a program for estimating reading of a Chinese character.
漢字に付けるふりがなをルビという。ルビには、漢字1文字(単漢字)毎にふりがなを付けるモノルビと、漢字列全体に付けるグループルビとがある。例えば、固有名詞の漢字列「中央区」をモノルビで表すと、「中(チュウ)央(オウ)区(ク)」となり、グループルビで表すと、「中央区(チュウオウク)」となる。 The furigana attached to kanji is called ruby. There are two types of ruby: mono-ruby with furigana for each kanji (single kanji) and group ruby for the whole kanji string. For example, if the Chinese character string “Chuo-ku” of proper noun is represented by mono-ruby, it becomes “chuo-ku”, and if it is represented by group-ruby, it becomes “chuo-ku”.
従来、漢字にルビを自動的に付与するルビ自動付与手法が知られている。ルビ自動付与手法としては、グループルビに関するものが多いが(例えば、特許文献1,2及び非特許文献1,2を参照)、モノルビに関するものもある(例えば、特許文献3及び非特許文献3)。 Conventionally, a ruby automatic assigning method for automatically assigning ruby to a Chinese character is known. Many ruby automatic assignment methods are related to group ruby (see, for example, Patent Documents 1 and 2 and Non-Patent Documents 1 and 2), but there are also methods related to mono-ruby (for example, Patent Documents 3 and 3). .
非特許文献3のモノルビ自動付与手法は、漢字列及びその読みについて、機械学習により単漢字毎に自動的に対応付けを行うものである。そして、自動対応付け処理の後に、人手で作成した規則を用いて、その結果を修正するものである。 Non-Patent Document 3 automatically applies a mono-ruby method in which a kanji string and its reading are automatically associated for each single kanji by machine learning. Then, after the automatic association process, the result is corrected using a rule created manually.
図8は、従来の自動対応付け処理を説明するフローチャートである。従来の自動対応付け処理を行う装置(読み推定装置)は、図8に示す処理にて、機械学習により、漢字列及びその読みについて単漢字毎に対応付けを行うことで、単漢字毎の読み(モノルビ)を推定する。 FIG. 8 is a flowchart for explaining a conventional automatic association process. The conventional automatic association processing device (reading estimation device) performs the reading shown for each single kanji character by associating the kanji string and its reading for each single kanji character by machine learning in the processing shown in FIG. Estimate (mono ruby).
読み推定装置は、漢字列及びその読みデータを入力し(ステップS801)、漢字列を1文字毎の単漢字に分割すると共に、読みデータを1文字毎の読みに分割する(ステップS802)。 The reading estimation apparatus inputs a kanji string and its reading data (step S801), divides the kanji string into single kanji characters for each character, and divides the reading data into readings for each character (step S802).
例えば、読み推定装置は、漢字列「中央」及びその読み「チュウオウ」を入力し、漢字列「中央」を「中」「央」に分割し、読み「チュウオウ」を「チュ」「ウ」「オ」「ウ」に分割する。 For example, the reading estimation device inputs a kanji string “center” and its reading “chuo”, divides the kanji string “center” into “middle” and “middle”, and converts the readings “chuo” into “chu” “u” “ Divide into “O” and “U”.
読み推定装置は、漢字列を構成する1文字毎の単漢字と、読みデータを構成する1文字毎の読みとを対応させた全ての組み合わせを生成し、機械学習により、組み合わせ毎の対応確率値を算出する(ステップS803)。 The reading estimation device generates all combinations in which a single kanji for each character constituting the kanji string and a reading for each character constituting the reading data are associated, and the corresponding probability value for each combination is generated by machine learning. Is calculated (step S803).
前記例では、読み推定装置は、漢字列「中央」及び読み「チュウオウ」について、「中:チュ」「中:ウ」「中:オ」「央:チュ」「央:ウ」「央:オ」の6通りの組み合わせを生成する。「:」は対応を示す。 In the above-described example, the reading estimation apparatus has “middle: chu”, “middle: u”, “middle: o”, “middle: chu”, “middle: u”, and “middle: ”Are generated. “:” Indicates correspondence.
そして、読み推定装置は、様々な漢字列及び読みについて、例えば機械学習としてEMアルゴリズムを適用し、組み合わせ毎の対応確率値を算出する。例えば、漢字列「中央」「中学」「中紀」及びそれらの読み「チュウオウ」「チュウガク」「チュウキ」について、組み合わせ毎の対応確率値は以下のようになる。
P(央|ウ)=0.748288、P(央|オ)=1.000000、P(学|ウ)=0.001401、
P(学|ガ)=1.000000、P(学|ク)=1.000000、P(紀|ウ)=0.250310、
P(紀|キ)=1.000000、P(中|チュ)=1.000000、
尚、その他の組み合わせの対応確率値は0である。
Then, the reading estimation apparatus applies an EM algorithm as machine learning, for example, to various kanji strings and readings, and calculates a corresponding probability value for each combination. For example, for the Chinese character strings “center”, “junior high school”, “medium” and their readings “chuo”, “chugaku”, “chuuki”, the corresponding probability values for each combination are as follows.
P (central | U) = 0.748288, P (central | o) = 1.00000, P (Study | U) = 0.040140,
P (Study | Ga) = 1.00000, P (Study | Ku) = 1.00000, P (Ki | U) = 0.503310,
P (ki | ki) = 1.00000, P (medium | chu) = 1.00000,
Incidentally, the corresponding probability value of other combinations is 0.
読み推定装置は、組み合わせ毎の対応確率値に基づいて、単漢字と読みとを対応付ける(ステップS804)。前記例では、読み推定装置は、漢字列「中央」及び読み「チュウオウ」(1文字毎の読み「チュ」「ウ1」「オ」「ウ2」)について、対応確率値の高いものから適用し、単漢字と読みとを対応付け「中:チュ」「央:ウ1」「央:オ」「央:ウ2」を特定する。「ウ1」は第1番目の「ウ」を示し、「ウ2」は第2番目の「ウ」を示す。 The reading estimation apparatus associates a single kanji character with a reading based on the corresponding probability value for each combination (step S804). In the above example, the reading estimation device applies the kanji character string “center” and the reading “chuo” (reading “chu” “u1” “o” “u2” for each character in descending order of the corresponding probability values. Then, a single Chinese character and a reading are associated with each other, and “middle: chu”, “middle: u1”, “middle: o”, “middle: u2” are specified. “U1” indicates the first “U”, and “U2” indicates the second “U”.
漢字列「中央」及び読み「チュウオウ」について、対応確率値が高いものから適用すると、以下のようになる。
P(中|チュ)=1.000000
P(央|オ)=1.000000
P(央|ウ1)=0.748288
P(央|ウ2)=0.748288
When the kanji character string “center” and the reading “chuo” are applied in descending order of the corresponding probability values, they are as follows.
P (Medium | Ju) = 1.00000
P (center | o) = 1.00000
P (central | U 1) = 0.748288
P (Center | U2) = 0.748288
読み推定装置は、モノルビ付き漢字列を生成し、出力する(ステップS805)。前記例では、読み推定装置は、漢字列「中央」及び読み「チュウオウ」について、モノルビ付き漢字列「中(チュ)央(ウオウ)」を生成し、出力する。 The reading estimation device generates and outputs a kanji string with mono-ruby (step S805). In the above example, the reading estimation device generates and outputs a Chinese character string “Chuo” with mono-ruby for the Chinese character string “center” and the reading “chuo”.
このように、図8に示した従来技術の自動対応付け処理では、例えば、漢字列「中央」及び読み「チュウオウ」について、機械学習により単漢字と読みとの対応付けを行うと、モノルビ付き漢字列は、「中(チュ)央(ウオウ)」となる。 Thus, in the automatic matching process of the prior art shown in FIG. 8, for example, when the kanji string “center” and the reading “chuo” are associated with single kanji and reading by machine learning, the kanji with monorubi The column will be “Chu”.
このような誤った対応付けがなされるのは、「中」の読みが「チュウ」だけでなく「ナカ」もあり、「央」の読みが「オウ」であることがほとんどであり、機械学習によれば、対応確率値がP(中|ウ)<P(央|ウ)となるからである。この対応確率値は、漢字列「中央」及び読み「チュウオウ」について、単漢字「中」に読み「ウ」を対応付ける確率よりも、単漢字「央」に読み「ウ」を対応付ける確率の方が高いことを示している。つまり、読み「チュウオウ」のうちの第1番目の読み「ウ」は、単漢字「中」ではなく、単漢字「央」に対応付けられてしまう。 The reason for this incorrect correspondence is that “medium” readings are not only “chu” but also “naka”, and “center” readings are mostly “o”. This is because the corresponding probability value is P (middle | w) <P (center | w). This correspondence probability value is greater for the kanji character string “center” and the reading “chuo” than the probability that the reading “u” is associated with the single kanji character “middle” rather than the probability that the reading “u” is associated with the single kanji character “middle”. It is high. In other words, the first reading “c” of the reading “chuo” is associated with the single kanji character “middle” rather than the single kanji character “middle”.
このような誤った対応付けがなされた後、人手で作成した規則を用いて、その結果が修正される。例えば、以下の規則aが用いられる。
<規則a>
読み「チュ」は、1文字のみでは漢字と対応付けしないで、次の読みもその漢字に対応付ける。
After such an incorrect association, the result is corrected using a rule created manually. For example, the following rule a is used.
<Rule a>
The reading “Ju” is not associated with a kanji by only one character, and the next reading is also associated with the kanji.
「中(チュ)」は、単漢字「中」と1文字のみの読みとの対応付けとなるから、前記規則aを用いることにより、次の読み「ウ」も単漢字「中」に対応付けられる。これにより、「中(チュ)」は「中(チュウ)」に修正される。 “Chu” associates the single kanji character “middle” with the reading of only one character. By using the rule a, the next reading “c” is also associated with the single kanji character “middle”. It is done. As a result, “chu” is corrected to “chu”.
一方、読み「ウオウ」のうちの第1番目の読み「ウ」は、単漢字「中」に対応付けられたから、残りの読み「オウ」は、漢字「央」に対応付けられる。その結果、固有名詞の漢字列「中央」及び読み「チュウオウ」について、正しく対応付けられたモノルビ付き漢字列「中(チュウ)」「央(オウ)」が得られる。 On the other hand, since the first reading “U” of the reading “Woo” is associated with the single Chinese character “Middle”, the remaining reading “O” is associated with the Chinese character “Center”. As a result, for the proper noun kanji character string “center” and the reading “chuo”, the kanji character strings “middle (chu)” and “middle (ou)” with mono-ruby correctly associated are obtained.
前述したとおり、従来のモノルビ自動付与手法は、漢字列及びその読みについて、機械学習により、単漢字と読みとの対応付けを行い、モノルビ付き漢字列を生成し、そして、人手で作成した規則を用いて、推定したモノルビ付き漢字列を修正する。 As described above, the conventional mono-ruby automatic assignment method uses a machine learning to associate a single kanji and a reading for a kanji string and its reading, generates a kanji string with mono rubi, and manually creates a rule. Use to correct the estimated Kanji string with mono-ruby.
しかしながら、従来のモノルビ自動付与手法において、モノルビ付き漢字列の精度を上げるためには、多くの規則を用いる必要がある。規則は、予め人手で作成されるものであるから、手間がかかるという問題があった。 However, in order to increase the accuracy of kanji strings with mono-ruby in the conventional mono-ruby automatic assignment method, it is necessary to use many rules. Since the rules are created manually in advance, there is a problem that it takes time.
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能な読み推定装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above-mentioned problems, and its object is to provide a reading estimation apparatus and program capable of generating a kanji string with monorubi with high accuracy without using a manually created rule. Is to provide.
前記課題を解決するために、請求項1の読み推定装置は、見出し語及びその読みデータから単漢字毎の読みを推定し、モノルビ付き漢字列を生成する読み推定装置において、見出し語及び当該見出し語の読みデータを入力し、前記見出し語、前記読みデータ及び対応付けデータを含む辞書を格納する辞書格納部と、前記見出し語である漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成する漢字複製部と、前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応付けた前記対応付けデータを生成する漢字及び読み対応付け部と、前記辞書格納部から前記対応付けデータを読み出し、前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記見出し語のモノルビ付き漢字列を生成する漢字復元部と、を備え、前記漢字及び読み対応付け部が、前記辞書格納部に格納された前記辞書を用いて、前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記対応付けデータを生成し、前記辞書格納部が、前記漢字及び読み対応付け部により生成された前記対応付けデータを格納する、ことを特徴とする。 In order to solve the above-described problem, the reading estimation apparatus according to claim 1 estimates a reading for each single kanji character from a headword and its reading data, and generates a kanji string with monorubi. A dictionary storage unit for inputting word reading data and storing a dictionary including the headword, the reading data, and association data, and a single kanji for each character constituting the kanji string that is the headword. Correspondence between a kanji duplicating unit that generates a plurality of duplicate single kanji characters for each single kanji character, and a plurality of duplicate single kanji characters constituting the headword and a reading for each character constituting the reading data The associated kanji / reading association unit for generating the association data, and the association data are read from the dictionary storage unit, and the duplicate single kanji character included in the association data is restored to the original A kanji restoration unit that restores to a single kanji and generates a kanji string with monoruby of the headword, and the kanji and reading association unit uses the dictionary stored in the dictionary storage unit, Corresponding probability value indicating the degree of correspondence between the duplicate single kanji characters and the readings for each combination in which each of the plurality of duplicate single kanji characters constituting the headword and the readings for each character constituting the reading data correspond to each other The association data is generated based on the correspondence probability value, and the dictionary storage unit stores the association data generated by the kanji and reading association unit. .
また、請求項2の読み推定装置は、漢字列及びその読みデータから単漢字毎の読みを推定し、モノルビ付き漢字列を生成する読み推定装置において、前記漢字列及び前記読みデータを入力し、前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成し、前記漢字列を構成する複数の複製単漢字と前記読みデータを構成する1文字毎の読みとからなる初期対応付けデータを生成する初期化部と、前記初期化部により生成された前記初期対応付けデータに含まれる前記複製単漢字と前記読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記漢字列を構成する複数の複製単漢字のそれぞれと前記読みとを対応付けた対応付けデータを生成する対応付けデータ生成手段と、前記対応付けデータ生成手段により生成された前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記漢字列のモノルビ付き漢字列を生成するモノルビ付き漢字列生成部と、を備えたことを特徴とする。 The reading estimation apparatus according to claim 2 estimates a reading for each single kanji from a kanji string and its reading data, and inputs the kanji string and the reading data in a reading estimation apparatus that generates a kanji string with monorubi, A single kanji character for each character constituting the kanji string is duplicated, a plurality of duplicate single kanji characters are generated for the single kanji character, and a plurality of duplicate single kanji characters constituting the kanji string and the reading data are stored. An initializing unit that generates initial association data composed of readings for each character that constitutes, and the duplicate single kanji characters included in the initial association data generated by the initializing unit are associated with the readings For each combination, a corresponding probability value indicating the degree to which the duplicate single kanji character corresponds to the reading is calculated, and based on the correspondence probability value, each of a plurality of duplicate single kanji characters constituting the kanji string and the reading Correspondence data generation means for generating associated correspondence data, and the duplicate single kanji character included in the association data generated by the association data generation means is restored to the original single kanji character, and the kanji string A kanji string generating unit with mono ruby that generates a kanji string with mono rubi.
また、請求項3の読み推定装置は、請求項1または2に記載の読み推定装置において、前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し2つの前記複製単漢字を生成する、ことを特徴とする。 The reading estimation apparatus according to claim 3 is the reading estimation apparatus according to claim 1 or 2, wherein each single kanji character constituting the kanji string is duplicated, and 2 for each single kanji character. Two duplicate single kanji characters are generated.
さらに、請求項4のモノルビ付き日本語文章テキスト生成装置は、日本語文章テキストからモノルビ付き日本語文章テキストを生成するモノルビ付き日本語文章テキスト生成装置において、前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、請求項1から3までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する読み推定部と、前記日本語文章テキストに含まれる前記漢字列を、前記読み推定部により生成された前記モノルビ付き漢字列に入れ換え、前記モノルビ付き日本語文章テキストを生成するテキスト生成部と、を備えたことを特徴とする。 Furthermore, the Japanese sentence text generation apparatus with mono-ruby according to claim 4 is a Japanese sentence text generation apparatus with mono-ruby that generates a Japanese sentence text with mono-ruby from a Japanese sentence text, and extracts a kanji string from the Japanese sentence text. Then, the Chinese character string extraction unit that generates the reading data of the Chinese character string and the association data generated by the reading estimation device according to any one of claims 1 to 3 are stored corresponding to the Chinese character string. And the association data corresponding to the kanji string extracted by the kanji string extraction unit is read from the memory, the duplicate single kanji included in the association data is restored to the original single kanji, and the monorubi A kanji character sequence generated by the reading estimation unit; and a reading estimation unit that generates a kanji character sequence with the kanji character sequence included in the Japanese sentence text. Replaced kanji string attached, characterized in that it is provided with a, and a text generation unit which generates the Monorubi with Japanese sentence text.
さらに、請求項5の手話CG翻訳装置は、日本語文章テキストを翻訳して手話CGデータを生成し、前記手話CGデータに、口の動きを表した口型CGデータを合成する手話CG翻訳装置において、前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、請求項1から4までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元、モノルビ付き漢字列を生成する読み推定部と、前記読み推定部により生成された前記モノルビ付き漢字列を構成する複数の単漢字のそれぞれについて、当該単漢字に対応する前記口型CGデータを生成する口型CGデータ生成部と、前記手話CGデータに、前記口型CGデータ生成部により生成された前記口型CGデータを合成するCG合成部と、を備えたことを特徴とする。 Furthermore, the sign language CG translation device of claim 5 translates Japanese text to generate sign language CG data, and synthesizes the sign language CG data representing the movement of the mouth with the sign language CG data. 5. A Chinese character string extraction unit that extracts a Chinese character string from the Japanese sentence text and generates reading data of the Chinese character string, and an association generated by the reading estimation device according to claim 1. A memory in which data is stored corresponding to the kanji string, and the association data corresponding to the kanji string extracted by the kanji string extraction unit are read from the memory, and a copy included in the association data A reading estimator that restores a single kanji to the original single kanji and generates a kanji string with monorubi, and a plurality of single kanji characters that compose the kanji string with monorubi generated by the reading estimator For this, the mouth CG data generating unit that generates the mouth CG data corresponding to the single kanji and the mouth CG data generated by the mouth CG data generating unit are combined with the sign language CG data. And a CG synthesis unit.
さらに、請求項6のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の読み推定装置として機能させることを特徴とする。 Furthermore, a program according to a sixth aspect causes a computer to function as the reading estimation apparatus according to any one of the first to third aspects.
以上のように、本発明によれば、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能となる。 As described above, according to the present invention, a kanji string with mono-ruby can be generated with high accuracy without using a manually created rule.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔概要〕
まず、本発明の概要について、漢字列「中央区」及びその読みデータ「チュウオウク」から、モノルビ付き漢字列「中(チュウ)」「央(オウ)」「区(ク)」を生成する例を挙げて説明する。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
〔Overview〕
First, as an outline of the present invention, an example of generating a Chinese character string “Chu”, “Oo”, and “Ku” with monorubi from a Chinese character string “Chuo-ku” and its reading data “Chuu-Ok”. Will be described.
本発明の実施形態による読み推定装置は、まず、従来技術と同様に、漢字列「中央」を単漢字「中」「央」「区」に分割し、読みデータ「チュウオウク」を読み「チュ」「ウ」「オ」「ウ」「ク」に分割する。 The reading estimation apparatus according to the embodiment of the present invention first divides the kanji string “center” into single kanji characters “middle”, “center”, and “ku”, and reads the reading data “chuouku” as in the conventional technique. ”,“ U ”,“ O ”,“ U ”and“ K ”.
読み推定装置は、単漢字「中」「央」「区」の1文字を2文字に複製し、添え字の記号「B」「E」を付加する。これにより、以下のとおり、単漢字「中」から「中B」「中E」(「中B/中E」)が生成され、単漢字「央」から「央B」「央E」(「央B/央E」)が生成され、単漢字「区」から「区B」「区E」(「区B/区E」)が生成される。
「中」→「中B/中E」
「央」→「央B/央E」
「区」→「区B/区E」
The reading estimation apparatus duplicates the single kanji characters “middle”, “center”, and “ku” into two characters, and adds the subscript symbols “B” and “E”. As a result, the single Chinese characters “middle”, “middle B”, “middle E” (“middle B / middle E”) are generated, and the single kanji characters “middle” to “middle B” “middle E” (“ “B” and “E” are generated, and “K” and “K” are generated from the single kanji character “K”.
“Medium” → “Medium B / Medium E”
“Center” → “Center B / Center E”
"City" → "City B / City E"
ここで、複製後の2文字の切れ目を/とする。「B」は初め(Begin)を意味し、「E」は終わり(End)を意味する。また、単漢字が複製され記号が付加された単漢字「中B」「中E」・・・を、複製単漢字という。 Here, the two-character break after copying is /. “B” means beginning, and “E” means end. Further, single Chinese characters “middle B”, “middle E”,.
読み推定装置は、複製単漢字列「中B/中E/央B/央E/区B/区E」及び読みデータ「チュウオウク」について、漢字列を構成する複数の複製単漢字のそれぞれと読みデータを構成する1文字毎の読みとを対応させた全ての組み合わせを生成する。そして、読み推定装置は、様々な漢字列及び読みデータを用いて、機械学習により、組み合わせ毎に、複製単漢字と読みとが対応する程度を示す対応確率値を算出する。 The reading estimation apparatus is configured to copy each of a plurality of duplicate single kanji characters constituting the kanji string for the duplicate single kanji character string “middle B / middle E / middle B / middle E / ku B / ku E” and the reading data “chuouku”. All combinations corresponding to the reading of each character constituting the reading data are generated. Then, the reading estimation device uses various kanji strings and reading data to calculate a corresponding probability value indicating the degree to which the duplicate single kanji and reading correspond for each combination by machine learning.
これにより、例えば「中(チュウ)」の「ウ」は、単漢字「中」の読みの最後に位置し、単漢字「央」の先頭に位置しないように表現することが可能となる。つまり、機械学習により算出される対応確率値は、P(中E|ウ)>P(央B|ウ)となる。 Accordingly, for example, “U” of “Chu” can be expressed at the end of the reading of the single Chinese character “Middle” and not at the beginning of the single Chinese character “Center”. That is, the corresponding probability value calculated by machine learning is P (medium E | c)> P (center B | c).
この対応確率値は、漢字列「中央区」及び読み「チュウオウク」について、複製単漢字「中E」に読み「ウ」を対応付ける確率の方が、複製単漢字「央B」に読み「ウ」を対応付ける確率よりも高いことを示している。つまり、後述するように、読み「チュウオウク」のうちの第1番目の読み「ウ」は、単漢字「央」ではなく、単漢字「中」に対応付けられる。 This correspondence probability value is the probability that the reading “U” is associated with the duplicate single kanji character “Chu E” for the Chinese character string “Chuo-ku” and the reading “Chuu-Oku”. "Is higher than the probability of matching. That is, as will be described later, the first reading “U” of the reading “CHUOKU” is associated with the single Chinese character “middle” rather than the single Chinese character “middle”.
読み推定装置は、組み合わせ毎の対応確率値に基づいて、複製単漢字と読みとを対応付け、対応付けデータを生成する。これにより、対応確率値の大きいものを適用すると、複製単漢字と読みとの対応付けの組み合わせを示す対応付けデータは、「中B:チュ」「中E:ウ」「央B:オ」「央E:ウ」「区B:ク」「区E:φ」となる。ここで、「φ」は対応付けがないことを表す。 The reading estimation apparatus associates the duplicate single kanji and the reading based on the correspondence probability value for each combination, and generates correspondence data. As a result, when the one having a large correspondence probability value is applied, the correspondence data indicating the combination of the correspondence between the duplicate single kanji and the reading is “middle B: chu”, “middle E: u”, “center B: o”, “ Central E: U, “B: Ku”, “E: φ”. Here, “φ” indicates that there is no association.
読み推定装置は、対応付けデータから記号B,Eを取り除き、元の1文字の単漢字に復元することで、正しく対応付けたモノルビ付き漢字列「中(チュウ)」「央(オウ)」「区(ク)」を生成する。 The reading estimation device removes the symbols B and E from the correspondence data and restores the original single kanji character, thereby correctly matching the kanji strings “Chu”, “Oh”, “ A “ku” is generated.
このように、漢字列とその読みデータから単漢字と読みとを自動的に対応付けする際に、単漢字に対してその順序を明示して複製した文字列を生成し、その文字列とその読みとを自動アライメントするようにした。これにより、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能となる。 In this way, when automatically associating a single kanji character with a reading from the kanji character string and its reading data, a character string in which the order is clearly specified for the single kanji character is generated, and the character string and the Automatic alignment between readings. As a result, it is possible to generate a kanji string with mono-ruby with high accuracy without using manually created rules.
尚、読み推定装置は、単漢字の1文字を2文字に複製し、2つの複製単漢字を生成するようにしたが、漢字の1文字を3文字以上に複製し、3つ以上の複製単漢字を生成するようにしてもよい。しかし、一般には、単漢字は2文字で読まれることが多い。したがって、単漢字の1文字を2文字に複製し、2つの複製単漢字を生成することにより、単漢字中の読みの位置を一層正しく表現することができる。 The reading estimation device duplicates one single kanji character into two characters and generates two duplicate single kanji characters, but duplicates one kanji character into three or more characters and reproduces three or more duplicate single kanji characters. Kanji characters may be generated. However, in general, a single kanji is often read as two characters. Therefore, by duplicating one character of a single Chinese character into two characters and generating two duplicate single Chinese characters, the position of a reading in the single Chinese character can be expressed more correctly.
〔読み推定装置/実施例1〕
次に、本発明の第1の実施形態(実施例1)による読み推定装置について説明する。図1は、実施例1の読み推定装置の構成例を示すブロック図である。この読み推定装置1−1は、日本語辞書格納部10、漢字複製部11、固有名詞辞書格納部12、漢字及び読み対応付け部13、及び漢字復元部14を備えている。
[Reading estimation device / Example 1]
Next, a reading estimation apparatus according to the first mode for embodying the present invention (Example 1) will be described. FIG. 1 is a block diagram illustrating a configuration example of the reading estimation apparatus according to the first embodiment. The reading estimation apparatus 1-1 includes a Japanese
日本語辞書格納部10は、日本語辞書の見出し語及びその読みデータを入力し、これらを格納する。また、日本語辞書格納部10は、漢字複製部11から見出し語を構成する複製単漢字を入力し、見出し語を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成して格納する。さらに、日本語辞書格納部10は、漢字及び読み対応付け部13から複製単漢字対応付けデータを入力して格納する。
The Japanese
漢字複製部11は、日本語辞書格納部10から見出し語を構成する1文字毎の単漢字をそれぞれ入力し、単漢字を順序付けして複製し、複製単漢字を生成する。そして、漢字複製部11は、複製単漢字を日本語辞書格納部10に出力する。固有名詞辞書格納部12について同様である。
The
固有名詞辞書格納部12は、固有名詞辞書の見出し語及びその読みデータを入力し、これらを格納する。また、固有名詞辞書格納部12は、漢字複製部11から見出し語を構成する複製単漢字を入力し、見出し語を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成して格納する。さらに、固有名詞辞書格納部12は、漢字及び読み対応付け部13から複製単漢字対応付けデータを入力して格納する。
The proper noun
漢字及び読み対応付け部13は、日本語辞書格納部10及び固有名詞辞書格納部12から初期対応付けデータを読み出す。そして、漢字及び読み対応付け部13は、初期対応付けデータに含まれる複製単漢字と読みとの対応付けを行い、複製単漢字対応付けデータを生成する。そして、漢字及び読み対応付け部13は、複製単漢字対応付けデータを、対応する初期対応付けデータを読み出した日本語辞書格納部10または固有名詞辞書格納部12に出力する。
The kanji /
漢字復元部14は、固有名詞辞書格納部12から複製単漢字対応付けデータを読み出し、複製単漢字を元の単漢字に復元し、固有名詞のモノルビ付き見出し語を生成し、出力する。
The
図2は、実施例1の読み推定装置1−1の処理例を示すフローチャートである。読み推定装置1−1は、日本語辞書の見出し語及びその読みデータを入力し、日本語辞書の初期設定を行い、初期対応付けデータを生成する(ステップS201)。読み推定装置1−1は、入力した全ての見出し語及びその読みデータに対し初期設定を行い、見出し語及びその読みデータ毎に初期対応付けデータを生成する。 FIG. 2 is a flowchart illustrating a processing example of the reading estimation apparatus 1-1 according to the first embodiment. The reading estimation apparatus 1-1 receives the headword of the Japanese dictionary and its reading data, performs initial setting of the Japanese dictionary, and generates initial association data (step S201). The reading estimation apparatus 1-1 performs initial setting for all input headwords and their reading data, and generates initial association data for each headword and its reading data.
例えば、日本語辞書格納部10は、日本語辞書の見出し語「圏央」及びその読みデータ「ケンオウ」を入力し、これらをメモリに格納する。日本語辞書格納部10は、見出し語「圏央」を1文字単位の単漢字「圏」「央」に分割すると共に、読みデータ「ケンオウ」を1文字毎の読み「ケ」「ン」「オ」「ウ」に分割する。そして、日本語辞書格納部10は、見出し語「圏央」を構成する単漢字「圏」「央」を漢字複製部11に出力する。
For example, the Japanese
漢字複製部11は、日本語辞書格納部10から見出し語「圏央」を構成する単漢字「圏」「央」を入力し、単漢字「圏」「央」を順序付けして1文字を2文字に複製し、添え字「B」「E」を付加して複製単漢字「圏B/圏E」「央B/央E」を生成する。そして、漢字複製部11は、見出し語「圏央」を構成する複製単漢字「圏B/圏E」「央B/央E」を日本語辞書格納部10に出力する。
The
日本語辞書格納部10は、漢字複製部11から見出し語「圏央」を構成する複製単漢字「圏B/圏E」「央B/央E」を入力する。そして、日本語辞書格納部10は、見出し語「圏央」を構成する複製単漢字「圏B/圏E」「央B/央E」及び読みデータ「ケンオウ」を構成する1文字毎の読み「ケ/ン/オ/ウ」からなる初期対応付けデータを生成してメモリに格納する。この場合の初期対応付けデータは、「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」となる。
The Japanese
読み推定装置1−1は、ステップS201において、日本語辞書の様々な見出し語及びその読みデータを入力し、入力した見出し語及びその読みデータ毎に初期対応付けデータを生成し、日本語辞書の一部として格納する。 In step S201, the reading estimation apparatus 1-1 inputs various headwords in the Japanese dictionary and their reading data, generates initial association data for each input headword and its reading data, Store as part.
読み推定装置1−1は、ステップS201から移行して、固有名詞辞書の見出し語及びその読みデータを入力し、固有名詞辞書の初期設定を行い、初期対応付けデータを生成する(ステップS202)。読み推定装置1−1は、入力した全ての見出し語及びその読みデータに対し初期設定を行い、見出し語及びその読みデータ毎に初期対応付けデータを生成する。 The reading estimation apparatus 1-1 shifts from step S201 to input headwords and their reading data of the proper noun dictionary, performs initial setting of the proper noun dictionary, and generates initial association data (step S202). The reading estimation apparatus 1-1 performs initial setting for all input headwords and their reading data, and generates initial association data for each headword and its reading data.
例えば、固有名詞辞書格納部12は、固有名詞辞書の見出し語「中央」及びその読みデータ「チュウオウ」を入力し、これらをメモリに格納する。固有名詞辞書格納部12は、日本語辞書格納部10と同様に、見出し語「中央」を単漢字「中」「央」に分割すると共に、読みデータ「チュウオウ」を1文字毎の読み「チュ」「ウ」「オ」「ウ」に分割する。漢字複製部11は、単漢字「中」「央」を順序付けして複製し、複製単漢字「中B/中E」「央B/央E」を生成する。
For example, the proper noun
ここで、1文字毎の読みには、例えば「チュウオウ」の「チュ」、「キュウシュウ」の「キュ」「シュ」等のような捩れる音である拗音の読み、「ホッキ」の「ホッ」、「サッキ」の「サッ」のような詰まる音である促音の読みが含まれる。また、「ジャッキ」の「ジャッ」のような拗音及び促音も含まれる。つまり、読み「チュ」「キュ」「シュ」「ホッ」「サッ」「ジャッ」は、1文字の読みとして扱われる。 Here, for each character reading, for example, “chu” of “Chuuou”, “Kyu” of “Kyushu”, “ku”, “shu”, etc. ”,“ Sacchi ”and“ Sac ”are included. In addition, a roaring sound and a prompt sound such as “jack” of “jack” are included. That is, the readings “chu” “kyu” “shu” “ho” “satsu” “jack” are treated as a single character reading.
固有名詞辞書格納部12は、日本語辞書格納部10と同様に、見出し語「中央」を構成する複製単漢字「中B/中E」「央B/央E」及び読みデータ「チュウオウ」を構成する1文字毎の読み「チュ/ウ/オ/ウ」からなる初期対応付けデータを生成する。そして、固有名詞辞書格納部12は、初期対応付けデータをメモリに格納する。この場合の初期対応付けデータは、「中B/中E/央B/央E」「チュ/ウ/オ/ウ」となる。
As with the Japanese
読み推定装置1−1は、ステップS202において、固有名詞辞書の様々な見出し語及びその読みデータを入力し、入力した見出し語及びその読みデータ毎に初期対応付けデータを生成し、固有名詞辞書の一部として格納する。 In step S202, the reading estimation apparatus 1-1 inputs various headwords and their reading data of the proper noun dictionary, generates initial association data for each input headword and its reading data, and stores the proper noun dictionary. Store as part.
図3は、固有名詞辞書格納部12によりメモリに格納される固有名詞辞書を説明する図である。固有名詞辞書は、見出し語、読み及び対応付けデータにより構成される。前記例では、固有名詞辞書には、見出し語「中央」、読み「チュウオウ」、及び対応付けデータ(ステップS202においては初期対応付けデータ)「中B/中E/央B/央E」「チュ/ウ/オ/ウ」が格納される。
FIG. 3 is a diagram for explaining the proper noun dictionary stored in the memory by the proper noun
日本語辞書格納部10によりメモリに格納される日本語辞書も、図3に示した固有名詞辞書と同様のデータ構成である。日本語辞書には、見出し語「圏央」、読み「ケンオウ」、及び対応付けデータ(ステップS201においては初期対応付けデータ)「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」が格納される。
The Japanese dictionary stored in the memory by the Japanese
図2に戻って、読み推定装置1−1は、ステップS202から移行して、日本語辞書格納部10に格納された日本語辞書及び固有名詞辞書格納部12に格納された固有名詞辞書を用いて、初期対応付けデータについての見出し語を構成する複製単漢字と読みとの対応付けを行う。そして、読み推定装置1−1は、複製単漢字対応付けデータを生成する(ステップS203)。
Returning to FIG. 2, the reading estimation apparatus 1-1 shifts from step S <b> 202 to use the Japanese dictionary stored in the Japanese
具体的には、読み推定装置1−1は、日本語辞書及び固有名詞辞書に含まれる全ての初期対応付けデータを用いて、全ての初期対応付けデータについての複製単漢字及び読みの組み合わせ毎に対応確率値を算出する。そして、読み推定装置1−1は、対応確率値に基づいて、見出し語を構成する複製単漢字と読みとの対応付けを行い、見出し語及びその読みデータ毎に複製単漢字対応付けデータを生成する。 Specifically, the reading estimation apparatus 1-1 uses all the initial association data included in the Japanese dictionary and the proper noun dictionary for each combination of duplicate single kanji characters and readings for all the initial association data. The corresponding probability value is calculated. Then, the reading estimation apparatus 1-1 associates the duplicate single kanji characters constituting the headword with the reading based on the correspondence probability value, and generates duplicate single kanji character association data for each headword and the reading data. To do.
前記例では、日本語辞書格納部10は、メモリから初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」等の様々な初期対応付けデータを読み出し、漢字及び読み対応付け部13に出力する。また、固有名詞辞書格納部12は、メモリから初期対応付けデータを読み出し、漢字及び読み対応付け部13に出力する。
In the above example, the Japanese
漢字及び読み対応付け部13は、日本語辞書格納部10から日本語辞書の初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」等を入力する。また、漢字及び読み対応付け部13は、固有名詞辞書格納部12から固有名詞辞書の初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」等を入力する。
The kanji /
漢字及び読み対応付け部13は、初期対応付けデータに含まれる複製単漢字と1文字毎の読みとを対応させた組み合わせを生成する。そして、漢字及び読み対応付け部13は、例えば機械学習としてEMアルゴリズムを適用し、組み合わせ毎の対応確率値を算出する。例えば、初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」の組み合わせは、「圏B:ケ」「圏B:ン」・・・「圏E:ケ」「圏E:ン」・・・「央B:ケ」「央B:ン」・・・「央E:ケ」「央E:ン」・・・となる。また、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」の組み合わせは、「中B:チュ」「中B:ウ」・・・「中E:チュ」「中E:ウ」・・・「央B:チュ」「央B:ウ」・・・「央E:チュ」「央E:ウ」・・・となる。
The kanji /
漢字及び読み対応付け部13は、組み合わせ毎の対応確率値を日本語辞書格納部10及び固有名詞辞書格納部12に出力する。日本語辞書格納部10及び固有名詞辞書格納部12は、組み合わせ毎の対応確率値を機械学習データとして格納する。
The kanji /
漢字及び読み対応付け部13は、組み合わせ毎の対応確率値に基づいて、初期対応付けデータについての複製単漢字と読みとを対応付け、対応付けデータを生成する。前記例の初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」について対応確率値の大きいものを適用すると、複製単漢字と読みとの対応付けデータ(複製単漢字対応付けデータ)は、「圏B(ケ)圏E(ン)央B(オ)央E(ウ)」となる。
Based on the correspondence probability value for each combination, the kanji /
漢字及び読み対応付け部13は、複製単漢字対応付けデータ「圏B(ケ)圏E(ン)央B(オ)央E(ウ)」を日本語辞書格納部10に出力する。日本語辞書格納部10は、漢字及び読み対応付け部13から複製単漢字対応付けデータ「圏B(ケ)圏E(ン)央B(オ)央E(ウ)」を入力し、これをメモリに格納する。
The kanji /
同様に、漢字及び読み対応付け部13は、固有名詞辞書格納部12から入力した固有名詞辞書の初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」について、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を生成する。
Similarly, the kanji /
漢字及び読み対応付け部13は、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を固有名詞辞書格納部12に出力する。固有名詞辞書格納部12は、漢字及び読み対応付け部13から複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を入力し、これをメモリに格納する。
The kanji /
図3を参照して、固有名詞辞書には、対応付けデータとして、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」と共に、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」が格納される。 Referring to FIG. 3, in the proper noun dictionary, as the correspondence data, the initial correspondence data “Middle B / Middle E / Middle B / Middle E” “Ju / U / O / U” and duplicate single kanji characters are supported. The attached data “middle B (chu) middle E (c) center B (e) center E (c)” is stored.
図2に戻って、読み推定装置1−1は、ステップS203から移行して、固有名詞辞書の見出し語を復元し(ステップS204)、固有名詞のモノルビ付き見出し語を生成し、出力する(ステップS205)。読み推定装置1−1は、入力した全ての見出し語及びその読みデータに対し見出し語の復元を行い、見出し語及びその読みデータ毎に、固有名詞のモノルビ付き見出し語を生成して出力する。 Returning to FIG. 2, the reading estimation apparatus 1-1 shifts from step S203 to restore the headword of the proper noun dictionary (step S204), and generates and outputs a headword with mono-ruby of the proper noun (step S204). S205). The reading estimation apparatus 1-1 restores a headword for all the headwords and their reading data that have been input, and generates and outputs a headword with a proper noun for each headword and its reading data.
前記例では、固有名詞辞書格納部12は、メモリから複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を読み出して漢字復元部14に出力する。
In the above example, the proper noun
漢字復元部14は、固有名詞辞書格納部12から複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を入力する。そして、漢字復元部14は、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」から記号B,Eを取り除き、図3に示すように、対応付けデータ「中(チュ)中(ウ)央(オ)央(ウ)」を生成する。
The
漢字復元部14は、対応付けデータ「中(チュ)中(ウ)央(オ)央(ウ)」から元の見出し語を構成する1文字毎の単漢字に復元し、図3に示すように、正しく対応付けたモノルビ付き見出し語「中(チュウ)」「央(オウ)」を生成する。
The
尚、読み推定装置1−1は、新たな漢字列及び読みデータを入力する毎に、対応確率値を算出し、日本語辞書及び固有名詞辞書に含まれる漢字列、読みデータ、初期対応付けデータ及び複製単漢字対応付けデータ、並びに対応確率値を更新するようにしてもよい。 The reading estimation device 1-1 calculates a corresponding probability value every time a new kanji string and reading data are input, and the kanji string, reading data, and initial association data included in the Japanese dictionary and proper noun dictionary. The duplicate single kanji character association data and the correspondence probability value may be updated.
以上のように、実施例1の読み推定装置1−1によれば、漢字複製部11は、見出し語を構成する1文字毎の単漢字を順序付けして複製し、複製単漢字を生成する。日本語辞書格納部10は、日本語辞書の見出し語及びその読みデータについて、見出し語を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成して格納する。固有名詞辞書格納部12も同様に、固有名詞辞書の見出し語及びその読みデータについて、初期対応付けデータを生成して格納する。
As described above, according to the reading estimation apparatus 1-1 of the first embodiment, the
漢字及び読み対応付け部13は、日本語辞書格納部10及び固有名詞辞書格納部12の
日本語辞書及び固有名詞辞書に含まれる全ての初期対応付けデータを用いて、複製単漢字及び読みの組み合わせ毎に対応確率値を算出し、対応確率値に基づいて、初期対応付けデータに含まれる見出し語を構成する複製単漢字と読みとの対応付けを行い、見出し語及びその読みデータ毎に複製単漢字対応付けデータを生成する。日本語辞書格納部10及び固有名詞辞書格納部12は、複製単漢字対応付けデータを格納する。
The kanji /
漢字復元部14は、固有名詞辞書格納部12から複製単漢字対応付けデータを読み出し、複製単漢字を元の単漢字に戻し、固有名詞のモノルビ付き見出し語を生成し、出力する。
The
これにより、モノルビ付き見出し語(漢字列)を生成する際に、人手で作成した規則を用いる必要がない。また、複製単漢字を用いて単漢字と読みとの対応付けを行うようにしたから、単漢字(例えば「中」)の読み(「チュウ」)について、1文字の読みの位置(例えば「ウ」の場合は最後の位置)を考慮した対応確率値を得ることができる。つまり、漢字列を構成する複数の単漢字について、1文字の読みが単漢字に正しく位置するように、単漢字と読みとを対応付けすることができる。例えば、漢字列「中央」について、「中(チュウ)」の「ウ」が、単漢字「中」の読みの最後に位置し、単漢字「央」の先頭に位置しないようにすることができる。したがって、モノルビ付き漢字列を精度高く生成することが可能となる。 Thereby, it is not necessary to use a rule created manually when generating a headword with mono-ruby (a kanji string). Further, since the single kanji and the reading are associated with each other using the duplicate single kanji, the reading position of one character (for example, “u”) is read for the reading (“chu”) of the single kanji (for example, “middle”). ", The corresponding probability value considering the last position) can be obtained. That is, for a plurality of single Chinese characters constituting the Chinese character string, the single Chinese characters and the readings can be associated with each other so that the reading of one character is correctly positioned in the single Chinese character. For example, for the Chinese character string “center”, “Chu” of “Chu” can be positioned at the end of the reading of the single Chinese character “Middle” and not at the beginning of the single Chinese character “Center”. . Therefore, it becomes possible to generate a kanji string with mono-ruby with high accuracy.
〔読み推定装置/実施例2〕
次に、本発明の第2の実施形態(実施例2)による読み推定装置について説明する。実施例2の読み推定装置は、実施例1の読み推定装置1−1を機能的に表した装置であり、その処理は実質的に同じである。
[Reading estimation device / Example 2]
Next, a reading estimation apparatus according to the second mode for embodying the present invention (Example 2) will be described. The reading estimation device according to the second embodiment is a device that functionally represents the reading estimation device 1-1 according to the first embodiment, and the processing is substantially the same.
図4は、実施例2の読み推定装置の構成例を示すブロック図であり、図5は、実施例2の読み推定装置の処理例を示すフローチャートである。この読み推定装置1−2は、初期化部20、対応付けデータ生成部21及びモノルビ付き漢字列生成部22を備えている。読み推定装置1−2は、漢字列及びその読みデータを入力し、モノルビ付き漢字列を生成して出力する。
FIG. 4 is a block diagram illustrating a configuration example of the reading estimation apparatus according to the second embodiment, and FIG. 5 is a flowchart illustrating a processing example of the reading estimation apparatus according to the second embodiment. This reading estimation apparatus 1-2 includes an
初期化部20は、漢字列及び読み分割手段23、漢字複製手段24及び初期化手段25を備えている。漢字列及び読み分割手段23は、漢字列及びその読みデータを入力し(ステップS501)、漢字列を1文字単位の単漢字に分割すると共に、読みデータを1文字単位の読みに分割する(ステップS502)。例えば、漢字列「中央」は、単漢字「中」「央」に分割され、読みデータ「チュウオウ」は、読み「チュ」「ウ」「オ」「ウ」に分割される。
The
漢字複製手段24は、漢字列及び読み分割手段23による分割された1文字の単漢字を順序付けして2文字に複製し、添え字の記号「B」「E」を付加して複製単漢字を生成する(ステップS503)。例えば、単漢字「中」から複製単漢字「中B」「中E」が生成され、単漢字「央」から複製単漢字「央B」「央E」が生成される。 The kanji duplicating means 24 orders the single kanji characters divided by the kanji string and the reading dividing means 23 to duplicate them into two characters, and adds the subscript symbols “B” and “E” to produce the duplicate single kanji characters. Generate (step S503). For example, duplicate single kanji characters “middle B” and “middle E” are generated from the single kanji character “middle”, and duplicate single kanji characters “middle B” and “middle E” are generated from the single kanji character “middle”.
初期化手段25は、漢字列を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成する(ステップS504)。例えば、図3に示したように、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」が生成される。
The
対応付けデータ生成部21は、組み合わせ生成手段26、確率算出手段27、辞書28及び複製単漢字対応付けデータ生成手段29を備えている。対応付けデータ生成部21は、初期化部20から漢字列、読みデータ及び初期対応付けデータを入力し、これらを辞書28に格納する。
The association
組み合わせ生成手段26は、初期対応付けデータに含まれる複製単漢字と1文字毎の読みとを対応させた組み合わせを生成する(ステップS505)。例えば、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」について、組み合わせ「中B:チュ」「中B:ウ」・・・「中E:チュ」「中E:ウ」・・・「央B:チュ」「央B:ウ」・・・「央E:チュ」「央E:ウ」・・・が生成される。
The
確率算出手段27は、辞書28に格納された全ての初期対応付けデータを用いて、機械学習として例えばEMアルゴリズムを適用し、全ての複製単漢字及び読みの組み合わせ毎に、対応確率値を算出する(ステップS506)。そして、確率算出手段27は、複製単漢字及び読みの組み合わせ毎の対応確率値を機械学習データとして、辞書28に格納する。 The probability calculating means 27 uses, for example, an EM algorithm as machine learning using all the initial association data stored in the dictionary 28, and calculates a corresponding probability value for each combination of all duplicate single kanji characters and readings. (Step S506). Then, the probability calculation means 27 stores the corresponding probability value for each combination of the copied single kanji and the reading in the dictionary 28 as machine learning data.
例えば、漢字列「中央」及び読みデータ「チュウオウ」の初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」、漢字列「中学」及び読みデータ「チュウガク」の初期対応付けデータ「中B/中E/学B/学E」「チュ/ウ/ガ/ク」、漢字列「央紀」及び読みデータ「オウキ」の初期対応付けデータ「央B/央E/紀B/紀E」「オ/ウ/キ」を用いて、EMアルゴリズムを適用し、以下のとおり、組み合わせ毎の対応確率値が算出される。
P(央B|オ)=0.998849、P(央E|ウ)=0.555835、P(央E|キ)=0.029560
P(学B|ガ)=0.406560、P(学B|ク)=0.406560、P(学E|ガ)=0.406560
P(学E|ク)=0.406560、P(紀B|キ)=0.485220、P(紀E|キ)=0.485220
P(中B|チュ)=1.000000、P(中E|ウ)=0.440979、P(中E|ガ)=0.186880
P(中E|ク)=0.186880
尚、その他の組み合わせの対応確率値は0である。
For example, initial correspondence data “middle B / middle E / middle B / middle E” “chu / u / o / u”, kanji string “junior high school” and reading data “ Initial correspondence data “Chu B / Chu E / Study B / Study E” “Chu / U / G / K”, Chinese character string “Oki” and initial correspondence data “Oki” “Chu B” EM algorithm is applied using “/ center E / ki B / ki E” and “o / u / ki”, and a corresponding probability value for each combination is calculated as follows.
P (middle B | oh) = 0.999849, P (middle E | w) = 0.555835, P (middle E | ki) = 0.029560
P (Study B | Ga) = 0.406560, P (Study B | Ku) = 0.406560, P (Study E | Ga) = 0.406560
P (Study E | Ku) = 0.406560, P (Ki B | Ki) = 0.485220, P (Ki E | Ki) = 0.485220
P (Medium B | Ju) = 1.00000, P (Medium E | U) = 0.440979, P (Medium E | Ga) = 0.186880
P (Medium E) = 0.186880
Incidentally, the corresponding probability value of other combinations is 0.
複製単漢字対応付けデータ生成手段29は、確率算出手段27から組み合わせ毎の対応確率値を入力するか、または辞書28から組み合わせ毎の対応確率値を読み出す。そして、複製単漢字対応付けデータ生成手段29は、対応確率値が高いものから適用し、各読みについて対応確率値の最も高い複製単漢字と読みとの対応付けデータである複数単漢字対応付けデータを生成する(ステップS507)。そして、複製単漢字対応付けデータ生成手段29は、複数単漢字対応付けデータを辞書28に格納する。 The duplicate single kanji character association data generation means 29 inputs the correspondence probability value for each combination from the probability calculation means 27 or reads the correspondence probability value for each combination from the dictionary 28. Then, the duplicate single kanji character association data generation means 29 is applied from the one having the highest correspondence probability value, and the plural single kanji character correspondence data which is the correspondence data between the duplicate single kanji character and the reading having the highest correspondence probability value for each reading. Is generated (step S507). Then, the duplicate single Chinese character association data generation means 29 stores the plural single Chinese character association data in the dictionary 28.
例えば、漢字列「中央」及び読みデータ「チュウオウ」について、組み合わせ毎の対応確率値が高いものから適用すると、以下のとおりとなり、図3に示したように、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」が生成される。
P(中B|チュ)=1.000000
P(央B|オ)=0.998849
P(央E|ウ)=0.555835
P(中E|ウ)=0.440979
For example, when the kanji character string “center” and the reading data “chuo” are applied from the one with the highest corresponding probability value for each combination, it is as follows. As shown in FIG. (Chu) Middle E (U) Center B (O) Center E (C) "is generated.
P (Medium B | Ju) = 1.00000
P (Center B | O) = 0.998849
P (Center E | U) = 0.555835
P (Medium E | U) = 0.440979
尚、辞書28には、漢字列、読みデータ、初期対応付けデータ及び複製単漢字対応付けデータが格納され、また、全ての複製単漢字及び読みの組み合わせ毎の対応確率値が格納される。 The dictionary 28 stores kanji strings, reading data, initial association data, and duplicate single kanji correspondence data, and also stores corresponding probability values for all combinations of duplicate single kanji characters and readings.
モノルビ付き漢字列生成部22は、対応付けデータ生成部21の辞書28から複製単漢字対応付けデータを読み出し、複製単漢字対応付けデータから記号B,Eを取り除き、元の単漢字に復元する(ステップS508)。そして、モノルビ付き漢字列生成部22は、モノルビ付き漢字列を生成し、出力する(ステップS509)。例えば、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」から記号B,Eが取り除かれ、モノルビ付き漢字列「中(チュウ)」「央(オウ)」が生成される。
The Monorbi-added kanji
尚、読み推定装置1−2は、新たな漢字列及び読みデータを入力する毎に、対応確率値を算出し、辞書28を更新するようにしてもよい。 Note that the reading estimation apparatus 1-2 may calculate the corresponding probability value and update the dictionary 28 every time a new Chinese character string and reading data are input.
以上のように、実施例2の読み推定装置1−2によれば、初期化部20は、漢字列及びその読みデータを入力し、漢字列を単漢字に、読みデータを1文字単位の読みにそれぞれ分割し、単漢字を順序付けして複製単漢字を生成し、漢字列を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成する。
As described above, according to the reading estimation apparatus 1-2 of the second embodiment, the
対応付けデータ生成部21は、初期対応付けデータに含まれる複製単漢字及び読みの組み合わせ毎に、全ての初期対応付けデータを用いて、EMアルゴリズムにより対応確率値を算出する。そして、対応付けデータ生成部21は、対応確率値に基づいて、複製単漢字と読みとの対応付けデータである複数単漢字対応付けデータを生成する。
The association
モノルビ付き漢字列生成部22は、複製単漢字対応付けデータに含まれる複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する。
The Monorbi-attached kanji
これにより、実施例1の読み推定装置1−1と同様に、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能となる。 Thereby, like the reading estimation apparatus 1-1 of Example 1, it becomes possible to generate | occur | produce a Chinese character string with a mono rubi with high precision, without using the rule created manually.
〔モノルビ付き日本語文章テキスト生成装置〕
次に、図1に示した読み推定装置1−1及び図4に示した読み推定装置1−2の機能を利用した例として、モノルビ付き日本語文章テキスト生成装置について説明する。図6は、モノルビ付き日本語文章テキスト生成装置の構成例を示すブロック図である。このモノルビ付き日本語文章テキスト生成装置2は、漢字列抽出部30、読み推定部31及びテキスト生成部32を備えている。
[Japanese sentence text generator with mono-ruby]
Next, as an example using the functions of the reading estimation apparatus 1-1 shown in FIG. 1 and the reading estimation apparatus 1-2 shown in FIG. 4, a Japanese sentence text generation apparatus with mono-ruby will be described. FIG. 6 is a block diagram illustrating a configuration example of a Japanese sentence text generating apparatus with mono-ruby. This Japanese sentence text generation apparatus 2 with mono-ruby includes a kanji
モノルビ付き日本語文章テキスト生成装置2は、日本語文章テキストから漢字列を抽出し、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成し、モノルビ付き日本語文章テキストを生成する。例えば、日本語文章テキスト「私達は、石川県にいます。」に対し、モノルビ付き日本語文章テキスト「私(ワタシ)達(タチ)は、石(イシ)川(カワ)県(ケン)にいます。」が生成される。 The Japanese sentence text generation device 2 with mono-ruby extracts a kanji string from the Japanese sentence text, generates a kanji string with mono-ruby by estimating a single kanji reading constituting the kanji string, Is generated. For example, the Japanese sentence text “We are in Ishikawa Prefecture”, while the Japanese sentence text with mono-ruby “I (Tachi) is the Ishikawa Prefecture (Ken) Will be generated. "
漢字列抽出部30は、モノルビ付与の対象である日本語文章テキストを入力し、日本語文章テキストを構成する文字列から漢字列を抽出し、図示しない日本語辞書を用いて、抽出した漢字列の読みデータを生成する。そして、漢字列抽出部30は、漢字列及びその読みデータを読み推定部31に出力する。前記例では、日本語文章テキスト「私達は、石川県にいます。」から漢字列「私達」「石川県」が抽出され、それらの読みデータ「ワタシタチ」「イシカワケン」が生成される。
The kanji
読み推定部31は、図1に示した固有名詞辞書または図4に示した辞書28が格納されたメモリ(図6には図示せず)を備えている。読み推定部31は、漢字列抽出部30から漢字列及びその読みデータを入力し、メモリから、漢字列及びその読みデータに対応する複製単漢字対応付けデータを読み出す。そして、読み推定部31は、図1に示した漢字復元部14または図4に示したモノルビ付き漢字列生成部22と同じ処理にて、複製単漢字対応付けデータの複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する。
The reading
読み推定部31は、モノルビ付き漢字列をテキスト生成部32に出力する。前記例では、漢字列「私達」及びその読みデータ「ワタシタチ」に対応した複製単漢字対応付けデータから、モノルビ付き漢字列「私(ワタシ)達(タチ)」が生成される。また、漢字列「石川県」及びその読みデータ「イシカワケン」に対応した複製単漢字対応付けデータから、モノルビ付き漢字列「石(イシ)川(カワ)県(ケン)」が生成される。
The reading
尚、読み推定部31のメモリ(図示せず)に格納された固有名詞辞書は、図1に示した構成及び図2に示した処理にて生成される。また、読み推定部31のメモリ(図示せず)に格納された辞書28は、図4に示した構成及び図5に示した処理にて生成される。固有名詞辞書及び辞書28は、外部からネットワークを介してダウンロードされるようにしてよい。また、固有名詞辞書は、図1に示した構成を含む読み推定部31により生成されるようにしてもよく、辞書28は、図4に示した構成を含む読み推定部31により生成されるようにしてもよい。
The proper noun dictionary stored in the memory (not shown) of the reading
テキスト生成部32は、読み推定部31からモノルビ付き漢字列を入力すると共に、モノルビ付与の対象である日本語文章テキストを入力する。そして、テキスト生成部32は、日本語文章テキストを構成する文字列のうちの漢字列をモノルビ付き漢字列に入れ換え、モノルビ付き日本語文章テキストを生成する。テキスト生成部32は、モノルビ付き日本語文章テキストを出力する。
The text generation unit 32 inputs a kanji string with mono-ruby from the reading
前記例では、日本語文章テキスト「私達は、石川県にいます。」のうちの漢字列「私達」「石川県」が、モノルビ付き漢字列「私(ワタシ)達(タチ)」「石(イシ)川(カワ)県(ケン)」に入れ換えられる。そして、モノルビ付き日本語文章テキスト「私(ワタシ)達(タチ)は、石(イシ)川(カワ)県(ケン)にいます。」が生成される。 In the above example, the kanji strings "we" and "Ishikawa" in the Japanese text "We are in Ishikawa" are the kanji strings with mono-ruby "I (Tachi)" (Tachi) " Ishi River (Kawa) Prefecture (Ken) ". Then, a Japanese sentence text with mono-ruby “I am in Tachi, Ishikawa, Ken” is generated.
以上のように、モノルビ付き日本語文章テキスト生成装置2によれば、日本語文章テキストから漢字列を抽出し、実施例1,2の読み推定装置1−1,1−2と同じ処理にて、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成する。そして、モノルビ付き日本語文章テキスト生成装置2は、モノルビ付き漢字列を含むモノルビ付き日本語文章テキストを生成する。 As described above, according to the Japanese sentence text generating device 2 with mono-ruby, a Chinese character string is extracted from the Japanese sentence text, and the same processing as the reading estimation devices 1-1 and 1-2 of the first and second embodiments is performed. Then, by estimating the readings of duplicate single kanji characters constituting the kanji string, a kanji string with monoruby is generated. And the Japanese sentence text production | generation apparatus 2 with a mono rubi produces | generates the Japanese sentence text with a mono rubi containing the kanji string with a mono rubi.
これにより、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することができ、結果として、精度の高いモノルビ付き漢字列を含むモノルビ付き日本語文章テキストを生成することが可能となる。 As a result, it is possible to generate kanji strings with mono-ruby with high accuracy without using manual rules, and as a result, it is possible to generate Japanese text text with mono-ruby with high-precision kanji strings with mono-ruby. It becomes.
〔手話CG翻訳装置〕
次に、図1に示した読み推定装置1−1及び図4に示した読み推定装置1−2の機能を利用した他の例として、手話CG翻訳装置について説明する。図7は、手話CG翻訳装置の構成例を示すブロック図である。この手話CG翻訳装置3は、手話CG翻訳部33、漢字列抽出部34、読み推定部35、口型CGデータ変換部(口型CGデータ生成部)36及びCG合成部37を備えている。
[Sign Language CG Translation Device]
Next, a sign language CG translation device will be described as another example using the functions of the reading estimation device 1-1 shown in FIG. 1 and the reading estimation device 1-2 shown in FIG. FIG. 7 is a block diagram illustrating a configuration example of a sign language CG translation apparatus. The sign language CG translation device 3 includes a sign language
手話CG翻訳装置3は、日本語文章テキストの手話CGデータを生成すると共に、日本語文章テキストから漢字列を抽出し、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成する。そして、手話CG翻訳装置3は、モノルビ付き漢字列の単漢字毎に、口の動きを表した口型CGデータを生成し、日本語文章テキストの手話CGデータに、同期した単漢字毎の口型CGを合成する。 The sign language CG translation device 3 generates sign language CG data of the Japanese sentence text, extracts a kanji string from the Japanese sentence text, estimates a reading of a single kanji character constituting the kanji string, and generates a kanji string with mono-ruby. Generate. Then, the sign language CG translation device 3 generates mouth type CG data representing the movement of the mouth for each single kanji character of the kanji string with mono-rubi, and synchronizes the mouth language for each single kanji character synchronized with the sign language CG data of the Japanese sentence text. A type CG is synthesized.
例えば、日本語文章テキスト「私達は、石川県にいます。」に対応する手話CGデータが生成され、モノルビ付き漢字列「私(ワタシ)達(タチ)」「石(イシ)川(カワ)県(ケン)」が生成され、単漢字毎の口型CGデータが生成される。そして、手話CGデータに単漢字毎の口型CGが合成され、単漢字「私(ワタシ)」「達(タチ)」「石(イシ)」「川(カワ)」「県(ケン)」の手話単語とその口型とが同期したCGデータが生成される。 For example, the sign language CG data corresponding to the Japanese sentence text “We are in Ishikawa Prefecture” is generated, and the Chinese character string “I (Tachi)” with mono-ruby “Ishi River (Kawa) ) Prefecture (ken) "is generated, and mouth type CG data for each single Chinese character is generated. Then, the sign-type CG data is combined with mouth-type CG for each single kanji, and the single kanji “I (Watashi)”, “Tachi”, “Ishi (Ishi)”, “Kawa (Kawa)”, “Ken (Ken)” CG data in which a sign language word and its mouth shape are synchronized is generated.
手話CG翻訳部33は、日本語文章テキストを入力し、日本語文章テキストを翻訳することで、手話CGデータを生成する。具体的には、手話CG翻訳部33は、日本語文章テキストを、統計翻訳等の手法を用いて複数の手話単語に変換し、複数の手話単語のそれぞれに対応する単語モーションを、図示しない単語モーションDB(ベータベース)から読み出す。そして、手話CG翻訳部33は、複数の単語モーションを順番に接続し、一連の手話文章を表した手話CGデータを生成する。手話CG翻訳部33は、手話CGデータをCG合成部37に出力する。例えば、日本語文章テキスト「私達は、石川県にいます。」に対応する手話CGデータが生成される。
The sign language
漢字列抽出部34及び読み推定部35は、図6に示した漢字列抽出部30及び読み推定部31と同じであるから、ここでは説明を省略する。前記例では、モノルビ付き漢字列「私(ワタシ)達(タチ)」「石(イシ)川(カワ)県(ケン)」が生成される。
The Chinese character
口型CGデータ変換部36は、読み推定部35からモノルビ付き漢字列を入力し、モノルビ付き漢字列を構成する単漢字に対応する口型CGデータを、図示しない口型DBから読み出すことで、単漢字を口型CGデータに変換する。そして、口型CGデータ変換部36は、単漢字毎の口型CGデータをCG合成部37に出力する。前記例では、単漢字「私(ワタシ)」「達(タチ)」「石(イシ)」「川(カワ)」「県(ケン)」毎の口型CGデータが出力される。
The mouth type CG
CG合成部37は、手話CG翻訳部33から手話CGデータを入力すると共に、口型CGデータ変換部36から単漢字毎の口型CGデータを入力し、さらに、日本語文章テキストの字幕データ及び音声データを入力する。そして、CG合成部37は、手話CGデータに口型CGデータ、字幕データ及び音声データを同期させて合成し、CGデータを生成して出力する。前記例では、単漢字「私(ワタシ)」「達(タチ)」「石(イシ)」「川(カワ)」「県(ケン)」に対応する手話単語とその口型とが同期したCGデータが生成される。
The
これにより、CGデータに基づいて、単漢字に対応する手話単語とその口型とが同期したCGキャラクタの画像が生成され、当該画像及び字幕データが画面表示されると共に、音声データが再生される。 Thereby, based on CG data, an image of a CG character in which a sign language word corresponding to a single Chinese character and its mouth shape are synchronized is generated, the image and caption data are displayed on the screen, and audio data is reproduced. .
以上のように、手話CG翻訳装置3によれば、日本語文章テキストの手話CGデータを生成し、日本語文章テキストから漢字列を抽出し、実施例1,2の読み推定装置1−1,1−2と同じ処理にて、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成する。そして、手話CG翻訳装置3は、モノルビ付き漢字列に対応する単漢字毎の口型CGデータを生成し、日本語文章テキストの手話CGデータに単漢字毎の口型CGを同期させて合成し、CGデータを生成する。 As described above, according to the sign language CG translating device 3, the sign language CG data of the Japanese sentence text is generated, the kanji string is extracted from the Japanese sentence text, and the reading estimation apparatuses 1-1 and 1-1 of the first and second embodiments. In the same process as in 1-2, the reading of duplicate single kanji characters constituting the kanji string is estimated to generate a kanji string with mono-ruby. Then, the sign language CG translation device 3 generates mouth type CG data for each single kanji character corresponding to the kanji string with monorubi, and synchronizes the mouth type CG for each single kanji character with the sign language CG data of the Japanese text. , CG data is generated.
これにより、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することができ、結果として、単漢字に対応する手話の動きと口の動きとが同期したCGデータを再生することが可能となる。 As a result, a kanji string with monorubi can be generated with high accuracy without using a manually created rule, and as a result, CG data in which the movement of the sign language and the movement of the mouth corresponding to the single kanji is reproduced. It becomes possible.
以上、実施例1,2及びその適用例を挙げて本発明を説明したが、本発明は前記実施例1,2等に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば実施例1,2等では、読み推定装置1−1,1−2等は、漢字列を構成する複製単漢字と1文字毎の読みとを対応させた組み合わせ毎に対応確率値を算出し、対応確率値の高いものを適用し、複製単漢字と読みとを対応付けた複数単漢字対応付けデータを生成するようにした。これに対し、読み推定装置1−1,1−2等は、漢字列の読みデータ(を構成する1文字毎の読み)に対応する組み合わせの対応確率値の合計値を算出し、その合計値が最も高い複製単漢字と読みとを対応付けた複数単漢字対応付けデータを生成するようにしてもよい。 Although the present invention has been described with reference to the first and second embodiments and application examples thereof, the present invention is not limited to the first and second embodiments and the like, and various modifications can be made without departing from the technical idea thereof. It is. For example, in the first and second embodiments, the reading estimation apparatuses 1-1, 1-2, and the like calculate a corresponding probability value for each combination in which a single kanji character constituting a kanji string is matched with a reading for each character. A plurality of single-kanji character correspondence data in which a duplicate single-kanji character and a reading are associated with each other is generated by applying a high correspondence probability value. On the other hand, the reading estimation devices 1-1, 1-2, etc. calculate the total value of the corresponding probability values of the combinations corresponding to the reading data of the Chinese character string (reading for each character constituting the character string), and the total value A plurality of single-kanji character association data in which the duplicate single-kanji character and the reading are associated with each other may be generated.
尚、本発明の実施形態による読み推定装置1−1,1−2、モノルビ付き日本語文章テキスト生成装置2及び手話CG翻訳装置3のハードウェア構成としては、通常のコンピュータを使用することができる。読み推定装置1−1,1−2、モノルビ付き日本語文章テキスト生成装置2及び手話CG翻訳装置3は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。 In addition, as a hardware configuration of the reading estimation apparatuses 1-1 and 1-2, the Japanese sentence text generation apparatus 2 with mono-ruby, and the sign language CG translation apparatus 3 according to the embodiment of the present invention, a normal computer can be used. . The reading estimation devices 1-1 and 1-2, the Japanese sentence text generation device 2 with mono-ruby, and the sign language CG translation device 3 are a volatile storage medium such as a CPU and a RAM, a non-volatile storage medium such as a ROM, and an interface. It is comprised by the computer provided with etc.
読み推定装置1−1に備えた日本語辞書格納部10、漢字複製部11、固有名詞辞書格納部12、漢字及び読み対応付け部13及び漢字復元部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、読み推定装置1−2に備えた初期化部20、対応付けデータ生成部21及びモノルビ付き漢字列生成部22の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、モノルビ付き日本語文章テキスト生成装置2に備えた漢字列抽出部30、読み推定部31及びテキスト生成部32の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、手話CG翻訳装置3に備えた手話CG翻訳部33、漢字列抽出部34、読み推定部35、口型CGデータ変換部36及びCG合成部37の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
The functions of the Japanese
これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs can be stored and distributed on a storage medium such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), optical disk (CD-ROM, DVD, etc.), semiconductor memory, etc., and sent and received via a network. You can also
1 読み推定装置
2 モノルビ付き日本語文章テキスト生成装置
3 手話CG翻訳装置
10 日本語辞書格納部
11 漢字複製部
12 固有名詞辞書格納部
13 漢字及び読み対応付け部
14 漢字復元部
20 初期化部
21 対応付けデータ生成部
22 モノルビ付き漢字列生成部
23 漢字列及び読み分割手段
24 漢字複製手段
25 初期化手段
26 組み合わせ生成手段
27 確率算出手段
28 辞書
29 複製単漢字対応付けデータ生成手段
30,34 漢字列抽出部
31,35 読み推定部
32 テキスト生成部
33 手話CG翻訳部
36 口型CGデータ変換部
37 CG合成部
DESCRIPTION OF SYMBOLS 1 Reading estimation apparatus 2 Japanese sentence text generation apparatus 3 with a Monorbi Sign language
Claims (6)
見出し語及び当該見出し語の読みデータを入力し、前記見出し語、前記読みデータ及び対応付けデータを含む辞書を格納する辞書格納部と、
前記見出し語である漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成する漢字複製部と、
前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応付けた前記対応付けデータを生成する漢字及び読み対応付け部と、
前記辞書格納部から前記対応付けデータを読み出し、前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記見出し語のモノルビ付き漢字列を生成する漢字復元部と、を備え、
前記漢字及び読み対応付け部は、
前記辞書格納部に格納された前記辞書を用いて、前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記対応付けデータを生成し、
前記辞書格納部は、
前記漢字及び読み対応付け部により生成された前記対応付けデータを格納する、ことを特徴とする読み推定装置。 In the reading estimation device that estimates the reading for each single kanji from the headword and its reading data, and generates a kanji string with mono-ruby,
A dictionary storage unit for inputting a headword and reading data of the headword, and storing a dictionary including the headword, the reading data, and association data;
A kanji duplication unit that duplicates each single kanji character constituting the kanji string that is the headword and generates a plurality of duplicate single kanji characters for the single kanji character;
A kanji and reading association unit that generates the association data in which each of a plurality of duplicate single kanji characters constituting the headword is associated with a reading for each character constituting the reading data;
A kanji restoration unit that reads the association data from the dictionary storage unit, restores the duplicate single kanji characters included in the association data to the original single kanji characters, and generates a kanji string with monorubi for the entry word; Prepared,
The kanji and reading association unit is
Using the dictionary stored in the dictionary storage unit, for each combination in which each of a plurality of duplicate single kanji characters constituting the headword corresponds to reading for each character constituting the reading data, the duplicate Calculating a correspondence probability value indicating a degree of correspondence between a single kanji character and the reading; generating the correspondence data based on the correspondence probability value;
The dictionary storage unit
The reading estimation apparatus characterized by storing the association data generated by the kanji and reading association unit.
前記漢字列及び前記読みデータを入力し、前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成し、前記漢字列を構成する複数の複製単漢字と前記読みデータを構成する1文字毎の読みとからなる初期対応付けデータを生成する初期化部と、
前記初期化部により生成された前記初期対応付けデータに含まれる前記複製単漢字と前記読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記漢字列を構成する複数の複製単漢字のそれぞれと前記読みとを対応付けた対応付けデータを生成する対応付けデータ生成手段と、
前記対応付けデータ生成手段により生成された前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記漢字列のモノルビ付き漢字列を生成するモノルビ付き漢字列生成部と、
を備えたことを特徴とする読み推定装置。 In the reading estimation device that estimates the reading for each single kanji from the kanji string and its reading data, and generates a kanji string with mono-ruby,
The kanji string and the reading data are input, the single kanji for each character constituting the kanji string is duplicated, a plurality of duplicate single kanji characters are generated for the single kanji, and the kanji string is configured. An initializing unit for generating initial association data composed of a plurality of duplicate single kanji characters and readings for each character constituting the reading data;
For each combination of the duplicate single kanji and the reading included in the initial association data generated by the initialization unit, a corresponding probability value indicating the degree to which the duplicate single kanji and the reading correspond An association data generating means for generating association data in which each of a plurality of duplicate single kanji characters constituting the kanji string is associated with the reading based on the correspondence probability value;
A kanji string generation unit with mono-ruby that restores the duplicate single-kanji characters included in the association data generated by the association data generation means to the original single kanji and generates a kanji string with mono-ruby of the kanji string;
A reading estimation apparatus characterized by comprising:
前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し2つの前記複製単漢字を生成する、ことを特徴とする読み推定装置。 In the reading estimation apparatus according to claim 1 or 2,
A reading estimation apparatus, wherein each single kanji character constituting the kanji string is duplicated, and two duplicate single kanji characters are generated for each single kanji character.
前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、
請求項1から3までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、
前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する読み推定部と、
前記日本語文章テキストに含まれる前記漢字列を、前記読み推定部により生成された前記モノルビ付き漢字列に入れ換え、前記モノルビ付き日本語文章テキストを生成するテキスト生成部と、
を備えたことを特徴とするモノルビ付き日本語文章テキスト生成装置。 In a Japanese sentence text generator with mono ruby that generates Japanese sentence text with mono rubi from Japanese sentence text,
A kanji string extraction unit that extracts kanji strings from the Japanese sentence text and generates reading data of the kanji strings;
Memory in which the association data generated by the reading estimation device according to any one of claims 1 to 3 is stored corresponding to the Chinese character string;
The association data corresponding to the kanji string extracted by the kanji string extraction unit is read from the memory, the duplicate single kanji included in the association data is restored to the original single kanji, and the kanji string with mono-ruby is obtained. A reading estimator to generate,
A text generation unit that replaces the kanji string included in the Japanese sentence text with the kanji string with mono-ruby generated by the reading estimation unit, and generates the Japanese sentence text with mono-ruby;
A Japanese sentence text generator with mono-ruby, characterized by comprising:
前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、
請求項1から4までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、
前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元、モノルビ付き漢字列を生成する読み推定部と、
前記読み推定部により生成された前記モノルビ付き漢字列を構成する複数の単漢字のそれぞれについて、当該単漢字に対応する前記口型CGデータを生成する口型CGデータ生成部と、
前記手話CGデータに、前記口型CGデータ生成部により生成された前記口型CGデータを合成するCG合成部と、
を備えたことを特徴とする手話CG翻訳装置。 In a sign language CG translation device that translates Japanese text to generate sign language CG data, and synthesizes mouth type CG data representing mouth movements with the sign language CG data,
A kanji string extraction unit that extracts kanji strings from the Japanese sentence text and generates reading data of the kanji strings;
A memory in which the association data generated by the reading estimation device according to any one of claims 1 to 4 is stored corresponding to the Chinese character string;
The association data corresponding to the kanji string extracted by the kanji string extraction unit is read from the memory, the duplicate single kanji included in the association data is restored to the original single kanji, and a kanji string with mono-ruby is generated. A reading estimator to
A mouth type CG data generating unit that generates the mouth type CG data corresponding to the single kanji character for each of a plurality of single kanji characters constituting the kanji string with mono ruby generated by the reading estimation unit;
A CG synthesis unit that synthesizes the mouth CG data generated by the mouth type CG data generation unit with the sign language CG data;
A sign language CG translation apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016204893A JP6762195B2 (en) | 2016-10-19 | 2016-10-19 | Reading estimator and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016204893A JP6762195B2 (en) | 2016-10-19 | 2016-10-19 | Reading estimator and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018067125A true JP2018067125A (en) | 2018-04-26 |
JP6762195B2 JP6762195B2 (en) | 2020-09-30 |
Family
ID=62087218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016204893A Active JP6762195B2 (en) | 2016-10-19 | 2016-10-19 | Reading estimator and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6762195B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161315A (en) * | 1994-12-07 | 1996-06-21 | Casio Comput Co Ltd | Japanese language processor |
JPH09274428A (en) * | 1996-04-09 | 1997-10-21 | Hitachi Ltd | Sign language animation forming device |
JP2000353159A (en) * | 1999-06-11 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | Notation-reading correspondence device, notation- reading dictionary generating method, text reading arranging device, text reading arranging method, and recording medium |
JP2005534968A (en) * | 2002-07-31 | 2005-11-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Deciding to read kanji |
JP2014164403A (en) * | 2013-02-22 | 2014-09-08 | Nippon Hoso Kyokai <Nhk> | Reading allocation device and program |
-
2016
- 2016-10-19 JP JP2016204893A patent/JP6762195B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161315A (en) * | 1994-12-07 | 1996-06-21 | Casio Comput Co Ltd | Japanese language processor |
JPH09274428A (en) * | 1996-04-09 | 1997-10-21 | Hitachi Ltd | Sign language animation forming device |
JP2000353159A (en) * | 1999-06-11 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | Notation-reading correspondence device, notation- reading dictionary generating method, text reading arranging device, text reading arranging method, and recording medium |
JP2005534968A (en) * | 2002-07-31 | 2005-11-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Deciding to read kanji |
JP2014164403A (en) * | 2013-02-22 | 2014-09-08 | Nippon Hoso Kyokai <Nhk> | Reading allocation device and program |
Non-Patent Citations (1)
Title |
---|
"OSの日本語辞書から自動的にルビを付加するプラグインソフト", DTP WORLD, vol. 第14巻,第4号, JPN6020028927, 13 April 2009 (2009-04-13), JP, pages 134, ISSN: 0004321721 * |
Also Published As
Publication number | Publication date |
---|---|
JP6762195B2 (en) | 2020-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mortensen et al. | Epitran: Precision G2P for many languages | |
JP6175900B2 (en) | Translation apparatus, method, and program | |
JP7111464B2 (en) | Translation method, translation device and translation system | |
JP2009294913A (en) | Language processing apparatus and program | |
JP6471074B2 (en) | Machine translation apparatus, method and program | |
JP2006277677A (en) | Communication support device, method, and program | |
US10339973B2 (en) | System and method for audio dubbing and translation of a video | |
Delbrouck et al. | Modulating and attending the source image during encoding improves multimodal translation | |
Zhao et al. | Automatic interlinear glossing for under-resourced languages leveraging translations | |
Francisca et al. | Adapting rule based machine translation from english to bangla | |
Jaffe | Generating image descriptions using multilingual data | |
JP2017097062A (en) | Reading imparting device, speech recognition device, reading imparting method, speech recognition method, and program | |
JP7358748B2 (en) | Learning method, extraction method, learning program, and information processing device | |
Moryossef et al. | An open-source gloss-based baseline for spoken to signed language translation | |
JP2008083239A (en) | Device, method and program for editing intermediate language | |
Karakanta et al. | Between flexibility and consistency: Joint generation of captions and subtitles | |
Baby et al. | Non-native English lexicon creation for bilingual speech synthesis | |
JP2018067125A (en) | Reading estimation device and program | |
JP2019057095A (en) | Document generation device, model generation device, calibration device and computer program | |
Didenko et al. | RedPenNet for Grammatical Error Correction: Outputs to Tokens, Attentions to Spans | |
JP2013186673A (en) | Machine translation device and machine translation program | |
JP2005092682A (en) | Transliteration device and transliteration program | |
JP6043651B2 (en) | Reading apparatus and program for reading | |
EP3598322A1 (en) | Machine based expansion of contractions in text in digital media | |
JP5298833B2 (en) | Translation apparatus and translation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6762195 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |