JP2018067125A - Reading estimation device and program - Google Patents

Reading estimation device and program Download PDF

Info

Publication number
JP2018067125A
JP2018067125A JP2016204893A JP2016204893A JP2018067125A JP 2018067125 A JP2018067125 A JP 2018067125A JP 2016204893 A JP2016204893 A JP 2016204893A JP 2016204893 A JP2016204893 A JP 2016204893A JP 2018067125 A JP2018067125 A JP 2018067125A
Authority
JP
Japan
Prior art keywords
kanji
reading
data
string
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016204893A
Other languages
Japanese (ja)
Other versions
JP6762195B2 (en
Inventor
加藤 直人
Naoto Kato
直人 加藤
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016204893A priority Critical patent/JP6762195B2/en
Publication of JP2018067125A publication Critical patent/JP2018067125A/en
Application granted granted Critical
Publication of JP6762195B2 publication Critical patent/JP6762195B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To highly accurately produce a Kanji string with mono-ruby (Furigana where Kana is associated with each character of a compound) without using manually created rules.SOLUTION: A Kanji duplication unit 11 of a reading estimation device 1-1 sequences and duplicates a single Kanji per character constituting an entry word to produce a duplicated single Kanji. A Japanese dictionary storage unit 10 and a proper noun dictionary storage unit 12 store duplicated single Kanji association data for a duplicated single Kanji constituting an entry word and reading about the entry word and reading data thereof. A Kanji and reading association unit 13 calculates an association probability value by machine learning per combination for associating a duplicated single Kanji constituting an entry word with reading per character, and produces duplicated single Kanji association data associating a duplicated single Kanji with reading on the basis of the association probability value. A Kanji restoration unit 14 reads duplicated single Kanji association data from the proper noun dictionary storage unit 12, restores the duplicated single Kanji to the original single Kanji, and produces an entry word with mono-ruby of a proper noun.SELECTED DRAWING: Figure 1

Description

本発明は、漢字の読みを推定する読み推定装置及びプログラムに関する。   The present invention relates to a reading estimation device and a program for estimating reading of a Chinese character.

漢字に付けるふりがなをルビという。ルビには、漢字1文字(単漢字)毎にふりがなを付けるモノルビと、漢字列全体に付けるグループルビとがある。例えば、固有名詞の漢字列「中央区」をモノルビで表すと、「中(チュウ)央(オウ)区(ク)」となり、グループルビで表すと、「中央区(チュウオウク)」となる。   The furigana attached to kanji is called ruby. There are two types of ruby: mono-ruby with furigana for each kanji (single kanji) and group ruby for the whole kanji string. For example, if the Chinese character string “Chuo-ku” of proper noun is represented by mono-ruby, it becomes “chuo-ku”, and if it is represented by group-ruby, it becomes “chuo-ku”.

従来、漢字にルビを自動的に付与するルビ自動付与手法が知られている。ルビ自動付与手法としては、グループルビに関するものが多いが(例えば、特許文献1,2及び非特許文献1,2を参照)、モノルビに関するものもある(例えば、特許文献3及び非特許文献3)。   Conventionally, a ruby automatic assigning method for automatically assigning ruby to a Chinese character is known. Many ruby automatic assignment methods are related to group ruby (see, for example, Patent Documents 1 and 2 and Non-Patent Documents 1 and 2), but there are also methods related to mono-ruby (for example, Patent Documents 3 and 3). .

非特許文献3のモノルビ自動付与手法は、漢字列及びその読みについて、機械学習により単漢字毎に自動的に対応付けを行うものである。そして、自動対応付け処理の後に、人手で作成した規則を用いて、その結果を修正するものである。   Non-Patent Document 3 automatically applies a mono-ruby method in which a kanji string and its reading are automatically associated for each single kanji by machine learning. Then, after the automatic association process, the result is corrected using a rule created manually.

図8は、従来の自動対応付け処理を説明するフローチャートである。従来の自動対応付け処理を行う装置(読み推定装置)は、図8に示す処理にて、機械学習により、漢字列及びその読みについて単漢字毎に対応付けを行うことで、単漢字毎の読み(モノルビ)を推定する。   FIG. 8 is a flowchart for explaining a conventional automatic association process. The conventional automatic association processing device (reading estimation device) performs the reading shown for each single kanji character by associating the kanji string and its reading for each single kanji character by machine learning in the processing shown in FIG. Estimate (mono ruby).

読み推定装置は、漢字列及びその読みデータを入力し(ステップS801)、漢字列を1文字毎の単漢字に分割すると共に、読みデータを1文字毎の読みに分割する(ステップS802)。   The reading estimation apparatus inputs a kanji string and its reading data (step S801), divides the kanji string into single kanji characters for each character, and divides the reading data into readings for each character (step S802).

例えば、読み推定装置は、漢字列「中央」及びその読み「チュウオウ」を入力し、漢字列「中央」を「中」「央」に分割し、読み「チュウオウ」を「チュ」「ウ」「オ」「ウ」に分割する。   For example, the reading estimation device inputs a kanji string “center” and its reading “chuo”, divides the kanji string “center” into “middle” and “middle”, and converts the readings “chuo” into “chu” “u” “ Divide into “O” and “U”.

読み推定装置は、漢字列を構成する1文字毎の単漢字と、読みデータを構成する1文字毎の読みとを対応させた全ての組み合わせを生成し、機械学習により、組み合わせ毎の対応確率値を算出する(ステップS803)。   The reading estimation device generates all combinations in which a single kanji for each character constituting the kanji string and a reading for each character constituting the reading data are associated, and the corresponding probability value for each combination is generated by machine learning. Is calculated (step S803).

前記例では、読み推定装置は、漢字列「中央」及び読み「チュウオウ」について、「中:チュ」「中:ウ」「中:オ」「央:チュ」「央:ウ」「央:オ」の6通りの組み合わせを生成する。「:」は対応を示す。   In the above-described example, the reading estimation apparatus has “middle: chu”, “middle: u”, “middle: o”, “middle: chu”, “middle: u”, and “middle: ”Are generated. “:” Indicates correspondence.

そして、読み推定装置は、様々な漢字列及び読みについて、例えば機械学習としてEMアルゴリズムを適用し、組み合わせ毎の対応確率値を算出する。例えば、漢字列「中央」「中学」「中紀」及びそれらの読み「チュウオウ」「チュウガク」「チュウキ」について、組み合わせ毎の対応確率値は以下のようになる。
P(央|ウ)=0.748288、P(央|オ)=1.000000、P(学|ウ)=0.001401、
P(学|ガ)=1.000000、P(学|ク)=1.000000、P(紀|ウ)=0.250310、
P(紀|キ)=1.000000、P(中|チュ)=1.000000、
尚、その他の組み合わせの対応確率値は0である。
Then, the reading estimation apparatus applies an EM algorithm as machine learning, for example, to various kanji strings and readings, and calculates a corresponding probability value for each combination. For example, for the Chinese character strings “center”, “junior high school”, “medium” and their readings “chuo”, “chugaku”, “chuuki”, the corresponding probability values for each combination are as follows.
P (central | U) = 0.748288, P (central | o) = 1.00000, P (Study | U) = 0.040140,
P (Study | Ga) = 1.00000, P (Study | Ku) = 1.00000, P (Ki | U) = 0.503310,
P (ki | ki) = 1.00000, P (medium | chu) = 1.00000,
Incidentally, the corresponding probability value of other combinations is 0.

読み推定装置は、組み合わせ毎の対応確率値に基づいて、単漢字と読みとを対応付ける(ステップS804)。前記例では、読み推定装置は、漢字列「中央」及び読み「チュウオウ」(1文字毎の読み「チュ」「ウ1」「オ」「ウ2」)について、対応確率値の高いものから適用し、単漢字と読みとを対応付け「中:チュ」「央:ウ1」「央:オ」「央:ウ2」を特定する。「ウ1」は第1番目の「ウ」を示し、「ウ2」は第2番目の「ウ」を示す。   The reading estimation apparatus associates a single kanji character with a reading based on the corresponding probability value for each combination (step S804). In the above example, the reading estimation device applies the kanji character string “center” and the reading “chuo” (reading “chu” “u1” “o” “u2” for each character in descending order of the corresponding probability values. Then, a single Chinese character and a reading are associated with each other, and “middle: chu”, “middle: u1”, “middle: o”, “middle: u2” are specified. “U1” indicates the first “U”, and “U2” indicates the second “U”.

漢字列「中央」及び読み「チュウオウ」について、対応確率値が高いものから適用すると、以下のようになる。
P(中|チュ)=1.000000
P(央|オ)=1.000000
P(央|ウ1)=0.748288
P(央|ウ2)=0.748288
When the kanji character string “center” and the reading “chuo” are applied in descending order of the corresponding probability values, they are as follows.
P (Medium | Ju) = 1.00000
P (center | o) = 1.00000
P (central | U 1) = 0.748288
P (Center | U2) = 0.748288

読み推定装置は、モノルビ付き漢字列を生成し、出力する(ステップS805)。前記例では、読み推定装置は、漢字列「中央」及び読み「チュウオウ」について、モノルビ付き漢字列「中(チュ)央(ウオウ)」を生成し、出力する。   The reading estimation device generates and outputs a kanji string with mono-ruby (step S805). In the above example, the reading estimation device generates and outputs a Chinese character string “Chuo” with mono-ruby for the Chinese character string “center” and the reading “chuo”.

このように、図8に示した従来技術の自動対応付け処理では、例えば、漢字列「中央」及び読み「チュウオウ」について、機械学習により単漢字と読みとの対応付けを行うと、モノルビ付き漢字列は、「中(チュ)央(ウオウ)」となる。   Thus, in the automatic matching process of the prior art shown in FIG. 8, for example, when the kanji string “center” and the reading “chuo” are associated with single kanji and reading by machine learning, the kanji with monorubi The column will be “Chu”.

このような誤った対応付けがなされるのは、「中」の読みが「チュウ」だけでなく「ナカ」もあり、「央」の読みが「オウ」であることがほとんどであり、機械学習によれば、対応確率値がP(中|ウ)<P(央|ウ)となるからである。この対応確率値は、漢字列「中央」及び読み「チュウオウ」について、単漢字「中」に読み「ウ」を対応付ける確率よりも、単漢字「央」に読み「ウ」を対応付ける確率の方が高いことを示している。つまり、読み「チュウオウ」のうちの第1番目の読み「ウ」は、単漢字「中」ではなく、単漢字「央」に対応付けられてしまう。   The reason for this incorrect correspondence is that “medium” readings are not only “chu” but also “naka”, and “center” readings are mostly “o”. This is because the corresponding probability value is P (middle | w) <P (center | w). This correspondence probability value is greater for the kanji character string “center” and the reading “chuo” than the probability that the reading “u” is associated with the single kanji character “middle” rather than the probability that the reading “u” is associated with the single kanji character “middle”. It is high. In other words, the first reading “c” of the reading “chuo” is associated with the single kanji character “middle” rather than the single kanji character “middle”.

このような誤った対応付けがなされた後、人手で作成した規則を用いて、その結果が修正される。例えば、以下の規則aが用いられる。
<規則a>
読み「チュ」は、1文字のみでは漢字と対応付けしないで、次の読みもその漢字に対応付ける。
After such an incorrect association, the result is corrected using a rule created manually. For example, the following rule a is used.
<Rule a>
The reading “Ju” is not associated with a kanji by only one character, and the next reading is also associated with the kanji.

「中(チュ)」は、単漢字「中」と1文字のみの読みとの対応付けとなるから、前記規則aを用いることにより、次の読み「ウ」も単漢字「中」に対応付けられる。これにより、「中(チュ)」は「中(チュウ)」に修正される。   “Chu” associates the single kanji character “middle” with the reading of only one character. By using the rule a, the next reading “c” is also associated with the single kanji character “middle”. It is done. As a result, “chu” is corrected to “chu”.

一方、読み「ウオウ」のうちの第1番目の読み「ウ」は、単漢字「中」に対応付けられたから、残りの読み「オウ」は、漢字「央」に対応付けられる。その結果、固有名詞の漢字列「中央」及び読み「チュウオウ」について、正しく対応付けられたモノルビ付き漢字列「中(チュウ)」「央(オウ)」が得られる。   On the other hand, since the first reading “U” of the reading “Woo” is associated with the single Chinese character “Middle”, the remaining reading “O” is associated with the Chinese character “Center”. As a result, for the proper noun kanji character string “center” and the reading “chuo”, the kanji character strings “middle (chu)” and “middle (ou)” with mono-ruby correctly associated are obtained.

特開2015−138273号公報JP2015-138273A 特開2004−151847号公報JP 2004-151847 A 特開平6−274475号公報JP-A-6-274475

長野徹、森信介、西村雅史、「音声合成のための読みおよびアクセントの同時推定」、情報処理学会論文誌、No.47、Vol.6、pp.1793-1801、2006Toru Nagano, Shinsuke Mori, Masafumi Nishimura, "Simultaneous Reading and Accent Estimation for Speech Synthesis", Journal of Information Processing Society of Japan, No.47, Vol.6, pp.1793-1801, 2006 羽鳥潤、鈴木久美、「機械翻訳手法に基づいた日本語の読み推定」、言語処理学会第17回年次大会、pp.579-589、2011Jun Hatori, Kumi Suzuki, “Predicting Japanese Reading Based on Machine Translation”, The 17th Annual Conference of the Association for Natural Language Processing, pp.579-589, 2011 宮崎太郎、加藤直人、「人名のモノルビ自動付与手法」、言語処理学会第19回年次大会、pp.34-37、2013Taro Miyazaki, Naoto Kato, “Autonomous Monorubi Assignment Method”, The 19th Annual Conference of the Language Processing Society, pp.34-37, 2013

前述したとおり、従来のモノルビ自動付与手法は、漢字列及びその読みについて、機械学習により、単漢字と読みとの対応付けを行い、モノルビ付き漢字列を生成し、そして、人手で作成した規則を用いて、推定したモノルビ付き漢字列を修正する。   As described above, the conventional mono-ruby automatic assignment method uses a machine learning to associate a single kanji and a reading for a kanji string and its reading, generates a kanji string with mono rubi, and manually creates a rule. Use to correct the estimated Kanji string with mono-ruby.

しかしながら、従来のモノルビ自動付与手法において、モノルビ付き漢字列の精度を上げるためには、多くの規則を用いる必要がある。規則は、予め人手で作成されるものであるから、手間がかかるという問題があった。   However, in order to increase the accuracy of kanji strings with mono-ruby in the conventional mono-ruby automatic assignment method, it is necessary to use many rules. Since the rules are created manually in advance, there is a problem that it takes time.

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能な読み推定装置及びプログラムを提供することにある。   Therefore, the present invention has been made to solve the above-mentioned problems, and its object is to provide a reading estimation apparatus and program capable of generating a kanji string with monorubi with high accuracy without using a manually created rule. Is to provide.

前記課題を解決するために、請求項1の読み推定装置は、見出し語及びその読みデータから単漢字毎の読みを推定し、モノルビ付き漢字列を生成する読み推定装置において、見出し語及び当該見出し語の読みデータを入力し、前記見出し語、前記読みデータ及び対応付けデータを含む辞書を格納する辞書格納部と、前記見出し語である漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成する漢字複製部と、前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応付けた前記対応付けデータを生成する漢字及び読み対応付け部と、前記辞書格納部から前記対応付けデータを読み出し、前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記見出し語のモノルビ付き漢字列を生成する漢字復元部と、を備え、前記漢字及び読み対応付け部が、前記辞書格納部に格納された前記辞書を用いて、前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記対応付けデータを生成し、前記辞書格納部が、前記漢字及び読み対応付け部により生成された前記対応付けデータを格納する、ことを特徴とする。   In order to solve the above-described problem, the reading estimation apparatus according to claim 1 estimates a reading for each single kanji character from a headword and its reading data, and generates a kanji string with monorubi. A dictionary storage unit for inputting word reading data and storing a dictionary including the headword, the reading data, and association data, and a single kanji for each character constituting the kanji string that is the headword. Correspondence between a kanji duplicating unit that generates a plurality of duplicate single kanji characters for each single kanji character, and a plurality of duplicate single kanji characters constituting the headword and a reading for each character constituting the reading data The associated kanji / reading association unit for generating the association data, and the association data are read from the dictionary storage unit, and the duplicate single kanji character included in the association data is restored to the original A kanji restoration unit that restores to a single kanji and generates a kanji string with monoruby of the headword, and the kanji and reading association unit uses the dictionary stored in the dictionary storage unit, Corresponding probability value indicating the degree of correspondence between the duplicate single kanji characters and the readings for each combination in which each of the plurality of duplicate single kanji characters constituting the headword and the readings for each character constituting the reading data correspond to each other The association data is generated based on the correspondence probability value, and the dictionary storage unit stores the association data generated by the kanji and reading association unit. .

また、請求項2の読み推定装置は、漢字列及びその読みデータから単漢字毎の読みを推定し、モノルビ付き漢字列を生成する読み推定装置において、前記漢字列及び前記読みデータを入力し、前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成し、前記漢字列を構成する複数の複製単漢字と前記読みデータを構成する1文字毎の読みとからなる初期対応付けデータを生成する初期化部と、前記初期化部により生成された前記初期対応付けデータに含まれる前記複製単漢字と前記読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記漢字列を構成する複数の複製単漢字のそれぞれと前記読みとを対応付けた対応付けデータを生成する対応付けデータ生成手段と、前記対応付けデータ生成手段により生成された前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記漢字列のモノルビ付き漢字列を生成するモノルビ付き漢字列生成部と、を備えたことを特徴とする。   The reading estimation apparatus according to claim 2 estimates a reading for each single kanji from a kanji string and its reading data, and inputs the kanji string and the reading data in a reading estimation apparatus that generates a kanji string with monorubi, A single kanji character for each character constituting the kanji string is duplicated, a plurality of duplicate single kanji characters are generated for the single kanji character, and a plurality of duplicate single kanji characters constituting the kanji string and the reading data are stored. An initializing unit that generates initial association data composed of readings for each character that constitutes, and the duplicate single kanji characters included in the initial association data generated by the initializing unit are associated with the readings For each combination, a corresponding probability value indicating the degree to which the duplicate single kanji character corresponds to the reading is calculated, and based on the correspondence probability value, each of a plurality of duplicate single kanji characters constituting the kanji string and the reading Correspondence data generation means for generating associated correspondence data, and the duplicate single kanji character included in the association data generated by the association data generation means is restored to the original single kanji character, and the kanji string A kanji string generating unit with mono ruby that generates a kanji string with mono rubi.

また、請求項3の読み推定装置は、請求項1または2に記載の読み推定装置において、前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し2つの前記複製単漢字を生成する、ことを特徴とする。   The reading estimation apparatus according to claim 3 is the reading estimation apparatus according to claim 1 or 2, wherein each single kanji character constituting the kanji string is duplicated, and 2 for each single kanji character. Two duplicate single kanji characters are generated.

さらに、請求項4のモノルビ付き日本語文章テキスト生成装置は、日本語文章テキストからモノルビ付き日本語文章テキストを生成するモノルビ付き日本語文章テキスト生成装置において、前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、請求項1から3までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する読み推定部と、前記日本語文章テキストに含まれる前記漢字列を、前記読み推定部により生成された前記モノルビ付き漢字列に入れ換え、前記モノルビ付き日本語文章テキストを生成するテキスト生成部と、を備えたことを特徴とする。   Furthermore, the Japanese sentence text generation apparatus with mono-ruby according to claim 4 is a Japanese sentence text generation apparatus with mono-ruby that generates a Japanese sentence text with mono-ruby from a Japanese sentence text, and extracts a kanji string from the Japanese sentence text. Then, the Chinese character string extraction unit that generates the reading data of the Chinese character string and the association data generated by the reading estimation device according to any one of claims 1 to 3 are stored corresponding to the Chinese character string. And the association data corresponding to the kanji string extracted by the kanji string extraction unit is read from the memory, the duplicate single kanji included in the association data is restored to the original single kanji, and the monorubi A kanji character sequence generated by the reading estimation unit; and a reading estimation unit that generates a kanji character sequence with the kanji character sequence included in the Japanese sentence text. Replaced kanji string attached, characterized in that it is provided with a, and a text generation unit which generates the Monorubi with Japanese sentence text.

さらに、請求項5の手話CG翻訳装置は、日本語文章テキストを翻訳して手話CGデータを生成し、前記手話CGデータに、口の動きを表した口型CGデータを合成する手話CG翻訳装置において、前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、請求項1から4までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元、モノルビ付き漢字列を生成する読み推定部と、前記読み推定部により生成された前記モノルビ付き漢字列を構成する複数の単漢字のそれぞれについて、当該単漢字に対応する前記口型CGデータを生成する口型CGデータ生成部と、前記手話CGデータに、前記口型CGデータ生成部により生成された前記口型CGデータを合成するCG合成部と、を備えたことを特徴とする。   Furthermore, the sign language CG translation device of claim 5 translates Japanese text to generate sign language CG data, and synthesizes the sign language CG data representing the movement of the mouth with the sign language CG data. 5. A Chinese character string extraction unit that extracts a Chinese character string from the Japanese sentence text and generates reading data of the Chinese character string, and an association generated by the reading estimation device according to claim 1. A memory in which data is stored corresponding to the kanji string, and the association data corresponding to the kanji string extracted by the kanji string extraction unit are read from the memory, and a copy included in the association data A reading estimator that restores a single kanji to the original single kanji and generates a kanji string with monorubi, and a plurality of single kanji characters that compose the kanji string with monorubi generated by the reading estimator For this, the mouth CG data generating unit that generates the mouth CG data corresponding to the single kanji and the mouth CG data generated by the mouth CG data generating unit are combined with the sign language CG data. And a CG synthesis unit.

さらに、請求項6のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の読み推定装置として機能させることを特徴とする。   Furthermore, a program according to a sixth aspect causes a computer to function as the reading estimation apparatus according to any one of the first to third aspects.

以上のように、本発明によれば、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能となる。   As described above, according to the present invention, a kanji string with mono-ruby can be generated with high accuracy without using a manually created rule.

実施例1の読み推定装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the reading estimation apparatus of Example 1. FIG. 実施例1の読み推定装置の処理例を示すフローチャートである。6 is a flowchart illustrating a processing example of the reading estimation apparatus according to the first embodiment. 固有名詞辞書を説明する図である。It is a figure explaining a proper noun dictionary. 実施例2の読み推定装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the reading estimation apparatus of Example 2. FIG. 実施例2の読み推定装置の処理例を示すフローチャートである。10 is a flowchart illustrating a processing example of the reading estimation apparatus according to the second embodiment. モノルビ付き日本語文章テキスト生成装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the Japanese sentence text production | generation apparatus with a Monorbi. 手話CG翻訳装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of a sign language CG translation apparatus. 従来の自動対応付け処理を説明するフローチャートである。It is a flowchart explaining the conventional automatic matching process.

以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔概要〕
まず、本発明の概要について、漢字列「中央区」及びその読みデータ「チュウオウク」から、モノルビ付き漢字列「中(チュウ)」「央(オウ)」「区(ク)」を生成する例を挙げて説明する。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
〔Overview〕
First, as an outline of the present invention, an example of generating a Chinese character string “Chu”, “Oo”, and “Ku” with monorubi from a Chinese character string “Chuo-ku” and its reading data “Chuu-Ok”. Will be described.

本発明の実施形態による読み推定装置は、まず、従来技術と同様に、漢字列「中央」を単漢字「中」「央」「区」に分割し、読みデータ「チュウオウク」を読み「チュ」「ウ」「オ」「ウ」「ク」に分割する。   The reading estimation apparatus according to the embodiment of the present invention first divides the kanji string “center” into single kanji characters “middle”, “center”, and “ku”, and reads the reading data “chuouku” as in the conventional technique. ”,“ U ”,“ O ”,“ U ”and“ K ”.

読み推定装置は、単漢字「中」「央」「区」の1文字を2文字に複製し、添え字の記号「B」「E」を付加する。これにより、以下のとおり、単漢字「中」から「中B」「中E」(「中B/中E」)が生成され、単漢字「央」から「央B」「央E」(「央B/央E」)が生成され、単漢字「区」から「区B」「区E」(「区B/区E」)が生成される。
「中」→「中B/中E」
「央」→「央B/央E」
「区」→「区B/区E」
The reading estimation apparatus duplicates the single kanji characters “middle”, “center”, and “ku” into two characters, and adds the subscript symbols “B” and “E”. As a result, the single Chinese characters “middle”, “middle B”, “middle E” (“middle B / middle E”) are generated, and the single kanji characters “middle” to “middle B” “middle E” (“ “B” and “E” are generated, and “K” and “K” are generated from the single kanji character “K”.
“Medium” → “Medium B / Medium E”
“Center” → “Center B / Center E”
"City" → "City B / City E"

ここで、複製後の2文字の切れ目を/とする。「B」は初め(Begin)を意味し、「E」は終わり(End)を意味する。また、単漢字が複製され記号が付加された単漢字「中B」「中E」・・・を、複製単漢字という。   Here, the two-character break after copying is /. “B” means beginning, and “E” means end. Further, single Chinese characters “middle B”, “middle E”,.

読み推定装置は、複製単漢字列「中B/中E/央B/央E/区B/区E」及び読みデータ「チュウオウク」について、漢字列を構成する複数の複製単漢字のそれぞれと読みデータを構成する1文字毎の読みとを対応させた全ての組み合わせを生成する。そして、読み推定装置は、様々な漢字列及び読みデータを用いて、機械学習により、組み合わせ毎に、複製単漢字と読みとが対応する程度を示す対応確率値を算出する。   The reading estimation apparatus is configured to copy each of a plurality of duplicate single kanji characters constituting the kanji string for the duplicate single kanji character string “middle B / middle E / middle B / middle E / ku B / ku E” and the reading data “chuouku”. All combinations corresponding to the reading of each character constituting the reading data are generated. Then, the reading estimation device uses various kanji strings and reading data to calculate a corresponding probability value indicating the degree to which the duplicate single kanji and reading correspond for each combination by machine learning.

これにより、例えば「中(チュウ)」の「ウ」は、単漢字「中」の読みの最後に位置し、単漢字「央」の先頭に位置しないように表現することが可能となる。つまり、機械学習により算出される対応確率値は、P(中E|ウ)>P(央B|ウ)となる。   Accordingly, for example, “U” of “Chu” can be expressed at the end of the reading of the single Chinese character “Middle” and not at the beginning of the single Chinese character “Center”. That is, the corresponding probability value calculated by machine learning is P (medium E | c)> P (center B | c).

この対応確率値は、漢字列「中央区」及び読み「チュウオウク」について、複製単漢字「中E」に読み「ウ」を対応付ける確率の方が、複製単漢字「央B」に読み「ウ」を対応付ける確率よりも高いことを示している。つまり、後述するように、読み「チュウオウク」のうちの第1番目の読み「ウ」は、単漢字「央」ではなく、単漢字「中」に対応付けられる。   This correspondence probability value is the probability that the reading “U” is associated with the duplicate single kanji character “Chu E” for the Chinese character string “Chuo-ku” and the reading “Chuu-Oku”. "Is higher than the probability of matching. That is, as will be described later, the first reading “U” of the reading “CHUOKU” is associated with the single Chinese character “middle” rather than the single Chinese character “middle”.

読み推定装置は、組み合わせ毎の対応確率値に基づいて、複製単漢字と読みとを対応付け、対応付けデータを生成する。これにより、対応確率値の大きいものを適用すると、複製単漢字と読みとの対応付けの組み合わせを示す対応付けデータは、「中B:チュ」「中E:ウ」「央B:オ」「央E:ウ」「区B:ク」「区E:φ」となる。ここで、「φ」は対応付けがないことを表す。   The reading estimation apparatus associates the duplicate single kanji and the reading based on the correspondence probability value for each combination, and generates correspondence data. As a result, when the one having a large correspondence probability value is applied, the correspondence data indicating the combination of the correspondence between the duplicate single kanji and the reading is “middle B: chu”, “middle E: u”, “center B: o”, “ Central E: U, “B: Ku”, “E: φ”. Here, “φ” indicates that there is no association.

読み推定装置は、対応付けデータから記号B,Eを取り除き、元の1文字の単漢字に復元することで、正しく対応付けたモノルビ付き漢字列「中(チュウ)」「央(オウ)」「区(ク)」を生成する。   The reading estimation device removes the symbols B and E from the correspondence data and restores the original single kanji character, thereby correctly matching the kanji strings “Chu”, “Oh”, “ A “ku” is generated.

このように、漢字列とその読みデータから単漢字と読みとを自動的に対応付けする際に、単漢字に対してその順序を明示して複製した文字列を生成し、その文字列とその読みとを自動アライメントするようにした。これにより、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能となる。   In this way, when automatically associating a single kanji character with a reading from the kanji character string and its reading data, a character string in which the order is clearly specified for the single kanji character is generated, and the character string and the Automatic alignment between readings. As a result, it is possible to generate a kanji string with mono-ruby with high accuracy without using manually created rules.

尚、読み推定装置は、単漢字の1文字を2文字に複製し、2つの複製単漢字を生成するようにしたが、漢字の1文字を3文字以上に複製し、3つ以上の複製単漢字を生成するようにしてもよい。しかし、一般には、単漢字は2文字で読まれることが多い。したがって、単漢字の1文字を2文字に複製し、2つの複製単漢字を生成することにより、単漢字中の読みの位置を一層正しく表現することができる。   The reading estimation device duplicates one single kanji character into two characters and generates two duplicate single kanji characters, but duplicates one kanji character into three or more characters and reproduces three or more duplicate single kanji characters. Kanji characters may be generated. However, in general, a single kanji is often read as two characters. Therefore, by duplicating one character of a single Chinese character into two characters and generating two duplicate single Chinese characters, the position of a reading in the single Chinese character can be expressed more correctly.

〔読み推定装置/実施例1〕
次に、本発明の第1の実施形態(実施例1)による読み推定装置について説明する。図1は、実施例1の読み推定装置の構成例を示すブロック図である。この読み推定装置1−1は、日本語辞書格納部10、漢字複製部11、固有名詞辞書格納部12、漢字及び読み対応付け部13、及び漢字復元部14を備えている。
[Reading estimation device / Example 1]
Next, a reading estimation apparatus according to the first mode for embodying the present invention (Example 1) will be described. FIG. 1 is a block diagram illustrating a configuration example of the reading estimation apparatus according to the first embodiment. The reading estimation apparatus 1-1 includes a Japanese dictionary storage unit 10, a kanji replication unit 11, a proper noun dictionary storage unit 12, a kanji / reading association unit 13, and a kanji restoration unit 14.

日本語辞書格納部10は、日本語辞書の見出し語及びその読みデータを入力し、これらを格納する。また、日本語辞書格納部10は、漢字複製部11から見出し語を構成する複製単漢字を入力し、見出し語を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成して格納する。さらに、日本語辞書格納部10は、漢字及び読み対応付け部13から複製単漢字対応付けデータを入力して格納する。   The Japanese dictionary storage unit 10 inputs headwords in the Japanese dictionary and their reading data and stores them. In addition, the Japanese dictionary storage unit 10 receives the duplicate single kanji characters constituting the headword from the kanji duplicating unit 11, and the initial correspondence consisting of the duplicate single kanji characters constituting the headword and the reading for each character constituting the reading data. Generate and store attached data. Further, the Japanese dictionary storage unit 10 receives and stores duplicate single kanji association data from the kanji and reading association unit 13.

漢字複製部11は、日本語辞書格納部10から見出し語を構成する1文字毎の単漢字をそれぞれ入力し、単漢字を順序付けして複製し、複製単漢字を生成する。そして、漢字複製部11は、複製単漢字を日本語辞書格納部10に出力する。固有名詞辞書格納部12について同様である。   The kanji duplication unit 11 inputs single kanji for each character constituting the entry word from the Japanese dictionary storage unit 10, orders and duplicates the single kanji, and generates a duplicate single kanji. Then, the Chinese character replicating unit 11 outputs the replicated single Chinese character to the Japanese dictionary storage unit 10. The same applies to the proper noun dictionary storage unit 12.

固有名詞辞書格納部12は、固有名詞辞書の見出し語及びその読みデータを入力し、これらを格納する。また、固有名詞辞書格納部12は、漢字複製部11から見出し語を構成する複製単漢字を入力し、見出し語を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成して格納する。さらに、固有名詞辞書格納部12は、漢字及び読み対応付け部13から複製単漢字対応付けデータを入力して格納する。   The proper noun dictionary storage unit 12 inputs headwords and their reading data of the proper noun dictionary and stores them. In addition, the proper noun dictionary storage unit 12 inputs the duplicate single kanji characters constituting the entry word from the kanji duplication unit 11, and initially corresponds to the duplicate single kanji character constituting the entry word and the reading for each character constituting the reading data. Generate and store attached data. Furthermore, the proper noun dictionary storage unit 12 inputs and stores the duplicate single kanji association data from the kanji and reading association unit 13.

漢字及び読み対応付け部13は、日本語辞書格納部10及び固有名詞辞書格納部12から初期対応付けデータを読み出す。そして、漢字及び読み対応付け部13は、初期対応付けデータに含まれる複製単漢字と読みとの対応付けを行い、複製単漢字対応付けデータを生成する。そして、漢字及び読み対応付け部13は、複製単漢字対応付けデータを、対応する初期対応付けデータを読み出した日本語辞書格納部10または固有名詞辞書格納部12に出力する。   The kanji / reading association unit 13 reads the initial association data from the Japanese dictionary storage unit 10 and the proper noun dictionary storage unit 12. Then, the kanji / reading association unit 13 associates the duplicate single kanji and the reading included in the initial association data, and generates duplicate single kanji correspondence data. Then, the kanji / reading association unit 13 outputs the duplicate single kanji association data to the Japanese dictionary storage unit 10 or the proper noun dictionary storage unit 12 that has read out the corresponding initial association data.

漢字復元部14は、固有名詞辞書格納部12から複製単漢字対応付けデータを読み出し、複製単漢字を元の単漢字に復元し、固有名詞のモノルビ付き見出し語を生成し、出力する。   The kanji restoration unit 14 reads the duplicate single kanji character association data from the proper noun dictionary storage unit 12, restores the duplicate single kanji character to the original single kanji character, generates a proper noun mono-ruby entry word, and outputs it.

図2は、実施例1の読み推定装置1−1の処理例を示すフローチャートである。読み推定装置1−1は、日本語辞書の見出し語及びその読みデータを入力し、日本語辞書の初期設定を行い、初期対応付けデータを生成する(ステップS201)。読み推定装置1−1は、入力した全ての見出し語及びその読みデータに対し初期設定を行い、見出し語及びその読みデータ毎に初期対応付けデータを生成する。   FIG. 2 is a flowchart illustrating a processing example of the reading estimation apparatus 1-1 according to the first embodiment. The reading estimation apparatus 1-1 receives the headword of the Japanese dictionary and its reading data, performs initial setting of the Japanese dictionary, and generates initial association data (step S201). The reading estimation apparatus 1-1 performs initial setting for all input headwords and their reading data, and generates initial association data for each headword and its reading data.

例えば、日本語辞書格納部10は、日本語辞書の見出し語「圏央」及びその読みデータ「ケンオウ」を入力し、これらをメモリに格納する。日本語辞書格納部10は、見出し語「圏央」を1文字単位の単漢字「圏」「央」に分割すると共に、読みデータ「ケンオウ」を1文字毎の読み「ケ」「ン」「オ」「ウ」に分割する。そして、日本語辞書格納部10は、見出し語「圏央」を構成する単漢字「圏」「央」を漢字複製部11に出力する。   For example, the Japanese dictionary storage unit 10 inputs a Japanese dictionary entry word “Ken-Oo” and its reading data “Ken-o” and stores them in the memory. The Japanese dictionary storage unit 10 divides the headword “Ken-Oo” into single-kanji characters “Ken” and “Oo” in units of one character, and also reads the reading data “Ken-o” for each character. Divide into “O” and “U”. Then, the Japanese dictionary storage unit 10 outputs the single kanji characters “Zen” and “Zo” constituting the headword “Ken-Oo” to the Kanji duplication unit 11.

漢字複製部11は、日本語辞書格納部10から見出し語「圏央」を構成する単漢字「圏」「央」を入力し、単漢字「圏」「央」を順序付けして1文字を2文字に複製し、添え字「B」「E」を付加して複製単漢字「圏B/圏E」「央B/央E」を生成する。そして、漢字複製部11は、見出し語「圏央」を構成する複製単漢字「圏B/圏E」「央B/央E」を日本語辞書格納部10に出力する。   The kanji duplicating unit 11 inputs the single kanji characters “Ken” and “middle” constituting the headword “Kenzoku” from the Japanese dictionary storage unit 10, orders the single kanji characters “Ken” and “middle”, and changes one character into two. Duplicate the characters and add the subscripts “B” and “E” to generate the duplicate single kanji characters “Category B / Category E” “Central B / Central E”. Then, the kanji duplicating unit 11 outputs the duplicate single kanji characters “Category B / Category E” and “Chuo B / Chuo E” that constitute the headword “Chuo Central” to the Japanese dictionary storage unit 10.

日本語辞書格納部10は、漢字複製部11から見出し語「圏央」を構成する複製単漢字「圏B/圏E」「央B/央E」を入力する。そして、日本語辞書格納部10は、見出し語「圏央」を構成する複製単漢字「圏B/圏E」「央B/央E」及び読みデータ「ケンオウ」を構成する1文字毎の読み「ケ/ン/オ/ウ」からなる初期対応付けデータを生成してメモリに格納する。この場合の初期対応付けデータは、「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」となる。   The Japanese dictionary storage unit 10 inputs the duplicate single kanji characters “Zone B / Zone E” and “Zo B / Zo E” constituting the headword “Keno” from the Kanji duplicating unit 11. Then, the Japanese dictionary storage unit 10 reads the single character Kanji “Category B / Category E”, “Chuo B / Chuo E” that constitutes the headword “Keno” and the reading for each character that constitutes the reading data “Kenou”. Initial correspondence data consisting of “Ken / O / U” is generated and stored in the memory. The initial association data in this case is “Band B / Band E / Center B / Center E” and “Ken / N / O / U”.

読み推定装置1−1は、ステップS201において、日本語辞書の様々な見出し語及びその読みデータを入力し、入力した見出し語及びその読みデータ毎に初期対応付けデータを生成し、日本語辞書の一部として格納する。   In step S201, the reading estimation apparatus 1-1 inputs various headwords in the Japanese dictionary and their reading data, generates initial association data for each input headword and its reading data, Store as part.

読み推定装置1−1は、ステップS201から移行して、固有名詞辞書の見出し語及びその読みデータを入力し、固有名詞辞書の初期設定を行い、初期対応付けデータを生成する(ステップS202)。読み推定装置1−1は、入力した全ての見出し語及びその読みデータに対し初期設定を行い、見出し語及びその読みデータ毎に初期対応付けデータを生成する。   The reading estimation apparatus 1-1 shifts from step S201 to input headwords and their reading data of the proper noun dictionary, performs initial setting of the proper noun dictionary, and generates initial association data (step S202). The reading estimation apparatus 1-1 performs initial setting for all input headwords and their reading data, and generates initial association data for each headword and its reading data.

例えば、固有名詞辞書格納部12は、固有名詞辞書の見出し語「中央」及びその読みデータ「チュウオウ」を入力し、これらをメモリに格納する。固有名詞辞書格納部12は、日本語辞書格納部10と同様に、見出し語「中央」を単漢字「中」「央」に分割すると共に、読みデータ「チュウオウ」を1文字毎の読み「チュ」「ウ」「オ」「ウ」に分割する。漢字複製部11は、単漢字「中」「央」を順序付けして複製し、複製単漢字「中B/中E」「央B/央E」を生成する。   For example, the proper noun dictionary storage unit 12 inputs the headword “center” of the proper noun dictionary and its reading data “chuo” and stores them in the memory. Similar to the Japanese dictionary storage unit 10, the proper noun dictionary storage unit 12 divides the headword “middle” into single Chinese characters “middle” and “middle” and also reads the reading data “chuo” for each character. ”,“ U ”,“ O ”, and“ U ”. The kanji duplicating unit 11 duplicates the single kanji characters “middle” and “middle” in order to generate duplicate single kanji characters “middle B / middle E” and “middle B / middle E”.

ここで、1文字毎の読みには、例えば「チュウオウ」の「チュ」、「キュウシュウ」の「キュ」「シュ」等のような捩れる音である拗音の読み、「ホッキ」の「ホッ」、「サッキ」の「サッ」のような詰まる音である促音の読みが含まれる。また、「ジャッキ」の「ジャッ」のような拗音及び促音も含まれる。つまり、読み「チュ」「キュ」「シュ」「ホッ」「サッ」「ジャッ」は、1文字の読みとして扱われる。   Here, for each character reading, for example, “chu” of “Chuuou”, “Kyu” of “Kyushu”, “ku”, “shu”, etc. ”,“ Sacchi ”and“ Sac ”are included. In addition, a roaring sound and a prompt sound such as “jack” of “jack” are included. That is, the readings “chu” “kyu” “shu” “ho” “satsu” “jack” are treated as a single character reading.

固有名詞辞書格納部12は、日本語辞書格納部10と同様に、見出し語「中央」を構成する複製単漢字「中B/中E」「央B/央E」及び読みデータ「チュウオウ」を構成する1文字毎の読み「チュ/ウ/オ/ウ」からなる初期対応付けデータを生成する。そして、固有名詞辞書格納部12は、初期対応付けデータをメモリに格納する。この場合の初期対応付けデータは、「中B/中E/央B/央E」「チュ/ウ/オ/ウ」となる。   As with the Japanese dictionary storage unit 10, the proper noun dictionary storage unit 12 stores the duplicate single kanji characters “middle B / middle E”, “middle B / middle E” and the reading data “chuo” that constitute the headword “middle”. Initial correspondence data composed of reading “chu / u / o / u” for each character to be formed is generated. Then, the proper noun dictionary storage unit 12 stores the initial association data in the memory. In this case, the initial association data is “middle B / middle E / middle B / middle E” and “chu / u / o / u”.

読み推定装置1−1は、ステップS202において、固有名詞辞書の様々な見出し語及びその読みデータを入力し、入力した見出し語及びその読みデータ毎に初期対応付けデータを生成し、固有名詞辞書の一部として格納する。   In step S202, the reading estimation apparatus 1-1 inputs various headwords and their reading data of the proper noun dictionary, generates initial association data for each input headword and its reading data, and stores the proper noun dictionary. Store as part.

図3は、固有名詞辞書格納部12によりメモリに格納される固有名詞辞書を説明する図である。固有名詞辞書は、見出し語、読み及び対応付けデータにより構成される。前記例では、固有名詞辞書には、見出し語「中央」、読み「チュウオウ」、及び対応付けデータ(ステップS202においては初期対応付けデータ)「中B/中E/央B/央E」「チュ/ウ/オ/ウ」が格納される。   FIG. 3 is a diagram for explaining the proper noun dictionary stored in the memory by the proper noun dictionary storage unit 12. The proper noun dictionary is composed of headwords, readings, and association data. In the above example, the proper noun dictionary includes the headword “middle”, the reading “chuo”, and the association data (initial association data in step S202) “middle B / middle E / middle B / middle E” “chu”. / U / o / u "is stored.

日本語辞書格納部10によりメモリに格納される日本語辞書も、図3に示した固有名詞辞書と同様のデータ構成である。日本語辞書には、見出し語「圏央」、読み「ケンオウ」、及び対応付けデータ(ステップS201においては初期対応付けデータ)「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」が格納される。   The Japanese dictionary stored in the memory by the Japanese dictionary storage unit 10 also has the same data structure as the proper noun dictionary shown in FIG. In the Japanese dictionary, the headword “Ken-Oo”, reading “Ken-o”, and association data (initial association data in Step S201) “Ben-B / E-E / O-B / O-E” “Ken / N / "O / U" is stored.

図2に戻って、読み推定装置1−1は、ステップS202から移行して、日本語辞書格納部10に格納された日本語辞書及び固有名詞辞書格納部12に格納された固有名詞辞書を用いて、初期対応付けデータについての見出し語を構成する複製単漢字と読みとの対応付けを行う。そして、読み推定装置1−1は、複製単漢字対応付けデータを生成する(ステップS203)。   Returning to FIG. 2, the reading estimation apparatus 1-1 shifts from step S <b> 202 to use the Japanese dictionary stored in the Japanese dictionary storage unit 10 and the proper noun dictionary stored in the proper noun dictionary storage unit 12. Thus, the duplicate single kanji characters constituting the headword for the initial association data are associated with the readings. And the reading estimation apparatus 1-1 produces | generates duplicate single Chinese character matching data (step S203).

具体的には、読み推定装置1−1は、日本語辞書及び固有名詞辞書に含まれる全ての初期対応付けデータを用いて、全ての初期対応付けデータについての複製単漢字及び読みの組み合わせ毎に対応確率値を算出する。そして、読み推定装置1−1は、対応確率値に基づいて、見出し語を構成する複製単漢字と読みとの対応付けを行い、見出し語及びその読みデータ毎に複製単漢字対応付けデータを生成する。   Specifically, the reading estimation apparatus 1-1 uses all the initial association data included in the Japanese dictionary and the proper noun dictionary for each combination of duplicate single kanji characters and readings for all the initial association data. The corresponding probability value is calculated. Then, the reading estimation apparatus 1-1 associates the duplicate single kanji characters constituting the headword with the reading based on the correspondence probability value, and generates duplicate single kanji character association data for each headword and the reading data. To do.

前記例では、日本語辞書格納部10は、メモリから初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」等の様々な初期対応付けデータを読み出し、漢字及び読み対応付け部13に出力する。また、固有名詞辞書格納部12は、メモリから初期対応付けデータを読み出し、漢字及び読み対応付け部13に出力する。   In the above example, the Japanese dictionary storage unit 10 reads out various initial association data such as initial association data “zone B / zone E / center B / center E” and “ke / n / o / u” from the memory. And output to the kanji and reading association unit 13. In addition, the proper noun dictionary storage unit 12 reads the initial association data from the memory and outputs it to the kanji and reading association unit 13.

漢字及び読み対応付け部13は、日本語辞書格納部10から日本語辞書の初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」等を入力する。また、漢字及び読み対応付け部13は、固有名詞辞書格納部12から固有名詞辞書の初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」等を入力する。   The kanji / reading association unit 13 inputs the initial association data “zone B / zone E / center B / center E”, “ke / n / o / u”, etc., from the Japanese dictionary storage unit 10. . Further, the kanji / reading association unit 13 obtains initial association data “middle B / middle E / middle B / middle E”, “chu / u / o / u”, etc., from the proper noun dictionary storage unit 12. input.

漢字及び読み対応付け部13は、初期対応付けデータに含まれる複製単漢字と1文字毎の読みとを対応させた組み合わせを生成する。そして、漢字及び読み対応付け部13は、例えば機械学習としてEMアルゴリズムを適用し、組み合わせ毎の対応確率値を算出する。例えば、初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」の組み合わせは、「圏B:ケ」「圏B:ン」・・・「圏E:ケ」「圏E:ン」・・・「央B:ケ」「央B:ン」・・・「央E:ケ」「央E:ン」・・・となる。また、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」の組み合わせは、「中B:チュ」「中B:ウ」・・・「中E:チュ」「中E:ウ」・・・「央B:チュ」「央B:ウ」・・・「央E:チュ」「央E:ウ」・・・となる。   The kanji / reading association unit 13 generates a combination that associates the duplicate single kanji included in the initial association data with the reading for each character. Then, the kanji / reading association unit 13 applies an EM algorithm as machine learning, for example, and calculates a correspondence probability value for each combination. For example, the combination of the initial association data “Category B / Category E / Central B / Central E” “Ken / N / O / U” is “Category B: Ke”, “Category B: N”, and “Category E”. : “E” and “E”: “Center B: Ke” “Center B: N” ... “Center E: Ke” “Center E: N”. In addition, the combinations of the initial association data “middle B / middle E / middle B / middle E” and “chu / u / o / u” are “middle B: chu”, “middle B: u”, and “middle E”. : Chu, “Medium E: U”, “Central B: Chu”, “Central B: U”, “Central E: Chu”, “Central E: U”, and so on.

漢字及び読み対応付け部13は、組み合わせ毎の対応確率値を日本語辞書格納部10及び固有名詞辞書格納部12に出力する。日本語辞書格納部10及び固有名詞辞書格納部12は、組み合わせ毎の対応確率値を機械学習データとして格納する。   The kanji / reading association unit 13 outputs correspondence probability values for each combination to the Japanese dictionary storage unit 10 and the proper noun dictionary storage unit 12. The Japanese dictionary storage unit 10 and the proper noun dictionary storage unit 12 store corresponding probability values for each combination as machine learning data.

漢字及び読み対応付け部13は、組み合わせ毎の対応確率値に基づいて、初期対応付けデータについての複製単漢字と読みとを対応付け、対応付けデータを生成する。前記例の初期対応付けデータ「圏B/圏E/央B/央E」「ケ/ン/オ/ウ」について対応確率値の大きいものを適用すると、複製単漢字と読みとの対応付けデータ(複製単漢字対応付けデータ)は、「圏B(ケ)圏E(ン)央B(オ)央E(ウ)」となる。   Based on the correspondence probability value for each combination, the kanji / reading association unit 13 associates the duplicate single kanji and the reading for the initial association data, and generates association data. When the initial correspondence data “Bench B / Band E / Central B / Central E” and “Ken / N / O / U” in the above example are applied, the correspondence data between the duplicate single kanji and the reading The (replicated single kanji character association data) is “zone B (K) zone E (N) center B (O) center E (U)”.

漢字及び読み対応付け部13は、複製単漢字対応付けデータ「圏B(ケ)圏E(ン)央B(オ)央E(ウ)」を日本語辞書格納部10に出力する。日本語辞書格納部10は、漢字及び読み対応付け部13から複製単漢字対応付けデータ「圏B(ケ)圏E(ン)央B(オ)央E(ウ)」を入力し、これをメモリに格納する。   The kanji / reading association unit 13 outputs the duplicate single kanji association data “zone B (K) zone E (n) center B (e) center E (c)” to the Japanese dictionary storage unit 10. The Japanese dictionary storage unit 10 inputs the duplicate single kanji association data “Band B (K) B E (N) B B (O) B E (U)” from the Kanji and reading association unit 13. Store in memory.

同様に、漢字及び読み対応付け部13は、固有名詞辞書格納部12から入力した固有名詞辞書の初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」について、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を生成する。   Similarly, the kanji / reading association unit 13 receives the initial association data “middle B / middle E / middle B / middle E” “chu / u / o / u” of the proper noun dictionary input from the proper noun dictionary storage unit 12. ”Is generated as duplicated single kanji character association data“ middle B (chu) middle E (c) middle B (g)) middle E (c) ”.

漢字及び読み対応付け部13は、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を固有名詞辞書格納部12に出力する。固有名詞辞書格納部12は、漢字及び読み対応付け部13から複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を入力し、これをメモリに格納する。   The kanji / reading association unit 13 outputs the duplicate single kanji association data “middle B (chu), middle E (c), middle (B), middle (E), c)” to the proper noun dictionary storage unit 12. The proper noun dictionary storage unit 12 inputs the replicated single kanji association data “middle B (chu) middle E (c) B (o) middle E (c)” from the kanji and reading correspondence unit 13, Store in memory.

図3を参照して、固有名詞辞書には、対応付けデータとして、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」と共に、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」が格納される。   Referring to FIG. 3, in the proper noun dictionary, as the correspondence data, the initial correspondence data “Middle B / Middle E / Middle B / Middle E” “Ju / U / O / U” and duplicate single kanji characters are supported. The attached data “middle B (chu) middle E (c) center B (e) center E (c)” is stored.

図2に戻って、読み推定装置1−1は、ステップS203から移行して、固有名詞辞書の見出し語を復元し(ステップS204)、固有名詞のモノルビ付き見出し語を生成し、出力する(ステップS205)。読み推定装置1−1は、入力した全ての見出し語及びその読みデータに対し見出し語の復元を行い、見出し語及びその読みデータ毎に、固有名詞のモノルビ付き見出し語を生成して出力する。   Returning to FIG. 2, the reading estimation apparatus 1-1 shifts from step S203 to restore the headword of the proper noun dictionary (step S204), and generates and outputs a headword with mono-ruby of the proper noun (step S204). S205). The reading estimation apparatus 1-1 restores a headword for all the headwords and their reading data that have been input, and generates and outputs a headword with a proper noun for each headword and its reading data.

前記例では、固有名詞辞書格納部12は、メモリから複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を読み出して漢字復元部14に出力する。   In the above example, the proper noun dictionary storage unit 12 reads the duplicate single kanji association data “middle B (chu) middle E (c) B (o) middle E (c)” from the memory and sends it to the kanji restoration unit 14. Output.

漢字復元部14は、固有名詞辞書格納部12から複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」を入力する。そして、漢字復元部14は、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」から記号B,Eを取り除き、図3に示すように、対応付けデータ「中(チュ)中(ウ)央(オ)央(ウ)」を生成する。   The kanji restoring unit 14 inputs the duplicate single kanji character association data “middle B (chu) middle E (c) central B (g) central E (c)” from the proper noun dictionary storage unit 12. Then, the kanji restoration unit 14 removes the symbols B and E from the duplicate single kanji association data “middle B (chu) middle E (c) middle B (g) middle E (c)”, as shown in FIG. , The association data “Chu, Chu, C, and C” is generated.

漢字復元部14は、対応付けデータ「中(チュ)中(ウ)央(オ)央(ウ)」から元の見出し語を構成する1文字毎の単漢字に復元し、図3に示すように、正しく対応付けたモノルビ付き見出し語「中(チュウ)」「央(オウ)」を生成する。   The kanji restoring unit 14 restores the single kanji for each character constituting the original headword from the association data “middle (chu) middle (c) center (g)” (c), as shown in FIG. In addition, the headwords “Chu” and “Ou” with mono-ruby correctly associated are generated.

尚、読み推定装置1−1は、新たな漢字列及び読みデータを入力する毎に、対応確率値を算出し、日本語辞書及び固有名詞辞書に含まれる漢字列、読みデータ、初期対応付けデータ及び複製単漢字対応付けデータ、並びに対応確率値を更新するようにしてもよい。   The reading estimation device 1-1 calculates a corresponding probability value every time a new kanji string and reading data are input, and the kanji string, reading data, and initial association data included in the Japanese dictionary and proper noun dictionary. The duplicate single kanji character association data and the correspondence probability value may be updated.

以上のように、実施例1の読み推定装置1−1によれば、漢字複製部11は、見出し語を構成する1文字毎の単漢字を順序付けして複製し、複製単漢字を生成する。日本語辞書格納部10は、日本語辞書の見出し語及びその読みデータについて、見出し語を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成して格納する。固有名詞辞書格納部12も同様に、固有名詞辞書の見出し語及びその読みデータについて、初期対応付けデータを生成して格納する。   As described above, according to the reading estimation apparatus 1-1 of the first embodiment, the kanji duplicating unit 11 generates a duplicate single kanji by ordering and duplicating the single kanji for each character constituting the headword. The Japanese dictionary storage unit 10 generates and stores initial association data composed of duplicate single kanji characters constituting the entry word and readings for each character constituting the read data for the entry word and its reading data in the Japanese dictionary. To do. Similarly, the proper noun dictionary storage unit 12 generates and stores initial association data for headwords and their reading data in the proper noun dictionary.

漢字及び読み対応付け部13は、日本語辞書格納部10及び固有名詞辞書格納部12の
日本語辞書及び固有名詞辞書に含まれる全ての初期対応付けデータを用いて、複製単漢字及び読みの組み合わせ毎に対応確率値を算出し、対応確率値に基づいて、初期対応付けデータに含まれる見出し語を構成する複製単漢字と読みとの対応付けを行い、見出し語及びその読みデータ毎に複製単漢字対応付けデータを生成する。日本語辞書格納部10及び固有名詞辞書格納部12は、複製単漢字対応付けデータを格納する。
The kanji / reading association unit 13 uses the initial correspondence data included in the Japanese dictionary and the proper noun dictionary of the Japanese dictionary storage unit 10 and the proper noun dictionary storage unit 12 to combine the combined single kanji and readings. A correspondence probability value is calculated for each, and based on the correspondence probability value, a single kanji character that constitutes a headword included in the initial association data and a reading are associated with each other. Generate kanji correspondence data. The Japanese dictionary storage unit 10 and the proper noun dictionary storage unit 12 store duplicate single kanji association data.

漢字復元部14は、固有名詞辞書格納部12から複製単漢字対応付けデータを読み出し、複製単漢字を元の単漢字に戻し、固有名詞のモノルビ付き見出し語を生成し、出力する。   The kanji restoring unit 14 reads the duplicate single kanji character association data from the proper noun dictionary storage unit 12, returns the duplicate single kanji character to the original single kanji character, and generates and outputs a monolingual headword with a proper noun.

これにより、モノルビ付き見出し語(漢字列)を生成する際に、人手で作成した規則を用いる必要がない。また、複製単漢字を用いて単漢字と読みとの対応付けを行うようにしたから、単漢字(例えば「中」)の読み(「チュウ」)について、1文字の読みの位置(例えば「ウ」の場合は最後の位置)を考慮した対応確率値を得ることができる。つまり、漢字列を構成する複数の単漢字について、1文字の読みが単漢字に正しく位置するように、単漢字と読みとを対応付けすることができる。例えば、漢字列「中央」について、「中(チュウ)」の「ウ」が、単漢字「中」の読みの最後に位置し、単漢字「央」の先頭に位置しないようにすることができる。したがって、モノルビ付き漢字列を精度高く生成することが可能となる。   Thereby, it is not necessary to use a rule created manually when generating a headword with mono-ruby (a kanji string). Further, since the single kanji and the reading are associated with each other using the duplicate single kanji, the reading position of one character (for example, “u”) is read for the reading (“chu”) of the single kanji (for example, “middle”). ", The corresponding probability value considering the last position) can be obtained. That is, for a plurality of single Chinese characters constituting the Chinese character string, the single Chinese characters and the readings can be associated with each other so that the reading of one character is correctly positioned in the single Chinese character. For example, for the Chinese character string “center”, “Chu” of “Chu” can be positioned at the end of the reading of the single Chinese character “Middle” and not at the beginning of the single Chinese character “Center”. . Therefore, it becomes possible to generate a kanji string with mono-ruby with high accuracy.

〔読み推定装置/実施例2〕
次に、本発明の第2の実施形態(実施例2)による読み推定装置について説明する。実施例2の読み推定装置は、実施例1の読み推定装置1−1を機能的に表した装置であり、その処理は実質的に同じである。
[Reading estimation device / Example 2]
Next, a reading estimation apparatus according to the second mode for embodying the present invention (Example 2) will be described. The reading estimation device according to the second embodiment is a device that functionally represents the reading estimation device 1-1 according to the first embodiment, and the processing is substantially the same.

図4は、実施例2の読み推定装置の構成例を示すブロック図であり、図5は、実施例2の読み推定装置の処理例を示すフローチャートである。この読み推定装置1−2は、初期化部20、対応付けデータ生成部21及びモノルビ付き漢字列生成部22を備えている。読み推定装置1−2は、漢字列及びその読みデータを入力し、モノルビ付き漢字列を生成して出力する。   FIG. 4 is a block diagram illustrating a configuration example of the reading estimation apparatus according to the second embodiment, and FIG. 5 is a flowchart illustrating a processing example of the reading estimation apparatus according to the second embodiment. This reading estimation apparatus 1-2 includes an initialization unit 20, a correspondence data generation unit 21, and a kanji string generation unit 22 with mono-ruby. The reading estimation device 1-2 inputs a kanji string and its reading data, generates and outputs a kanji string with mono-ruby.

初期化部20は、漢字列及び読み分割手段23、漢字複製手段24及び初期化手段25を備えている。漢字列及び読み分割手段23は、漢字列及びその読みデータを入力し(ステップS501)、漢字列を1文字単位の単漢字に分割すると共に、読みデータを1文字単位の読みに分割する(ステップS502)。例えば、漢字列「中央」は、単漢字「中」「央」に分割され、読みデータ「チュウオウ」は、読み「チュ」「ウ」「オ」「ウ」に分割される。   The initialization unit 20 includes a Chinese character string and reading division unit 23, a Chinese character duplication unit 24, and an initialization unit 25. The kanji string and reading division means 23 inputs the kanji string and its reading data (step S501), divides the kanji string into single kanji characters, and divides the reading data into readings of one character unit (step S501). S502). For example, the Chinese character string “center” is divided into single Chinese characters “middle” and “center”, and the reading data “chuo” is divided into readings “chu” “c” “o” “c”.

漢字複製手段24は、漢字列及び読み分割手段23による分割された1文字の単漢字を順序付けして2文字に複製し、添え字の記号「B」「E」を付加して複製単漢字を生成する(ステップS503)。例えば、単漢字「中」から複製単漢字「中B」「中E」が生成され、単漢字「央」から複製単漢字「央B」「央E」が生成される。   The kanji duplicating means 24 orders the single kanji characters divided by the kanji string and the reading dividing means 23 to duplicate them into two characters, and adds the subscript symbols “B” and “E” to produce the duplicate single kanji characters. Generate (step S503). For example, duplicate single kanji characters “middle B” and “middle E” are generated from the single kanji character “middle”, and duplicate single kanji characters “middle B” and “middle E” are generated from the single kanji character “middle”.

初期化手段25は、漢字列を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成する(ステップS504)。例えば、図3に示したように、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」が生成される。   The initialization unit 25 generates initial association data composed of a single kanji character constituting the kanji string and a reading for each character constituting the reading data (step S504). For example, as shown in FIG. 3, initial association data “middle B / middle E / middle B / middle E” and “chu / u / o / u” are generated.

対応付けデータ生成部21は、組み合わせ生成手段26、確率算出手段27、辞書28及び複製単漢字対応付けデータ生成手段29を備えている。対応付けデータ生成部21は、初期化部20から漢字列、読みデータ及び初期対応付けデータを入力し、これらを辞書28に格納する。   The association data generation unit 21 includes a combination generation unit 26, a probability calculation unit 27, a dictionary 28, and a duplicate single kanji association data generation unit 29. The association data generation unit 21 inputs a kanji string, reading data, and initial association data from the initialization unit 20 and stores them in the dictionary 28.

組み合わせ生成手段26は、初期対応付けデータに含まれる複製単漢字と1文字毎の読みとを対応させた組み合わせを生成する(ステップS505)。例えば、初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」について、組み合わせ「中B:チュ」「中B:ウ」・・・「中E:チュ」「中E:ウ」・・・「央B:チュ」「央B:ウ」・・・「央E:チュ」「央E:ウ」・・・が生成される。   The combination generation unit 26 generates a combination in which the duplicate single Chinese character included in the initial association data is associated with the reading for each character (step S505). For example, for the initial association data “middle B / middle E / middle B / middle E” and “chu / u / o / u”, the combinations “middle B: chu”, “middle B: u”, and “middle E: “Chu”, “Medium E: U”, “Central B: Chu”, “Central B: U”, “Central E: Chu”, “Center E: U”,.

確率算出手段27は、辞書28に格納された全ての初期対応付けデータを用いて、機械学習として例えばEMアルゴリズムを適用し、全ての複製単漢字及び読みの組み合わせ毎に、対応確率値を算出する(ステップS506)。そして、確率算出手段27は、複製単漢字及び読みの組み合わせ毎の対応確率値を機械学習データとして、辞書28に格納する。   The probability calculating means 27 uses, for example, an EM algorithm as machine learning using all the initial association data stored in the dictionary 28, and calculates a corresponding probability value for each combination of all duplicate single kanji characters and readings. (Step S506). Then, the probability calculation means 27 stores the corresponding probability value for each combination of the copied single kanji and the reading in the dictionary 28 as machine learning data.

例えば、漢字列「中央」及び読みデータ「チュウオウ」の初期対応付けデータ「中B/中E/央B/央E」「チュ/ウ/オ/ウ」、漢字列「中学」及び読みデータ「チュウガク」の初期対応付けデータ「中B/中E/学B/学E」「チュ/ウ/ガ/ク」、漢字列「央紀」及び読みデータ「オウキ」の初期対応付けデータ「央B/央E/紀B/紀E」「オ/ウ/キ」を用いて、EMアルゴリズムを適用し、以下のとおり、組み合わせ毎の対応確率値が算出される。
P(央B|オ)=0.998849、P(央E|ウ)=0.555835、P(央E|キ)=0.029560
P(学B|ガ)=0.406560、P(学B|ク)=0.406560、P(学E|ガ)=0.406560
P(学E|ク)=0.406560、P(紀B|キ)=0.485220、P(紀E|キ)=0.485220
P(中B|チュ)=1.000000、P(中E|ウ)=0.440979、P(中E|ガ)=0.186880
P(中E|ク)=0.186880
尚、その他の組み合わせの対応確率値は0である。
For example, initial correspondence data “middle B / middle E / middle B / middle E” “chu / u / o / u”, kanji string “junior high school” and reading data “ Initial correspondence data “Chu B / Chu E / Study B / Study E” “Chu / U / G / K”, Chinese character string “Oki” and initial correspondence data “Oki” “Chu B” EM algorithm is applied using “/ center E / ki B / ki E” and “o / u / ki”, and a corresponding probability value for each combination is calculated as follows.
P (middle B | oh) = 0.999849, P (middle E | w) = 0.555835, P (middle E | ki) = 0.029560
P (Study B | Ga) = 0.406560, P (Study B | Ku) = 0.406560, P (Study E | Ga) = 0.406560
P (Study E | Ku) = 0.406560, P (Ki B | Ki) = 0.485220, P (Ki E | Ki) = 0.485220
P (Medium B | Ju) = 1.00000, P (Medium E | U) = 0.440979, P (Medium E | Ga) = 0.186880
P (Medium E) = 0.186880
Incidentally, the corresponding probability value of other combinations is 0.

複製単漢字対応付けデータ生成手段29は、確率算出手段27から組み合わせ毎の対応確率値を入力するか、または辞書28から組み合わせ毎の対応確率値を読み出す。そして、複製単漢字対応付けデータ生成手段29は、対応確率値が高いものから適用し、各読みについて対応確率値の最も高い複製単漢字と読みとの対応付けデータである複数単漢字対応付けデータを生成する(ステップS507)。そして、複製単漢字対応付けデータ生成手段29は、複数単漢字対応付けデータを辞書28に格納する。   The duplicate single kanji character association data generation means 29 inputs the correspondence probability value for each combination from the probability calculation means 27 or reads the correspondence probability value for each combination from the dictionary 28. Then, the duplicate single kanji character association data generation means 29 is applied from the one having the highest correspondence probability value, and the plural single kanji character correspondence data which is the correspondence data between the duplicate single kanji character and the reading having the highest correspondence probability value for each reading. Is generated (step S507). Then, the duplicate single Chinese character association data generation means 29 stores the plural single Chinese character association data in the dictionary 28.

例えば、漢字列「中央」及び読みデータ「チュウオウ」について、組み合わせ毎の対応確率値が高いものから適用すると、以下のとおりとなり、図3に示したように、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」が生成される。
P(中B|チュ)=1.000000
P(央B|オ)=0.998849
P(央E|ウ)=0.555835
P(中E|ウ)=0.440979
For example, when the kanji character string “center” and the reading data “chuo” are applied from the one with the highest corresponding probability value for each combination, it is as follows. As shown in FIG. (Chu) Middle E (U) Center B (O) Center E (C) "is generated.
P (Medium B | Ju) = 1.00000
P (Center B | O) = 0.998849
P (Center E | U) = 0.555835
P (Medium E | U) = 0.440979

尚、辞書28には、漢字列、読みデータ、初期対応付けデータ及び複製単漢字対応付けデータが格納され、また、全ての複製単漢字及び読みの組み合わせ毎の対応確率値が格納される。   The dictionary 28 stores kanji strings, reading data, initial association data, and duplicate single kanji correspondence data, and also stores corresponding probability values for all combinations of duplicate single kanji characters and readings.

モノルビ付き漢字列生成部22は、対応付けデータ生成部21の辞書28から複製単漢字対応付けデータを読み出し、複製単漢字対応付けデータから記号B,Eを取り除き、元の単漢字に復元する(ステップS508)。そして、モノルビ付き漢字列生成部22は、モノルビ付き漢字列を生成し、出力する(ステップS509)。例えば、複製単漢字対応付けデータ「中B(チュ)中E(ウ)央B(オ)央E(ウ)」から記号B,Eが取り除かれ、モノルビ付き漢字列「中(チュウ)」「央(オウ)」が生成される。   The Monorbi-added kanji string generation unit 22 reads the duplicate single kanji character association data from the dictionary 28 of the association data generation unit 21, removes the symbols B and E from the duplicate single kanji character association data, and restores the original single kanji character ( Step S508). Then, the kanji string generating unit 22 with mono-ruby generates and outputs a kanji string with mono-ruby (step S509). For example, the symbols B and E are removed from the duplicate single kanji character association data “middle B (chu) middle E (c) middle B (g) middle E (c)”, and the kanji string “middle (chu)” with mono-ruby “ "Ou" is generated.

尚、読み推定装置1−2は、新たな漢字列及び読みデータを入力する毎に、対応確率値を算出し、辞書28を更新するようにしてもよい。   Note that the reading estimation apparatus 1-2 may calculate the corresponding probability value and update the dictionary 28 every time a new Chinese character string and reading data are input.

以上のように、実施例2の読み推定装置1−2によれば、初期化部20は、漢字列及びその読みデータを入力し、漢字列を単漢字に、読みデータを1文字単位の読みにそれぞれ分割し、単漢字を順序付けして複製単漢字を生成し、漢字列を構成する複製単漢字及び読みデータを構成する1文字毎の読みからなる初期対応付けデータを生成する。   As described above, according to the reading estimation apparatus 1-2 of the second embodiment, the initialization unit 20 inputs a kanji character string and its reading data, converts the kanji character string into a single kanji character, and reads the reading data in units of one character. Are divided, and a single kanji character is ordered to generate a duplicate single kanji character, and initial correspondence data including a duplicate single kanji character constituting the kanji string and a reading for each character constituting the reading data is generated.

対応付けデータ生成部21は、初期対応付けデータに含まれる複製単漢字及び読みの組み合わせ毎に、全ての初期対応付けデータを用いて、EMアルゴリズムにより対応確率値を算出する。そして、対応付けデータ生成部21は、対応確率値に基づいて、複製単漢字と読みとの対応付けデータである複数単漢字対応付けデータを生成する。   The association data generation unit 21 calculates the correspondence probability value by the EM algorithm using all the initial association data for each combination of duplicate single kanji and reading included in the initial association data. Then, the association data generation unit 21 generates a plurality of single kanji character association data, which is association data between the copied single kanji character and the reading, based on the correspondence probability value.

モノルビ付き漢字列生成部22は、複製単漢字対応付けデータに含まれる複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する。   The Monorbi-attached kanji string generation unit 22 restores the duplicate single kanji included in the duplicate single-kanji association data to the original single kanji, and generates a monorubi-added kanji string.

これにより、実施例1の読み推定装置1−1と同様に、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することが可能となる。   Thereby, like the reading estimation apparatus 1-1 of Example 1, it becomes possible to generate | occur | produce a Chinese character string with a mono rubi with high precision, without using the rule created manually.

〔モノルビ付き日本語文章テキスト生成装置〕
次に、図1に示した読み推定装置1−1及び図4に示した読み推定装置1−2の機能を利用した例として、モノルビ付き日本語文章テキスト生成装置について説明する。図6は、モノルビ付き日本語文章テキスト生成装置の構成例を示すブロック図である。このモノルビ付き日本語文章テキスト生成装置2は、漢字列抽出部30、読み推定部31及びテキスト生成部32を備えている。
[Japanese sentence text generator with mono-ruby]
Next, as an example using the functions of the reading estimation apparatus 1-1 shown in FIG. 1 and the reading estimation apparatus 1-2 shown in FIG. 4, a Japanese sentence text generation apparatus with mono-ruby will be described. FIG. 6 is a block diagram illustrating a configuration example of a Japanese sentence text generating apparatus with mono-ruby. This Japanese sentence text generation apparatus 2 with mono-ruby includes a kanji string extraction unit 30, a reading estimation unit 31, and a text generation unit 32.

モノルビ付き日本語文章テキスト生成装置2は、日本語文章テキストから漢字列を抽出し、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成し、モノルビ付き日本語文章テキストを生成する。例えば、日本語文章テキスト「私達は、石川県にいます。」に対し、モノルビ付き日本語文章テキスト「私(ワタシ)達(タチ)は、石(イシ)川(カワ)県(ケン)にいます。」が生成される。   The Japanese sentence text generation device 2 with mono-ruby extracts a kanji string from the Japanese sentence text, generates a kanji string with mono-ruby by estimating a single kanji reading constituting the kanji string, Is generated. For example, the Japanese sentence text “We are in Ishikawa Prefecture”, while the Japanese sentence text with mono-ruby “I (Tachi) is the Ishikawa Prefecture (Ken) Will be generated. "

漢字列抽出部30は、モノルビ付与の対象である日本語文章テキストを入力し、日本語文章テキストを構成する文字列から漢字列を抽出し、図示しない日本語辞書を用いて、抽出した漢字列の読みデータを生成する。そして、漢字列抽出部30は、漢字列及びその読みデータを読み推定部31に出力する。前記例では、日本語文章テキスト「私達は、石川県にいます。」から漢字列「私達」「石川県」が抽出され、それらの読みデータ「ワタシタチ」「イシカワケン」が生成される。   The kanji string extraction unit 30 inputs the Japanese sentence text that is the object of mono-ruby assignment, extracts the kanji string from the character string that constitutes the Japanese sentence text, and uses the Japanese dictionary (not shown) to extract the extracted kanji string Generate reading data. Then, the Chinese character string extraction unit 30 outputs the Chinese character string and its reading data to the reading estimation unit 31. In the above example, the kanji strings “we” and “Ishikawa” are extracted from the Japanese sentence text “We are in Ishikawa” and their reading data “Watashitachi” and “Ishikawaken” are generated.

読み推定部31は、図1に示した固有名詞辞書または図4に示した辞書28が格納されたメモリ(図6には図示せず)を備えている。読み推定部31は、漢字列抽出部30から漢字列及びその読みデータを入力し、メモリから、漢字列及びその読みデータに対応する複製単漢字対応付けデータを読み出す。そして、読み推定部31は、図1に示した漢字復元部14または図4に示したモノルビ付き漢字列生成部22と同じ処理にて、複製単漢字対応付けデータの複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する。   The reading estimation unit 31 includes a memory (not shown in FIG. 6) in which the proper noun dictionary shown in FIG. 1 or the dictionary 28 shown in FIG. 4 is stored. The reading estimation unit 31 inputs the kanji string and its reading data from the kanji string extraction unit 30, and reads out the duplicate single kanji character association data corresponding to the kanji string and the reading data from the memory. Then, the reading estimation unit 31 performs the same processing as the kanji reconstruction unit 14 shown in FIG. 1 or the kanji string generation unit 22 with mono ruby shown in FIG. Restore to kanji and generate kanji strings with mono-ruby.

読み推定部31は、モノルビ付き漢字列をテキスト生成部32に出力する。前記例では、漢字列「私達」及びその読みデータ「ワタシタチ」に対応した複製単漢字対応付けデータから、モノルビ付き漢字列「私(ワタシ)達(タチ)」が生成される。また、漢字列「石川県」及びその読みデータ「イシカワケン」に対応した複製単漢字対応付けデータから、モノルビ付き漢字列「石(イシ)川(カワ)県(ケン)」が生成される。   The reading estimation unit 31 outputs the kanji string with mono-ruby to the text generation unit 32. In the above example, the kanji string “I (Tatashi)” with mono-ruby is generated from the duplicate single Kanji character association data corresponding to the Kanji string “us” and its reading data “Watashitachi”. In addition, a kanji string “Ishikawa (Kawa) Prefecture (Ken)” with mono-ruby is generated from the kanji string “Ishikawa Prefecture” and the duplicate single Kanji character association data corresponding to the reading data “Ishikawa Ken”.

尚、読み推定部31のメモリ(図示せず)に格納された固有名詞辞書は、図1に示した構成及び図2に示した処理にて生成される。また、読み推定部31のメモリ(図示せず)に格納された辞書28は、図4に示した構成及び図5に示した処理にて生成される。固有名詞辞書及び辞書28は、外部からネットワークを介してダウンロードされるようにしてよい。また、固有名詞辞書は、図1に示した構成を含む読み推定部31により生成されるようにしてもよく、辞書28は、図4に示した構成を含む読み推定部31により生成されるようにしてもよい。   The proper noun dictionary stored in the memory (not shown) of the reading estimation unit 31 is generated by the configuration shown in FIG. 1 and the processing shown in FIG. The dictionary 28 stored in the memory (not shown) of the reading estimation unit 31 is generated by the configuration shown in FIG. 4 and the processing shown in FIG. The proper noun dictionary and the dictionary 28 may be downloaded from the outside via a network. Further, the proper noun dictionary may be generated by the reading estimation unit 31 including the configuration shown in FIG. 1, and the dictionary 28 is generated by the reading estimation unit 31 including the configuration shown in FIG. It may be.

テキスト生成部32は、読み推定部31からモノルビ付き漢字列を入力すると共に、モノルビ付与の対象である日本語文章テキストを入力する。そして、テキスト生成部32は、日本語文章テキストを構成する文字列のうちの漢字列をモノルビ付き漢字列に入れ換え、モノルビ付き日本語文章テキストを生成する。テキスト生成部32は、モノルビ付き日本語文章テキストを出力する。   The text generation unit 32 inputs a kanji string with mono-ruby from the reading estimation unit 31 and also inputs Japanese sentence text to be mono-rubbed. Then, the text generation unit 32 replaces the kanji character string in the character string constituting the Japanese sentence text with the kanji character string with mono-ruby, and generates the Japanese sentence text with mono-ruby. The text generator 32 outputs a Japanese sentence text with mono-ruby.

前記例では、日本語文章テキスト「私達は、石川県にいます。」のうちの漢字列「私達」「石川県」が、モノルビ付き漢字列「私(ワタシ)達(タチ)」「石(イシ)川(カワ)県(ケン)」に入れ換えられる。そして、モノルビ付き日本語文章テキスト「私(ワタシ)達(タチ)は、石(イシ)川(カワ)県(ケン)にいます。」が生成される。   In the above example, the kanji strings "we" and "Ishikawa" in the Japanese text "We are in Ishikawa" are the kanji strings with mono-ruby "I (Tachi)" (Tachi) " Ishi River (Kawa) Prefecture (Ken) ". Then, a Japanese sentence text with mono-ruby “I am in Tachi, Ishikawa, Ken” is generated.

以上のように、モノルビ付き日本語文章テキスト生成装置2によれば、日本語文章テキストから漢字列を抽出し、実施例1,2の読み推定装置1−1,1−2と同じ処理にて、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成する。そして、モノルビ付き日本語文章テキスト生成装置2は、モノルビ付き漢字列を含むモノルビ付き日本語文章テキストを生成する。   As described above, according to the Japanese sentence text generating device 2 with mono-ruby, a Chinese character string is extracted from the Japanese sentence text, and the same processing as the reading estimation devices 1-1 and 1-2 of the first and second embodiments is performed. Then, by estimating the readings of duplicate single kanji characters constituting the kanji string, a kanji string with monoruby is generated. And the Japanese sentence text production | generation apparatus 2 with a mono rubi produces | generates the Japanese sentence text with a mono rubi containing the kanji string with a mono rubi.

これにより、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することができ、結果として、精度の高いモノルビ付き漢字列を含むモノルビ付き日本語文章テキストを生成することが可能となる。   As a result, it is possible to generate kanji strings with mono-ruby with high accuracy without using manual rules, and as a result, it is possible to generate Japanese text text with mono-ruby with high-precision kanji strings with mono-ruby. It becomes.

〔手話CG翻訳装置〕
次に、図1に示した読み推定装置1−1及び図4に示した読み推定装置1−2の機能を利用した他の例として、手話CG翻訳装置について説明する。図7は、手話CG翻訳装置の構成例を示すブロック図である。この手話CG翻訳装置3は、手話CG翻訳部33、漢字列抽出部34、読み推定部35、口型CGデータ変換部(口型CGデータ生成部)36及びCG合成部37を備えている。
[Sign Language CG Translation Device]
Next, a sign language CG translation device will be described as another example using the functions of the reading estimation device 1-1 shown in FIG. 1 and the reading estimation device 1-2 shown in FIG. FIG. 7 is a block diagram illustrating a configuration example of a sign language CG translation apparatus. The sign language CG translation device 3 includes a sign language CG translation unit 33, a kanji string extraction unit 34, a reading estimation unit 35, a mouth type CG data conversion unit (mouth type CG data generation unit) 36, and a CG synthesis unit 37.

手話CG翻訳装置3は、日本語文章テキストの手話CGデータを生成すると共に、日本語文章テキストから漢字列を抽出し、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成する。そして、手話CG翻訳装置3は、モノルビ付き漢字列の単漢字毎に、口の動きを表した口型CGデータを生成し、日本語文章テキストの手話CGデータに、同期した単漢字毎の口型CGを合成する。   The sign language CG translation device 3 generates sign language CG data of the Japanese sentence text, extracts a kanji string from the Japanese sentence text, estimates a reading of a single kanji character constituting the kanji string, and generates a kanji string with mono-ruby. Generate. Then, the sign language CG translation device 3 generates mouth type CG data representing the movement of the mouth for each single kanji character of the kanji string with mono-rubi, and synchronizes the mouth language for each single kanji character synchronized with the sign language CG data of the Japanese sentence text. A type CG is synthesized.

例えば、日本語文章テキスト「私達は、石川県にいます。」に対応する手話CGデータが生成され、モノルビ付き漢字列「私(ワタシ)達(タチ)」「石(イシ)川(カワ)県(ケン)」が生成され、単漢字毎の口型CGデータが生成される。そして、手話CGデータに単漢字毎の口型CGが合成され、単漢字「私(ワタシ)」「達(タチ)」「石(イシ)」「川(カワ)」「県(ケン)」の手話単語とその口型とが同期したCGデータが生成される。   For example, the sign language CG data corresponding to the Japanese sentence text “We are in Ishikawa Prefecture” is generated, and the Chinese character string “I (Tachi)” with mono-ruby “Ishi River (Kawa) ) Prefecture (ken) "is generated, and mouth type CG data for each single Chinese character is generated. Then, the sign-type CG data is combined with mouth-type CG for each single kanji, and the single kanji “I (Watashi)”, “Tachi”, “Ishi (Ishi)”, “Kawa (Kawa)”, “Ken (Ken)” CG data in which a sign language word and its mouth shape are synchronized is generated.

手話CG翻訳部33は、日本語文章テキストを入力し、日本語文章テキストを翻訳することで、手話CGデータを生成する。具体的には、手話CG翻訳部33は、日本語文章テキストを、統計翻訳等の手法を用いて複数の手話単語に変換し、複数の手話単語のそれぞれに対応する単語モーションを、図示しない単語モーションDB(ベータベース)から読み出す。そして、手話CG翻訳部33は、複数の単語モーションを順番に接続し、一連の手話文章を表した手話CGデータを生成する。手話CG翻訳部33は、手話CGデータをCG合成部37に出力する。例えば、日本語文章テキスト「私達は、石川県にいます。」に対応する手話CGデータが生成される。   The sign language CG translating unit 33 inputs Japanese sentence text and translates the Japanese sentence text to generate sign language CG data. Specifically, the sign language CG translation unit 33 converts Japanese sentence text into a plurality of sign language words using a technique such as statistical translation, and a word motion corresponding to each of the plurality of sign language words is not illustrated. Read from motion DB (beta base). Then, the sign language CG translating unit 33 sequentially connects a plurality of word motions and generates sign language CG data representing a series of sign language sentences. The sign language CG translation unit 33 outputs the sign language CG data to the CG synthesis unit 37. For example, sign language CG data corresponding to the Japanese sentence text “We are in Ishikawa Prefecture” is generated.

漢字列抽出部34及び読み推定部35は、図6に示した漢字列抽出部30及び読み推定部31と同じであるから、ここでは説明を省略する。前記例では、モノルビ付き漢字列「私(ワタシ)達(タチ)」「石(イシ)川(カワ)県(ケン)」が生成される。   The Chinese character string extraction unit 34 and the reading estimation unit 35 are the same as the Chinese character string extraction unit 30 and the reading estimation unit 31 shown in FIG. In the above example, the Chinese character string “I (Tachi)” and “Ishi River (Ken)” with mono-ruby are generated.

口型CGデータ変換部36は、読み推定部35からモノルビ付き漢字列を入力し、モノルビ付き漢字列を構成する単漢字に対応する口型CGデータを、図示しない口型DBから読み出すことで、単漢字を口型CGデータに変換する。そして、口型CGデータ変換部36は、単漢字毎の口型CGデータをCG合成部37に出力する。前記例では、単漢字「私(ワタシ)」「達(タチ)」「石(イシ)」「川(カワ)」「県(ケン)」毎の口型CGデータが出力される。   The mouth type CG data conversion unit 36 inputs a kanji string with monorubi from the reading estimation unit 35, and reads out mouth type CG data corresponding to a single kanji character constituting the kanji string with monoruby from a mouth DB (not shown). Convert single kanji into mouth type CG data. Then, the mouth type CG data conversion unit 36 outputs the mouth type CG data for each single Chinese character to the CG synthesis unit 37. In the above example, mouth type CG data for each single Chinese character “I”, “Tachi”, “Ishi”, “Kawa”, and “Ken” is output.

CG合成部37は、手話CG翻訳部33から手話CGデータを入力すると共に、口型CGデータ変換部36から単漢字毎の口型CGデータを入力し、さらに、日本語文章テキストの字幕データ及び音声データを入力する。そして、CG合成部37は、手話CGデータに口型CGデータ、字幕データ及び音声データを同期させて合成し、CGデータを生成して出力する。前記例では、単漢字「私(ワタシ)」「達(タチ)」「石(イシ)」「川(カワ)」「県(ケン)」に対応する手話単語とその口型とが同期したCGデータが生成される。   The CG synthesizing unit 37 inputs sign language CG data from the sign language CG translation unit 33 and also inputs mouth type CG data for each single kanji from the mouth type CG data conversion unit 36, and further subtitle data of Japanese text Input audio data. Then, the CG synthesis unit 37 synthesizes the sign language CG data with the mouth type CG data, the caption data, and the audio data in synchronism, and generates and outputs the CG data. In the above example, the sign language words corresponding to the single kanji characters "I", "Tachi", "Ishi", "Kawa", "Ken" and their mouth type are synchronized CG Data is generated.

これにより、CGデータに基づいて、単漢字に対応する手話単語とその口型とが同期したCGキャラクタの画像が生成され、当該画像及び字幕データが画面表示されると共に、音声データが再生される。   Thereby, based on CG data, an image of a CG character in which a sign language word corresponding to a single Chinese character and its mouth shape are synchronized is generated, the image and caption data are displayed on the screen, and audio data is reproduced. .

以上のように、手話CG翻訳装置3によれば、日本語文章テキストの手話CGデータを生成し、日本語文章テキストから漢字列を抽出し、実施例1,2の読み推定装置1−1,1−2と同じ処理にて、漢字列を構成する複製単漢字の読みを推定してモノルビ付き漢字列を生成する。そして、手話CG翻訳装置3は、モノルビ付き漢字列に対応する単漢字毎の口型CGデータを生成し、日本語文章テキストの手話CGデータに単漢字毎の口型CGを同期させて合成し、CGデータを生成する。   As described above, according to the sign language CG translating device 3, the sign language CG data of the Japanese sentence text is generated, the kanji string is extracted from the Japanese sentence text, and the reading estimation apparatuses 1-1 and 1-1 of the first and second embodiments. In the same process as in 1-2, the reading of duplicate single kanji characters constituting the kanji string is estimated to generate a kanji string with mono-ruby. Then, the sign language CG translation device 3 generates mouth type CG data for each single kanji character corresponding to the kanji string with monorubi, and synchronizes the mouth type CG for each single kanji character with the sign language CG data of the Japanese text. , CG data is generated.

これにより、人手で作成した規則を用いることなく、モノルビ付き漢字列を精度高く生成することができ、結果として、単漢字に対応する手話の動きと口の動きとが同期したCGデータを再生することが可能となる。   As a result, a kanji string with monorubi can be generated with high accuracy without using a manually created rule, and as a result, CG data in which the movement of the sign language and the movement of the mouth corresponding to the single kanji is reproduced. It becomes possible.

以上、実施例1,2及びその適用例を挙げて本発明を説明したが、本発明は前記実施例1,2等に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば実施例1,2等では、読み推定装置1−1,1−2等は、漢字列を構成する複製単漢字と1文字毎の読みとを対応させた組み合わせ毎に対応確率値を算出し、対応確率値の高いものを適用し、複製単漢字と読みとを対応付けた複数単漢字対応付けデータを生成するようにした。これに対し、読み推定装置1−1,1−2等は、漢字列の読みデータ(を構成する1文字毎の読み)に対応する組み合わせの対応確率値の合計値を算出し、その合計値が最も高い複製単漢字と読みとを対応付けた複数単漢字対応付けデータを生成するようにしてもよい。   Although the present invention has been described with reference to the first and second embodiments and application examples thereof, the present invention is not limited to the first and second embodiments and the like, and various modifications can be made without departing from the technical idea thereof. It is. For example, in the first and second embodiments, the reading estimation apparatuses 1-1, 1-2, and the like calculate a corresponding probability value for each combination in which a single kanji character constituting a kanji string is matched with a reading for each character. A plurality of single-kanji character correspondence data in which a duplicate single-kanji character and a reading are associated with each other is generated by applying a high correspondence probability value. On the other hand, the reading estimation devices 1-1, 1-2, etc. calculate the total value of the corresponding probability values of the combinations corresponding to the reading data of the Chinese character string (reading for each character constituting the character string), and the total value A plurality of single-kanji character association data in which the duplicate single-kanji character and the reading are associated with each other may be generated.

尚、本発明の実施形態による読み推定装置1−1,1−2、モノルビ付き日本語文章テキスト生成装置2及び手話CG翻訳装置3のハードウェア構成としては、通常のコンピュータを使用することができる。読み推定装置1−1,1−2、モノルビ付き日本語文章テキスト生成装置2及び手話CG翻訳装置3は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。   In addition, as a hardware configuration of the reading estimation apparatuses 1-1 and 1-2, the Japanese sentence text generation apparatus 2 with mono-ruby, and the sign language CG translation apparatus 3 according to the embodiment of the present invention, a normal computer can be used. . The reading estimation devices 1-1 and 1-2, the Japanese sentence text generation device 2 with mono-ruby, and the sign language CG translation device 3 are a volatile storage medium such as a CPU and a RAM, a non-volatile storage medium such as a ROM, and an interface. It is comprised by the computer provided with etc.

読み推定装置1−1に備えた日本語辞書格納部10、漢字複製部11、固有名詞辞書格納部12、漢字及び読み対応付け部13及び漢字復元部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、読み推定装置1−2に備えた初期化部20、対応付けデータ生成部21及びモノルビ付き漢字列生成部22の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、モノルビ付き日本語文章テキスト生成装置2に備えた漢字列抽出部30、読み推定部31及びテキスト生成部32の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、手話CG翻訳装置3に備えた手話CG翻訳部33、漢字列抽出部34、読み推定部35、口型CGデータ変換部36及びCG合成部37の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。   The functions of the Japanese dictionary storage unit 10, the kanji replication unit 11, the proper noun dictionary storage unit 12, the kanji and reading association unit 13, and the kanji restoration unit 14 provided in the reading estimation apparatus 1-1 describe these functions. Each program is realized by causing the CPU to execute the program. In addition, each function of the initialization unit 20, the association data generation unit 21, and the kanji string generation unit 22 with mono-ruby included in the reading estimation apparatus 1-2 is also executed by causing the CPU to execute a program describing these functions. Realized. The functions of the kanji string extraction unit 30, the reading estimation unit 31, and the text generation unit 32 included in the Japanese sentence text generation apparatus 2 with mono-ruby are also realized by causing the CPU to execute a program describing these functions. Is done. The functions of the sign language CG translation unit 33, the kanji string extraction unit 34, the reading estimation unit 35, the mouth type CG data conversion unit 36, and the CG synthesis unit 37 included in the sign language CG translation apparatus 3 also describe these functions. Each is realized by causing the CPU to execute the program.

これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。   These programs can be stored and distributed on a storage medium such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), optical disk (CD-ROM, DVD, etc.), semiconductor memory, etc., and sent and received via a network. You can also

1 読み推定装置
2 モノルビ付き日本語文章テキスト生成装置
3 手話CG翻訳装置
10 日本語辞書格納部
11 漢字複製部
12 固有名詞辞書格納部
13 漢字及び読み対応付け部
14 漢字復元部
20 初期化部
21 対応付けデータ生成部
22 モノルビ付き漢字列生成部
23 漢字列及び読み分割手段
24 漢字複製手段
25 初期化手段
26 組み合わせ生成手段
27 確率算出手段
28 辞書
29 複製単漢字対応付けデータ生成手段
30,34 漢字列抽出部
31,35 読み推定部
32 テキスト生成部
33 手話CG翻訳部
36 口型CGデータ変換部
37 CG合成部
DESCRIPTION OF SYMBOLS 1 Reading estimation apparatus 2 Japanese sentence text generation apparatus 3 with a Monorbi Sign language CG translation apparatus 10 Japanese dictionary storage part 11 Kanji replication part 12 Proper noun dictionary storage part 13 Kanji and reading matching part 14 Kanji restoration part 20 Initialization part 21 Association data generation unit 22 Monorbi-added kanji string generation unit 23 Kanji string and reading division unit 24 Kanji duplication unit 25 Initialization unit 26 Combination generation unit 27 Probability calculation unit 28 Dictionary 29 Duplicate single kanji association data generation unit 30 and 34 Kanji Column extraction unit 31, 35 Reading estimation unit 32 Text generation unit 33 Sign language CG translation unit 36 Mouth type CG data conversion unit 37 CG synthesis unit

Claims (6)

見出し語及びその読みデータから単漢字毎の読みを推定し、モノルビ付き漢字列を生成する読み推定装置において、
見出し語及び当該見出し語の読みデータを入力し、前記見出し語、前記読みデータ及び対応付けデータを含む辞書を格納する辞書格納部と、
前記見出し語である漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成する漢字複製部と、
前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応付けた前記対応付けデータを生成する漢字及び読み対応付け部と、
前記辞書格納部から前記対応付けデータを読み出し、前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記見出し語のモノルビ付き漢字列を生成する漢字復元部と、を備え、
前記漢字及び読み対応付け部は、
前記辞書格納部に格納された前記辞書を用いて、前記見出し語を構成する複数の複製単漢字のそれぞれと前記読みデータを構成する1文字毎の読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記対応付けデータを生成し、
前記辞書格納部は、
前記漢字及び読み対応付け部により生成された前記対応付けデータを格納する、ことを特徴とする読み推定装置。
In the reading estimation device that estimates the reading for each single kanji from the headword and its reading data, and generates a kanji string with mono-ruby,
A dictionary storage unit for inputting a headword and reading data of the headword, and storing a dictionary including the headword, the reading data, and association data;
A kanji duplication unit that duplicates each single kanji character constituting the kanji string that is the headword and generates a plurality of duplicate single kanji characters for the single kanji character;
A kanji and reading association unit that generates the association data in which each of a plurality of duplicate single kanji characters constituting the headword is associated with a reading for each character constituting the reading data;
A kanji restoration unit that reads the association data from the dictionary storage unit, restores the duplicate single kanji characters included in the association data to the original single kanji characters, and generates a kanji string with monorubi for the entry word; Prepared,
The kanji and reading association unit is
Using the dictionary stored in the dictionary storage unit, for each combination in which each of a plurality of duplicate single kanji characters constituting the headword corresponds to reading for each character constituting the reading data, the duplicate Calculating a correspondence probability value indicating a degree of correspondence between a single kanji character and the reading; generating the correspondence data based on the correspondence probability value;
The dictionary storage unit
The reading estimation apparatus characterized by storing the association data generated by the kanji and reading association unit.
漢字列及びその読みデータから単漢字毎の読みを推定し、モノルビ付き漢字列を生成する読み推定装置において、
前記漢字列及び前記読みデータを入力し、前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し複数の複製単漢字を生成し、前記漢字列を構成する複数の複製単漢字と前記読みデータを構成する1文字毎の読みとからなる初期対応付けデータを生成する初期化部と、
前記初期化部により生成された前記初期対応付けデータに含まれる前記複製単漢字と前記読みとを対応させた組み合わせ毎に、前記複製単漢字と前記読みとが対応する程度を示す対応確率値を算出し、前記対応確率値に基づいて、前記漢字列を構成する複数の複製単漢字のそれぞれと前記読みとを対応付けた対応付けデータを生成する対応付けデータ生成手段と、
前記対応付けデータ生成手段により生成された前記対応付けデータに含まれる前記複製単漢字を元の前記単漢字に復元し、前記漢字列のモノルビ付き漢字列を生成するモノルビ付き漢字列生成部と、
を備えたことを特徴とする読み推定装置。
In the reading estimation device that estimates the reading for each single kanji from the kanji string and its reading data, and generates a kanji string with mono-ruby,
The kanji string and the reading data are input, the single kanji for each character constituting the kanji string is duplicated, a plurality of duplicate single kanji characters are generated for the single kanji, and the kanji string is configured. An initializing unit for generating initial association data composed of a plurality of duplicate single kanji characters and readings for each character constituting the reading data;
For each combination of the duplicate single kanji and the reading included in the initial association data generated by the initialization unit, a corresponding probability value indicating the degree to which the duplicate single kanji and the reading correspond An association data generating means for generating association data in which each of a plurality of duplicate single kanji characters constituting the kanji string is associated with the reading based on the correspondence probability value;
A kanji string generation unit with mono-ruby that restores the duplicate single-kanji characters included in the association data generated by the association data generation means to the original single kanji and generates a kanji string with mono-ruby of the kanji string;
A reading estimation apparatus characterized by comprising:
請求項1または2に記載の読み推定装置において、
前記漢字列を構成する1文字毎の単漢字をそれぞれ複製し、1文字の前記単漢字に対し2つの前記複製単漢字を生成する、ことを特徴とする読み推定装置。
In the reading estimation apparatus according to claim 1 or 2,
A reading estimation apparatus, wherein each single kanji character constituting the kanji string is duplicated, and two duplicate single kanji characters are generated for each single kanji character.
日本語文章テキストからモノルビ付き日本語文章テキストを生成するモノルビ付き日本語文章テキスト生成装置において、
前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、
請求項1から3までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、
前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元し、モノルビ付き漢字列を生成する読み推定部と、
前記日本語文章テキストに含まれる前記漢字列を、前記読み推定部により生成された前記モノルビ付き漢字列に入れ換え、前記モノルビ付き日本語文章テキストを生成するテキスト生成部と、
を備えたことを特徴とするモノルビ付き日本語文章テキスト生成装置。
In a Japanese sentence text generator with mono ruby that generates Japanese sentence text with mono rubi from Japanese sentence text,
A kanji string extraction unit that extracts kanji strings from the Japanese sentence text and generates reading data of the kanji strings;
Memory in which the association data generated by the reading estimation device according to any one of claims 1 to 3 is stored corresponding to the Chinese character string;
The association data corresponding to the kanji string extracted by the kanji string extraction unit is read from the memory, the duplicate single kanji included in the association data is restored to the original single kanji, and the kanji string with mono-ruby is obtained. A reading estimator to generate,
A text generation unit that replaces the kanji string included in the Japanese sentence text with the kanji string with mono-ruby generated by the reading estimation unit, and generates the Japanese sentence text with mono-ruby;
A Japanese sentence text generator with mono-ruby, characterized by comprising:
日本語文章テキストを翻訳して手話CGデータを生成し、前記手話CGデータに、口の動きを表した口型CGデータを合成する手話CG翻訳装置において、
前記日本語文章テキストから漢字列を抽出し、前記漢字列の読みデータを生成する漢字列抽出部と、
請求項1から4までのいずれか一項の読み推定装置により生成された対応付けデータが、その漢字列に対応して格納されたメモリと、
前記漢字列抽出部により抽出された前記漢字列に対応する前記対応付けデータを、前記メモリから読み出し、前記対応付けデータに含まれる複製単漢字を元の単漢字に復元、モノルビ付き漢字列を生成する読み推定部と、
前記読み推定部により生成された前記モノルビ付き漢字列を構成する複数の単漢字のそれぞれについて、当該単漢字に対応する前記口型CGデータを生成する口型CGデータ生成部と、
前記手話CGデータに、前記口型CGデータ生成部により生成された前記口型CGデータを合成するCG合成部と、
を備えたことを特徴とする手話CG翻訳装置。
In a sign language CG translation device that translates Japanese text to generate sign language CG data, and synthesizes mouth type CG data representing mouth movements with the sign language CG data,
A kanji string extraction unit that extracts kanji strings from the Japanese sentence text and generates reading data of the kanji strings;
A memory in which the association data generated by the reading estimation device according to any one of claims 1 to 4 is stored corresponding to the Chinese character string;
The association data corresponding to the kanji string extracted by the kanji string extraction unit is read from the memory, the duplicate single kanji included in the association data is restored to the original single kanji, and a kanji string with mono-ruby is generated. A reading estimator to
A mouth type CG data generating unit that generates the mouth type CG data corresponding to the single kanji character for each of a plurality of single kanji characters constituting the kanji string with mono ruby generated by the reading estimation unit;
A CG synthesis unit that synthesizes the mouth CG data generated by the mouth type CG data generation unit with the sign language CG data;
A sign language CG translation apparatus comprising:
コンピュータを、請求項1から3までのいずれか一項に記載の読み推定装置として機能させるためのプログラム。   A program for causing a computer to function as the reading estimation apparatus according to any one of claims 1 to 3.
JP2016204893A 2016-10-19 2016-10-19 Reading estimator and program Active JP6762195B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016204893A JP6762195B2 (en) 2016-10-19 2016-10-19 Reading estimator and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016204893A JP6762195B2 (en) 2016-10-19 2016-10-19 Reading estimator and program

Publications (2)

Publication Number Publication Date
JP2018067125A true JP2018067125A (en) 2018-04-26
JP6762195B2 JP6762195B2 (en) 2020-09-30

Family

ID=62087218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016204893A Active JP6762195B2 (en) 2016-10-19 2016-10-19 Reading estimator and program

Country Status (1)

Country Link
JP (1) JP6762195B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161315A (en) * 1994-12-07 1996-06-21 Casio Comput Co Ltd Japanese language processor
JPH09274428A (en) * 1996-04-09 1997-10-21 Hitachi Ltd Sign language animation forming device
JP2000353159A (en) * 1999-06-11 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> Notation-reading correspondence device, notation- reading dictionary generating method, text reading arranging device, text reading arranging method, and recording medium
JP2005534968A (en) * 2002-07-31 2005-11-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Deciding to read kanji
JP2014164403A (en) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> Reading allocation device and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161315A (en) * 1994-12-07 1996-06-21 Casio Comput Co Ltd Japanese language processor
JPH09274428A (en) * 1996-04-09 1997-10-21 Hitachi Ltd Sign language animation forming device
JP2000353159A (en) * 1999-06-11 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> Notation-reading correspondence device, notation- reading dictionary generating method, text reading arranging device, text reading arranging method, and recording medium
JP2005534968A (en) * 2002-07-31 2005-11-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Deciding to read kanji
JP2014164403A (en) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> Reading allocation device and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"OSの日本語辞書から自動的にルビを付加するプラグインソフト", DTP WORLD, vol. 第14巻,第4号, JPN6020028927, 13 April 2009 (2009-04-13), JP, pages 134, ISSN: 0004321721 *

Also Published As

Publication number Publication date
JP6762195B2 (en) 2020-09-30

Similar Documents

Publication Publication Date Title
Mortensen et al. Epitran: Precision G2P for many languages
JP6175900B2 (en) Translation apparatus, method, and program
JP7111464B2 (en) Translation method, translation device and translation system
JP2009294913A (en) Language processing apparatus and program
JP6471074B2 (en) Machine translation apparatus, method and program
JP2006277677A (en) Communication support device, method, and program
US10339973B2 (en) System and method for audio dubbing and translation of a video
Delbrouck et al. Modulating and attending the source image during encoding improves multimodal translation
Zhao et al. Automatic interlinear glossing for under-resourced languages leveraging translations
Francisca et al. Adapting rule based machine translation from english to bangla
Jaffe Generating image descriptions using multilingual data
JP2017097062A (en) Reading imparting device, speech recognition device, reading imparting method, speech recognition method, and program
JP7358748B2 (en) Learning method, extraction method, learning program, and information processing device
Moryossef et al. An open-source gloss-based baseline for spoken to signed language translation
JP2008083239A (en) Device, method and program for editing intermediate language
Karakanta et al. Between flexibility and consistency: Joint generation of captions and subtitles
Baby et al. Non-native English lexicon creation for bilingual speech synthesis
JP2018067125A (en) Reading estimation device and program
JP2019057095A (en) Document generation device, model generation device, calibration device and computer program
Didenko et al. RedPenNet for Grammatical Error Correction: Outputs to Tokens, Attentions to Spans
JP2013186673A (en) Machine translation device and machine translation program
JP2005092682A (en) Transliteration device and transliteration program
JP6043651B2 (en) Reading apparatus and program for reading
EP3598322A1 (en) Machine based expansion of contractions in text in digital media
JP5298833B2 (en) Translation apparatus and translation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200908

R150 Certificate of patent or registration of utility model

Ref document number: 6762195

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150