JP7333526B2 - Comic machine translation device, comic parallel database generation device, comic machine translation method and program - Google Patents

Comic machine translation device, comic parallel database generation device, comic machine translation method and program Download PDF

Info

Publication number
JP7333526B2
JP7333526B2 JP2021541830A JP2021541830A JP7333526B2 JP 7333526 B2 JP7333526 B2 JP 7333526B2 JP 2021541830 A JP2021541830 A JP 2021541830A JP 2021541830 A JP2021541830 A JP 2021541830A JP 7333526 B2 JP7333526 B2 JP 7333526B2
Authority
JP
Japan
Prior art keywords
natural language
character
information
image
character information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021541830A
Other languages
Japanese (ja)
Other versions
JPWO2021038708A1 (en
Inventor
遼太 日並
祥之佑 石渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JPWO2021038708A1 publication Critical patent/JPWO2021038708A1/ja
Application granted granted Critical
Publication of JP7333526B2 publication Critical patent/JP7333526B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

特許法第30条第2項適用 2018年8月28日、Innovative Technologies 2018 採択技術発表 https://www.dcaj.or.jp/news/2018/08/innovative-technologies-2018.htmlApplication of Article 30, Paragraph 2 of the Patent Act Aug. 28, 2018, Innovative Technologies 2018 Adopted Technology Announcement https://www. dcaj. or. jp/news/2018/08/innovative-technologies-2018. html

本発明は、漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラムに関する。 The present invention relates to a machine translation device for comics, a parallel translation database generation device for comics, a machine translation method for comics, and a program.

近年、コンピュータの処理能力の向上に伴い、ある自然言語で記載された文章を他の自然言語の文章に機械翻訳する方法が注目されており、種々の機械翻訳方法、装置が提案されている(例えば、特許文献1参照)。 In recent years, with the improvement of computer processing power, methods for machine-translating sentences written in one natural language into sentences in another natural language have attracted attention, and various machine translation methods and devices have been proposed ( For example, see Patent Document 1).

特開2019-96303号公報JP 2019-96303 A

ところで、現在、漫画の翻訳は、翻訳者の手によって行われている。翻訳者による翻訳では、漫画のストーリー等の状況に応じた柔軟な翻訳が行われるため、精度の高い翻訳が可能である。一方で、翻訳者による翻訳は、比較的費用が高いため、翻訳して他の地域、国において出版しても、著作権者や出版社が十分な利益を得られない場合がある。また、翻訳費用が高いことから、海外の出版社が翻訳権・出版権の買取を拒否し、正規の翻訳版が海外において出版されない場合もある。翻訳者による翻訳は、翻訳作業のために比較的長い時間を要する。したがって、正規の著作権者が漫画の翻訳を行って、他の地域、国において出版する前、あるいは正規の翻訳版が出版できずにいる間に、質の悪い海賊版が市場において売買されていることもあり得る。 By the way, currently, the translation of manga is done by translators. In translation by a translator, translation is performed flexibly according to the situation such as the story of the manga, so highly accurate translation is possible. On the other hand, translations by translators are relatively expensive, so even if they are translated and published in other regions or countries, copyright holders and publishers may not be able to obtain sufficient profits. Also, due to the high cost of translation, there are cases where overseas publishers refuse to purchase translation and publishing rights, and official translations are not published overseas. Translation by a translator takes a relatively long time for translation work. Therefore, before the official copyright holder translates the manga and publishes it in another region or country, or while the official translation cannot be published, low-quality pirated copies are sold in the market. It is possible.

一方で、機械翻訳を用いた場合、比較的安価かつ迅速な翻訳が可能である。したがって、機械翻訳を用いた場合、翻訳者による翻訳において生じる欠点を解消できる。しかしながら、本発明者らが検討した結果、既存の機械翻訳方法を採用しても、精度の高い漫画の機械翻訳ができないことが判明した。 On the other hand, when machine translation is used, relatively inexpensive and rapid translation is possible. Therefore, when machine translation is used, it is possible to eliminate the shortcomings that occur in translation by translators. However, as a result of investigation by the present inventors, it has been found that highly accurate machine translation of comics cannot be performed even if existing machine translation methods are employed.

本発明は、上記の課題を解決するためになされたものであって、精度の高い漫画の機械翻訳が可能な漫画の機械翻訳装置、漫画の機械翻訳方法およびプログラムならびにこれらのための漫画の対訳データベース生成装置を提供することを目的とする。 The present invention has been made in order to solve the above-mentioned problems, and is a machine translation apparatus for comics, a machine translation method and program for comics, and parallel translation of comics therefor, capable of machine-translating comics with high accuracy. An object of the present invention is to provide a database generation device.

上記の課題を解決するために提供される本発明の要旨は、主に以下の通りである。
(1) 第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した対訳情報を含む、漫画の機械翻訳装置。
(2) 前記文字情報推定部は、学習済み文字認識モデルを用いて前記文字領域より、前記文字情報を推定し、
前記学習済み文字認識モデルは、前記第1自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(1)に記載の漫画の機械翻訳装置。
(3) 前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、前記第1自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(1)または(2)に記載の漫画の機械翻訳装置。
(4) 前記第2自然言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、前記第2自然言語の1以上の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(1)~(3)のいずれか一項に記載の漫画の機械翻訳装置。
(5) 前記第1自然言語が日本語である、(1)~(4)のいずれか一項に記載の漫画の機械翻訳装置。
(6) さらに、前記機械翻訳部により翻訳された前記第2自然言語の文字情報を、前記第1自然言語画像に画像として付与し、第2自然言語画像を生成する、画像生成部を備える、(1)~(5)のいずれか一項に記載の漫画の機械翻訳装置。
(7) 参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出する文字領域検出部と、
前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出する対訳情報抽出部と、
前記第1言語文字情報の少なくとも一部と、前記第2言語文字情報の少なくとも一部とを、対訳情報として格納する記憶部とを有する、漫画の対訳データベース生成装置。
(8) 前記第1言語文字領域から第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、前記第1自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(7)に記載の漫画の対訳データベース生成装置。
(9) 前記第2言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、前記第2自然言語の1以上の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(8)に記載の漫画の対訳データベース生成装置。
(10) プロセッサにより、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出することと、
前記文字領域より、前記第1自然言語の文字情報を推定することと、および
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳することと、を実行し、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した対訳情報を含む、漫画の機械翻訳方法。
(11) コンピュータを、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した対訳情報を含む、漫画の機械翻訳装置として機能させるためのプログラム。
The gist of the present invention provided to solve the above problems is mainly as follows.
(1) a character area detection unit that detects a character area from a first natural language image that constitutes a cartoon created using a first natural language;
a character information estimation unit for estimating character information of the first natural language from the character area;
a machine translation unit that translates the character information in the first natural language into character information in the second natural language by machine translation using a bilingual database;
The bilingual database includes a first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character region included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region. bilingual information automatically generated by detecting a language character region and extracting first natural language character information existing in the first natural language character region and second natural language character information existing in the second natural language character region A machine translation device for cartoons, including
(2) the character information estimation unit estimates the character information from the character region using a trained character recognition model;
The learned character recognition model is machine-learned using teacher data including one or more font images of the first natural language and an image obtained by adding deformation, tilt and/or noise to the font image, The cartoon machine translation device according to (1), which is generated.
(3) extracting the first natural language character information from the first natural language character region is performed by estimating the first natural language character information using a trained character recognition model;
The learned character recognition model is machine-learned using teacher data including one or more font images of the first natural language and an image obtained by adding deformation, tilt and/or noise to the font image, The cartoon machine translation device according to (1) or (2), which is generated.
(4) extraction of the second natural language character information from the second natural language character region is performed by estimating the second natural language character information using a trained second natural language character recognition model;
The trained second natural language character recognition model includes one or more second natural language font images of the second natural language, and an image obtained by adding deformation, tilt and / or noise to the second natural language font image. The machine translation device for comics according to any one of (1) to (3), which is generated by machine learning using teacher data including the training data.
(5) The comic machine translation device according to any one of (1) to (4), wherein the first natural language is Japanese.
(6) Furthermore, an image generation unit that generates a second natural language image by adding the character information in the second natural language translated by the machine translation unit as an image to the first natural language image, The machine translation device for comics according to any one of (1) to (5).
(7) a first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region; a character area detection unit for detecting an area;
a parallel translation information extraction unit for extracting first natural language character information existing in the first natural language character area and second natural language character information existing in the second natural language character area;
A parallel translation database generation apparatus for comics, comprising a storage unit for storing at least part of the first language character information and at least part of the second language character information as parallel translation information.
(8) extracting the first natural language character information from the first language character region by estimating the first natural language character information using a trained character recognition model;
The learned character recognition model is machine-learned using teacher data including one or more font images of the first natural language and an image obtained by adding deformation, tilt and/or noise to the font image, The bilingual database generation device for comics according to (7), which is generated.
(9) extraction of the second natural language character information from the second language character region is performed by estimating the second natural language character information using a trained second natural language character recognition model;
The trained second natural language character recognition model includes one or more second natural language font images of the second natural language, and an image obtained by adding deformation, tilt and / or noise to the second natural language font image. The bilingual comics database generation device according to (8), which is generated by machine learning using teacher data including the data.
(10) by the processor,
Detecting a character region from a first natural language image that constitutes a cartoon created using a first natural language;
estimating character information in the first natural language from the character area; and translating the character information in the first natural language into character information in a second natural language by machine translation using a bilingual database. , and
The bilingual database includes a first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character region included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region. bilingual information automatically generated by detecting a language character region and extracting first natural language character information existing in the first natural language character region and second natural language character information existing in the second natural language character region Machine translation methods for cartoons, including
(11) a computer;
a character area detection unit that detects a character area from a first natural language image that constitutes a cartoon created using a first natural language;
a character information estimation unit for estimating character information of the first natural language from the character area;
a machine translation unit that translates the character information in the first natural language into character information in the second natural language by machine translation using a bilingual database;
The bilingual database includes a first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character region included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region. bilingual information automatically generated by detecting a language character region and extracting first natural language character information existing in the first natural language character region and second natural language character information existing in the second natural language character region A program for functioning as a machine translation device for comics, including

以上、本発明によれば、精度の高い漫画の機械翻訳が可能な漫画の機械翻訳装置、漫画の機械翻訳方法およびプログラムならびにこれらのための漫画の対訳データベース生成装置を提供することができる。 As described above, according to the present invention, it is possible to provide a comics machine translation device, a comics machine translation method and program, and a comics bilingual database generation device for these that are capable of highly accurate comics machine translation.

本発明の一実施形態に係る漫画の機械翻訳装置の機能構成を説明するブロック図である。1 is a block diagram illustrating the functional configuration of a machine translation device for comics according to an embodiment of the present invention; FIG. 図1に記載の漫画の機械翻訳装置において使用される学習済み文字認識モデルを生成する文字認識モデル生成装置の機能構成を説明するブロック図である。2 is a block diagram illustrating the functional configuration of a character recognition model generation device that generates a learned character recognition model used in the cartoon machine translation device shown in FIG. 1; FIG. 本発明の一実施形態に係る漫画の対訳データベース生成装置の機能構成を説明するブロック図である。1 is a block diagram illustrating the functional configuration of a bilingual comic database generation device according to an embodiment of the present invention; FIG. 図2に示す文字認識モデル生成装置による教師データの生成処理を説明するための図である。3 is a diagram for explaining a process of generating teacher data by the character recognition model generation device shown in FIG. 2; FIG. 図3に示す漫画の対訳データベース生成装置による参照漫画の画像の取り込みおよび対応付けを説明するための図である。FIG. 4 is a diagram for explaining how the bilingual comic database generation device shown in FIG. 3 captures and associates images of reference comics; 図3に示す漫画の対訳データベース生成装置による文字領域の検出方法の一例を説明するための図である。FIG. 4 is a diagram for explaining an example of a method of detecting a character region by the bilingual comic database generation device shown in FIG. 3; 図3に示す漫画の対訳データベース生成装置による文字領域の検出方法の一例を説明するための図である。FIG. 4 is a diagram for explaining an example of a method of detecting a character region by the bilingual comic database generation device shown in FIG. 3; 図3に示す漫画の対訳データベース生成装置による文字列の特定方法の一例を説明するための図である。FIG. 4 is a diagram for explaining an example of a method of specifying a character string by the comic bilingual database generation device shown in FIG. 3; 図3に示す漫画の対訳データベース生成装置による文字列の特定方法の一例を説明するための図である。FIG. 4 is a diagram for explaining an example of a method of specifying a character string by the comic bilingual database generation device shown in FIG. 3; 図1に示す漫画の機械翻訳装置による文字情報の抽出方法の一例を説明するための図である。2 is a diagram for explaining an example of a method of extracting character information by the comic machine translation apparatus shown in FIG. 1; FIG. 図1に示す漫画の機械翻訳装置による第2自然言語の漫画画像の生成方法の一例を説明するための図である。2 is a diagram for explaining an example of a method for generating a comic image in a second natural language by the comic machine translation device shown in FIG. 1; FIG. 本発明の一実施形態に係る文字認識モデル生成方法を説明するフローチャートである。4 is a flowchart illustrating a character recognition model generation method according to an embodiment of the present invention; 本発明の一実施形態に係る漫画の対訳データベース生成方法を説明するフローチャートである。4 is a flow chart illustrating a method for generating a parallel translation database of comics according to an embodiment of the present invention; 本発明の一実施形態に係る漫画の機械翻訳方法を説明するフローチャートである。4 is a flow chart illustrating a method for machine translation of comics according to an embodiment of the present invention; 図1に示す漫画の機械翻訳装置のハードウェア構成の一例を示すブロック図である。2 is a block diagram showing an example of the hardware configuration of the machine translation apparatus for comics shown in FIG. 1; FIG.

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。
<1.本発明者らによる検討>
まず、本発明の実施形態の説明に先立ち、本発明者らによる検討について説明する。上述したように、本発明者らが検討したところ、既存の機械翻訳方法を採用しても、精度の高い漫画の機械翻訳ができなかった。
Preferred embodiments of the present invention will be described in detail below with reference to the accompanying drawings.
<1. Study by the present inventors>
First, prior to describing embodiments of the present invention, studies by the inventors will be described. As described above, when the inventors of the present invention have studied, even if the existing machine translation method is adopted, it is not possible to perform highly accurate machine translation of comics.

本発明者らは、この理由について以下のような可能性を考慮した。機械翻訳を精度よく行うためには対訳データベース(コーパス)が必要であるが、既存の対訳データベースは漫画の機械翻訳に適していない可能性がある。特に、漫画は、通常の文章とは異なり、漫画中の人物のセリフが主に文として記載されている。このようなセリフは、主語や述語の対応がない場合や、文が途切れている場合も多い。さらには、疑問符、感嘆符、長音符、慢符等の符号の使用方法も作者によって大きく異なる。 The inventors considered the following possibilities for this reason. A bilingual database (corpus) is necessary for accurate machine translation, but existing bilingual databases may not be suitable for machine translation of comics. In particular, comics are mainly written as sentences, unlike ordinary sentences, in which the lines of characters in the comics are written. Such lines often have no correspondence between subjects and predicates, or have broken sentences. Furthermore, the use of symbols such as question marks, exclamation marks, long notes, and arrogances also varies greatly depending on the author.

このような可能性に鑑み、本発明者らは、鋭意検討して漫画の対訳情報を含む特定の対訳データベースを用いたところ、精度の高い機械翻訳が可能となることを見出し、本発明に至った。 In view of such possibilities, the present inventors conducted extensive research and found that highly accurate machine translation is possible by using a specific bilingual database containing bilingual information on comics, leading to the present invention. Ta.

<2.システムの概要>
まず、本実施形態に係る漫画の機械翻訳装置(以下、単に「機械翻訳装置」ともいう)、および漫画の対訳データベース生成装置(以下、単に「対訳データベース生成装置」ともいう)を含む、漫画の機械翻訳システムの概要について説明する。図1は、本発明の一実施形態に係る機械翻訳装置の機能構成を説明するブロック図、図2は、図1に記載の機械翻訳装置において使用される学習済み文字認識モデルを生成する文字認識モデル生成装置の機能構成を説明するブロック図、図3は、本発明の一実施形態に係る対訳データベース生成装置の機能構成を説明するブロック図である。
<2. System Overview>
First, a cartoon machine translation device according to the present embodiment (hereinafter also simply referred to as a "machine translation device") and a manga bilingual database generation device (hereinafter simply referred to as a "bilingual database generation device"). An overview of the machine translation system will be explained. FIG. 1 is a block diagram illustrating the functional configuration of a machine translation device according to one embodiment of the present invention, and FIG. 2 is a character recognition system that generates a learned character recognition model used in the machine translation device described in FIG. FIG. 3 is a block diagram for explaining the functional configuration of the model generation device, and FIG. 3 is a block diagram for explaining the functional configuration of the bilingual database generation device according to one embodiment of the present invention.

図1に示す機械翻訳装置100は、第1自然言語としての日本語を用いて作成された漫画中の日本語文字情報を、第2自然言語としての英語文字情報に機械翻訳する装置である。 The machine translation device 100 shown in FIG. 1 is a device for machine-translating Japanese character information in a comic created using Japanese as a first natural language into English character information as a second natural language.

また、図2示す文字認識モデル生成装置200は、漫画画像に存在する自然言語文字情報を推定するための学習済み文字認識モデルを生成するための装置である。図3に示す対訳データベース生成装置300は、翻訳済みの参照漫画について、第1自然言語としての日本語と、第2自然言語としての英語との対訳情報を抽出し、対訳データベースを自動生成する装置である。 Also, the character recognition model generation device 200 shown in FIG. 2 is a device for generating a trained character recognition model for estimating natural language character information existing in a cartoon image. The bilingual database generation device 300 shown in FIG. 3 is a device that automatically generates a bilingual database by extracting bilingual information in Japanese as the first natural language and English as the second natural language from the translated reference comics. is.

そして、図1に示すように、これらの機械翻訳装置100、文字認識モデル生成装置200、対訳データベース生成装置300は、ネットワーク400を介して、相互に通信可能であり、漫画の機械翻訳システムを構成している。ここで、文字認識モデル生成装置200において生成される学習済み文字認識モデルは、機械翻訳装置100および対訳データベース生成装置300において利用される。また、対訳データベース生成装置300において生成される対訳データベースは、機械翻訳装置100における機械翻訳において使用される。したがって、説明の容易化のため、まず文字認識モデル生成装置200、対訳データベース生成装置300、次いで機械翻訳装置100の順に説明を行う。 As shown in FIG. 1, the machine translation device 100, the character recognition model generation device 200, and the bilingual database generation device 300 can communicate with each other via a network 400 to form a machine translation system for comics. are doing. Here, the learned character recognition model generated by the character recognition model generation device 200 is used in the machine translation device 100 and the bilingual database generation device 300. FIG. Also, the parallel translation database generated by the parallel translation database generation device 300 is used in the machine translation performed by the machine translation device 100 . Therefore, for ease of explanation, the character recognition model generation device 200, the bilingual database generation device 300, and then the machine translation device 100 will be described in this order.

なお、本実施形態においては、一例として、第1自然言語が日本語であり、第2自然言語が英語である場合について説明する。しかしながら、第1自然言語、第2自然言語は、これらの自然言語に限定されるものではなく、文字を用いて記載される任意の自然言語であることができる。 In this embodiment, as an example, a case where the first natural language is Japanese and the second natural language is English will be described. However, the first natural language and the second natural language are not limited to these natural languages, and can be any natural language written using characters.

(2.1. 文字認識モデル生成装置200)
図2に示すように文字認識モデル生成装置200は、教師データ生成部210と、機械学習部230と、記憶部250とを有する。
(2.1. Character recognition model generation device 200)
As shown in FIG. 2 , the character recognition model generation device 200 has a teacher data generation section 210 , a machine learning section 230 and a storage section 250 .

教師データ生成部210は、後述する機械学習部230で用いる教師データを生成する。具体的には、図4に示すように、教師データ生成部210は、複数種のフォントについての文字画像411を含む画像、すなわちフォント画像群410を用意し、これに変形、傾きおよび/またはノイズを付与した加工文字画像421を含む加工文字画像群420を生成する。ここで、フォント画像群410は、文字画像411により構成された単語、文、あるいは文字列もしくは行単位等の複数の文字画像411により構成される単位を含んでいてもよい。この場合、これらの単位ごとの文字認識モデルを生成することもできる。次いで、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411とを組み合わせて、学習用文字画像431を複数含む学習用文字画像群430を生成する。なお、フォント画像群410については、記憶部250中に保存されたデータを使用することができる。また、生成した学習用文字画像群430等の各種データは、必要に応じて記憶部250に送信されて保存されてもよい。 The teacher data generation unit 210 generates teacher data used by the machine learning unit 230, which will be described later. Specifically, as shown in FIG. 4, the training data generation unit 210 prepares an image including character images 411 for a plurality of types of fonts, that is, a font image group 410. A processed character image group 420 including a processed character image 421 to which Here, the font image group 410 may include a unit composed of a plurality of character images 411, such as a word or sentence composed of character images 411, or a character string or line unit. In this case, it is also possible to generate a character recognition model for each of these units. Next, the processed character images 421 in the processed font image group 420 and the character images 411 in the font image group 410 are combined to generate a learning character image group 430 including a plurality of learning character images 431 . For the font image group 410, data saved in the storage unit 250 can be used. Various data such as the generated learning character image group 430 may be transmitted to and stored in the storage unit 250 as necessary.

なお、本開示においては、学習用文字画像群430は、図4に記載される態様に限定されるものではなく、学習用文字画像群430は、例えば、漫画に記載される文字画像、その他公知の文字認識データセットの文字画像等の文字画像をさらに含んでいてもよい。 Note that in the present disclosure, the learning character image group 430 is not limited to the embodiment illustrated in FIG. may further include a character image, such as a character image of the character recognition data set.

さらに、教師データ生成部210は、学習用文字画像群430中の各学習用文字画像431に対応する当該学習用文字画像431の文字情報を正解データとして用意する。学習用文字画像群430が加工文字画像421および文字画像411以外の文字画像を含む場合、当該文字画像に対しては必要に応じて手動でまたは自動的に正解データに対応する文字情報が付与されてもよい。そして、教師データ生成部210は、例題データである学習用文字画像群430と正解データとを含む教師データを生成する。生成した教師データは、機械学習部230へ直接出力されてもよいし、記憶部250において保存されてもよい。 Further, the teacher data generation unit 210 prepares character information of the learning character image 431 corresponding to each learning character image 431 in the learning character image group 430 as correct data. When the learning character image group 430 includes character images other than the processed character image 421 and the character image 411, the character information corresponding to the correct data is automatically or manually added to the character image as necessary. may Then, the teacher data generation unit 210 generates teacher data including the learning character image group 430, which is the example data, and the correct answer data. The generated teacher data may be directly output to the machine learning section 230 or may be stored in the storage section 250 .

機械学習部230は、教師データ生成部210において生成した教師データを用いて機械学習を行い、学習済み文字認識モデルを生成する。機械学習において用いられる手法(アルゴリズム)は、特に限定されるものではなく、当業者が利用可能な各種手法を単独でまたは組み合わせて用いることができる。当該手法としては、例えば、ResNet(残渣ネットワーク)イメージ認識モジュール、CRNN(convolutional recurrent neural network)や、Bi-Directional LSTM(Long short-term memory)を含むLSTM等の畳み込みニューラルネットワークや再帰型ニューラルネットワーク等の各種ニューラルネットワークや、これらの組み合わせを挙げることができる。なお、学習済み文字認識モデルは、文字単位で文字情報を認識するものであってもよいし、単語、文、あるいは文字列もしくは行単位等の複数の文字により構成される単位で文字情報を認識するものであってもよい。機械学習部230は、生成した学習済み文字認識モデルを記憶部250に保存するとともに、必要に応じて機械翻訳装置100や対訳データベース生成装置300へ送信する。 The machine learning unit 230 performs machine learning using the teacher data generated by the teacher data generation unit 210 to generate a learned character recognition model. Techniques (algorithms) used in machine learning are not particularly limited, and various techniques available to those skilled in the art can be used alone or in combination. Examples of the method include a ResNet (residual network) image recognition module, CRNN (convolutional recurrent neural network), convolutional neural networks such as LSTM including Bi-Directional LSTM (Long short-term memory), recursive neural networks, etc. and combinations thereof. The trained character recognition model may recognize character information in units of characters, or may recognize character information in units composed of multiple characters such as words, sentences, character strings, or lines. It may be something to do. The machine learning unit 230 stores the generated learned character recognition model in the storage unit 250, and transmits it to the machine translation device 100 and the bilingual database generation device 300 as necessary.

記憶部250は、教師データや学習済み文字認識モデルの生成に必要な各種情報を保存するとともに、生成した教師データや学習済み文字認識モデルを保存する。教師データや学習済み文字認識モデルの生成に必要な各種情報としては、例えば、フォント情報(文字画像および文字情報)、変形、傾き、ノイズ付与に必要な加工のための情報、機械学習のための手法に関する各種情報等が挙げられる。 The storage unit 250 stores various information necessary for generating teacher data and learned character recognition models, and stores the generated teacher data and learned character recognition models. Various types of information necessary for generating teacher data and trained character recognition models include font information (character images and character information), deformation, inclination, information for processing necessary for adding noise, and information for machine learning. Various types of information related to the method can be mentioned.

(2.2. 対訳データベース生成装置300)
対訳データベース生成装置300は、翻訳済みの参照漫画について、日本語と、英語との対訳情報を抽出し、対訳データベースを自動生成する。図3に示すように、対訳データベース生成装置300は、参照画像取得部310と、文字領域検出部330と、対訳情報抽出部350と、記憶部370とを有している。
(2.2. Bilingual database generation device 300)
The bilingual database generation device 300 extracts bilingual information in Japanese and English from translated reference comics, and automatically generates a bilingual database. As shown in FIG. 3 , the translation database generation device 300 has a reference image acquisition section 310 , a character area detection section 330 , a translation information extraction section 350 and a storage section 370 .

参照画像取得部310は、翻訳済みの参照漫画中の画像を取得し、日本語参照画像と英語参照画像とを対応付ける。ここで、参照漫画としては、第1の自然言語としての日本語で作成された日本語参照漫画500Jと、第2自然言語としての英語で作成された英語参照漫画500Eとが存在する漫画作品であれば、特に限定されず、任意のものを使用することができる。日本語参照漫画500Jおよび英語参照漫画500Eは、それぞれ電子的なテキストデータが付属していなくてもよい。本実施形態においては、後述する文字領域検出部330および対訳情報抽出部350により、精度よく、日本語文字情報および英語文字情報を抽出することができる。また、日本語参照漫画500Jおよび英語参照漫画500Eは、少なくともいずれかが翻訳者により翻訳されたものであることが好ましい。これにより、より精度の良い機械翻訳が可能になる。 The reference image acquisition unit 310 acquires images in the translated reference comics, and associates the Japanese reference images with the English reference images. Here, as reference cartoons, there are a Japanese reference cartoon 500J created in Japanese as the first natural language and an English reference cartoon 500E created in English as the second natural language. If there is, it is not particularly limited, and any one can be used. The Japanese reference comics 500J and the English reference comics 500E do not have to be accompanied by electronic text data. In this embodiment, the character area detection unit 330 and the parallel translation information extraction unit 350, which will be described later, can accurately extract Japanese character information and English character information. At least one of the Japanese reference cartoon 500J and the English reference cartoon 500E is preferably translated by a translator. This enables more accurate machine translation.

図5に示すように、参照画像取得部310は、まず、日本語参照漫画500Jおよび英語参照漫画500Eの各ページの画像を、それぞれ日本語参照画像510J、英語参照画像510Eとして取り込む(ここでn、mは自然数である)。ここで、一般に漫画は、絵と文字により表現されており、翻訳された際にも、原作の漫画と翻訳後の漫画とは、内容部分については、ページごとに対応する。しかしながら、表紙や目次の構成等によっては、原作の漫画と翻訳後の漫画とで対応位置(表紙からのページ数)が異なる場合がある。As shown in FIG. 5, the reference image acquisition unit 310 first captures the images of each page of the Japanese reference cartoon 500J and the English reference cartoon 500E as Japanese reference images 510Jn and English reference images 510Em , respectively. where n and m are natural numbers). Here, comics are generally represented by pictures and characters, and even when translated, the original comics and the translated comics correspond to each other in terms of the contents of each page. However, depending on the composition of the cover and table of contents, etc., the corresponding position (the number of pages from the cover) may differ between the original manga and the translated manga.

したがって、参照画像取得部310は、取り込まれた日本語参照漫画500Jの取り込まれた日本語参照画像510Jを英語参照漫画500Eの英語参照画像510Eと対応付ける。対応付けのための手法は特に限定されないが、例えば局所的な特徴量を演算することにより行うことができる。具体的には、AKAZE検出器等の検出器により、日本語参照画像510Jおよび英語参照画像510Eの局所記述子(local descriptor)を検出する。次いで、日本語参照画像510Jおよび英語参照画像510Eの2つのページのホモグラフィー行列を算出する。ついで、inlierと判断された局所的特徴のペアをカウントすることにより、日本語参照画像510Jおよび英語参照画像510Eの類似性を判断する。Therefore, the reference image acquisition unit 310 associates the captured Japanese reference image 510Jn of the captured Japanese reference cartoon 500J with the English reference image 510Em of the English reference cartoon 500E . Although the method for matching is not particularly limited, it can be performed, for example, by calculating local feature amounts. Specifically, a detector such as the AKAZE detector detects the local descriptors of the Japanese reference image 510J n and the English reference image 510E m . The homography matrices of the two pages of the Japanese reference image 510Jn and the English reference image 510Em are then calculated. The similarity between the Japanese reference image 510J n and the English reference image 510E m is then determined by counting the pairs of local features that are determined to be inferior.

この結果に基づき、参照画像取得部310は、日本語参照画像510Jおよび英語参照画像510Eの対応付けを行う。例えば、図5においては、日本語参照画像510Jは英語参照画像510Eに、日本語参照画像510Jは英語参照画像510Eに、日本語参照画像510Jは英語参照画像510Eに対応付けられる。参照画像取得部310は、対応付けられた日本語参照画像510Jおよび英語参照画像510Eのペアを文字領域検出部330に出力するおよび/または記憶部370に保存する。なお、参照画像取得部310は、必要に応じて、保存または出力される日本語参照画像510Jおよび英語参照画像510Eに対してこれらの形状が一致するように画像補正を行ってもよい。例えば、参照画像取得部310は、日本語参照画像510Jおよび英語参照画像510Eのサイズを統一してもよいし、あるいは日本語参照画像510Jおよび英語参照画像510Eに存在する歪みや傾きを補正してもよい。Based on this result, the reference image acquisition unit 310 associates the Japanese reference image 510Jn with the English reference image 510Em . For example, in FIG. 5, Japanese reference image 510J1 maps to English reference image 510E1 , Japanese reference image 510J2 maps to English reference image 510E3 , and Japanese reference image 510J3 maps to English reference image 510E4 . be done. The reference image acquisition unit 310 outputs the pair of the associated Japanese reference image 510J n and English reference image 510E m to the character area detection unit 330 and/or stores them in the storage unit 370 . Note that the reference image acquiring unit 310 may perform image correction on the Japanese reference image 510Jn and the English reference image 510Em to be stored or output, as necessary, so that their shapes match. For example, the reference image acquisition unit 310 may unify the sizes of the Japanese reference image 510Jn and the English reference image 510Em , or may adjust the distortion or tilt present in the Japanese reference image 510Jn and the English reference image 510Em . may be corrected.

図6、図7に示すように、文字領域検出部330は、日本語参照画像510Jに含まれる日本語文字領域520J、530Jと英語参照画像510Eに含まれ、日本語文字領域に対応する英語文字領域520E、530Eとを検出する。As shown in FIGS. 6 and 7, the character region detection unit 330 detects the Japanese character regions 520J and 530J included in the Japanese reference image 510Jn and the Japanese character regions included in the English reference image 510Em . English character areas 520E and 530E are detected.

日本語文字領域520J、530Jおよび英語文字領域520E、530Eの検出は、いかなる手法で行われてもよいが、例えば、物体検出器(object detector)により検出することができる。物体検出器としては、特に限定されるものではなく、例えば、R-CNN object detector、Fast R-CNN object detector、Faster R-CNN object detector、Mask R-CNN object detector等のR-CNN(Regions with Convolutional Neural Networks)系物体検出器、SSD(Single Shot MultiBox Detector)、YOLO(You Look Only Once)、M2Det等を用いることができる。 The Japanese character areas 520J and 530J and the English character areas 520E and 530E may be detected by any method, but can be detected by, for example, an object detector. The object detector is not particularly limited. For example, R-CNN (Regions with Convolutional Neural Networks) system object detector, SSD (Single Shot MultiBox Detector), YOLO (You Look Only Once), M2Det, etc. can be used.

また、日本語文字領域520J、530Jおよび英語文字領域520E、530Eのうち、一方の自然言語の文字領域のみ検出し、検出した文字領域の位置に基づき、他方の自然言語に存在する文字領域を特定してもよい。通常、漫画の文字情報は、翻訳後においても漫画の絵画中の同一位置に配置されるため、精度の良い文字領域の検出が可能である。さらに、物体検出処理に要する時間が節約される。例えば、図7において、日本語文字領域520J、530Jを物体検出処理により検出し、その後、英語参照画像510E中の日本語文字領域520J、530Jに対応する部位を英語文字領域520E、530Eとして特定することができる。In addition, only the character area of one of the Japanese character areas 520J and 530J and the English character areas 520E and 530E is detected, and based on the position of the detected character area, the character area existing in the other natural language is specified. You may Since the character information of a comic is normally arranged at the same position in the picture of the comic even after translation, it is possible to detect the character region with high accuracy. Furthermore, the time required for the object detection process is saved. For example, in FIG. 7, Japanese character areas 520J and 530J are detected by object detection processing, and then portions corresponding to the Japanese character areas 520J and 530J in the English reference image 510Em are identified as English character areas 520E and 530E. can do.

対訳情報抽出部350は、文字領域検出部330により検出された日本語文字領域520J、530Jおよび英語文字領域520E、530Eより、それぞれ日本語文字情報521J、531Jおよび英語文字情報521E、531Eを抽出する。具体的には、対訳情報抽出部350は、日本語文字領域520J、530Jおよび英語文字領域520E、530Eにおいて存在する文字列を特定し、文字列に存在する文字情報を抽出する。 The parallel translation information extraction unit 350 extracts Japanese character information 521J and 531J and English character information 521E and 531E from the Japanese character areas 520J and 530J and the English character areas 520E and 530E detected by the character area detection unit 330, respectively. . Specifically, parallel translation information extraction unit 350 identifies character strings that exist in Japanese character regions 520J and 530J and English character regions 520E and 530E, and extracts character information that exists in the character strings.

文字列の特定は、一例として、以下のようにして行うことができる。通常、漫画中の文字列は、黒字で記載され、周囲が白色である。したがって、縦書きの文字列を検出する場合、図8に示すように、対訳情報抽出部350は、まず、文字領域540について、ピクセルの列541に分割し、列541中に連結された黒のピクセル部位が存在するか否かを判断し、黒のピクセル部位が存在する列543および列群545を特定する。その後、対訳情報抽出部350は、文字列としては小さい列543を除去して、列群545を文字列545として特定する。その後、必要に応じて、対訳情報抽出部350は、文字列545について分割を行い、文字画像547、549を得る。 Character strings can be specified as follows, for example. Character strings in cartoons are usually written in black and surrounded by white. Therefore, when detecting a vertically written character string, as shown in FIG. Determine if pixel sites are present and identify columns 543 and column groups 545 where black pixel sites are present. After that, the parallel translation information extraction unit 350 removes the column 543 that is small as a character string, and identifies the column group 545 as the character string 545 . After that, the parallel translation information extraction unit 350 divides the character string 545 as necessary to obtain character images 547 and 549 .

同様に、横書きの文字列を検出する場合、図9に示すように、対訳情報抽出部350は、まず、文字領域550について、ピクセルの行551に分割し、行551中に連結された黒のピクセル部位が存在するか否かを判断し、黒のピクセル部位が存在する行および行群553を特定する。その後、対訳情報抽出部350は、文字列としては小さい行を除去して、行群553を文字列553として特定する。 Similarly, when detecting a horizontally written character string, as shown in FIG. Determine if pixel sites exist and identify rows and groups of rows 553 where black pixel sites exist. After that, the parallel translation information extraction unit 350 removes lines that are small as character strings, and identifies the line group 553 as the character strings 553 .

なお、本開示は、図8、図9に記載される態様に限定されるものではなく、対訳情報抽出部350は、文字列単位で物体検出を行うことにより、直接日本語文字領域520J、530Jおよび英語文字領域520E、530Eから文字列を検出してもよい。この場合、文字領域検出部330を省略することができる。この場合においても、物体検出器としては、特に限定されるものではなく、例えば、R-CNN object detector、Fast R-CNN object detector、Faster R-CNN object detector、Mask R-CNN object detector等のR-CNN(Regions with Convolutional Neural Networks)系物体検出器、SSD(Single Shot MultiBox Detector)、YOLO(You Look Only Once)、M2Det等を用いることができる。 It should be noted that the present disclosure is not limited to the embodiments illustrated in FIGS. 8 and 9, and the parallel translation information extraction unit 350 directly detects the Japanese character regions 520J and 530J by performing object detection in units of character strings. and English character regions 520E and 530E. In this case, the character area detection section 330 can be omitted. Even in this case, the object detector is not particularly limited. -CNN (Regions with Convolutional Neural Networks) system object detector, SSD (Single Shot MultiBox Detector), YOLO (You Look Only Once), M2Det, etc. can be used.

ついで、対訳情報抽出部350は、日本語文字領域520J、530Jおよび英語文字領域520E、530Eにおいて特定された文字列から、日本語文字情報521J、531Jおよび英語文字情報521E、531Eを抽出する。日本語文字情報521J、531Jおよび英語文字情報521E、531Eの抽出は、文字認識モデル生成装置200において生成した学習済み日本語文字認識モデルおよび学習済み英語文字認識モデルを用いて行うことができる。 Next, parallel translation information extraction unit 350 extracts Japanese character information 521J and 531J and English character information 521E and 531E from the character strings specified in Japanese character areas 520J and 530J and English character areas 520E and 530E. The Japanese character information 521J, 531J and the English character information 521E, 531E can be extracted using the trained Japanese character recognition model and the trained English character recognition model generated by the character recognition model generating device 200. FIG.

さらに、対訳情報抽出部350は、抽出された日本語文字情報521Jとこれに対応する英語文字情報521E、また日本語文字情報531Jとこれに対応する英語文字情報531Eを1対の文の対訳情報として特定し、後述する対訳データベース371に出力する。 Further, the parallel translation information extraction unit 350 converts the extracted Japanese character information 521J and the corresponding English character information 521E, and the Japanese character information 531J and the corresponding English character information 531E into a pair of sentence parallel translation information. , and output to the bilingual database 371, which will be described later.

記憶部370は、対訳情報抽出部350において行われる処理に必要な各種情報を記憶するとともに、対訳データベース371を格納する。対訳情報抽出部350において行われる処理に必要な各種情報としては、例えば、学習済み日本語文字認識モデルおよび学習済み英語文字認識モデル等が挙げられる。 The storage unit 370 stores various kinds of information necessary for processing performed in the parallel translation information extraction unit 350 and also stores a parallel translation database 371 . Various types of information necessary for the processing performed in the parallel translation information extraction unit 350 include, for example, a trained Japanese character recognition model and a trained English character recognition model.

また、対訳データベース371には、少なくとも対訳情報抽出部350において抽出された対訳情報を含む。対訳データベース371は、さらに、対訳情報抽出部350を用いずに得られた対訳情報を有してもよい。 Also, the parallel translation database 371 includes at least the parallel translation information extracted by the parallel translation information extraction unit 350 . The parallel translation database 371 may also have parallel translation information obtained without using the parallel translation information extraction unit 350 .

(2.3. 機械翻訳装置100)
図1に示すように、機械翻訳装置100は、機械翻訳学習部110と、漫画画像取得部120と、文字領域検出部130と、文字情報推定部140と、機械翻訳部150と、画像生成部160と、記憶部170とを有している。
(2.3. Machine translation device 100)
As shown in FIG. 1, the machine translation apparatus 100 includes a machine translation learning unit 110, a cartoon image acquisition unit 120, a character area detection unit 130, a character information estimation unit 140, a machine translation unit 150, and an image generation unit. 160 and a storage unit 170 .

機械翻訳学習部110は、対訳情報抽出部350において生成された対訳データベース371を用いて、機械翻訳モデルの学習を行う。本実施形態においては、機械翻訳モデルとして、ニューラル機械翻訳器を用いる。ニューラル機械翻訳器としては、特に限定されるものではないが、例えば、Attention-based Encoder-Decoder、Convolutional Sequence to Sequence、Transformer等を用いることができる。機械翻訳学習部110は、学習済みの機械翻訳モデルを、記憶部170へ出力する。 The machine translation learning unit 110 uses the parallel translation database 371 generated by the parallel translation information extraction unit 350 to learn a machine translation model. In this embodiment, a neural machine translator is used as the machine translation model. The neural machine translator is not particularly limited, but for example, Attention-based Encoder-Decoder, Convolutional Sequence to Sequence, Transformer, etc. can be used. Machine translation learning section 110 outputs the learned machine translation model to storage section 170 .

漫画画像取得部120は、図10に示すように、翻訳対象の漫画の各ページを漫画画像600Jとして取得する(nは自然数である)。漫画画像取得部120は、必要に応じて、漫画画像600Jに対して画像補正を行ってもよい。例えば、漫画画像取得部120は漫画画像600Jのサイズを各ページ間で統一してもよいし、あるいは漫画画像600Jに存在する歪みや傾きを補正してもよい。漫画画像600Jnの取得方法は、特に限定されず、電子データとして提供されるものを用いてもよいし、紙媒体の漫画をスキャンすることにより得てもよい。なお、ここで翻訳対象の漫画は、日本語にて作成されており、英語に翻訳されることが予定されているとする。As shown in FIG. 10, the comic image acquisition unit 120 acquires each page of the comic to be translated as a comic image 600Jn (n is a natural number). The comic image acquisition section 120 may perform image correction on the comic image 600Jn as necessary. For example, the comic image acquisition unit 120 may unify the sizes of the comic images 600Jn between pages, or may correct distortions and tilts present in the comic images 600Jn . The method of obtaining the comic image 600Jn is not particularly limited, and it may be provided as electronic data or may be obtained by scanning a paper medium comic. It is assumed here that the manga to be translated is created in Japanese and is scheduled to be translated into English.

文字領域検出部130は、漫画画像600Jより、文字領域610を検出する。文字領域610の検出は、文字領域検出部330と同様に、いかなる手法で行われてもよいが、例えば、物体検出器(object detector)により検出することができる。物体検出器としては、特に限定されるものではなく、例えば、R-CNN object detector、Fast R-CNN object detector、Faster R-CNN object detector、Mask R-CNN object detector等のR-CNN(Regions with Convolutional Neural Networks)系物体検出器、SSD(Single Shot MultiBox Detector)、YOLO(You Look Only Once)、M2Det等を用いることができる。なお、文字領域検出部130は、漫画画像600Jに存在する文字列を直接文字領域610として検出・特定してもよい。Character area detection section 130 detects character area 610 from comic image 600Jn . The character area 610 can be detected by any method, like the character area detection unit 330. For example, the character area 610 can be detected by an object detector. The object detector is not particularly limited. For example, R-CNN (Regions with Convolutional Neural Networks) system object detector, SSD (Single Shot MultiBox Detector), YOLO (You Look Only Once), M2Det, etc. can be used. Note that the character region detection unit 130 may directly detect and identify a character string existing in the comic image 600J n as the character region 610 .

文字情報推定部140は、検出された文字領域610より、日本語の文字情報620Jを推定する。具体的には、文字情報推定部140は、文字領域610において存在する文字列を特定し、文字列に存在する文字情報620Jを抽出する。文字列の特定は、対訳情報抽出部350における手法と同様の手法により行うことができる。なお、文字領域検出部130が直接文字列を文字領域610として検出している場合、文字情報推定部140による文字列の特定は省略できる。 Character information estimation unit 140 estimates Japanese character information 620J from detected character area 610 . Specifically, character information estimation unit 140 identifies a character string that exists in character region 610, and extracts character information 620J that exists in the character string. Character strings can be identified by the same technique as the technique used by the parallel translation information extraction unit 350 . Note that when the character region detection unit 130 directly detects the character string as the character region 610, the character string identification by the character information estimation unit 140 can be omitted.

ついで、文字情報推定部140は、文字領域610において特定された文字列から文字情報620Jを抽出する。文字情報620Jの抽出は、文字認識モデル生成装置200において生成した学習済み日本語文字認識モデルを用いて行うことができる。 Next, character information estimation unit 140 extracts character information 620J from the character string identified in character area 610 . The character information 620J can be extracted using the learned Japanese character recognition model generated by the character recognition model generation device 200. FIG.

機械翻訳部150は、文字情報推定部140において推定された日本語の文字情報620Jを、機械翻訳により英語の文字情報620Eに翻訳する。機械翻訳部150における機械翻訳は、機械翻訳学習部110において学習した機械翻訳モデルにより行われる。この機械翻訳モデルは、対訳データベース371の対訳情報を利用して学習されたものであり、精度のよい翻訳が可能である。 The machine translation unit 150 translates the Japanese character information 620J estimated by the character information estimation unit 140 into English character information 620E by machine translation. Machine translation in the machine translation unit 150 is performed by a machine translation model learned in the machine translation learning unit 110 . This machine translation model is learned using the parallel translation information of the parallel translation database 371, and is capable of accurate translation.

画像生成部160は、機械翻訳部150により翻訳された英語の文字情報620Eを、日本語で作成された漫画画像600Jに画像として付与し、英語の漫画画像600Eを生成する。具体的には、図11に示すように、画像生成部160は、漫画画像600J中の文字領域610を白色の領域とし、その後、文字情報620Eを画像として付与する。なお、文字情報620が付与される領域は、文字情報620Jが存在していた領域に対応していればよく、文字情報620Jが存在していた領域と一致しなくてもよい。The image generation unit 160 adds the English character information 620E translated by the machine translation unit 150 to the comic image 600Jn created in Japanese as an image to generate an English comic image 600En . Specifically, as shown in FIG. 11, the image generation unit 160 makes the character area 610 in the comic image 600Jn a white area, and then adds the character information 620E as an image. Note that the area to which the character information 620 is added may correspond to the area where the character information 620J exists, and does not have to match the area where the character information 620J exists.

記憶部170は、各部に対する入出力が可能であり、各部の処理に必要な情報を保存する。例えば、記憶部170は、漫画画像取得部120において処理されるための漫画画像600Jや、文字情報推定部140において使用される学習済み文字認識モデル、機械翻訳学習部110において生成したニューラル機械翻訳モデル等を記憶する。The storage unit 170 can input/output to/from each unit, and stores information necessary for processing of each unit. For example, the storage unit 170 stores a comic image 600J n to be processed by the comic image acquiring unit 120, a learned character recognition model used in the character information estimating unit 140, a neural machine translation generated in the machine translation learning unit 110. Store the model, etc.

<3.漫画の機械翻訳方法、文字認識モデル生成方法および対訳データベース生成方法>
次に、上述した機械翻訳装置100、文字認識モデル生成装置200および対訳データベース生成装置300の動作について、漫画の機械翻訳方法、文字認識モデル生成方法および対訳データベース生成方法とともに説明する。なお、上記の装置構成の説明と同様、文字認識モデル生成方法および対訳データベース生成方法を説明した後、漫画の機械翻訳方法について説明する。
<3. Manga Machine Translation Method, Character Recognition Model Generating Method, and Bilingual Database Generating Method>
Next, the operations of the machine translation apparatus 100, the character recognition model generation apparatus 200, and the bilingual database generation apparatus 300 described above will be described together with the cartoon machine translation method, character recognition model generation method, and bilingual database generation method. As in the explanation of the apparatus configuration above, after explaining the character recognition model generation method and the bilingual database generation method, the machine translation method for comics will be explained.

(3.1 文字認識モデル生成方法)
本実施形態に係る文字認識モデル生成方法は、プロセッサにより、自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、学習済み文字認識モデルを生成すること、を実行することを含む。
図12は、本実施形態に係る文字認識モデル生成方法についてのフローチャートである。
(3.1 Character recognition model generation method)
In the character recognition model generation method according to the present embodiment, a processor performs machine learning using teacher data including one or more font images of a natural language and an image obtained by adding deformation, tilt, and/or noise to the font image. generating a trained character recognition model by doing.
FIG. 12 is a flow chart of the character recognition model generation method according to this embodiment.

本実施形態では、まず、教師データ生成部210により教師データが作成される。具体的には、教師データ生成部210は、記憶部250より、複数種のフォントについての文字画像411を含むフォント画像群410を取得する(S101)。
次に、教師データ生成部210は、フォント画像群410中の文字画像411に変形、傾きおよび/またはノイズを付与した加工文字画像421を含む加工文字画像群420を生成する(S103)。
In this embodiment, first, teacher data is created by the teacher data generator 210 . Specifically, the training data generation unit 210 acquires a font image group 410 including character images 411 for multiple types of fonts from the storage unit 250 (S101).
Next, the teacher data generation unit 210 generates a processed character image group 420 including processed character images 421 obtained by adding deformation, tilt and/or noise to the character images 411 in the font image group 410 (S103).

次に、教師データ生成部210は、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411とを組み合わせて、学習用文字画像431を複数含む学習用文字画像群430を生成する(S105)。 Next, the teacher data generation unit 210 combines the processed character images 421 in the processed font image group 420 and the character images 411 in the font image group 410 to create a learning character image group including a plurality of learning character images 431. 430 is generated (S105).

最後に、機械学習部230により、教師データ生成部210において生成した教師データを用いて機械学習を行い、学習済み文字認識モデルを生成する(S107)。 Finally, the machine learning unit 230 performs machine learning using the training data generated by the training data generation unit 210 to generate a learned character recognition model (S107).

以上のようにして得られる学習済み文字認識モデルを用いた場合、多種多様なフォントや、その変形画像に対応して、漫画画像中の文字を認識することができる。すなわち、一般に、漫画は、一般の文書とは異なり、絵とともに文が記載されており、視覚的な要素が大きいことから、同一のページ中であっても、多種多様なフォントが用いられる。また、漫画中の会話のやり取りや状況を、臨場感を持って説明するために、多種多様なフォントがさらに変形されることもある。本発明者らが検討したところ、このような漫画中に記載される文は、一般的な光学式文字認識手段(OCR:Optical Character Recognition)では正確に認識することが困難である。これに対し、上記で得られる学習済み文字認識モデルを用いた場合、精度よく漫画中も文字情報を認識することができる。 When the trained character recognition model obtained as described above is used, it is possible to recognize characters in cartoon images corresponding to a wide variety of fonts and their modified images. In general, comics differ from ordinary documents in that texts are written together with pictures, and since comics have large visual elements, a wide variety of fonts are used even on the same page. In addition, a wide variety of fonts may be further modified in order to realistically describe the conversations and situations in the manga. As a result of studies by the present inventors, it is difficult to accurately recognize sentences written in such cartoons by general optical character recognition means (OCR: Optical Character Recognition). On the other hand, when the learned character recognition model obtained above is used, character information can be accurately recognized even in comics.

(3.2 対訳データベース生成方法)
本実施形態に係る対訳データベース生成方法は、プロセッサにより、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出することと、
前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することと、を実行することを含む。
図13は、本実施形態に係る漫画の対訳データベース生成方法を説明するフローチャートである。以下、第1自然言語が日本語であり、第2自然言語が英語である場合について説明する。
(3.2 Bilingual database generation method)
In the bilingual database generation method according to the present embodiment, the first natural language character region included in the first natural language reference image of the reference cartoon and the second natural language reference image of the reference cartoon are included in the first natural language character region by the processor. detecting a second natural language character region corresponding to the language character region;
and extracting first natural language character information present in the first natural language character region and second natural language character information present in the second natural language character region.
FIG. 13 is a flow chart for explaining a method for generating a parallel translation database of comics according to this embodiment. A case where the first natural language is Japanese and the second natural language is English will be described below.

まず、各工程に先立ち、参照画像取得部310は、まず、日本語参照漫画500Jおよび英語参照漫画500Eの各ページの画像を、それぞれ日本語参照画像510J、英語参照画像510Eとして取り込む(ここでn、mは自然数である)(S201)。
次に、参照画像取得部310は、取り込まれた日本語参照漫画500Jの取り込まれた日本語参照画像510Jを英語参照漫画500Eの英語参照画像510Eと対応付ける(S203)。
First, prior to each step, the reference image acquisition unit 310 first captures images of each page of the Japanese reference cartoon 500J and the English reference cartoon 500E as a Japanese reference image 510Jn and an English reference image 510Em , respectively. where n and m are natural numbers) (S201).
Next, the reference image acquisition unit 310 associates the captured Japanese reference image 510Jn of the captured Japanese reference comic 500J with the English reference image 510Em of the English reference comic 500E (S203).

次いで、文字領域検出部330により、日本語参照画像510Jに含まれる日本語文字領域520J、530Jと英語参照画像510Eに含まれ、日本語文字領域に対応する英語文字領域520E、530Eとを検出する(S205)。なお、ここで文字領域検出部330は、日本語参照画像510J、英語参照画像510Eに含まれる文字列を直接日本語文字領域520J、530J、英語文字領域520E、530Eとして検出してもよい。Next, the character area detection unit 330 detects Japanese character areas 520J and 530J included in the Japanese reference image 510Jn and English character areas 520E and 530E included in the English reference image 510Em and corresponding to the Japanese character areas. Detect (S205). Here, the character region detection unit 330 may directly detect the character strings included in the Japanese reference image 510Jn and the English reference image 510Em as the Japanese character regions 520J and 530J and the English character regions 520E and 530E. .

次いで、対訳情報抽出部350により、文字領域検出部330により検出された日本語文字領域520J、530Jおよび英語文字領域520E、530Eより、それぞれ日本語文字情報521J、531Jおよび英語文字情報521E、531Eを抽出する(S207)。具体的には、対訳情報抽出部350により、日本語文字領域520J、530Jおよび英語文字領域520E、530Eにおいて存在する文字列を特定し、文字列に存在する文字情報を抽出する。文字領域検出部330が直接文字列を日本語文字領域520J、530J、英語文字領域520E、530Eとして特定した場合には、対訳情報抽出部350による文字列の特定は省略されることができる。日本語文字情報521J、531Jおよび英語文字情報521E、531Eの抽出は、文字認識モデル生成方法において生成した学習済み日本語文字認識モデルおよび学習済み英語文字認識モデルを用いて行うことができる。 Next, from the Japanese character areas 520J and 530J and the English character areas 520E and 530E detected by the character area detection section 330, the parallel translation information extraction section 350 extracts the Japanese character information 521J and 531J and the English character information 521E and 531E, respectively. Extract (S207). Specifically, parallel translation information extraction unit 350 identifies character strings existing in Japanese character areas 520J and 530J and English character areas 520E and 530E, and extracts character information existing in the character strings. When the character region detection unit 330 directly identifies the character strings as the Japanese character regions 520J and 530J and the English character regions 520E and 530E, the character string identification by the parallel translation information extraction unit 350 can be omitted. The Japanese character information 521J, 531J and the English character information 521E, 531E can be extracted using the trained Japanese character recognition model and the trained English character recognition model generated in the character recognition model generating method.

最後に、対訳情報抽出部350により、抽出された日本語文字情報521Jとこれに対応する英語文字情報521E、また日本語文字情報531Jとこれに対応する英語文字情報531Eを1対の文の対訳情報として特定し(S209)、後述する対訳データベース371に出力する。以上を行うことにより、対訳データベース371を生成することができる。 Finally, the bilingual information extraction unit 350 translates the extracted Japanese character information 521J and the corresponding English character information 521E, and the Japanese character information 531J and the corresponding English character information 531E into a pair of sentences. It is specified as information (S209) and output to the bilingual database 371, which will be described later. By performing the above, the bilingual database 371 can be generated.

以上によれば、漫画の対訳データベースを精度よくかつ迅速に自動生成することができる。特に、上記の対訳データベース生成方法は、漫画の対訳のテキストデータを必要とせず、対訳が存在する漫画が存在すればよいことから、多種多様な漫画から対訳を収集することができ、膨大なデータ量の対訳データベースを安価に生成することが容易である。また特に、文字認識モデル生成方法において生成した学習済み文字認識モデルを用いた場合、漫画特有の多種多様なフォントおよびこれの変形物にも対応して精度よく文字情報を認識することが可能となる。この結果、精度の良い対訳データベースを自動生成することが可能となる。 According to the above, it is possible to automatically generate a parallel translation database of comics accurately and quickly. In particular, the above-described bilingual database generation method does not require text data of the bilingual comics, and only requires the existence of comics with bilingual translations. It is easy to generate a large number of bilingual databases at low cost. In particular, when the trained character recognition model generated by the character recognition model generating method is used, it is possible to recognize character information with high accuracy in response to a wide variety of fonts peculiar to comics and variations thereof. . As a result, it is possible to automatically generate a highly accurate bilingual database.

(3.3 漫画の機械翻訳方法)
本実施形態に係る漫画の機械翻訳方法は、プロセッサにより、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出することと、
前記文字領域より、前記第1自然言語の文字情報を推定することと、および
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳することと、を実行することを含む。
図14は、本実施形態に係る漫画の機械翻訳方法を説明するフローチャートである。以下、第1自然言語が日本語であり、第2自然言語が英語である場合について説明する。
(3.3 Machine translation method for manga)
The machine translation method for comics according to the present embodiment is performed by a processor,
Detecting a character region from a first natural language image that constitutes a cartoon created using a first natural language;
estimating character information in the first natural language from the character area; and translating the character information in the first natural language into character information in a second natural language by machine translation using a bilingual database. , including executing
FIG. 14 is a flow chart for explaining the machine translation method for comics according to the present embodiment. A case where the first natural language is Japanese and the second natural language is English will be described below.

まず、漫画画像取得部120により、翻訳対象の漫画の各ページを日本語の漫画画像600Jとして取得する(nは自然数である)(S301)。次いで、文字領域検出部130により、漫画画像600Jから文字領域610を検出する(S303)。First, the comic image acquiring unit 120 acquires each page of the comic to be translated as a Japanese comic image 600Jn (n is a natural number) (S301). Next, the character area detection unit 130 detects the character area 610 from the comic image 600Jn (S303).

次いで、文字情報推定部140により、検出された文字領域610から日本語の文字情報620Jを推定する(S305)。文字情報620Jの抽出は、文字認識モデル生成装置200において生成した学習済み日本語文字認識モデルを用いて行うことができる。 Next, the character information estimation unit 140 estimates Japanese character information 620J from the detected character area 610 (S305). The character information 620J can be extracted using the learned Japanese character recognition model generated by the character recognition model generation device 200. FIG.

次いで、機械翻訳部150により、文字情報推定部140において推定された日本語の文字情報620Jを、機械翻訳により英語の文字情報620Eに翻訳する(S307)。機械翻訳は、機械翻訳学習部110において学習した機械翻訳モデルにより行われる。 Next, the machine translation unit 150 translates the Japanese character information 620J estimated by the character information estimation unit 140 into English character information 620E by machine translation (S307). Machine translation is performed by a machine translation model learned by the machine translation learning unit 110 .

最後に、画像生成部160により、機械翻訳部150により翻訳された英語の文字情報620Eを、日本語で作成された漫画画像600Jに画像として付与し、英語の漫画画像600Eを生成する(S307)。Finally, the image generation unit 160 adds the English character information 620E translated by the machine translation unit 150 to the comic image 600J n created in Japanese as an image to generate the English comic image 600E n ( S307).

以上によれば、上述した漫画の対訳データベースを用いて機械翻訳を行うことにより、精度よくかつ迅速に漫画の機械翻訳を行うことが可能である。また特に、文字認識モデル生成方法において生成した学習済み文字認識モデルを用いた場合、漫画特有の多種多様なフォントおよびこれの変形物にも対応して精度よく文字情報を認識することが可能となる。この結果、機械翻訳の精度がより一層向上する。 According to the above, by performing machine translation using the bilingual database of comics described above, it is possible to perform machine translation of comics accurately and quickly. In particular, when the trained character recognition model generated by the character recognition model generating method is used, it is possible to recognize character information with high accuracy in response to a wide variety of fonts peculiar to comics and variations thereof. . As a result, the accuracy of machine translation is further improved.

<4.ハードウェア構成例>
最後に、図15を参照して、本実施形態に係る漫画の機械翻訳装置100のハードウェア構成について説明する。図15は、本実施形態に係る漫画の機械翻訳装置のハードウェア構成の一例を示すブロック図である。なお、図15に示す情報処理装置(コンピュータ)900は、例えば、図1に示した機械翻訳装置100を実現し得る。本実施形態に係る機械翻訳装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。なお、漫画の対訳データベース生成装置300および文字認識モデル生成装置200についても同様である。
<4. Hardware configuration example>
Finally, with reference to FIG. 15, the hardware configuration of the machine translation device 100 for comics according to the present embodiment will be described. FIG. 15 is a block diagram showing an example of the hardware configuration of the machine translation device for comics according to this embodiment. Note that the information processing apparatus (computer) 900 shown in FIG. 15 can implement the machine translation apparatus 100 shown in FIG. 1, for example. Information processing by the machine translation apparatus 100 according to this embodiment is realized by cooperation between software and hardware described below. The same applies to the bilingual comic database generation device 300 and the character recognition model generation device 200 .

図15に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP(Digital Signal Processor)若しくはASIC(Application Specific Integrated Circuit)等の処理回路を有してもよい。 As shown in FIG. 15, an information processing apparatus 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a. The information processing device 900 also includes a bridge 904 , an external bus 904 b , an interface 905 , an input device 906 , an output device 907 , a storage device 908 , a drive 909 , a connection port 911 and a communication device 913 . The information processing apparatus 900 may have a processing circuit such as an electric circuit, a DSP (Digital Signal Processor), or an ASIC (Application Specific Integrated Circuit) instead of or together with the CPU 901 .

CPU901は、プロセッサの一例であり、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。 The CPU 901 is an example of a processor, functions as an arithmetic processing device and a control device, and controls general operations within the information processing device 900 according to various programs. Alternatively, the CPU 901 may be a microprocessor. The ROM 902 stores programs, calculation parameters, and the like used by the CPU 901 . The RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.

CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。 The CPU 901, ROM 902 and RAM 903 are interconnected by a host bus 904a including a CPU bus. The host bus 904a is connected via a bridge 904 to an external bus 904b such as a PCI (Peripheral Component Interconnect/Interface) bus. Note that the host bus 904a, the bridge 904 and the external bus 904b do not necessarily have to be configured separately, and these functions may be implemented in one bus.

入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA(Personal Digital Assistant)等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。 The input device 906 is realized by a device such as a mouse, keyboard, touch panel, button, microphone, switch, lever, etc., through which information is input by the user. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or an external connection device such as a mobile phone or PDA (Personal Digital Assistant) compatible with the operation of the information processing device 900. may be Furthermore, the input device 906 may include, for example, an input control circuit that generates an input signal based on information input by the user using the above input means and outputs the signal to the CPU 901 . A user of the information processing apparatus 900 can input various data to the information processing apparatus 900 and instruct processing operations by operating the input device 906 .

出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、EL(Electroluminescence display)ディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、出力装置907は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置を用いる場合は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。 The output device 907 is formed by a device capable of visually or audibly notifying the user of the acquired information. Examples of such devices include CRT (Cathode Ray Tube) display devices, liquid crystal display devices, plasma display devices, EL (Electroluminescence display) display devices, laser projectors, LED projectors, lamps and other display devices, and speakers and headphones for sound. There is an output device, etc. The output device 907 outputs, for example, results obtained by various processes performed by the information processing device 900 . Specifically, the output device 907 visually displays the results obtained by various processes performed by the information processing device 900 in various formats such as text, image, table, and graph. On the other hand, when an audio output device is used, an audio signal composed of reproduced audio data, acoustic data, etc. is converted into an analog signal and audibly output.

ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図1に示す記憶部170の機能を実行し得る。 The storage device 908 is a data storage device formed as an example of the storage unit of the information processing device 900 . The storage device 908 is implemented by, for example, a magnetic storage device such as a HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like. The storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like. The storage device 908 stores programs executed by the CPU 901, various data, and various data acquired from the outside. Storage device 908 may perform the functions of storage unit 170 shown in FIG. 1, for example.

ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。 The drive 909 is a reader/writer for storage media, and is built in or externally attached to the information processing apparatus 900 . The drive 909 reads out information recorded on a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903 . Drive 909 can also write information to a removable storage medium.

接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。 The connection port 911 is an interface connected to an external device, and is a connection port with an external device capable of data transmission by, for example, USB (Universal Serial Bus).

通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。 The communication device 913 is, for example, a communication interface formed by a communication device or the like for connecting to the network 920 . The communication device 913 is, for example, a communication card for wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), or WUSB (Wireless USB). Further, the communication device 913 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various types of communication, or the like. This communication device 913 can transmit and receive signals and the like to and from the Internet and other communication devices, for example, according to a predetermined protocol such as TCP/IP.

なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。 Note that the network 920 is a wired or wireless transmission path for information transmitted from devices connected to the network 920 . For example, the network 920 may include a public network such as the Internet, a telephone network, a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), WANs (Wide Area Networks), and the like. Network 920 may also include a dedicated line network such as IP-VPN (Internet Protocol-Virtual Private Network).

<5.プログラムおよび記録媒体>
以上、本実施形態に係る機械翻訳装置100、漫画の対訳データベース生成装置300および文字認識モデル生成装置200およびこれを用いた各種方法について説明した。
したがって、本発明は、他の局面において、コンピュータをこれらの装置として機能させるためのプログラムにも関する。また、該プログラムを記憶させた記録媒体も提供される。
<5. Program and recording medium>
The machine translation device 100, the bilingual comic database generation device 300, the character recognition model generation device 200, and various methods using them according to the present embodiment have been described above.
Therefore, the present invention, in another aspect, also relates to a program for causing a computer to function as these devices. A recording medium storing the program is also provided.

<6.まとめ>
以上、図1~15を参照して、本発明の一実施形態について説明した。以上説明したように、本発明によれば、精度の高い漫画の機械翻訳が可能な漫画の機械翻訳装置、漫画の機械翻訳方法およびプログラムならびにこれらのための漫画の対訳データベース生成装置を提供することができる。特に、上述した漫画の対訳データベースを用いた場合、漫画の機械翻訳の精度が向上する。さらには、上述した学習済み文字認識モデルを用いることにより、従来困難であった漫画の画像より文字情報を精度よく認識することが可能となる。
<6. Summary>
An embodiment of the present invention has been described above with reference to FIGS. As described above, according to the present invention, it is possible to provide a machine translation device for comics, a machine translation method and program for comics, and a parallel translation database generation device for comics, which are capable of machine-translating comics with high accuracy. can be done. In particular, when the bilingual database of comics described above is used, the accuracy of machine translation of comics is improved. Furthermore, by using the above-described trained character recognition model, it becomes possible to accurately recognize character information from cartoon images, which has been difficult in the past.

なお、本発明は、上記の実施形態に限定されるものではない。例えば、上述した実施形態においては、機械翻訳は、ニューラル機械翻訳であるとして説明したが、これに限定されない。機械翻訳としては、上述した漫画の対訳データベースを用いる限り、あらゆる統計的機械翻訳およびニューラル機械翻訳を用いることができる。 In addition, this invention is not limited to said embodiment. For example, in the above-described embodiments, machine translation was explained as neural machine translation, but it is not limited to this. Any statistical machine translation or neural machine translation can be used as the machine translation as long as the bilingual database of comics described above is used.

また、例えば、上述した実施形態に係る漫画の機械翻訳装置、および漫画の対訳データベース生成装置は、上述した学習済み文字認識モデルを用いることとしたが、これに限定されず、本発明に係る漫画の機械翻訳装置、および漫画の対訳データベース生成装置は、上記学習済み文字認識モデルを用いていなくてもよい。 Further, for example, although the machine translation device for comics and the bilingual database generation device for comics according to the above-described embodiments use the above-described learned character recognition model, the invention is not limited to this. The machine translation device and the parallel translation database generation device for comics need not use the learned character recognition model.

また、例えば、上述した実施形態においては、学習用文字画像群430は、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411とを組み合わせて得られるものとして説明したが、本開示はこれに限定されない。例えば、学習用文字画像群は、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411を含まなくてもよい。この場合、学習用文字画像群は、漫画に記載される文字画像、その他公知の文字認識データセットの文字画像等のその他の文字画像を含むことができる。 Further, for example, in the above-described embodiment, the learning character image group 430 is obtained by combining the processed character image 421 in the processed font image group 420 and the character image 411 in the font image group 410. However, the present disclosure is not so limited. For example, the learning character image group may not include the processed character image 421 in the processed font image group 420 and the character image 411 in the font image group 410 . In this case, the learning character image group can include other character images such as character images described in cartoons and other known character recognition data sets.

また、例えば、対訳データベースの生成における第1自然言語文字領域および第2自然言語文字領域の検出は、上述した物体検出器に限定されるものではなく、例えば、第1自然言語参照画像および第2自然言語参照画像の対応するページを重ね合わせ、異なる部分を第1自然言語文字領域および第2自然言語文字領域として検出してもよい。 Also, for example, the detection of the first natural language character region and the second natural language character region in the generation of the bilingual database is not limited to the object detector described above, for example, the first natural language reference image and the second Corresponding pages of the natural language reference images may be overlaid and different portions detected as first and second natural language text regions.

また、上述した説明では、第1自然言語が日本語であり、第2自然言語が英語であるものとして説明したが、本発明は、上述した実施形態に限定されるものではなく、第1自然言語および第2自然言語は、文字を用いて記載される任意の自然言語であることができる。 In the above description, the first natural language is Japanese and the second natural language is English. The language and second natural language can be any natural language written using characters.

また、上述した説明では、漫画の機械翻訳装置100、漫画の対訳データベース生成装置300および文字認識モデル生成装置200がそれぞれ1つの情報処理装置によって構成されるものとして説明したが、本発明はこれに限定されない。例えば、漫画の機械翻訳装置、漫画の対訳データベース生成装置および文字認識モデル生成装置は、それぞれ複数の情報処理装置により構成されていてもよい。また、漫画の機械翻訳装置、漫画の対訳データベース生成装置および文字認識モデル生成装置のうち2以上が、一つの情報処理装置において実現されていてもよい。 In the above description, the machine translation device 100 for comics, the parallel translation database generation device 300 for comics, and the character recognition model generation device 200 are each configured by one information processing device. Not limited. For example, the machine translation device for comics, the parallel translation database generation device for comics, and the character recognition model generation device may each be composed of a plurality of information processing devices. Further, two or more of the machine translation device for comics, the parallel translation database generation device for comics, and the character recognition model generation device may be implemented in one information processing device.

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 Although the preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention belongs can conceive of various modifications or modifications within the scope of the technical idea described in the claims. It is understood that these also naturally belong to the technical scope of the present invention.

100 機械翻訳装置
110 機械翻訳学習部
120 漫画画像取得部
130 文字領域検出部
140 文字情報推定部
150 機械翻訳部
160 画像生成部
170 記憶部
200 文字認識モデル生成装置
210 教師データ生成部
230 機械学習部
250 記憶部
300 対訳データベース生成装置
310 参照画像取得部
330 文字領域検出部
350 対訳情報抽出部
370 記憶部
371 対訳データベース
400 ネットワーク

100 machine translation device 110 machine translation learning unit 120 comic image acquisition unit 130 character area detection unit 140 character information estimation unit 150 machine translation unit 160 image generation unit 170 storage unit 200 character recognition model generation device 210 teacher data generation unit 230 machine learning unit 250 Storage unit 300 Translation database generation device 310 Reference image acquisition unit 330 Character region detection unit 350 Translation information extraction unit 370 Storage unit 371 Translation database 400 Network

Claims (9)

第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いたニューラル機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した文の対訳情報を含み、
前記文字情報推定部は、学習済み文字認識モデルを用いて前記文字領域より、前記文字情報を推定し、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の機械翻訳装置。
a character area detection unit that detects a character area from a first natural language image that constitutes a cartoon created using a first natural language;
a character information estimation unit for estimating character information of the first natural language from the character area;
a machine translation unit that translates the character information in the first natural language into character information in the second natural language by neural machine translation using a bilingual database;
The bilingual database includes a first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character region included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region. A sentence automatically generated by detecting a language character region and extracting first natural language character information existing in the first natural language character region and second natural language character information existing in the second natural language character region including bilingual information,
The character information estimation unit estimates the character information from the character region using a learned character recognition model,
The trained character recognition model uses teacher data including a plurality of font images of the first natural language for a plurality of types of fonts, and images obtained by adding deformation, tilt, and/or noise to the font images. A cartoon machine translation device generated by machine learning using an image recognition module.
前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、請求項1に記載の漫画の機械翻訳装置。
Extraction of the first natural language character information from the first natural language character region is performed by estimating the first natural language character information using a trained character recognition model,
The trained character recognition model is a machine using teacher data including a plurality of font images of the first natural language for a plurality of types of fonts and an image obtained by adding deformation, tilt and / or noise to the font image. 2. The cartoon machine translation device according to claim 1, which is generated by learning.
前記第2自然言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、複数種のフォントについての前記第2自然言語の複数の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、請求項1または2に記載の漫画の機械翻訳装置。
Extraction of the second natural language character information from the second natural language character region is performed by estimating the second natural language character information using a trained second natural language character recognition model,
The trained second natural language character recognition model includes a plurality of second natural language font images of the second natural language for a plurality of types of fonts, and deformation, tilt, and/or noise on the second natural language font images. 3. The machine translation apparatus for comics according to claim 1, which is generated by machine learning with a Resnet image recognition module using teacher data including attached images.
前記第1自然言語が日本語である、請求項1~3のいずれか一項に記載の漫画の機械翻訳装置。 4. The machine translation device for comics according to claim 1, wherein said first natural language is Japanese. さらに、前記機械翻訳部により翻訳された前記第2自然言語の文字情報を、前記第1自然言語画像に画像として付与し、第2自然言語画像を生成する、画像生成部を備える、請求項1~4のいずれか一項に記載の漫画の機械翻訳装置。 2. Further comprising an image generation unit that generates a second natural language image by adding the character information in the second natural language translated by the machine translation unit as an image to the first natural language image. 5. The machine translation device for comics according to any one of -4. 参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出する文字領域検出部と、
前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出する対訳情報抽出部と、
前記第1自然言語文字情報の少なくとも一部と、前記第2自然言語文字情報の少なくとも一部とを、文の対訳情報として格納する記憶部とを有し、
前記第1自然言語文字領域から第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の対訳データベース生成装置。
A first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character region included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region a character area detection unit to detect;
a parallel translation information extraction unit for extracting first natural language character information existing in the first natural language character area and second natural language character information existing in the second natural language character area;
a storage unit that stores at least part of the first natural language character information and at least part of the second natural language character information as parallel translation information of a sentence;
Extraction of the first natural language character information from the first natural language character region is performed by estimating the first natural language character information using a trained character recognition model,
The trained character recognition model is a Resnet image using teacher data including a plurality of font images of a first natural language for a plurality of types of fonts, and images obtained by adding deformation, tilt and/or noise to the font images. A manga bilingual database generation device that is generated by machine learning using a recognition module.
前記第2自然言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、複数種のフォントについての第2自然言語の複数の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、請求項6に記載の漫画の対訳データベース生成装置。
Extraction of the second natural language character information from the second natural language character region is performed by estimating the second natural language character information using a trained second natural language character recognition model,
The trained second natural language character recognition model provides a plurality of second natural language font images of a second natural language for a plurality of types of fonts, and deformation, tilt, and/or noise to the second natural language font images. 7. The comic bilingual database generation apparatus according to claim 6, wherein the database is generated by machine learning with a Resnet image recognition module using training data including the images.
プロセッサにより、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出することと、
前記文字領域より、前記第1自然言語の文字情報を推定することと、および
前記第1自然言語の文字情報を、対訳データベースを用いたニューラル機械翻訳により第2自然言語の文字情報に翻訳することと、を実行し、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した文の対訳情報を含み、
前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の機械翻訳方法。
by the processor
Detecting a character region from a first natural language image that constitutes a cartoon created using a first natural language;
estimating character information in the first natural language from the character area; and translating the character information in the first natural language into character information in a second natural language by neural machine translation using a bilingual database. and run
The bilingual database includes a first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character region included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region. A sentence automatically generated by detecting a language character region and extracting first natural language character information existing in the first natural language character region and second natural language character information existing in the second natural language character region including bilingual information,
Extraction of the first natural language character information from the first natural language character region is performed by estimating the first natural language character information using a trained character recognition model,
The trained character recognition model uses teacher data including a plurality of font images of the first natural language for a plurality of types of fonts, and images obtained by adding deformation, tilt, and/or noise to the font images. A cartoon machine translation method generated by machine learning using an image recognition module.
コンピュータを、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いたニューラル機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した文の対訳情報を含み、
前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の機械翻訳装置として機能させるためのプログラム。
the computer,
a character area detection unit that detects a character area from a first natural language image that constitutes a cartoon created using a first natural language;
a character information estimation unit for estimating character information of the first natural language from the character area;
a machine translation unit that translates the character information in the first natural language into character information in the second natural language by neural machine translation using a bilingual database;
The bilingual database includes a first natural language character region included in the first natural language reference image of the reference cartoon and a second natural language character region included in the second natural language reference image of the reference cartoon and corresponding to the first natural language character region. A sentence automatically generated by detecting a language character region and extracting first natural language character information existing in the first natural language character region and second natural language character information existing in the second natural language character region including bilingual information,
Extraction of the first natural language character information from the first natural language character region is performed by estimating the first natural language character information using a trained character recognition model,
The trained character recognition model uses teacher data including a plurality of font images of the first natural language for a plurality of types of fonts, and images obtained by adding deformation, tilt, and/or noise to the font images. A program for functioning as a machine translation device for comics, generated by machine learning using an image recognition module.
JP2021541830A 2019-08-27 2019-08-27 Comic machine translation device, comic parallel database generation device, comic machine translation method and program Active JP7333526B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/033444 WO2021038708A1 (en) 2019-08-27 2019-08-27 Cartoon machine translation device, cartoon parallel translation database generation device, cartoon machine translation method, and program

Publications (2)

Publication Number Publication Date
JPWO2021038708A1 JPWO2021038708A1 (en) 2021-03-04
JP7333526B2 true JP7333526B2 (en) 2023-08-25

Family

ID=74685338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541830A Active JP7333526B2 (en) 2019-08-27 2019-08-27 Comic machine translation device, comic parallel database generation device, comic machine translation method and program

Country Status (2)

Country Link
JP (1) JP7333526B2 (en)
WO (1) WO2021038708A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742076A (en) * 2022-04-11 2022-07-12 网易有道信息技术(北京)有限公司 Method for generating training data, training method, device and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022269A (en) 2001-07-09 2003-01-24 Kyodo Printing Co Ltd Cartoon translation device and its system and cartoon translation method
JP2018529133A (en) 2015-09-23 2018-10-04 グーグル エルエルシー Automatic translation of digital graphic novels
JP2019139629A (en) 2018-02-14 2019-08-22 株式会社Nttドコモ Machine translation device, translation learned model and determination learned model

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07271916A (en) * 1994-03-31 1995-10-20 Suzuki Motor Corp Learning pattern generating device and character recognizing device using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022269A (en) 2001-07-09 2003-01-24 Kyodo Printing Co Ltd Cartoon translation device and its system and cartoon translation method
JP2018529133A (en) 2015-09-23 2018-10-04 グーグル エルエルシー Automatic translation of digital graphic novels
JP2019139629A (en) 2018-02-14 2019-08-22 株式会社Nttドコモ Machine translation device, translation learned model and determination learned model

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
出羽達也,対訳文書から自動抽出した用語対訳による機械翻訳の訳語精度向上,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2001年07月16日,Vol.101 No.189,1-7頁
村上聡一朗 他4名 SOUICHIROU MURAKAMI,機械翻訳における利用ドメインの自動推定,NTT DOCOMOテクニカル・ジャーナル[online],一般社団法人 電気通信協会,2019年07月,Vol.27 No.2,13-18頁

Also Published As

Publication number Publication date
WO2021038708A1 (en) 2021-03-04
JPWO2021038708A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
CN111968649B (en) Subtitle correction method, subtitle display method, device, equipment and medium
AU2020279921B2 (en) Representative document hierarchy generation
US7031911B2 (en) System and method for automatic detection of collocation mistakes in documents
CN107656922A (en) Translation method, translation device, translation terminal and storage medium
US20170011732A1 (en) Low-vision reading vision assisting system based on ocr and tts
US20190205708A1 (en) Method and apparatus for processing information
US9898452B2 (en) Annotation data generation and overlay for enhancing readability on electronic book image stream service
JPWO2003065245A1 (en) Translation method, translation output method, storage medium, program, and computer apparatus
JPWO2010061733A1 (en) Apparatus and method for supporting detection of mistranslation
WO2020243314A1 (en) System and method of extracting information in an image containing file for enhanced utilization and presentation
JP7333526B2 (en) Comic machine translation device, comic parallel database generation device, comic machine translation method and program
JP2016066233A (en) Glossary management device and glossary management program
US11593570B2 (en) System and method for translating text
JP2009223477A (en) Information processor and information processing program
US10133920B2 (en) OCR through voice recognition
US11256880B2 (en) Information processing apparatus and non-transitory computer readable medium
RU2657181C1 (en) Method of improving quality of separate frame recognition
US20180307669A1 (en) Information processing apparatus
JP6746947B2 (en) Translation program and information processing device
Rai et al. MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices
JP2006053622A (en) Document link information acquisition system
JP2009205209A (en) Document image processor and document image processing program
JP5604276B2 (en) Document image generation apparatus and document image generation method
JP2007018158A (en) Character processor, character processing method, and recording medium
JP7342518B2 (en) Image processing device and image processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211108

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20211108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230802

R150 Certificate of patent or registration of utility model

Ref document number: 7333526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150