JP7435098B2 - くずし字認識システム、くずし字認識方法及びプログラム - Google Patents
くずし字認識システム、くずし字認識方法及びプログラム Download PDFInfo
- Publication number
- JP7435098B2 JP7435098B2 JP2020048007A JP2020048007A JP7435098B2 JP 7435098 B2 JP7435098 B2 JP 7435098B2 JP 2020048007 A JP2020048007 A JP 2020048007A JP 2020048007 A JP2020048007 A JP 2020048007A JP 7435098 B2 JP7435098 B2 JP 7435098B2
- Authority
- JP
- Japan
- Prior art keywords
- machine learning
- learning model
- kuzushiji
- document
- classical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 90
- 238000010801 machine learning Methods 0.000 claims description 231
- 238000012549 training Methods 0.000 claims description 28
- 230000001965 increasing effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 239000000523 sample Substances 0.000 description 37
- 239000013598 vector Substances 0.000 description 27
- 238000010586 diagram Methods 0.000 description 22
- 238000007726 management method Methods 0.000 description 13
- 238000013518 transcription Methods 0.000 description 11
- 230000035897 transcription Effects 0.000 description 11
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
しかし、江戸期以前の日本の古典籍や古文書の多くは、漢字や片仮名などを崩した文字で記載されている。
このため、くずし字は、旧字体が用いられたり、草書体などで記載されているため、現在とは使用される文字と文字の形状とが大きく異なっており、専門家以外は読むことが困難である。
また、古典籍や古文書が旧字体や草書体で記載されていることから、一般的なOCR(Optical Character Recognition、光学文字認識)エンジンを用いても、日本の古典籍や古文書の文字を認識させることができない。
このため、くずし字に対応したOCRエンジン(例えば、非特許文献1参照)を作成することにより、日本の古典籍や古文書を電子テキストとして現代日本語に翻刻することができる。
このくずし字に対応したOCRエンジンを用いることで、専門家による歴史の研究のみでなく、専門家以外にも幅広い用途へ展開することが可能となる。
そして、日本の古典籍及び古文書の各々において、文字認識を行う機械学習モデルの学習に用いる教師データとして、すでに構築されている翻刻済みの字形データベースを利用している。
このため、上記OCRエンジンは、教師データに用いた文字と認識対象の文字との個体差により、翻刻を行う認識対象の文字を誤認識してしまうことが多い。
図1は、本発明の一実施形態によるくずし字認識システムの構成例を示すブロック図である。くずし字認識システム1は、データ入出力部101、機械学習モデル生成部102、文字領域抽出部103、機械学習モデル管理部104、くずし字認識部105、表示部106、字形データベース107、文献画像記憶部108、機械学習モデル記憶部109及び翻刻データ記憶部110の各々を備えている。文字領域抽出部103及びくずし字認識部105とは、くずし字処理部(不図示)を構成している。
また、データ入出力部101は、図示しないデータ入力手段(キーボード、マウス、後述するタッチパネル)からデータの入力を行ない、外部装置に対してくずし字を翻刻した現代文字などのデータを出力する。
また、機械学習モデルの学習に用いる標本に対して、直接に文献の属性情報を対応付けてもよいが、以下に示す本実施形態においては、標本に対して文献を対応付けて、この文献に文献の属性情報を対応付ける構成としている。
そして、上記グループのそれぞれに属する文献におけるくずし字と現代文字との対応をデータセットとし、グループ毎に機械学習モデルが生成され、分類においてそれぞれのグループに対応した機械学習モデルからなる機械学習モデル群が存在する。
そして、機械学習モデル生成部102は、字形データテーブルにおける各分類に属する文献の各々のグループにおけるくずし字と現代字との対応を示す教師データにより、それぞれの分類における各グループに対応する機械学習モデルを生成する。
そして、文字領域抽出部103は、抽出した文字領域の画像のデータ(くずし字画像データ)を、くずし字認識部105に対して出力する。
そして、機械学習モデル管理部104は、読み出した対象文献の属性情報に対応する機械学習モデルを、機械学習モデル記憶部109に記憶されている属性情報の種類の組合せ分類のそれぞれにおける各データセットに対応する機械学習モデルのなかから読み出し、くずし字認識部105に対して出力する。
そして、くずし字認識部105は、くずし字の認識処理の結果を、翻刻データ記憶部110における文献毎にされる翻刻データテーブルに書き込んで記憶させる。
図2は、字形データベース107に記憶されている字形データテーブルの構成例を示す図である。図2において、字形データテーブルは、レコード毎に、文字コード、類似字形検索用インデックス、文献の属性情報、文献情報、ページ、ページ内位置情報、現代文字の各々の欄を備えている。
例えば、図2において、文献のカテゴリを示す属性は、対象文献、文献種別などである。対象文献は、文字コードの参照画像データを抽出した文献が、古典籍であるか古文書のいずれであるかを示す情報である。文献種別は、日記、瓦版、仏教関連書物、歴史関連書物、法律関連書物などのいずれかであるかを示す情報である。
書体の属性は、御家流、唐様などの参照画像データも文字の書体の種別を示す情報である。
地域の属性は、文献が記述された場所を示す情報であり、九州地方、四国地方、中国地方、近畿地方、東海地方、北陸地方、関東地方、東北地方、北海道地方などである。
時代の属性は、文献が記述された時代を示す情報であり、飛鳥時代、奈良時代、平安時代、鎌倉時代、室町時代、安土桃山時代、江戸時代などである。
ページは、文字コードが示すくずし字が抽出された、文献情報の示す文献におけるページ番号である。
ページ内位置情報は、ページ番号におけるページの撮像画像における、文字コードが示すくずし字の参照画像データが抽出された位置を示す位置情報である。
現代文字は、専門家がくずし字の参照画像データを視認して、くずし字の形状から判別した現代の文字(後述する文字ラベル)が示されている。
図3(a)は、古典籍のページの撮像画像の一例を示している。図3(b)は、類似字形検索用インデックスの指し示す記憶領域に記憶されている字形の画像データを示している。図3(a)の撮像画像において、くずし字の文字画像の領域として、一文字のくずし字毎にくずし字の形状を文字枠200により区切り、図3(b)に示すようにくずし字が含まれる画像データ(文字枠200で選択された画像領域の画像データ)として、字形データベース107において類似字形検索用インデックスの示すアドレスに記憶されている。
そして、図2におけるくずし字の画像データと、このくずし字が専門家により判定された現代文字との組合せを用いて、くずし字を認識する機械学習モデルの生成を行う。
図4は、文献画像記憶部108に記憶されている文献画像データテーブルの構成例を示す図である。図4において、文献画像データテーブルは、レコード毎に、文献識別情報、文献名、文献の属性情報、撮像画像インデックスの各々の欄を備えている。
ここで、文献識別情報は、撮像画像の文献の各々を識別する識別情報である。文献名は、文献識別情報の示す文献の名称を示している。
文献の属性情報は、くずし字を抽出した文献の属性であり、一例として、図2の文献の属性情報と同様に、文献のカテゴリを示す属性、書き手の属性、書体の属性、地域の属性、時代の属性などである。
撮像画像インデックスは、撮像画像が記憶されている文献画像記憶部108における記憶領域を示すアドレスなどである。
図5は、機械学習モデル記憶部109に記憶されている機械学習モデルテーブルの構成例を示す図である。図5において、機械学習モデルテーブルは、レコード毎に、機械学習モデル識別情報、文献名、属性情報、撮像画像インデックスの各々の欄を備えている。
ここで、機械学習モデル識別情報は、機械学習モデルの各々を識別する情報である。属性情報組合せは、くずし字を認識する文献を分類するために用いた属性情報の各々が記載されている。そのため、分類における属性情報の種類の組合せの各々のデータセットに属する文献のくずし字を認識させるため、分類毎に機械学習モデルが生成されている。
例えば、分類(年代,性別,地域)においてグループ(鎌倉時代,男性,近畿地方)、(室町時代,女性,関東地方)、(奈良時代,女性,九州地方)などとして、分類に対応する属性情報を有する文献がぞれぞれのデータにより、データセットにおける教師データとしてグルーピングされる。
例えば、機械学習モデル生成部102は、分類(年代,性別,地域)に属するグループに対応する機械学習モデルを生成する場合、字形データベース107の字形データテーブルから、分類における属性情報の年代、性別及び地域の各々が、それぞれ鎌倉時代、男性、近畿地方、すなわち、グループ(鎌倉時代,男性,近畿地方)のくずし字の画像と、このくずし字の現代文字との組を教師データとして抽出する。
また、分類を複数設定し、分類毎に、それぞれのグループに対応する機械学習モデルを生成しておき、くずし字認識部105が識別対象のくずし字の画像データをそれぞれの機械学習モデルに入力し、各機械学習モデルの出力を総計して、最も認識の度合いの高い現代文字を出力するように構成しても良い。
図6及び図7の各々は、字形データベース107から読み込んだくずし字の画像データを教師データとして用いるための前処理を説明する図である。
図6(a)は、対象文献のページの撮像画像から文字枠で示されたくずし字の画像データである。
図6(b)は、図6(a)の画像データを2値化(例えば、大津の判別分析法を用いた2値化)した後に、白黒反転した反転画像データを示している。
図6(d)は、横方向の横ピクセル数が、入力幅の40ピクセルに対応するように、図6(c)の画像データの両横に黒のピクセルを挿入する(パディング)。そして、これにより、教師データとしての入力幅のくずし字の画像データが生成される。
図7(a)は、対象文献のページの撮像画像から文字枠で示されたくずし字の画像データである。
図7(b)は、図7(a)の画像データを2値化(例えば、大津の判別分析法を用いた2値化)した後に、白黒反転した反転画像データを示している。
図7(d)は、縦方向の横ピクセル数が、入力幅の40ピクセルに対応するように、図7(c)の画像データの両横に黒のピクセルを挿入する(パディング)。そして、これにより、教師データとしての入力幅のくずし字の画像データが生成される。
以下に示す手法による機械学習モデルの学習は、すでに説明した機械学習モデル生成部102が行なう。
古典籍から抽出した教師データxs及び文字クラスysからなる標本hs、古文書から抽出した教師データxt及び文字クラスytから標本htの各々を用いて機械学習を行なわせる。
しかしながら、古典籍の標本hsに比較して、古文書の標本htの数が少ないため、及びを混合した場合、機械学習モデルが古典籍の特徴に偏った学習が行なわれる場合がある。
図8は、機械学習モデルの学習に用いる古典籍及び古文書の標本の混合方法を説明する図である。
図8においては、例えば、古典籍の標本hsが100万個であり、古文書の標本htが10万個である場合を示している。古典籍における標本hsの数が100万個であるため、古文書の標本htの各々の教師データxtを19個の教師データxt’に複製し、複製元の教師データxtを合わせて20個としている。
ここで、複製した教師データx’の文字画像は、文字を縮小、拡大、文字の線の形状を変化、文字画像を所定の角度に回転させるなどのそれぞれ異なる変更を加えて用いる。
複製し倍に増加させて200万個として、この標本と標本との合計300万個を学習用の標本として混合して、機械学習モデルに対する機械学習を行なう。
上述したように、古文書の標本数に比較して古典籍の標本数が多いため、古文書の文字クラスの推定の確度は向上させることが可能である。
しかしながら、古典籍は標本数が少ないため、機械学習モデルの文字クラスの推定の確度を十分とするための学習を行なわせることでできない場合がある。
このため、ファインチューニングの手法を用いて、元ドメインである古典籍の標本hsで学習させた機械学習モデルをpretrainモデルとして、このpretraineモデルに対してfine tuning(標本htによる追加学習)を行ない、目標ドメインの古文書に対応する機械学習モデルを生成する。
fine tuningにおいては、古典籍の標本hsで学習させた機械学習モデルにおいて、この機械学習モデルの入力層に近い部分の層と、機械学習モデルの最終出力層とを、未学習(ニューラルネットの関数の各々の重み係数が初期状態)の層に付け替える(pretraineモデルの生成)。
しかしながら、本実施形態においては、fine tuningの手法を用いているため、古文書の標本htにより新たに付けた未学習の層の学習を行なわせるとともに、古典籍の標本hsで学習させた機械学習モデルの再学習を行なう。
すなわち、古典籍の標本hsで生成したpretraineモデル(画像の大域的な特徴を捉える機能を有するConvolution層)に対して、古文書の標本htを用いたfine tuningを行なう。
すなわち、一般的にFEDA(frustratingly easy domain adaptation)と呼ばれるドメイン適応手法を用いて、古文書に対応した機械学習モデルの学習を行なう。
ドメイン適応手法は、元ドメインとしての古典籍の標本hsで学習させた機械学習モデルに対して、目標ドメインである古文書に対応させる再学習を行なわせることにより、目標ドメインである古文書に適応する機械学習モデルとなるように、ニューラルネットワークの関数の重み係数の調整を行う。
そして、高次元の特徴ベクトルに変更した標本を用いて、古文書に対応する機械学習モデルに対して、一般的な学習を行なわせる。
図10において、特徴ベクトル画像301は、古典籍の標本hsにおける教師データxsの特徴ベクトルを高次化した画像を示している。また、特徴ベクトル画像302は、古文書の標本htにおける教師データxtの特徴ベクトルを高次化(特徴情報を増加)した画像を示している。
教師データxs’として用いる特徴ベクトル画像301は、文字クラスysに対応している。また、教師データxt’として用いる特徴ベクトル画像302は、文字クラスytに対応している。
特徴ベクトル画像301は、古典籍の標本hsにおける教師データxsを、横方向(X方向)の画像のピクセル数を換えずに、縦方向(Y方向)のピクセル数を変更している。
すなわち、古典籍の標本hsにおける教師データxsとの反転画像データ2個と、この反転画像データと同一の入力幅を有する黒画像(階調度0)の画像データを連結して、高次元の特徴ベクトルを有する教師データxs’として生成されている。
また、特徴ベクトル画像301は、Y方向に対して、教師データxsとの反転画像データ、教師データxsとの反転画像データ、黒画像の画像データとの順番で連結している。
すなわち、特徴ベクトル画像302は、特徴ベクトル301と同様の縦ピクセル数×横ピクセル数となるように、古文書の標本htにおける教師データxtとの反転画像データ2個と、この反転画像データと同一の入力幅を有する黒画像の画像データを連結して、高次元の特徴ベクトルを有する教師データxt’として生成されている。
また、特徴ベクトル画像301は、Y方向に対して、教師データxtとの反転画像データ、黒画像の画像データと、教師データxtとの反転画像データの順番で連結している。
教師データxs’(特徴ベクトル画像301における部分領域301_1)及び教師データxt’(特徴ベクトル画像302における部分領域302_1)が同一行にあることで、機械学習モデルにおけるニューラルネットの関数の重み係数が古典籍及び古文書の文字における共通の特徴を学習する。
また、黒画像の画像データ(特徴ベクトル画像301における部分領域301_3)及び教師データxt’(特徴ベクトル画像302における部分領域302_3)が同一行にあることで、機械学習モデルにおけるニューラルネットの関数の重み係数が古文書の文字に特有な特徴のみを学習する。
上述したFEDAの手法を用いる構成により、機械学習モデルに対して、古典籍と古文書との各々の特徴を同時に学習させることができ、古典籍の文字の特徴の一部を利用して、古文書の文字クラスの推定の確度を向上したくずし字の認識が行える。
図11は、翻刻データ記憶部110に記憶されている翻刻データテーブルの構成例を示す図である。図11において、翻刻データテーブルは、レコード毎に、文字コード、文字画像インデックス、文献の属性情報、文献情報、ページ、ページ内位置情報、現代文字の各々の欄を備えている。
また、文献の属性情報は、くずし字を抽出した文献の属性であり、一例として、文献のカテゴリを示す属性、書き手の属性、書体の属性、地域の属性、時代の属性などである。
例えば、図11において、文献のカテゴリを示す属性は、図2と同様に、対象文献、文献種別などである。対象文献は、文字コードの参照画像データを抽出した文献が、古典籍であるか古文書のいずれであるかを示す情報である。文献種別は、日記、瓦版、仏教関連書物、歴史関連書物、法律関連書物などのいずれかであるかを示す情報である。
ページは、文字コードが示す文字画像のくずし字が抽出された、文献情報の示す文献におけるページ番号である。
ページ内位置情報は、ページ番号におけるページの撮像画像における、文字コードが示すくずし字の文字画像データが抽出された位置を示す位置情報である。
現代文字は、機械学習モデルが文字画像データにおけるくずし字の形状から推定した現代の文字(標本における教師データに対応する文字ラベル)が示されている。
S101:
データ入出力部101は、外部装置から字形データベース107における字形データテーブルを生成するために用いる文献の撮像画像を入力する。
そして、表示部106は、自身の表示画面に対して文献の各ページの撮像画像を表示する。
専門家は、表示画面のくずし字の画像領域をマウスなどにより文字枠を形成して囲み、撮像画像におけるくずし字の画像を抽出する(図3(a))。
専門家は、抽出したくずし字の判別を行い、このくずし字に対応する現代文字を認識して、くずし字と現代文字と対応させ、属性情報を付与する。
これにより、データ入出力部101は、専門家が所定の入力手段から入力する、くずし字に対応させた現代文字と、このくずし字の属性情報とを、字形データベース107における字形データテーブルに書き込んで記憶させる。
これにより、くずし字がいずれの現代文字に対応するかを認識する機械学習モデルの学習させるための教師データが、字形データベース107に生成される。
機械学習モデルを生成する際、機械学習モデルを生成する作業者は、くずし字認識システム1に対して、この機械学習モデルにより翻刻を行う対象の文献の属性情報を入力する。
そして、作業者は、機械学習モデルを生成する際に用いる教師データを字形データベース107から抽出するため、教師データのデータセットを生成する属性情報の各々の組み合わせを入力する。
例えば、属性情報の組み合わせとして、組合せ(年代,性別,地域)=(鎌倉時代,男性,近畿地方)、(室町時代,女性,関東地方)、(奈良時代,女性,九州地方)などが入力される。
機械学習モデル生成部102は、各組み合わせに対応したくずし字と現代文字との対応を、機械学習モデルを生成する際の教師データのデータセットとして、字形データベース107の字形データテーブルから抽出する(教師データの入力)。
そして、機械学習モデル生成部102は、属性情報の組み合わせに対応した機械学習モデルの各々を、この組み合わせに対応してデータセットそれぞれの教師データにより学習させて生成する。
機械学習モデル生成部102は、生成した機械学習モデルの各々に機械学習モデル識別情報を付与し、機械学習モデル記憶部109の機械学習モデルテーブルに書き込んで記憶させる。
図13は、本発明の一実施形態のくずし字認識システム1における機械学習モデルによるくずし字の認識の処理の動作例を示すフローチャートである。
データ入出力部101は、翻刻対象の文献の撮像画像の画像データの各々を、この文献の属性情報とともに外部装置から入力し、それぞれに文献識別情報を付与し、文献画像記憶部108の文献画像データテーブルに書き込んで記憶させる。
作業者は、所定の入力手段から翻刻対象の文献名を、くずし字認識システム1に対して入力する。
データ入出力部101は、作業者が入力する文献名に対応する文献の撮像画像を、文献画像記憶部108の文献画像データテーブルから読み出し、表示部106の表示画面に対してページ順に表示する(図14(a))。
次に、機械学習モデル管理部104は、翻刻対象の文献の属性情報を文献画像記憶部108の文字画像テーブルから読み出す。
このとき、機械学習モデル記憶部109に記憶されている機械学習モデルから、くずし字の認識に用いる機械学習モデルを選択する文献の属性情報の組合せは、予め設定されている構成としても良いし、識別を行う処理毎に作業者が選択して設定する構成としてもよい。
そして、機械学習モデル管理部104は、設定された文献における属性情報の種類の組合せ(例えば、組合せ(年代,性別,地域))に対応する機械学習モデルのグループのなかから、認識対象の文献における属性情報の組合せの各種類のデータセット(鎌倉時代,男性,近畿地方)に対応する機械学習モデルを選択する。
機械学習モデル管理部104は、機械学習モデル記憶部109において選択し機械学習モデルを読み出し、読み出した機械学習モデルをくずし字認識部105に対して出力する。
作業者は、表示部106に表示されている文献のページの撮像画像をマウスでクリックするなどして選択し(図14(a))、翻刻対象のページにおけるくずし字の文字領域を文字枠201で選択する(図14(b))。
これにより、文字領域抽出部103は、この文字枠201で囲まれた文字領域におけるくずし字を翻刻対象として抽出し、くずし字認識部105に対して出力する。
くずし字認識部105は、文字領域抽出部103から供給される文字領域におけるくずし字を、すでに説明した前処理により、機械学習モデルに入力可能なくずし字の画像データを生成する(図6及び図7)。
そして、くずし字認識部105は、機械学習モデル管理部104から供給される機械学習モデルに対し、前処理を行ったくずし字の画像データを入力する。
これにより、くずし字認識部105は、供給された機械学習モデルにより、くずし字がいずれの現代文字に対応するかの認識処理を行う。
くずし字認識部105は、入力したくずし字の画像データに対応して機械学習モデルが出力する現代文字の画像データ202を、認識対象のくずし字の文字枠201に隣接する領域に表示する(図14(c))。
また、くずし字認識部105は、認識が終了したくずし字に対して文字コードを付与し、くずし字の存在するページの情報及びこのページの撮像画像におけるくずし字の位置情報を付与し、翻刻データ記憶部110における認識対象の文献の翻刻データテーブルに書き込んで記憶させる。
作業者は、表示部106に表示されている翻刻の対象としている文献の各ページを確認し(図14(d))、認識すべきくずし字の有無、すなわち認識処理が終了したか否かの判定を行う。
そして、作業者は、認識すべきくずし字がないことを確認すると、認識処理が終了したとして、くずし字認識システム1に対して処理を終了することを示す終了情報を入力する。
一方、作業者は、認識すべきくずし字があることを確認すると、認識処理が終了していないとして、ステップS205の処理を行う。
この場合、例えば、組合せ(時代、性別、地域)、(時代、性別)、(年代、地域) などの複数の組合せ毎に、組合せが(時代、性別、地域)であれば、それぞれのデータセット(平安時代、女性、近畿地方)、(鎌倉時代、男性、中国地方)などに対応した機械学習モデルの生成を行う。
また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
101…データ入出力部
102…機械学習モデル生成部
103…文字領域抽出部
104…機械学習モデル管理部
105…くずし字認識部
106…表示部
107…字形データベース
108…文献画像記憶部
109…機械学習モデル記憶部
110…翻刻データ記憶部
201…文字枠
202…画像データ
Claims (10)
- くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成部と、
前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理部と
を備え、
前記機械学習モデル生成部が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させる
ことを特徴とするくずし字認識システム。 - 前記第1学習方法が、前記古典籍と前記古文書との各々の前記標本の数を同様とするように、標本の数の少ない方の標本を複製することで増加させ、前記古典籍と前記古文書との各々の標本を用いて、前記機械学習モデルの学習を行わせる方法であり、
前記第2学習方法が、前記古典籍及び前記古文書の一方の前記標本で学習させた前記機械学習モデルの一部を、他方の前記標本で再学習させる方法であり、
前記第3学習方法が、前記古典籍及び前記古文書の各々の前記標本のくずし字の画像データを、共通の特徴を学習する画像領域、前記古典籍の特徴を学習する画像領域、及び前記古文書の特徴を学習する画像領域とするように合成した画像を用いて学習させる方法である
ことを特徴とする請求項1に記載のくずし字認識システム。 - 前記第2学習方法において、機械学習モデル生成部が、前記古典籍及び前記古文書の一方の前記標本で前記機械学習モデルを学習させ、当該機械学習モデルの少なくとも入力層及び最終段の出力層を再学習させる
ことを特徴とする請求項2に記載のくずし字認識システム。 - 前記古典籍及び古文書の各々の属性情報の種類に対応した分類毎に対応して生成された機械学習モデルを管理する機械学習モデル管理部をさらに備える
こと特徴とする請求項1から請求項3のいずれか一項に記載のくずし字認識システム。 - 前記対象文献の前記属性情報が、少なくとも当該文献のカテゴリ、前記対象文献の作者の書き手の属性、前記対象文献におけるくずし字の書体の属性、前記対象文献の作成された地域の属性、前記対象文献の作成された時代の属性のいずれか、あるいは組み合わせまたは全てである
ことを特徴とする請求項4に記載のくずし字認識システム。 - 前記機械学習モデルが、前記古典籍及び前記古文書の前記分類における前記種類の前記属性情報の各々のデータからなるデータセットを教師データとして学習されている
ことを特徴とする請求項4または請求項5に記載のくずし字認識システム。 - 前記分類が文字認識の対象文献である場合、当該対象文献の一部のくずし字と現代文字との対応を標本として前記機械学習モデルの機械学習を行う
ことを特徴とする請求項4から請求項6のいずれか一項に記載のくずし字認識システム。 - 前記分類に対応した機械学習モデルの各々が予め書き込まれて記憶されている機械学習モデル記憶部をさらに備え、
前記機械学習モデル管理部が、前記対象文献の文章の文字認識を行う際、当該対象文献の分類に対応した前記機械学習モデルを、前記機械学習モデル記憶部から読み出す
ことを特徴とする請求項4から請求項7のいずれか一項に記載のくずし字認識システム。 - 機械学習モデル生成部が、くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成過程と、
くずし字処理部が、前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理過程と、
を備え、
前記機械学習モデル生成部が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させる
ことを特徴とするくずし字認識方法。 - コンピュータを、
くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成手段、
前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理手段
として機能させ、
前記機械学習モデル生成手段が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させる
ためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020048007A JP7435098B2 (ja) | 2020-03-18 | 2020-03-18 | くずし字認識システム、くずし字認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020048007A JP7435098B2 (ja) | 2020-03-18 | 2020-03-18 | くずし字認識システム、くずし字認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021149437A JP2021149437A (ja) | 2021-09-27 |
JP7435098B2 true JP7435098B2 (ja) | 2024-02-21 |
Family
ID=77848894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020048007A Active JP7435098B2 (ja) | 2020-03-18 | 2020-03-18 | くずし字認識システム、くずし字認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7435098B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092700B (zh) * | 2021-11-25 | 2022-09-20 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004584A (ja) | 2005-06-24 | 2007-01-11 | Toshiba Corp | 情報処理装置 |
JP2020004406A (ja) | 2018-06-25 | 2020-01-09 | 富士通株式会社 | 分類モデル訓練方法及び装置並びに分類方法及び装置 |
-
2020
- 2020-03-18 JP JP2020048007A patent/JP7435098B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004584A (ja) | 2005-06-24 | 2007-01-11 | Toshiba Corp | 情報処理装置 |
JP2020004406A (ja) | 2018-06-25 | 2020-01-09 | 富士通株式会社 | 分類モデル訓練方法及び装置並びに分類方法及び装置 |
Non-Patent Citations (3)
Title |
---|
于 小億,孫 俊,近藤 正雄,直井 聡,教師データ数を削減できる深層学習術,画像ラボ,日本,日本工業出版株式会社,2018年04月,第29巻,p.25-32 |
赤間 亮,岡 敏生,AI技術を適用したくずし字翻刻学習・指導システム,画像ラボ,日本,日本工業出版株式会社,2020年02月,第31巻,p.20-25 |
陳 楽涵 ,呂 氷,冨山 宏之,孟 林,CenterNetを用いたくずし字の認識,第82会 全国大会講演論文集(4),日本,一般社団法人情報処理学会,2020年02月20日,p.4-551~4-552 |
Also Published As
Publication number | Publication date |
---|---|
JP2021149437A (ja) | 2021-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Altwaijry et al. | Arabic handwriting recognition system using convolutional neural network | |
US11899927B2 (en) | Simulated handwriting image generator | |
Yadav et al. | Optical character recognition for Hindi language using a neural-network approach | |
Rizvi et al. | Optical character recognition system for Nastalique Urdu-like script languages using supervised learning | |
US11756244B1 (en) | System and method for handwriting generation | |
Nikitha et al. | Handwritten text recognition using deep learning | |
Mariyathas et al. | Sinhala handwritten character recognition using convolutional neural network | |
Inunganbi et al. | Recognition of handwritten Meitei Mayek script based on texture feature | |
JP7435098B2 (ja) | くずし字認識システム、くずし字認識方法及びプログラム | |
Ul-Hasan | Generic text recognition using long short-term memory networks | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
Dadi | Tifinagh-IRCAM Handwritten character recognition using Deep learning | |
Gurmu | Offline handwritten text recognition of historical Ge’ez manuscripts using deep learning techniques | |
Bangera et al. | Digitization Of Tulu Handwritten Scripts-A Literature Survey | |
Mezghani et al. | Arabic offline writer identification on a new version of AHTID/MW database | |
Jain | Unconstrained Arabic & Urdu text recognition using deep CNN-RNN hybrid networks | |
Kasthuri et al. | Noise reduction and pre-processing techniques in handwritten character recognition using neural networks | |
Perez et al. | Recognition of Japanese handwritten characters with Machine learning techniques | |
Diesbach et al. | Generating synthetic styled Chu nom characters | |
El-Awadly et al. | Arabic Handwritten Text Recognition Systems and Challenges and Opportunities | |
Sanjrani et al. | Multilingual OCR systems for the regional languages in Balochistan | |
Nguyen et al. | On the problem of classifying vietnamese online handwritten characters | |
Philip et al. | A novel bilingual OCR system based on column-stochastic features and SVM classifier for the specially enabled | |
Jabde et al. | A Systematic Review of Multilingual Numeral Recognition Using Machine and Deep Learning Methodology | |
Jomy et al. | Pattern Analysis Techniques for the Recognition of Unconstrained Handwritten Malayalam Character Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7435098 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |