JP7430274B2

JP7430274B2 - 計算機システム及び文字認識方法

Info

Publication number: JP7430274B2
Application number: JP2022553411A
Authority: JP
Inventors: 良介大館
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-10-02
Filing date: 2020-10-02
Publication date: 2024-02-09
Anticipated expiration: 2040-10-02
Also published as: JPWO2022070422A1; WO2022070422A1

Description

本発明は、文字認識技術に関する。

機械学習技術の発達により、文字認識、画像認識、及び音声認識等の認識技術が向上し、多様なシステムで認識技術が活用されている。

前述の認識技術は、一般的に、入力データからの特徴（特徴量）抽出、特徴に基づく識別候補の出力、及び識別候補のデコードの三つの機能から構成される。特徴抽出及び識別候補の出力には、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ）及びＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ（ＲＮＮ）といった深層学習ベースの手法が広く用いられている。またＲＮＮの普及に伴い、ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＴＣ）というデコード方式が一般的になっている。

ここで、ＣＴＣとは、識別候補に含まれる余分な区間を削減して出力を簡素化するデコード方式である。例えば、音声認識において、入力音声から連続した微小区間（タイムステップ）の時系列特徴をＲＮＮから取得した場合、何も音が鳴っていないｂｌａｎｋ区間及び前の区間と同じ音が鳴っている区間が存在する。ＣＴＣを用いて、大量に存在するこれらの無駄な区間を効率よく削除し、出力を簡素化することができる。

上記の認識技術に加え、現実的な認識システムにおいては、デコード結果を後処理で補正することが重要である。例えば、文字認識及び音声認識では、文字画像及び音声に対する認識の後に言語知識を用いた補正が考えられる。そこで、ＣＴＣによるデコード結果を補正する方法が検討されている。

例えば、非特許文献１には、「入力から深層学習の特徴抽出部を用いて特徴を抽出し、深層学習の識別部を用いて前記特徴に基づく識別候補を出力し、ＣＴＣを用いて前記識別候補を識別結果へデコードし、前記特徴と異なる種類の特徴に基づく処理によって前記識別結果を補正することを特徴とする認識方法。」が記載されている。

非特許文献１に記載の技術を用いることで、音声認識において、入力された音声を識別し、音声と異なる特徴の情報である言語知識を用いて識別結果を補正し、認識精度を高めることができる。

ＹａｊｉｅＭｉａｏ， "ＥＥＳＥＮ：Ｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｄｅｅｐＲＮＮｍｏｄｅｌｓａｎｄＷＦＳＴ－ｂａｓｅｄｄｅｃｏｄｉｎｇ"，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１５ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＵｎｄｅｒｓｔａｎｄｉｎｇ，ｐｐ．１６７―１７４，２０１５．

非特許文献１に記載の技術は、識別器で扱う特徴と異なる種類の特徴に基づく補正処理を実行することによって認識精度を高めている。しかし、非特許文献１に記載の技術は、ＣＴＣを用いたデコード後に言語知識に基づく補正処理を実行する構成であるため、ＣＴＣを用いたデコードによって情報が欠落した場合、正しい補正が困難になるという課題がある。

本開示の目的は、文字認識処理において、ＣＴＣを用い、かつ、ＣＴＣを用いることによる情報の欠落と言語知識とを考慮した補正処理を含むデコードを実現する計算機システム及び情報処理方法を提供することにある。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、文字認識処理を実行する計算機システムであって、演算装置、前記演算装置に接続される記憶装置、及び、前記演算装置に接続され、外部装置と接続するインタフェースを有する計算機を少なくとも一つ備え、文字列の生起確率を示す情報を言語知識として保持し、入力画像から、第一数のタイムステップの時系列データの特徴量を算出する特徴量抽出部と、前記時系列データの特徴量に基づいて、前記各タイムステップにおける複数の文字の各々に該当する確率を算出する識別候補出力部と、ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎを用いて、前記各タイムステップの前記確率が最大の文字から構成される第一文字列を生成し、前記第一文字列から所定のタイムステップを削除することによって第二数の文字から構成される第二文字列を出力する処理と、前記識別候補出力部の処理結果及び前記言語知識を用いた補正ルールに基づいて前記第二文字列を補正することによって第三数の文字から構成される第三文字列を出力する処理とを実行するデコード部と、を備え、前記デコード部は、前記識別候補出力部によって算出された前記タイムステップの前記確率を成分とする確率ベクトルを前記タイムステップ順に並べた識別候補行列を取得する第１処理と、前記言語知識を用いて、前記第二文字列に含まれる文字から構成される文字ペアの生起確率を算出する第２処理と、前記識別候補行列及び前記文字ペアの生起確率を用いた前記補正ルールに基づいて前記第二文字列を補正する第３処理と、を実行し、前記第３処理は、前記第一文字列に含まれる文字に対応する前記タイムステップの中から探索タイムステップを選択する第４処理と、前記探索タイムステップの前記確率ベクトルを用いて、前記探索タイムステップの候補文字を選択し、前記候補文字をノードとする層を定義する第５処理と、時系列が隣接する二つの前記層の前記ノードを接続することによって有向グラフを生成する第６処理と、前記有向グラフを用いて最適パスを探索する第７処理と、前記最適パスを構成する前記ノードに対応する文字から構成される前記第三文字列を出力する第８処理と、を含み、前記第４処理は、前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第一文字列から削除されたタイムステップの中から復元するタイムステップを選択して、前記選択されたタイムステップを復元する処理と、前記選択されたタイムステップが復元された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択する処理と、を含む。

本発明によれば、文字認識処理において、ＣＴＣを用い、かつ、ＣＴＣを用いたことによる情報の欠落と言語知識とを考慮した補正処理を含むデコードを実現できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１の計算機のハードウェア構成及びソフトウェア構成の一例を説明する図である。実施例１の言語知識情報の一例を示す図である。実施例１の計算機が実行する文字認識処理の概要を説明するフローチャートである。実施例１の計算機が実行する文字認識処理におけるデータ処理の一例を示す図である。実施例１のデコード処理の一例を説明するフローチャートである。実施例１の削除タイムステップ対策処理の一例を説明するフローチャートである。実施例１の削除タイムステップ対策処理の具体例を示す図である。実施例１のノイズタイムステップ対策処理の一例を説明するフローチャートである。実施例１のノイズタイムステップ対策処理の具体例を示す図である。実施例１の誤読タイムステップ対策処理の一例を説明するフローチャートである。実施例１の誤読タイムステップ対策処理において生成される有向グラフの一例を示す図である。実施例１の計算機が提供するＧＵＩの一例を示す図である。

以下、本開示の実施例１について図面を参照して説明する。

まず、本発明の概要を述べる。本発明は、文字認識処理において、ＣＴＣを用い、かつ、ＣＴＣによる情報の欠落と言語知識とを考慮した補正処理を含むデコードを実現することによって、認識対象の認識精度を向上させることを目的とする。また、従来のデコードと比較して計算量を抑えられるように工夫する。

前述の目的を実現するため、本発明に係る計算機システムは、特徴抽出及び識別候補の出力の後に、ＣＴＣと、言語知識に基づく補正ルールによって制御される補正処理とを含むデコードを実行する。また、本発明に係る計算機は、補正ルールを設定するためのＧＵＩを提供する。

以下、本発明の実施例１について、図面を順番に参照して説明する。実施例１では、文字認識を行う計算機を一例に説明する。なお、本発明は、音声認識等についても適用することができる。

なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。なお、以下に説明する実施例は特許請求の範囲にかかる発明を限定するものではない。また実施例において説明されている各要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

また、以下の説明では、情報の一例として「ｘｘｘデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ｘｘｘデータ」を「ｘｘｘテーブル」と言うことができる。また、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしても良い。

まず、図１を参照し、本発明の実施例１の計算機のハードウェア構成及びソフトウェア構成を説明する。図１は、実施例１の計算機のハードウェア構成及びソフトウェア構成の一例を説明する図である。

計算機１００は文字認識処理を実行する。また、計算機１００は、文字認識処理に関する設定を行うためのＧＵＩを提供する。

計算機１００は、プロセッサ１０１、入力装置１０２、出力装置１０３、主記憶装置１０４、副記憶装置１０５、及びネットワークインタフェース１０６を有する。各ハードウェアは内部バス等を介して互いに接続される。図１では、各ハードウェアの数は一つであるが、二つ以上でもよい。

プロセッサ１０１は、主記憶装置１０４に格納されるプログラムを実行する。プロセッサ１０１がプログラムにしたがって処理を実行することによって、特定の機能を実現する。以降の説明において機能を主語に処理を説明する場合、プロセッサ１０１が機能を実現するプログラムを実行していることを示す。

入力装置１０２は、計算機１００に対してデータを入力するための装置である。例えば、入力装置１０２は、キーボード、マウス、及びタッチパネル等の計算機１００を操作するための機器を含む。また、入力装置１０２は、スキャナ、デジタルカメラ、及びスマートフォン等の画像取得のための機器も含む。

出力装置１０３は、データの入力画面及び処理結果等を出力する装置である。出力装置１０３は、タッチパネル及びディスプレイ等を含む。

ネットワークインタフェース１０６は、外部装置と通信するためのインタフェースである。

計算機１００には、入力装置１０２又はネットワークインタフェース１０６を介して、識別対象の文字を含む入力画像が入力される。なお、入力画像は副記憶装置１０５又は外部記憶装置に格納されてもよい。

主記憶装置１０４は、プロセッサ１０１が実行するプログラム及びプログラムが使用する情報を格納する。また、主記憶装置１０４は、プログラムが一時的に使用するワークエリアを含む。主記憶装置１０４は、例えば、メモリ等が考えられる。

実施例１の主記憶装置１０４は、文字認識モジュール１１０及び設定モジュール１２０を実現するプログラムと、言語知識情報１３０とを格納する。

言語知識情報１３０は、言語知識を管理するための情報である。言語知識情報１３０の詳細は図２を用いて説明する。

文字認識モジュール１１０は、文字認識の機能を実現するモジュールであり、画像特徴抽出モジュール１１１、時系列特徴抽出モジュール１１２、識別候補出力モジュール１１３、及びデコードモジュール１１４を含む。文字認識モジュール１１０が実行する処理については図３を用いて説明する。

設定モジュール１２０は、デコードにおける補正ルールを設定するためのインタフェースを提供し、また、インタフェースを介して入力された補正ルールを文字認識モジュール１１０に設定する。

なお、主記憶装置１０４は、必要な一部のモジュールを実現できるプログラムを格納していればよく、すべてのモジュールを実現するプログラム及び情報を格納している必要はない。

副記憶装置１０５は、データを永続的に格納する。副記憶装置１０５は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等が考えられる。なお、主記憶装置１０４に格納されるプログラム及び情報は、副記憶装置１０５に格納されてもよい。この場合、プロセッサ１０１が、副記憶装置１０５からプログラム及び情報を読み出し、主記憶装置１０４にロードする。

なお、複数の計算機１００から構成される計算機システムを用いて文字認識処理を実行してもよい。この場合、各計算機１００は直接又はネットワークを介して互いに接続される。ネットワークの種類及び接続方式には限定されない。計算機システムでは、各計算機１００が同じ処理を実行してもよいし、各計算機１００が異なる処理を実行してもよい。

図２は、実施例１の言語知識情報１３０の一例を示す図である。

図２に示す言語知識情報１３０は、ｂｉ－ｇｒａｍの生起確率辞書である。ここで、ｂｉ－ｇｒａｍとは、任意の文字列又は文書を連続したｎ個の文字で分割するテキスト分割方法であるｎ－ｇｒａｍにおいて、ｎ＝２の場合のことである。

言語知識情報１３０は、一つの起点文字に対する後続文字の生起確率を纏めたエントリを格納する。ここで、起点文字はｂｉ－ｇｒａｍの一文字目の文字であり、後続文字はｂｉ－ｇｒａｍの二文字目の文字である。エントリは、番号２０１、文字２０２、後続文字２０３、及び生起確率２０４を含む。

番号２０１は、エントリを一意に識別するための番号を格納するフィールドである。文字２０２は、ｂｉ－ｇｒａｍの一文字目の文字を格納するフィールドである。後続文字２０３は、ｂｉ－ｇｒａｍの二文字目の文字を格納するフィールドである。生起確率２０４は、起点文字及び後続文字が連続して生起する確率を格納するフィールドである。

図３は、実施例１の計算機１００が実行する文字認識処理の概要を説明するフローチャートである。図４は、実施例１の計算機１００が実行する文字認識処理におけるデータ処理の一例を示す図である。

計算機１００の文字認識モジュール１１０は、入力画像４００が入力された場合、以下で説明する文字認識処理を開始する。

文字認識モジュール１１０の画像特徴抽出モジュール１１１は、入力画像４００に対して画像特徴抽出処理を実行する（ステップＳ３０１）。

画像特徴抽出処理では、画像特徴抽出モジュール１１１が入力画像４００から特徴（画像の特徴量）を抽出する。画像特徴抽処理は、公知の手法を用いて実現可能である。例えば、ルールベースの方向特徴の抽出処理、及びＣＮＮを用いた特徴抽出処理等が考えられる。

次に、文字認識モジュール１１０の時系列特徴抽出モジュール１１２は、画像の特徴量を用いて時系列特徴抽出処理を実行する（ステップＳ３０２）。

時系列特徴抽出処理では、時系列特徴抽出モジュール１１２が時系列データから特徴（時系列データの特徴量）を抽出する。時系列特徴抽出処理は、公知の手法を用いて実現可能である。例えば、画像の特徴量をタイムステップごとに区切りって時系列データの特徴量として保持し、ＲＮＮ及びＬｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ（ＬＳＴＭ）等の再帰型ニューラルネットワークに入力する処理が考えられる。なお、画像特徴抽出処理において、入力画像を所定の領域に区切ってから、各領域の画像の特徴量を抽出し、各領域の画像の特徴量を時系列（文字の認識順又は領域の順番）に沿って保持してもよい。

図４では矩形４０１が時系列データを表す。時系列データを時系列順に再帰型ニューラルネットワークに入力することによって、タイムステップ毎の文字の確率（確率分布）が算出される。時系列特徴抽出処理によって、タイムステップの各文字の確率を成分とする確率ベクトルから構成される識別候補行列４０２が時系列データの特徴として抽出される。

次に、文字認識モジュール１１０の識別候補出力モジュール１１３は、時系列データの特徴量を用いて識別候補出力処理を実行する（ステップＳ３０３）。

識別候補出力処理では、識別候補出力モジュール１１３は、タイムステップ毎の識別候補（文字候補）を出力する。識別候補出力処理は、公知の手法を用いて実現可能である。例えば、文字認識辞書内の最近傍探索を実行し、又はソフトマックス関数を用いた演算を実行することによって、各タイムステップについて、可能性の高い順に複数の識別候補を出力する処理が考えられる。

次に、文字認識モジュール１１０のデコードモジュール１１４は、出力された識別候補に対してデコード処理を実行する（ステップＳ３０４）。

デコード処理では、デコードモジュール１１４が、ＣＴＣを用いて各タイムステップの最も確率が高い文字から構成される第一文字列４０３を出力し、第一文字列４０３を所定長の第二文字列４０４に変換し、さらに、言語知識情報１３０を用いた補正処理を実行する。より具体的には、デコードモジュール１１４は、識別候補行列４０２を用いて、計算量を抑制しながら、言語知識を考慮した最適パスを選択し、最終的な識別結果を得る。デコード処理の詳細については図５を用いて説明する。

従来技術では、ＣＴＣを用いたデコード処理及び補正処理が独立して実行されていた。ＣＴＣでは、各タイムステップの確率が最大の文字を選択することによって文字列が出力され、連続する同一文字及びｂｌａｎｋの削除が実行され、最終的な文字列が出力される。そのため、補正処理では、削除されたタイムステップの文字を考慮することが困難であった。

これに対して、実施例１のデコード処理は、言語知識を用いて削除されたタイムステップを考慮した識別候補のデコードが行われる。

図５は、実施例１のデコード処理の一例を説明するフローチャートである。

デコードモジュール１１４は、識別候補行列４０２を取得する（ステップＳ５０１）。

デコードモジュール１１４は、識別候補行列４０２から、各タイムステップの確率が最大の文字を取得する（ステップＳ５０２）。これによって、第一文字列４０３が出力される。

デコードモジュール１１４は、同一文字が連続するタイムステップのうち、確率が最大のタイムステップ以外のタイムステップを削除する（ステップＳ５０３）。

デコードモジュール１１４は、取得した文字が「ｂｌａｎｋ」であるタイムステップを削除する（ステップＳ５０４）。以上の処理によって、第二文字列４０４が出力される。

デコードモジュール１１４は、言語知識情報１３０から、残ったタイムステップの文字間の生起確率を取得する（ステップＳ５０５）。以下の説明では、二つの文字の組を文字ペアと記載する。

デコードモジュール１１４は、生起確率が閾値α以下の文字ペアが存在するか否かを判定する（ステップＳ５０６）。閾値αは任意の数値であり、ユーザによって設定される。なお、閾値αは適宜更新できる。

ステップＳ５０６は言語として自然な文字の並びであるか否かを判定するための処理である。

生起確率が閾値α以下の文字ペアが存在しない場合、デコードモジュール１１４は、最終的な識別結果を出力し（ステップＳ５１０）、デコード処理を終了する。この場合、ＣＴＣの出力結果（第二文字列４０４）がそのまま最終的な識別結果として出力される。

生起確率が閾値α以下の文字ペアが存在する場合、デコードモジュール１１４は、誤って削除されたタイムステップを復元するために、削除タイムステップ対策処理を実行する（ステップＳ５０７）。削除タイムステップ対策処理の詳細は図６を用いて説明する。

デコードモジュール１１４は、誤って残ったタイムステップを削除するために、ノイズタイムステップ対策処理を実行する（ステップＳ５０８）。ノイズタイムステップ対策処理の詳細は図８を用いて説明する。

デコードモジュール１１４は、誤った文字が選択されたタイムステップを補正するために、誤読タイムステップ対策処理を実行する（ステップＳ５０９）。誤読タイムステップ対策処理の詳細は図１０を用いて説明する。

デコードモジュール１１４は、最終的な識別結果を出力し（ステップＳ５１０）、デコード処理を終了する。

なお、ステップＳ５０７からＳ５０９の処理については、一部の処理のみを実行するようにしてもよい。補正ルール（実行する対策処理）の設定及び変更は、図１２に示すようなＧＵＩ１２００を用いて行われる。

図６は、実施例１の削除タイムステップ対策処理の一例を説明するフローチャートである。図７は、実施例１の削除タイムステップ対策処理の具体例を示す図である。

デコードモジュール１１４は、生起確率が閾値α以下の文字ペアのループ処理を開始する（ステップＳ６０１）。具体的には、デコードモジュール１１４は、生起確率が閾値α以下の文字ペアの中からターゲット文字ペアを選択する。

デコードモジュール１１４は、識別候補行列４０２から、ターゲット文字ペアに対応するタイムステップの確率ベクトルを取得する（ステップＳ６０２）。

デコードモジュール１１４は、ターゲット文字ペアの間に削除タイムステップが存在するか否かを判定する（ステップＳ６０３）。例えば、デコードモジュール１１４は、第一文字列４０３及び第二文字列４０４を比較する。

ターゲット文字ペアの間に削除タイムステップが存在しない場合、デコードモジュール１１４はステップＳ６０６に進む。

ターゲット文字ペアの間に削除タイムステップが存在する場合、デコードモジュール１１４は、削除タイムステップのうち、最大確率が閾値β以下である削除タイムステップが存在するか否かを判定する（ステップＳ６０４）。閾値βは任意の数値であり、ユーザによって設定される。なお、閾値βは適宜更新できる。

削除タイムステップのうち、最大確率が閾値β以下である削除タイムステップが存在しない場合、デコードモジュール１１４はステップＳ６０６に進む。

削除タイムステップのうち、最大確率が閾値β以下である削除タイムステップが存在する場合、デコードモジュール１１４は、削除タイムステップを復元し（ステップＳ６０５）、その後、ステップＳ６０６に進む。具体的には、デコードモジュール１１４は、最大確率が閾値β以下である削除タイムステップと、当該削除タイムステップの一つ前の削除タイムステップと、当該削除タイムステップの一つ後の削除タイムステップとを復元する。

なお、復元する削除タイムステップの数及び範囲は任意に設定できる。また、範囲内に削除タイムステップが存在しない場合、削除タイムステップの復元は行われない。

ステップＳ６０６では、デコードモジュール１１４は、全ての文字ペアの処理が完了したか否かを判定する（ステップＳ６０６）。

全ての文字ペアの処理が完了していない場合、デコードモジュール１１４は、ステップＳ６０１に戻り、同様の処理を実行する。

全ての文字ペアの処理が完了した場合、デコードモジュール１１４は削除タイムステップ対策処理を終了する。

ここで、図７を用いて削除タイムステップ対策処理の具体例を説明する。

ＣＴＣの結果、第一文字列４０３から第二文字列４０４が得られる。この場合、二つの「あ」のいずれか一つの「あ」に対応するタイムステップが削除され、「あ」と「が」の間のｂｌａｎｋに対応するタイムステップが削除されている。

図７は、削除タイムステップ対策処理によって、第二文字列４０４にｂｌａｎｋに対応する削除タイムステップが復元されたことを示す。これによって、誤って削除されたタイムステップを含めた補正が可能となる。

図８は、実施例１のノイズタイムステップ対策処理の一例を説明するフローチャートである。図９は、実施例１のノイズタイムステップ対策処理の具体例を示す図である。

デコードモジュール１１４は、生起確率が閾値α以下の文字ペアのループ処理を開始する（ステップＳ８０１）。具体的には、デコードモジュール１１４は、生起確率が閾値α以下の文字ペアの中からターゲット文字ペアを選択する。

デコードモジュール１１４は、識別候補行列４０２から、ターゲット文字ペアに対応するタイムステップの確率ベクトルを取得する（ステップＳ８０２）。

デコードモジュール１１４は、ターゲット文字ペアに対応するタイムステップの少なくともいずれかの最大確率が閾値γ以下であるか否かを判定する（ステップＳ８０３）。閾値γは任意の数値であり、ユーザによって設定される。なお、閾値γは適宜更新できる。

ターゲット文字ペアに対応する両方のタイムステップの最大確率が閾値γより大きい場合、デコードモジュール１１４はステップＳ８０５に進む。

ターゲット文字ペアに対応するタイムステップの少なくともいずれかの最大確率が閾値γ以下である場合、デコードモジュール１１４は、最大確率が閾値γ以下のタイムステップを削除し（ステップＳ８０４）、その後、ステップＳ８０５に進む。

ステップＳ８０５では、デコードモジュール１１４は、全ての文字ペアの処理が完了したか否かを判定する（ステップＳ６０６）。

全ての文字ペアの処理が完了していない場合、デコードモジュール１１４は、ステップＳ８０１に戻り、同様の処理を実行する。

全ての文字ペアの処理が完了した場合、デコードモジュール１１４はノイズタイムステップ対策処理を終了する。

ここで、図９を用いてノイズタイムステップ対策処理の具体例を説明する。

ＣＴＣの結果、第一文字列４０３から第二文字列４０４が得られる。この場合、二つの「あ」のいずれか一つの「あ」に対応するタイムステップが削除され、また、「り」と「が」の間のｂｌａｎｋに対応するタイムステップが削除されている。

図９は、ノイズタイムステップ対策処理によって、第二文字列４０４から「い」に対応するタイムステップが削除されたことを示す。これによって、ノイズとして混入した文字を削除することができる。

図１０は、実施例１の誤読タイムステップ対策処理の一例を説明するフローチャートである。図１１は、実施例１の誤読タイムステップ対策処理において生成される有向グラフの一例を示す図である。

デコードモジュール１１４は、タイムステップのループ処理を開始する（ステップＳ１００１）。具体的には、デコードモジュール１１４は、削除タイムステップ対策処理及びノイズタイムステップ対策処理が実行された後の第二文字列４０４に含まれる文字に対応する第一文字列４０３のタイムステップを特定する。デコードモジュール１１４は、特定されたタイムステップの中から一つのタイムステップを選択する。ここでは、時系列順にタイムステップが選択されるものとする。以下の説明では、第二文字列４０４に含まれる文字に対応する第一文字列４０３の文字に対応するタイムステップを探索タイムステップと記載する。

デコードモジュール１１４は、識別候補行列４０２から、探索タイムステップの確率ベクトルを取得する（ステップＳ１００２）。

デコードモジュール１１４は、探索タイムステップの確率ベクトルから、確率の上位ｎ個の文字を選択する（ステップＳ１００３）。ｎは任意の数値であり、ユーザによって設定される。なお、ｎは適宜更新できる。

具体的には、デコードモジュール１１４は、選択された文字及び当該文字の確率を含むノードから構成される層を生成する。図１１の点線の枠線が一つの層を表す。また、一つの楕円が一つのノードを表す。

デコードモジュール１１４は、全ての探索タイムステップについて処理が完了したか否かを判定する（ステップＳ１００４）。

全ての探索タイムステップについて処理が完了していない場合、デコードモジュール１１４は、ステップＳ１００１に戻り、同様の処理を実行する。

全ての探索タイムステップについて処理が完了した場合、デコードモジュール１１４は、隣接する層のノードを結合することによって有向グラフを生成する（ステップＳ１００５）。例えば、図１１に示すような有向グラフが生成される。ノード間を接続するアローには文字間の生起確率が設定される。

デコードモジュール１１４は、有向グラフを用いた最適パス探索処理を実行する（ステップＳ１００６）。例えば、デコードモジュール１１４は、各パスのノードの確率及びアローに設定された文字間の生起確率の乗算値を算出し、当該乗算値が最大となるパスを最適パスとして出力する。

デコードモジュール１１４は、最適パスの各ノードに対応する文字から構成される文字列を識別結果として出力し（ステップＳ１００７）、その後、誤読タイムステップ対策処理を終了する。

図１２は、実施例１の計算機１００が提供するＧＵＩ１２００の一例を示す図である。

ＧＵＩ１２００は、サンプル表示欄１２１０、ルール選択欄１２２０、設定ボタン１２３０、及び解除ボタン１２４０を含む。

ルール選択欄１２２０は、補正ルール、すなわち、実行する処理を選択するための欄である。ルール選択欄１２２０は、選択欄１２２１及び追加ボタン１２２２が含まれる。選択欄１２２１には、選択可能な処理（補正ルール）がプルダウン形式で表示される。追加ボタン１２２２は、選択欄１２２１を追加するための操作ボタンである。

なお、本実施例では、誤読タイムステップ対策処理は必ず選択されるように設定される。ユーザは削除タイムステップ対策処理及びノイズタイムステップ対策処理のいずれかを実行するように設定できる。

サンプル表示欄１２１０は、設定された補正ルールに基づいた処理の挙動サンプルを表示する欄である。サンプル表示欄１２１０には、識別候補行列４０２、デコード過程、及びデコード結果等が表示される。サンプル表示欄１２１０は、スクロール機能を有してもよい。

設定ボタン１２３０は、ルール選択欄１２２０にて選択した補正ルールを設定するための操作ボタンである。

解除ボタン１２４０は、設定された補正ルールを解除するための操作ボタンである。

以上で説明したように、実施例１の計算機１００は、ＣＴＣによる情報の欠落と言語知識とを考慮した補正処理を含むデコードを実行する。これによって、識別精度を高めることができる。また、最適パスを探索するためのノードを絞り込むことによって、計算量を抑制できる。

上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

Claims

文字認識処理を実行する計算機システムであって、
演算装置、前記演算装置に接続される記憶装置、及び、前記演算装置に接続され、外部装置と接続するインタフェースを有する計算機を少なくとも一つ備え、
文字列の生起確率を示す情報を言語知識として保持し、
入力画像から、第一数のタイムステップの時系列データの特徴量を算出する特徴量抽出部と、
前記時系列データの特徴量に基づいて、前記各タイムステップにおける複数の文字の各々に該当する確率を算出する識別候補出力部と、
ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎを用いて、前記各タイムステップの前記確率が最大の文字から構成される第一文字列を生成し、前記第一文字列から所定のタイムステップを削除することによって第二数の文字から構成される第二文字列を出力する処理と、前記識別候補出力部の処理結果及び前記言語知識を用いた補正ルールに基づいて前記第二文字列を補正することによって第三数の文字から構成される第三文字列を出力する処理とを実行するデコード部と、を備え、
前記デコード部は、
前記識別候補出力部によって算出された前記タイムステップの前記確率を成分とする確率ベクトルを前記タイムステップ順に並べた識別候補行列を取得する第１処理と、
前記言語知識を用いて、前記第二文字列に含まれる文字から構成される文字ペアの生起確率を算出する第２処理と、
前記識別候補行列及び前記文字ペアの生起確率を用いた前記補正ルールに基づいて前記第二文字列を補正する第３処理と、を実行し、
前記第３処理は、
前記第一文字列に含まれる文字に対応する前記タイムステップの中から探索タイムステップを選択する第４処理と、
前記探索タイムステップの前記確率ベクトルを用いて、前記探索タイムステップの候補文字を選択し、前記候補文字をノードとする層を定義する第５処理と、
時系列が隣接する二つの前記層の前記ノードを接続することによって有向グラフを生成する第６処理と、
前記有向グラフを用いて最適パスを探索する第７処理と、
前記最適パスを構成する前記ノードに対応する文字から構成される前記第三文字列を出力する第８処理と、を含み、
前記第４処理は、
前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第一文字列から削除されたタイムステップの中から復元するタイムステップを選択して、前記選択されたタイムステップを復元する処理と、
前記選択されたタイムステップが復元された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択する処理と、を含むことを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記第４処理は、
前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第二文字列から削除するタイムステップを選択して、前記選択されたタイムステップを削除する処理と、
前記選択されたタイムステップが削除された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択する処理と、を含むことを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記探索タイムステップを選択するための前記補正ルールを設定するためのインタフェースを提供する設定部を備えることを特徴とする計算機システム。
計算機システムが実行する文字認識方法であって、
前記計算機システムは、
演算装置、前記演算装置に接続される記憶装置、及び、前記演算装置に接続され、外部装置と接続するインタフェースを有する計算機を少なくとも一つ含み、
文字列の生起確率を示す情報を言語知識として保持し、
前記文字認識方法は、
前記演算装置が、入力画像から、第一数のタイムステップの時系列データの特徴量を算出する第１のステップと、
前記演算装置が、前記時系列データの特徴量に基づいて、前記各タイムステップにおける複数の文字の各々に該当する確率を算出する第２のステップと、
前記演算装置が、ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎを用いて、前記各タイムステップの前記確率が最大の文字から構成される第一文字列を生成し、前記第一文字列から所定のタイムステップを削除することによって第二数の文字から構成される第二文字列を出力する第３のステップと、
前記演算装置が、前記第２のステップの処理結果及び前記言語知識を用いた補正ルールに基づいて前記第二文字列を補正することによって第三数の文字から構成される第三文字列を出力する第４のステップと、を含み、
前記第４のステップは、
前記演算装置が、前記タイムステップの前記確率を成分とする確率ベクトルを前記タイムステップ順に並べた識別候補行列を取得する第５のステップと、
前記演算装置が、前記言語知識を用いて、前記第二文字列に含まれる文字から構成される文字ペアの生起確率を算出する第６のステップと、
前記演算装置が、前記識別候補行列及び前記文字ペアの生起確率を用いた前記補正ルールに基づいて前記第二文字列を補正する第７のステップと、を含み、
前記第７のステップは、
前記演算装置が、前記第一文字列に含まれる文字に対応する前記タイムステップの中から探索タイムステップを選択する第８のステップと、
前記演算装置が、前記探索タイムステップの前記確率ベクトルを用いて、前記探索タイムステップの候補文字を選択し、前記候補文字をノードとする層を定義する第９のステップと、
前記演算装置が、時系列が隣接する二つの前記層の前記ノードを接続することによって有向グラフを生成する第１０のステップと、
前記演算装置が、前記有向グラフを用いて最適パスを探索する第１１のステップと、
前記演算装置が、前記最適パスを構成する前記ノードに対応する文字から構成される前記第三文字列を出力する第１２のステップと、を含み、
前記第８のステップは、
前記演算装置が、前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第一文字列から削除されたタイムステップの中から復元するタイムステップを選択して、前記選択されたタイムステップを復元するステップと、
前記演算装置が、前記選択されたタイムステップが復元された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択するステップと、を含むことを特徴とする文字認識方法。
請求項４に記載の文字認識方法であって、
前記第８のステップは、
前記演算装置が、前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第二文字列から削除するタイムステップを選択して、前記選択されたタイムステップを削除するステップと、
前記演算装置が、前記選択されたタイムステップが削除された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択するステップと、を含むことを特徴とする文字認識方法。
請求項４に記載の文字認識方法であって、
前記演算装置が、前記探索タイムステップを選択するための前記補正ルールを設定するためのインタフェースを提供するステップを含むことを特徴とする文字認識方法。