JP2022166126A - 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム - Google Patents

文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2022166126A
JP2022166126A JP2022126270A JP2022126270A JP2022166126A JP 2022166126 A JP2022166126 A JP 2022166126A JP 2022126270 A JP2022126270 A JP 2022126270A JP 2022126270 A JP2022126270 A JP 2022126270A JP 2022166126 A JP2022166126 A JP 2022166126A
Authority
JP
Japan
Prior art keywords
document
training
matrix
attention
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022126270A
Other languages
English (en)
Other versions
JP7390442B2 (ja
Inventor
ペン,チミン
Qiming Peng
ルオ,ビン
Bin Luo
ツァオ,ユフイ
Yuhui Cao
フェン,シクン
Shikun Feng
チェン,ヨンフェン
Yongfeng Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022166126A publication Critical patent/JP2022166126A/ja
Application granted granted Critical
Publication of JP7390442B2 publication Critical patent/JP7390442B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

【課題】深層学習、自然言語処理、テキスト識別などの技術に係る文書処理モデルの文書意味表現に対する正確性を向上させることができる文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラムを提供する。【解決手段】文書処理モデルのトレーニング方法は、第1のサンプル文書を取得することと、第1のサンプル文書に基づいて、第1のサンプル文書における複数の文書要素の要素特徴及び各文書要素のM種類の位置タイプに対応する位置を決定することと、を含む。文書要素は、第1のサンプル文書における文字又は文書領域に対応する。方法はさらに、複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、文書処理モデルを取得することを含む。【選択図】図2

Description

本開示は人工知能分野における深層学習、自然言語処理、テキスト識別などの技術に関し、特に文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラムに関する。
人工知能はコンピュータを人間のある思考過程及びインテリジェント行為(例えば学習、推論、思考、計画など)をシミュレーションする学科を研究することであり、ハードウェア的な技術もソフトウェア的な技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、クラウド分布記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などの方向を含む。
人工知能は文書処理シーンにおいて多くの応用を取得する。例えば、予めトレーニングして得られたターゲットモデルによって文書を分析し、文書に情報抽出を行い、又は文書を分類するなどであってもよい。上記ターゲットモデルのトレーニング過程は一般的に予備トレーニング及びファインチューニングトレーニングの2つの段階を含む。具体的には、まずサンプル文書を利用して基礎モデルに予備トレーニングを行うことにより、予備トレーニングモデルを取得し、予備トレーニングモデルは文書に意味表現を行うために用いる。予備トレーニングが終了した後、具体的な文書処理タスクに対して、少量のサンプルデータを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、当該具体的な文書処理タスクに対応するターゲットモデルを取得する。
一般的に、上記予備トレーニング段階において、まずサンプル文書における文字情報を識別することができ、これらの文字情報を利用して基礎モデルを訓練し、予備トレーニングモデルを取得する。しかしながら、実際の応用において、上記予備トレーニングモデルは文書の意味表現の正確性が高くないことを発見する。
本開示は、文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラムを提供する。
本開示の第1の態様によれば、文書処理モデルのトレーニング方法が提供され、
第1のサンプル文書を取得するステップと、
前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定するステップであって、ここで、前記文書要素は前記第1のサンプル文書における文字又は文書領域に対応し、前記Mは1以上の整数であるステップと、
前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、前記文書処理モデルを取得するステップとを含む。
本開示の第2の態様によれば、文書処理モデルのトレーニング装置が提供され、
第1のサンプル文書を取得するための第1の取得モジュールと、
前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定するための決定モジュールであって、ここで、前記文書要素は前記第1のサンプル文書における文字又は文書領域に対応し、前記Mは1以上の整数である決定モジュールと、
前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、前記文書処理モデルを取得するための第1のトレーニングモジュールとを含む。
本開示の第3の態様によれば、電子装置が提供され、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信可能に接続されたメモリを含み、ここで、
前記メモリには前記少なくとも1つのプロセッサにより実行できる命令が記憶され、前記命令は前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサは第1の態様に記載の方法を実行させることができる。
本開示の第4の態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ可読媒体が提供され、ここで、前記コンピュータ命令はコンピュータに第1の態様に記載の方法を実行させるために用いられる。
本開示の第5の態様によれば、コンピュータプログラムが提供され、前記コンピュータプログラムが可読記憶媒体に記憶され、電子機器の少なくとも1つのプロセッサが前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサが前記コンピュータプログラムを実行することにより電子機器が第1の態様に記載の方法を実行させる。
理解すべきものとして、本部分に記載の内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の明細書によりわかりやすくなる。
図面は本様態をよりよく理解するために用いられ、本開示を限定するものではない。ここで、
本開示の実施例に係る適用シーンの模式図である。 本開示の実施例に係る文書処理モデルのトレーニング方法のフロー模式図である。 本開示の実施例に係る文書要素の模式図である。 本開示の実施例に係る他の文書要素の模式図である。 本開示の実施例に係るサンプル文書の処理過程の模式図である。 本開示の実施例に係る他のサンプル文書の処理過程の模式図である。 本開示の実施例に係るさらに他の文書処理モデルのトレーニング方法のフロー模式図である。 本開示の実施例に係る基礎モデルのデータ処理過程の模式図である。 本開示の実施例に係るモデルトレーニング過程の模式図である。 本開示の実施例に係る文書処理モデルのトレーニング装置の構造模式図である。 本開示の実施例に係る電子機器の構造模式図である。
以下に図面を参照して本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含んで、理解することに役立ち、それらを例示的なものと考えるべきである。そこで、当業者であれば、ここで説明された実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造についての説明を省略する。
本開示が提供する技術案に対する理解を容易にするために、まず図1を参照して本開示の応用シーンを例として説明する。
図1は本開示の実施例に係る適用シーンの模式図である。図1には文書処理シーンのモデルトレーニング過程が例示される。図1を参照し、モデルトレーニング過程は2つの段階を含み、前記2つの段階はそれぞれ、予備トレーニング段階とファインチューニングトレーニング段階である。説明すべきものとして、上記2つの段階は同じトレーニング機器によって実行されてもよく、それぞれ異なるトレーニング機器によって実行されてもよい。トレーニング機器は一定の計算能力を有する電子機器であってもよく、端末機器、サーバなどを含むがそれらに限定されない。
図1を参照し、予備トレーニング段階において、サンプル文書データベースにおけるサンプル文書を利用して基礎モデルに予備トレーニングを行い、予備トレーニングモデルを取得する。予備トレーニングモデルは、文書を意味表現する能力を有する。上記予備トレーニング過程は一般的に具体的な文書処理タスクと無関係であり、主に予備トレーニングモデルに、文書を意味表現する能力に学習させる。
続いて図1を参照し、ファインチューニングトレーニング段階において、具体的な文書処理タスクに対して、当該タスクに対応する少量のサンプル文書データを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、当該タスクに対応するターゲットモデルを取得する。例えば、タスク1に対応する少量のサンプル文書データを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、タスク1に対応するターゲットモデルを取得する。タスク2に対応する少量のサンプル文書データを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、タスク2に対応するターゲットモデルを取得する。すなわち、ファインチューニングトレーニング段階において、具体的な文書処理タスクを目標としてトレーニングを行うことにより、トレーニングして得られたターゲットモデルは当該文書処理タスクを完成する能力を有する。上記文書処理タスクは、文書分類タスク、文書分析タスク、文書から情報抽出を行うタスクなどを含むがそれらに限定されない。
一般的に、上記予備トレーニング段階において、まずサンプル文書における文字情報を識別することができ、これらの文字情報を利用して基礎モデルを訓練し、予備トレーニングモデルを取得する。しかしながら、実際の応用において、上記予備トレーニングモデルは文書の意味表現の正確性が高くないことを発見する。
本開示は文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラムを提供し、人工知能分野における深層学習、自然言語処理、テキスト識別などの技術に応用され、モデル予備トレーニング段階に用いることができ、それにより予備トレーニングモデルの文書意味表現の正確性を向上させる。
本開示が提供する技術案において、予備トレーニング過程は以下のとおりである。第1のサンプル文書を取得する。第1のサンプル文書に基づいて、第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定し、ここで、文書要素は第1のサンプル文書における文字又は文書領域に対応し、Mは1以上の整数である。上述した複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、予備トレーニングモデルを取得する。
上述した基礎モデルに予備トレーニングを行う過程において、複数の文書要素の要素特徴だけでなく、各文書要素のM種類の位置タイプに対応する位置を利用し、さらに各文書要素の間の相互関係を考慮し、すなわち、考慮された情報がより全面的であり、したがって、予備トレーニングモデルの文書意味表現の正確性を向上させることができる。また、上述した各文書要素は第1のサンプル文書における文字又は文書領域に対応することができ、すなわち、本開示は文字の次元から文書を分析することができるだけでなく、文書領域の次元から文書を分析することができる。したがって、予備トレーニングモデルの文書意味表現の正確性をさらに向上させることができる。
以下にいくつかの具体的な実施例を参照して本開示が提供する技術案を詳細に説明する。以下のいくつかの実施例を互いに組み合わせることができる。同じ又は類似する概念又はプロセスに対していくつかの実施例では説明を省略する可能性がある。
図2は本開示の実施例に係る文書処理モデルのトレーニング方法のフロー模式図である。本実施例の方法は、図1における予備トレーニング段階に適用することができる。図2に示すように、本実施例に係る方法は以下のステップを含む。
S201、第1のサンプル文書を取得する。
例示的には、第1のサンプル文書は図1におけるサンプル文書データベースにおけるサンプル文書であってもよい。第1のサンプル文書は.doc、.excel、.ppt、.pdf、.md、.html、.txt、.jpg、.pngなどの文書タイプのうちのいずれか1種類であってもよいがそれらに限定されるものではない。
本開示の実施例において、第1のサンプル文書には文字、図面、テーブルなどのうちの少なくとも1種類を含んでもよい。ここで、文字は中国語文字、英語文字、又は他の任意の言語の文字であってもよい。
S202、前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定し、ここで、前記文書要素は前記第1のサンプル文書における文字又は文書領域に対応し、前記Mは1以上の整数である。
ここで、文書要素とは、第1のサンプル文書を構成するオブジェクトである。1つの文書要素は、第1のサンプル文書における文字又は文書領域に対応することができる。
1つの例として、図3Aは本開示の実施例に係る文書要素の模式図である。図3Aに示すように、第1のサンプル文書における各文字(例えば文字301、文字302、文字303、文字304など)はいずれも1つの文書要素とすることができる。
1つの例として、図3Bは本開示の実施例に係る他の文書要素の模式図である。図3Bに示すように、第1のサンプル文書はそれぞれ文書領域305、文書領域306、文書領域307及び文書領域308を含む4つの文書領域に分けられる。上述した各文書領域はいずれも1つの文書要素とすることができる。理解すべきものとして、本開示の実施例が文書領域の分割方式、及び分割して得られた文書領域の数を限定せず、図3Bに示すのは一例に過ぎない。
本開示の実施例において、第1のサンプル文書における各文字、及び各文書領域をいずれも1つの文書要素とすることができる。すなわち、第1のサンプル文書にはK1個の文字が含まれ、かつ、第1のサンプル文書がK2個の文書領域に分割されると仮定すると、第1のサンプル文書におけるK1個の文字、及びK2個の文書領域はいずれも文書要素とする。このようにして、第1のサンプル文書においてK1+K2個の文書要素を決定することができる。
各文書要素の要素特徴は、当該文書要素の意味情報を説明するために用いられる。例示的には、第1の文書における複数の文書要素を決定した後、各文書要素に意味表現を行い、当該文書要素の要素特徴を決定してもよい。
一般的に、文書要素の位置を説明するときに、様々な方式を採用して説明することができる。例示的に、1つの可能な方式において、各文書要素の識別子(index又はID)を採用して文書要素の位置を説明してもよい。図3Aに示すように、文書要素301の位置は1、文書要素302の位置は2、文書要素303の位置は3、文書要素304の位置は4などである。他の1つの可能な方式において、座標情報(x,y,h,w)を採用して文書要素の位置を説明してもよい。ここで、(x,y)は文書要素の左上頂点の座標を表し、hは文書要素の高さを表し、wは文書要素の幅を表す。
本開示の実施例において、文書の意味が文書における各文書要素に関連するだけでなく、各文書要素の間の位置に関連することを考慮する。したがって、文書に意味表現をよりよく行うために、第1のサンプル文書における複数の文書要素を決定した後、さらに各文書要素の位置を決定してもよい。
1つの実施形態において、各文書要素の位置は各文書要素のある基準オブジェクトに対する相対位置であってもよい。例示的には、第1のサンプル文書における最初の文書要素を基準オブジェクトとして、各文書要素の最初の文書要素に対する相対位置をそれぞれ決定してもよい。
さらに、本開示の実施例において、文書要素の位置を決定するときに、M種類の位置タイプに対応する位置を決定してもよい。すなわち、それぞれM種類の位置タイプを採用して文書要素の位置を表現する。1つの実施形態において、前記M種類の位置タイプは1次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの1つの種類又は複数の種類を含む。
ここで、文書要素の1次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられる。
例えば、図3Aを参照して例を挙げて説明し、文書要素301の1次元位置タイプに対応する位置を0として表現することができ、文書要素302の1次元位置タイプに対応する位置を1として表現することができ、文書要素303の1次元位置タイプに対応する位置を2として表現することができ、文書要素304の1次元位置タイプに対応する位置を3として表現することができる。
文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第1のプリセット基準座標との間のずれ量を指示するために用いられる。ここで、第1のプリセット基準座標はプリセット基準オブジェクトの文書幅方向での座標であってもよい。
文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第2のプリセット基準座標との間のずれ量を指示するために用いられる。ここで、第2のプリセット基準座標はプリセット基準オブジェクトの文書高さ方向での座標であってもよい。
例えば、文書要素301の座標情報は(x1,y1,h,w)であり、文書要素302の座標情報が(x2,y2,h,w)であり、文書要素303の座標情報が(x3,y3,h,w)であり、文書要素304の座標情報は(x4,y4,h,w)であると仮定し、文書要素301をプリセット基準オブジェクトとすると、
文書高さ方向位置タイプについて、
文書要素301の位置を0(y1-y1=0)と表現してもよい。
文書要素302の位置をy2-y1と表現してもよい。
文書要素303の位置をy3-y1と表現してもよい。
文書要素304の位置をy4-y1と表現してもよい。
文書幅方向位置タイプについて、
文書要素301の位置を0(x1-x1=0)と表現してもよい。
文書要素302の位置をx2-x1と表現してもよい。
文書要素303の位置をx3-x1と表現してもよい。
文書要素304の位置をx4-x1と表現してもよい。
いくつかの可能な実現方式において、さらにプリセットルックアップテーブル方式を採用し、文書要素の様々な位置タイプに対応する位置をベクトル形式に変換することができる。
S203、前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、文書処理モデルを取得する。
ここで、基礎モデルはトレーニングしようとするモデルであり、又は空モデルと呼ばれる。説明すべきものとして、本実施例は基礎モデルのネットワーク構造に対して限定しない。例示的には、基礎モデルはTransformerモデルであってもよい。
本実施例において、複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングすることにより、基礎モデルに学習を継続させて文書意味と各文書要素の要素特徴、各文書要素の位置との間の関係を取得させる。すなわち、トレーニングによって基礎モデルに、文書を意味表現する能力を有させる。
理解すべきものとして、図2に示す実施例は1つのサンプル文書を利用して基礎モデルをトレーニングする過程を説明する。実際の応用において、サンプル文書データベースには複数のサンプル文書が含まれ、各サンプル文書について、それぞれ本実施例のトレーニング過程を実行することにより、基礎モデルの文書を意味表現する能力を強化させつつある。すなわち、図2に示す実施例は繰り返し実行される必要があり、基礎モデルが予め設定された収束条件に達する場合、収束条件に達する基礎モデルを文書処理モデルとする。文書処理モデルは、予備トレーニングモデルと呼ばれてもよい。
本実施例が提供する文書処理モデルのトレーニング方法は、第1のサンプル文書を取得することと、前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定することであって、前記文書要素は前記第1のサンプル文書における文字又は文書領域に対応する、決定することと、前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、これにより、予備トレーニングモデルを取得することとを含む。上述した過程において、複数の文書要素の要素特徴だけでなく、各文書要素のM種類の位置タイプに対応する位置を利用し、さらに各文書要素の間の相互関係を考慮し、すなわち、考慮された情報がより全面的であり、したがって、文書処理モデルの文書意味表現の正確性を向上させることができる。
図2に示す実施例を基に、以下に1つの具体的な実施例を参照して、どのように第1のサンプル文書を処理することにより、複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定するかを説明する。
本実施例において、複数の文書要素はK1文字及びK2個の文書領域を含み、前記K1及び前記K2はいずれも0以上の整数である。以下の方式で第1のサンプル文書を処理することができる。
(1)第1のサンプル文書に対して文字認識処理を行い、前記K1個の文字の要素特徴及び各文字のM種類の位置タイプに対応する位置を取得する。
例示的には、光学文字認識(Optical Character Recognition,OCR)技術を採用して第1のサンプル文書に文字認識処理を行ってもよく、第1のサンプル文書に含まれる文字、及び各文字の第1のサンプル文書での位置を取得する。ここで、上記位置は1次元位置で表されてもよく、2次元位置(例えば座標情報(x,y,h,w))で表されてもよい。
各文字に対して、当該文字にベクトルマッピングを行うことにより、当該文字に対応する単語ベクトルを取得する。上述したOCR技術により認識して得られた各文字の位置情報は、常に絶対位置である。当該文字の絶対位置にベクトルマッピングを行うことにより、当該文字に対応する位置ベクトルを取得してもよい。当該文字に対応する単語ベクトル及び位置ベクトルに基づいて、当該文字の要素特徴を生成する。
さらに、各位置タイプに対して、さらに当該文字の絶対位置に基づいて、当該文字のプリセット基準オブジェクトに対する相対位置を決定してもよい。それにより当該文字のM種類の位置タイプに対応する位置を取得する。
いくつかの可能なシーンにおいて、文書の組版、レイアウトなどの原因により、文書内の全ての文字は左から右へ、上から下への順序に応じて配列されるものではない。例えば図3Aに示す文書の上半部分が2列に分割され、その文書を読むときに、まず左列を読んで、右列を読んで、各列において左から右へ、上から下への順に読む。当該文書に対して文字認識処理を直接的に行うと、認識された文字の順は読み順と一致せず、後続のモデルトレーニング過程に影響を与える。
上記シーンに対して、まず文書のレイアウトを解析し、レイアウト情報を取得してもよく、さらにレイアウト情報に基づいて文字認識処理を行い、それにより認識された文字の順が読み順と一致することを保証する。以下に図4を参照して例を挙げて説明する。
図4は本開示の実施例に係るサンプル文書の処理過程の模式図である。図4に示すように、第1のサンプル文書を複数のテキストブロックに分割して、複数のテキストブロックの読み優先順位を決定してもよい。例えば、図4において、第1のサンプル文書を5つのテキストブロックに分割し、読み順は、順次テキストブロック1、テキストブロック3、テキストブロック2、テキストブロック4及びテキストブロック5である。
続いて図4を参照し、それぞれ各テキストブロックに対して文字認識処理を行い、当該テキストブロックに含まれる文字、及び各文字のテキストブロックにおける位置情報を取得する。前記複数のテキストブロックの読み優先順位に基づいて、各テキストブロックに含まれる文字を組み合わせて、第1のサンプル文書に含まれるK1個の文字を取得する。例えば、テキストブロック1、テキストブロック3、テキストブロック2、テキストブロック4、テキストブロック5に含まれる文字を順に組み合わせて、第1のサンプル文書に含まれるK1個の文字を取得する。
前記K1個の文字のそれぞれに対して、当該文字にベクトルマッピングを行うことにより、当該文字に対応する単語ベクトルを取得する。当該文字のテキストブロックにおける位置及び各テキストブロックの間の位置関係に基づいて、当該文字の第1のサンプル文書における絶対位置を決定する。当該文字の第1のサンプル文書における絶対位置にベクトルマッピングを行うことにより、当該文字に対応する位置ベクトルを取得する。当該文字に対応する単語ベクトル及び位置ベクトルに基づいて、当該文字の要素特徴を生成する。
さらに、各位置タイプに対して、さらに当該文字の第1のサンプル文書における絶対位置に基づいて、当該文字のプリセット基準オブジェクトに対する相対位置を決定してもよい。それにより当該文字のM種類の位置タイプに対応する位置を取得する。
(2)第1のサンプル文書に対応する文書画像をK2個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記K2個の文書領域の要素特徴及び各文書領域のM種類の位置タイプに対応する位置を取得する。
以下に図5を参照して例を挙げて説明する。
図5は本開示の実施例に係る他のサンプル文書の処理過程の模式図である。図5に示すように、第1のサンプル文書に対応する文書画像をK2個の文書領域(K2=4を例とする)に分割して、各文書領域の文書画像における位置を決定する。上記位置は1次元位置で表されてもよく、2次元位置(例えば座標情報(x,y,h,w))で表されてもよい。理解すべきものとして、上記位置は絶対位置である。さらに、各位置タイプに対して、各文書領域の絶対位置に基づいて、当該文書領域のプリセット基準オブジェクトに対する相対位置を決定する。それにより各文書領域のM種類の位置タイプに対応する位置を取得する。
さらに、文書画像に特徴抽出を行い、文書画像の画像特徴を取得してもよい。例えば、文書画像を畳み込みネットワーク構造の視覚エンコーダー(Visual Encoder)に入力し、視覚エンコーダーにより文書画像に符号化処理を行い、画像特徴を取得してもよい。K2個の文書領域内の各文書領域に対して、画像特徴から当該文書領域に対応する領域特徴を取得する。例えば、画像特徴を平均プーリング層(average pooling)及び全結合層に入力することにより、画像特徴をK2個の文書領域の領域特徴にマッピングする。各文書領域に対して、当該文書領域の文書画像における絶対位置にベクトルマッピング処理を行い、当該文書領域の位置特徴を取得する。当該文書領域の領域特徴及び位置特徴をスティッチングし、当該文書領域の要素特徴を取得する。
理解すべきものとして、上記図4に示す過程により、K1個の文字の要素特徴、及び各文字のM種類の位置タイプに対応する位置を取得することができる。上記図5に示す過程により、K2個の文書領域の要素特徴、及び各文書領域のM種類の位置タイプに対応する位置を取得することができる。上記K1個の文字及びK2個の文書領域をそれぞれ文書要素とし、合計K1+K2個の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を取得する。このように、第1のサンプル文書を利用して基礎モデルをトレーニングするときに、文字の次元から文書を分析することができるだけでなく、文書領域の次元から文書を分析することができる。したがって、文書処理モデルの文書意味表現の正確性をさらに向上させることができる。
上記任意の実施例に基づいて、以下に具体的な実施例を組み合わせて、本開示が提供する文書処理モデルのトレーニング方法をより詳細に説明する。
図6は本開示の実施例に係るさらに他の文書処理モデルのトレーニング方法のフロー模式図である。本実施例の方法は、図2に示す例におけるS203の可能な実現形態としてもよい。図6に示すように、本実施例に係る方法は以下のステップを含む。
S601、複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を基礎モデルに入力する。
理解を容易にするために、以下に図7を参照して例を挙げて説明する。
図7は本開示の実施例に係る基礎モデルのデータ処理過程の模式図である。図7に示すように、M=3であると仮定し、M種類の位置タイプはそれぞれ位置タイプA、位置タイプB、位置タイプCである。例えば、位置タイプAは1次元位置タイプであってもよく、位置タイプBは文書高さ方向の位置タイプであってもよく、位置タイプCは文書幅方向の位置タイプであってもよい。
図7を参照して、文書要素の数がXであると仮定する。基礎モデルに、各文書要素(文書要素1~x)の要素特徴、各文書要素(文書要素1~x)の位置タイプAに対応する位置、各文書要素(文書要素1~x)の位置タイプBに対応する位置、各文書要素(文書要素1~x)の位置タイプCに対応する位置を入力する。
本実施例において、各文書要素のM種類の位置タイプに対応する位置をそれぞれ基礎モデルに入力し、M種類の位置タイプに対応する位置を融合した後に融合位置を基礎モデルに入力することではなく、このようにして、異なる位置タイプに対応する位置が早すぎて融合することを回避することができ、それにより、基礎モデルの内部に異なる位置タイプに対応する位置を区別することができ、又は、基礎モデルの内部に異なる位置タイプに対応する位置にディカップリング処理を行うことができ、さらにモデルトレーニング過程においてより多くの知識を学習することができ、文書に対する意味表現能力を向上させる。
S602、前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定する。
換言すれば、基礎モデルの内部において、複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定する。理解すべきものとして、文書要素の注意力重みが大きいほど、トレーニング過程においてより多くの注意力を当該文書要素の要素特徴に加えることを説明する。文書要素の注意力重みが小さいほど、トレーニング過程において少ない注意力を当該文書要素の要素特徴に加えることを説明する。以上より、各文書要素の注意力重みパラメータはモデルトレーニング過程を指導することができる。
1つの可能な実施形態において、各文書要素の注意力重みパラメータを以下の方式で決定することができる。
(1)前記複数の文書要素の要素特徴に対して第1の線形処理及び第2の線形処理を行い、それぞれ第1の特徴行列及び第2の特徴行列を取得する。
例示的には、図7を参照して、各文書要素(文書要素1~x)の要素特徴に対して第1の線形処理を行い、第1の特徴行列Qを取得する。各文書要素(文書要素1~x)の要素特徴に対して第2の線形処理を行い、第2の特徴行列Kを取得する。
(2)前記M種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して第1の線形処理及び第2の線形処理を行い、それぞれ前記位置タイプに対応する第1の位置行列及び第2の位置行列を取得する。
例示的には、図7を参照して、位置タイプAに対応する各文書要素(文書要素1~x)の位置に対して第1の線形処理を行い、位置タイプAに対応する第1の位置行列Qを取得する。位置タイプAに対応する各文書要素(文書要素1~x)の位置に対して第2の線形処理を行い、第2の位置行列Kを取得する。
続いて図7を参照して、位置タイプBに対応する各文書要素(文書要素1~x)の位置に対して第1の線形処理を行い、位置タイプBに対応する第1の位置行列Qを取得する。位置タイプBに対応する各文書要素(文書要素1~x)の位置に対して第2の線形処理を行い、位置タイプBに対応する第2の位置行列Kを取得する。
続いて図7を参照して、位置タイプCに対応する各文書要素(文書要素1~x)の位置に対して第1の線形処理を行い、位置タイプCに対応する第1の位置行列Qを取得する。位置タイプCに対応する各文書要素(文書要素1~x)の位置に対して第2の線形処理を行い、位置タイプCに対応する第2の位置行列Kを取得する。
(3)前記第1の特徴行列、前記第2の特徴行列、及び前記M種類の位置タイプそれぞれに対応する第1の位置行列及び第2の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定する。
1つの可能な実施形態において、以下の方式を採用することができる。
(a)第1の特徴行列及び第2の特徴行列に基づいて、第1の注意力行列を決定する。
例示的には、図7を参照して、第1の特徴行列Qと第2の特徴行列Kに対して所定の演算を行うことにより、第1の注意力行列を取得することができる。1つの実施形態において、上記所定の演算は行列内積演算であってもよい。
(b)第1の特徴行列及び各位置タイプに対応する第2の位置行列に基づいて、当該位置タイプに対応する第2の注意力行列を決定する。
続いて図7を参照して、第1の特徴行列Qと位置タイプAに対応する第2の位置行列Kに所定の演算を行い、位置タイプAに対応する第2の注意力行列を取得する。第1の特徴行列Qと位置タイプBに対応する第2の位置行列Kに所定の演算を行い、位置タイプBに対応する第2の注意力行列を取得する。第1の特徴行列Qと位置タイプCに対応する第2の位置行列Kに所定の演算を行い、位置タイプCに対応する第2の注意力行列を取得する。1つの実施形態において、上記所定の演算は行列内積演算であってもよい。
(c)第2の特徴行列及び各位置タイプに対応する第1の位置行列に基づいて、当該位置タイプに対応する第3の注意力行列を決定する。
続いて図7を参照して、第2の特徴行列Kと位置タイプAに対応する第1の位置行列Qに所定の演算を行い、位置タイプAに対応する第3の注意力行列を取得する。第2の特徴行列Kと位置タイプBに対応する第1の位置行列Qに所定の演算を行い、位置タイプBに対応する第3の注意力行列を取得する。第2の特徴行列Kと位置タイプCに対応する第1の位置行列Qに所定の演算を行い、位置タイプCに対応する第3の注意力行列を取得する。1つの実施形態において、上記所定の演算は行列内積演算であってもよい。
(d)第1の注意力行列、及びM種類の位置タイプそれぞれに対応する第2の注意力行列及び第3の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定する。
1つの実施形態において、前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列と第3の注意力行列との和を、目標注意力行列として決定してもよい。さらに、目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定する。
例示的には、図7を参照して、第1の注意力行列、位置タイプAに対応する第2の注意力行列、位置タイプAに対応する第3の注意力行列、位置タイプBに対応する第2の注意力行列、位置タイプBに対応する第3の注意力行列、位置タイプCに対応する第2の注意力行列、位置タイプCに対応する第3の注意力行列を加算して、目標注意力行列を取得する。さらに、目標注意力行列に基づいて、各文書要素の注意力重みパラメータを決定する。
S603、前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、文書処理モデルを取得する。
例示的には、続いて図7を参照して、各文書要素(文書要素1~x)の要素特徴に対して第3の線形処理を行い、第3の特徴行列Vを取得する。さらに、第3の特徴行列V及び各文書要素の注意力重みパラメータに基づいて、基礎モデルをトレーニングして、文書処理モデルを取得する。
各文書要素の注意力重みパラメータはトレーニング過程において各文書要素に与える注意力を指示し、したがって、基礎モデルをトレーニングするとき、各文書要素の注意力重みパラメータに基づいて、異なる文書要素に異なる注意力を加えることができ、それにより文書処理モデルの文書に対する意味表現能力を向上させる。
本実施例において、各文書要素の要素特徴及び各文書要素のM種類の位置タイプに対応する位置を基礎モデルに入力することにより、基礎モデルの内部に異なる位置タイプに対応する位置を区別することができ、又は、基礎モデルの内部に異なる位置タイプに対応する位置にディカップリング処理を行うことができ、これにより、モデルトレーニング過程においてより多くの知識を学習することができ、文書に対する意味表現能力を向上させる。
さらに、基礎モデルの内部において、各文書要素の注意力重みパラメータを決定するとき、第1の特徴行列Q及び第2の特徴行列Kで取得された第1の注意力行列だけでなく、第1の特徴行列Qと異なる位置タイプに対応する第2の位置行列(K、K、K)で取得された各位置タイプに対応する第2の注意力行列、及び第2の特徴行列Kと異なる位置タイプに対応する第1の位置行列(Q、Q、Q)を考慮して取得された各位置タイプに対応する第3の注意力行列を考慮する。すなわち、各文書要素の注意力重みパラメータを決定するとき、要素特徴と異なる位置タイプに対応する位置との間の関係を十分に考慮し、それによりモデルトレーニング過程においてより多くの知識を学習することができ、文書に対する意味表現能力をさらに向上させる。
図6及び図7に示す実施例を基に、基礎モデルに予備トレーニングを行う過程において、N個のトレーニングタスクを同時にトレーニングする方式を採用してもよく、Nは1以上の整数である。このようにして、文書処理モデルは異なる文書処理タスクシーンに迅速に遷移することができる。
4つのトレーニングタスクを例として説明する。4つのトレーニングタスクはそれぞれ以下のとおりであると仮定する。
トレーニングタスク1:サンプル文書における一部の文字に対してマスク(mask)を行うことができ、予備トレーニング過程において、マスクされたのはどのような文字であるかを予測する。当該予測タスクにおいて、一部の文字をマスクする以外に、マスクする文字が位置する文書領域に対して黒塗り操作を行う必要があり、それにより文書領域側のタグ漏洩を回避する。
トレーニングタスク2:第1のサンプル文書におけるある文書領域をランダムに黒く塗り、どの文字が黒く塗られるかを予測する。
トレーニングタスク3:第1のサンプル文書におけるある文書領域をランダムに置換し、どの文書領域が置換されるかを予測する。
トレーニングタスク4:第1のサンプル文書におけるある文字に対して、当該文字の次の文字がどれであるかを予測する。
以下に図8を参照しながら複数のトレーニングタスクを同時に実行するモデルトレーニングの方式に例を挙げて説明する。図8は本開示の実施例に係るモデルトレーニング過程の模式図である。図8に示すように、第1のサンプル文書の関連データ(各文書要素の要素特徴、各文書要素のM種類の位置タイプに対応する位置)を基礎モデルに入力する前に、複数の文書要素においてそれぞれのトレーニングタスクに対応する目標文書要素を決定して、前記目標文書要素にスクランブリング処理を行うことをさらに含む。すなわち、上記4つのトレーニングタスクのそれぞれに対応する目標文書要素にスクランブリング処理を行った後、さらに基礎モデルを入力する。上記スクランブリング処理は、マスク処理、置換処理、黒塗り処理などであってもよい。
基礎モデルの内部において、第3の特徴行列及び各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定してもよい。図8を参照して例を挙げて説明し、トレーニングタスク1について、第3の特徴行列及び各文書要素の注意力重みパラメータに基づいて、トレーニングタスク1に対応する予測文書要素を決定する(すなわち、どの文字がマスクされたかを予測する)。トレーニングタスク2について、第3の特徴行列及び各文書要素の注意力パラメータに基づいて、トレーニングタスク2に対応する予測文書要素を決定する(すなわち、どの文字が黒く塗られたかを予測する)。トレーニングタスク3について、第3の特徴行列及び各文書要素の注意力パラメータに基づいて、トレーニングタスク3に対応する予測文書要素を決定する(すなわち、どの文字領域が置換されたかを予測する)。トレーニングタスク4について、第3の特徴行列及び各文書要素の注意力パラメータに基づいて、トレーニングタスク4に対応する予測文書要素を決定する(すなわち、次の文字を予測する)。
さらに、N個のトレーニングタスクのそれぞれに対応する目標文書要素、及びN個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、基礎モデルをトレーニングすることにより、文書処理モデルを取得してもよい。
例示的には、N個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定する。図8を参照して例を挙げて説明し、トレーニングタスク1に対応する予測文書要素及びトレーニングタスク1に対応する目標文書要素に基づいて、トレーニングタスク1に対応する損失関数を決定する。トレーニングタスク2に対応する予測文書要素及びトレーニングタスク2に対応する目標文書要素に基づいて、トレーニングタスク2に対応する損失関数を決定する。トレーニングタスク3に対応する予測文書要素とトレーニングタスク3に対応する目標文書要素に基づいて、トレーニングタスク3に対応する損失関数を決定する。トレーニングタスク4に対応する予測文書要素とトレーニングタスク4に対応する目標文書要素に基づいて、トレーニングタスク4に対応する損失関数を決定する。
N個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定する。図8を参照し、トレーニングタスク1に対応する損失関数、トレーニングタスク2に対応する損失関数、トレーニングタスク3に対応する損失関数、及びトレーニングタスク4に対応する損失関数に所定の演算を行い、目標損失関数を取得してもよい。さらに、目標損失関数に基づいて、基礎モデルのモデルパラメータを更新する。
理解すべきものとして、上記説明は1回の反復トレーニング過程である。複数のサンプル文書について、それぞれ上記反復トレーニング過程を実行し、基礎モデルが収束条件に達するまでトレーニングを停止する。収束条件に達した基礎モデルを文書処理モデルとする。
本実施例において、複数のトレーニングタスクを同時に行うモデルトレーニング方式を採用することにより、文書処理モデルは複数のトレーニングタスクのトレーニング目標を融合させ、文書処理モデルの文書意味表現への効果を向上させ、それにより文書処理モデルは異なる文書処理シーンに迅速に遷移することができる。
上記任意の実施例に基づいて、文書処理モデルを取得した後、さらに、予め設定された文書タスクに対応するサンプルデータを取得することであって、前記サンプルデータは第2のサンプル文書及び前記第2のサンプル文書に対応するラベルデータを含む、取得することと、前記文書処理モデルにより前記第2のサンプル文書を処理し、予測データを取得することと、前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得することとをさらに含んでもよい。
ここで、上記予め設定された文書タスクは、文書分類タスク、文書分析タスク、文書から情報抽出を行うタスクなどを含むがそれらに限定されない。
サンプルデータには、第2のサンプル文書及び第2のサンプル文書に対応するラベルデータが含まれる。理解すべきものとして、異なる文書処理タスクについて、サンプルデータにおけるラベルデータが異なる可能性があり、本実施例はこれを限定しない。例えば、文書分類タスクについて、上記ラベルデータは第2のサンプル文書のラベル種別を指示してもよい。文書解析タスクについて、上記ラベルデータは第2のサンプル文書のラベル分析結果を指示してもよい。文書情報抽出タスクについて、上記ラベルデータは第2のサンプル文書のラベル情報抽出結果を指示してもよい。
第2のサンプルデータを文書処理モデルに入力し、文書処理モデルにより第2のサンプルデータを処理し、予測データを取得する。理解すべきものとして、異なる文書処理タスクについて、文書処理モデルが出力した予測データが異なる可能性があり、本実施例はこれを限定しない。例えば、文書分類タスクについて、上記予測データは第2のサンプル文書の予測種別を指示してもよい。文書分析タスクについて、上記予測データは第2のサンプル文書の予測分析結果を指示してもよい。文書情報抽出タスクについて、上記予測データは第2のサンプル文書の予測情報抽出結果を指示してもよい。
予測データ及びラベルデータに基づいて、損失関数を決定し、損失関数に基づいて文書処理モデルのモデルパラメータを調整する。
理解すべきものとして、本実施例が説明するのは図1に示すファインチューニング段階である。ファインチューニング段階において、予め設定された文書タスクに対応する少量のサンプルデータを利用し、予備トレーニング段階で取得した文書処理モデルにファインチューニングトレーニングを行うだけで、予め設定された文書タスクに対応する目標モデルを取得することができ、モデルトレーニング効率を向上させる。本開示において、予備トレーニング過程は文書処理モデルの文書意味の表現能力を向上させ、したがって、予め設定された文書タスクに対応する目標モデルの文書処理品質も向上させる。
図9は本開示の実施例に係る文書処理モデルのトレーニング装置の構造模式図である。本実施例に係る文書処理モデルのトレーニング装置は、ソフトウェア及び/又はハードウェアの形式であってもよい。図9に示すように、本実施例に係る文書処理モデルのトレーニング装置900は、第1の取得モジュール901、処理モジュール902及び第1のトレーニングモジュール903を含む。ここで、
第1の取得モジュール901は、第1のサンプル文書を取得するために用いられる。
決定モジュール902は、前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定するために用いられる。ここで、前記文書要素は前記第1のサンプル文書における文字又は文書領域に対応し、前記Mは1以上の整数である。
第1のトレーニングモジュール903は、前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、文書処理モデルを取得するために用いられる。
1つの可能な実施形態において、前記第1のトレーニングモジュール903は、
前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を前記基礎モデルに入力するための入力ユニットと、
前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するための第1の決定ユニットと、
前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するためのトレーニングユニットとを含む。
1つの可能な実施形態において、前記第1の決定ユニットは、
前記複数の文書要素の要素特徴に対して第1の線形処理及び第2の線形処理を行い、それぞれ第1の特徴行列及び第2の特徴行列を取得するための第1の処理サブユニットと、
前記M種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して前記第1の線形処理及び前記第2の線形処理を行い、それぞれ前記位置タイプに対応する第1の位置行列及び第2の位置行列を取得するための第2の処理サブユニットと、
前記第1の特徴行列、前記第2の特徴行列、及び前記M種類の位置タイプそれぞれに対応する第1の位置行列及び第2の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するための決定サブユニットとを含む。
1つの可能な実施形態において、前記決定サブユニットは、具体的に、
前記第1の特徴行列及び前記第2の特徴行列に基づいて、第1の注意力行列を決定することと、
前記第1の特徴行列及び各位置タイプに対応する第2の位置行列に基づいて、当該位置タイプに対応する第2の注意力行列を決定することと、
前記第2の特徴行列及び各位置タイプに対応する第1の位置行列に基づいて、当該位置タイプに対応する第3の注意力行列を決定することと、
前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列及び第3の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる。
1つの可能な実施形態において、前記決定サブユニットは、具体的に、
前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列と第3の注意力行列との和を、目標注意力行列として決定することと、
前記目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる。
1つの可能な実施形態において、前記トレーニングユニットは、
前記複数の文書要素の要素特徴に対して第3の線形処理を行い、第3の特徴行列を取得するための第3の処理サブユニットと、
前記第3の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するためのトレーニングサブユニットとを含む。
1つの可能な実施形態において、前記第1のトレーニングモジュール903は、
N個のトレーニングタスクに基づいて、前記複数の文書要素において各トレーニングタスクに対応する目標文書要素をそれぞれ決定して、前記目標文書要素にスクランブリング処理を行うためのスクランブリング処理ユニットであって、前記Nは1以上の整数であるスクランブリング処理ユニットをさらに含む。
前記トレーニングサブユニットは具体的に、
前記第3の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定することと、
前記N個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記N個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、前記文書処理モデルを取得することとに用いられる。
1つの可能な実施形態において、前記トレーニングサブユニットは、具体的に、
前記N個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定することと、
前記N個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定することと、
前記目標損失関数に基づいて、前記基礎モデルのモデルパラメータを更新するすることにより、前記文書処理モデルを取得することとに用いられる。
1つの可能な実施形態において、前記複数の文書要素はK1個の文字及びK2個の文書領域を含み、前記K1及び前記K2はいずれも0以上の整数である。前記決定モジュール902は、
前記第1のサンプル文書に対して文字認識処理を行い、前記K1個の文字の要素特徴及び各文字のM種類の位置タイプに対応する位置を取得するための第2の決定ユニットと、
前記第1のサンプル文書に対応する文書画像をK2個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記K2個の文書領域の要素特徴及び各文書領域のM種類の位置タイプに対応する位置を取得するための第3の決定ユニットとを含む。
1つの可能な実施形態において、本実施例の文書処理モデルのトレーニング装置900は、
予め設定された文書タスクに対応するサンプルデータを取得するための第2の取得モジュールであって、前記サンプルデータは、第2のサンプル文書及び前記第2のサンプル文書に対応するラベルデータを含む第2の取得モジュールと、
前記文書処理モデルにより前記第2のサンプル文書を処理し、予測データを取得するための処理モジュールと、
前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得するための第2のトレーニングモジュールとをさらに含む。
つの可能な実施形態において、前記M種類の位置タイプは1次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの1つの種類又は複数の種類を含む。
前記文書要素の1次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられる。
前記文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第1のプリセット基準座標との間のずれ量を指示するために用いられる。
前記文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第2のプリセット基準座標との間のずれ量を指示するために用いられる。
本実施例に係る文書処理モデルのトレーニング装置は、上記任意の方法実施例に係る文書処理モデルのトレーニング方法を実行するために用いられ、その実現原理及び技術的効果が類似し、ここでは説明を省略する。
本開示の技術案において、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、いずれも関連する法律、規則の規定に適合し、かつ公序良俗に反するものではない。
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の実施例によれば、本開示はさらにコンピュータプログラム製品が提供され、コンピュータプログラム製品は、コンピュータプログラムを含み、コンピュータプログラムが可読記憶媒体に記憶され、電子装置の少なくとも1つのプロセッサが可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行することにより電子機器が上記いずれかの実施例に係るスキームを実行させる。
図10は、本開示の実施例を実施するために使用されることができる例示的な電子機器1000の模式的なブロック図が示される。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表すことを意図する。電子機器はさらに様々な形式の移動装置を表してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示されたパーツ、それらの接続及び関係、及びそれらの機能は例示に過ぎず、かつ本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図10に示すように、電子機器1000はコンピューティングユニット1001を含み、それはリードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラム又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する。RAM1003において、さらに電子機器1000の操作に必要な様々なプログラム及びデータを記憶してもよい。コンピューティングユニット1001、ROM1002、及びRAM1003は、バス1004により相互に接続される。バス1004には、さらに、入出力(I/O)インタフェース1005が接続される。
電子機器1000における複数のパーツはI/Oインタフェース1005に接続され、複数のパーツは、例えばキーボード、マウスなどである入力ユニット1006、例えば様々なタイプのディスプレイ、スピーカなどである出力ユニット1007、例えば磁気ディスク、光ディスクなどである記憶ユニット1008、及び例えばネットワークカード、モデム、無線通信トランシーバなどである通信ユニット1009を含む。通信ユニット1009は、電子機器1000がインターネットなどのコンピュータネットワーク及び/又は様々の電気通信網を介して他の機器と情報/データを交換することを許可する。
コンピューティングユニット1001は、様々の処理及び算出能力を有する汎用及び/又は専用の処理コンポーネントであってもよい。コンピューティングユニット1001のいくつかの例示は、中央処理部(CPU)、グラフィクスプロセッシングユニット(GPU)、様々の種類の専用の人工知能(AI)計算チップ、様々の機械学習モデルアルゴリズムを動作するコンピューティングユニット、デジタル信号処理部(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されるものではない。コンピューティングユニット1001は上記説明された各方法及び処理、例えば文書処理モデルのトレーニング方法を実行する。例えば、いくつかの実施例において、文書処理モデルのトレーニング方法はコンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット1008に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM1002及び/又は通信ユニット1009を介して電子機器1000にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされて、コンピューティングユニット1001により実行される場合、上記記載された文書処理モデルのトレーニング方法の1つ又は複数のステップを実行させることができる。代替的に、他の実施例において、コンピューティングユニット1001は他の任意の適切な方式(例えば、ファームウェアにより)により文書処理モデルのトレーニング方法を実行するように構成されてもよい。
本明細書で説明したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、複雑なプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は以下を含んでもよい。1つ又は複数のコンピュータプログラムにおいて、当該1つ又は複数のコンピュータプログラムは少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され、当該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信して、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送してもよい。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されるときにフローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは機器に完全に実行されもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして、部分的に機器で実行され、かつ部分的に遠隔機器で実行され、又は完全に遠隔機器又はサーバで実行される。
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、それは命令実行システム、装置又は機器が使用する又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか又は記憶してもよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子的、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例は1つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯式コンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びキーボードとポインティング装置(例えば、マウス又はトラックボール)を有し、ユーザは当該キーボード及び当該ポインティング装置を介して入力をコンピュータに提供することができる。他の種類の装置はさらにユーザとの対話を提供するために用いられる。例えば、ユーザに提供されたフィードバックは任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かつ任意の形式(声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術をバックグラウンドパーツを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアパーツを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドパーツを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインタフェース又は当該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンドパーツ、ミドルウェアパーツ、又はフロントエンドパーツの任意の組み合わせを含むコンピューティングシステムに実施してもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムのパーツを互いに接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムはクライアント及びサーバを含んでもよい。クライアントとサーバとは一般的に離れており、かつ普通に通信ネットワークを介して対話を行う。クライアントとサーバとの関係は、対応するコンピュータで動作され、かつお互いにクライアント‐サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、それにより従来の物理ホストとVPS(Virtual Private Server)サービスにおいて、存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分散式システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
理解すべきものとして、以上に示した様々な形式のフローを使用し、改めてソーティングし、ステップを追加するか又は削除してもよい。例えば、本開示に記載の各ステップは並列的に実行されてもよく、順に実行されてもよく、異なる順序で実行されてもよく、本開示に開示される技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要求及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることを理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (25)

  1. 第1のサンプル文書を取得するステップと、
    前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定するステップであって、ここで、前記文書要素は前記第1のサンプル文書における文字又は文書領域に対応し、前記Mは1以上の整数であるステップと、
    前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、前記文書処理モデルを取得するステップとを含む、文書処理モデルのトレーニング方法。
  2. 前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、前記文書処理モデルを取得するステップは、
    前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を前記基礎モデルに入力するステップと、
    前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するステップと、
    前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するステップと、を含む、請求項1に記載の文書処理モデルのトレーニング方法。
  3. 複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するステップは、
    前記複数の文書要素の要素特徴に対して第1の線形処理及び第2の線形処理を行い、それぞれ第1の特徴行列及び第2の特徴行列を取得するステップと、
    前記M種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して前記第1の線形処理及び前記第2の線形処理を行い、それぞれ前記位置タイプに対応する第1の位置行列及び第2の位置行列を取得するステップと、
    前記第1の特徴行列、前記第2の特徴行列、及び前記M種類の位置タイプそれぞれに対応する第1の位置行列及び第2の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップと、を含む、請求項2に記載の文書処理モデルのトレーニング方法。
  4. 前記第1の特徴行列、前記第2の特徴行列、及び前記M種類の位置タイプそれぞれに対応する第1の位置行列及び第2の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップは、
    前記第1の特徴行列及び前記第2の特徴行列に基づいて、第1の注意力行列を決定するステップと、
    前記第1の特徴行列及び各位置タイプに対応する第2の位置行列に基づいて、当該位置タイプに対応する第2の注意力行列を決定するステップと、
    前記第2の特徴行列及び各位置タイプに対応する第1の位置行列に基づいて、当該位置タイプに対応する第3の注意力行列を決定するステップと、
    前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列及び第3の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップと、を含む、請求項3に記載の文書処理モデルのトレーニング方法。
  5. 前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列及び第3の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップは、
    前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列と第3の注意力行列との和を、目標注意力行列として決定するステップと、
    前記目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップとを含む、請求項4に記載の文書処理モデルのトレーニング方法。
  6. 前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するステップは、
    前記複数の文書要素の要素特徴に対して第3の線形処理を行い、第3の特徴行列を取得するステップと、
    前記第3の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するステップとを含む、請求項2~請求項5のいずれか一項に記載の文書処理モデルのトレーニング方法。
  7. 前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を前記基礎モデルに入力するステップの前に、
    N個のトレーニングタスクに基づいて、前記複数の文書要素において各トレーニングタスクに対応する目標文書要素をそれぞれ決定して、前記目標文書要素にスクランブリング処理を行うステップであって、前記Nは1以上の整数であるステップをさらに含み、
    前記第3の特徴行列及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するステップは、
    前記第3の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定するステップと、
    前記N個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記N個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、前記文書処理モデルを取得するステップと、を含む、請求項6に記載の文書処理モデルのトレーニング方法。
  8. 前記N個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記N個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、前記文書処理モデルを取得するステップは、
    前記N個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定するステップと、
    前記N個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定するステップと、
    前記目標損失関数に基づいて、前記基礎モデルのモデルパラメータを更新するすることにより、前記文書処理モデルを取得するステップと、を含む、請求項7に記載の文書処理モデルのトレーニング方法。
  9. 前記複数の文書要素はK1個の文字及びK2個の文書領域を含み、前記K1及び前記K2はいずれも0以上の整数であり、前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定するステップは、
    前記第1のサンプル文書に対して文字認識処理を行い、前記K1個の文字の要素特徴及び各文字のM種類の位置タイプに対応する位置を取得するステップと、
    前記第1のサンプル文書に対応する文書画像をK2個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記K2個の文書領域の要素特徴及び各文書領域のM種類の位置タイプに対応する位置を取得するステップとを含む、請求項1~請求項5のいずれか一項に記載の文書処理モデルのトレーニング方法。
  10. 前記文書処理モデルを取得するステップの後に、
    予め設定された文書タスクに対応するサンプルデータを取得するステップであって、前記サンプルデータは、第2のサンプル文書及び前記第2のサンプル文書に対応するラベルデータを含むステップと、
    前記文書処理モデルにより前記第2のサンプル文書を処理し、予測データを取得するステップと、
    前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得するステップとをさらに含む、請求項1~請求項5のいずれか一項に記載の文書処理モデルのトレーニング方法。
  11. 前記M種類の位置タイプは、
    1次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの1つの種類又は複数の種類を含み、
    前記文書要素の1次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられ、
    前記文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第1のプリセット基準座標との間のずれ量を指示するために用いられ、
    前記文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第2のプリセット基準座標との間のずれ量を指示するために用いられる、請求項1~請求項5のいずれか一項に記載の文書処理モデルのトレーニング方法。
  12. 第1のサンプル文書を取得するための第1の取得モジュールと、
    前記第1のサンプル文書に基づいて、前記第1のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を決定するための決定モジュールであって、ここで、前記文書要素は前記第1のサンプル文書における文字又は文書領域に対応し、前記Mは1以上の整数である決定モジュールと、
    前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、前記文書処理モデルを取得するための第1のトレーニングモジュールと、を含む、文書処理モデルのトレーニング装置。
  13. 前記第1のトレーニングモジュールは、
    前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置を前記基礎モデルに入力するための入力ユニットと、
    前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のM種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するための第1の決定ユニットと、
    前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するためのトレーニングユニットとを含む、請求項12に記載の文書処理モデルのトレーニング装置。
  14. 前記第1の決定ユニットは、
    前記複数の文書要素の要素特徴に対して第1の線形処理及び第2の線形処理を行い、それぞれ第1の特徴行列及び第2の特徴行列を取得するための第1の処理サブユニットと、
    前記M種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して前記第1の線形処理及び前記第2の線形処理を行い、それぞれ前記位置タイプに対応する第1の位置行列及び第2の位置行列を取得するための第2の処理サブユニットと、
    前記第1の特徴行列、前記第2の特徴行列、及び前記M種類の位置タイプそれぞれに対応する第1の位置行列及び第2の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するための決定サブユニットとを含む、請求項13に記載の文書処理モデルのトレーニング装置。
  15. 前記決定サブユニットは具体的に、
    前記第1の特徴行列及び前記第2の特徴行列に基づいて、第1の注意力行列を決定することと、
    前記第1の特徴行列及び各位置タイプに対応する第2の位置行列に基づいて、当該位置タイプに対応する第2の注意力行列を決定することと、
    前記第2の特徴行列及び各位置タイプに対応する第1の位置行列に基づいて、当該位置タイプに対応する第3の注意力行列を決定することと、
    前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列及び第3の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる、請求項14に記載の文書処理モデルのトレーニング装置。
  16. 前記決定サブユニットは具体的に、
    前記第1の注意力行列、及び前記M種類の位置タイプそれぞれに対応する第2の注意力行列と第3の注意力行列との和を、目標注意力行列として決定することと、
    前記目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる、請求項15に記載の文書処理モデルのトレーニング装置。
  17. 前記トレーニングユニットは、
    前記複数の文書要素の要素特徴に対して第3の線形処理を行い、第3の特徴行列を取得するための第3の処理サブユニットと、
    前記第3の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するためのトレーニングサブユニットと、を含む、請求項13~請求項16のいずれか一項に記載の文書処理モデルのトレーニング装置。
  18. 前記第1のトレーニングモジュールは、
    N個のトレーニングタスクに基づいて、前記複数の文書要素において各トレーニングタスクに対応する目標文書要素をそれぞれ決定して、前記目標文書要素にスクランブリング処理を行うためのスクランブリング処理ユニットであって、前記Nは1以上の整数であるスクランブリング処理ユニットをさらに含み、
    前記トレーニングサブユニットは具体的に、
    前記第3の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定することと、
    前記N個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記N個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、前記文書処理モデルを取得することと、に用いられる、請求項17に記載の文書処理モデルのトレーニング装置。
  19. 前記トレーニングサブユニットは具体的に、
    前記N個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定することと、
    前記N個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定することと、
    前記目標損失関数に基づいて、前記基礎モデルのモデルパラメータを更新するすることにより、前記文書処理モデルを取得することと、に用いられる、請求項18に記載の文書処理モデルのトレーニング装置。
  20. 前記複数の文書要素はK1個の文字及びK2個の文書領域を含み、前記K1及び前記K2はいずれも0以上の整数であり、前記決定モジュールは、
    前記第1のサンプル文書に対して文字認識処理を行い、前記K1個の文字の要素特徴及び各文字のM種類の位置タイプに対応する位置を取得するための第2の決定ユニットと、
    前記第1のサンプル文書に対応する文書画像をK2個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記K2個の文書領域の要素特徴及び各文書領域のM種類の位置タイプに対応する位置を取得するための第3の決定ユニットと、を含む、請求項12~請求項16のいずれか一項に記載の文書処理モデルのトレーニング装置。
  21. 予め設定された文書タスクに対応するサンプルデータを取得するための第2の取得モジュールであって、前記サンプルデータは、第2のサンプル文書及び前記第2のサンプル文書に対応するラベルデータを含む第2の取得モジュールと、
    前記文書処理モデルにより前記第2のサンプル文書を処理し、予測データを取得するための処理モジュールと、
    前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得するための第2のトレーニングモジュールとをさらに含む、請求項12~請求項16のいずれか一項に記載の文書処理モデルのトレーニング装置。
  22. 前記M種類の位置タイプは、
    1次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの1つの種類又は複数の種類を含み、
    前記文書要素の1次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられ、
    前記文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第1のプリセット基準座標との間のずれ量を指示するために用いられ、
    前記文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第2のプリセット基準座標との間のずれ量を指示するために用いられる、請求項12~請求項16のいずれか一項に記載の文書処理モデルのトレーニング装置。
  23. 少なくとも1つのプロセッサ、及び
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリを含み、
    前記メモリには前記少なくとも1つのプロセッサにより実行できる命令が記憶され、前記命令は前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサは請求項1~5のいずれか一項に記載の方法を実行することができる、
    電子機器。
  24. コンピュータ命令が記憶された非一時的なコンピュータ可読媒体であって、前記コンピュータ命令はコンピュータに請求項1~5のいずれか一項に記載の方法を実行させるために用いられる、
    非一時的なコンピュータ可読媒体。
  25. プロセッサによって実行されるとき請求項1~5のいずれか一項に記載の方法のステップが実現される、
    コンピュータプログラム製品。
JP2022126270A 2022-03-10 2022-08-08 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム Active JP7390442B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210236324.XA CN114661904B (zh) 2022-03-10 2022-03-10 文档处理模型的训练方法、装置、设备、存储介质及程序
CN202210236324.X 2022-03-10

Publications (2)

Publication Number Publication Date
JP2022166126A true JP2022166126A (ja) 2022-11-01
JP7390442B2 JP7390442B2 (ja) 2023-12-01

Family

ID=82030212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022126270A Active JP7390442B2 (ja) 2022-03-10 2022-08-08 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム

Country Status (3)

Country Link
US (1) US20220382991A1 (ja)
JP (1) JP7390442B2 (ja)
CN (1) CN114661904B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984856A (zh) * 2022-12-05 2023-04-18 百度(中国)有限公司 文档图像矫正模型的训练方法、文档图像的矫正方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020184157A (ja) * 2019-05-07 2020-11-12 株式会社東芝 文書解析装置、学習装置、文書解析方法および学習方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756869B2 (en) * 2004-04-30 2010-07-13 The Boeing Company Methods and apparatus for extracting referential keys from a document
JP5167821B2 (ja) * 2008-01-11 2013-03-21 株式会社リコー 文書検索装置、文書検索方法及び文書検索プログラム
US11195006B2 (en) * 2018-12-06 2021-12-07 International Business Machines Corporation Multi-modal document feature extraction
CN109710907A (zh) * 2018-12-20 2019-05-03 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
CN112446398B (zh) * 2019-09-02 2024-09-10 华为技术有限公司 图像分类方法以及装置
CN111046784B (zh) * 2019-12-09 2024-02-20 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN111626941A (zh) * 2020-05-11 2020-09-04 东莞市七宝树教育科技有限公司 一种基于深度学习语义分割的文档矫正方法
CN111832403B (zh) * 2020-06-04 2024-07-26 北京百度网讯科技有限公司 文档结构识别方法、文档结构识别的模型训练方法和装置
US11335111B2 (en) * 2020-07-06 2022-05-17 International Business Machines Corporation Optical character recognition (OCR) induction for multi-page changes
CN112016543B (zh) * 2020-07-24 2024-09-20 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
CN111914551B (zh) * 2020-07-29 2022-05-20 北京字节跳动网络技术有限公司 自然语言处理方法、装置、电子设备及存储介质
RU2760471C1 (ru) * 2020-12-17 2021-11-25 АБИ Девелопмент Инк. Способы и системы идентификации полей в документе
CN112507101B (zh) * 2020-12-18 2024-04-05 北京百度网讯科技有限公司 一种建立预训练语言模型的方法和装置
CN112966676B (zh) * 2021-02-04 2023-10-20 北京易道博识科技有限公司 一种基于零样本学习的文档关键信息抽取方法
CN113313066A (zh) * 2021-06-23 2021-08-27 Oppo广东移动通信有限公司 图像识别方法、装置、存储介质以及终端
CN113553428B (zh) * 2021-06-30 2024-04-23 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113705187B (zh) * 2021-08-13 2023-08-01 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN113792659B (zh) * 2021-09-15 2024-04-05 上海金仕达软件科技股份有限公司 文档识别方法、装置及电子设备
CN113836268A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 文档理解方法及装置、电子设备和介质
CN113901954A (zh) * 2021-11-17 2022-01-07 上海高德威智能交通系统有限公司 一种文档版面的识别方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020184157A (ja) * 2019-05-07 2020-11-12 株式会社東芝 文書解析装置、学習装置、文書解析方法および学習方法

Also Published As

Publication number Publication date
JP7390442B2 (ja) 2023-12-01
US20220382991A1 (en) 2022-12-01
CN114661904B (zh) 2023-04-07
CN114661904A (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN112966522B (zh) 一种图像分类方法、装置、电子设备及存储介质
CN110569846A (zh) 图像文字识别方法、装置、设备及存储介质
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
KR20220005416A (ko) 다항 관계 생성 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
CN114155543A (zh) 神经网络训练方法、文档图像理解方法、装置和设备
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
US11861919B2 (en) Text recognition method and device, and electronic device
JP7295189B2 (ja) ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体
JP7300034B2 (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
US11281928B1 (en) Querying semantic data from unstructured documents
CN113656613A (zh) 训练图文检索模型的方法、多模态图像检索方法及装置
JP2023547010A (ja) 知識の蒸留に基づくモデルトレーニング方法、装置、電子機器
US20210342379A1 (en) Method and device for processing sentence, and storage medium
JP2022169743A (ja) 情報抽出方法、装置、電子機器及び記憶媒体
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN115640520B (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
JP7390442B2 (ja) 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN116089586B (zh) 基于文本的问题生成方法及问题生成模型的训练方法
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
CN113361522B (zh) 用于确定字符序列的方法、装置和电子设备
CN115577106A (zh) 基于人工智能的文本分类方法、装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231120

R150 Certificate of patent or registration of utility model

Ref document number: 7390442

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150