JP2022118263A - 自然言語処理モデルの訓練方法、自然言語処理方法、装置、電子機器、記憶媒体及びプログラム - Google Patents

自然言語処理モデルの訓練方法、自然言語処理方法、装置、電子機器、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2022118263A
JP2022118263A JP2022102621A JP2022102621A JP2022118263A JP 2022118263 A JP2022118263 A JP 2022118263A JP 2022102621 A JP2022102621 A JP 2022102621A JP 2022102621 A JP2022102621 A JP 2022102621A JP 2022118263 A JP2022118263 A JP 2022118263A
Authority
JP
Japan
Prior art keywords
task
semantic
branch
output result
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022102621A
Other languages
English (en)
Inventor
思 宇 丁
Siyu Ding
超 ▲ぱん▼
Chao Pang
碩 寰 王
Shuohuan Wang
晏 彬 趙
Yanbin Zhao
駿 遠 尚
Junyuan Shang
宇 孫
Yu Sun
仕 坤 馮
Shikun Feng
浩 田
Hao Tian
華 呉
Hua Wu
海 峰 王
Haifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022118263A publication Critical patent/JP2022118263A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

【課題】自然言語処理モデルの訓練方法及びその装置、自然言語処理方法及びその装置、電子機器及び記憶媒体を提供する。【解決手段】本出願は、自然言語処理モデルの訓練方法を提供し、人工知能分野に関し、特に自然言語処理の分野に関する。具体的な実現案は以下の通りである。入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得することと、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得ることと、各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算することと、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整することと、を含む。本出願は、自然言語処理モジュールの訓練装置、自然言語処理方法およびその装置、電子機器、記憶媒体及びプログラムをさらに提供する。【選択図】図2

Description

本開示は、人工知能技術分野に関し、特に自然言語処理技術に関する。より具体的には、本開示は、自然言語処理モデルの訓練方法及びその装置、自然言語処理方法及びその装置、電子装置、記憶媒体及びプログラムを提供する。
近年、自然言語処理技術の発展に伴い、大規模コーパスに基づく予備訓練言語モデルは既にクラシックフレームになっている。現在、業界内の語意理解及び言語生成などの異なるタスクの言語モデルに関する研究は一般的に独立して行われ、語意理解モデルは言語を生成する能力を備えず、逆も同様である。
したがって、どのように一つのモデルに同時に語意理解と言語生成の能力を備えさせるかは解決しようとする問題となる。
本開示は、自然言語処理モデルの訓練方法及びその装置、自然言語処理方法及びその装置、電子機器及び記憶媒体を提供する。
第一態様によれば、自然言語処理モデルの訓練方法を提供し、入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得することと、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得ることと、各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算することと、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整することと、を含む。
第二態様によれば、自然言語処理方法を提供し、予め設定された分岐タスクに対する処理すべきテキストを取得することと、自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得することと、を含み、ここで、マルチタスクが、予め設定された分岐タスクを含み、自然言語処理モデルは、上記自然言語処理モジュールの訓練方法によって訓練される。
第三態様によれば、自然言語処理モデルの訓練装置を提供し、入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得する語意学習モジュールと、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得る特徴学習モジュールと、各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算する損失計算モジュールと、各分岐タスクに対する損失に基づいて、前記自然言語処理モデルのパラメータを調整するパラメータ調整モジュールと、を含む。
第四態様によれば、自然言語処理装置を提供し、予め設定された分岐タスクに対する処理すべきテキストを取得する取得モジュールと、自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得する取得モジュールと、を含み、ここで、マルチタスクは、予め設定された分岐タスクを含み、自然言語処理モデルは、上記自然言語処理モジュールの訓練方法によって訓練される。
第五態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリは、少なくとも一つのプロセッサにより実行可能な命令を記憶し、命令は少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが本開示に提供される方法を実行することができる。
第六態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令が、コンピュータに本開示に提供される方法を実行させるために用いられる。
第七態様によれば、プロセッサにより実行される時に本開示に提供される方法を実現するコンピュータプログラムを提供する。
理解すべきことは、本部分に記載された内容は、本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。
図面は本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
図1Aは、本開示の一実施例に係る統一予備訓練言語モデルの構造原理図である。 図1Bは、本開示の一実施例に係る自然言語処理モデルの訓練方法及び/又は自然言語処理方法のシステム原理図である。 図2は、本開示の一実施例に係る自然言語処理モデルの訓練方法のフローチャートである。 図3Aは、本開示の一実施例に係る上記自然言語処理モデルに基づいて異なる分岐タスクを実現する原理図である。 図3Bは、本開示の一実施例に係る上記自然言語処理モデルに基づいて異なる分岐タスクを実現する原理図である。 図3Cは、本開示の一実施例に係る上記自然言語処理モデルに基づいて異なる分岐タスクを実現する原理図である。 図4Aは、本開示の一実施例に係る上記自然言語処理モデルに基づいて実現された語意生成タスクの原理図である。 図4Bは、本開示の一実施例に係る上記自然言語処理モデルに基づいて実現された語意生成タスクの原理図である。 図5は、本開示の別の実施例に係る自然言語処理モデルの訓練方法及び/又は自然言語処理方法のシステム原理図である。 図6は、本開示の一実施例に係る自然言語処理方法のフローチャートである。 図7は、本開示の一実施例に係る自然言語処理モデルの訓練装置のブロック図である。 図8は、本開示の一実施例に係る自然言語処理装置のブロック図である。 図9は、本開示の一実施例に係る自然言語処理モデルの訓練方法および/または自然言語処理方法の電子機器のブロック図である。
以下に図面を参照して本開示の例示的な実施例を説明し、理解しやすくするように、ここで本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者であれば、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。
本開示の技術案において、関連するユーザ個人情報の取得、記憶及び応用等は、いずれも相関法律規則の規定に適合し、かつ公序良俗に反するものではない。
自然言語処理モデルの応用はますます広くなり、語意理解及び言語生成は、自然言語処理の分岐としてそれぞれの研究分野において顕著な進歩を遂げている。例えば、語意理解分野において、BERT、ERNIE及びXLNetなどのクラシック予備訓練言語モデルを生成し、様々な自然語意理解タスク(例えばテキストマッチング、感情分類、検索など)の効果を大幅に向上させる。言語生成分野において、GPT、BART及びT5などのクラシック予備訓練言語モデルを生成し、様々な自然言語生成タスク(例えばテキスト生成、テキスト要約生成、生成式質問応答など)の効果を大幅に向上させる。
しかし、現在業界内の語意理解及び言語生成などの異なるタスクの言語モデルに関する研究は一般的に独立して行われ、語意理解モデルは言語を生成する能力を備えず、逆も同様である。したがって、語意理解と言語生成能力を同時に必要とするシーンに直面する場合、二つのモデルを訓練する必要があり、これは資源及び時間の消費を大幅に増加させる。
現在業界では統一予備訓練言語モデルを用いて語意理解タスク及び言語生成タスクの共同訓練を実現する解決手段が既に提案されている。例えば、UNILM(UNI-trained Language Model)は、BERTに基づいてSeq2Seq(Sequence to Sequence、シーケンスからシーケンスへの変換モデルを融合し、S2Sと略称する)タスクを融合し、語意理解と言語生成の共同訓練を初期的に実現する。それは、BERTをモデル構造とし、Maskメカニズムを利用し、単方向Mask言語モデル、双方向Mask言語モデル及びSeq2Seqの三種類のモデルを統一する。
図1Aは、本開示の一実施例に係る統一予備訓練言語モデルの構造原理図である。
図1Aに示すように、統一予備訓練言語モデル(例えばUNLM)は、埋め込み層111及びTransformer層112を含むことができる。例えば、X、X……Xを入力テキストとし、埋め込み層111は、入力テキストに特徴抽出及び特徴のベクトル化表現を行い、入力テキストの特徴ベクトルを出力することに用いられる。Transformer層112は、入力テキストの特徴ベクトルに基づいて語意学習を行い、語意特徴h、h…hを出力することに用いられる。
例えば、埋め込み層111は語句埋め込み層(Segment Embedding)、位置情報埋め込み層(Position Embedding)及び字埋め込み層(Token Embedding)を含み、それぞれ入力テキストに対して語句ベクトル化表現、入力テキストにおける各字の位置情報ベクトル化表現、及び各字ベクトル化表現を行い、語句特徴、位置特徴及び字特徴を出力する。
例えば、Transformer層112は、多層Transformerモジュールを含むことができ、Transformerモジュールは、自然言語処理分野におけるクラシックモデルアーキテクチャであり、センテンスにおける字と字(又は単語と単語)との間の関連性を学習することができる。入力テキストの語句特徴、位置特徴及び字特徴は、多層Transformerモジュールにより、入力テキストの意味を示すための語意特徴を出力することができる。
理解すべきことは、統一予備訓練言語モデルは、語意理解タスク及び言語生成タスクの共同訓練に用いることができ、異なる言語処理タスクに対して、入力テキストX、X……Xに対する計算過程が異なり、出力された語意特徴h、h…hの意味も異なる。しかし、異なる言語処理タスクは、統一予備訓練言語モデルのパラメータを共有し、すなわち異なる言語処理タスクの訓練は、統一予備訓練言語モデルのパラメータを共通に影響し、訓練された統一予備訓練言語モデルは、語意理解のタスクを行ってもよく言語生成のタスクを行ってもよい。
統一予備訓練言語モデルは、モデルパラメータを完全に共有することにより語意理解タスク及び言語生成タスクの統一的な訓練を実現するが、二種類の異なる研究モードとして、語意理解と言語生成は同じ部分があり、異なる部分もある。同じ部分について、モデルパラメータの共有は相補的な役割を果たすことができるが、異なる部分について依然としてモデルパラメータを共有すると負作用をもたらす。
具体的には、統一予備訓練言語モデルは、完全に同一のパラメータで複数種類のタスクを学習し、複数種類のタスクに対して、基礎特徴を抽出するためのモデル底層にパラメータを共有することは互いに影響しないが、タスクの特定の特徴を抽出する場合にパラメータを共有すると負影響を与える。
これに鑑みて、本開示の実施例は、自然言語処理モデルの訓練方法及び自然言語処理方法を提供する。
図1Bは、本開示の一実施例に係る自然言語処理モデルの訓練方法及び/又は自然言語処理方法のシステム原理図である。
図1Bに示すように、該自然言語処理モデルの訓練方法及び/又は自然言語処理方法のシステムは、統一訓練層110、接続層120及び独立訓練層130を含むことができ、独立訓練層130は複数のタスクサブ層を含むことができ、各タスクサブ層は一つの言語処理分岐タスクに対応し、例えば独立訓練層130は語意理解タスクサブ層131及び言語生成タスクサブ層132などを含む。
統一訓練層110は、統一予備訓練言語モデルを含むことができ、複数の言語処理分岐タスクの統一訓練に用いられる。接続層120は、統一訓練層110と独立訓練層130を接続し、かつ異なるタスクに対して、統一訓練層110の出力結果を独立訓練層130における対応的なタスクサブ層に伝送するために用いられる。
独立訓練層130における各タスクサブ層は、異なる分岐タスクに対して独立して訓練するためのモデル(分岐タスクモデルと呼ばれる)を含むことができ、各分岐タスクモデルは複数のTransformerモジュールを含むことができ、語意特徴を分析し計算し、言語処理分岐タスクを実現するために用いられる。
本開示の実施例によれば、統一予備訓練言語モデルに基づいてそれぞれ各分岐タスクの独立訓練を行い、マルチタスクにおける同じ部分に対して共通訓練を行い、異なる部分に対して独立訓練を行う目的を達成し、各言語処理タスクに対する自然言語処理モデルの処理効果を向上させる。
理解すべきように、本開示の実施例は、統一訓練層と独立訓練層との協調統一予備訓練フレームを提供し、複数種類のタスクが統一訓練層を共同に訓練して基礎特徴情報を抽出し、各種類のタスクが自分の特定のタスク分岐を訓練してタスクに必要な上位層語意情報を抽出し、それにより同一モデルが複数種類のタスクに良好な効果を有するということを実現する。
図2は、本開示の一実施例に係る自然言語処理モデルの訓練方法のフローチャートである。
図2に示すように、該自然言語処理モデルの訓練方法200は、操作S210~操作S240を含むことができる。
操作S210において、入力テキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得する。
例えば、マルチタスクは、複数種類のタスクを含み、各種類のタスクは一つの分岐に対応する。例えば語意理解タスク、言語生成タスク、常識推論タスク及びナレッジグラフのタスクなどであり、これらのタスクは自然言語処理の分岐タスクである。自然言語処理モデルは、統一予備訓練言語モデル(例えばUNLM)を含み、統一予備訓練言語モデルにより該複数の分岐タスク(すなわち複数種類のタスク)を共同で訓練する。
例えば、入力テキストは、少なくとも一つの語句を含み、各語句は少なくとも一つの字を含む。異なる分岐タスクに対して、タスクの形式が異なるため、入力テキストに対する計算過程が異なるため、統一予備訓練言語モデルが出力した語意特徴が表す意味が異なる。統一予備訓練言語モデルは、入力テキストに対して語句ベクトル化表現、入力テキストにおける各字の位置情報ベクトル化表現、及び各字ベクトル化表現を行い、語句特徴、位置特徴及び字特徴を取得し、かつ入力テキストの語句特徴、位置特徴及び字特徴に基づいて字と字(又は単語と単語)との間の関連性の学習を行い、語意特徴を出力することができる。
例えば、語意理解タスクに対して、出力された語意特徴は、入力テキストの語意理解情報を表すことができる。また例えば、言語生成タスクについて、出力された語意特徴は入力テキストの後文情報を表すことができる。
操作S220において、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を取得する。
例えば、自然言語処理モデルはさらに複数の分岐タスクモデルを含み、各分岐タスクモデルは対応的な分岐タスクの独立訓練を実現するために用いられる。異なる分岐タスクに対して、統一予備訓練言語モデルに基づいて出力された語意特徴を対応的な分岐タスクモデルに入力し、該分岐タスクモデルを使用して該分岐タスクに対する独立訓練を行い、複数の分岐タスクの同じ部分に共通訓練を行い、異なる部分に独立訓練を行う目的を達成することができる。
理解すべきように、統一予備訓練言語モデルは複数の分岐タスクの訓練を共同で訓練し、複数の分岐タスクが統一予備訓練言語モデルのパラメータを共有し、すなわち複数の分岐タスクの訓練が統一予備訓練言語モデルのパラメータに共通に影響を与える。したがって、統一予備訓練言語モデルから出力される語意特徴は、異なる分岐タスクに対する意味を示すことができるが、異なる分岐タスクの影響を受ける。
本開示の実施例は、統一予備訓練言語モデルの出力する語意特徴に基づいて、各分岐タスクに対して独立訓練を行い、複数の分岐タスクの同じ部分に共同訓練を行い、異なる部分に独立訓練を行う目的を達成し、異なる分岐タスクの間の自然言語処理モデルのパラメータへの負影響を回避し、自然言語処理モデルの各分岐タスクに対する処理効果を向上させることができる。
操作S230において、各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算する。
例えば、各分岐タスクモデルに対して、各分岐タスクに対して独立訓練を行い、各分岐タスクに対する第1の出力結果を出力することができる。各分岐タスクに対する入力テキストのタグと第1の出力結果との間の差異に基づいて、各分岐タスクに対する損失を計算することができる。
例えば、語意理解タスクに対して、入力テキストは語意理解情報を表すタグを有し、統一予備訓練言語モデルの統一訓練を経て、かつ語意理解分岐タスクの独立訓練を経た後、第1の出力結果を出力し、この第1の出力結果は、該自然言語処理モデルが予測した入力テキストの語意理解情報を示す。タグに示された語意理解情報と予測された語意理解情報との間の差異に基づいて、自然言語処理モデルによって語意理解タスクを処理する損失、すなわち語意理解タスクに対する損失を算出する。
同様に、言語に対してタスクを生成する損失、常識推論タスクに対する損失及びナレッジグラフのタスクに対する損失などを取得することができる。
操作S240において、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整する。
例えば、語意理解タスクに対する損失、言語生成タスクに対する損失、常識推論タスクに対する損失及びナレッジグラフのタスクに対する損失などの各分岐タスクが独立訓練を行って生じる損失の和に基づいて、自然言語処理モデルのパラメータを調整することにより、自然言語処理モデルを更新することができる。予め設定された条件を満たすまで、更新された自然言語処理モデルを使用して次の入力テキストに対して、入力テキストに対してマルチタスクに対する語意学習を行うステップに返し、該予め設定された条件は、各分岐タスクに対する損失の和が収束することであってもよい。
理解すべきように、自然言語処理モデルを調整するパラメータは、統一予備訓練言語モデルを調整しかつ各分岐タスクに対して独立訓練を行うための分岐タスクモデルを調整するパラメータのうちの少なくとも一つを含むことができる。
本開示の実施例によれば、統一予備訓練言語モデルに基づいて各分岐タスクの独立訓練を行い、複数の分岐タスクの同じ部分に共通訓練を行い、異なる部分に独立訓練を行う目的を達成し、自然言語処理モデルの各言語処理分岐タスクに対する処理効果を向上させる。
以下に、図3A~図3Cを参照して上記自然言語処理モデルに基づいて実現された異なる分岐タスクをそれぞれ説明する。
図3Aは、本開示の一実施例に係る上記自然言語処理モデルに基づいて語意理解タスクを実現する原理図である。
図3Bは、本開示の一実施例に係る上記自然言語処理モデルに基づいて字レベルの語意生成タスクを実現する原理図である。
図3Cは、本開示の一実施例に係る上記自然言語処理モデルに基づいて語句レベルの語意生成タスクを実現する原理図である。
上記自然言語処理モデルは、統一予備訓練言語モデル及び各分岐タスクを実現するための複数の分岐タスクモデルを含み、各分岐タスクモデルは、複数のTransformerモジュールを含み、語意特徴に基づいて分析及び計算を行い、言語処理分岐タスクを実現する。
図3A~3Cに示すように、S及びSは、入力テキストにおける二つのセンテンス(又は語句)であり、Sは字(又は単語)X、X及びXを含み、Sは字(又は単語)X及びXを含む。各ブロックは一つの字(又は単語)の意味を示すことができ、ブロックが白色であることは、Transformerモジュールの計算により該ブロックで示された字の意味が分かることを示し、ブロックが灰色であることは、Transformerモジュールの計算により該ブロックで示された字の意味が知られていないことを示す。
図3Aに対して、語意理解を実現するための分岐タスクモデルは、双方向MLM(Mask Language Model、Mask言語モデル)であってもよい。その原理は、入力テキストに対して予め設定された百分率(例えば15%)の字(又は単語)をランダムに遮断し、符号化した後にTransformerモジュールに入力し、Transformerモジュールの計算により入力テキストにおける全ての字(又は単語)の情報を取得することができる。
図3Aに示すように、Xに対して、Transformerモジュールの計算によりX……Xの意味を取得することができる。同様に、Xに対して、Transformerモジュールの計算によりX……Xの意味を取得することもできる。すなわち、入力テキストにおける各字に対して、Transformerモジュールは、該字の前文情報及び後文情報を出力することができ、すなわちTransformerモジュールの出力は、入力テキストの各字の意味を含み、入力テキスト全体の語意として理解することができ、それにより入力テキストの語意理解を実現する。
例えば、語意理解を実現するための分岐タスクモデルは、さらに入力テキストにおける各字の前文情報及び後文情報に基づいてセンテンスレベルの語意理解タスクを行うことができる。例えば、語句SとSとの間の論理距離を計算し、論理距離はセンテンス間に論理的順序があるか否かを示す。また例えば、複数の語句を含む入力テキストに対して、各語句の間の論理順序を決定することにより、複数の語句に再配列等を行う。
図3Bに対して、例えば、字レベルの語意生成を実現するための分岐タスクモデルは、単方向MLM(単方向Mask言語モデル)であってもよい。単方向MLMは、左から右への言語モデル(Left-to-Right Language Model、L 2R LM)と、右から左への言語モデル(Right-to-Left Language Model、R2L LM)とを含む。
図3Bは、左から右への言語モデルの原理図であってもよく、その原理は、入力テキストに対して予め設定された百分率(例えば0~100%)の字(又は単語)をランダムに遮断し、符号化した後にTransformerモジュールに入力し、Transformerモジュールの計算により該字(又は単語)及び該字の前に位置する全ての字(又は単語)の情報、すなわち前文情報(又は履歴情報)を取得することができることである。
図3Bに示すように、Xに対して、Transformerモジュールの計算により、X……Xの意味を取得することができる。同様に、Xに対して、Transformerモジュールにより、X……Xの意味を取得することができる。すなわち入力テキストにおける各字に対して、Transformerモジュールは、該字及び該字の前文情報を出力することができ、すなわちTransformerモジュールの出力は全ての前文情報を含み、前文情報に基づいて後文情報を予測することができ、単方向MLMに基づく字レベルの言語生成タスクを実現する。
同様に、右から左への言語モデルは、その原理が入力テキストに対して予め設定された百分率(例えば0~100%)の字(又は単語)をランダムに遮断し、符号化した後にTransformerモジュールに入力し、Transformerモジュールの計算により該字(又は単語)及び該字の後に位置する全ての字(又は単語)の情報、すなわち後文情報を取得することができ、後文情報に基づいて前文情報を予測し、単方向MLMに基づく字レベルの言語生成タスクを実現することができる。
図3Cに対して、例えば、センテンスレベルの語意生成を実現するための分岐タスクモデルは、Seq2Seq言語モデル(Sequence to Sequence Language Model、S2S LM)であってもよい。その原理は、入力テキストの二番目のセンテンスに対して予め設定された百分率(例えば0~100%)の字(又は単語)をランダムに遮蔽し、符号化した後にTransformerモジュールに入力し、Transformerモジュールの計算により、一番目のセンテンスにおける各字(又は単語)は、いずれも一番目のセンテンスにおける他の全ての字(又は単語)の意味を得ることができるが、二番目のセンテンスにおける字(又は単語)の意味を取得することができない。二番目の語句における遮蔽された単語は一番目のセンテンスの全ての字(又は単語)の意味及び二番目のセンテンスにおける該字の前に位置する前文情報を取得することができ、すなわちTransformerモジュールの出力は一番目のセンテンスの全ての字(又は単語)の意味を含み、かつ二番目のセンテンスにおける遮蔽された字(又は単語)の前文情報を含み、したがって、語句レベルの後文情報の予測に用いることができ、センテンスレベルの言語生成タスクを実現する。
図3Cに示すように、一番目の語句Sにおける各字に対して、Transformerモジュールの計算により全ての字X、X及びXの意味を取得することができる。二番目の語句SにおけるXに対して、Transformerモジュールの計算によりX、X、X及びXの意味を取得することができる。二番目の語句SにおけるXに対して、Transformerモジュールの計算によりX、X、X、X及びXの意味を取得することができる。すなわちTransformerモジュールの出力は、一番目の語句の意味及び二番目の語句における全ての遮蔽された字の前文情報を含み、これにより次の語句を予測し、センテンスレベルの言語生成タスクを実現することができる。
説明すべきものとして、双方向MLMタスクの特徴は、毎回15%の字(token)の参加訓練を訓練し、単方向MLMタスクとS2S LMタスクの特性は、100%のtokenの予測を行うことができることである。統一予備訓練言語モデルは、双方向MLM、単方向MLM及びSeq2Seqという三種類の言語処理モデルを統一するが、異なるタスクを適応するために、タスクの訓練形式に対していくつかの調整を行う必要がある。例えば、単方向MLMタスク及びS2S LMタスクの毎回の訓練は15%の字(token)のみが訓練に参加する必要があり、これはオリジナルのMLMタスク及びS2S LMタスクの訓練と85%の損失を有するため、モデルの収束が遅く、さらにリソース及び時間浪費の問題が生じる。
本開示の実施例は、統一予備訓練言語モデルに基づいてそれぞれ各分岐タスクに対する独立訓練を行い、すなわち各分岐タスクはそれぞれのタスク特性を保留することができ、訓練時に適合性調整を行う必要がない。例えば単方向MLMタスク及びS2S LMタスクの特性は100%のtokenの予測を行うことができ、誤差を回避し、モデル訓練効率を向上させる。
説明すべきものとして、上記自然言語処理モデルに基づいて実現された語意生成タスクは、後文情報又は前文情報のうちの一つ又は複数の字の予測を実現するために用いられる。
図4Aは、本開示の一実施例に係る上記自然言語処理モデルに基づいて実現される語意生成タスクの原理図である。
図4Bは、本開示の別の実施例に係る上記自然言語処理モデルに基づいて実現された語意生成タスクの原理図である。
自然言語処理モデルには、統一予備訓練言語モデルと、各分岐タスクを実現するための複数の分岐タスクモデルとが含まれる。語意生成を実現するための分岐タスクモデルは左から右への言語モデルであってもよく、左から右への言語モデルは、入力テキストの各字(又は単語)をいずれも学習することにより、各字(又は単語)は、自身及び自身の前文情報しか取得できず、前文情報に基づいて後文情報を予測し、言語生成タスクを実現することができる。
左から右への言語モデルはさらに左から右へN-Gram言語モデル(N-Gram Language Model、N-GLM)を含み、従来の左から右への言語モデルは前文情報に基づいて後文情報における一つの字(又は単語)を予測することができ、左から右へのN-Gram言語モデルは、前文情報に基づいて後文情報における複数の字(又は単語)を同時に予測することができる。
図4Aに示すように、後文情報における一つの字(又は単語)を予測する原理図である。例えば、入力テキストは「ハルビンは黒竜江の州都である」であり、入力テキストにおける各字に対して、左から右への言語モデル(例えばGPT-3)のTransformerモジュール410の語意学習により、該字の後に位置する一つの字を予測することができる。例えば、「ハ」に対して「ル」を予測することができ、「ル」に対して「ビン」を予測することができ、これによって類推する。
図4Bに示すように、後文情報における複数の字(又は単語)を同時に予測する原理図である。入力テキストは「ハルビンは黒竜江の州都である」であり、入力テキストにおける各字に対して、左から右へのN-Gram言語モデル(例えばERNIE 3.0)のTransformerモジュール420の語意学習により、該字の後に位置する複数の字を同時に予測することができる。例えば、「黒」に対して「竜江」を予測することができ、「州」に対して「都」を予測することができる。
本開示の実施例によれば、統一予備訓練言語モデルに基づいて言語生成タスクの訓練を行い、入力テキストにおける各字に対して後文情報のうちの一つ又は複数の字を出力することができ、言語生成タスクを実現する。
図5は、本開示の別の実施例に係る自然言語処理モデルの訓練方法及び/又は自然言語処理方法のシステム原理図である。
図5に示すように、該自然言語処理モデルの訓練方法及び/又は自然言語処理方法のシステムは統一訓練層510、接続層520、独立訓練層530及び連合損失計算層540を含むことができる。
独立訓練層530は、複数のタスクサブ層を含むことができ、各タスクサブ層は一つの言語処理分岐タスクに対応し、例えば独立訓練層530は、語意理解タスクサブ層531、言語生成タスクサブ層532及び常識推論タスクサブ層533などを含む。説明すべきものとして、独立訓練層530は、さらにリアルタイム必要に応じて、より多くの分岐タスクを拡張することができ、例えばナレッジグラフのタスクサブ層などである。
一方、入力テキストに対して、統一訓練層510の統一訓練を経た後、出力された語意特徴を接続層520を介して独立訓練層530における対応的なタスクサブ層に伝送することができる。例えば、語意理解タスクの入力テキストに対して、統一訓練層510を介して語意理解タスクに対する語意特徴を出力し、接続層520は該語意特徴を語意理解タスクサブ層531に入力して語意理解タスクに対する独立訓練を行う。各タスクサブ層の独立訓練を経た出力結果は第1の出力結果501である。
他方、入力テキストに対して、統一訓練層510の統一訓練を経た後、得られた語意特徴を第2の出力結果502とすることができる。異なる分岐タスクに対して、第2の出力結果502は異なる意味を示す。
連合損失計算層540は、第1の出力結果501及び第2の出力結果502に基づいて連合損失の計算を行うことができ、このように独立訓練の損失と統一訓練の損失を総合して、上記自然言語処理モデルの全体的な損失とし、上記自然言語処理モデルのパラメータを調整し、自然言語処理モデルをより速く収束させ、自然言語処理モデルの訓練効率を向上させることができる。
図6は、本開示の一実施例に係る自然言語処理方法のフローチャートである。
図6に示すように、該自然言語処理方法600は操作S610~S620を含む。
操作S610において、予め設定された分岐タスクに対する処理すべきテキストを取得する。
操作S620において、自然言語処理モデルを使用して処理すべきテキストに対して、マルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得する。
マルチタスクは、複数の分岐タスクを含み、予め設定された分岐タスクは、複数の分岐タスクのうちの一つである。自然言語処理モデルは、上記自然言語処理モデルの訓練方法に従って訓練されたものである。
例えば、予め設定された分岐タスクは語意理解タスクであり、語意理解タスクに対する入力テキストを上記自然言語処理モデルに入力し、自然言語処理モデルは入力テキストに対してマルチタスクに対する語意学習を行い、語意理解タスクに対する語意特徴を出力し、該語意特徴に基づいて語意理解タスクに対する独立特徴学習を行い、語意理解タスクに対する処理結果を取得し、該処理結果は入力テキストの語意を示すことができる。
本開示の実施例によれば、入力テキストに対してマルチタスクに対する語意学習を行って得られた語意特徴に対して分岐タスクに対する特徴学習を行い、マルチタスクの同じ部分に共同学習を行い、異なる部分に独立学習を行う目的を達成し、自然言語処理に対する各分岐タスクの処理効果を向上させる。
図7は、本開示の一実施例に係る自然言語処理モデルの訓練装置のブロック図である。
図7に示すように、該自然言語処理モデルの訓練装置700は、語意学習モジュール701、特徴学習モジュール702、損失計算モジュール703及びパラメータ調整モジュール704を含むことができる。
語意学習モジュール701は、入力テキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得するために用いられ、ここで、マルチタスクは複数の分岐タスクを含む。
特徴学習モジュール702は、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得るために用いられる。
損失計算モジュール703は、各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算するために用いられる。
パラメータ調整モジュール704は、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整するために用いられる。
本開示の実施例によれば、マルチタスクは、語意理解のための第1の分岐タスクを含み、特徴学習モジュール702は、第1の決定ユニット及び第2の決定ユニットを含む。
第1の決定ユニットは、入力テキストにおける各字に対して、語意特徴に基づいて字の前に位置する前文情報及び字の後に位置する後文情報を決定するために用いられる。
第2の決定ユニットは、前文情報及び後文情報に基づいて、入力テキストの語意理解情報を決定し、第1の分岐タスクに対する第1の出力結果とするために用いられる。
本開示の実施例によれば、特徴学習モジュール702はさらに第1の計算ユニット及び第3の決定ユニットを含む。
第1の計算ユニットは、前文情報と後文情報に基づいて、入力テキストにおける複数の語句間の論理距離を計算し、第1の分岐タスクに対する第1の出力結果とするために用いられる。
第3の決定ユニットは、前文情報及び後文情報に基づいて、入力テキストにおける複数の語句間の論理順序を決定し、第1の分岐タスクに対する第1の出力結果とするために用いられる。
本開示の実施例によれば、マルチタスクは、言語を生成するための第2の分岐タスクを含み、特徴学習モジュール702は、第4の決定ユニット及び予測ユニットを含む。
第4の決定ユニットは、入力テキストにおける各字に対して、語意特徴に基づいて字の前に位置する前文情報を決定するために用いられる。
予測ユニットは、前文情報に基づいて、字の後に位置する後文情報を予測し、第2の分岐タスクに対する第1の出力結果とするために用いられる。
本開示の実施例によれば、該自然言語処理モデルの訓練装置700はさらに決定モジュールを含む。
決定モジュールは、語意特徴に基づいて各分岐タスクに対する第2の出力結果をそれぞれ決定するために用いられる。
本開示の実施例によれば、損失計算モジュール703は、各分岐タスクに対する第1の出力結果及び第2の出力結果に基づいて、各分岐タスクに対する損失を計算するために用いられる。
本開示の実施例によれば、マルチタスクは、語意を理解するための第1の分岐タスクを含み、決定モジュールは、語意特徴に基づいて、入力テキストの語意理解情報を決定し、第1の分岐タスクに対する第2の出力結果とすることと、語意特徴に基づいて、入力テキストにおける複数の語句間の論理距離を計算し、第1の分岐タスクに対する第2の出力結果とすることと、語意特徴に基づいて、入力テキストにおける複数の語句間の論理順序を決定し、第1の分岐タスクに対する第2の出力結果とすることと、のうちの一つを実行するために用いられ、
本開示の実施例によれば、マルチタスクは、言語を生成するための第2の分岐タスクを含み、決定モジュールは、入力テキストにおける各字に対して、語意特徴に基づいて字の後文情報を予測し、第2の分岐タスクに対する第2の出力結果とするために用いられる。
図8は、本開示の他の実施例に係る自然言語処理装置のブロック図である。
図8に示すように、該自然言語処理800は、取得モジュール801及び処理モジュール802を含むことができる。
取得モジュール801は、予め設定された分岐タスクに対する処理すべきテキストを取得することに用いられる。
処理モジュール802は、自然言語処理モデルを用いて処理すべきテキストにマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得することに用いられる。
本開示の実施例によれば、マルチタスクは、予め設定された分岐タスクを含み、自然言語処理モデルは上記自然言語処理モデルに基づく訓練方法を利用して訓練される。
本開示の実施例によれば、本開示は、さらに電子機器、読み取り可能な記憶媒体及びコンピュータプログラムを提供する。
図9は、本開示の実施例を実施することが可能な電子機器900の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器は、さらに様々な形式の移動装置を表示することができ、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図9に示すように、機器900は、計算ユニット901を含み、それはリードオンリーメモリ(ROM)902に記憶されたコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 903には、さらに機器900の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット901、ROM 902、およびRAM 903は、バス904により相互に接続されている。入出力(I/O)インタフェース905もバス904に接続されている。
機器900における複数の部品は、I/Oインタフェース905に接続され、例えばキーボード、マウスなどの入力ユニット906と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット907と、例えば磁気ディスク、光ディスクなどの記憶ユニット908と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909と、を含む。通信ユニット909は、機器900がインターネット等のコンピュータネットワークや各種の電気通信ネットワークを介して他の機器と情報/データをやり取りすることを可能にする。
計算ユニット901は、各種の処理や演算能力を有する汎用及び/又は専用の処理モジュールであってもよい。計算ユニット901のいくつかの例示としては、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種機械学習モデルアルゴリズムを運行する計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット901は、上記の各方法及び処理、例えば自然言語処理モデルの訓練方法及び/又は自然言語処理方法を実行する。例えば、いくつかの実施例において、自然言語処理モデルの訓練方法及び/又は自然言語処理方法は、コンピュータソフトウェアプログラムとして実現され、それは、機械可読媒体、例えば記憶ユニット908に有形定的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 902及び/又は通信ユニット909を介して機器900にロード及び/又はインストールされる。コンピュータプログラムがRAM 903にロードされかつ計算ユニット901により実行される場合、上記した自然言語処理モデルの訓練方法及び/又は自然言語処理方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット901は他の任意の適切な方式(例えば、ファームウェア)により自然言語処理モデルの訓練方法及び/又は自然言語処理方法を実行するように構成されてもよい。
本明細書で説明したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができ、少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈される一つ又は複数のコンピュータプログラムに実施され、該プログラム可能なプロセッサは、専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは一つ又は複数のコーディング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードは、プロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機械に完全に実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして機械で部分的に実行されかつ遠隔機械で部分的に実行され、又は完全に遠隔機械又はサーバで実行されることができる。
本開示の明細書において、機械可読媒体は、有形の媒体であってもよく、それは命令実行システム、装置又は装置が使用され又は命令実行システム、装置又は装置が組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外的、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例示は一つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、便利式コンパクトフラッシュ(登録商標)メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(声音入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバとは一般的に離れており、通常は通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、対応するコンピュータ上で動作し、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。
理解すべきことは、以上に示した様々な形式のフローを使用し、ステップを改めてソーティングし、追加し、又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよい。本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきように、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (23)

  1. 入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得することと、
    前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得ることと、
    各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算することと、
    各分岐タスクに対する損失に基づいて、前記自然言語処理モデルのパラメータを調整することと、を含む
    自然言語処理モデルの訓練方法。
  2. 前記マルチタスクは、語意理解のための第1の分岐タスクを含み、
    前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得ることは、
    前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の前に位置する前文情報及び前記字の後に位置する後文情報を決定することと、
    前記前文情報及び後文情報に基づいて、前記入力テキストの語意理解情報を決定し、前記第1の分岐タスクに対する第1の出力結果とすることと、を含む
    請求項1に記載の方法。
  3. 前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第1の分岐タスクに対する第1の出力結果とすることをさらに含む
    請求項2に記載の方法。
  4. 前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第1の分岐タスクに対する第1の出力結果とすることをさらに含む
    請求項2に記載の方法。
  5. 前記マルチタスクは、言語生成のための第2の分岐タスクを含み、
    前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得ることは、前記入力テキストにおける各字に対して、
    前記語意特徴に基づいて前記字の前に位置する前文情報を決定することと、
    前記前文情報に基づいて、前記字の後に位置する後文情報を予測し、第2の分岐タスクに対する第1の出力結果とすることと、を含む
    請求項1に記載の方法。
  6. 前記語意特徴に基づいて各分岐タスクに対する第2の出力結果をそれぞれ決定することをさらに含む
    請求項1に記載の方法。
  7. 各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算することは、
    前記各分岐タスクに対する第1の出力結果及び第2の出力結果に基づいて、各分岐タスクに対する損失を計算することを含む
    請求項6に記載の方法。
  8. 前記マルチタスクは、語意理解のための第1の分岐タスクを含み、
    前記語意特徴に基づいて各分岐タスクに対する第2の出力結果をそれぞれ決定することは、
    前記語意特徴に基づいて、前記入力テキストの語意理解情報を決定し、第1の分岐タスクに対する第2の出力結果とすることと、
    前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第1の分岐タスクに対する第2の出力結果とすることと、
    前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第1の分岐タスクに対する第2の出力結果とすること、のうちの1つを含む
    請求項6に記載の方法。
  9. 前記マルチタスクは、言語生成のための第2の分岐タスクを含み、
    前記語意特徴に基づいて各分岐タスクに対する第2の出力結果をそれぞれ決定することは、
    前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の後文情報を予測し、第2の分岐タスクに対する第2の出力結果とすることを含む
    請求項6に記載の方法。
  10. 予め設定された分岐タスクに対する処理すべきテキストを取得することと、
    自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、前記マルチタスクに対する語意特徴を取得し、前記語意特徴に基づいて前記予め設定された分岐タスクに対する特徴学習を行い、前記予め設定された分岐タスクに対する処理結果を取得することと、を含み、
    ここで、前記マルチタスクは、前記予め設定された分岐タスクを含み、前記自然言語処理モデルは、請求項1~9のいずれか一項に記載の方法によって訓練される
    自然言語処理方法。
  11. 入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得する語意学習モジュールと、
    前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第1の出力結果を得る特徴学習モジュールと、
    各分岐タスクに対する第1の出力結果に基づいて、各分岐タスクに対する損失を計算する損失計算モジュールと、
    各分岐タスクに対する損失に基づいて、前記自然言語処理モデルのパラメータを調整するパラメータ調整モジュールと、を含む
    自然言語処理モデルの訓練装置。
  12. 前記マルチタスクは、語意理解のための第1の分岐タスクを含み、
    前記特徴学習モジュールは、
    前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の前に位置する前文情報及び前記字の後に位置する後文情報を決定する第1の決定ユニットと、
    前記前文情報及び後文情報に基づいて、前記入力テキストの語意理解情報を決定し、前記第1の分岐タスクに対する第1の出力結果とする第2の決定ユニットと、を含む
    請求項11に記載の装置。
  13. 前記特徴学習モジュールは、
    前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第1の分岐タスクに対する第1の出力結果とする第1の計算ユニットをさらに含む
    請求項12に記載の装置。
  14. 前記特徴学習モジュールは、
    前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第1の分岐タスクに対する第1の出力結果とする第3の決定ユニットをさらに含む
    請求項12に記載の装置。
  15. 前記マルチタスクは、言語生成のための第2の分岐タスクを含み、
    前記特徴学習モジュールは、
    前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の前に位置する前文情報を決定する第4の決定ユニットと、
    前記前文情報に基づいて、前記字の後に位置する後文情報を予測し、第2の分岐タスクに対する第1の出力結果とする予測ユニットと、を含む
    請求項11に記載の装置。
  16. 前記語意特徴に基づいて各分岐タスクに対する第2の出力結果をそれぞれ決定する決定モジュールをさらに含む
    請求項11に記載の装置。
  17. 前記損失計算モジュールは、前記各分岐タスクに対する第1の出力結果及び第2の出力結果に基づいて、各分岐タスクに対する損失を計算する
    請求項16に記載の装置。
  18. 前記マルチタスクは、語意理解のための第1の分岐タスクを含み、
    前記決定モジュールは、
    前記語意特徴に基づいて、前記入力テキストの語意理解情報を決定し、第1の分岐タスクに対する第2の出力結果とすることと、
    前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第1の分岐タスクに対する第2の出力結果とすることと、
    前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第1の分岐タスクに対する第2の出力結果とすること、のうちの1つを実行する
    請求項16に記載の装置。
  19. 前記マルチタスクは、言語生成のための第2の分岐タスクを含み、
    前記決定モジュールは、前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の後文情報を予測し、第2の分岐タスクに対する第2の出力結果とする
    請求項16に記載の装置。
  20. 予め設定された分岐タスクに対する処理すべきテキストを取得する取得モジュールと、
    自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、前記マルチタスクに対する語意特徴を取得し、前記語意特徴に基づいて前記予め設定された分岐タスクに対する特徴学習を行い、前記予め設定された分岐タスクに対する処理結果を取得する処理モジュールと、を含み、
    ここで、前記マルチタスクは、前記予め設定された分岐タスクを含み、前記自然言語処理モデルは、請求項1~9のいずれか一項に記載の方法によって訓練される
    自然言語処理装置。
  21. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1~10のいずれか一項に記載の方法を実行することができる
    電子機器。
  22. コンピュータ命令が、前記コンピュータに請求項1~10のいずれか一項に記載の方法を実行させるために用いられる
    コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体。
  23. プロセッサにより実行される時に請求項1~10のいずれか一項に記載の方法を実現する
    コンピュータプログラム。
JP2022102621A 2021-06-30 2022-06-27 自然言語処理モデルの訓練方法、自然言語処理方法、装置、電子機器、記憶媒体及びプログラム Pending JP2022118263A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110747046.XA CN113361285B (zh) 2021-06-30 2021-06-30 自然语言处理模型的训练方法、自然语言处理方法及装置
CN202110747046.X 2021-06-30

Publications (1)

Publication Number Publication Date
JP2022118263A true JP2022118263A (ja) 2022-08-12

Family

ID=77537968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022102621A Pending JP2022118263A (ja) 2021-06-30 2022-06-27 自然言語処理モデルの訓練方法、自然言語処理方法、装置、電子機器、記憶媒体及びプログラム

Country Status (3)

Country Link
US (1) US20220293092A1 (ja)
JP (1) JP2022118263A (ja)
CN (1) CN113361285B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836901B (zh) * 2021-09-14 2023-11-14 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
GB2624839A (en) * 2021-10-05 2024-05-29 Pieces Tech Inc Creating multiple prioritized clinical summaries using artificial intelligence
CN114372499A (zh) * 2021-11-11 2022-04-19 万里云医疗信息科技(北京)有限公司 一种自然语言处理方法、装置、设备和计算机可读存储介质
CN114065952A (zh) * 2021-11-29 2022-02-18 腾讯科技(深圳)有限公司 模型训练的方法和装置
CN114691858B (zh) * 2022-03-15 2023-10-03 电子科技大学 一种基于改进的unilm摘要生成方法
US11646014B1 (en) 2022-07-25 2023-05-09 Intuit Inc. Ensemble of machine learning models for real-time predictions in expert electronic chats
CN115810351B (zh) * 2023-02-09 2023-04-25 四川大学 一种基于视听融合的管制员语音识别方法及装置
CN116822629A (zh) * 2023-05-19 2023-09-29 北京百度网讯科技有限公司 文本推理任务处理的方法、装置、设备以及存储介质
CN116860978B (zh) * 2023-08-31 2023-11-21 南京云创大数据科技股份有限公司 基于知识图谱和大模型的小学语文个性化学习系统
CN118194881A (zh) * 2024-04-16 2024-06-14 摩尔线程智能科技(北京)有限责任公司 文本生成系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
JP2020140673A (ja) * 2019-03-01 2020-09-03 富士ゼロックス株式会社 学習装置、情報出力装置、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526676B2 (en) * 2019-05-17 2022-12-13 Naver Corporation Implicit discourse relation classification with contextualized word representation
CN110222188B (zh) * 2019-06-18 2023-04-18 深圳司南数据服务有限公司 一种多任务学习的公司公告处理方法及服务端
US11704602B2 (en) * 2020-01-02 2023-07-18 Intuit Inc. Method for serving parameter efficient NLP models through adaptive architectures
CN111324695B (zh) * 2020-02-06 2022-12-16 鼎富智能科技有限公司 一种多任务学习方法及装置
CN112417884A (zh) * 2020-11-05 2021-02-26 广州平云信息科技有限公司 一种基于知识增强和知识迁移的句子语义相关度判断方法
CN112699686B (zh) * 2021-01-05 2024-03-08 浙江诺诺网络科技有限公司 基于任务型对话系统的语义理解方法、装置、设备及介质
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
CN112988785B (zh) * 2021-05-10 2021-08-20 浙江大学 基于语言模型编码和多任务解码的sql转换方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140673A (ja) * 2019-03-01 2020-09-03 富士ゼロックス株式会社 学習装置、情報出力装置、及びプログラム
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI DONG 他8名: "Unified Language Model Pre-training for Natural Language Understanding and Generation", ARXIV, JPN6023031283, 15 October 2019 (2019-10-15), ISSN: 0005119836 *

Also Published As

Publication number Publication date
US20220293092A1 (en) 2022-09-15
CN113361285A (zh) 2021-09-07
CN113361285B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
JP2022118263A (ja) 自然言語処理モデルの訓練方法、自然言語処理方法、装置、電子機器、記憶媒体及びプログラム
JP7273108B2 (ja) モデルトレーニング方法、装置、電子デバイス、記憶媒体、プログラム
US10679148B2 (en) Implicit bridging of machine learning tasks
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
EP3913543A2 (en) Method and apparatus for training multivariate relationship generation model, electronic device and medium
KR102565275B1 (ko) 병렬 처리에 기초한 번역 방법 및 장치
US20210342549A1 (en) Method for training semantic analysis model, electronic device and storage medium
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
CN111344779A (zh) 训练和/或使用编码器模型确定自然语言输入的响应动作
US20210232948A1 (en) Question responding apparatus, question responding method and program
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
US20220300718A1 (en) Method, system, electronic device and storage medium for clarification question generation
CN114970522B (zh) 语言模型的预训练方法、装置、设备、存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
JP2021106016A (ja) 対話生成方法、装置、電子機器及び媒体
US20220129753A1 (en) Pre-training method of neural network model, electronic device and medium
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
JP2022059021A (ja) モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム
EP3920074A2 (en) Method for industry text increment, related apparatus, and computer program product
CN113689868B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN111667069A (zh) 预训练模型压缩方法、装置和电子设备
CN117153142A (zh) 一种语音信号合成方法、装置、电子设备及存储介质
US20230317058A1 (en) Spoken language processing method and apparatus, and storage medium
CN113191140B (zh) 文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240402

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240409

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20240802