JP7247441B2 - セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体 - Google Patents

セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体 Download PDF

Info

Publication number
JP7247441B2
JP7247441B2 JP2020095744A JP2020095744A JP7247441B2 JP 7247441 B2 JP7247441 B2 JP 7247441B2 JP 2020095744 A JP2020095744 A JP 2020095744A JP 2020095744 A JP2020095744 A JP 2020095744A JP 7247441 B2 JP7247441 B2 JP 7247441B2
Authority
JP
Japan
Prior art keywords
training
model
semantic representation
semantic
representation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020095744A
Other languages
English (en)
Other versions
JP2021096812A (ja
Inventor
スン、ユ
ワン、ハイフェン
ワン、シュオフアン
リ、ユクン
フェン、シクン
ティアン、ハオ
ウ、フア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021096812A publication Critical patent/JP2021096812A/ja
Application granted granted Critical
Publication of JP7247441B2 publication Critical patent/JP7247441B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Description

本出願は、コンピューター技術の分野に関し、特に、人工知能技術に関し、具体的に、セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体に関する。
人工知能(Artificial Intelligence、AI)は、人間の知能をシミュレート、伸張、及び拡張するための理論、方法、技術、及びアプリケーションシステムを研究、開発する新しい技術科学である。人工知能は、コンピューター科学の一分野であり、知能の本質を理解し、人間の知能と同じように反応できる新しいインテリジェントマシンを生み出し、この分野の研究には、ロボット、言語認識、画像認識、自然言語処理(Natural Language Processing、NLP)及び専門家システムを含む。特に、NLPの分野は、近年のAI研究の比較的人気がある方向である。
NLP分野では、ニューラルネットワークモデルを用いて語句に対してセマンティック表現を行い、さらに、取得したセマンティック表現に基づいてNLPのタスク処理を行うことができる。従来技術では、典型的なセマンティック表現技術には、Word2Vec、Gloveモデルなどを用いて実現するコンテクストフリーセマンティック表現、及び、Elmo、コンバーターの双方向のエンコード表現(Bidirectional Encoder Representations from Transformers、BERT)モデル、XLNETなどを用いて実現するコンテキストセンシティブセマンティック表現を含む。なお、コンテキストセンシティブセマンティック表現はコンテクストフリーセマンティック表現よりも効果が大幅に改善される。
しかし、BERT、XLNetなどの従来技術は、主にワード又はセンテンスの共起情報を通じて学習し、タスクの目標は単一であり、例えば、BERTは、マスク言語モデルと次のセンテンスの予測タスクを通じてトレーニングし、XLNetは完全順列の言語モデルを構築し、自己回帰の方式でプレトレーニングすることで、従来技術によってトレーニングされたセマンティック表現モデルがトレーニング言語材料における各レベルの情報を十分に学習しにくく、能力は制限されており、セマンティック表現の精度は低くなってしまう。
本出願は、セマンティック表現モデルのセマンティック表現能力を豊富にし、セマンティック表現の正確性を向上するために、セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体を提供する。
本出願で提供されるセマンティック表現モデルの処理方法は、
複数のトレーニング言語材料を含むトレーニングコーパスを採集するステップと、
トレーニングコーパスを用いて、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングするステップと、を含む。
さらに、任意選択で、トレーニングコーパスを用いて、形態論に基づいてセマンティック表現モデルをトレーニングすることは、
トレーニングコーパスを用いて、単語、短句及び/又はエンティティのマスキング策略に基づいて、セマンティック表現モデルをトレーニングすることと、
トレーニングコーパスを用いてセマンティック表現モデルをトレーニングすることで、異なる言語環境で語彙の頭文字を大文字にする必要があるかどうかを分析する能力を学習するようにすることと、
トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における語彙が元のドキュメントの他の断片に出現するかどうかを予測する能力を学習するようにすることとの少なくとも一つを含む以上に記載の方法である。
さらに、任意選択で、トレーニングコーパスを用いて、文法に基づいてセマンティック表現モデルをトレーニングすることは、
トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における異なる断片の順序関係を認識する能力を学習するようにすることと、
トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、いずれか二つの語句ペアの位置関係を認識する能力を学習するようにすることとの少なくとも一つを含む以上に記載の方法である。
さらに、任意選択で、トレーニングコーパスを用いて、セマンティックに基づいてセマンティック表現モデルをトレーニングすることは、
トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、連続する二つの語句間の論理的な関係を認識する能力を学習するようにすることと、
トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における検索語句とウェブページのトピックとの間の相関性を認識する能力を学習するようにすることとの少なくとも一つを含む以上に記載の方法である。
さらに、任意選択で、トレーニングコーパスを用いて、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングした後に、方法は、
予め採集された自然言語処理のタスクコーパスに基づいて、セマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得て、
自然言語処理のタスクモデルに基づいて、自然言語処理のタスクを実行することを含む以上に記載の方法である。
本出願は、さらに、セマンティック表現モデルの処理装置を提供し、
複数のトレーニング言語材料を含むトレーニングコーパスを採集するための採集モジュールと、
トレーニングコーパスを用いて、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングするためのセマンティック表現モデルトレーニングモジュールと、を含む。
本出願は、さらに、電子機器を提供し、
電子機器であって、
少なくとも一つのプロセッサーと、
少なくとも一つのプロセッサーに通信接続されるメモリと、を含んでおり、
メモリには、少なくとも一つのプロセッサーによって実行可能なコマンドが記憶されており、コマンドが少なくとも一つのプロセッサーによって実行されることで、以上のいずれか一項に記載の方法を少なくとも一つのプロセッサーに実行させることができる。
本出願は、コンピューターに以上のいずれか一項に記載の方法を実行させるためのコンピューターコマンドが記憶されている非一時的コンピューター可読記録媒体を提供する。
上記の出願における一実施例は以下の利点又は有益な効果を有する。複数のトレーニング言語材料を含むトレーニングコーパスを採集するとともに、トレーニングコーパスを採用し、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングすることにより、トレーニングされたセマンティック表現モデルは形態論、文法、及びセマンティックなどの各レベルの情報を十分に学習でき、セマンティック表現モデルのセマンティック表現能力を豊富にし、セマンティック表現の正確性を向上させる。
さらに、本出願では、また、セマンティック表現モデルに対して形態論に基づくタスクトレーニングを行うことで、セマンティック表現モデルは単語、短句及びエンティティの共起知識を学習でき、知識のフュージョンを了解でき、これにより、セマンティック表現モデルのセマンティック表現能力を増強し、各語句に対してセマンティック表現を行うことができる。同時に、また、異なる言語環境で語彙の頭文字を大文字にするかどうかのような能力を学習でき、これにより、異なる言語環境での語彙の正確な表現方式を正しく学習でき、また、元のドキュメントの他の断片における語彙の共起を予測する能力を学習でき、これにより、ドキュメント内のどの単語がドキュメントの中心思想を表すことができるかを予測することを容易にする。上記した形態論に基づくタスクトレーニングにより、セマンティック表現モデルは、豊富な形態論知識を学習でき、形態論で表現される意味を十分に了解でき、セマンティック表現をより正確に行うことを容易にする。
さらに、本出願では、また、セマンティック表現モデルに対して文法に基づくタスクトレーニングを行うことで、セマンティック表現モデルは、センテンスのソート、異なるセンテンスの位置関係の認識を学習でき、これにより、セマンティック表現過程で、各センテンスを正確に位置決めし、セマンティック表現の正確性を向上することができる。
さらに、本出願では、また、セマンティック表現モデルに対してセマンティックに基づくタスクトレーニングを行うことで、セマンティック表現モデルは、センテンスの論理的な関係タスク、及び検索相関性タスクを学習でき、これにより、セマンティック表現の際に、セマンティックを正確に了解し、セマンティック表現の正確性を増強することができる。
要するに、本出願では、形態論、文法、セマンティックの三つの異なるレベルの教師なし又は弱教師ありプレトレーニングタスクを構築することで、セマンティック表現モデルは、大量のデータから語彙、文法、セマンティックの異なるレベルの知識を学習でき、一般的なセマンティック表現の能力を増強し、NLPタスクの処理効果を上げる。
上記好適な形態が有する他の効果ついては、具体的な実施例に基づいて以下説明する。
図面はこの方案をよりよく理解するためのものであり、本出願の制限を構成するものではない。図面において、
本出願の第1の実施例による模式図である。 本出願の第1の実施例による模式図である。 本出願で提供されるトレーニング応用例の図である。 本出願で提供されるセマンティック表現モデルのマルチタスク学習の構造図である。 本出願で提供されるセマンティック表現モデルの応用構造の模式図である。 本出願の第3の実施例による模式図である。 本出願の第4の実施例による模式図である。 本出願の実施例に係るセマンティック表現モデルの処理方法を実現するための電子機器のブロック図である。
以下、図面に基づいて、本発明の例示的な実施例を記述する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。明らか、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は本出願の第1の実施例の模式図である。図1に示すように、本出願のセマンティック表現モデルの処理方法の実施例のフローチャートを詳細に説明する。図1に示すように、本実施例のセマンティック表現モデルの処理方法は、以下のステップを含む。
S101において、複数のトレーニング言語材料を含むトレーニングコーパスを採集する。
S102において、トレーニングコーパスを用いて、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングする。
本実施例のセマンティック表現モデルの処理方法の実行本体は一つのセマンティック表現モデルの処理装置であり、上記セマンティック表現モデルの処理装置は、独立した電子エンティティであってもよいし、ソフトウェア集積を使用したアプリケーションシステムであってもよく、セマンティック表現モデルの様々な処理を実現でき、例えば、セマンティック表現モデルのトレーニングなどを実現できる。
トレーニングされるセマンティック表現モデルセマンティック表現の正確性を向上するために、本実施例において、トレーニングコーパスを用いて、1つ、2つ、又はそれ以上のトレーニングタスクに基づいてセマンティック表現モデルをトレーニングし、例えば具体的に、形態論、文法、及びセマンティックの少なくとも1つに基づいて、タスクセマンティック表現モデルをトレーニングしてもよい。
なお、形態論、文法、及びセマンティックの少なくとも二つのトレーニングタスクに基づいてセマンティック表現モデルをトレーニングする場合に、形態論、文法、及びセマンティックの少なくとも二つトレーニングタスクに基づいて同時にセマンティック表現モデルをトレーニングしてもよいし、それぞれ各トレーニングタスクに基づいてセマンティック表現モデルを順次トレーニングしてもよく、具体的に、まず、どのトレーニングタスクに基づいてトレーニングし、次に、どのトレーニングタスクに基づいてトレーニングするかのことについて、順序の制限はない。
セマンティック表現モデルのトレーニング効果を確保するために、本実施例では、トレーニングコーパスには、100万以上、それ以上までのトレーニング言語材料を含むことができる。そして、本実施例では、トレーニングタスクのニーズを満たすために、トレーニングコーパスの各トレーニング言語材料のデータコンテンツは、非常に豊富でありえる。又は、本実施例に係るトレーニングコーパスにおいて、各トレーニング言語材料によって応用されるトレーニングタスクの識別子も対応して標識することができ、例えば、数字である1、2、3で、3つのトレーニングタスクのそれぞれに必要なトレーニング言語材料を表示してもよい。具体的に、各トレーニングタスクについて、小タスクをさらに細分化する必要がある場合、必要なトレーニング言語材料が異なると、トレーニングコーパスにおいて各トレーニング言語材料に適用する小タスクの識別子を標識することもできる。
任意選択で、本実施例におけるステップS102において、トレーニングコーパスを用いて、形態論に基づいてセマンティック表現モデルをトレーニングすることは、
(a)トレーニングコーパスを用いて、単語、短句及び/又はエンティティのマスキング策略に基づいてセマンティック表現モデルをトレーニングすることと、
(b)トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、異なる言語環境で語彙の頭文字を大文字にする必要があるかどうかを分析する能力を学習するようにすることと、
(c)トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における語彙が元のドキュメントの他の断片に出現するかどうかを予測する能力を学習するようにすることとの少なくとも一つを含む。
上記の(a)、(b)及び(c)は、三つの方式が形態論レベルに属するタスクトレーニングであり、実施の応用において、セマンティック表現モデルをトレーニングする場合に、同時に上記の三つの方式を用いてトレーニングしてもよく、択一的に選択してもよく、いずれか二つの組み合わせを選択する方式でセマンティック表現モデルをトレーニングしてもよい。もちろん、選択されるトレーニング方式が多いほど、トレーニングされたセマンティック表現モデルの学習能力が高くなり、セマンティック表現をより正確に行うことができる。
図2は、本出願の第2の実施例の模式図である。図2に示すように、上記の実施例の方式(a)がトレーニングコーパスを用いて、単語、短句及び/又はエンティティのマスキング策略に基づいてセマンティック表現モデルをトレーニングする具体的な実現過程について詳細に説明した。図2に示すように、本実施例に係るトレーニングコーパスを用いて、単語、短句及び/又はエンティティのマスキング策略に基づいてセマンティック表現モデルをトレーニングすることは、具体的に、以下のステップを含む。
S201において、トレーニングコーパスから取得した各トレーニング語句における単語、短句及びエンティティをラベリングする。
例えば、本実施例では、予めトレーニングされたシーケンスラベリングモデル用いてコーパス内の各トレーニング語句における単語、短句及びエンティティをラベリングする。なお、単語はワードの最小単位であり、短句は単語の組み合わせであってもよく、例えば、同格語句である「首都北京」など、方位短句である「地上にある」など、数量語句である「1つの花」を含んでもよい。
本実施例の単語の粒度とエンティティの粒度は字の粒度よりも大きく、例えば、単語は、具体的に、連続する二つ又は複数の字からなり、例えば、「漂亮」、「美麗」、「真実」、「高興」、「五顔六色」、「省都」、「城市」などである。エンティティは、具体的に、名前、地名、会社名などである。短句の粒度は、単語の粒度とエンティティの粒度よりも大きい。
なお、トレーニングコーパスは予め採集されたものであり、複数のトレーニング言語材料を含む。本実施例では、異なるトレーニングタスクによって、必要なトレーニングトレーニング言語材料は同じであるとは限らない可能性があり、例えば、あるトレーニングタスクに必要なトレーニング言語材料は、短いトレーニング語句であり、他のトレーニングタスクは複数の語句を含む長い段落が必要である。本実施例では、トレーニングコーパスにおいて各トレーニング言語材料に適用するトレーニングタスクの識別子を標識することができる。例えば、方式(a)を用いて、トレーニングコーパスを用いて、単語、短句及び/又はエンティティのマスキング策略に基づいてセマンティック表現モデルをトレーニングする場合、トレーニングコーパスからこのトレーニングタスクに適用する各トレーニング語句を取得し、次に、取得した各トレーニング語句に基づいて、単語、短句及び/又はエンティティのマスキング策略に基づき、セマンティック表現モデルをトレーニングする。
具体的に、使用時、各レーニング語句を上記シーケンスラベリングモデルに入力でき、上記シーケンスラベリングは上記トレーニングデータに含まれる単語、短句及びエンティティを出力できる。それに対応して、シーケンスラベリングモデルをトレーニングする場合、アレイトレーニング語句と、各トレーニング語句にラベリングされた単語、短句及びエンティティを採集できる。具体的に、各トレーニングデータをシーケンスラベリングモデルに入力し、上記シーケンスラベリングモデルは、その中に含まれる単語、短句及びエンティティを予測し、次に、予測された単語、短句及びエンティティがラベリングされた単語及びエンティティと一致するかどうかを判断し、一致しないと、予測された単語、短句及びエンティティと、ラベリングされた単語、短句及びエンティティとに基づいて、シーケンスラベリングモデルのパラメーターを調整し、複数のトレーニング語句と、対応するラベリングされた単語、短句及びエンティティを用いて、シーケンスラベリングモデルをトレーニングし、トレーニング回数が予め設定された最大回数閾値に到達するか、連続する所定の回数のトレーニングにおいてパラメーターを調整する必要がないまでであり、シーケンスラベリングモデルは既にトレーニングされたと考えることができ、この場合、シーケンスラベリングモデルパラメーターを確定し、さらに、シーケンスラベリングモデルを確定する。
又は、本実施例では、また、予め採集された単語ライブラリ、短句ライブラリ及びエンティティライブラリを用いてラベリングし、それぞれコーパス内の各トレーニング語句における単語、短句及びエンティティをラベリングすることもできる。なお、単語ライブラリ又は短句ライブラリは、予め採集された膨大なコーパスに基づいて全ての単語又は短句を収集して形成される。同様に、エンティティライブラリには、いくつかの地名、名前、会社名のエンティティが収集されてもよく、同時に、エンティティライブラリ外の他の会社エンティティをラベリングするように、会社名のテンプレートをカスタマイズしてもよい。
実施の応用において、上記の二つの方式以外の他の方式で単語及びエンティティのラベリングを行うこともでき、ここで1つずつ例を挙げて繰り返して記述しない。
S202において、取得した各トレーニング語句、及びラベリングされた単語を用いて、単語の粒度に基づいてセマンティック表現モデルをトレーニングする。
S203において、取得した各トレーニング語句、及びラベリングされた短句を用いて、短句の粒度に基づいてセマンティック表現モデルをトレーニングする。
S204において、取得した各トレーニング語句、及びラベリングされたエンティティを用いて、エンティティの粒度に基づいてセマンティック表現モデルをトレーニングする。
例えば、字の粒度のトレーニングについて、セマンティック表現モデルは、哈*濱の中央にある字が爾であることを学習できる。それに対応して、単語の粒度のトレーニングに基づいて、哈爾濱が黒竜江の省都に属するセマンティック関係を学習できる。短句の粒度のトレーニングに基づいて、有名な文化都市のような短句関係を学習できる。エンティティの粒度のトレーニングに基づいて、セマンティック表現モデルは、哈爾濱と黒竜江がセマンティック関係を有することも学習できる。本実施例では、あるエンティティそのものは一つの単語であり、あるエンティティは単語よりも長く、具体的に、二つ又は複数の単語を含み得る。
具体的に、ステップS202-S204を通じて、セマンティック表現モデルを、それぞれ単語の粒度、短句の粒度及びエンティティの粒度に基づいてトレーニングすることにより、セマンティック表現モデルは、センテンス中の単語、短句及びエンティティに基づく知識融合性を学習できるようにする。そして、本実施例のステップS202-S204の順序関係は無制限であり得、まず、セマンティック表現モデルを単語の粒度に基づいてトレーニングし、次に、それぞれ短句の粒度とエンティティの粒度に基づくトレーニングを順次行うか、それぞれエンティティの粒度と短句の粒度に基づくトレーニングを行ってもよい。又は、まず、セマンティック表現モデルをエンティティの粒度に基づくトレーニングを行い、次に、それぞれ短句の粒度と単語の粒度に基づくトレーニングを順次行うか、それぞれ単語の粒度と短句の粒度に基づくトレーニングを順次行ってもよく、同時に三つの粒度に基づいてトレーニングをさえ行ってもよく、例えば、トレーニングの中、まず、短句の粒度に基づいてセマンティック表現モデルを1回又は固定の回数だけトレーニングするし、次に、単語の粒度に基づいてセマンティック表現モデルを1回又は固定の回数だけトレーニングし、続いて、エンティティの粒度に基づいてセマンティック表現モデルを1回又は固定の回数だけトレーニングし、上記のフローに従ってセマンティック表現モデルのトレーニングを繰り返す。要するに、まずどのトレーニングが実行されても、次にどのトレーニングが実行されても、同時にトレーニングをさえ行っても、単語の粒度、短句の粒度及びエンティティの粒度に基づくトレーニングを完成させればよい。
トレーニングコーパスから取得した、このトレーニングタスクに適用する各トレーニング語句、及びラベリングされた単語を用いて、単語の粒度に基づいてセマンティック表現モデルをトレーニングする過程において、各トレーニング語句、及び上記トレーニング語句におけるラベリングされた単語に対して、一定の比例で単語をランダムに隠し、モデルに上記トレーニング語句における他の単語などのコンテクスト情報に応じて、上記単語を予測させ、このようにすれば、コンテクスト単語の知識融合性を学習できる。図3に示すトレーニング語句については、単語の粒度に基づくトレーニングの場合、「哈爾濱」、「黒竜江」、「省都」、「国際」、又は「氷雪」などの単語をランダムに隠し得、このようにすれば、セマンティック表現モデルに単語である黒竜江と哈爾濱との間の省都の関係、哈爾濱が有名な氷雪文化都市に属することなどを学習できる。具体的なトレーニングの場合、各トレーニング語句に対して、一定の比例で単語をランダムに隠してから、セマンティック表現モデルは隠された単語を予測する。さらに、予測が正しいかどうかを判断し、正しくないと、セマンティック表現モデルのパラメーターを調整して、予測された単語を隠された単語と一致させる。複数のトレーニング語句及びラベリングされた単語を用いて、絶えずセマンティック表現モデルをトレーニングし、連続する所定の回数のトレーニングにおいて、常に、セマンティック表現モデルの正確度が予め設定された正確度閾値よりも大きいまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、単語の粒度に基づくトレーニングは終了する。本実施例の予め設定された正確度は実際のニーズに従って設定されてもよく、例えば、99%、98%、又は他のパーセントである。図3におけるTransformはTransformモデルを示す。本実施例に係るセマンティック表現モデルはTransformモデルに基づいて実現される。
トレーニングコーパスから取得した、このトレーニングタスクに適用する各トレーニング語句、及びラベリングされたエンティティを用いて、エンティティの粒度に基づいてセマンティック表現モデルをトレーニングする。各トレーニング語句、及び上記トレーニング語句におけるラベリングされたエンティティに対して、一定の比例でエンティティをランダムに隠し、モデルに上記トレーニング語句における他のエンティティなどのコンテクスト情報に応じて、上記エンティティを予測させ、このようにすれば、コンテクストエンティティの知識融合性を学習できる。図3に示すトレーニング語句については、エンティティの粒度に基づくトレーニングの場合、「哈爾濱」、「黒竜江」のいずれかのエンティティをランダムに隠し得、このようにすれば、セマンティック表現モデルにエンティティである黒竜江と哈爾濱との間の省都の関係を学習できる。具体的なトレーニングの場合、各トレーニング語句に対して、一定の比例でエンティティをランダムに隠してから、セマンティック表現モデルは隠されたエンティティを予測する。さらに、予測が正しいかどうかを判断し、正しくないと、セマンティック表現モデルのパラメーターを調整して、予測されたエンティティを隠されたエンティティと一致させる。複数のトレーニング語句及びラベリングされたエンティティを用いて、絶えずセマンティック表現モデルをトレーニングし、連続する所定の回数のトレーニングにおいて、常に、セマンティック表現モデルの正確度が予め設定された正確度閾値よりも大きいまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、エンティティの粒度に基づくトレーニングは終了する。同様に、本実施例の予め設定された正確度は実際のニーズに従って設定されてもよく、例えば、99%、98%、又は他のパーセントである。
本実施例に係る短句に基づくトレーニングの実現原理は、単語の粒度に基づくトレーニング原理と同じであるため、詳細については、上記の実施例の関連記載を参照し、ここで繰り返して記述しない。
本実施例に係るセマンティック表現モデルは、単語の粒度に基づくトレーニング、短句の粒度に基づくトレーニング及びエンティティの粒度に基づくトレーニングを経って、セマンティック表現モデルのセマンティック表現能力を拡張できるので、本実施例に係るセマンティック表現モデルは、知識統合による拡張表現モデル(Enhanced Representation through kNowledge IntEgration、ERNIE)とも称されることもできる。本実施例に係るERNIEモデルもTransformerモデルに基づいて実現される。
本実施例の技術案を採用すると、セマンティック表現モデルは、単語の粒度に基づくトレーニング、短句の粒度に基づくトレーニング及びエンティティの粒度に基づくトレーニングを経った後、コンテクストの字の間の知識融合性、単語の間の知識融合性、及びエンティティの間の知識融合性を学習できるため、これにより、セマンティック表現モデルのセマンティック表現能力を拡張し、各語句に対してセマンティック表現を正確に行うことができる。そして、本実施例において、トレーニングして得られたセマンティック表現モデルは、より強い一般的な性及びスケーラビリティを有し、あらゆるNLPタスクに適用でき。
さらに、上記の図1に示す実施例における方式(b)はトレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、異なる言語環境で語彙の頭文字を大文字にする必要があるかどうかを分析する能力を学習するようにする。
例えば、上記能力は英語などの言語環境に適用できる。異なる言語環境シナリオにおいて、頭文字を大文字にする必要がある場合があり、頭文字を大文字にする必要がない場合もある。例えば、英語では、完全な文の場合、文の最初の頭文字を大文字にすることができるが、前部がコンマである場合、文が完了していないことを意味し、次の語彙の頭文字を大文字にする必要はない。また、例えば、幾つかの言語環境において、ある語彙、例えば、Apple、Harry Potterがブランド名又は名前として表示される場合、頭文字を大文字にする必要がある。実施の応用において、語彙の頭文字を大文字にするかどうかについては、様々な言語環境がある。本実施例では、セマンティック表現モデルをトレーニングすることで、どの言語環境で語彙の頭文字を大文字にする必要があるか、どの言語環境で頭文字を大文字にする必要がないかを自動的に認識する。
同様に、まず、トレーニングコーパスからこのトレーニングタスクに適用する各トレーニング言語材料を取得し、上記タスクのトレーニング言語材料には語彙の頭文字を大文字にする必要があるトレーニング言語材料、及び語彙の頭文字を大文字にする必要がないトレーニング言語材料を含むが、上記トレーニング言語材料には、語彙だけでなく、語彙の言語環境、例えば、上記語彙の前の文も含める必要がある。トレーニング中に、トレーニング言語材料を上記セマンティック表現モデルに入力し、セマンティック表現モデルは、どの語彙の頭文字を大文字にする必要があるか、又は大文字にする必要がないかを予測し、次に、既知の正しい記述方法と照合し、一致しないと、セマンティック表現モデルのパラメーターを調整して、予測されたものを既知のものと一致させる。取得した各トレーニング言語材料を用いて、上記の方式に従って、絶えずセマンティック表現モデルの上記能力をトレーニングし、セマンティック表現モデルの予測正確度が予め設定された正確度閾値、例えば、99%、98%、又は他のパーセントに到達するまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、このタスクのトレーニングは終了する。
さらに、上記の実施例における方式(c)について、トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における語彙が元のドキュメントの他の断片に出現するかどうかを予測する能力を学習するようにする。上記能力は、セマンティック表現モデルがどの語彙が文章の中心思想を代表できるかについて予測できる。
同様に、まず、トレーニングコーパスから、このトレーニングタスクに適用する各トレーニング言語材料を取得し、上記タスクのトレーニング言語材料は語句であってもよく、同時に、上記トレーニング言語材料における各語彙が元のドキュメントの他の断片に出現したかどうかの識別子がラベリングされていることもできる。トレーニング中に、トレーニング言語材料をセマンティック表現モデルに入力し、上記セマンティック表現モデルは、上記トレーニング言語材料における各語彙が元のドキュメントの他の断片に出現するかどうかを予測し出力する。そして、ラベリングされた上記トレーニング言語材料における各語彙が元のドキュメントの他の断片に出現するかどうかの識別子に基づいて、セマンティック表現モデルの予測が正しいかどうかを判断し、正しくないと、セマンティック表現モデルのパラメーターを調整して、予測されたもとをラベリングされたものと一致させる。このトレーニングタスクの各トレーニング言語材料を用いて、上記の方式にした、絶えずセマンティック表現モデルの上記能力トレーニングし、セマンティック表現モデルの予測正確度が予め設定された正確度閾値、例えば、99%、98%、又は他のパーセントに到達するまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、このタスクのトレーニングは終了する。
上記の方式(a)、(b)及び(c)のトレーニングは教師なしタスクトレーニングである。
上記の方式(a)、(b)及び(c)は、上記のステップS102におけるトレーニングコーパスを用いて、形態論に基づいてセマンティック表現モデルをトレーニングする幾つかの実現方式であり、実施の応用において、他の類似する方式を用いて形態論に基づいてセマンティック表現モデルをトレーニングすることもでき、ここで1つずつ例を挙げて繰り返して記述しない。
さらに、任意選択で、上記の図1に示す実施例のステップS102において、トレーニングコーパスを用いて、文法に基づいてセマンティック表現モデルをトレーニングすることは、
(A)トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における異なる断片の順序関係を認識する能力を学習するようにすることと、
(B)トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、いずれか二つの語句ペアの位置関係を認識する能力を学習するようにすることとの少なくとも一つを含む。
本実施例に係る方式(A)及び方式(B)は、文法レベルのタスクトレーニングに属する。本実施例に係る文法はセンテンス間の関係を考慮したので、今回のトレーニングタスクのトレーニング言語材料には少なくとも二つのセンテンスを含み、トレーニングの場合、その中のいずれか二つのセンテンスを対象としてトレーニングする。
同様、まず、トレーニングコーパスから今回のトレーニングタスクに必要な全てのトレーニング言語材料を取得する必要が有る。今回のトレーニングタスクのトレーニング言語材料は、段落、又は複数の語句を含む断片であってもよく、まず、トレーニング言語材料を複数の断片に分割する必要があり、順序をランダムに乱してから、その中からいずれか二つの断片を取得し、トレーニング言語材料に応じて、上記二つの断片の順序関係をラベリングし、後続のトレーニングのために用いられる。例えば、セマンティック表現モデルをトレーニングして、トレーニング言語材料における異なる断片の順序関係を認識する能力を学習する場合、トレーニング言語材料に基づいて取得した二つの断片をセマンティック表現モデルに入力し、上記セマンティック表現モデルは上記二つの断片の順序関係、つまり、最初の断片と次の断片を予測し出力する。そして、既知の二つの断片の順序関係に基づいて、予測されたものが既知のものと一致するかどうかを判断し、一致しないと、セマンティック表現モデルのパラメーターを調整して、予測されたものを既知のものと一致させる。このトレーニングタスクの各トレーニング言語材料を用いて、上記の方式に従って、絶えずセマンティック表現モデルをトレーニングし、セマンティック表現モデルの予測正確度が予め設定された正確度閾値、例えば、99%、98%、又は他のパーセントに到達するまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、このタスクのトレーニングは終了する。この本タスクのトレーニングを経って、セマンティック表現モデルは、断片間の順序と因果関係を学習できるため、異なる断片の順序関係を正確に認識することができる。上記トレーニングタスクは、センテンスのソートタスクと称され得る。
本実施例では、セマンティック表現モデルをトレーニングして、いずれか二つの語句ペアの位置関係を認識する能力を学習する場合、3つの分類タスクを設置し、語句ペア間の位置関係が隣接センテンス、ドキュメント内の非隣接センテンス、非同一のドキュメント内のセンテンスの三つの種別であるかどうかを判断してもよく、もちろん、実施の応用において、ニーズに応じて、より多い分類を設置し、セマンティック表現モデルは文章情報を良く利用してセマンティック相関性を学習することができる。
同様に、レーニングコーパスから今回のトレーニングタスクに必要な全てのトレーニング言語材料を取得する必要が有る。今回のトレーニングタスクのトレーニング言語材料は語句ペアであり、トレーニング言語材料を豊富にするために、本実施例のトレーニング言語材料は、同一のドキュメント内の二つの隣接センテンスをとってもよく、同一のドキュメント内の非隣接の二つのセンテンスをとってもよく、非同一のドキュメント内の二つのセンテンスをとってもよく、様々な異なるトレーニング言語材料は、プリセット比例に従って予め採集され、二つのセンテンスの位置関係式が同一のドキュメントの隣接センテンス、同一のドキュメントの非隣接センテンス、非同一のドキュメントの二つのセンテンスのいずれであるかをラベリングしてもよい。トレーニング中に、上記タスクのトレーニング言語材料における二つのセンテンスをセマンティック表現モデルに入力し、セマンティック表現モデルは、この二つのセンテンスの位置関係を予測し出力し、次に、予測された位置関係が既知の位置関係と一致するかどうかを判断し、一致しないと、セマンティック表現モデルのパラメーターを調整して、予測されたものを既知のものと一致させる。このトレーニングタスクの各トレーニング言語材料を用いて、上記の方式に従って、絶えずセマンティック表現モデルをトレーニングし、セマンティック表現モデルの予測正確度が予め設定された正確度閾値、例えば、99%、98%、又は他のパーセントに到達するまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、このタスクのトレーニングは終了する。
上記の方式(A)及び(B)は教師なしレーニングである。
上記の方式(A)及び(B)は、ステップS102におけるトレーニングコーパスを用いて、文法に基づいてセマンティック表現モデルをトレーニングする幾つかの実現方式であり、実施の応用において、他の類似する方式を用いて文法に基づいてセマンティック表現モデルをトレーニングすることもでき、ここで1つずつ例を挙げて繰り返して記述しない。
さら、任意選択で、上記の図1に示す実施例のステップS102におけるトレーニングコーパスを用いて、セマンティックに基づいてセマンティック表現モデルをトレーニングすることは、
(1)トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、連続する二つの語句間の論理的な関係を認識する能力を学習するようにすることと、
(2)トレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における検索語句(Query)とウェブページのトピック(Title)との間の相関性を認識する能力を学習するようにすることとの少なくとも一つを含む。
本実施例の方式(1)及び方式(2)はセマンティックレベルのタスクトレーニングに属し、センテンスのセマンティック分析に基づいて、それぞれ、センテンスの論理的な関係タスクと、検索相関性タスクを学習する。
例えば、連続する二つの語句間の論理的な関係を認識する能力を学習した場合、二つのセンテンスの間がしかしながら、ならば、でも、そしてなどの接続詞で接続されることを学習でき、二つのセンテンス間の論理的な関係を明確にする。
同様、まず、トレーニングコーパスから今回のトレーニングタスクに必要な全てのトレーニング言語材料を取得する必要が有る。上記トレーニングタスクのトレーニング言語材料は、各元のドキュメントから、「しかしながら」、「ならば」、「でも」、「そして」などの接続詞で接続される二つの語句を採集してもよく、もちろん、トレーニングサンプルの負例として、接続詞がない二つの語句を採集してもよい。トレーニングの場合、トレーニング言語材料における二つの語句をセマンティック表現モデルに入力し、上記セマンティック表現モデルは、この二つの語句の論理的な関係を予測し出力し、例えば、異なる識別子を用いて、それぞれ、「しかしながら」、「ならば」、「でも」、「そして」などの論理的な関係を標識してもよい。そして、予測された論理的な関係が既知の論理的な関係と一致するかどうかを判断し、一致しないと、セマンティック表現モデルのパラメーターを調整して、予測されたものを既知のものと一致させる。このトレーニングタスクの各トレーニング言語材料を用いて、上記の方式に従って、絶えずセマンティック表現モデルをトレーニングし、セマンティック表現モデルの予測正確度が予め設定された正確度閾値、例えば、99%、98%、又は他のパーセントに到達するまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、このタスクのトレーニングは終了する。
例えば、トレーニング言語材料における検索語句(Query)とウェブページのトピック(Title)との間の相関性を認識する能力を学習し、QueryとTitleとの関係種別を学習してもよく、例えば、種別0は強関連であり、この場合、ユーザーがQueryを検索した後に上記Titleをクリックしたと考える。種別1は弱関連であり、この場合、ユーザーがQueryを検索した後に表示されたが上記Titleをクリックしなかったと考える。種別2は非関連であり、この場合、ユーザーがQueryを検索してから上記Titleを表示しなかったと考える。
同様、まず、トレーニングコーパスから今回のトレーニングタスクに必要な全てのトレーニング言語材料を取得する必要が有る。上記トレーニングタスクのトレーニング言語材料は、検索ログから取得されてもよく、具体的に、毎回検索されたQueryと、各検索から取得した各Titleを取得してもよい。そして、毎回検索されたQueryとTitleをランダム組み合わせることで、このトレーニングタスクのトレーニング言語材料を構成し、同時に、トレーニングタスクの中、上記QueryとTitleとの関係、つまり、強関連、弱関連、非関連のいずれであるかをマーキングする。トレーニングの場合、トレーニング言語材料におけるQueryとTitleをセマンティック表現モデルに入力し、上記セマンティック表現モデルはQueryとTitleとの関係を予測し出力し、そして、予測された関係が既知の関係と一致するかどうかを判断し、一致しないと、セマンティック表現モデルのパラメーターを調整して、予測されたものを既知のものと一致させる。このトレーニングタスクの各トレーニング言語材料を用いて、上記の方式に従って、絶えずセマンティック表現モデルをトレーニングし、セマンティック表現モデルの予測正確度が予め設定された正確度閾値、例えば、99%、98%、又は他のパーセントに到達するまでであり、この場合、上記セマンティック表現モデルが上記能力を学習したことを意味し、このタスクのトレーニングは終了する。
上記の方式(1)は教師なしトレーニングであり、上記の方式(2)は弱教師ありトレーニングである。
上記の方式(1)及び(2)は、上記のステップS102におけるトレーニングコーパスを用いて、セマンティックに基づいてセマンティック表現モデルをトレーニングする幾つかの実現方式であり、実施の応用において、他の類似する方式を用いて形態論に基づいてセマンティック表現モデルをトレーニングすることもでき、ここで1つずつ例を挙げて繰り返して記述しない。
本実施例では、セマンティック表現モデルが十分に豊富な能力を学習できるようにするために、各能力の学習について、トレーニングコーパス内の対応するタスクのトレーニング言語材料の数も十分に多くし、例えば、100万以上に達する必要があり、セマンティック表現モデルの学習効果を確保する。
なお、本実施例に係るセマンティック表現モデルは、Transformerを基底層とするEncoder構造を使用する。基底層に単語表現(Token Embedding)、位置表現(Positional Embedding)及びセンテンス表現(Sentence Embedding)を入力してもよく、他のセマンティック表現モデルと異なることは、同時にTask Embedding(タスク埋め込み)を導入して、異なるタスクを精細にモデリングし、異なるトレーニングタスクが0からNまでのIDで示されることにある。このように、各トレーニング言語材料が入力された後に、それに対応するタスク識別子に応じて、それがどのタスクに用いるトレーニングを確定し、トレーニングの場合、幾つかのトレーニング言語材料をランダムに入力し、マルチタスクの同時トレーニングを実現し、セマンティック表現モデルのトレーニング速度を加速し、セマンティック表現モデルのトレーニング効果を向上させることができる。図4は、本出願で提供されるセマンティック表現モデルのマルチタスク学習の構造図である。図5は、本出願で提供されるセマンティック表現モデルの適用構造の模式図である。
図4と図5に示すように、本実施例に係るセマンティック表現モデルトレーニングの場合、特殊な [CLS]を入力される特殊な開始識別子として用いて、セマンティックの全体をモデリングする。トレーニングの場合複数のトレーニング言語材料の断片が入力された場合、[SEP]を用いて分割し、Sentence Embeddingは異なるidで示される。Transformerの多層Attentionメカニズムを通じて、上層のコンテクストセンシティブ表示を算出して得る。Sequence全体のレベルLossについて、[CLS]の上層表示に若干の分類器を追加する。Tokenレベルのタスクについて、シーケンスにおける各Tokenに若干のTokenレベルの分類タスクを追加する。図4に示す実施例では、二つのレベルの損失関数(Loss)は三つの異なる方式を採用して算出することを例にとって、実施の応用において、一つ、二つ、又はそれ以上の損失関数の算出方式を事前に定義できる。次に、各算出方式に対応する損失関数に基づいて、各算出方法に対応する損失関数に基づいて、予め設定された数式を使用して、各レベルの最終的な損失関数を算出して得る。理解を容易にするために、トークンは一つのセンテンスの一つの断片であると理解でき、具体的には、上記Tokenは一つの字、単語、短句又はエンティティ等であってもよく、トレーニングタスクによって異なる場合がある。Tokenは対応するトレーニングタスクを有する場合に、対応して相応する損失関数が存在し、タスクがない場合、対応する損失関数はない。図4に、四つのTokenを含むことを例にとって、実施の応用において、Tokenの数はセンテンスの長さに応じて異なり、ここで限定されない。
図5に示すように、第1の層は、セマンティック表現モデルの応用タスクのシナリオであり、次はセマンティック表現モデルのマルチタスクトレーニング構造であり、マルチタスクを用いてセマンティック表現モデルを同時にトレーニングする場合に、複数のトレーニング言語材料を同時に入力してもよく、各トレーニング言語材料は一つの語句であってもよい。図5に示すように、トレーニングの場合、また、トレーニング言語材料に適用するタスクの種別の埋め込み情報(Task Embedding)、各tokenの位置埋め込み情報(Position Embedding)、対応する語句埋め込み情報(Sentence embedding)を入力する必要もあり、図5に、三つの語句A、B及びCを同時に入力し、Task種別が3であるタスクとしてトレーニングすることを例にとる。Token Embeddingを入力する場合、CLSを初期入力として、異なるトレーニング言語材料の断片の間にSEP間隔を用いる。各トレーニング言語材料は、複数のtoken断片に分割して入力され、図5の実施例において、三つの断片に分割されたことを例にとって、実施の応用において、トレーニング言語材料の長さ、及びトレーニングタスクに必要な分割によって異なり、ここで限定されない。全ての情報が入力された後に、上記の実施例の各タスクのトレーニング方式に従ってトレーニングすることで、最終にトレーニング済みのセマンティック表現モデルを得る。
本出願の上記の実施例を用いてトレーニングされたセマンティック表現モデルは、一つの一般的なセマンティック表現モデルであり、上記セマンティック表現モデルは上記の様々な能力を学習することで、上記セマンティック表現モデルは、コンテクスト知識融合性だけでなく、様々な形態論、文法、及びセマンティック知識を学習できるので、セマンティックをより正確に表現することができる 。
さらに任意選択、上記の実施例のステップS102においてトレーニングコーパスを用いて、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングした後、セマンティック表現モデルの応用を含むこともでき、具体的に、予め採集された自然言語処理(Natural Language Processing、NLP)のタスクコーパスに基づいて、セマンティック表現モデルをトレーニングすることで、相応するNLPのタスクモデルを得て、NLPのタスクモデルに基づいて、NLPのタスクを実行する。
本実施例に係るセマンティック表現モデルは、上記の様々なタスクのトレーニング及び学習を通じて得られたセマンティック表現モデルは一つの一般的なセマンティック表現モデルであり、トレーニングの場合に必要なデータ量は非常に大きく、例えば、各タスクの学習に必要なデータ量は100万以上に達する場合がある。ただし、上記のトレーニングを通じて得られたセマンティック表現モデルは、NLPタスクの処理に直接使用できない。使用する前に、NLPのタスクコーパスを用いて、上記セマンティック表現モデルをトレーニングすることによってのみ、相応するNLPタスクに基づくモデルを得ることができ、相応するNLPタスクの処理を行う。この実施形態におけるNLPタスクコーパスは、一般的なセマンティック表現モデルをトレーニングするために用いられ、それを一つの対応するNLPのタスクモデルとしてトレーニングする。上記タスクコーパスは、一般的なセマンティック表現モデルをトレーニングするトレーニングコーパスと比較すると、小規模なタスクセットに過ぎない。なお、トレーニングコーパスは、セマンティック表現モデルのセマンティック表現能力をトレーニングするためにのみ使用され、タスクとは何の関係もない。タスクコーパスは、セマンティック表現能力をトレーニングすることなく、タスクに関連する能力トレーニングのためのものである。本実施例で得られた一般的なセマンティック表現モデルは、既に非常にセマンティック表現を正確に行うので、使用の際に、小規模なタスクセットを用いるだけで、上記セマンティック表現モデルを相応するタスクモデルとしてトレーニングできる。
図5に示すように、上記のトレーニングを経ったセマンティック表現モデルは、相応するタスク集を用いてトレーニングすることで、それぞれ、テキストの類似度、インテリジェントな質問応答、感情分析、自然言語推論などのタスクの処理を実現することができ、ここで1つずつ例を挙げて繰り返して記述しない。
本実施例に係るセマンティック表現モデルの処理方法によれば、複数のトレーニング言語材料を含むトレーニングコーパスを採集するとともに、トレーニングコーパスを採用し、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングすることにより、トレーニングされたセマンティック表現モデルは形態論、文法、及びセマンティックなどの各レベルの情報を十分に学習でき、セマンティック表現モデルのセマンティック表現能力を豊富にし、セマンティック表現の正確性を向上させる。
さらに、本実施例では、また、セマンティック表現モデルに対して形態論に基づくタスクトレーニングを行うことで、セマンティック表現モデルは単語、短句及びエンティティの共起知識を学習でき、知識のフュージョンを了解でき、これにより、セマンティック表現モデルのセマンティック表現能力を増強し、各語句に対してセマンティック表現を行うことができる。同時に、また、異なる言語環境で語彙の頭文字を大文字にするかどうかのような能力を学習でき、これにより、異なる言語環境での語彙の正確な表現方式を正しく学習でき、また、元のドキュメントの他の断片における語彙の共起を予測する能力を学習でき、これにより、ドキュメント内のどの単語がドキュメントの中心思想を表すことができるかを予測することを容易にする。上記した形態論に基づくタスクトレーニングにより、セマンティック表現モデルは、豊富な形態論知識を学習でき、形態論で表現される意味を十分に了解するでき、セマンティック表現をより正確に行うことを容易にする。
さらに、本実施例では、また、セマンティック表現モデルに対して文法に基づくタスクトレーニングを行うことで、セマンティック表現モデルは、センテンスのソート、及び異なるセンテンスの位置関係の認識を学習でき、これにより、セマンティック表現過程で、各センテンスを正確に位置決めし、セマンティック表現の正確性を向上することができる。
さらに、本実施例では、また、セマンティック表現モデルに対してセマンティックに基づくタスクトレーニングを行うことで、セマンティック表現モデルは、センテンスの論理的な関係タスク、検索相関性タスクを学習でき、これにより、セマンティック表現の際に、セマンティックを正確に了解し、セマンティック表現の正確性を増強することができる。
要するに、本出願では、形態論、文法、セマンティックの三つの異なるレベルの教師なし又は弱教師ありプレトレーニングタスクを構築することで、セマンティック表現モデルは、大量のデータから語彙、文法、セマンティックの異なるレベルの知識を学習でき、一般的なセマンティック表現の能力を増強し、NLPタスクの処理効果を上げる。
図6は本出願の第3の実施例による模式図である。図6に示すように、本実施例に係るセマンティック表現モデルの処理装置600の構造について説明し、図6に示すように、本実施例に係るセマンティック表現モデルの処理装置600は、
複数のトレーニング言語材料を含むトレーニングコーパスを採集するための採集モジュール601、
採集モジュール601によって採集されたトレーニングコーパスを用いて、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングするためのセマンティック表現モデルトレーニングモジュール602と、を含む。
図7は本出願の第4の実施例による模式図である。図7に示すセマンティック表現モデルの処理装置700は、上記の図6に示す実施例に加えて、セマンティック表現モデルトレーニングモジュール602が形態論トレーニングユニット701、文法トレーニングユニット702及びセマンティック トレーニングユニット703を含むことを例にとる。
例えば、形態論トレーニングユニット701は、
採集モジュール601によって採集されたトレーニングコーパスを用いて、単語、短句及び/又はエンティティのマスキング策略に基づいて、セマンティック表現モデルをトレーニングすることと、
採集モジュール601によって採集されたトレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、異なる言語環境で語彙の頭文字を大文字にする必要があるかどうかを分析する能力を学習するようにすることと、
採集モジュール601によって採集されたトレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における語彙が元のドキュメントの他の断片に出現するかどうかを予測する能力を学習するようにすることとの少なくとも一つを実行するために用いられる。
例えば、文法トレーニングユニット702は、
採集モジュール601によって採集されたトレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、トレーニング言語材料における異なる断片の順序関係を認識する能力を学習するようにすることと、
採集モジュール601によって採集されたトレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、いずれか二つの語句ペアの位置関係を認識する能力を学習するようにすることと少なくとも一つを実行するために用いられる。
例えば、セマンティック トレーニングユニット703は、
採集モジュール601によって採集されたトレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、連続する二つの語句間の論理的な関係を認識する能力を学習するようにすることと、
採集モジュール601によって採集されたトレーニングコーパスを用いて、セマンティック表現モデルをトレーニングすることで、知識トレーニング言語材料における検索語句とウェブページのトピックとの間の相関性を認識する能力を学習するようにすることとの少なくとも一つを実行するために用いられる。
さらに、任意選択で、図7に示すように、本実施例に係るセマンティック表現モデルの処理装置700は、:
予め採集された自然言語処理のタスクコーパスに基づいて、セマンティック表現モデルトレーニングモジュール602がトレーニングして得られたセマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得るためのタスクモデルトレーニングモジュール704と、
タスクモデルトレーニングモジュール704がトレーニングして得られた自然言語処理のタスクモデルに基づいて、自然言語処理のタスクを実行するための実行モジュール705をさらに含む。
本実施例に係る上記のセマンティック表現モデルの処理装置は、上記のモジュールを用いてセマンティック表現モデルの処理を実現し、その実現原理及び技術効果は、上記の関連する方法の実施例の実現と同じであるため、詳細については、上記の関連する方法実施例の記載を参照し、ここで繰り返して記述しない。
本出願の実施例によれば、本出願は、さらに、電子機器及び可読記憶媒体を提供する。
図8に示すように、本出願の実施例によるセマンティック表現モデルの処理方法の電子機器のブロック図である。電子機器は、様々な形式のデジタルコンピューター、例えば、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバー、ブレードサーバ、メインフレームコンピューター、及び他の適切なコンピューターであることが意図される。電子機器は、様々な種類のモバイル装置、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。ここで示した構成要素、これらの接続及び関係、ならびにこれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本出願の実現を限定することが意図されない。
図8に示すように、上記電子機器は、一つ又は複数のプロセッサー801、メモリ802、及び各構成要素に接続するためのインターフェースを含み、高速インターフェース及び低速インターフェースを含む。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の方式で実装されてもよい。プロセッサーは、電子機器内で実行されるコマンドを処理してもよく、メモリに又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザーインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、において、複数のプロセッサー及び/又は複数のバスが、適宜、複数のメモリ及びメモリのタイプとともに用いられてもよい。同様に、複数の電子機器が接続されてもよく、それぞれの装置が(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサーシステムとして)必要な操作の一部を提供する。図8において、一つのプロセッサー801を例にとる。
メモリ802は本出願で提供される非一時的コンピューター可読記録媒体である。なお、メモリは、少なくとも一つのプロセッサーによって実行可能なコマンドが記憶されており、少なくとも一つのプロセッサーに本出願で提供されるセマンティック表現モデルの処理方法を実行させる。本出願の非一時的コンピューター可読記録媒体は、上記ココンピューターに本出願で提供されるセマンティック表現モデルの処理方法を実行させるためのコンピューターコマンドが記憶されている。
メモリ802は、非一時的コンピューター可読記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピューター実行可能なプログラム、モジュール、例えば、本出願の実施例におけるセマンティック表現モデルの処理方法に対応するプログラムコマンド/モジュール(例えば、図6に示す採集モジュール601、セマンティック表現モデルトレーニングモジュール602)を記憶するために用いられる。プロセッサー801は、メモリ602に記憶されている非一時的ソフトウェアプログラム、コマンド及びユニットを実行することで、サーバーの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるセマンティック表現モデルの処理方法を実現する。
メモリ802は、記憶プログラム領域及び記憶データ領域を含んでもよく、記憶プログラム領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は本セマンティック表現モデルの処理方法の電子機器の使用により作成されたデータなどを記憶してもよい。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリを含んでもよく、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ802は、プロセッサー801に対してリモートに設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してセマンティック表現モデルの処理方法の電子機器に接続されてもよい。上記のネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
セマンティック表現モデルの処理方法の電子機器は、入力装置803と出力装置804とをさらに含むことができる。プロセッサー801、メモリ802、入力装置803及び出力装置804は、バス又は他の方式で接続されてもよく、図8に、バスで接続されることを例にとる。
入力装置803は、入力された数値又は文字情報を受信し、セマンティック表現モデルの処理方法の電子機器のユーザー設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、表示装置、補助照明装置、触覚フィードバック装置(例えば、振動モーター)などを含むことができる。上記表示装置は、液晶ディスプレイ、発光ダイオードディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。 いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本明細書に説明されるシステム及び技術的様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(ASIC)、コンピューターハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサーを含む、プログラム可能なシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータープログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサーの機械コマンドを含み、高水準のプロセス及び/もしくはオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」という用語は、機械可読信号としての機械コマンドを受け取る機械可読媒体を含むプログラマブルプロセッサーに機械コマンド及び/又はデータを提供するのに用いられる任意のコンピュータープログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサーに機械コマンド及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザーとのインタラクトを提供するために、本明細書に説明されるシステムと技術は、ユーザーに対して情報を表示するためのディスプレイデバイス(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザーがコンピューターに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)を有するコンピューター上に実施されることが可能である。その他の種類の装置は、さらに、ユーザーとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザーに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であり得、ユーザーからの入力は、任意の形態で(音響、発話、又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術的実施形態は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザーインターフェースもしくはウェブブラウザを有するクライアントコンピューターであり、ユーザーは、上記グラフィカルユーザーインターフェースもしくは上記ウェブブラウザを通じて本明細書で説明されるシステムと技術的実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。ステムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピューターシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバーとの関係は、相応するコンピューター上で実行され、互いにクライアント-サーバーの関係にあるコンピュータープログラムによって生じる。
本出願の実施例の技術案によれば、複数のトレーニング言語材料を含むトレーニングコーパスを採集するとともに、トレーニングコーパスを採用し、形態論、文法、及びセマンティックの少なくとも1つに基づいて、セマンティック表現モデルをトレーニングすることにより、トレーニングされたセマンティック表現モデルは形態論、文法、及びセマンティックなどの各レベルの情報を十分に学習でき、セマンティック表現モデルのセマンティック表現能力を豊富にし、セマンティック表現の正確性を向上させる。
さらに、この実施例では、また、セマンティック表現モデルに対して形態論に基づくタスクトレーニングを行うことで、セマンティック表現モデルは単語、短句及びエンティティの共起知識を学習でき、知識のフュージョンを了解でき、これにより、セマンティック表現モデルのセマンティック表現能力を増強し、各語句に対してセマンティック表現を行うことができる。同時に、また、異なる言語環境で語彙の頭文字を大文字にするかどうかのような能力を学習でき、これにより、異なる言語環境での語彙の正確な表現方式を正しく学習でき、また、元のドキュメントの他の断片における語彙の共起を予測する能力を学習でき、これにより、ドキュメント内のどの単語がドキュメントの中心思想を表すことができるかを予測することを容易にする。上記した形態論に基づくタスクトレーニングにより、セマンティック表現モデルは、豊富な形態論知識を学習でき、形態論で表現される意味を十分に了解でき、セマンティック表現をより正確に行うことを容易にする。
さらに、この実施例では、また、セマンティック表現モデルに対して文法に基づくタスクトレーニングを行うことで、セマンティック表現モデルは、センテンスのソート、及び異なるセンテンスの位置関係の認識を学習でき、これにより、セマンティック表現過程で、各センテンスを正確に位置決めし、セマンティック表現の正確性を向上することができる。
さらに、この実施例では、さらに、本出願では、また、セマンティック表現モデルに対してセマンティックに基づくタスクトレーニングを行うことで、セマンティック表現モデルは、センテンスの論理的な関係タスク、検索相関性タスクを学習でき、これにより、セマンティック表現の際に、セマンティックを正確に了解し、セマンティック表現の正確性を増強することができる。
要するに、この実施例では、形態論、文法、セマンティックの三つの異なるレベルの教師なし又は弱教師ありプレトレーニングタスクを構築することで、セマンティック表現モデルは、大量のデータから語彙、文法、セマンティックの異なるレベルの知識を学習でき、一般的なセマンティック表現の能力を増強し、NLPタスクの処理効果を上げる。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、本出願の保護範囲内に含まれるべきである。

Claims (15)

  1. セマンティック表現モデルの処理方法であって、
    プロセッサーにより、複数のトレーニング言語材料を含むトレーニングコーパスを採集するステップと、
    前記プロセッサーにより、前記トレーニングコーパスを用いて、形態論に基づいて、セマンティック表現モデルをトレーニングするステップと、を含み、
    前記トレーニングコーパスを用いて、形態論に基づいてセマンティック表現モデルをトレーニングすることは、
    前記トレーニングコーパスから語彙の頭文字が大文字であるトレーニング言語材料、及び語彙の頭文字が小文字であるトレーニング言語材料を取得し、取得された言語材料を用いて前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが語彙の頭文字を大文字にする必要があるかどうかを予測するモデルであることと、
    前記トレーニングコーパスから各語彙が元のドキュメントの他の断片に出現したか否かがラベリングされているトレーニング言語材料を取得し、取得された言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが前記トレーニング言語材料における語彙が元のドキュメントの他の断片に出現するかどうかを予測するモデルであることとの中の少なくとも一つを含み、
    前記セマンティック表現モデルは、Transformerを基底層とするEncoder構造を使用し、Task Embedding(タスク埋め込み)を使用して異なるトレーニングタスクをモデリングし、異なるトレーニングタスクが0からNまでのIDで示される方法。
  2. 前記トレーニングコーパスを用いて、形態論に基づいて、セマンティック表現モデルをトレーニングしたことの後に、
    前記プロセッサーにより、予め採集された自然言語処理のタスクコーパスに基づいて、前記セマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得て、
    前記プロセッサーにより、前記自然言語処理のタスクモデルに基づいて、前記自然言語処理のタスクを実行することを含む請求項1に記載の方法。
  3. セマンティック表現モデルの処理方法であって、
    プロセッサーにより、複数のトレーニング言語材料を含むトレーニングコーパスを採集するステップと、
    前記プロセッサーにより、前記トレーニングコーパスを用いて、文法に基づいて、セマンティック表現モデルをトレーニングするステップと、を含み、
    前記トレーニングコーパスを用いて、文法に基づいてセマンティック表現モデルをトレーニングすることは、
    前記トレーニングコーパスから順序関係が既知である複数の断片が含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが前記トレーニング言語材料における異なる断片の順序関係を認識するモデルであることと、
    前記トレーニングコーパスから位置関係が既知であるセンテンスペアが含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルがいずれか二つの語句ペアの位置関係を認識するモデルであることとの中の少なくとも一つを含み、
    前記セマンティック表現モデルは、Transformerを基底層とするEncoder構造を使用し、Task Embedding(タスク埋め込み)を使用して異なるトレーニングタスクをモデリングし、異なるトレーニングタスクが0からNまでのIDで示される方法。
  4. 前記トレーニングコーパスを用いて、文法に基づいて、セマンティック表現モデルをトレーニングしたことの後に、
    前記プロセッサーにより、予め採集された自然言語処理のタスクコーパスに基づいて、前記セマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得て、
    前記プロセッサーにより、前記自然言語処理のタスクモデルに基づいて、前記自然言語処理のタスクを実行することを含む請求項3に記載の方法。
  5. セマンティック表現モデルの処理方法であって、
    プロセッサーにより、複数のトレーニング言語材料を含むトレーニングコーパスを採集するステップと、
    前記プロセッサーにより、前記トレーニングコーパスを用いて、セマンティックに基づいて、セマンティック表現モデルをトレーニングするステップと、を含み、
    前記トレーニングコーパスを用いて、セマンティックに基づいてセマンティック表現モデルをトレーニングすることは、
    前記トレーニングコーパスから論理的な関係が既知である語句ペアが含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが連続する二つの語句間の論理的な関係を認識するモデルであることと、
    前記トレーニングコーパスから相関性が既知である検索語句とウェブページのトピックが含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが前記トレーニング言語材料における検索語句とウェブページのトピックとの間の相関性を認識するモデルであることとの少なくとも一つを含み、
    前記セマンティック表現モデルは、Transformerを基底層とするEncoder構造を使用し、Task Embedding(タスク埋め込み)を使用して異なるトレーニングタスクをモデリングし、異なるトレーニングタスクが0からNまでのIDで示される方法。
  6. 前記トレーニングコーパスを用いて、セマンティックに基づいて、セマンティック表現モデルをトレーニングしたことの後に、
    前記プロセッサーにより、予め採集された自然言語処理のタスクコーパスに基づいて、前記セマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得て、
    前記プロセッサーにより、前記自然言語処理のタスクモデルに基づいて、前記自然言語処理のタスクを実行することを含む請求項5に記載の方法。
  7. セマンティック表現モデルの処理装置であって、プロセッサーを含み、
    前記プロセッサーが、採集モジュールとして、複数のトレーニング言語材料を含むトレーニングコーパスを採集するために用いられ、
    前記プロセッサーが、セマンティック表現モデルトレーニングモジュールとして、前記トレーニングコーパスを用いて、形態論に基づいて、セマンティック表現モデルをトレーニングするために用いられ、
    前記セマンティック表現モデルトレーニングモジュールは、
    前記トレーニングコーパスから語彙の頭文字が大文字であるトレーニング言語材料、及び語彙の頭文字が小文字であるトレーニング言語材料を取得し、取得された言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが異なる言語環境で語彙の頭文字を大文字にする必要があるかどうかを予測するモデルであることと、
    前記トレーニングコーパスから各語彙が元のドキュメントの他の断片に出現したか否かがラベリングされているトレーニング言語材料を取得し、取得された言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが前記トレーニング言語材料における語彙が元のドキュメントの他の断片に出現するかどうかを予測するモデルであることとの中の少なくとも一つを実行するために用いられ
    前記セマンティック表現モデルは、Transformerを基底層とするEncoder構造を使用し、Task Embedding(タスク埋め込み)を使用して異なるトレーニングタスクをモデリングし、異なるトレーニングタスクが0からNまでのIDで示される装置。
  8. 前記プロセッサーが、タスクモデルトレーニングモジュールとして、予め採集された自然言語処理のタスクコーパスに基づいて、前記セマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得るために用いられ、
    前記プロセッサーが、実行モジュールとして、前記自然言語処理のタスクモデルに基づいて、前記自然言語処理のタスクを実行するために用いられる、請求項7に記載の装置。
  9. セマンティック表現モデルの処理装置であって、プロセッサーを含み、
    前記プロセッサーが、採集モジュールとして、複数のトレーニング言語材料を含むトレーニングコーパスを採集するために用いられ、
    前記プロセッサーが、セマンティック表現モデルトレーニングモジュールとして、前記トレーニングコーパスを用いて、文法に基づいて、セマンティック表現モデルをトレーニングするために用いられ、
    前記セマンティック表現モデルトレーニングモジュールは、
    前記トレーニングコーパスから順序関係が既知である複数の断片が含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが前記トレーニング言語材料における異なる断片の順序関係を認識するモデルであることと、
    前記トレーニングコーパスから位置関係が既知であるセンテンスペアが含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルがいずれか二つの語句ペアの位置関係を認識するモデルであることとの中の少なくとも一つを実行するために用いられ
    前記セマンティック表現モデルは、Transformerを基底層とするEncoder構造を使用し、Task Embedding(タスク埋め込み)を使用して異なるトレーニングタスクをモデリングし、異なるトレーニングタスクが0からNまでのIDで示される装置。
  10. 前記プロセッサーが、タスクモデルトレーニングモジュールとして、予め採集された自然言語処理のタスクコーパスに基づいて、前記セマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得るために用いられ、
    前記プロセッサーが、実行モジュールとして、前記自然言語処理のタスクモデルに基づいて、前記自然言語処理のタスクを実行するために用いられる、請求項9に記載の装置。
  11. セマンティック表現モデルの処理装置であって、プロセッサーを含み、
    前記プロセッサーが、採集モジュールとして、複数のトレーニング言語材料を含むトレーニングコーパスを採集するために用いられ、
    前記プロセッサーが、セマンティック表現モデルトレーニングモジュールとして、前記トレーニングコーパスを用いて、セマンティックに基づいて、セマンティック表現モデルをトレーニングするために用いられ、
    前記セマンティック表現モデルトレーニングモジュールは、
    前記トレーニングコーパスから論理的な関係が既知である語句ペアが含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが連続する二つの語句間の論理的な関係を認識するモデルであることと、
    前記トレーニングコーパスから相関性が既知である検索語句とウェブページのトピックが含まれるトレーニング言語材料を取得し、取得されたトレーニング言語材料を用いて、前記セマンティック表現モデルをトレーニングすることであって、前記セマンティック表現モデルが前記トレーニング言語材料における検索語句とウェブページのトピックとの間の相関性を認識するモデルであることとの中の少なくとも一つを実行するために用いられ
    前記セマンティック表現モデルは、Transformerを基底層とするEncoder構造を使用し、Task Embedding(タスク埋め込み)を使用して異なるトレーニングタスクをモデリングし、異なるトレーニングタスクが0からNまでのIDで示される装置。
  12. 前記プロセッサーが、タスクモデルトレーニングモジュールとして、予め採集された自然言語処理のタスクコーパスに基づいて、前記セマンティック表現モデルをトレーニングすることで、相応する自然言語処理のタスクモデルを得るために用いられ、
    前記プロセッサーが、実行モジュールとして、前記自然言語処理のタスクモデルに基づいて、前記自然言語処理のタスクを実行するために用いられる請求項11に記載の装置。
  13. 電子機器であって、
    前記プロセッサーと、
    前記プロセッサーに通信接続されるメモリと、を含んでおり、
    前記メモリには、前記プロセッサーによって実行可能なコマンドが記憶されており、前記コマンドが前記プロセッサーによって実行されることで、請求項1から6のいずれか一項に記載の方法を前記プロセッサーに実行させることができる電子機器。
  14. コンピューターに請求項1から6のいずれか一項に記載の方法を実行させるためのコンピューターコマンドが記憶されている非一時的コンピューター可読記録媒体。
  15. コンピューターに請求項1から6のいずれか一項に記載の方法を実行させるためのコンピュータープログラム。
JP2020095744A 2019-12-12 2020-06-01 セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体 Active JP7247441B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911270428.7A CN110717339B (zh) 2019-12-12 2019-12-12 语义表示模型的处理方法、装置、电子设备及存储介质
CN2019112704287 2019-12-12

Publications (2)

Publication Number Publication Date
JP2021096812A JP2021096812A (ja) 2021-06-24
JP7247441B2 true JP7247441B2 (ja) 2023-03-29

Family

ID=69216622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020095744A Active JP7247441B2 (ja) 2019-12-12 2020-06-01 セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体

Country Status (5)

Country Link
US (1) US11520991B2 (ja)
EP (1) EP3835996A1 (ja)
JP (1) JP7247441B2 (ja)
KR (1) KR102350543B1 (ja)
CN (1) CN110717339B (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339250B (zh) 2020-02-20 2023-08-18 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
CN111414737B (zh) * 2020-03-23 2022-03-08 腾讯科技(深圳)有限公司 故事生成模型训练方法、装置、设备及存储介质
CN113496122A (zh) * 2020-04-08 2021-10-12 中移(上海)信息通信科技有限公司 命名实体识别方法、装置、设备及介质
CN111539209B (zh) * 2020-04-15 2023-09-15 北京百度网讯科技有限公司 用于实体分类的方法和装置
CN111709249B (zh) * 2020-05-29 2023-02-24 北京百度网讯科技有限公司 多语种模型的训练方法、装置、电子设备和存储介质
CN111737994B (zh) * 2020-05-29 2024-01-26 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111539223B (zh) * 2020-05-29 2023-08-18 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111666751B (zh) * 2020-06-04 2023-09-29 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN111680145B (zh) * 2020-06-10 2023-08-15 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111859982B (zh) * 2020-06-19 2024-04-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111950291B (zh) * 2020-06-22 2024-02-23 北京百度网讯科技有限公司 语义表示模型的生成方法、装置、电子设备及存储介质
CN111950293B (zh) * 2020-06-24 2023-06-23 北京百度网讯科技有限公司 语义表示模型的生成方法、装置、电子设备及存储介质
CN111539227B (zh) 2020-07-06 2020-12-18 北京百度网讯科技有限公司 训练语义表示模型的方法、装置、设备和计算机存储介质
CN112001181B (zh) * 2020-07-17 2024-02-13 北京百度网讯科技有限公司 多语言语义表示模型的训练方法、装置、设备及存储介质
CN112001190A (zh) * 2020-07-20 2020-11-27 北京百度网讯科技有限公司 自然语言处理模型的训练方法、装置、设备及存储介质
CN111914551B (zh) * 2020-07-29 2022-05-20 北京字节跳动网络技术有限公司 自然语言处理方法、装置、电子设备及存储介质
CN112199472B (zh) * 2020-10-12 2021-07-20 山东山大鸥玛软件股份有限公司 一种基于迁移学习的主观题智能评卷方法、系统及设备
CN112417856A (zh) * 2020-11-27 2021-02-26 北京明略昭辉科技有限公司 提升机器写作质量的方法、系统、计算机设备及存储介质
CN112560501B (zh) * 2020-12-25 2022-02-25 北京百度网讯科技有限公司 语义特征的生成方法、模型训练方法、装置、设备及介质
CN112860848B (zh) * 2021-01-20 2022-03-25 平安科技(深圳)有限公司 信息检索方法、装置、设备及介质
CN115248855A (zh) * 2021-04-27 2022-10-28 腾讯科技(深圳)有限公司 文本处理方法及装置、电子设备、计算机可读存储介质
CN113255328B (zh) * 2021-06-28 2024-02-02 北京京东方技术开发有限公司 语言模型的训练方法及应用方法
CN113468305B (zh) * 2021-06-29 2023-04-28 竹间智能科技(上海)有限公司 一种识别口语冗余成分的方法及装置
CN113420822B (zh) * 2021-06-30 2022-08-12 北京百度网讯科技有限公司 模型训练方法和装置、文本预测方法和装置
CN113408300B (zh) * 2021-07-09 2024-02-20 北京百度网讯科技有限公司 模型训练方法、品牌词识别方法、装置及电子设备
CN113609305B (zh) * 2021-07-27 2024-04-26 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN113704444B (zh) * 2021-10-28 2022-08-19 江西中业智能科技有限公司 基于自然语言处理的问答方法、系统、设备及存储介质
CN114785606B (zh) * 2022-04-27 2024-02-02 哈尔滨工业大学 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质
CN114925757B (zh) * 2022-05-09 2023-10-03 中国电信股份有限公司 多源威胁情报融合方法、装置、设备和存储介质
CN114925185B (zh) * 2022-05-13 2023-02-07 北京百度网讯科技有限公司 交互方法、模型的训练方法、装置、设备及介质
CN114970522B (zh) * 2022-05-20 2023-11-24 北京百度网讯科技有限公司 语言模型的预训练方法、装置、设备、存储介质
CN115168537B (zh) * 2022-06-30 2023-06-27 北京百度网讯科技有限公司 语义检索模型的训练方法、装置、电子设备及存储介质
CN115329749B (zh) * 2022-10-14 2023-01-10 成都数之联科技股份有限公司 一种语义检索的召回和排序联合训练方法及系统
CN115357719B (zh) * 2022-10-20 2023-01-03 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309267A (zh) 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN110377905A (zh) 2019-06-28 2019-10-25 北京百度网讯科技有限公司 语句的语义表示处理方法及装置、计算机设备及可读介质
CN110427627A (zh) 2019-08-02 2019-11-08 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915448B (zh) * 2015-06-30 2018-03-27 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
CN107220231A (zh) 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法
CN106776581B (zh) * 2017-02-21 2020-01-24 浙江工商大学 基于深度学习的主观性文本情感分析方法
KR20190040825A (ko) 2017-10-11 2019-04-19 주식회사 씨세론 데이터 처리 방법 및 장치
CN108614855A (zh) * 2018-03-19 2018-10-02 众安信息技术服务有限公司 一种谣言识别方法
US11238226B2 (en) * 2018-11-15 2022-02-01 Nuance Communications, Inc. System and method for accelerating user agent chats
CN110197279B (zh) * 2019-06-10 2021-01-29 北京百度网讯科技有限公司 变换模型训练方法、装置、设备和存储介质
US20210004485A1 (en) * 2019-07-01 2021-01-07 International Business Machines Corporation Cognitive Iterative Minimization of Personally Identifiable Information in Electronic Documents
CA3150031C (en) * 2019-08-05 2024-04-23 Ai21 Labs Systems and methods of controllable natural language generation
US11720757B2 (en) * 2019-08-19 2023-08-08 Microsoft Technology Licensing, Llc Example based entity extraction, slot filling and value recommendation
US11568143B2 (en) * 2019-11-15 2023-01-31 Intuit Inc. Pre-trained contextual embedding models for named entity recognition and confidence prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377905A (zh) 2019-06-28 2019-10-25 北京百度网讯科技有限公司 语句的语义表示处理方法及装置、计算机设备及可读介质
CN110309267A (zh) 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN110427627A (zh) 2019-08-02 2019-11-08 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DEVLIN, Jacob et.al,BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [online],2018年10月11日,pp.1-14,https://arxiv.org/pdf/1810.04805v1.pdf
嶋中 宏希 外2名,BERTを用いた機械翻訳の自動評価,言語処理学会第25回年次大会 発表論文集 [online],日本,言語処理学会,2019年03月04日,pp.590-593
青嶋 智久, 中川 慧,日本語BERTモデルを用いた経済テキストデータのセンチメント分析,2019年度人工知能学会全国大会(第33回) [online],一般社団法人人工知能学会,2019年06月01日,pp.1-3

Also Published As

Publication number Publication date
US20210182498A1 (en) 2021-06-17
EP3835996A1 (en) 2021-06-16
US11520991B2 (en) 2022-12-06
CN110717339B (zh) 2020-06-30
KR102350543B1 (ko) 2022-01-11
KR20210075825A (ko) 2021-06-23
CN110717339A (zh) 2020-01-21
JP2021096812A (ja) 2021-06-24

Similar Documents

Publication Publication Date Title
JP7247441B2 (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
Lee et al. Patent claim generation by fine-tuning OpenAI GPT-2
Jain et al. Sarcasm detection in mash-up language using soft-attention based bi-directional LSTM and feature-rich CNN
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
Hapke et al. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python
JP7098853B2 (ja) ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
Xu et al. Exploiting shared information for multi-intent natural language sentence classification.
CN110717327A (zh) 标题生成方法、装置、电子设备和存储介质
JP7234483B2 (ja) エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム
CN111144507B (zh) 情感分析模型预训练方法、装置及电子设备
JP2021184255A (ja) 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN114970522B (zh) 语言模型的预训练方法、装置、设备、存储介质
CN111738016A (zh) 多意图识别方法及相关设备
CN111274764A (zh) 语言生成方法、装置、计算机设备及存储介质
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
JP2021131858A (ja) エンティティワードの認識方法と装置
EP3929768A1 (en) Method and apparatus for generating triple sample, electronic device and computer storage medium
JP7295200B2 (ja) 汎化処理方法、装置、デバイス、コンピュータ記憶媒体及びプログラム
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
Wang et al. Learning morpheme representation for mongolian named entity recognition
CN111738015A (zh) 文章情感极性分析方法、装置、电子设备及存储介质
Galanis et al. Machine learning meets natural language processing-the story so far
CN112015866A (zh) 用于生成同义文本的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230217

R150 Certificate of patent or registration of utility model

Ref document number: 7247441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150