JP2021184255A - 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2021184255A
JP2021184255A JP2021102856A JP2021102856A JP2021184255A JP 2021184255 A JP2021184255 A JP 2021184255A JP 2021102856 A JP2021102856 A JP 2021102856A JP 2021102856 A JP2021102856 A JP 2021102856A JP 2021184255 A JP2021184255 A JP 2021184255A
Authority
JP
Japan
Prior art keywords
character
text
expression model
knowledge unit
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021102856A
Other languages
English (en)
Inventor
シュオファン ワン,
Shuohuan Wang
シユ ディン,
Siyu Ding
ユウ スン,
Yu Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021184255A publication Critical patent/JP2021184255A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】オリジナルテキスト内の単語及びエンティティ等をモデリングし、モデルに実世界の知識を学習させ、モデルの効果を高める語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びプログラムを提供する。【解決手段】語義表現モデルの生成方法は、オリジナルテキストに対して知識ユニットの識別及び分割を行って、オリジナルテキスト内の知識ユニット及び非知識ユニットを取得するステップ102と、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得するステップ103と、アウトオブオーダーテキスト内の文字の文字属性に基づいてトレーニングテキスト集合を生成するステップ105と、トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成するステップ106と、を含む。【選択図】図1

Description

本出願は、人工知能技術分野に関し、具体的には、自然言語処理、深層学習技術分野に関し、特に、語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
現在、NLP(Natural Language Processing:自然言語処理)は、人工知能分野における重要な研究方向である。関連技術では、NLPについて、主にXLNet(Permutation Language Model:並べ替え言語モデル)により語義分析を行う。ここで、XLNetは、ワードをユニットとし、ワードの順序を乱してモデリングして語義分析を行う。
しかし、上記技術では、XLNetは、ワードをユニットとしてモデリングする使用するため、完全な単語又はエンティティをモデリングすることができず、モデル効果が制限される。
本出願は、語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
第1の態様において、語義表現モデルの生成方法を提供する。語義表現モデルの生成方法は、オリジナルテキストに対して知識ユニットの識別及び分割を行い、分割されたオリジナルテキストに対してアウトオブオーダー処理を行うことで、アウトオブオーダーテキストを得て、アウトオブオーダーテキスト内の文字属性に基づいて初期の語義モデルをトレーニングする。このようにして、知識ユニットのアウトオブオーダーモデリングの方式により、オリジナルテキスト内の単語及びエンティティなどをモデリングし、モデルに実世界の知識を学習させ、モデルの効果を高めることができる。
本出願の第2の態様において、語義表現モデルの生成装置を提供する。
本開示の第3の態様において、電子機器を提供する。
本出願の第4の態様において、コンピュータ命令を記憶している非一時的コンピュータ読み取り可能な記憶媒体を提供する。
本出願の第5の態様において、コンピュータプログラムを提供する。
本出願の第1の態様の実施例は、
オリジナルテキストを含むオリジナルテキスト集合を取得するステップと、前記オリジナルテキストに対して知識ユニットの識別及び分割を行って、前記オリジナルテキスト内の前記知識ユニット及び非知識ユニットを取得するステップと、前記オリジナルテキスト内の前記知識ユニット及び前記非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得するステップと、前記アウトオブオーダーテキスト内の各文字の文字属性を生成するステップであって、前記文字属性が前記オリジナルテキストでの前記文字の元の位置と、前記文字の現在の位置とを含むステップと、前記アウトオブオーダーテキスト内の前記文字の前記文字属性に基づいてトレーニングテキスト集合を生成するステップと、前記トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成するステップとを含む語義表現モデルの生成方法を提供する。
本出願の実施例に係る語義表現モデルの生成方法では、オリジナルテキストを含むオリジナルテキスト集合を取得し、オリジナルテキストに対して知識ユニットの識別及び分割を行って、オリジナルテキスト内の知識ユニット及び非知識ユニットを取得し、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得し、アウトオブオーダーテキスト内の各文字の文字属性を生成し、ここで、文字属性が前記オリジナルテキストでの文字の元の位置と、文字の現在の位置とを含み、アウトオブオーダーテキスト内の文字の文字属性に基づいてトレーニングテキスト集合を生成し、トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成する。語義表現モデルの生成方法は、オリジナルテキストに対して知識ユニットの識別及び分割を行い、分割されたオリジナルテキストに対してアウトオブオーダー処理を行うことで、アウトオブオーダーテキストを得て、アウトオブオーダーテキスト内の文字属性に基づいて初期の語義モデルをトレーニングする。このようにして、知識ユニットのアウトオブオーダーモデリングの方式により、オリジナルテキスト内の単語及びエンティティなどをモデリングし、モデルに実世界の知識を学習させ、モデルの効果を高めることができる。
本出願の第2の態様の実施例は、
オリジナルテキストを含むオリジナルテキスト集合を取得する第1の取得モジュールと、前記オリジナルテキストに対して知識ユニットの識別及び分割を行って、前記オリジナルテキスト内の前記知識ユニット及び非知識ユニットを取得する識別分割モジュールと、前記オリジナルテキスト内の前記知識ユニット及び前記非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得する処理モジュールと、前記アウトオブオーダーテキスト内の各文字の文字属性を生成するために使用され、前記文字属性が前記オリジナルテキストでの前記文字の元の位置と、前記文字の現在の位置とを含む第1の生成モジュールと、前記アウトオブオーダーテキスト内の前記文字の前記文字属性に基づいてトレーニングテキスト集合を生成する第2の生成モジュールと、前記トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成するトレーニングモジュールとを備える語義表現モデルの生成装置を提供する。
本出願の第3の態様の実施例は、少なくとも1つのプロセッサと、少なくとも1つの該プロセッサに通信可能に接続されたメモリとを備え、該メモリには前記少なくとも1つのプロセッサで実行可能な命令が記憶されており、該命令は、少なくとも1つの前記プロセッサが上記の語義表現モデルの生成方法を実行できるように、少なくとも1つの前記プロセッサによって実行される電子機器を提供する。
本出願の第4の態様は、コンピュータ命令を記憶している非一時的コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに上記の語義表現モデルの生成方法を実行させるために使用される非一時的コンピュータ読み取り可能な記憶媒体を提供する。
本出願の第5の態様は、コンピュータ上で動作しているときに、上記の語義表現モデルの生成方法を前記コンピュータに実行させるコンピュータプログラムを提供する。
本出願に記載される内容は、本開示の実施例の肝心な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は、以下の説明から理解しやすくなる。
図面は、この解決策をよりよく理解するために使用され、本出願を限定するものではない。ここで、
本出願の第1の実施例に係る概略図である。 本出願の実施例に係る語義表現モデルの階層的アウトオブオーダーモデリング及びトレーニングの概略図である。 本出願の第2の実施例に係る概略図である。 本出願の第3の実施例に係る概略図である。 本出願の実施例に係るタスクシーンでの語義表現モデルの生成方法の概略図である。 本出願の第4の実施例に係る概略図である。 本出願の第5の実施例に係る概略図である。 本出願の実施例に係る語義表現モデルの生成方法を実現するための電子機器のブロック図である。
以下に図面を参照して本出願の例示的な実施例を説明し、理解を容易にするために、その中には本出願の実施例の様々な詳細が含まれており、それらは単なる例示的なものとみなされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、公知の機能及び構造についての説明を省略する。
以下に図面を参照して本出願の実施例の語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラムを説明する。
図1は本出願の第1の実施例に係る概略図である。なお、本出願の実施例の実行本体は、語義表現モデルの生成装置であり、語義表現モデルの生成装置は、具体的には、ハードウェアデバイス、又はハードウェアデバイス内のソフトウェアなどであってもよい。
図1に示されるように、語義表現モデルの生成方法の具体的な実現プロセスは、次のとおりである。
ステップ101において、オリジナルテキストを含むオリジナルテキスト集合を取得する。
本出願の実施例では、語義表現モデル装置は、複数のオリジナルテキストを予め設定し、かつ複数のオリジナルテキストをオリジナルテキスト集合に組み合わせることができる。ここで、オリジナルテキストは、文、フレーズ、単語などを含むことができるが、これらに限定されず、例えば、オリジナルテキストは、「卓球」、「清明上河図」、「ハルビンは、黒竜江省の省都であり、氷雪文化の国際都市であり、ユーラシア大陸橋の真珠として称賛されている」などであってもよい。
ステップ102において、オリジナルテキストに対して知識ユニットの識別及び分割を行って、オリジナルテキスト内の知識ユニット及び非知識ユニットを取得する。
テキストの階層的モデリングを実現するために、任意的には、オリジナルテキストに対してレベル1の知識ユニットの識別及び分割を行って、レベル1の知識ユニット及び非知識ユニットを取得し、レベル1の知識ユニットに対してレベル2の知識ユニットの識別及び分割を行って、レベル2の知識ユニット及び非知識ユニットを取得する。なお、レベル1は、文レベルであってもよく、レベル2は、単語レベルであってもよい。
つまり、オリジナルテキストが文、単語などを含むがこれらに限定されないため、本出願の実施例では、オリジナルテキストの異なるタイプに応じて異なる分割方法を使用することができる。一例として、オリジナルテキストに複数の文が含まれている場合、オリジナルテキストの複数の文を識別して分割し、オリジナルテキストを複数の文に分割し、次に、各文に対して単語の識別及び分割を行い、文を複数の単語及び単語間の連結語に分割することができる。なお、単語は、名前付きエンティティを含むことができる。
例えば、オリジナルテキストが「ハルビンは、黒竜江省の省都であり、氷雪文化の国際都市であり、ユーラシア大陸橋の真珠として称賛されている」であることを例とすると、当該オリジナルテキストを「ハルビンは黒竜江省の省都である」、「氷雪文化の国際都市である」、「ユーラシア大陸橋の真珠として称賛されている」の3つの文に分割し、次に、「ハルビンは黒竜江省の省都である」、「氷雪文化の国際都市である」及び「ユーラシア大陸橋の真珠として称賛されている」の3つの文に対して単語及び名前付きエンティティの識別及び分割をそれぞれ行うことができ、例えば、「ハルビンは黒竜江省の省都である」は、「省都」、「ハルビン」、「黒竜江」という単語及び「は」、「の」という連結語に分割されてもよく、分割された単語に対して名前付きエンティティの識別を行うことにより、名前付きエンティティが「ハルビン」、「黒竜江」であることを決定できる。
別の例として、オリジナルテキストに1つの文が含まれている場合、オリジナルテキストの文に対して単語の識別及び分割を行い、文を複数の単語及び単語間の連結語に分割することができる。
さらなる別の一例として、オリジナルテキストに1つ又は複数のフレーズが含まれている場合、オリジナルテキストの各フレーズに対して単語の識別及び分割を行うことができ、例えば、オリジナルテキストが「明日は良くなる」である場合、オリジナルテキストは、単語及び名前付きエンティティの識別及び分割が行われた後、「明日」、「良くなる」という単語及び「は」という連結語に分割されてもよい。
ステップ103において、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得する。
モデルがテキスト全体を予測し、知識のモデリングとモデルの長距離との依存性を強化することができるために、ワードをユニットとして順序を直接乱せず、順序を階層的に乱し、本出願の実施例では、オリジナルテキスト内の知識ユニットと非知識ユニットに対してアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得することができる。例えば、オリジナルテキスト内の知識ユニット及び非知識ユニットの順次を乱すことにより、知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得することができる。
テキストの階層的モデリングをさらに実現するために、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得した後、知識ユニットに含まれる文字に対してアウトオブオーダー処理を行うことができる。
ステップ104において、アウトオブオーダーテキスト内の各文字の文字属性を生成し、ここで、文字属性がオリジナルテキストでの文字の元の位置と、文字の現在の位置とを含む。
一例として、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行う前に、オリジナルテキスト内の各文字に第1の位置ラベルを0からN(Nが0よりも大きい)の順序で付けることができ、当該第1の位置ラベルによって記録された文字位置がオリジナルテキスト内の文字の元の位置であり、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行い、知識ユニットで、含まれる複数の文字に対して文字レベルのアウトオブオーダー処理を行った後、アウトオブオーダーテキスト内の各文字に第2の位置ラベルを0からN(Nが0よりも大きい)の順序で付けることができ、当該第2の位置ラベルによって記録された文字位置が文字の現在の位置である。
ステップ105において、オブオーダーテキスト内の文字の文字属性に基づいてトレーニングテキスト集合を生成する。
ステップ106において、トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成する。
モデルの事前トレーニングと微調整の間の偏差を削除するために、本出願の実施例では、文字属性に基づいて一方向モデリング方式を決定することができる。また、深層学習が他の機械学習方法よりも大きなデータセットで優れた性能を発揮するため、本出願の実施例では、深層学習により初期の語義表現モデルをトレーニングして、語義表現モデルを生成することができる。なお、初期の語義表現モデルは、自己回帰モデル(Auto Regressive model:ARモデルと略称)であってもよい。
一例として、アウトオブオーダーテキストの文字属性に基づいて、現在の文字の現在の位置の前の各位置にある文字を決定して、現在の文字の文字予測結果を取得し、現在の文字及び現在の文字の予測結果に基づいて、語義表現モデルの係数を調整して、語義表現モデルを生成することができる。詳細については、後述の実施例の説明を参照する。
当業者が本出願をより明確に理解できるために、ここで一例を挙げて説明する。
例えば、図2に示されるように、オリジナルテキストが「ハルビンは、黒竜江省の省都であり、氷雪文化の国際都市であり、ユーラシア大陸橋の真珠として称賛されている」であることを例とすると、オリジナルテキストを「ハルビンは黒竜江省の省都である」、「氷雪文化の国際都市である」、「ユーラシア大陸橋の真珠として称賛されている」の3つの文に分割し、この3つの文に対してアウトオブオーダー処理を行い、次に、各文に対して単語の識別及び分割をそれぞれ行い、各文で、分割された単語に対してアウトオブオーダー処理を行い、最後に、各文内の分割された単語に対して文字分割を行い、各単語内の文字に対してアウトオブオーダー処理を行う。アウトオブオーダーが完了された後、左から右への注意メカニズムを用いて、各ワードを順次予測し、つまり、ERNIE(Knowledge Masking Bi−direction Language Model:知識マスキング双方向言語モデル)のアイデアを自己回帰モデル(AutoRegressive)に導入する。これにより、アウトオブオーダーテキストに使用される階層的アウトオブオーダーモデリングの方式により、完全な単語とエンティティをモデリングして、モデルに実世界の知識を学習させ、モデルの効果を高めることができる。同時に、文字属性に基づいて決定された一方向モデリング方式により、モデルの事前トレーニングと微調整の間の偏差が削除される。
上述したように、オリジナルテキストに対して知識ユニットの識別及び分割を行い、分割されたオリジナルテキストに対してアウトオブオーダー処理を行うことで、アウトオブオーダーテキストを得て、アウトオブオーダーテキスト内の文字属性に基づいて初期の語義モデルをトレーニングする。このようにして、知識ユニットの階層的アウトオブオーダーモデリングの方式により、オリジナルテキスト内の単語及びエンティティをモデリングし、モデルに実世界の知識を学習させ、モデルの効果を高めることができる。同時に、文字属性に基づいて決定された一方向モデリング方式により、モデルの事前トレーニングと微調整の間の偏差が削除される。
モデルの事前トレーニングと微調整の間の偏差を削除するために、本出願の実施例では、図3に示されるように、図3は本出願の第2の実施例に係る概略図であり、文字属性に基づいて一方向モデリング方式を決定し、深層学習により初期の語義表現モデルをトレーニングすることができる。図1に示す実施例のステップ106は、以下のステップをさらに含むことができる。
ステップ301において、トレーニングテキスト集合内のアウトオブオーダーテキストの現在の文字を取得する。
一例として、左から右への注意メカニズムを用いて、アウトオブオーダーテキストの文字を左から右の順にアウトオブオーダーテキストの現在の文字として使用することができる。
ステップ302において、アウトオブオーダーテキスト内の文字の文字属性に基づいて、第1の文字を決定し、第1の文字がアウトオブオーダーテキスト内の現在の文字の現在の位置の前の各位置にある文字である。
本出願の実施例では、アウトオブオーダーテキスト内の文字の位置ラベルに基づいて、アウトオブオーダーテキスト内の現在の文字の位置を決定し、アウトオブオーダー内の当該現在の文字の位置の前の各位置にある文字を第1の文字として使用することができる。例えば、アウトオブオーダーテキストが「はルハビンの都省である竜黒江省」である場合、現在のサブキャラクタが「竜」であると、第1の文字は「は」、「ル」、「ハ」、「ビン」、「の」、「都」、「省」である。
ステップ303において、第1の文字、第1の文字の文字属性、現在の文字の文字属性を語義表現モデルに入力して、語義表現モデルによる現在の文字の現在位置にある文字の予測結果を取得する。
一例として、第1の文字、第1の文字の各文字の文字属性、及び現在の文字の文字属性を語義表現モデルに入力することができ、語義表現モデルは、第1の文字、第1の文字の文字属性及び現在の文字の文字属性に基づいて現在の文字の現在の位置にある文字の予測結果を予測することができる。ここで、第1の文字の文字属性は、アウトオブオーダーテキスト内の第1の文字の各文字の位置、及びオリジナルテキスト内の元の位置である。
例えば、アウトオブオーダーテキストが「はルハビンの都省である竜黒江省」である場合、現在の文字が「竜」であると、第1の文字は「は」、「ル」、「ハ」、「ビン」、「の」、「都」、「省」であり、第1の文字、第1の文字の各文字属性、及び現在の文字の文字属性を初期の語義表現モデルに入力することができ、初期の語義表現モデルは、現在の文字の現在の位置にある文字の予測結果を予測することができる。
なお、アウトオブオーダーテキスト内の現在の文字の位置が0である場合、つまり、アウトオブオーダーテキスト内の現在の文字の位置が第1の位置であり、現在の文字に対応する第1の文字が空である場合、語義表示モデルは、ランダムモデルを用いて現在の位置の文字を予測することができる。
ステップ304において、現在の文字及び文字の予測結果に基づいて、損失関数値を計算し、語義表現モデルの係数を調整して、語義表現モデルを生成する。
本出願の実施例では、現在の文字を文字予測結果と比較し、現在の文字と文字予測結果の差を損失関数として使用し、初期の語義表現モデルの係数を調整して損失関数の値を最小化し、損失関数値が最小化されるときの初期の語義表現モデルを語義表現モデルとして使用することができる。つまり、損失関数値が最小化される場合、現在の文字の予測結果が現在の文字に最も近く、最小化されるときの損失関数値に対応する初期の語義表現モデルを語義表現モデルとして使用することができる。
上述したように、アウトオブオーダーテキストの文字属性に基づいて、一方向モデリング方式を決定し、深層学習によって初期の語義表現モデルをトレーニングすることにより、モデルの事前トレーニングと微調整の間の偏差を削除することができる。
本出願の実施例の有用性及び実現可能性を向上させるために、本出願の実施例において、図4に示されるように、図4は本出願の第3の実施例に係る概略図であり、トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成した後、語義表示モデルに対してタスクシーンの訓練を行い、タスクシーンでの語義表現モデルを生成することができ、これにより、タスクシーンでの語義表現モデルはタスクシーンの分析及び予測を完了することができる。図1のステップ106の後に、以下のステップをさらに含むことができる。
ステップ401において、語義表現モデルのタスクシーンを決定する。
本出願の実施例では、タスクシーンは、自然言語処理技術分野におけるテキスト類似性予測、インテリジェントな質問応答、感情分析、自然言語推断などを含むことができるが、これらに限定されず、タスクシーンのいずれか1つを、語義表現モデルのタスクシーンとして使用してもよい。
ステップ402において、タスクシーンでのトレーニングデータを取得し、トレーニングデータがトレーニングテキスト及び対応するタスク目標を含む。
本出願の実施例では、トレーニングデータ内のトレーニングテキストは、タスクに関連する少量のラベル付きデータであってもよく、当該トレーニングテキストに対応するタスクターゲットは、タスクに関連する少量のラベル付きデータのラベル付き結果である。
例えば、タスクシーンが感情分析であることを例とすると、タスク目標は、感情のポジティブスコア及びネガティブスコア、又は感情のポジティブ確率及びネガティブ確率を決定することであり、感情分析に関連する少量のラベル付きデータは、「味がとても良い」、「コストパフォーマンスが低い」、「環境がとてもきれい、お勧め」などであってもよく、訓練データは、「味がとても良い」であってもよく、対応するタスク目標としては、感情がポジティブであり、かつ感情のポジティブ確率が90%であり、感情のネガティブ確率が10%であり、「コストパフォーマンスが低い」であり、対応するタスク目標としては、感情がネガティブであり、かつ感情のネガティブ確率が90%であり、感情のポジティブ確率が10%であり、「環境がとてもきれい、お勧め」であり、対応するタスク目標としては、感情がポジティブであり、かつ感情のポジティブ確率が95%であり、感情のネガティブ確率が5%である。
ステップ403において、トレーニングテキスト及び対応するタスク目標を用いて語義表現モデルをトレーニングして、タスクシーンでの語義表現モデルを生成する。
一例として、トレーニングデータ内のトレーニングテキストを語義表現モデルの入力とし、対応するタスク目標を語義表現モデルの出力とすることにより、語義表現モデルのトレーニングを実現して、タスクシーンでの語義表現モデルを生成することができる。
当業者が本出願をより明確に理解できるために、ここで例を挙げて説明する。
例えば、図5に示されるように、図5のタスクモデルは、タスクシーンでの語義表現モデルを表すことができ、共通の語義表現は、語義表現モデルを表すことができ、タスクシーンが感情分析であることを例とすると、タスクに関連していない大量のテキストを用いて初期の語義表現モデルをトレーニングすると、語義表現モデルを取得することができ、語義表現モデルを、タスクに関連している少量のラベル付きデータを用いてトレーニングすると、タスクシーンでの語義表現モデルを取得することができ、テキストをタスクシーンでの語義表現モデルに入力すると、対応するタスク目標を取得することができ、例えば、「このレストランはまた来る価値がある」というテキストをタスクシーンでの語義表現モデルに入力すると、対応する感情のポジティブ確率87%、感情のネガティブ確率13%を取得することができる。これにより、初期の語義表現モデルを大量のテキストでトレーニングした後、語義表現モデルを生成し、次に、タスクシーンでのトレーニングデータを用いて語義表現モデルをトレーニングした後、生成されたタスクシーンでの語義表現モデルは、タスクシーンでの分析及び予測を完了することができることがわかる。
上述したように、語義表現モデルのタスクシーンを決定し、タスクシーンでのトレーニングデータを取得し、トレーニングデータを用いて語義表現モデルをトレーニングし、タスクシーンでの語義表現モデルを生成することにより、タスクシーンでの語義表示モデルは、タスクシーンでの分析及び予測を完了することが可能となる。
本出願の実施例に係る語義表現モデルの生成方法では、オリジナルテキストを含むオリジナルテキスト集合を取得し、オリジナルテキストに対して知識ユニットの識別及び分割を行って、オリジナルテキスト内の知識ユニット及び非知識ユニットを取得し、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得し、アウトオブオーダーテキスト内の各文字の文字属性を生成し、ここで、文字属性が前記オリジナルテキストでの前記文字の元の位置と、文字の現在の位置とを含み、アウトオブオーダーテキスト内の文字の文字属性に基づいてトレーニングテキスト集合を生成し、トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成する。語義表現モデルの生成方法は、オリジナルテキストに対して知識ユニットの識別及び分割を行い、分割されたオリジナルテキストに対してアウトオブオーダー処理を行うことで、アウトオブオーダーテキストを得て、アウトオブオーダーテキスト内の文字属性に基づいて初期の語義モデルをトレーニングする。このようにして、知識ユニットの階層的アウトオブオーダーモデリングの方式により、オリジナルテキスト内の単語及びエンティティなどをモデリングし、モデルに実世界の知識を学習させ、モデルの効果を高めることができる。同時に、文字属性に基づいて決定された一方向モデリングの方式により、モデルの事前トレーニングと微調整の間の偏差が削除される。
上記実施例を実現するために、本出願の実施例は、語義表現モデルの生成装置をさらに提供する。
図6は本出願の第4の実施例に係る概略図である。図6に示されるように、語義表現モデルの生成装置600は、第1の取得モジュール610、識別分割モジュール620、処理モジュール630、第1の生成モジュール640、第2の生成モジュール650、トレーニングモジュール660を備える。
ここで、第1の取得モジュール610は、オリジナルテキストを含むオリジナルテキスト集合を取得するために使用される。
識別分割モジュール620は、オリジナルテキストに対して知識ユニットの識別及び分割を行って、オリジナルテキスト内の知識ユニット及び非知識ユニットを取得するために使用される。
処理モジュール630は、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得するために使用される。
第1の生成モジュール640は、アウトオブオーダーテキスト内の各文字の文字属性を生成するために使用され、文字属性がオリジナルテキストでの文字の元の位置と、文字の現在の位置とを含む。
第2の生成モジュール650は、アウトオブオーダーテキスト内の文字の文字属性に基づいてトレーニングテキスト集合を生成するために使用される。
トレーニングモジュール660は、トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成するために使用される。
本出願の実施例の変形例として、識別分割モジュール620は、具体的には、オリジナルテキストに対してレベル1の知識ユニットの識別及び分割を行って、レベル1の知識ユニット及び非知識ユニットを取得し、レベル1の知識ユニットに対してレベル2の知識ユニットの識別及び分割を行って、レベル2の知識ユニット及び非知識ユニットを取得するために使用されてもよい。
本出願の実施例の変形例として、レベル1は文であり、レベル2は単語レベルであってもよい。
本出願の実施例の変形例として、トレーニングモジュール660は、具体的には、トレーニングテキスト集合内のアウトオブオーダーテキストの現在の文字を取得し、アウトオブオーダーテキスト内の文字の文字属性に基づいて、第1の文字を決定し、第1の文字がアウトオブオーダーテキスト内の現在の文字の現在の位置の前の各位置にある文字であり、第1の文字、第1の文字の文字属性、現在の文字の文字属性を語義表現モデルに入力して、語義表現モデルによる現在の文字の現在位置にある文字の予測結果を取得し、現在の文字及び文字の予測結果に基づいて、損失関数値を計算し、語義表現モデルの係数を調整して、語義表現モデルを生成するために使用されてもよい。
本出願の実施例の変形例として、処理モジュール630はさらに知識ユニットで、含まれる複数の文字に対して文字レベルのアウトオブオーダー処理を行うために使用されてもよい。
本出願の実施例の変形例として、図7に示されるように、図6に示されるものに基づいて、語義表現モデルの生成装置600は、さらに決定モジュール670、第2の取得モジュール680、タスクトレーニングモジュール690をさらに備えていてもよい。
ここで、決定モジュール670は、語義表示モデルのタスクシーンを決定するために使用され、第2の取得モジュール680は、タスクシーンでのトレーニングデータを取得し、トレーニングデータがトレーニングテキスト及び対応するタスク目標を含み、タスクトレーニングモジュール690は、トレーニングテキスト及び対応するタスク目標を用いて語義表現モデルをトレーニングして、タスクシーンでの語義表現モデルを生成するために使用される。
本出願の実施例に係る語義表現モデルの生成装置では、オリジナルテキストを含むオリジナルテキスト集合を取得して、オリジナルテキストに対して知識ユニットの識別及び分割を行って、オリジナルテキスト内の知識ユニット及び非知識ユニットを取得し、オリジナルテキスト内の知識ユニット及び非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得し、アウトオブオーダーテキスト内の文字の文字属性を生成し、ここで、文字属性がオリジナルテキストでの文字の元の位置と、文字の現在の位置とを含み、アウトオブオーダーテキスト内の文字の文字属性に基づいてトレーニングテキスト集合を生成し、トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成する。語義表現モデルの生成装置は、オリジナルテキストに対して知識ユニットの識別及び分割を行い、分割されたオリジナルテキストに対してアウトオブオーダー処理を行うことで、アウトオブオーダーテキストを得て、アウトオブオーダーテキスト内の文字属性に基づいて初期の語義モデルをトレーニングすることができる。このようにして、知識ユニットの階層的アウトオブオーダーモデリングの方式により、オリジナルテキスト内の単語及びエンティティをモデリングし、モデルに実世界の知識を学習させ、モデルの効果を高めることができる。同時に、文字属性に基づいて決定された一方向モデリング方式により、モデルの事前トレーニングと微調整の間の偏差が削除される。
本出願の実施例によれば、本出願は、電子機器と読み取り可能な記憶媒体とをさらに提供する。
図8に示されるように、それは、本出願の実施例に係る語義表現モデルの生成方法を実現するための電子機器のブロック図である。
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを図る。電子機器は、さらに携帯情報端末、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似するコンピューティングデバイスなどの様々な形態の移動装置を表すこともできる。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は、単なる一例であり、かつ本明細書での説明及び/又は要求される本出願の実現を制限することを意図するものではない。
図8に示されるように、電子機器は、少なくとも1つのプロセッサ801と、メモリ802と、高速インターフェース及び低速インターフェースを有する、各コンポーネントを接続するためのインターフェースとを備える。各部材は、異なるバスで相互に接続され、かつ共通のマザーボードに取り付けられてもよいか、又は必要に応じて他の方式で取り付けられてもよい。プロセッサは、外部入力/出力装置(インターフェースに結合された表示装置など)にGUIのグラフィック情報を表示するためにメモリ内又はメモリ上に記憶される命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要の場合、複数のプロセッサ及び/又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各装置は、部分の必要な操作(例えば、サーバアレイ、ブレードサーバグループ、又はマルチプロセッサシステムとする)提供することができる。図8では、1つのプロセッサ801を一例として挙げる。
メモリ802は、本出願による非一時的コンピュータ読み取り可能な記憶媒体である。ここで、メモリ802には、少なくとも1つのプロセッサによって実行される命令が記憶されていることにより、少なくとも1つのプロセッサは本出願による語義表現モデルの生成方法を実行することができる。本出願の非一時的コンピュータ読み取り可能な記憶媒体は、コンピュータに上記の語義表現モデルの生成方法を実行させるためのコンピュータ命令を記憶している。
メモリ802は、非一時的コンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る語義表現モデルの生成方法に対応するプログラム命令/モジュール(例えば、図6に示す第1の取得モジュール、識別分割モジュール620、処理モジュール630、第1の生成モジュール640、第2の生成モジュール650及びトレーニングモジュール660)などの、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムとを記憶するために使用され得る。プロセッサ801は、メモリ802に記憶されている非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の語義表現モデルの生成方法の実施例に係る語義表現モデルの生成方法を実現する。
メモリ802は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域にはオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムが記憶されてもよく、データ記憶領域には語義表現モデルの生成のための電子機器の使用によって作成されたデータなどが記憶されてもよい。また、メモリ802は、高速ランダムアクセスメモリを含むことができ、非一時的メモリ、例えば少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートストレージデバイスをさらに含むことができる。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して語義表現モデルの生成のための電子機器に接続されてもよい。上記ネットワークの実施例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。
語義表現モデルの生成方法を実現するための電子装置は、入力装置803と出力装置804とをさらに備えていてもよい。プロセッサ801、メモリ802、入力装置803と出力装置804は、バス又は他の方式で接続されてもよく、図8ではバスで接続されるものを一例として挙げる。
入力装置803は、入力された数字又は文字情報を受信し、語義表現モデルの生成のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、少なくとも1つのマウスボタン、トラックボール及びジョイスティックなどの入力装置である。出力装置804は、表示装置、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含むことができる。表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、少なくとも1つのコンピュータプログラムで実施することを含むことができ、少なくとも1つのコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されてもよい。プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現されてもよい。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、本明細書で説明されたシステム及び技術をコンピュータで実施することができ、当該コンピュータは、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、キーボード及びポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かつ任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明されたシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは当該グラフィカルユーザインターフェース又は当該ウェブブラウザによって本明細書で説明されたシステム及び技術の実施形態とのインタラクションを行うことができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施されてもよい。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的には、互いに離れており、通常に通信ネットワークを介してインタラクションを行うことができる。クライアントとサーバとの関係は、対応するコンピュータ上で実行されかつ相互にクライアント−サーバ関係を有するコンピュータプログラムによって生成される。
上記に示される様々な形態のフローを用いて、ステップを再並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、本出願で開示されている技術案の所望の結果さえ達成できれば、並列に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよいが、本明細書では限定されない。
上記具体的な実施形態は、本出願の保護範囲を制限するためのものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができることを理解すべきである。本出願の精神及び原則の範囲内で行われたいかなる修正、同等の置換、改善などは、いずれも本出願の範囲内に含まれるべきである。

Claims (15)

  1. オリジナルテキストを含むオリジナルテキスト集合を取得するステップと、
    前記オリジナルテキストに対して知識ユニットの識別及び分割を行って、前記オリジナルテキスト内の前記知識ユニット及び非知識ユニットを取得するステップと、
    前記オリジナルテキスト内の前記知識ユニット及び前記非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得するステップと、
    前記アウトオブオーダーテキスト内の各文字の文字属性を生成するステップであって、前記文字属性が前記オリジナルテキストでの前記文字の元の位置と、前記文字の現在の位置とを含むステップと、
    前記アウトオブオーダーテキスト内の前記文字の前記文字属性に基づいてトレーニングテキスト集合を生成するステップと、
    前記トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成するステップとを含む語義表現モデルの生成方法。
  2. 前記オリジナルテキストに対して前記知識ユニットの識別及び分割を行う前記ステップは、
    前記オリジナルテキストに対してレベル1の知識ユニットの識別及び分割を行って、前記レベル1の知識ユニット及び前記非知識ユニットを取得するステップと、
    前記レベル1の知識ユニットに対してレベル2の知識ユニットの識別及び分割を行って、前記レベル2の知識ユニット及び前記非知識ユニットを取得するステップとを含む請求項1に記載の語義表現モデルの生成方法。
  3. 前記レベル1は、文レベルであり、前記レベル2は、単語レベルである請求項2に記載の語義表現モデルの生成方法。
  4. 前記トレーニングテキスト集合を用いて前記初期の語義表現モデルをトレーニングするステップは、
    前記トレーニングテキスト集合内の前記アウトオブオーダーテキストの現在の文字を取得するステップと、
    前記アウトオブオーダーテキスト内の前記文字の前記文字属性に基づいて、第1の文字を決定するステップであって、前記第1の文字が前記アウトオブオーダーテキスト内の前記現在の文字の現在の位置の前の各位置にある文字であるステップと、
    前記第1の文字、前記第1の文字の前記文字属性、前記現在の文字の前記文字属性を前記語義表現モデルに入力して、前記語義表現モデルによる前記現在の文字の現在位置にある前記文字の予測結果を取得するステップと、
    前記現在の文字及び前記文字の予測結果に基づいて、損失関数値を計算し、前記語義表現モデルの係数を調整して、前記語義表現モデルを生成するステップとを含む請求項1に記載の語義表現モデルの生成方法。
  5. 前記オリジナルテキスト内の前記知識ユニット及び前記非知識ユニットに対して前記知識ユニットレベルの前記アウトオブオーダー処理を行って、前記アウトオブオーダーテキストを取得するステップの後、
    前記知識ユニットで、含まれる複数の前記文字に対して文字レベルのアウトオブオーダー処理を行うステップをさらに含む請求項1に記載の語義表現モデルの生成方法。
  6. 前記トレーニングテキスト集合を用いて前記初期の語義表現モデルをトレーニングして、前記語義表現モデルを生成するステップの後、
    前記語義表現モデルのタスクシーンを決定するステップと、
    前記タスクシーンでのトレーニングデータを取得するステップであって、前記トレーニングデータがトレーニングテキスト及び対応するタスク目標を含むステップと、
    前記トレーニングテキスト及び対応する前記タスク目標を用いて前記語義表現モデルをトレーニングして、前記タスクシーンでの前記語義表現モデルを生成するステップとをさらに含む請求項1に記載の語義表現モデルの生成方法。
  7. オリジナルテキストを含むオリジナルテキスト集合を取得する第1の取得モジュールと、
    前記オリジナルテキストに対して知識ユニットの識別及び分割を行って、前記オリジナルテキスト内の前記知識ユニット及び非知識ユニットを取得する識別分割モジュールと、
    前記オリジナルテキスト内の前記知識ユニット及び前記非知識ユニットに対して知識ユニットレベルのアウトオブオーダー処理を行って、アウトオブオーダーテキストを取得する処理モジュールと、
    前記アウトオブオーダーテキスト内の各文字の文字属性を生成するために使用され、前記文字属性が前記オリジナルテキストでの前記文字の元の位置と、前記文字の現在の位置とを含む第1の生成モジュールと、
    前記アウトオブオーダーテキスト内の前記文字の前記文字属性に基づいてトレーニングテキスト集合を生成する第2の生成モジュールと、
    前記トレーニングテキスト集合を用いて初期の語義表現モデルをトレーニングして、語義表現モデルを生成するトレーニングモジュールとを備える語義表現モデルの生成装置。
  8. 前記識別分割モジュールは、具体的には、
    前記オリジナルテキストに対してレベル1の知識ユニットの識別及び分割を行って、前記レベル1の知識ユニット及び前記非知識ユニットを取得し、
    前記レベル1の知識ユニットに対してレベル2の知識ユニットの識別及び分割を行って、前記レベル2の知識ユニット及び前記非知識ユニットを取得する請求項7に記載の語義表現モデルの生成装置。
  9. 前記レベル1は、文レベルであり、前記レベル2は、単語レベルである請求項8に記載の語義表現モデルの生成装置。
  10. 前記トレーニングモジュールは、具体的には、
    前記トレーニングテキスト集合内の前記アウトオブオーダーテキストの現在の文字を取得し、
    前記アウトオブオーダーテキスト内の前記文字の前記文字属性に基づいて、第1の文字を決定し、前記第1の文字が前記アウトオブオーダーテキスト内の前記現在の文字の現在の位置の前の各位置にある文字であり、
    前記第1の文字、前記第1の文字の前記文字属性、前記現在の文字の前記文字属性を前記語義表現モデルに入力して、前記語義表現モデルによる前記現在の文字の現在位置にある前記文字の予測結果を取得し、
    前記現在の文字及び前記文字の予測結果に基づいて、損失関数値を計算し、前記語義表現モデルの係数を調整して、前記語義表現モデルを生成する請求項7に記載の語義表現モデルの生成装置。
  11. 前記処理モジュールは、さらに、
    前記知識ユニットで、含まれる複数の前記文字に対して文字レベルのアウトオブオーダー処理を行う請求項7に記載の語義表現モデルの生成装置。
  12. 前記語義表現モデルのタスクシーンを決定する決定モジュールと、
    前記タスクシーンでのトレーニングデータを取得するために使用され、前記トレーニングデータがトレーニングテキスト及び対応するタスク目標を含む第2の取得モジュールと、
    前記トレーニングテキスト及び対応する前記タスク目標を用いて前記語義表現モデルをトレーニングして、前記タスクシーンでの前記語義表現モデルを生成するタスクトレーニングモジュールとをさらに備える請求項7に記載の語義表現モデルの生成装置。
  13. 少なくとも1つのプロセッサと、
    少なくとも1つの該プロセッサに通信可能に接続されたメモリとを備え、
    該メモリには前記少なくとも1つのプロセッサで実行可能な命令が記憶されており、該命令は、少なくとも1つの前記プロセッサが請求項1から請求項6のいずれかに記載の語義表現モデルの生成方法を実行できるように、少なくとも1つの前記プロセッサによって実行される電子機器。
  14. コンピュータ命令を記憶している非一時的コンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1から請求項6のいずれかに記載の語義表現モデルの生成方法を実行させるために使用される非一時的コンピュータ読み取り可能な記憶媒体。
  15. コンピュータ上で動作しているときに、請求項1から請求項6のいずれかに記載の語義表現モデルの生成方法を前記コンピュータに実行させるコンピュータプログラム。
JP2021102856A 2020-06-22 2021-06-22 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム Pending JP2021184255A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010574268.1A CN111950291B (zh) 2020-06-22 2020-06-22 语义表示模型的生成方法、装置、电子设备及存储介质
CN202010574268.1 2020-06-22

Publications (1)

Publication Number Publication Date
JP2021184255A true JP2021184255A (ja) 2021-12-02

Family

ID=73337148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021102856A Pending JP2021184255A (ja) 2020-06-22 2021-06-22 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210248484A1 (ja)
EP (1) EP3822842A3 (ja)
JP (1) JP2021184255A (ja)
KR (1) KR102565673B1 (ja)
CN (1) CN111950291B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543082A (zh) * 2023-05-18 2023-08-04 无锡捷通数智科技有限公司 数字人的生成方法、装置和数字人的生成系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560499B (zh) * 2020-12-11 2024-01-09 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN112580339B (zh) * 2020-12-18 2022-04-05 北京百度网讯科技有限公司 模型的训练方法、装置、电子设备及存储介质
CN112507040B (zh) * 2020-12-21 2023-08-08 北京百度网讯科技有限公司 多元关系生成模型的训练方法、装置、电子设备及介质
CN113408300B (zh) * 2021-07-09 2024-02-20 北京百度网讯科技有限公司 模型训练方法、品牌词识别方法、装置及电子设备
CN114265918A (zh) * 2021-12-01 2022-04-01 北京捷通华声科技股份有限公司 文本切分方法、装置及电子设备
CN116052648B (zh) * 2022-08-03 2023-10-20 荣耀终端有限公司 一种语音识别模型的训练方法、使用方法及训练系统
CN115374793B (zh) * 2022-10-25 2023-01-20 深圳市人马互动科技有限公司 基于服务场景识别的语音数据处理方法及相关装置
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717339A (zh) * 2019-12-12 2020-01-21 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185672B1 (en) * 1999-02-19 2001-02-06 Advanced Micro Devices, Inc. Method and apparatus for instruction queue compression
BRPI0412778A (pt) * 2003-07-22 2006-09-26 Kinor Technologies Inc acesso á informações usando ontologia
WO2016080964A1 (en) * 2014-11-18 2016-05-26 Siemens Aktiengesellschaft Semantic contextualization in a programmable logic controller
CN106407333B (zh) * 2016-09-05 2020-03-03 北京百度网讯科技有限公司 基于人工智能的口语查询识别方法及装置
US10515400B2 (en) * 2016-09-08 2019-12-24 Adobe Inc. Learning vector-space representations of items for recommendations using word embedding models
US11461643B2 (en) * 2017-05-09 2022-10-04 Sri International Deep adaptive semantic logic network
CN109241330A (zh) * 2018-08-20 2019-01-18 北京百度网讯科技有限公司 用于识别音频中的关键短语的方法、装置、设备和介质
CN110751165B (zh) * 2019-08-06 2023-01-24 汕头大学 一种乱序文字的自动组词方法
CN111061625A (zh) * 2019-11-18 2020-04-24 中国建设银行股份有限公司 一种应用于乱序密码键盘的自动化测试方法和装置
CN111079442B (zh) * 2019-12-20 2021-05-18 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717339A (zh) * 2019-12-12 2020-01-21 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SUN, YU ET.AL, ERNIE 2.0: A CONTINUAL PRE-TRAINING FRAMEWORK FOR LANGUAGE UNDERSTANDING, JPN6022037383, 21 November 2019 (2019-11-21), pages 1 - 8, ISSN: 0004868313 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543082A (zh) * 2023-05-18 2023-08-04 无锡捷通数智科技有限公司 数字人的生成方法、装置和数字人的生成系统

Also Published As

Publication number Publication date
CN111950291B (zh) 2024-02-23
US20210248484A1 (en) 2021-08-12
KR102565673B1 (ko) 2023-08-10
KR20210081309A (ko) 2021-07-01
CN111950291A (zh) 2020-11-17
EP3822842A2 (en) 2021-05-19
EP3822842A3 (en) 2021-10-13

Similar Documents

Publication Publication Date Title
JP7247441B2 (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
JP2021184255A (ja) 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7214954B2 (ja) 言語モデルのトレーニング方法、装置、電子機器、プログラム及び可読記憶媒体
US11727216B2 (en) Method, apparatus, device, and storage medium for linking entity
JP7362994B2 (ja) 複数種類の単語ベクトルに基づいて言語モデルをトレーニングする方法、装置、機器、プログラム及び記憶媒体
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP2022013602A (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
CN111709234B (zh) 文本处理模型的训练方法、装置及电子设备
US20210374343A1 (en) Method and apparatus for obtaining word vectors based on language model, device and storage medium
CN114970522B (zh) 语言模型的预训练方法、装置、设备、存储介质
JP7309798B2 (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN111666751B (zh) 训练文本扩充方法、装置、设备以及存储介质
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
KR102630243B1 (ko) 구두점 예측 방법 및 장치
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
JP7230304B2 (ja) 対話生成方法、装置、電子機器、プログラム及び記憶媒体
JP7192192B2 (ja) 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
CN111950293A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
JP2022028897A (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
JP2022028889A (ja) 対話生成方法、装置、電子機器及び記憶媒体
CN115688796A (zh) 用于自然语言处理领域中预训练模型的训练方法及其装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230404