JP7194150B2 - ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器 - Google Patents

ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器 Download PDF

Info

Publication number
JP7194150B2
JP7194150B2 JP2020108873A JP2020108873A JP7194150B2 JP 7194150 B2 JP7194150 B2 JP 7194150B2 JP 2020108873 A JP2020108873 A JP 2020108873A JP 2020108873 A JP2020108873 A JP 2020108873A JP 7194150 B2 JP7194150 B2 JP 7194150B2
Authority
JP
Japan
Prior art keywords
document
segment
training
vector
level semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020108873A
Other languages
English (en)
Other versions
JP2021099774A (ja
Inventor
チャオ パン,
シュオファン ワン,
ユウ サン,
ツィ リ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021099774A publication Critical patent/JP2021099774A/ja
Application granted granted Critical
Publication of JP7194150B2 publication Critical patent/JP7194150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本出願は、人工知能技術の分野に関し、特に、自然言語処理技術の分野に関し、具体的には、ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器に関する。
今日のインターネットアプリケーションでは、どのように大量の自然言語処理タスクを解決するかが差し迫っている。実際、異なるレベルのテキストをセマンティックベクトルとして表現することは、既に簡単で効果的な案となり、人々は、文字、単語、文、段落、さらにドキュメントをセマンティックベクトルとして表現することができ、これらのベクトルを下流モデルの特徴とすることができる。
Google社がBERTなどのモデルを発表して以来、様々な改良モデルが次々と登場し、自然言語理解のレベルが更新されつつあり、BERTなどのモデルは、大規模コーパスで学習タスクを構築することによって、文及び単語のベクトル表現を自然に生成することができる。しかしながら、現在のモデル設定がいずれも不合理であるため、テキスト内の前後の段落の情報が分割され、完全なテキスト情報を利用できないとともに、テキスト内の情報の損失が深刻である。
また、現在のモデルは、単語表現又はテキスト全体表現しか生成することができないことが多く、文、段落レベルのような中間レベルの表現を取得できないこととなっている。しかしながら、ドキュメント及びタスクの処理においては、異なるレベルの表現を同時に取得できることが極めて重要である。
本出願は、関連技術における少なくとも一つの技術的課題をある程度解決することを目的とする。
そのため、本出願の一つの目的は、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させているドキュメントのベクトル化表現方法を提供する。
本出願の第2の目的は、ドキュメントのベクトル化表現装置を提供する。
本出願の第3の目的は、コンピュータ機器を提供する。
本出願の第4の目的は、非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
上記の目的を達成するために、本出願の第1の態様の実施例は、ドキュメントを分割して複数のテキストセグメントを取得するステップと、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するステップであって、前記セグメントベクトルが、対応するテキストセグメントのセマンティックを示すステップと、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するステップと、を含むドキュメントのベクトル化表現方法を提供する。
上記の目的を達成するために、本出願の第2の態様の実施例は、ドキュメントを分割して複数のテキストセグメントを取得するように構成される分割モジュールと、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するように構成される表現モジュールであって、前記セグメントベクトルが、対応するテキストセグメントのセマンティックを示す表現モジュールと、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するように構成される認識モジュールと、を備えるドキュメントのベクトル化表現装置を提供する。
上記の目的を達成するために、本出願の第3の態様の実施例は、メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを備えるコンピュータ機器であって、前記プロセッサが前記プログラムを実行する場合に、第1の態様に記載のドキュメントのベクトル化表現方法を実現するコンピュータ機器を提供する。
上記の目的を実現するために、本出願の第4の態様の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合に、第1の態様に記載のドキュメントのベクトル化表現方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
本出願の実施例に係る技術案は、以下のような有益な効果を奏する。
ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。
本出願の上記及び/又は付加的な態様及び利点は、以下の図面を参照した実施例についての説明において、明らかになり、理解されやすくなる。
本出願の実施例に係るドキュメントのベクトル化表現方法の概略フローチャートである。 本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。 本出願に係るモデルの概略構成図である。 本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。 本出願の実施例に係るドキュメントのベクトル化表現装置の概略構成図である。 本出願の実施例に係るドキュメントのベクトル化表現方法の電子機器のブロック図である。
以下、本出願の実施例を詳細に説明する。前記実施例における例が図面に示され、同一又は類似する符号は、常に同一又は類似する部品、又は、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本出願を解釈することを旨とし、本出願を限定するものと理解してはいけない。
以下、図面を参照して本出願の実施例のドキュメントのベクトル化表現方法、装置及びコンピュータ機器を説明する。
従来の技術では、ドキュメントをベクトル化表現する方法は、主に以下の二つがあり、一つは、Google社が発表したBERTなどのモデルを用いて大規模コーパスで学習タスクを構築することによって、文及び単語のベクトル表現を自然に生成することができる。これらのベクトルは、多くの自然言語理解タスクにとって非常に有益な特徴である。これらのモデルの入力の長さは通常限られており、より長いテキストについて手に負えない。実際、通常、モデルの入力の長さに適合するためにこれらのテキストを切断する方法が取られているが、これは、非常に致命的なることが多い。例えば、テキストを要約するタスクについて、重要な情報が規定された長さ以外に現れると、このタスクは当然実現できない。実際、研究者たちは、BERTなどの言語モデルをさらに長いテキストに適用するために、より巧妙なモデル構造を設計し、例えば、Tansformer-XLなどの改良モデルなどは、一つ前の段階で一つ前のセグメントのテキストの表現を計算し、現在の段階で現在のセグメントの表現を一つ前のセグメントの表現でフィードフォワード計算することに相当し、このような方式は、トレーニングにおけるフィードフォワード段階とフィードバック段階とを分割することになる。
もう1つの方法は、LSAなどのトピックモデルを使用して、ドキュメントをワードバック行列として処理し、行列の各行が一つの文章を表し、各列が一つの単語を表し、各位置の値は、対応する文章での当該単語の出現回数を表し、この行列の非特異値分解を行うことによって、文章に対応するトピックワードを取得し、トピックワードを使用してこのドキュメントを表す。実際、LSAなどのトピックモデルを使用することには、多くの問題が存在する。
まず、LSAは、行列分解によって取得されるため、空間における次元の物理的な意味が明確ではなく、解明することができない。また、モデル計算范式複雑で、理解し難く、トピック数の設定を手動に設定する必要があるため、不合理でテキスト内の情報損失が大きくなる可能性がある。
従来の技術においてドキュメントをベクトル化表現する時に情報損失が大きく、ドキュメント内の異なるレベルのベクトル化表現を取得できないという技術的課題を解決するために、本出願は、ドキュメントのベクトル化表現方法を提供し、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
図1は、本出願の実施例に係るドキュメントのベクトル化表現方法の概略フローチャートである。
図1に示すように、当該方法は、ステップ101~ステップ103を含む。
ステップ101において、ドキュメントを分割して複数のテキストセグメントを取得する。
具体的には、モデルの入力では、入力されたドキュメントが複数のテキストセグメントに分割され、各テキストセグメントの長さが、最長512個の漢字であり、すなわち長さが最長512個のキャラクタであることが要求されているが、テキストセグメントの長さについては、本実施例では限定しない。
ステップ102において、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、セグメントベクトルは、対応するテキストセグメントのセマンティックを示す。
具体的には、各テキストセグメントに対して末尾に終了キャラクタを追加した後、例えば、終了キャラクタは[SEP]であり、第1レベルのセマンティックモデルに入力して、第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得し、各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとする。
なお、テキストセグメント毎に、対応するテキストセグメントに含まれる複数のキャラクタについて、1番目のキャラクタのベクトル化表現から、次のキャラクタのベクトル化表現を、テキストセグメント内の最後の終了キャラクタまで逐次に重ね合わせていくため、終了キャラクタのベクトル化表現には、当該テキストセグメント内のすべてのキャラクタのベクトル化表現が含まれ、これにより、当該テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとして使用して、対応するテキストセグメントのセマンティックを示す。
ステップ103において、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。
具体的には、各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加し、各テキストセグメントの入力ベクトルを取得し、位置要素は、対応するテキストセグメントのドキュメント内の位置を示すためのものであり、つまり、対応するセグメントがドキュメントの何番目のセグメントに対応するかを示すためのものであり、そして第2レベルのセマンティックモデルが各テキストセグメントの入力ベクトルに基づいて参照ベクトルの値を調整するように各テキストセグメントの入力ベクトルと、値が初期値である参照ベクトルとを第2レベルのセマンティックモデルに入力し、値が調整された参照ベクトルをドキュメントのトピックを示すためのドキュメントベクトルとする。これにより、各テキストセグメントのセグメントベクトルをドキュメントベクトルにマッピングすることが実現される。
なお、本実施例では、各セグメントは独立した位置符号化を採用する。ここで、値が初期値である参照ベクトルは、予め設定された学習可能なベクトルであり、例えば、学習類別(classification、CLS)ベクトルである。
本実施例のドキュメントのベクトル化表現方法では、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとを用いて認識を行う前に、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングする必要がある。前の実施例に基づいて、本実施例は、別のドキュメントのベクトル化表現方法を提供し、どのように第1のトレーニングタスクに基づいて第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするかについて説明する。図2は、本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。
図2に示すように、ドキュメントを分割して複数のテキストセグメントを取得する前に、当該方法は、以下のステップ201をさらに含むことができる。
ステップ201において、第1のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングする。
図3は、本出願に係るモデルの概略構成図である。図3に示すように、当該モデルは、2層のセマンティックモデルを含み、それぞれ第1レベルのセマンティックモデル及び第2レベルのセマンティックモデルであり、第1レベルのセマンティックモデルは複数であり、それぞれの第1レベルのセマンティックモデルは、一つのテキストセグメントに対応しており、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現するために用いられ、第2レベルのセマンティックモデルは、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。複数の層のモデル構成を設定することによって、各レベルのセマンティックセグメントの情報を取得することができ、異なる実際の応用シーンのニーズを満たすことができ、例えば、検索エンジンでは、我々は、対応する文章だけでなく、文章内の対応するセグメントも見つけることができる。
ここで、第1のトレーニングタスクは、トレーニングドキュメントを複数のテキストセグメントに分割し、各テキストセグメントには複数のキャラクタが含まれ、いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、一つのキャラクタのベクトル化表現とドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、予測キャラクタと一つのキャラクタとの差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することとを含む。ここで、第1レベルのセマンティックモデルは複数であり、複数の第1レベルのセマンティックモデルはパラメータを共有し、これにより、パラメータの個数を少なくし、第1レベルのセマンティックモデルのトレーニング効率を向上させる。
例えば、図3に示すように、トレーニングドキュメントは1,2,3,4,5,6,7,8,9,10,11,12,13,14,15であり、当該ドキュメントを分割して三つのテキストセグメントを取得し、各テキストセグメントは、四つのキャラクタを含み、例えば、1番目のテキストセグメントAは1,2,3,4,5である。当該トレーニングドキュメントのいずれかのテキストセグメントを取り、例えば、1番目のテキストセグメントAを取り、テキストセグメントAの末尾に終了キャラクタ[SEP]を追加した後、当該テキストセグメントAを処理し、予測する必要のある予測キャラクタを決定し、当該キャラクタをmaskという特殊キャラクタで隠し、図3に示すように、予測する必要のあるキャラクタは、テキストセグメントA内の3番目のキャラクタである。次に、対応する第1レベルのセマンティックモデルに入力して当該テキストセグメントのベクトル化表現を取得し、maskという特殊キャラクタで隠された一つのキャラクタのベクトル化表現C1と、当該トレーニングドキュメントのすべてのセグメントベクトルを第2レベルのセマンティックモデルに入力することによって得られた当該トレーニングドキュメントのドキュメントベクトルXbarとを取得し、当該キャラクタのベクトル化表現C1と当該トレーニングドキュメントのドキュメントベクトルXbarとを、第1の完全結合層に入力して当該キャラクタの予測を行い、予測キャラクタのベクトル化表現C2を取得し、予測キャラクタC2と一つのキャラクタC1との差異を比較し、差異に基づいて第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整し、トレーニングタスクによってモデルのパラメータを持続的に調整し、これにより、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとが収束され、すなわち、決定された一つのキャラクタと予測キャラクタとの差異が最小になる。
なお、第1のトレーニングタスクでは、キャラクタの予測を行う時に、キャラクタのベクトル化表現とトレーニングドキュメントのチャプターレベルのベクトル化表現とを加算して考慮したため、各キャラクタの予測を行う時に、ドキュメント全体のベクトル化表現を考慮したことになる。すなわち、ドキュメント全体のセマンティックを考慮し、完全なテキスト情報を利用して情報の損失を低減させ、セマンティック分割の問題を回避し、モデルのトレーニングをより効果的にした。
ここで、図2内の他のステップは、図1の対応する実施例におけるステップ101~ステップ103を参照することができ、原理が同じであるため、説明を省略する。
本実施例のドキュメントのベクトル化表現方法では、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとを第2のトレーニングタスクを用いてトレーニングすることによって、モデルのパラメータを調整し、モデルのトレーニングの効果を向上させる。ドキュメントを複数のテキストセグメントに分割し、トレーニングされた第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、第1レベルのセマンティックモデルは、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得するものであり、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
上記の実施例に基づいて、本実施例は、他のドキュメントのベクトル化表現方法の可能な実現形態をさらに提供し、どのように第2のトレーニングタスクに基づいて第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするかについて説明する。図4は、本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。
図4に示すように、ドキュメントを分割して複数のテキストセグメントを取得するステップの前に、当該方法は、以下のステップ401をさらに含むことができる。
ステップ401において、第2のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングする。
ここで、第2のトレーニングタスクは、トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、予測されたマッチング結果と実際のマッチング結果との差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することと、を含む。本実施例では、トレーニングドキュメントは複数であり、正例と負例とを含み、正例としてのトレーニングドキュメントは、トレーニング本文と対応するトレーニングタイトルとをつなぎ合わせたものであり、負例としてのトレーニングドキュメントは、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである。
本実施例では、トレーニングドキュメントは、ニュースであってもよく、Webクローラー技術によってネットワークから大量のニュースコーパスを取得し、ニュースコーパスを、ニュース本文と、本文に対応するニュースタイトルとに分割し、ニュース本文と、本文に対応するタイトルとをつなぎ合わせることによってトレーニングドキュメントの正例を取得し、本文と、他の本文に対応するタイトルとをランダムに組み合わせることによってトレーニングドキュメントの負例を取得し、トレーニングテキストにラベル付けし、ここで、サンプルの正例数と負例数とを等しくすることができる。さらに、各トレーニングサンプルを第1レベルのセマンティックモデルに入力して、各トレーニングサンプルのドキュメントベクトルを取得し、ドキュメントベクトルを図3に示される第2の完全結合層に入力してニュースタイトルとニュース本文とのマッチング度を予測し、予測されたマッチング結果を出力し、予測されたマッチング結果とラベル付けされた実際のマッチング結果との差異を決定し、差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整し、モデルのパラメータを持続的にトレーニングし調整することによって、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとが収束され、すなわち、予測されたマッチング結果と実際のマッチング結果との差異が最小になる。
なお、図3に示される第1の完全結合層と第2の完全結合層とは異なる。これにより、異なるモデルのトレーニングの対応性とトレーニング効果が向上する。
選択可能には、本実施例におけるモデル内の各部分、例えば、第1レベルのセマンティックモデル、第2レベルのセマンティックモデルなどは、コンピュータ機器の異なる部分に設定され、複数の機器間の同期計算によって、モデルのスループットを向上させる。
ここで、図4の他のステップは、図1の対応する実施例におけるステップ101~ステップ103を参照することができ、原理が同じであるため、説明を省略する。
なお、上記の実施例では、第1のトレーニングタスク又は第2のトレーニングタスクを用いて、第1レベルのセマンティックモデル及び第2レベルのセマンティックモデルをトレーニングしたが、トレーニングの効果を向上させるために、第1のトレーニングタスクと第2のトレーニングタスクを交互に実行することによって第1レベルのセマンティックモデルと第2レベルのセマンティックモデルをトレーニングすることができる。これら二つのトレーニングタスクは反復的に行われ、第1のトレーニングタスクの予測結果と第2のトレーニングタスクの予測結果とに基づいて、モデルの損失値を算出し、ここで、モデルの損失値は、二つのトレーニングタスクに対応する損失関数の損失値によって取得され、算出されたモデルの損失値に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することによって、二つのタスクの損失関数がいずれも収束され、従来のTransfoermer-XLモデルのトレーニングにおけるフィードフォワード段階とフィードバック段階との分割によるセマンティック分割の問題が回避され、モデルのトレーニングの効果が向上し、モデルによって取得された、ドキュメント主体を示すためのドキュメントベクトルの精度及び信頼性が向上する。
本実施例のドキュメントのベクトル化表現方法では、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
上記の実施例を実現するために、本出願は、ドキュメントのベクトル化表現装置をさらに提供する。
図5は、本出願の実施例に係るドキュメントのベクトル化表現装置の概略構成図である。
図5に示すように、当該装置は、分割モジュール41と、表現モジュール42と、認識モジュール43とを備える。
分割モジュール41は、ドキュメントを分割して複数のテキストセグメントを取得するように構成される。
表現モジュール42は、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するように構成され、セグメントベクトルは、対応するテキストセグメントのセマンティックを示す。
認識モジュール43は、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得するように構成される。
さらに、本出願の実施例の可能な一実現形態では、当該装置は、第1のトレーニングモジュールと、第2のトレーニングモジュールとをさらに備える。
第1のトレーニングモジュールは、第1のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするように構成され、第1のトレーニングタスクは、いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、一つのキャラクタのベクトル化表現と前記ドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、予測キャラクタと一つのキャラクタとの差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することと、を含む。
第2のトレーニングモジュールは、第2のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするように構成され、前記第2のトレーニングタスクは、トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、予測されたマッチング結果と実際のマッチング結果との差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することと、を含む。
可能な一実現形態として、トレーニングドキュメントは複数であり、正例と負例とを含み、正例としてのトレーニングドキュメントは、トレーニング本文と、対応するトレーニングタイトルとをつなぎ合わせたものであり、負例としてのトレーニングドキュメントは、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである。
可能な一実現形態として、第1レベルのセマンティックモデルは複数であり、各第1レベルのセマンティックモデルは、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現するために用いられ、複数の第1レベルのセマンティックモデルはパラメータを共有する。
可能な一実現形態として、上記の表現モジュール42は、具体的には、各テキストセグメントに対して末尾に終了キャラクタを追加した後、第1レベルのセマンティックモデルに入力して、第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得し、各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとするように構成される。
可能な一実現形態として、上記の認識モジュール43は、具体的には、各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加して、各テキストセグメントの入力ベクトルを取得し、前記位置要素は、対応するテキストセグメントのドキュメント内の位置を示すためものであり、第2レベルのセマンティックモデルが各入力ベクトルに基づいて参照ベクトルの値を調整するように各テキストセグメントの入力ベクトルと、値が初期値である参照ベクトルとを第2レベルのセマンティックモデルに入力し、値が調整された参照ベクトルをドキュメントベクトルとするように構成される。
なお、ドキュメントのベクトル化表現方法の上記の実施例についての説明は、当該実施例のドキュメントのベクトル化表現装置にも適用され、ここでは説明を省略する。
本実施例のドキュメントのベクトル化表現装置では、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントをテキストセグメントに対応するセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
上記の実施例を実現するために、本出願は、メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを備えるコンピュータ機器であって、前記プロセッサが前記プログラムを実行する場合に、上記の方法の実施例に記載のドキュメントのベクトル化表現方法を実現するコンピュータ機器をさらに提供する。
上記の目的を実現するために、本出願は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合に、上記の方法の実施例に記載のドキュメントのベクトル化表現方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図6は、本出願の実施例に係るドキュメントのベクトル化表現方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなど、様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び/又は要求された本出願の実現を制限することを意図したものではない。
図6に示すように、当該電子機器は、一つ又は複数のプロセッサ501と、メモリ502と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報を表示するためにメモリに記憶されている命令を含めて、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器に接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、1セットのブレードサーバ、又はマルチプロセッサシステムとして)を提供することができる。図6では、一つのプロセッサ501を例とする。
メモリ502は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも一つのプロセッサによって実行可能な命令が記憶されて、前記少なくとも一つのプロセッサが本出願に係るドキュメントのベクトル化表現方法を実行するようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願に係るドキュメントのベクトル化表現方法を実行させるためのコンピュータ命令を記憶する。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるドキュメントのベクトル化表現方法に対応するプログラム命令/モジュール(例えば、図4に示す分割モジュール41、表現モジュール42、及び認識モジュール43)ような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶することができる。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるドキュメントのベクトル化表現方法を実現する。
メモリ502は、オペレーティングシステムや少なくとも一つの機能に必要なアプリケーションプログラムを記憶可能なストレージプログラム領域と、ドキュメントのベクトル化表現方法の電子機器の使用に応じて作成されたデータなどを記憶可能なストレージデータ領域とを含むことができる。また、メモリ502は、高速ランダムアクセスメモリを含んでもよいし、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、選択可能に、メモリ502は、プロセッサ501に対してリモートで設定されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してドキュメントのベクトル化表現方法の電子機器に接続することができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
ドキュメントのベクトル化表現方法の電子機器は、入力装置503と出力装置504とをさらに備えることができる。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式を介して接続することができ、図6では、バスを介して接続することを例とする。
入力装置503は、入力された数字又はキャラクタ情報を受信するとともに、ドキュメントのベクトル化表現方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」との用語とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」との用語とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント側-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
本出願の実施例の技術案によれば、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
上記の様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並進に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。本出願の使用及び原則内で行われるいずれの修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (12)

  1. ドキュメントのベクトル化表現装置によって実行され、
    ドキュメントを分割して複数のテキストセグメントを取得するステップと、
    各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するステップであって、前記セグメントベクトルが、対応するテキストセグメントのセマンティックを示すステップと、
    セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するステップと、
    を含み、
    前記第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するステップが、
    各テキストセグメントに対して末尾に終了キャラクタを追加した後、第1レベルのセマンティックモデルに入力して、前記第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得するステップと、
    各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとするステップと、
    を含み、
    前記第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するステップが、
    各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加して、各テキストセグメントの入力ベクトルを取得するステップであって、前記位置要素は、対応するテキストセグメントの前記ドキュメント内の位置を示すステップと、
    前記第2レベルのセマンティックモデルが各入力ベクトルに基づいて、参照ベクトルの値を調整するように、各テキストセグメントの入力ベクトルと、値が初期値である前記参照ベクトルとを第2レベルのセマンティックモデルに入力するステップと、
    値が調整された参照ベクトルを前記ドキュメントベクトルとするステップと、
    を含み、
    各セグメントは独立した位置符号化を採用し、値が初期値である参照ベクトルは、予め設定された学習可能なベクトルである、ドキュメントのベクトル化表現方法。
  2. 前記ドキュメントを分割して複数のテキストセグメントを取得するステップの前に、
    第1のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするステップを含み、
    前記第1のトレーニングタスクが、
    いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、
    前記一つのキャラクタのベクトル化表現と前記ドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、
    前記予測キャラクタと前記一つのキャラクタとの差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
    を含む請求項1に記載のドキュメントのベクトル化表現方法。
  3. 前記ドキュメントを分割して複数のテキストセグメントを取得するステップの前に、
    第2のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするステップを含み、
    前記第2のトレーニングタスクが、
    トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、
    前記ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、
    予測されたマッチング結果と実際のマッチング結果との差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
    を含む請求項に記載のドキュメントのベクトル化表現方法。
  4. 前記トレーニングドキュメントが複数であり、正例と負例とを含み、
    前記正例としてのトレーニングドキュメントは、トレーニング本文と、対応するトレーニングタイトルとをつなぎ合わせたものであり、
    負例としてのトレーニングドキュメントは、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである請求項に記載のドキュメントのベクトル化表現方法。
  5. 前記第1レベルのセマンティックモデルが複数であり、各第1レベルのセマンティックモデルが、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現し、
    複数の前記第1レベルのセマンティックモデルが、パラメータを共有する請求項1からのいずれか一項に記載のドキュメントのベクトル化表現方法。
  6. ドキュメントを分割して複数のテキストセグメントを取得するように構成される分割モジュールと、
    各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するように構成される表現モジュールであって、前記セグメントベクトルは、対応するテキストセグメントのセマンティックを示す表現モジュールと、
    セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するように構成される認識モジュールと、を備え、
    前記表現モジュールが、
    各テキストセグメントに対して末尾に終了キャラクタを追加した後、第1レベルのセマンティックモデルに入力して、前記第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得し、
    各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとするように構成され
    前記認識モジュールは、
    各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加して、各テキストセグメントの入力ベクトルを取得するように構成され、前記位置要素が、対応するテキストセグメントの前記ドキュメント内の位置を示し、
    前記第2レベルのセマンティックモデルが各入力ベクトルに基づいて、参照ベクトルの値を調整するように、各テキストセグメントの入力ベクトルと、値が初期値である前記参照ベクトルとを第2レベルのセマンティックモデルに入力し、
    値が調整された参照ベクトルを前記ドキュメントベクトルとするように構成され、
    各セグメントは独立した位置符号化を採用し、値が初期値である参照ベクトルは、予め設定された学習可能なベクトルである、ドキュメントのベクトル化表現装置。
  7. 第1のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするように構成される第1のトレーニングモジュールを備え、
    前記第1のトレーニングタスクが、
    いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、
    前記一つのキャラクタのベクトル化表現と前記ドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、
    前記予測キャラクタと前記一つのキャラクタとの差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
    を含む請求項に記載のドキュメントのベクトル化表現装置。
  8. 第2のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするように構成される第2のトレーニングモジュールを備え、
    前記第2のトレーニングタスクが、
    トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、
    前記ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、
    予測されたマッチング結果と実際のマッチング結果との差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
    を含む請求項に記載のドキュメントのベクトル化表現装置。
  9. 前記トレーニングドキュメントが複数であり、正例と負例とを含み、
    前記正例としてのトレーニングドキュメントは、トレーニング本文と、対応するトレーニングタイトルとをつなぎ合わせたものであり、
    負例のトレーニングドキュメントとしては、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである請求項に記載のドキュメントのベクトル化表現装置。
  10. 前記第1レベルのセマンティックモデルが複数であり、各第1レベルのセマンティックモデルが、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現し、
    複数の前記第1レベルのセマンティックモデルが、パラメータを共有する請求項からのいずれか一項に記載のドキュメントのベクトル化表現装置。
  11. メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを備えるコンピュータ機器であって、
    前記プロセッサが前記プログラムを実行する場合に、請求項1からのいずれか一項に記載のドキュメントのベクトル化表現方法を実現するコンピュータ機器。
  12. コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    当該プログラムがプロセッサによって実行される場合に、請求項1からのいずれか一項に記載のドキュメントのベクトル化表現方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体。

JP2020108873A 2019-12-20 2020-06-24 ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器 Active JP7194150B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911334964.9 2019-12-20
CN201911334964.9A CN111079442B (zh) 2019-12-20 2019-12-20 文档的向量化表示方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
JP2021099774A JP2021099774A (ja) 2021-07-01
JP7194150B2 true JP7194150B2 (ja) 2022-12-21

Family

ID=70316968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020108873A Active JP7194150B2 (ja) 2019-12-20 2020-06-24 ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器

Country Status (3)

Country Link
US (1) US11403468B2 (ja)
JP (1) JP7194150B2 (ja)
CN (1) CN111079442B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753167B (zh) * 2020-06-22 2024-01-12 北京百度网讯科技有限公司 搜索处理方法、装置、计算机设备和介质
CN111950291B (zh) * 2020-06-22 2024-02-23 北京百度网讯科技有限公司 语义表示模型的生成方法、装置、电子设备及存储介质
CN112395385B (zh) * 2020-11-17 2023-07-25 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN112560501B (zh) * 2020-12-25 2022-02-25 北京百度网讯科技有限公司 语义特征的生成方法、模型训练方法、装置、设备及介质
CN112784033B (zh) * 2021-01-29 2023-11-03 北京百度网讯科技有限公司 一种时效等级识别模型训练及应用的方法、及电子设备
CN113011126B (zh) * 2021-03-11 2023-06-30 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113361712B (zh) * 2021-06-30 2023-07-21 北京百度网讯科技有限公司 特征确定模型的训练方法、语义分析方法、装置及电子设备
CN113239705B (zh) * 2021-07-12 2021-10-29 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备和存储介质
CN113609864B (zh) * 2021-08-06 2022-02-11 珠海市鸿瑞信息技术股份有限公司 一种基于工业控制系统的文本语义识别处理系统及方法
CN114792097B (zh) * 2022-05-14 2022-12-06 北京百度网讯科技有限公司 预训练模型提示向量的确定方法、装置及电子设备
CN116189193B (zh) * 2023-04-25 2023-11-10 杭州镭湖科技有限公司 一种基于样本信息的数据存储可视化方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653671A (zh) 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
CN108829818A (zh) 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109243616A (zh) 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
US20190258700A1 (en) 2018-02-22 2019-08-22 Verint Americas Inc. System and method of highlighting influential samples in sequential analysis

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576023B2 (en) * 2014-07-14 2017-02-21 International Business Machines Corporation User interface for summarizing the relevance of a document to a query
US10216724B2 (en) * 2017-04-07 2019-02-26 Conduent Business Services, Llc Performing semantic analyses of user-generated textual and voice content
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN110119505A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备
CN108920929B (zh) * 2018-05-07 2022-03-01 深圳壹账通智能科技有限公司 验证图处理方法、装置、计算机设备和存储介质
CN108733653B (zh) * 2018-05-18 2020-07-10 华中科技大学 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
WO2019232645A1 (en) * 2018-06-07 2019-12-12 Element Ai Inc. Unsupervised classification of documents using a labeled data set of other documents
US20200110882A1 (en) * 2018-10-09 2020-04-09 Ca, Inc. Bipartite graph-based topic categorization system
CN110399606B (zh) * 2018-12-06 2023-04-07 国网信息通信产业集团有限公司 一种无监督电力文档主题生成方法及系统
CN109635116B (zh) * 2018-12-17 2023-03-24 腾讯科技(深圳)有限公司 文本词向量模型的训练方法、电子设备及计算机存储介质
CN109815339B (zh) * 2019-01-02 2022-02-08 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN109933667A (zh) * 2019-03-19 2019-06-25 中国联合网络通信集团有限公司 文本分类模型训练方法、文本分类方法及设备
CN110298035B (zh) * 2019-06-04 2023-12-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110413992A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种语义分析识别方法、系统、介质和设备
CN110532381B (zh) * 2019-07-15 2023-09-26 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653671A (zh) 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
US20190258700A1 (en) 2018-02-22 2019-08-22 Verint Americas Inc. System and method of highlighting influential samples in sequential analysis
CN108829818A (zh) 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109243616A (zh) 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG, Zichao 外5名,Hierarchical Attention Networks for Document Classification,インターネット,The 15th annual Conference of the North American Chapter: Human Language Technologies (HAACL HLT 2016),2016年06月17日,pp.1-10

Also Published As

Publication number Publication date
US20210192141A1 (en) 2021-06-24
US11403468B2 (en) 2022-08-02
JP2021099774A (ja) 2021-07-01
CN111079442A (zh) 2020-04-28
CN111079442B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
JP7122365B2 (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
KR102350543B1 (ko) 시맨틱 표현 모델의 처리 방법, 장치, 전자 기기 및 저장 매체
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
KR102451496B1 (ko) 텍스트 주제 생성 방법, 장치 및 전자기기
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
KR102541053B1 (ko) 언어 모델에 기반한 단어 벡터 획득 방법, 장치, 기기 및 기록매체
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
KR102431568B1 (ko) 엔티티 단어 인식 방법 및 장치
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022014429A (ja) 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体
JP7269972B2 (ja) 事前トレーニングのセマンティックモデルに基づくモデル改良方法及び装置
JP7106802B2 (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
US11321370B2 (en) Method for generating question answering robot and computer device
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
JP7163440B2 (ja) テキストクエリ方法、装置、電子機器、記憶媒体及びコンピュータプログラム製品
JP7139028B2 (ja) 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
JP2021192283A (ja) 情報照会方法、装置及び電子機器
CN114444462B (zh) 模型训练方法及人机交互方法、装置
JP7262519B2 (ja) 質問の答えの決定方法、装置、機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220927

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220927

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221004

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221209

R150 Certificate of patent or registration of utility model

Ref document number: 7194150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150