JP7149993B2 - 感情分析モデルの事前トレーニング方法、装置及び電子機器 - Google Patents

感情分析モデルの事前トレーニング方法、装置及び電子機器 Download PDF

Info

Publication number
JP7149993B2
JP7149993B2 JP2020121922A JP2020121922A JP7149993B2 JP 7149993 B2 JP7149993 B2 JP 7149993B2 JP 2020121922 A JP2020121922 A JP 2020121922A JP 2020121922 A JP2020121922 A JP 2020121922A JP 7149993 B2 JP7149993 B2 JP 7149993B2
Authority
JP
Japan
Prior art keywords
word
emotion
detected
training corpus
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020121922A
Other languages
English (en)
Other versions
JP2021111323A (ja
Inventor
カン ガオ,
ハオ リウ,
ボレイ へ,
シンヤン シャオ,
ハオ ティアン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021111323A publication Critical patent/JP2021111323A/ja
Application granted granted Critical
Publication of JP7149993B2 publication Critical patent/JP7149993B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Description

本出願は、コンピュータ技術の分野に関し、特に、人工知能技術の分野に関し、感情分析モデルの事前トレーニング方法、装置及び電子機器を提供する。
感情分析は、製品、サービス、組織などのエンティティに対する人々の観点、態度、評価などを研究することを指す。通常の感情分析は、感情傾向性分析、評論観点発掘、エンティティレベルの感情分析、情緒分析などのような複数のサブタスクを含む。現在、感情分析モデルによってテキストに対する感情分析を実現することができる。
関連技術では、ディープニューラルネットワークを利用して大規模な監督されていないデータに対して自己教師あり学習を行い、事前トレーニングモデルを生成する。さらに具体的な感情分析タスクにおいて、このようなタスクの感情ラベル付けデータに基づいて、事前トレーニングモデルに対して転移学習を行い、このようなタスクの感情分析モデルを生成する。
しかしながら、事前トレーニングモデルが下流のタスクを使用する時の汎用性をより重視するため、特定の方向タスクをモデル化する能力が欠けているため、事前トレーニングモデルの転移学習によって生成された感情分析モデルでは、テキストに対する感情分析の効果が悪くなる。
本出願により提供される感情分析モデルの事前トレーニング方法、装置及び電子機器は、関連技術では、事前トレーニングモデルが下流のタスクを使用する時の汎用性をより重視するため、特定の方向タスクをモデル化する能力が欠けているため、事前トレーニングモデルの転移学習によって生成された感情分析モデルでは、テキストに対する感情分析の効果が悪くなる、という問題を解决するために使用される。
本出願の一態様の実施例により提供される感情分析モデルの事前トレーニング方法は、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定するステップであって、各検出語ペアには、一つのコメントポイントと一つの感情語が含まれるステップと、予め設定されたマスク処理ルールに従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成するステップと、予め設定されたエンコーダを使用して、前記マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成するステップと、予め設定されたデコーダを使用して、前記特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定するステップと、前記予測感情語と検出感情語との違いと、前記予測語ペアと前記検出語ペアとの違いとに基づいて、前記予め設定されたエンコーダと予め設定されたデコーダとを更新するステップと、を含む。
本出願の別の態様の実施例により提供される感情分析モデルの事前トレーニング装置は、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定する第1の決定モジュールであって、各検出語ペアには、一つのコメントポイントと一つの感情語が含まれる第1の決定モジュールと、予め設定されたマスク処理ルールに従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する第1の生成モジュールと、予め設定されたエンコーダを使用して、前記マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する第2の生成モジュールと、予め設定されたデコーダを使用して、前記特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定する第2の決定モジュールと、前記予測感情語と検出感情語との違いと、前記予測語ペアと前記検出語ペアとの違いとに基づいて、前記予め設定されたエンコーダと予め設定されたデコーダとを更新する更新モジュールと、を含む。
本出願の他の態様の実施例により提供される電子機器は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信可能に接続されたメモリと、を含み、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行された場合に、前記少なくとも一つのプロセッサが、前記感情分析モデルの事前トレーニング方法を実行する。
本出願のもう一つの態様の実施例により提供されるコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体によれば、前記コンピュータ命令が実行された場合に、前記感情分析モデルの事前トレーニング方法が実行される。
本出願のもう一つの態様の実施例により提供されるコンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムによれば、前記コンピュータプログラムにおける命令が実行された場合に、前記感情分析モデルの事前トレーニング方法が実行される。
上記の出願のいずれの実施例は、以下のような利点又は有益な効果を有する。モデルの事前トレーニング中に統計的計算された感情知識を組み込むことによって、事前トレーニングモデルが感情分析方向のデータをより良く表すことができ、感情分析効果を向上させる。与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定する。予め設定されたマスク処理ルールに従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理してマスクされたコーパスを生成する。次に、予め設定されたエンコーダを使用してマスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。さらに、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定する。予測感情語と検出感情語との違いと、予測語ペアと前記検出語ペアとの違いとに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新する。このような技術的手段を採用するため、事前トレーニングモデル特定の方向タスクをモデル化する能力が欠けるため、事前トレーニングモデルの転移学習によって生成された感情分析モデルが、テキストに対して感情分析を行う効果が悪いという問題を克服し、モデルの事前トレーニングプロセスに統計的計算された感情知識を組み込むことにより、事前トレーニングモデルが感情分析方向のデータをより良く表すことができ、感情分析の効果を向上させるという技術効果を奏する。
上記の選択可能な方式が有する他の効果については、以下、具体的な実施例を組み合わせて説明する。
図面は、本発明をより理解するために使用されており、本出願の限定を構成するものではない。
本出願の実施例により提供される感情分析モデルの事前トレーニング方法の概略フローチャートである。 本出願の実施例により提供されるトレーニングコーパスをマスク処理する概略図である。 本出願の実施例により提供される別の感情分析モデルの事前トレーニング方法の概略フローチャートである。 本出願の実施例により提供される感情分析モデルの事前トレーニング装置の概略構成図である。 本出願の実施例により提供される電子機器の概略構成図である。
以下、図面を組み合わせて本出願の例示的な実施例を説明する。理解を容易にするため、本出願の実施例の様々な詳細を含んでいるが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造についての説明を省略する。
本出願の実施例は、関連技術では、事前トレーニングモデルが下流のタスクを使用する時に汎用性をより重視するため、特定の方向タスクをモデル化する能力が欠けているため、事前トレーニングモデルの転移学習によって生成された感情分析モデルでは、テキストに対する感情分析の効果が悪くなるという問題を解決するための、感情分析モデルの事前トレーニング方法を提供する。
以下、図面を参照して本出願により提供される感情分析モデルの事前トレーニング方法、装置、電子機器及び記憶媒体を詳細に説明する。
以下、図1に合わせて、本出願の実施例により提供される感情分析モデルの事前トレーニング方法を詳細に説明する。
図1は、本出願の実施例により提供される感情分析モデルの事前トレーニング方法の概略フローチャートである。
図1に示すように、当該感情分析モデルの事前トレーニング方法は、以下のようなステップを含む。
ステップ101:与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定する。各検出語ペアには、一つのコメントポイントと一つの感情語が含まれる。
与えられたシード感情辞書は、様々な感情語を含む。なお、与えられたシード感情辞書は、一般的な感情を表現する少数のいくつかの感情語を含むことができ、実際の使用中にシード感情辞書を補足することができる。又、与えられたシード辞書は、少数のいくつかの感情語の同義語及び反義語に基づいて、拡張されたものであってもよく、実際の使用中に新たに取得された感情語及び新たに取得された感情語の同義語、反義語に基づいてシード感情辞書を補足することができる。
検出感情語は、トレーニングコーパスに対して感情知識の検出を行うことにより、決定されたトレーニングコーパスに含まれる感情語を指す。検出語ペアは、トレーニングコーパスに対して感情知識の検出を行うことにより、決定されたトレーニングコーパスに含まれる感情語と、当該感情語がトレーニングコーパスに対応するコメントポイントとを含む。
例えば、トレーニングコーパスが「this product came really fast and I appreciated it」である場合、当該トレーニングコーパスに対して感情知識の検出を行い、当該トレーニングコーパスに含まれる検出感情語が「fast、appreciated」であると決定する。当該トレーニングコーパスは、「the product」を評論するため、検出感情語「fast」に対応するコメントポイントが「product」であると決定し、当該トレーニングコーパスに含まれる検出語ペアが「product fast」であると決定する。
本出願の実施例では、トレーニングコーパスにおける各単語セグメンテーションと与えられたシード感情辞書内の各感情語との共起頻度又は類似度に基づいて、トレーニングコーパスに対して感情知識の検出を行い、トレーニングコーパスに含まれる各感情語を決定する。
すなわち、本出願の実施例の可能な実現形態では、上記のステップ101は、i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第1のシード感情語とが、トレーニングコーパスセットにおける共起頻度が第1の閾値より大きい場合、j番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定するステップ、又は、i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第2のシード感情語の類似度が第2の閾値より大きい場合、j番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定するステップと、を含むことができる。iは0より大きく且つN以下の整数であり、jは0より大きく且つK以下の正の整数であり、Nは、トレーニングコーパスセットに含まれるトレーニングコーパスの数であり、Kは、j番目のトレーニングコーパスに含まれる単語セグメンテーションの数である。
第1のシード感情語及び第2のシード感情語は、与えられたシード感情辞書内の任意一つのシード感情語であってもよい。
共起頻度は、二つの単語間の相関性を測定するために使用することができる。具体的には、二つの単語間の共起頻度が高いほど、二つの単語の相関性が高いと決定したり、二つの単語の相関性が低いと決定したりすることができる。
可能な実現方式として、トレーニングコーパスセットにおけるi番目のトレーニングコーパスに対して感情知識の検出を行う場合、まず、i番目のトレーニングコーパスに対して単語セグメンテーション処理を行い、i番目のトレーニングコーパスに含まれるK個の単語セグメンテーションを決定し、K個の単語セグメンテーションと与えられたシード感情辞書内の各シード感情語との共起頻度をそれぞれ計算する。i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと与えられたシード感情辞書内の第1のシード感情語との共起頻度が第1の閾値より大きいと決定された場合、i番目のトレーニングコーパス内のj番目の単語セグメンテーションと第1のシード感情語との相関性が高いと決定し、i番目のトレーニングコーパス内のj番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定する。
選択可能には、セマンティックオリエンテーションポイントワイズ相互情報(Sentiment Orientation Pointwise Mutual Information、SO-PMIと略称する)アルゴリズムを採用して、トレーニングコーパスにおける各単語セグメンテーションと与えられたシード感情辞書内の各シード感情語との共起頻度を決定して、各トレーニングコーパスに含まれる検出感情語を決定することができる。具体的には、i番目のトレーニングコーパス内のj番目の単語セグメンテーションと与えられたシード感情辞書内の第1のシード感情語とのSO-PMI値が第1の閾値より大きいと決定された場合、j番目の単語セグメンテーションと第1のシード感情語との共起頻度が第1の閾値より大きいと決定し、i番目のトレーニングコーパス内のj番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定する。
実際に使用する時に、実際の要求に応じて共起頻度の方法と、第1の閾値の具体的な値を予め設定することができ、本出願の実施例では限定されない。例えば、SO-PMIアルゴリズムを採用してトレーニングコーパスにおける検出感情語を決定する場合、第1の閾値は0であってもよい。
可能な実現方式として、トレーニングコーパスにおける各単語セグメンテーションと与えられたシード感情辞書内の各シード感情語との類似度に基づいて、トレーニングコーパスに含まれる感情語を決定することもできる。具体的には、i番目のトレーニングコーパスに対して感情知識の検出を行う場合、まず、i番目のトレーニングコーパスに対して単語セグメンテーション処理を行い、i番目のトレーニングコーパスに含まれる各単語セグメンテーションを決定し、次に、i番目のトレーニングコーパスにおける各単語セグメンテーションに対応する単語ベクトルと、与えられたシード感情辞書内の各シード感情語に対応する単語ベクトルとを決定し、さらに、i番目のトレーニングコーパスにおける各単語セグメンテーションに対応する単語ベクトルと各シード感情語に対応する単語ベクトルとの類似度を決定することができる。i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションに対応する単語ベクトルと与えられたシード感情辞書内の第2のシード感情語に対応する単語ベクトルとの類似度が第2の閾値より大きいと決定された場合、j番目の単語セグメンテーションと第2のシード感情語との類似度が第2の閾値より大きいと決定し、すなわちi番目の単語セグメンテーションと第2のシード感情語との類似度が高いため、i番目のトレーニングコーパス内のj番目の単語セグメンテーションを、i番目のトレーニングコーパスにおける検出感情語として決定することができる。
実際に使用する時に、実際の要求に応じて予め設定してトレーニングコーパス内の単語セグメンテーションと与えられたシード感情辞書内のシード感情語との類似度方式、及び第2の閾値の具体的な値を決定することができ、本出願の実施例では限定されない。例えば、単語セグメンテーションと感情語との類似度は、コサイン類似度であってもよく、第2の閾値は0.8であってもよい。
与えられたシード感情辞書を使用する際に、決定されたトレーニングコーパス内の感情語に基づいて与えられたシード感情辞書を補足することができる。すなわち、本出願の実施例の可能な実現形態では、上記のj番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定した後、第jの単語セグメンテーションを与えられたシード感情辞書に追加するステップをさらに含むことができる。
本出願の実施例では、与えられたシード感情辞書を使用して、トレーニングコーパスセット内の各トレーニングコーパスに含まれる検出感情語を決定する時に、決定された各トレーニングコーパスに含まれる検出感情語を与えられたシード感情辞書に追加して、与えられたシード感情辞書を更新することができる。したがって、トレーニングコーパスに含まれる一つの検出感情語が決定されるたびに、決定された当該検出感情語を与えられたシード感情辞書に追加するので、モデルのトレーニング中に、与えられたシード感情辞書に含まれる感情語がますます豊富になり、後続のトレーニングコーパスに含まれる感情語を決定する信頼性が高くなる。したがって、j番目の単語セグメンテーションをi番目のトレーニングコーパスの検出感情語として決定した後に、j番目の単語セグメンテーションを与えられたシード感情辞書に追加することができる。
さらに、トレーニングコーパスに含まれる検出感情語が決定された後に、決定された各検出感情語に基づいて、各検出感情語にマッチングするコメントポイントを決定して、トレーニングコーパスに含まれる検出語ペアを決定することができる。すなわち、本出願の実施例の可能な実現形態では、上記のj番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定した後、i番目のトレーニングコーパス内のj番目の単語セグメンテーションとi番目のトレーニングコーパスにおける各単語セグメンテーションの位置関係が、予め設定された品詞テンプレート又は構文テンプレートに対する整合度に基づいて、i番目のトレーニングコーパスに含まれる検出語ペアを決定するステップをさらに含むことができる。
予め設定された品詞テンプレートは、検出語ペアに含まれるコメントポイント、感情語の品詞を制約することができ、コメントポイント及び感情語に隣接する単語セグメンテーションの品詞などを制約することができる。例えば、予め設定された品詞テンプレートには、コメントポイントの品詞を名詞とし、感情語の品詞を形容詞又は動詞とするなどを規定することができる。
予め設定された構文テンプレートは、検出語ペアに含まれるコメントポイントと感情語との距離、文法関係などを制約することができる。例えば、予め設定された構文テンプレートは、コメントポイントに対応する単語セグメンテーションが感情語の前に位置する3番目の単語セグメンテーションなどを規定することができる。
実際に使用する時に、実際の要求又は経験に応じて予め設定された品詞テンプレート又は構文テンプレートを決定することができ、本出願の実施例では限定されない。
本出願の実施例では、i番目のトレーニングコーパス内のj番目の単語セグメンテーションがi番目のトレーニングコーパスの検出感情語であると決定した後に、i番目のトレーニングコーパスにおける各単語セグメンテーションとi番目のトレーニングコーパス内のj番目の単語セグメンテーションとの位置関係に基づいて、各単語セグメンテーションとj番目の単語セグメンテーションとの位置関係が、予め設定された品詞テンプレート又は構文テンプレートにマッチングするか否かを決定する。
具体的には、第3の閾値を予め設定し、第1の単語セグメンテーションとj番目の単語セグメンテーションとの位置関係が、予め設定された品詞テンプレート又は構文テンプレートに対する整合度が第3の閾値より大きいと決定された場合、第1の単語セグメンテーションとj番目の単語セグメンテーションとの位置関係が、予め設定された品詞テンプレート又は構文テンプレートにマッチングすると決定し、第1の単語セグメンテーションがj番目の単語セグメンテーションに対応するコメントポイントであると決定することができる。すなわち、第1の単語セグメンテーションとj番目の単語セグメンテーションからなる単語ペアを、i番目のトレーニングコーパスに含まれる一つの検出語ペアとして決定することができる。
例えば、予め設定された品詞テンプレートは、「コメントポイントの品詞は名詞であり、感情語の品詞は形容詞である」であり、予め設定された構文テンプレートは「コメントポイントは、感情語の前の3番目の単語セグメンテーションである」であり、トレーニングコーパスは、「this product came really fast and I appreciated it」であり、決定された検出感情語が「fast、appreciated」であるため、単語セグメンテーション「product」の品詞が予め設定された品詞テンプレートとマッチングし、検出感情語「fast」との位置関係が予め設定された構文テンプレートとマッチングすることによって、「product fast」が、当該トレーニングコーパス内の一つの検出語ペアであると決定する。当該トレーニングコーパスには、検出感情語「appreciated」との位置関係が予め設定された品詞テンプレート及び構文テンプレートとマッチングする単語セグメンテーションが存在しないため、検出感情語「appreciated」に対応するコメントポイントがないと決定し、当該トレーニングコーパスに含まれる検出語ペアが「product fast」であると決定することができる。
ステップ102:予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する。
本出願の実施例では、トレーニング中に、トレーニングコーパス内の感情知識により注目し、トレーニングされた感情分析モデルが感情知識に対する表現能力を向上させるために、予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理して、マスクされたコーパスを生成することができる。これにより、マスクされたコーパスをトレーニングモデルに入力する時に、モデルがマスクされた検出感情語と検出語ペアに対する表現を強化し、感情分析の効果をさらに向上させることができる。
例えば、トレーニングコーパスが「this product came really fast and I appreciated it」であり、決定された検出感情語が「fast、appreciated」であり、決定された検出語ペアが「product fast」である。図2に示すように、当該トレーニングコーパスをマスク処理する概略図である。その中、「MASK」は、マスク処理を行う単語セグメンテーションである。
さらに、トレーニングコーパスでマスクする単語が多すぎると、モデルがマスクされたコーパスの全体的な意味を正確に理解できなくなりやすい。一部の検出感情語と検出語ペアのみをマスク処理することができる。すなわち、本出願の実施例の可能な実現形態では、上記のステップ102は、予め設定された比率に従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理するステップを含むことができる。
可能な実現方式として、トレーニングコーパスには、複数の検出感情語又は複数の検出語ペアが含まれる可能性があるため、トレーニングコーパスに検出感情語と検出語ペアの数が多すぎることになり、すべての検出感情語と検出語ペアをマスク処理すると、モデルがマスクされたコーパスの全体的な意味を正確に理解できなくなり、最終的なモデルのトレーニング効果に影響を与える。したがって、本出願の実施例では、マスク処理を行う単語セグメンテーションの数、及びトレーニングコーパスにおける検出感情語と検出語ペアに含まれる単語セグメンテーション総数との比率を予め設定することができる。さらに、予め設定された比率に基づいて、トレーニングコーパスにおける検出感情語と検出語ペア内の一部の単語セグメンテーションをマスク処理するので、感情知識に対する注目を高めながら、マスクされたコーパスの全体的な意味に対する理解に影響しない。
モデルのトレーニング中に、各トレーニングコーパスに対して複数回トレーニングすることで、一つのトレーニングコーパスを使用するたびに、当該トレーニングコーパス内の異なる検出感情語及び異なる検出語ペアをマスク処理することができ、モデルが各トレーニングコーパス内の感情知識を学習することができる。
ステップ103:予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。
本出願の実施例では、トレーニングコーパスをマスク処理した後、すなわち、予め設定されたエンコーダを使用してマスクされたコーパスを符号化処理して、各トレーニングコーパスに対応する特徴ベクトルを生成する。
可能な実現方式として、予め設定されたエンコーダは、深い双方向ニューラルネットワークであり、テキストに対して強い表現能力を有することができる。したがって、深い双方向ニューラルネットワークを使用してマスクされたコーパスを符号化処理して生成された特徴ベクトルは、トレーニングコーパスに含まれる感情知識をより良く表すだけでなく、トレーニングコーパスの全体的な意味をより良く表すことができる。
ステップ104:予め設定されたデコーダを使用して、特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定する。
予め設定されたエンコーダと予め設定されたデコーダは、本出願の実施例の感情分析モデルを構成する。すなわち予め設定されたデコーダと予め設定されたデコーダは、それぞれ本出願の実施例の感情分析モデルの一部である。
予測感情語とは、本出願の実施例の感情分析モデルを使用して決定されたトレーニングコーパスに含まれる感情語と指す。予測語ペアとは、本出願の実施例の感情分析モデルを使用して決定されたトレーニングコーパスに含まれる単語ペアを指す。
本出願の実施例では、各トレーニングコーパスに対応する特徴ベクトルを決定した後、予め設定されたエンコーダに対応する予め設定されたデコーダを使用して、各トレーニングコーパスに対応する特徴ベクトルを復号化処理して、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定する。
ステップ105:予測感情語と検出感情語との違いと、予測語ペアと検出語ペアとの違いとに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新する。
本出願の実施例では、トレーニングコーパスにおける検出感情語と検出語ペアは、トレーニングコーパスに実際に存在する感情知識を表すことができる。したがって、各トレーニングコーパスにおける予測感情語と検出感情語との違い、及び予測語ペアと検出語ペアとの違いは、予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度を反映する。各トレーニングコーパスにおける予測感情語と検出感情語との違い、及び予測語ペアと検出語ペアとの違いに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新する。
可能な実現方式として、感情語の予測に対応する第1のターゲット関数と、単語ペア予測に対応する第2のターゲット関数とをそれぞれ設計することにより、第1のターゲット関数の値によりトレーニングコーパスセット内の予測感情語と検出感情語との違いを測定し、第2のターゲット関数の値によりトレーニングコーパスセット内の予測語ペアと検出語ペアとの違いを測定することができる。
具体的には、第1のターゲット関数の値が小さいほど、トレーニングコーパスセット内の予測感情語と検出感情語との違いが小さく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が高いと決定する。逆に、第1のターゲット関数の値が大きいほど、トレーニングコーパスセット内の予測感情語と検出感情語との違いが大きく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が低いと決定する。第2のターゲット関数の値が小さいほど、トレーニングコーパスセット内の予測語ペアと検出語ペアとの違いが小さく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が高いと決定し、逆に、第2のターゲット関数の値が大きいほど、トレーニングコーパスセット内の予測語ペアと検出語ペアとの違いが大きく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が低いと決定する。したがって、第1のターゲット関数に対応する第4の閾値と、第2のターゲット関数に対応する第5の閾値とを予め設定することができ、第1のターゲット関数の値が第4の閾値より大きいか、又は第2のターゲット関数の値が第5の閾値より大きい場合、予め設定されたエンコーダと予め設定されたデコーダの性能が感情分析の性能要求を満たしていないと決定するため、予め設定されたエンコーダ及び予め設定されたデコーダのパラメータを更新することができる。その後、トレーニングコーパスセットを再利用して更新後の予め設定されたデコーダ及び予め設定されたエンコーダでトレーニングする。第1のターゲット関数の値が第4の閾値以下であり、且つ第2のターゲット関数の値が第5の閾値以下となるまでトレーニングすると、感情分析モデルに対する事前トレーニングプロセスが完了する。第1のターゲット関数の値が第4の閾値以下であり、且つ第2のターゲット関数の値が第5の閾値以下である場合、予め設定されたエンコーダと予め設定されたデコーダの性能が感情分析の性能要求を満たしていると決定し、予め設定されたエンコーダと予め設定されたデコーダのパラメータを更新しないで、感情分析モデルに対する事前トレーニングプロセスを終了する。
本出願の実施例の発明によれば、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定し、予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する。次に、予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。さらに、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定して、予測感情語と検出感情語との違い、及び予測語ペアと前記検出語ペアとの違いに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新する。このように、モデルの事前トレーニング中に統計的計算された感情知識を組み込むことによって、事前トレーニングモデルが感情分析方向のデータをより良く表すことができ、感情分析の効果を向上させる。
本出願の可能な実現形態では、統計したトレーニングコーパスの感情知識には、感情分析の事前トレーニングモデルの感情分析効果をさらに向上させるために、感情語の極性情報をさらに含むことができる。
以下、図3を参照して、本出願の実施例により提供される感情分析モデルの事前トレーニング方法をさらに説明する。
図3は、本出願の実施例により提供される別の感情分析モデルの事前トレーニング方法の概略フローチャートである。
図3に示すように、当該感情分析モデルの事前トレーニング方法は、以下のようなステップを含む。
ステップ201:与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定する。各検出語ペアには、一つのコメントポイントと一つの感情語が含まれる。
上記のステップ201の具体的な実現プロセス及び原理は、上記の実施例の詳細な説明を参照することができ、ここでは説明を省略する。
ステップ202:各検出感情語と与えられたシード感情辞書内の第3のシード感情語がトレーニングコーパスセットにおける共起頻度、及び第3のシード感情語の感情極性に基づいて、各検出感情語の検出感情極性を決定する。
本出願の実施例では、トレーニングコーパスに含まれる検出感情語を決定した後、各検出感情語の検出感情極性を決定して、トレーニングコーパスセットを統計することにより、取得された感情知識をより豊富にし、感情分析の事前トレーニングモデルの感情知識に対する表現能力をさらに向上させることができる。
可能な実現方式として、与えられたシード感情辞書には、各シード感情語の感情極性をさらに含むことができる。これにより、トレーニングコーパスに含まれる検出感情語を決定した後、与えられたシード感情辞書に基づいて、検出感情語の検出感情極性を決定することができる。
選択可能には、トレーニングコーパスにおける検出感情語は、トレーニングコーパス内の各単語セグメンテーションとそれぞれ与えられたシード感情辞書内の各シード感情辞との共起頻度に基づいて決定することができる。上記の実施例、すなわち、トレーニングコーパス内の単語セグメンテーションと第1のシード感情語とが、トレーニングコーパスセットにおける共起頻度が第1の閾値より大きい場合、当該単語セグメンテーションをトレーニングコーパスにおける検出感情語として決定することができる。したがって、本出願の実施例の可能な実現形態では、検出感情語の共起頻度が第1の閾値より大きい第1のシード感情語の感情極性を、当該検出感情語の検出感情極性として直接決定することができる。
選択可能には、トレーニングコーパスに含まれる検出感情語を決定した後、検出感情語との共起頻度が第6の閾値より大きい第3のシード感情語を決定し、次に、第3のシード感情語の感情極性を当該検出感情語の検出感情極性として決定することもできる。
実際に使用する時に、第6の閾値は、第1の閾値と同じでもよく、第1の閾値と異なっていてもよく、実際の要求と具体的なアプリケーションシーンに応じて第6の閾値の値を決定することができ、本出願の実施例では限定されない。
ステップ203:予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する。
ステップ204:予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。
上記のステップ203~204の具体的な実現プロセス及び原理は、上記の実施例の詳細な説明を参照することができ、ここでは説明を省略する。
ステップ205:予め設定されたデコーダを使用して、特徴ベクトルを復号化処理して、各トレーニングコーパスに含まれる予測感情語と、予測語ペアと、各予測感情語の予測感情極性とを決定する。
本出願の実施例では、予め設定されたデコーダを使用して各トレーニングコーパスに対応する特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定する時に、各予測感情語の予測感情極性を同時に決定することもできる。
ステップ206:予測感情語と検出感情語との違いと、予測語ペアと検出語ペアとの違いと、各予測感情語の予測感情極性と検出感情極性との違いとに基づいて、予め設定されたエンコーダ及び予め設定されたデコーダを更新する。
本出願の実施例では、トレーニングコーパスにおける検出感情語、検出語ペア、及び各検出感情語の検出感情極性は、トレーニングコーパスに実際に存在する感情知識を表すことができる。各トレーニングコーパスにおける予測感情語と検出感情語との違い、予測語ペアと検出語ペアとの違い、及び各予測感情語の予測感情極性と検出感情語の検出感情極性との違いは、予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度を反映することができる。これにより、各トレーニングコーパスにおける予測感情語と検出感情語との違いと、予測語ペアと検出語ペアとの違いと、各予測感情語の予測感情極性と検出感情極性との違いとに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新することができる。
可能な実現方式として、感情語の予測に対応する第1のターゲット関数と、単語ペア予測に対応する第2のターゲット関数と、感情極性予測に対応する第3のターゲット関数とをそれぞれ設計することができる。第1のターゲット関数の値によってトレーニングコーパスセット内の予測感情語と検出感情語との違いを測定することができ、第2のターゲット関数の値によってトレーニングコーパスセット内の予測語ペアと検出語ペアとの違いを測定することができ、第3のターゲット関数の値によってトレーニングコーパスセットにおける各予測感情語の予測感情極性と検出感情語の検出感情極性との違いを測定することができる。
具体的には、第1のターゲット関数の値が小さいほど、トレーニングコーパスセット内の予測感情語と検出感情語との違いが小さく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が高いと決定することができる。逆に、第1のターゲット関数の値が大きいほど、トレーニングコーパスセット内の予測感情語と検出感情語との違いが大きく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が低いと決定することができる。第2のターゲット関数の値が小さいほど、トレーニングコーパスセット内の予測語ペアと検出語ペアとの違いが小さく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が高いと決定することができ、逆に、第2のターゲット関数の値が大きいほど、トレーニングコーパスセット内の予測語ペアと検出語ペアとの違いが大きく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が低いと決定することができる。第3のターゲット関数の値が小さいほど、トレーニングコーパスセット内の予測感情語の予測感情極性と検出感情語の検出感情極性の違いが小さく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が高いと決定することができ、逆に、第3のターゲット関数の値が大きいほど、トレーニングコーパスセット内の予測感情語の予測感情極性と検出感情語の検出感情極性の違いが大きく、すなわち予め設定されたエンコーダと予め設定されたデコーダがテキストに対して感情分析を行う精度が低いと決定することができる。
したがって、第1のターゲット関数に対応する第4の閾値と、第2のターゲット関数に対応する第5の閾値と、第3のターゲット関数に対応する第7の閾値とを予め設定することができる。第1のターゲット関数、第2のターゲット関数、及び第3のターゲット関数内の任意一つの値が対応する閾値より大きい場合、予め設定されたエンコーダと予め設定されたデコーダの性能が感情分析の性能要求を満たしていないと決定することで、予め設定されたエンコーダ及び予め設定されたデコーダのパラメータを更新することができる。その後、トレーニングコーパスセットを再利用して更新後の予め設定されたデコーダ及び予め設定されたエンコーダとトレーニングする。第1のターゲット関数の値が第4の閾値以下であり、第2のターゲット関数の値が第5の閾値以下であり、且つ第3のターゲット関数の値が第7の閾値以下となるまでトレーニングすると、感情分析モデルに対する事前トレーニングプロセスを完了する。第1のターゲット関数の値が第4の閾値以下であり、第2のターゲット関数の値が第5の閾値以下であり、且つ第3のターゲット関数の値が第7の閾値以下である場合、予め設定されたエンコーダと予め設定されたデコーダの性能が感情分析の性能要求を満たしていると決定し、予め設定されたエンコーダと予め設定されたデコーダのパラメータを更新せず、感情分析モデルに対する事前トレーニングプロセスを終了することができる。
本出願の実施例の発明によれば、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と、検出語ペアと、各検出感情語の検出感情極性とを決定し、予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する。次に、予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。次に、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理して、各トレーニングコーパスに含まれる予測感情語と、予測語ペアと、各予測感情語の予測感情極性とを決定し、予測感情語と検出感情語との違いと、予測語ペアと前記検出語ペアとの違いと、各予測感情語の予測感情極性と検出感情極性との違いとに基づいて、予め設定されたエンコーダ及び予め設定されたデコーダを更新する。これにより、モデルの事前トレーニングプロセスに統計的計算された感情語及び其感情極性、コメントポイントの感情語ペアなどの感情知識を組み込み、感情語の予測、感情極性予測、及び単語ペア予測にそれぞれに対応するターゲット関数を設計し、モデルの更新を指導することで、事前トレーニングモデルが感情分析方向のデータをより良く表すのみならず、感情分析の効果をさらに向上させることができる。複数のターゲット関数によって、事前トレーニングモデルを最適化することにより、事前トレーニングモデルの複雑なテキスト知識に対する学習能力を向上させることができる。
上記の実施例を実現するために、本出願は、感情分析モデルの事前トレーニング装置をさらに提供する。
図4は、本出願の実施例により提供される感情分析モデルの事前トレーニング装置の概略構成図である。
図4に示すように、当該感情分析モデルの事前トレーニング装置30は、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定する第1の決定モジュール31であって、各検出語ペアには、一つのコメントポイントと一つの感情語が含まれる第1の決定モジュール31と、予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する第1の生成モジュール32と、予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する第2の生成モジュール33と、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定する第2の決定モジュール34と、予測感情語と検出感情語との違いと、予測語ペアと検出語ペアとの違いとに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新する更新モジュール35と、を含む。
実際に使用する時に、本出願の実施例により提供される感情分析モデルの事前トレーニング装置は、上記の感情分析モデルの事前トレーニング方法を実行するため、任意の電子機器で構成してもよい。
本出願の実施例の発明によれば、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定し、予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する。次に、予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。さらに、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定し、予測感情語と検出感情語との違いと、予測語ペアと前記検出語ペアとの違いとに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新する。これにより、モデルの事前トレーニング中に統計的計算された感情知識を組み込むことで、事前トレーニングモデルが感情分析方向のデータをより良く表すことができる、感情分析の効果を向上させることができる。
本出願の可能な実現形態では、上記の第1の決定モジュール31は、i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第1のシード感情語とが、トレーニングコーパスセットにおける共起頻度が第1の閾値より大きい場合、j番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定する第1の決定ユニット、又は、i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第2のシード感情語の類似度が第2の閾値より大きい場合、j番目の単語セグメンテーションをi番目のトレーニングコーパスにおける検出感情語として決定する第2の決定ユニット、を含み、iは0より大きく且つN以下の整数であり、jは0より大きく且つK以下の正の整数であり、Nは、トレーニングコーパスセットに含まれるトレーニングコーパスの数であり、Kは、j番目のトレーニングコーパスに含まれる単語セグメンテーションの数である。
さらに、本出願の別の可能な実現形態では、上記の第1の決定モジュール31は、第jの単語セグメンテーションを与えられたシード感情辞書に追加する追加ユニットを含む。
さらに、本出願の他の可能な実現形態では、上記の第1の決定モジュール31は、i番目のトレーニングコーパス内のj番目の単語セグメンテーションとi番目のトレーニングコーパスにおける各単語セグメンテーションの位置関係が、予め設定された品詞テンプレート又は構文テンプレートに対する整合度に基づいて、i番目のトレーニングコーパスに含まれる検出語ペアを決定する第3の決定ユニットを含む。
さらに、本出願のもう一つの可能な実現形態では、上記の感情分析モデルの事前トレーニング装置30は、各検出感情語と与えられたシード感情辞書内の第3のシード感情語とが、トレーニングコーパスセットにおける共起頻度、及び第3のシード感情語の感情極性に基づいて、各検出感情語の検出感情極性を決定する第3の決定モジュールをさらに含み、上記の第2の決定モジュール34は、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理して、各トレーニングコーパスに含まれる予測感情語と、予測語ペアと、各予測感情語の予測感情極性と、を決定する第4の決定ユニットを含み、上記の更新モジュール35は、予測感情語と検出感情語との違いと、予測語ペアと検出語ペアとの違いと、各予測感情語の予測感情極性と検出感情極性との違いとに基づいて、予め設定されたエンコーダ及び予め設定されたデコーダを更新する更新ユニットを含む。
さらに、本出願のもう一つの可能な実現形態では、上記の第1の生成モジュール32は、予め設定された比率に従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理するマスク処理ユニットを含む。
なお、上記の図1、図3に示す感情分析モデルの事前トレーニング方法の実施例の説明は、当該実施例の感情分析モデルの事前トレーニング装置30にも適用され、ここでは説明を省略する。
本出願の実施例の発明によれば、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と、検出語ペアと、各検出感情語の検出感情極性とを決定する。予め設定されたマスク処理ルールに従って、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する。次に、予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。次に、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理して、各トレーニングコーパスに含まれる予測感情語と、予測語ペアと、各予測感情語の予測感情極性とを決定し、予測感情語と検出感情語との違いと、予測語ペアと前記検出語ペアとの違いと、各予測感情語の予測感情極性と検出感情極性との違いとに基づいて、予め設定されたエンコーダ及び予め設定されたデコーダを更新する。これにより、モデルの事前トレーニングプロセスに統計的計算された感情語及び其感情極性、コメントポイントの感情語ペアなどの感情知識を組み込み、感情語の予測、感情極性予測、及び単語ペア予測にそれぞれに対応するターゲット関数を設計し、モデルの更新を指導することによって、事前トレーニングモデルが感情分析方向のデータをより良く表すことができるのみならず、感情分析の効果をさらに向上させることができる。複数のターゲット関数により、事前トレーニングモデルを最適化することで、事前トレーニングモデルが複雑なテキスト知識に対する学習能力を向上させることができる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図5には、本出願の実施例に係る感情分析モデルの事前トレーニング方法の電子機器のブロック図が示される。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表す。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図しない。
図5に示すように、当該電子機器は、一つ又は複数のプロセッサ401と、メモリ402と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図5では、一つのプロセッサ401を例とする。
メモリ402は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本出願により提供される感情分析モデルの事前トレーニング方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供される感情分析モデルの事前トレーニング方法を実行するためのコンピュータ命令を記憶する。
メモリ402は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における感情分析モデルの事前トレーニング方法に対応するプログラム命令/モジュール(例えば、図4に示す第1の決定モジュール31、第1の生成モジュール32、第2の生成モジュール33、第2の決定モジュール34、及び更新モジュール35)のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ401は、メモリ402に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における感情分析モデルの事前トレーニング方法を実現する。
メモリ402は、ストレージプログラム領域とストレージデータ領域とを含み、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、感情分析モデルの事前トレーニング方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ402は、高速ランダム存取メモリを含み、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリをさらに含むことができる。いくつかの実施例では、メモリ402は、プロセッサ401に対して遠隔設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して感情分析モデルの事前トレーニング方法の電子機器に接続することができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。
感情分析モデルの事前トレーニング方法の電子機器は、入力装置403と出力装置404とをさらに含むことができる。プロセッサ401、メモリ402、入力装置403、及び出力装置404は、バス又は他の方式を介して接続することができ、図5では、バスを介して接続することを例とする。
入力装置403は、入力された数字又は文字情報を受信することができ、及び感情分析モデルの事前トレーニング方法の電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置404は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本出願の実施例によれば、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムが提供される。当該コンピュータプログラムのおける命令が実行された場合に、上記感情分析モデルの事前トレーニング方法が実行される。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上において、ここで説明されているシステム及び技術を実施することができる。当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供する。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の発明によれば、与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語と検出語ペアとを決定し、予め設定されたマスク処理ルールに従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する。次に、予め設定されたエンコーダを使用して、マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する。さらに、予め設定されたデコーダを使用して、特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定して、予測感情語と検出感情語との違いと、予測語ペアと前記検出語ペアとの違いとに基づいて、予め設定されたエンコーダと予め設定されたデコーダとを更新する。これにより、モデルの事前トレーニング中に統計的計算された感情知識を組み込むことにより、事前トレーニングモデルが感情分析方向のデータをより良く表すことができ、感情分析の効果を向上させることができる。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている発明が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (15)

  1. 与えられたシード感情辞書、及びトレーニングコーパスにおける各単語セグメンテーションと与えられたシード感情辞書内の各感情語との共起頻度又は類似度に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語を決定し、該検出感情語にマッチングするコメントポイントを決定して、各トレーニングコーパスに含まれる検出語ペアを決定するステップであって、検出感情語は、トレーニングコーパスに対して感情知識の検出を行うことによって決定されたトレーニングコーパスに含まれる感情語を指し、各検出語ペアには、一つの検出感情語と一つの当該検出感情語にマッチングするコメントポイントが含まれ、前記検出感情語にマッチングするコメントポイントは、前記検出感情語との位置関係と予め設定された品詞テンプレート又は構文テンプレートとの整合度が、所定の閾値よりも大きいコメントポイントであるステップと、
    予め設定されたマスク処理ルールに従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成するステップと、
    予め設定されたエンコーダを使用して、前記マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成するステップと、
    予め設定されたデコーダを使用して、前記特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定するステップと、
    前記予測感情語と検出感情語との違いと、前記予測語ペアと前記検出語ペアとの違いとに基づいて、少なくとも1つの前記違いが対応する閾値よりも大きい場合、前記予め設定されたエンコーダと予め設定されたデコーダとを更新するステップと、を含むことを特徴とする、感情分析モデルの事前トレーニング方法。
  2. 前記与えられたシード感情辞書に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行うステップは、
    i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第1のシード感情語とが、トレーニングコーパスセットにおける共起頻度が第1の閾値より大きい場合、j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定するステップ、
    又は、
    i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第2のシード感情語の類似度が第2の閾値より大きい場合、j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定するステップ、を含み、
    iは0より大きく且つN以下の整数であり、jは0より大きく且つK以下の正の整数であり、Nは、前記トレーニングコーパスセットに含まれるトレーニングコーパスの数であり、Kは、j番目のトレーニングコーパスに含まれる単語セグメンテーションの数であることを特徴とする、請求項1に記載の感情分析モデルの事前トレーニング方法。
  3. 前記j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定した後、
    前記j番目の単語セグメンテーションを前記与えられたシード感情辞書に追加するステップをさらに含むことを特徴とする、請求項2に記載の感情分析モデルの事前トレーニング方法。
  4. 前記j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定した後、
    前記i番目のトレーニングコーパス内の前記j番目の単語セグメンテーションと前記i番目のトレーニングコーパスにおける各単語セグメンテーションの位置関係が、予め設定された品詞テンプレート又は構文テンプレートに対する整合度に基づいて、整合度が所定の閾値よりも大きい単語セグメンテーションを、前記j番目の単語セグメンテーションにマッチングするコメントポイントとして決定し、前記整合度が所定の閾値よりも大きい単語セグメンテーションと前記j番目の単語セグメンテーションからなる単語ペアを、前記i番目のトレーニングコーパスに含まれる検出語ペアとして決定するステップをさらに含むことを特徴とする、請求項2に記載の感情分析モデルの事前トレーニング方法。
  5. 前記各トレーニングコーパスに含まれる検出感情語を決定した後、
    各検出感情語と与えられたシード感情辞書内の第3のシード感情語とが、トレーニングコーパスセットにおける共起頻度、及び前記第3のシード感情語の感情極性に基づいて、前記検出感情語と前記第3のシード感情語との共起頻度が所定の閾値よりも大きい場合、前記第3のシード感情語の感情極性を前記検出感情語の検出感情極性として決定するステップをさらに含み、
    前記予め設定されたデコーダを使用して、前記特徴ベクトルを復号化処理するステップは、
    予め設定されたデコーダを使用して、前記特徴ベクトルを復号化処理して、各トレーニングコーパスに含まれる予測感情語と、予測語ペアと、各予測感情語の予測感情極性とを決定するステップを含み、
    前記予め設定されたエンコーダと予め設定されたデコーダとを更新するステップは、
    前記予測感情語と検出感情語との違いと、前記予測語ペアと前記検出語ペアとの違いと、各予測感情語の予測感情極性と検出感情極性との違いとに基づいて、少なくとも1つの前記違いが対応する閾値よりも大きい場合、前記予め設定されたエンコーダ及び予め設定されたデコーダを更新するステップを含むことを特徴とする、請求項1から4のいずれかに記載の感情分析モデルの事前トレーニング方法。
  6. 前記予め設定されたマスク処理ルールに従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理するステップは、
    予め設定された比率に従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理するステップを含むことを特徴とする、請求項1から4のいずれかに記載の感情分析モデルの事前トレーニング方法。
  7. 与えられたシード感情辞書、及びトレーニングコーパスにおける各単語セグメンテーションと与えられたシード感情辞書内の各感情語との共起頻度又は類似度に基づいて、トレーニングコーパスセット内の各トレーニングコーパスに対して感情知識の検出を行い、各トレーニングコーパスに含まれる検出感情語を決定し、該検出感情語にマッチングするコメントポイントを決定して、各トレーニングコーパスに含まれる検出語ペアを決定する第1の決定モジュールであって、検出感情語は、トレーニングコーパスに対して感情知識の検出を行うことによって決定されたトレーニングコーパスに含まれる感情語を指し、各検出語ペアには、一つの検出感情語と一つの当該検出感情語にマッチングするコメントポイントが含まれ、前記検出感情語にマッチングするコメントポイントは、前記検出感情語との位置関係と予め設定された品詞テンプレート又は構文テンプレートとの整合度が、所定の閾値よりも大きいコメントポイントである第1の決定モジュールと、
    予め設定されたマスク処理ルールに従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理し、マスクされたコーパスを生成する第1の生成モジュールと、
    予め設定されたエンコーダを使用して、前記マスクされたコーパスを符号化処理し、各トレーニングコーパスに対応する特徴ベクトルを生成する第2の生成モジュールと、
    予め設定されたデコーダを使用して、前記特徴ベクトルを復号化処理し、各トレーニングコーパスに含まれる予測感情語と予測語ペアを決定する第2の決定モジュールと、
    前記予測感情語と検出感情語との違いと、前記予測語ペアと前記検出語ペアとの違いとに基づいて、少なくとも1つの前記違いが対応する閾値よりも大きい場合、前記予め設定されたエンコーダと予め設定されたデコーダとを更新する更新モジュールと、を含むことを特徴とする、感情分析モデルの事前トレーニング装置。
  8. 前記第1の決定モジュールは、
    i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第1のシード感情語とが、トレーニングコーパスセットにおける共起頻度が第1の閾値より大きい場合、j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定する第1の決定ユニット、
    又は、
    i番目のトレーニングコーパスにおけるj番目の単語セグメンテーションと、与えられたシード感情辞書内の第2のシード感情語の類似度が第2の閾値より大きい場合、j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定する第2の決定ユニット、を含み、
    iは0より大きく且つN以下の整数であり、jは0より大きく且つK以下の正の整数であり、Nは、前記トレーニングコーパスセットに含まれるトレーニングコーパスの数であり、Kは、j番目のトレーニングコーパスに含まれる単語セグメンテーションの数であることを特徴とする、請求項7に記載の感情分析モデルの事前トレーニング装置。
  9. 前記第1の決定モジュールは、
    前記j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定した後、前記j番目の単語セグメンテーションを前記与えられたシード感情辞書に追加する追加ユニットをさらに含むことを特徴とする、請求項8に記載の感情分析モデルの事前トレーニング装置。
  10. 前記第1の決定モジュールは、
    前記j番目の単語セグメンテーションを前記i番目のトレーニングコーパスにおける検出感情語として決定した後、前記i番目のトレーニングコーパス内の前記j番目の単語セグメンテーションと前記i番目のトレーニングコーパスにおける各単語セグメンテーション単語セグメンテーションの位置関係が、予め設定された品詞テンプレート又は構文テンプレートに対する整合度に基づいて、整合度が所定の閾値よりも大きい単語セグメンテーションを、前記j番目の単語セグメンテーションにマッチングするコメントポイントとして決定し、前記整合度が所定の閾値よりも大きい単語セグメンテーションと前記j番目の単語セグメンテーションからなる単語ペアを、前記i番目のトレーニングコーパスに含まれる検出語ペアとして決定する第3の決定ユニットをさらに含むことを特徴とする、請求項8に記載の感情分析モデルの事前トレーニング装置。
  11. 前記装置は、
    各検出感情語と与えられたシード感情辞書内の第3のシード感情語とが、トレーニングコーパスセットにおける共起頻度、及び前記第3のシード感情語の感情極性に基づいて、前記検出感情語と前記第3のシード感情語との共起頻度が所定の閾値よりも大きい場合、前記第3のシード感情語の感情極性を前記検出感情語の検出感情極性として決定する第3の決定モジュールをさらに含み、
    前記第2の決定モジュールは、
    予め設定されたデコーダを使用して、前記特徴ベクトルを復号化処理して、各トレーニングコーパスに含まれる予測感情語と、予測語ペアと、各予測感情語の予測感情極性とを決定する第4の決定ユニットを含み、
    前記更新モジュールは、
    前記予測感情語と検出感情語との違いと、前記予測語ペアと前記検出語ペアとの違いと、各予測感情語の予測感情極性と検出感情極性との違いとに基づいて、少なくとも1つの前記違いが対応する閾値よりも大きい場合、前記予め設定されたエンコーダ及び予め設定されたデコーダを更新する更新ユニットを含むことを特徴とする、請求項7から10のいずれかに記載の感情分析モデルの事前トレーニング装置。
  12. 前記第1の生成モジュールは、
    予め設定された比率に従い、各トレーニングコーパスにおける検出感情語と検出語ペアをマスク処理するマスク処理ユニットを含むことを特徴とする、請求項7から10のいずれかに記載の感情分析モデルの事前トレーニング装置。
  13. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信可能に接続されたメモリと、を含み、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行された場合に、前記少なくとも一つのプロセッサが、請求項1から6のいずれかに記載の方法を実行することを特徴とする、請求項に記載の電子機器。
  14. コンピュータ命令が実行された場合に、請求項1から6のいずれかに記載の方法が実行されることを特徴とする、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  15. コンピュータプログラムのおける命令が実行された場合に、請求項1から6のいずれかに記載の方法が実行されることを特徴とする、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラム。
JP2020121922A 2019-12-30 2020-07-16 感情分析モデルの事前トレーニング方法、装置及び電子機器 Active JP7149993B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911399965.1A CN111144507B (zh) 2019-12-30 2019-12-30 情感分析模型预训练方法、装置及电子设备
CN201911399965.1 2019-12-30

Publications (2)

Publication Number Publication Date
JP2021111323A JP2021111323A (ja) 2021-08-02
JP7149993B2 true JP7149993B2 (ja) 2022-10-07

Family

ID=70522175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020121922A Active JP7149993B2 (ja) 2019-12-30 2020-07-16 感情分析モデルの事前トレーニング方法、装置及び電子機器

Country Status (5)

Country Link
US (1) US11537792B2 (ja)
EP (1) EP3846069A1 (ja)
JP (1) JP7149993B2 (ja)
KR (1) KR102472708B1 (ja)
CN (1) CN111144507B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615241B2 (en) * 2020-04-03 2023-03-28 Bewgle Technologies Pvt Ltd. Method and system for determining sentiment of natural language text content
CN111680145B (zh) * 2020-06-10 2023-08-15 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111859908B (zh) * 2020-06-30 2024-01-19 北京百度网讯科技有限公司 情感学习的预训练方法、装置、电子设备和可读存储介质
CN111899759B (zh) * 2020-07-27 2021-09-03 北京嘀嘀无限科技发展有限公司 音频数据的预训练、模型训练方法、装置、设备及介质
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备
CN113420128B (zh) * 2021-08-23 2021-11-19 腾讯科技(深圳)有限公司 文本匹配方法、装置、存储介质及计算机设备
CN115248846B (zh) * 2022-07-26 2023-05-23 贝壳找房(北京)科技有限公司 文本识别方法、设备、介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354183A (zh) 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
WO2018213763A1 (en) 2017-05-19 2018-11-22 Salesforce.Com, Inc. Natural language processing using context-specific word vectors
CN110083702A (zh) 2019-04-15 2019-08-02 中国科学院深圳先进技术研究院 一种基于多任务学习的方面级别文本情感转换方法
CN110377740A (zh) 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 情感极性分析方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101423549B1 (ko) * 2012-10-26 2014-08-01 고려대학교 산학협력단 감상 기반 질의 처리 시스템 및 방법
US9536200B2 (en) * 2013-08-28 2017-01-03 International Business Machines Corporation Sentiment analysis of data logs
CN106649519B (zh) * 2016-10-17 2020-11-27 北京邮电大学 一种产品特征的挖掘与评价方法
CN107133282B (zh) * 2017-04-17 2020-12-22 华南理工大学 一种改进的基于双向传播的评价对象识别方法
CN107273348B (zh) * 2017-05-02 2020-12-18 深圳大学 一种文本的话题和情感联合检测方法及装置
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置
CN109189919B (zh) * 2018-07-27 2020-11-13 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质
CN109800418B (zh) * 2018-12-17 2023-05-05 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN110209824B (zh) * 2019-06-13 2021-06-22 中国科学院自动化研究所 基于组合模型的文本情感分析方法、系统、装置
CN110413780B (zh) * 2019-07-16 2022-02-22 合肥工业大学 文本情感分析方法和电子设备
CN110489553B (zh) * 2019-07-26 2022-07-05 湖南大学 一种基于多源信息融合的情感分类方法
CN110543561A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 对文本进行情感分析的方法及装置
CN111091460A (zh) * 2019-11-22 2020-05-01 深圳前海微众银行股份有限公司 一种数据处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354183A (zh) 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
WO2018213763A1 (en) 2017-05-19 2018-11-22 Salesforce.Com, Inc. Natural language processing using context-specific word vectors
CN110083702A (zh) 2019-04-15 2019-08-02 中国科学院深圳先进技术研究院 一种基于多任务学习的方面级别文本情感转换方法
CN110377740A (zh) 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 情感极性分析方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR102472708B1 (ko) 2022-11-30
CN111144507B (zh) 2021-06-08
KR20210086940A (ko) 2021-07-09
US20210200949A1 (en) 2021-07-01
CN111144507A (zh) 2020-05-12
US11537792B2 (en) 2022-12-27
JP2021111323A (ja) 2021-08-02
EP3846069A1 (en) 2021-07-07

Similar Documents

Publication Publication Date Title
JP7149993B2 (ja) 感情分析モデルの事前トレーニング方法、装置及び電子機器
US20210374359A1 (en) Method, electronic device, and storage medium for training text generation model
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7206515B2 (ja) 言語モデルに基づいて単語ベクトルを取得する方法、装置、デバイス及び記憶媒体
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7159248B2 (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
JP2021184237A (ja) データセット処理方法、装置、電子機器及び記憶媒体
JP7113097B2 (ja) テキストエンティティの語義記述処理方法、装置及び機器
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
CN111079442A (zh) 文档的向量化表示方法、装置和计算机设备
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
CN111506725B (zh) 生成摘要的方法和装置
CN111079945B (zh) 端到端模型的训练方法及装置
CN111144108A (zh) 情感倾向性分析模型的建模方法、装置和电子设备
CN111709234A (zh) 文本处理模型的训练方法、装置及电子设备
CN111950291A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
JP7133002B2 (ja) 句読点予測方法および装置
CN111783443A (zh) 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
US20220171941A1 (en) Multi-lingual model training method, apparatus, electronic device and readable storage medium
US20220005461A1 (en) Method for recognizing a slot, and electronic device
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
CN111611808B (zh) 用于生成自然语言模型的方法和装置
CN111950293A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
CN112507697A (zh) 事件名的生成方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220927

R150 Certificate of patent or registration of utility model

Ref document number: 7149993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150