JP7253848B2 - 言語間遷移を支援する細粒度感情解析方法 - Google Patents

言語間遷移を支援する細粒度感情解析方法 Download PDF

Info

Publication number
JP7253848B2
JP7253848B2 JP2021542358A JP2021542358A JP7253848B2 JP 7253848 B2 JP7253848 B2 JP 7253848B2 JP 2021542358 A JP2021542358 A JP 2021542358A JP 2021542358 A JP2021542358 A JP 2021542358A JP 7253848 B2 JP7253848 B2 JP 7253848B2
Authority
JP
Japan
Prior art keywords
semantics
semantic
word
fine
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021542358A
Other languages
English (en)
Other versions
JP2022517845A (ja
Inventor
勇軍 胡
Original Assignee
▲広▼州大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ▲広▼州大学 filed Critical ▲広▼州大学
Publication of JP2022517845A publication Critical patent/JP2022517845A/ja
Application granted granted Critical
Publication of JP7253848B2 publication Critical patent/JP7253848B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、テキストデータマイニングの技術分野に係り、特に言語間遷移を支援する細粒度感情解析方法に関する。
感情解析は、非構造化された多数のレビューテキストから、人々の視点、態度、感情を自動的にマイニングして抽出することができる。従来の感情解析は、文書やセンテンス全体に対して粗粒度の極性解析を行うことが主であった。しかしながら、極性のみを考慮するだけでは、レビューテキストの複数のアスペクトの細粒度の態度を十分に特徴付けることはできない。製品に対する異なる次元の考慮に基づき、製品の各アスペクトの明示的及び暗黙的な特徴を解析することによって、各アスペクトと感情語との間の関係を発見する複数のアスペクト(細粒度の異なる)の感情解析方法が提案されている。
従来の感情解析方法は、大別すると教師あり学習方法と教師なし学習方法とに分けられる。初期の教師あり学習に基づく複数のアスペクトの感情解析(MASA)は、主に素朴なベイズ、最大エントロピー分類、ベクターマシン支援などの従来のツールを適用する。深層学習は、多くの分野で顕著な成果を収め、MASAでも適用され、これらの方法は、一般的に、予め定義された感情辞書を必要とし、しかも単語の位置表示に依存する。これらの要求は、必然的に、多くの手作業によるラベリング作業をもたらす。また、挑戦性のある電子商取引の場面や、大量のレビューや不規則な文字を扱うことができない場合がある。
教師なし学習では、確率的潜在意味解析(PLSA)、暗黙的ディリー分布(LDA)などの統計的トピックモデルは、事前知識を導入し、感情解析において優れた効果を奏する。しかしながら、これらの既存のモデルは、MASAに直接適用することができない。その把握したトピックが感情やアスペクトに直接結びつくことはできないからである。そこで、研究者は、教師なし学習をより柔軟にするために、1つのトピックモデルにアスペクトと感情を統合するアスペクト感情統合モデル(ASUM)を開発した。ASUMは、一般的に、著名ブランドなどのグローバルな特徴を示すが、無名製品のレビューからローカルの特徴を発見する可能性は低い。この問題を解決するために、ローカル要因とグローバル要因を導入することにより、連立マルチトピック感情(JMTS)モデルを構築した。LDA及びASUMに対するJMTSモデルの重要な利点は、感情分類の性能を改善することである。しかしながら、JMTSでは、感情語の希薄性や、セマンティクス分布の非対称性などの問題は、未だ十分に解決されていない。これは、JMTSモデルが、予め設定されたハイパーパラメータにも依存するからである。
従来の教師あり及び教師なし学習の感情解析は、主に英語コーパスに焦点を当てている。なお、中国語等の他の言語は、アルファベット、音韻、語彙、文法等の独自の言語構造を持つ。中国語コーパスでは省略や略語がよく用いられる。これに伴い、電子商取引の分野では、新たな中国語の語彙が出現しつつある。このような背景から、英語の感情解析手法は、中国語の感情解析には適用できなくなる可能性がある。従って、分野間及び言語間のMASAの遷移学習の挑戦に対処するための、全く新しい多言語感情解析方法が必要とされている。
これに鑑みて、本発明の実施例は、解析結果が正確であり、言語間遷移を支援する細粒度感情解析方法を提供する。
第1の態様として、本発明の実施例は、言語間遷移を支援する細粒度感情解析方法を提供し、電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する工程と、ラベルデータセットをセマンティクス-長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程と、得られたセマンティクス群を、サンプルテキストとともに、アスペクトに基づく感情モデルによって学習し、該テキストのトピック特徴を得る工程と、ラベルデータセットとトピック特徴を微調整ネットワークによって学習し、サンプルテキストの埋め込みベクトルを得る工程と、埋め込みベクトルをトピック特徴と特徴融合し、該テキストの感情分類結果を得る工程とを含む。
更に、前記のラベルデータセットをセマンティクス-長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程は、対応するアスペクト及び感情頻出語を抽出する工程と、2つ以上の特徴クラスに同時に属する単語を削除する工程と、各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程とを含む。
更に、前記セマンティクス距離は、セマンティクス-長短期記憶ネットワークによって学習された単語の埋め込みベクトル間のコサイン距離によって計量される。
更に、アスペクトに基づく感情モデルの構築工程を更に含む。
更に、前記のアスペクトに基づく感情モデルの構築工程は、セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、各単語特徴についてのトピック単語を生成する工程と、文書の感情アスペクトの単語及びトピック分布を決定する工程と、文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含む。
更に、セマンティクス-長短期記憶ネットワークを予め学習する工程を更に含む。
更に、前記のセマンティクス-長短期記憶ネットワークを予め学習する工程は、各単語のエネルギーからセマンティクス-長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、後方活性化関数を構築する工程と、長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス-長短期記憶ネットワークの最適化目標を構築する工程とを含む。
上記の本発明の実施例における技術手段は、以下の利点を有する。本発明は、製品のレビューにおける極性分布の非対称性、アスペクトの希薄性及び感情語の分布の不均一性を考慮し、新規かつ弱教師ありであって分野及び言語を跨いだ複数アスペクトの感情解析モデルを提案し、アスペクトに基づく感情モデルによってセマンティクス群とサンプルテキストを学習し、最終的には、微調整ネットワークによって学習した埋め込みベクトルに基づいて感情分類結果を決定することにより、感情解析の精度を向上させる。
図1は、本発明の実施例の全体的工程のフローチャートである。 図2は、本発明の実施例のセマンティクス-長短期記憶ネットワークの事前学習工程のフローチャートである。 図3は、本発明の実施例の感情解析のフローチャートである。
以下、明細書の図面及び具体的な実施例に関連して本発明を更に解釈して説明する。本発明の実施例における工程の番号は、説明の便宜のために設けられたものであり、工程間の順序は、何ら限定されず、実施例における各工程の実行順序は、当業者の理解に従って適応的に調整される。
本発明は、言語間遷移を支援する細粒度感情解析方法を開示し、情報技術分野に属する。本発明は、細粒度トピックモデル方法を用いて、分野を跨いだ言語間遷移のニーズを満足することのできる感情解析技術を確立することを目的とし、電子商取引環境におけるユーザのレビューの細粒度マイニング解析に用いられる。電子商取引の爆発的な成長に伴い、オンラインでユーザの商品レビュー情報は、飛躍的に増加している。これらの情報は、商品に対する消費者の態度を暗示するものであり、大きな商業価値を有する。しかし、情報量が膨大であり、用語が極端的に不規則であり、新語が出続けるなどの要因により、業者は、直接人的に有用な情報を解析することが難しい。既存のモデルのうち、ディープニューラルネットワークに代表されるモデルは、人為的なデータラベリングの影響を受け、その適用が大きく制限される一方、LDAに代表される従来のトピックモデルは、分野をまたいだ言語間遷移能力に大きな限界がある。本発明は、製品のレビューにおける極性分布の非対称性、アスペクトの希薄性、及び感情語の分布の不均一性を考慮し、新規かつ弱教師ありであって分野及び言語を跨いだ複数アスペクトの感情解析モデルを提案し、提案されたsemantic-LSTMモデルを事前学習として用いて、細粒度のトピックモデルを牽引して微調整(fine-tuning)を行い、言語をまたいで分野を跨いだ商品レビュー感情解析能力を実現する。ここで、感情に基づくセマンティクスモデル(sL-ASM)と呼ばれる新しい複数アスペクトのトピックモデル遷移学習法のセマンティクス距離を考案した。このモデルは、2つの部分からなり、セマンティクス-長短期記憶(semantic Long-Short-Term Memory、semantic-lstm)によってセマンティクスcliqsの事前学習をし、アスペクトに基づく感情モデルASM(Aspect-based Sentiment Model)によってアスペクトと感情を組み合わせて捕捉する。この方法によれば、テキスト感情分類効果をより良好に得ることができる。
図1及び図3を参照すると、本発明の実施例に係る言語間遷移を支援する細粒度感情解析方法は、以下の工程を含む。
工程1:電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する。
工程2:ラベルデータセットをセマンティクス-長短期記憶ネットワーク(Semantic-LTSM)に投入して学習し、テキストのセマンティクス群(cliqs)を得る。
工程3:得られたセマンティクス群を、ローテキストデータとともに、アスペクトに基づく感情モデル(ASM)によって学習し、該セマンティクステキストのトピック特徴を得る。
工程4:ローデータと工程3で得られたトピック特徴を微調整ネットワーク(Fine-tuning)によって学習し、ローデータの埋め込みベクトル(embedding)を得る。
工程5:工程4で得られた埋め込みベクトルと工程3で得られたトピック特徴について、該埋め込みベクトルをトピック特徴と特徴融合(Feature Funsion)することによって、該テキストの感情分類結果を得る。
図2に示すように、本発明の実施例は、セマンティクス-長短期記憶ネットワークを予め学習する方法を更に提供し、各単語のエネルギーからセマンティクス-長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、後方活性化関数を構築する工程と、長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス-長短期記憶ネットワークの最適化目標を構築する工程と、を含む。
具体的に、従来のLSTMは、異なる分野の多様性のために、分野を跨いだ感情解析には適していないので、本実施例では、教師なしのセマンティクス関係をLSTMに導入し、埋め込み単語の学習方法、すなわち、セマンティクス-長短期記憶ネットワーク(semantic-LSTM)を設計する。事前学習段階において、セマンティクス-長短期記憶(semantic-LSTM)を使用してセマンティクス群(cliqs)を捕捉し、この機能は、事前学習セマンティクス-長短期記憶ネットワーク(pre-training Semantic-LSTM)と呼ばれる。ASMの指示の下で、(semantic-lstm)ネットワークは、1つの微調整タスクにおいて微調整される。
上記の方法において、各単語のエネルギーを導入してLSTMネットワークにおける教師なしのセマンティクス関係を導入し、単語wに割り当てられるエネルギーは、次のように示される。
E(θ,w,φ,b)=-θφ-b (1)
ここで、wは、ある単語を示し、φは、その単語に対応する単語ベクトルを示し、θは、単語ベクトルの重みを示し、bは、補償パラメータである。
教師なしセマンティクス類似モデルに基づいて、エネルギー関数を導入し、教師なしセマンティクス層を設計し、エネルギー関数の確率分布を最大化することに基づき、後方活性化関数を設計する。
Figure 0007253848000001
最適化目標は、後方活性化関数の出力を最小化することになる。それぞれの損失関数Cは、以下のように示す。
Figure 0007253848000002
LSTMの交差エントロピーコスト関数及び後方活性化コストを統一することによって、セマンティクスLSTMの最適化目標Cを提案する。
C=C+CLSTM(4)
semantic-lstmにより、より良いセマンティクス関係語埋め込みベクトルが得られるだけでなく、分布の良い肯定的及び否定的な感情特徴が得られる。ショートテキスト分類では、各ショートテキストの中心をよく表す中心cliqが存在する。各文書と各クラスに対応するcliq間のセマンティクス距離は、各クラス内の文書の分布ハイパーパラメータを修正するために使用される。
本発明の実施例は、ラベルデータセットをセマンティクス-長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る具体的な実施工程を更に提供し、対応するアスペクト及び感情頻出語を抽出する工程と、2つ以上の特徴クラスに同時に属する単語を削除する工程と、各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程とを含む。
本実施例は、具体的には、
(1)対応するアスペクト及び感情頻出語を抽出する。
Figure 0007253848000003

ここで、δは、実験で設定された閾値であり、p(w)は、w単語がv番目のアスペクト又は感情特徴に出現する確率を示し、
Figure 0007253848000004

は、抽出された高頻度単語を示す。
(2)2つ以上の特徴クラスに同時に属する単語Wを削除する。下記式(6)は、アスペクト、感情に同時に属する頻出語を示す。
Figure 0007253848000005

(3)各特徴分類について、自身と他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスcliqとする。
式(7)及び式(8)を参照すると、セマンティクス距離は、semantic-lstmによって学習された単語の埋め込みベクトル間のコサイン距離によって計量される。
Figure 0007253848000006

Figure 0007253848000007

ここで、cliqは、セマンティクス群を示し、
Figure 0007253848000008

は、セマンティクス群cliqに対応する単語ベクトルを示す。
本発明の実施例は、アスペクトに基づく感情モデルの構築工程を更に提供し、セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、各単語特徴についてのトピック単語を生成する工程と、文書の感情アスペクト単語及びトピック分布を決定する工程と、文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含む。
具体的に、本実施例では、アスペクトレベルと感情レベルのトピックを抽出することを目的とし、単語と他の単語との異なる感情及びアスペクトを区別するために、本実施例では、特徴選択を導入して、感情語と他の単語の確率を調整する。その非対称ハイパーパラメータのセマンティクス距離は、テキスト及びcliqvによって求められる。
Figure 0007253848000009

ここで、
Figure 0007253848000010

は、d番目の文書におけるn番目の単語wd,nの単語ベクトルを示し、
Figure 0007253848000011

は、セマンティクス群cliqの単語ベクトルを示す。aspectは、アスペクトを示し、sentimentは、感情の正負の極性を示す。
本実施例において、ASMの単語生成過程は、以下の通りである。
1、対応するセマンティクス、感情等の単語特徴を選択する。
2、各対応する特徴種別から選択されたトピックから1つの単語を生成する。
本実施例では、ASM生成過程の形式化定義は、以下の通りである。
1、各文書dにおける感情/アスペクト単語vについて、
a.その特徴値d、vは、式(9)から得られる。
b.トピック分布θd,v~Dir(αd,v)を選択する。
2、文書d中の各単語nについて、
a.アスペクト/感情極性分布Vd,n~Multi(πd,v)を描く。
b.トピックモデル分布Zd,n~Multi(θd,v)を描く。
c.確率
Figure 0007253848000012

から単語wd,nを選択し、ここでФ~は、θ~Dir(βw,v)に服従する。
ASMのハイパーパラメータαd,v及びβw,vについて、本実施例は、以下の計算式によって計算される。
Figure 0007253848000013

Figure 0007253848000014

ここで、Nは、文書dにおける単語の総数であり、α及びβは、初期ハイパーパラメータ値である。
また、本実施例で言及したASMのパラメータは、次の通りである。
D:ファイル番号、T:トピック番号、V:アスペクト/感情極性番号、W:すべての文書における該単語の数、Nd:文書dにおける単語数、Vd,n:文書dからのn番目の単語がアスペクト/感情に割り当てられる確率、Zd,n,v:文書dからの単語nの感情極性がトピックZに指定される確率、
Figure 0007253848000015

:文書dの感情極性vがトピックkに指定される確率、
Figure 0007253848000016

:辞書の単語wに対応する感情極性vがトピックkに指定される確率、α、β:事前ハイパーパラメータ。
また、本発明の実施例は、本発明の方法が有する有益な効果を説明するための結果の比較を提供する。
まず、LSTM感情分類における異なる特徴によって示される性能は、以下の表1に示される。
Figure 0007253848000017
そして、ロンジン茶データLSTMとSemantic-LSTMのCliqsの比較から、表2に示す比較結果が得られる。
Figure 0007253848000018
このように、異なるアスペクトの分割に対して、本発明のSemantic-LSTMは、より良好な単語分割効果を提供することが分かる。
本明細書の説明において、「1つの実施例」、「一部の実施例」、「例」、「具体例」、又は「一部の例」などの用語を参照した記載は、その実施例又は例に関連して記載される特定の特徴、構造、材料、又は特性が、本発明の少なくとも1つの実施例又は例に含まれることを意味する。本明細書において、上記用語の例示的な表現は、必ずしも同じ実施例又は例を指すものではない。更に、記載された特定の特徴、構造、材料、又は特性は、任意の1つ以上の実施例又は実施例において適切な方法で組み合わされる。
以上、本発明の実施例を例示して説明したが、本発明の原理や趣旨を逸脱しない範囲でこれらの実施例に対して様々な変更、修正、置換、変形を行うことができることは、当業者にとって自明であり、本発明の範囲は、特許請求の範囲及びその均等物によって限定される。
以上、本発明の好ましい実施について具体的な説明したが、本発明は、上述した実施例に制限されることはなく、本発明の精神を逸脱することなく、当業者であれば、種々の均等な変形や置換をすることができる。これらの均等な変形や置換は、全て本願の特許請求の範囲に限定される範囲に含まれる。
(付記)
(付記1)
言語間遷移を支援する細粒度感情解析方法であって、
電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する工程と、
ラベルデータセットをセマンティクス-長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程と、
得られたセマンティクス群を、サンプルテキストとともに、アスペクトに基づく感情モデルによって学習し、該テキストのトピック特徴を得る工程と、
ラベルデータセットとトピック特徴を微調整ネットワークによって学習し、サンプルテキストの埋め込みベクトルを得る工程と、
埋め込みベクトルをトピック特徴と特徴融合し、該テキストの感情分類結果を得る工程とを含むことを特徴とする、
言語間遷移を支援する細粒度感情解析方法。
(付記2)
前記ラベルデータセットをセマンティクス-長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程は、
対応するアスペクト及び感情頻出語を抽出する工程と、
2つ以上の特徴クラスに同時に属する単語を削除する工程と、
各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、
全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程と、を含むことを特徴とする、
付記1に記載の言語間遷移を支援する細粒度感情解析方法。
(付記3)
前記セマンティクス距離は、セマンティクス-長短期記憶ネットワークによって学習された単語の埋め込みベクトル間のコサイン距離によって計量されることを特徴とする、
付記2に記載の言語間遷移を支援する細粒度感情解析方法。
(付記4)
アスペクトに基づく感情モデルの構築工程を更に含むことを特徴とする、
付記1に記載の言語間遷移を支援する細粒度感情解析方法。
(付記5)
前記アスペクトに基づく感情モデルの構築工程は、
セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、
各単語特徴についてのトピック単語を生成する工程と、
文書の感情アスペクト単語及びトピック分布を決定する工程と、
文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含むことを特徴とする、
付記4に記載の言語間遷移を支援する細粒度感情解析方法。
(付記6)
セマンティクス-長短期記憶ネットワークを予め学習する工程を更に含むことを特徴とする、
付記1から5のいずれか一つに記載の言語間遷移を支援する細粒度感情解析方法。
(付記7)
前記セマンティクス-長短期記憶ネットワークを予め学習する工程は、
各単語のエネルギーからセマンティクス-長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、
教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、
後方活性化関数を構築する工程と、
長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス-長短期記憶ネットワークの最適化目標を構築する工程とを含むことを特徴とする、
付記6に記載の言語間遷移を支援する細粒度感情解析方法。

Claims (7)

  1. コンピュータが実行する言語間遷移を支援する細粒度感情解析方法であって、
    電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する工程と、
    ラベルデータセットをセマンティクス-長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程と、
    得られたセマンティクス群を、サンプルテキストとともに、アスペクトに基づく感情モデルによって学習し、該テキストのトピック特徴を得る工程と、
    ラベルデータセットとトピック特徴を微調整ネットワークによって学習し、サンプルテキストの埋め込みベクトルを得る工程と、
    埋め込みベクトルをトピック特徴と特徴融合し、該テキストの感情分類結果を得る工程とを含むことを特徴とする、
    言語間遷移を支援する細粒度感情解析方法。
  2. 前記ラベルデータセットをセマンティクス-長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程は、
    対応するアスペクト及び感情頻出語を抽出する工程と、
    2つ以上の特徴クラスに同時に属する単語を削除する工程と、
    各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、
    全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程と、を含むことを特徴とする、
    請求項1に記載の言語間遷移を支援する細粒度感情解析方法。
  3. 前記セマンティクス距離は、セマンティクス-長短期記憶ネットワークによって学習された単語の埋め込みベクトル間のコサイン距離によって計量されることを特徴とする、
    請求項2に記載の言語間遷移を支援する細粒度感情解析方法。
  4. アスペクトに基づく感情モデルの構築工程を更に含むことを特徴とする、
    請求項1に記載の言語間遷移を支援する細粒度感情解析方法。
  5. 前記アスペクトに基づく感情モデルの構築工程は、
    セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、
    各単語特徴についてのトピック単語を生成する工程と、
    文書の感情アスペクト単語及びトピック分布を決定する工程と、
    文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含むことを特徴とする、
    請求項4に記載の言語間遷移を支援する細粒度感情解析方法。
  6. セマンティクス-長短期記憶ネットワークを予め学習する工程を更に含むことを特徴とする、
    請求項1から5のいずれか一項に記載の言語間遷移を支援する細粒度感情解析方法。
  7. 前記セマンティクス-長短期記憶ネットワークを予め学習する工程は、
    各単語のエネルギーからセマンティクス-長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、
    教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、
    後方活性化関数を構築する工程と、
    長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス-長短期記憶ネットワークの最適化目標を構築する工程とを含むことを特徴とする、
    請求項6に記載の言語間遷移を支援する細粒度感情解析方法。
JP2021542358A 2019-12-02 2020-09-15 言語間遷移を支援する細粒度感情解析方法 Active JP7253848B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911214600.7 2019-12-02
CN201911214600.7A CN111160037B (zh) 2019-12-02 2019-12-02 一种支持跨语言迁移的细粒度情感分析方法
PCT/CN2020/115300 WO2021109671A1 (zh) 2019-12-02 2020-09-15 一种支持跨语言迁移的细粒度情感分析方法

Publications (2)

Publication Number Publication Date
JP2022517845A JP2022517845A (ja) 2022-03-10
JP7253848B2 true JP7253848B2 (ja) 2023-04-07

Family

ID=70556324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021542358A Active JP7253848B2 (ja) 2019-12-02 2020-09-15 言語間遷移を支援する細粒度感情解析方法

Country Status (3)

Country Link
JP (1) JP7253848B2 (ja)
CN (1) CN111160037B (ja)
WO (1) WO2021109671A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160037B (zh) * 2019-12-02 2021-10-26 广州大学 一种支持跨语言迁移的细粒度情感分析方法
US11694042B2 (en) * 2020-06-16 2023-07-04 Baidu Usa Llc Cross-lingual unsupervised classification with multi-view transfer learning
CN112199503B (zh) * 2020-10-28 2023-04-28 南京信息工程大学 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113553445B (zh) * 2021-07-28 2022-03-29 北京理工大学 一种生成视频描述的方法
CN113641788B (zh) * 2021-08-06 2024-02-23 人民网股份有限公司 一种基于无监督的长短影评细粒度观点挖掘方法
CN113869058B (zh) * 2021-08-31 2024-07-12 合肥工业大学 基于lc-gcn方面级情感分析方法、系统、存储介质和电子设备
CN113792142B (zh) * 2021-09-07 2024-02-27 中国船舶重工集团公司第七0九研究所 基于多语义因素与特征聚合的目标用户隐性关系分类方法
CN113901208B (zh) * 2021-09-15 2022-07-29 昆明理工大学 融入主题特征的中越跨语言评论情感倾向性分析方法
CN114020901A (zh) * 2021-09-27 2022-02-08 南京云创大数据科技股份有限公司 一种结合主题挖掘和情感分析的金融舆情分析方法
CN114238627B (zh) * 2021-11-22 2024-04-12 西北工业大学 一种基于albert和lda的跨域情感分类方法
CN114201605B (zh) * 2021-11-23 2024-07-19 上海大学 一种基于联合属性建模的图像情感分析方法
CN114970557B (zh) * 2022-04-21 2024-07-12 东方财富信息股份有限公司 基于知识增强的跨语言结构化情感分析方法
CN115099241B (zh) * 2022-06-30 2024-04-12 郑州信大先进技术研究院 一种基于模型融合的海量旅游网络文本语义分析方法
CN115374281B (zh) * 2022-08-30 2024-04-05 重庆理工大学 基于多粒度融合和图卷积网络的会话情感分析方法
CN115577707B (zh) * 2022-12-08 2023-04-07 中国传媒大学 一种多语言新闻主题词的分词方法
CN117688185B (zh) * 2024-02-04 2024-04-12 华东交通大学 一种用户信息增强的长文本细粒度情感分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134787A (ja) 2016-01-29 2017-08-03 Kddi株式会社 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US20180032508A1 (en) 2016-07-28 2018-02-01 Abbyy Infopoisk Llc Aspect-based sentiment analysis using machine learning methods
WO2019218508A1 (zh) 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110516245A (zh) 2019-08-27 2019-11-29 蓝盾信息安全技术股份有限公司 细粒度情感分析方法、装置、计算机设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949211B2 (en) * 2011-01-31 2015-02-03 Hewlett-Packard Development Company, L.P. Objective-function based sentiment
US10304036B2 (en) * 2012-05-07 2019-05-28 Nasdaq, Inc. Social media profiling for one or more authors using one or more social media platforms
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106202200B (zh) * 2016-06-28 2019-09-27 昆明理工大学 一种基于固定主题的文本情感倾向性分类方法
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN106776581B (zh) * 2017-02-21 2020-01-24 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107066446B (zh) * 2017-04-13 2020-04-10 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107357899B (zh) * 2017-07-14 2020-05-22 吉林大学 基于和积网络深度自动编码器的短文本情感分析方法
CN108038205B (zh) * 2017-12-15 2021-12-21 福州大学 针对中文微博的观点分析原型系统
CN108345587B (zh) * 2018-02-14 2020-04-24 广州大学 一种评论的真实性检测方法与系统
CN108536870B (zh) * 2018-04-26 2022-06-07 南京大学 一种融合情感特征和语义特征的文本情感分类方法
CN109086357B (zh) * 2018-07-18 2021-06-22 深圳大学 基于变分自动编码器的情感分类方法、装置、设备及介质
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109492229B (zh) * 2018-11-23 2020-10-27 中国科学技术大学 一种跨领域情感分类方法和相关装置
CN109543039B (zh) * 2018-11-23 2022-04-08 中山大学 一种基于深度网络的自然语言情感分析方法
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN109977413B (zh) * 2019-03-29 2023-06-06 南京邮电大学 一种基于改进cnn-lda的情感分析方法
CN110046580A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于情绪识别的人机交互方法及系统
CN110083833B (zh) * 2019-04-18 2022-12-06 东华大学 中文字词向量和方面词向量联合嵌入情感分析方法
CN110046353B (zh) * 2019-04-22 2022-05-13 重庆理工大学 一种基于多语言层次机制的方面级情感分析方法
CN110263154A (zh) * 2019-05-17 2019-09-20 广州艾媒数聚信息咨询股份有限公司 一种网络舆情情感态势量化方法、系统及存储介质
CN110516067B (zh) * 2019-08-23 2022-02-11 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN110502757B (zh) * 2019-08-29 2023-01-10 西安邮电大学 一种自然语言情感分析方法
CN110517121A (zh) * 2019-09-23 2019-11-29 重庆邮电大学 基于评论文本情感分析的商品推荐方法及商品推荐装置
CN111160037B (zh) * 2019-12-02 2021-10-26 广州大学 一种支持跨语言迁移的细粒度情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134787A (ja) 2016-01-29 2017-08-03 Kddi株式会社 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US20180032508A1 (en) 2016-07-28 2018-02-01 Abbyy Infopoisk Llc Aspect-based sentiment analysis using machine learning methods
WO2019218508A1 (zh) 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110516245A (zh) 2019-08-27 2019-11-29 蓝盾信息安全技术股份有限公司 细粒度情感分析方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2021109671A1 (zh) 2021-06-10
CN111160037A (zh) 2020-05-15
CN111160037B (zh) 2021-10-26
JP2022517845A (ja) 2022-03-10

Similar Documents

Publication Publication Date Title
JP7253848B2 (ja) 言語間遷移を支援する細粒度感情解析方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
Yu et al. An attention mechanism and multi-granularity-based Bi-LSTM model for Chinese Q&A system
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及系统
CN104217226A (zh) 基于深度神经网络与条件随机场的对话行为识别方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN111814453B (zh) 基于BiLSTM-TextCNN的细粒度情感分析方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
Kandhro et al. Sentiment analysis of students’ comment using long-short term model
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN107967337B (zh) 一种基于情感极性增强语义的跨领域情感分析方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Yuan [Retracted] A Classroom Emotion Recognition Model Based on a Convolutional Neural Network Speech Emotion Algorithm
Hsiao et al. [Retracted] Construction of an Artificial Intelligence Writing Model for English Based on Fusion Neural Network Model
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN110609895B (zh) 一种主动选择示例以进行高效文本分类的样本自动生成方法
Sarma et al. Word level language identification in Assamese-Bengali-Hindi-English code-mixed social media text
CN110705266B (zh) 一种情感分析的方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230320

R150 Certificate of patent or registration of utility model

Ref document number: 7253848

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150