JP7253848B2

JP7253848B2 - 言語間遷移を支援する細粒度感情解析方法

Info

Publication number: JP7253848B2
Application number: JP2021542358A
Authority: JP
Inventors: 勇軍胡
Original assignee: ▲広▼州大学
Priority date: 2019-12-02
Filing date: 2020-09-15
Publication date: 2023-04-07
Anticipated expiration: 2040-09-15
Also published as: WO2021109671A1; CN111160037A; CN111160037B; JP2022517845A

Description

本発明は、テキストデータマイニングの技術分野に係り、特に言語間遷移を支援する細粒度感情解析方法に関する。

感情解析は、非構造化された多数のレビューテキストから、人々の視点、態度、感情を自動的にマイニングして抽出することができる。従来の感情解析は、文書やセンテンス全体に対して粗粒度の極性解析を行うことが主であった。しかしながら、極性のみを考慮するだけでは、レビューテキストの複数のアスペクトの細粒度の態度を十分に特徴付けることはできない。製品に対する異なる次元の考慮に基づき、製品の各アスペクトの明示的及び暗黙的な特徴を解析することによって、各アスペクトと感情語との間の関係を発見する複数のアスペクト（細粒度の異なる）の感情解析方法が提案されている。

従来の感情解析方法は、大別すると教師あり学習方法と教師なし学習方法とに分けられる。初期の教師あり学習に基づく複数のアスペクトの感情解析（ＭＡＳＡ）は、主に素朴なベイズ、最大エントロピー分類、ベクターマシン支援などの従来のツールを適用する。深層学習は、多くの分野で顕著な成果を収め、ＭＡＳＡでも適用され、これらの方法は、一般的に、予め定義された感情辞書を必要とし、しかも単語の位置表示に依存する。これらの要求は、必然的に、多くの手作業によるラベリング作業をもたらす。また、挑戦性のある電子商取引の場面や、大量のレビューや不規則な文字を扱うことができない場合がある。

教師なし学習では、確率的潜在意味解析（ＰＬＳＡ）、暗黙的ディリー分布（ＬＤＡ）などの統計的トピックモデルは、事前知識を導入し、感情解析において優れた効果を奏する。しかしながら、これらの既存のモデルは、ＭＡＳＡに直接適用することができない。その把握したトピックが感情やアスペクトに直接結びつくことはできないからである。そこで、研究者は、教師なし学習をより柔軟にするために、１つのトピックモデルにアスペクトと感情を統合するアスペクト感情統合モデル（ＡＳＵＭ）を開発した。ＡＳＵＭは、一般的に、著名ブランドなどのグローバルな特徴を示すが、無名製品のレビューからローカルの特徴を発見する可能性は低い。この問題を解決するために、ローカル要因とグローバル要因を導入することにより、連立マルチトピック感情（ＪＭＴＳ）モデルを構築した。ＬＤＡ及びＡＳＵＭに対するＪＭＴＳモデルの重要な利点は、感情分類の性能を改善することである。しかしながら、ＪＭＴＳでは、感情語の希薄性や、セマンティクス分布の非対称性などの問題は、未だ十分に解決されていない。これは、ＪＭＴＳモデルが、予め設定されたハイパーパラメータにも依存するからである。

従来の教師あり及び教師なし学習の感情解析は、主に英語コーパスに焦点を当てている。なお、中国語等の他の言語は、アルファベット、音韻、語彙、文法等の独自の言語構造を持つ。中国語コーパスでは省略や略語がよく用いられる。これに伴い、電子商取引の分野では、新たな中国語の語彙が出現しつつある。このような背景から、英語の感情解析手法は、中国語の感情解析には適用できなくなる可能性がある。従って、分野間及び言語間のＭＡＳＡの遷移学習の挑戦に対処するための、全く新しい多言語感情解析方法が必要とされている。

これに鑑みて、本発明の実施例は、解析結果が正確であり、言語間遷移を支援する細粒度感情解析方法を提供する。

第１の態様として、本発明の実施例は、言語間遷移を支援する細粒度感情解析方法を提供し、電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する工程と、ラベルデータセットをセマンティクス－長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程と、得られたセマンティクス群を、サンプルテキストとともに、アスペクトに基づく感情モデルによって学習し、該テキストのトピック特徴を得る工程と、ラベルデータセットとトピック特徴を微調整ネットワークによって学習し、サンプルテキストの埋め込みベクトルを得る工程と、埋め込みベクトルをトピック特徴と特徴融合し、該テキストの感情分類結果を得る工程とを含む。

更に、前記のラベルデータセットをセマンティクス－長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程は、対応するアスペクト及び感情頻出語を抽出する工程と、２つ以上の特徴クラスに同時に属する単語を削除する工程と、各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程とを含む。

更に、前記セマンティクス距離は、セマンティクス－長短期記憶ネットワークによって学習された単語の埋め込みベクトル間のコサイン距離によって計量される。

更に、アスペクトに基づく感情モデルの構築工程を更に含む。

更に、前記のアスペクトに基づく感情モデルの構築工程は、セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、各単語特徴についてのトピック単語を生成する工程と、文書の感情アスペクトの単語及びトピック分布を決定する工程と、文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含む。

更に、セマンティクス－長短期記憶ネットワークを予め学習する工程を更に含む。

更に、前記のセマンティクス－長短期記憶ネットワークを予め学習する工程は、各単語のエネルギーからセマンティクス－長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、後方活性化関数を構築する工程と、長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス－長短期記憶ネットワークの最適化目標を構築する工程とを含む。

上記の本発明の実施例における技術手段は、以下の利点を有する。本発明は、製品のレビューにおける極性分布の非対称性、アスペクトの希薄性及び感情語の分布の不均一性を考慮し、新規かつ弱教師ありであって分野及び言語を跨いだ複数アスペクトの感情解析モデルを提案し、アスペクトに基づく感情モデルによってセマンティクス群とサンプルテキストを学習し、最終的には、微調整ネットワークによって学習した埋め込みベクトルに基づいて感情分類結果を決定することにより、感情解析の精度を向上させる。

図１は、本発明の実施例の全体的工程のフローチャートである。図２は、本発明の実施例のセマンティクス－長短期記憶ネットワークの事前学習工程のフローチャートである。図３は、本発明の実施例の感情解析のフローチャートである。

以下、明細書の図面及び具体的な実施例に関連して本発明を更に解釈して説明する。本発明の実施例における工程の番号は、説明の便宜のために設けられたものであり、工程間の順序は、何ら限定されず、実施例における各工程の実行順序は、当業者の理解に従って適応的に調整される。

本発明は、言語間遷移を支援する細粒度感情解析方法を開示し、情報技術分野に属する。本発明は、細粒度トピックモデル方法を用いて、分野を跨いだ言語間遷移のニーズを満足することのできる感情解析技術を確立することを目的とし、電子商取引環境におけるユーザのレビューの細粒度マイニング解析に用いられる。電子商取引の爆発的な成長に伴い、オンラインでユーザの商品レビュー情報は、飛躍的に増加している。これらの情報は、商品に対する消費者の態度を暗示するものであり、大きな商業価値を有する。しかし、情報量が膨大であり、用語が極端的に不規則であり、新語が出続けるなどの要因により、業者は、直接人的に有用な情報を解析することが難しい。既存のモデルのうち、ディープニューラルネットワークに代表されるモデルは、人為的なデータラベリングの影響を受け、その適用が大きく制限される一方、ＬＤＡに代表される従来のトピックモデルは、分野をまたいだ言語間遷移能力に大きな限界がある。本発明は、製品のレビューにおける極性分布の非対称性、アスペクトの希薄性、及び感情語の分布の不均一性を考慮し、新規かつ弱教師ありであって分野及び言語を跨いだ複数アスペクトの感情解析モデルを提案し、提案されたｓｅｍａｎｔｉｃ－ＬＳＴＭモデルを事前学習として用いて、細粒度のトピックモデルを牽引して微調整（ｆｉｎｅ－ｔｕｎｉｎｇ）を行い、言語をまたいで分野を跨いだ商品レビュー感情解析能力を実現する。ここで、感情に基づくセマンティクスモデル（ｓＬ－ＡＳＭ）と呼ばれる新しい複数アスペクトのトピックモデル遷移学習法のセマンティクス距離を考案した。このモデルは、２つの部分からなり、セマンティクス－長短期記憶（ｓｅｍａｎｔｉｃＬｏｎｇ－Ｓｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ｓｅｍａｎｔｉｃ－ｌｓｔｍ）によってセマンティクスｃｌｉｑｓの事前学習をし、アスペクトに基づく感情モデルＡＳＭ（Ａｓｐｅｃｔ－ｂａｓｅｄＳｅｎｔｉｍｅｎｔＭｏｄｅｌ）によってアスペクトと感情を組み合わせて捕捉する。この方法によれば、テキスト感情分類効果をより良好に得ることができる。

図１及び図３を参照すると、本発明の実施例に係る言語間遷移を支援する細粒度感情解析方法は、以下の工程を含む。
工程１：電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する。
工程２：ラベルデータセットをセマンティクス－長短期記憶ネットワーク（Ｓｅｍａｎｔｉｃ－ＬＴＳＭ）に投入して学習し、テキストのセマンティクス群（ｃｌｉｑｓ）を得る。
工程３：得られたセマンティクス群を、ローテキストデータとともに、アスペクトに基づく感情モデル（ＡＳＭ）によって学習し、該セマンティクステキストのトピック特徴を得る。
工程４：ローデータと工程3で得られたトピック特徴を微調整ネットワーク（Ｆｉｎｅ－ｔｕｎｉｎｇ）によって学習し、ローデータの埋め込みベクトル（ｅｍｂｅｄｄｉｎｇ）を得る。
工程５：工程４で得られた埋め込みベクトルと工程３で得られたトピック特徴について、該埋め込みベクトルをトピック特徴と特徴融合（ＦｅａｔｕｒｅＦｕｎｓｉｏｎ）することによって、該テキストの感情分類結果を得る。

図２に示すように、本発明の実施例は、セマンティクス－長短期記憶ネットワークを予め学習する方法を更に提供し、各単語のエネルギーからセマンティクス－長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、後方活性化関数を構築する工程と、長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス－長短期記憶ネットワークの最適化目標を構築する工程と、を含む。

具体的に、従来のＬＳＴＭは、異なる分野の多様性のために、分野を跨いだ感情解析には適していないので、本実施例では、教師なしのセマンティクス関係をＬＳＴＭに導入し、埋め込み単語の学習方法、すなわち、セマンティクス－長短期記憶ネットワーク（ｓｅｍａｎｔｉｃ－ＬＳＴＭ）を設計する。事前学習段階において、セマンティクス－長短期記憶（ｓｅｍａｎｔｉｃ－ＬＳＴＭ）を使用してセマンティクス群（ｃｌｉｑｓ）を捕捉し、この機能は、事前学習セマンティクス－長短期記憶ネットワーク（ｐｒｅ－ｔｒａｉｎｉｎｇＳｅｍａｎｔｉｃ－ＬＳＴＭ）と呼ばれる。ＡＳＭの指示の下で、（ｓｅｍａｎｔｉｃ－ｌｓｔｍ）ネットワークは、１つの微調整タスクにおいて微調整される。

上記の方法において、各単語のエネルギーを導入してＬＳＴＭネットワークにおける教師なしのセマンティクス関係を導入し、単語ｗに割り当てられるエネルギーは、次のように示される。
Ｅ（θ，ｗ，φ_ｗ，ｂ_ｗ）＝－θ^Ｔφ_ｗ－ｂ_ｗ（１）
ここで、ｗは、ある単語を示し、φ_ｗは、その単語に対応する単語ベクトルを示し、θは、単語ベクトルの重みを示し、ｂ_ｗは、補償パラメータである。

教師なしセマンティクス類似モデルに基づいて、エネルギー関数を導入し、教師なしセマンティクス層を設計し、エネルギー関数の確率分布を最大化することに基づき、後方活性化関数を設計する。

最適化目標は、後方活性化関数の出力を最小化することになる。それぞれの損失関数Ｃ_Ｓは、以下のように示す。

ＬＳＴＭの交差エントロピーコスト関数及び後方活性化コストを統一することによって、セマンティクスＬＳＴＭの最適化目標Ｃを提案する。
Ｃ＝Ｃ_Ｓ＋Ｃ_ＬＳＴＭ（４）

ｓｅｍａｎｔｉｃ－ｌｓｔｍにより、より良いセマンティクス関係語埋め込みベクトルが得られるだけでなく、分布の良い肯定的及び否定的な感情特徴が得られる。ショートテキスト分類では、各ショートテキストの中心をよく表す中心ｃｌｉｑが存在する。各文書と各クラスに対応するｃｌｉｑ間のセマンティクス距離は、各クラス内の文書の分布ハイパーパラメータを修正するために使用される。

本発明の実施例は、ラベルデータセットをセマンティクス－長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る具体的な実施工程を更に提供し、対応するアスペクト及び感情頻出語を抽出する工程と、２つ以上の特徴クラスに同時に属する単語を削除する工程と、各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程とを含む。

本実施例は、具体的には、
（１）対応するアスペクト及び感情頻出語を抽出する。

ここで、δは、実験で設定された閾値であり、ｐ（ｗ_ｖ）は、ｗ_ｖ単語がｖ番目のアスペクト又は感情特徴に出現する確率を示し、

は、抽出された高頻度単語を示す。
（２）２つ以上の特徴クラスに同時に属する単語Ｗを削除する。下記式（６）は、アスペクト、感情に同時に属する頻出語を示す。

（３）各特徴分類について、自身と他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスｃｌｉｑとする。
式（７）及び式（８）を参照すると、セマンティクス距離は、ｓｅｍａｎｔｉｃ－ｌｓｔｍによって学習された単語の埋め込みベクトル間のコサイン距離によって計量される。

ここで、ｃｌｉｑ_ｖは、セマンティクス群を示し、

は、セマンティクス群ｃｌｉｑ_ｖに対応する単語ベクトルを示す。

本発明の実施例は、アスペクトに基づく感情モデルの構築工程を更に提供し、セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、各単語特徴についてのトピック単語を生成する工程と、文書の感情アスペクト単語及びトピック分布を決定する工程と、文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含む。

具体的に、本実施例では、アスペクトレベルと感情レベルのトピックを抽出することを目的とし、単語と他の単語との異なる感情及びアスペクトを区別するために、本実施例では、特徴選択を導入して、感情語と他の単語の確率を調整する。その非対称ハイパーパラメータのセマンティクス距離は、テキスト及びｃｌｉｑｖによって求められる。

ここで、

は、ｄ番目の文書におけるｎ番目の単語ｗ_ｄ，ｎの単語ベクトルを示し、

は、セマンティクス群ｃｌｉｑ_ｖの単語ベクトルを示す。ａｓｐｅｃｔは、アスペクトを示し、ｓｅｎｔｉｍｅｎｔは、感情の正負の極性を示す。

本実施例において、ＡＳＭの単語生成過程は、以下の通りである。
１、対応するセマンティクス、感情等の単語特徴を選択する。
２、各対応する特徴種別から選択されたトピックから１つの単語を生成する。

本実施例では、ＡＳＭ生成過程の形式化定義は、以下の通りである。
１、各文書ｄにおける感情／アスペクト単語ｖについて、
ａ．その特徴値ｄ、ｖは、式（９）から得られる。
ｂ．トピック分布θ_ｄ，ｖ～Ｄｉｒ（α_ｄ，ｖ）を選択する。
２、文書ｄ中の各単語ｎについて、
ａ．アスペクト／感情極性分布Ｖ_ｄ，ｎ～Ｍｕｌｔｉ（π_ｄ，ｖ）を描く。
ｂ．トピックモデル分布Ｚ_ｄ，ｎ～Ｍｕｌｔｉ（θ_ｄ，ｖ）を描く。
ｃ．確率

から単語ｗ_ｄ，ｎを選択し、ここでФ_ｖ～は、θ_ｖ～Ｄｉｒ（β_ｗ，ｖ）に服従する。

ＡＳＭのハイパーパラメータα_ｄ，ｖ及びβ_ｗ，ｖについて、本実施例は、以下の計算式によって計算される。

ここで、Ｎ_ｄは、文書ｄにおける単語の総数であり、α_０及びβ_０は、初期ハイパーパラメータ値である。

また、本実施例で言及したＡＳＭのパラメータは、次の通りである。
Ｄ：ファイル番号、Ｔ：トピック番号、Ｖ：アスペクト／感情極性番号、Ｗ：すべての文書における該単語の数、Ｎｄ：文書ｄにおける単語数、Ｖ_ｄ，ｎ：文書ｄからのｎ番目の単語がアスペクト／感情に割り当てられる確率、Ｚ_{ｄ，ｎ，ｖ}：文書ｄからの単語ｎの感情極性がトピックＺに指定される確率、

：文書ｄの感情極性ｖがトピックｋに指定される確率、

：辞書の単語ｗに対応する感情極性ｖがトピックｋに指定される確率、α、β：事前ハイパーパラメータ。

また、本発明の実施例は、本発明の方法が有する有益な効果を説明するための結果の比較を提供する。

まず、ＬＳＴＭ感情分類における異なる特徴によって示される性能は、以下の表１に示される。

そして、ロンジン茶データＬＳＴＭとＳｅｍａｎｔｉｃ－ＬＳＴＭのＣｌｉｑｓの比較から、表２に示す比較結果が得られる。

このように、異なるアスペクトの分割に対して、本発明のＳｅｍａｎｔｉｃ－ＬＳＴＭは、より良好な単語分割効果を提供することが分かる。

本明細書の説明において、「１つの実施例」、「一部の実施例」、「例」、「具体例」、又は「一部の例」などの用語を参照した記載は、その実施例又は例に関連して記載される特定の特徴、構造、材料、又は特性が、本発明の少なくとも１つの実施例又は例に含まれることを意味する。本明細書において、上記用語の例示的な表現は、必ずしも同じ実施例又は例を指すものではない。更に、記載された特定の特徴、構造、材料、又は特性は、任意の１つ以上の実施例又は実施例において適切な方法で組み合わされる。

以上、本発明の実施例を例示して説明したが、本発明の原理や趣旨を逸脱しない範囲でこれらの実施例に対して様々な変更、修正、置換、変形を行うことができることは、当業者にとって自明であり、本発明の範囲は、特許請求の範囲及びその均等物によって限定される。

以上、本発明の好ましい実施について具体的な説明したが、本発明は、上述した実施例に制限されることはなく、本発明の精神を逸脱することなく、当業者であれば、種々の均等な変形や置換をすることができる。これらの均等な変形や置換は、全て本願の特許請求の範囲に限定される範囲に含まれる。

（付記）
（付記１）
言語間遷移を支援する細粒度感情解析方法であって、
電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する工程と、
ラベルデータセットをセマンティクス－長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程と、
得られたセマンティクス群を、サンプルテキストとともに、アスペクトに基づく感情モデルによって学習し、該テキストのトピック特徴を得る工程と、
ラベルデータセットとトピック特徴を微調整ネットワークによって学習し、サンプルテキストの埋め込みベクトルを得る工程と、
埋め込みベクトルをトピック特徴と特徴融合し、該テキストの感情分類結果を得る工程とを含むことを特徴とする、
言語間遷移を支援する細粒度感情解析方法。

（付記２）
前記ラベルデータセットをセマンティクス－長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程は、
対応するアスペクト及び感情頻出語を抽出する工程と、
２つ以上の特徴クラスに同時に属する単語を削除する工程と、
各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、
全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程と、を含むことを特徴とする、
付記１に記載の言語間遷移を支援する細粒度感情解析方法。

（付記３）
前記セマンティクス距離は、セマンティクス－長短期記憶ネットワークによって学習された単語の埋め込みベクトル間のコサイン距離によって計量されることを特徴とする、
付記２に記載の言語間遷移を支援する細粒度感情解析方法。

（付記４）
アスペクトに基づく感情モデルの構築工程を更に含むことを特徴とする、
付記１に記載の言語間遷移を支援する細粒度感情解析方法。

（付記５）
前記アスペクトに基づく感情モデルの構築工程は、
セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、
各単語特徴についてのトピック単語を生成する工程と、
文書の感情アスペクト単語及びトピック分布を決定する工程と、
文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含むことを特徴とする、
付記４に記載の言語間遷移を支援する細粒度感情解析方法。

（付記６）
セマンティクス－長短期記憶ネットワークを予め学習する工程を更に含むことを特徴とする、
付記１から５のいずれか一つに記載の言語間遷移を支援する細粒度感情解析方法。

（付記７）
前記セマンティクス－長短期記憶ネットワークを予め学習する工程は、
各単語のエネルギーからセマンティクス－長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、
教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、
後方活性化関数を構築する工程と、
長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス－長短期記憶ネットワークの最適化目標を構築する工程とを含むことを特徴とする、
付記６に記載の言語間遷移を支援する細粒度感情解析方法。

Claims

コンピュータが実行する言語間遷移を支援する細粒度感情解析方法であって、
電子商取引レビューテキストをランダムにサンプリングし、サンプルテキストに人工的にラベリングし、該テキストのトピック感情ラベルデータセットを取得する工程と、
ラベルデータセットをセマンティクス－長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程と、
得られたセマンティクス群を、サンプルテキストとともに、アスペクトに基づく感情モデルによって学習し、該テキストのトピック特徴を得る工程と、
ラベルデータセットとトピック特徴を微調整ネットワークによって学習し、サンプルテキストの埋め込みベクトルを得る工程と、
埋め込みベクトルをトピック特徴と特徴融合し、該テキストの感情分類結果を得る工程とを含むことを特徴とする、
言語間遷移を支援する細粒度感情解析方法。
前記ラベルデータセットをセマンティクス－長短期記憶ネットワークに投入して学習し、テキストのセマンティクス群を得る工程は、
対応するアスペクト及び感情頻出語を抽出する工程と、
２つ以上の特徴クラスに同時に属する単語を削除する工程と、
各特徴分類について、各特徴分類内の他の頻出語との間のセマンティクス距離が最小である単語を中心セマンティクスとする工程と、
全ての特徴分類の単語の中心セマンティクスを決定し、セマンティクス群を得る工程と、を含むことを特徴とする、
請求項１に記載の言語間遷移を支援する細粒度感情解析方法。
前記セマンティクス距離は、セマンティクス－長短期記憶ネットワークによって学習された単語の埋め込みベクトル間のコサイン距離によって計量されることを特徴とする、
請求項２に記載の言語間遷移を支援する細粒度感情解析方法。
アスペクトに基づく感情モデルの構築工程を更に含むことを特徴とする、
請求項１に記載の言語間遷移を支援する細粒度感情解析方法。
前記アスペクトに基づく感情モデルの構築工程は、
セマンティクス単語特徴及び感情単語特徴を含む単語特徴を決定する工程と、
各単語特徴についてのトピック単語を生成する工程と、
文書の感情アスペクト単語及びトピック分布を決定する工程と、
文書の単語を特定すると、感情アスペクトの極性分布及びトピックモデル分布を生成する工程とを含むことを特徴とする、
請求項４に記載の言語間遷移を支援する細粒度感情解析方法。
セマンティクス－長短期記憶ネットワークを予め学習する工程を更に含むことを特徴とする、
請求項１から５のいずれか一項に記載の言語間遷移を支援する細粒度感情解析方法。
前記セマンティクス－長短期記憶ネットワークを予め学習する工程は、
各単語のエネルギーからセマンティクス－長短期記憶ネットワークにおける教師なしセマンティクス関係を決定する工程と、
教師なしセマンティクス類似モデルに基づいて、エネルギー関数によって教師なしセマンティクス層を構築する工程と、
後方活性化関数を構築する工程と、
長短期記憶ネットワークの交差エントロピーコスト関数と後方活性化コストとによって、セマンティクス－長短期記憶ネットワークの最適化目標を構築する工程とを含むことを特徴とする、
請求項６に記載の言語間遷移を支援する細粒度感情解析方法。