JP2024035205A

JP2024035205A - 意見分析システム、意見分析方法、及びプログラム

Info

Publication number: JP2024035205A
Application number: JP2023140135A
Authority: JP
Inventors: 祐輝中山; Yuki Nakayama; 浩司村上; Koji Murakami
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2022-08-30
Filing date: 2023-08-30
Publication date: 2024-03-13
Also published as: US20240070398A1

Abstract

【課題】意見分析の精度を高める。【解決手段】意見分析システム（１）のコメント取得部（１０１）は、サービスを利用するユーザにより入力された、サービスに関する第１コメントを取得する。クラスタリング実行部（１０４）は、第１コメントに関するクラスタリングを実行する。意見ワード取得部（１０５）は、クラスタリングの実行結果に基づいて、サービスに対する意見に関する意見ワードを取得する。意見分析部（１０６）は、意見ワードに基づいて、第１コメントに含まれる第１センテンスにおける意見を分析する。【選択図】図３

Description

本開示は、意見分析システム、意見分析方法、及びプログラムに関する。

従来、サービスを利用するユーザにより入力された、サービスに関するコメントに基づいて、ユーザの意見を分析する技術が検討されている。例えば、特許文献１には、複数の地域におけるトピックに対する評価を分析するために、地域ごとに、当該地域で使用される言語の投稿文書の全体からキーワードを抽出し、当該抽出されたキーワードに基づいて、投稿文書の全体から感情を分析することが記載されている。

特開２０１７－１３４７８７号公報

しかしながら、特許文献１の技術では、投稿文書の全体から感情を分析する技術なので、感情の分析に向かない表現が投稿文書の全体の中に含まれていると、この表現のために、感情分析の精度が低下する可能性がある。例えば、ある投稿文書の中に、感情の分析に向くセンテンスと、感情の分析に向かないセンテンスと、が含まれていたとすると、投稿文書の全体を分析対象にすると、感情の分析に向かないセンテンスがノイズになってしまい、精度が低下する可能性がある。

本開示の目的の１つは、意見分析の精度を高めることである。

本開示に係る意見分析システムは、サービスを利用するユーザにより入力された、前記サービスに関する第１コメントを取得するコメント取得部と、前記第１コメントに関するクラスタリングを実行するクラスタリング実行部と、前記クラスタリングの実行結果に基づいて、前記サービスに対する意見に関する意見ワードを取得意見ワード取得部と、前記意見ワードに基づいて、前記第１コメントに含まれる第１センテンスにおける前記意見を分析する意見分析部と、を含む。

意見分析システムの全体構成の一例を示す図である。意見分析システムの大まかな流れの一例を示す図である。意見分析システムで実現される機能の一例を示す図である。コメントデータベースの一例を示す図である。クラスタデータベースの一例を示す図である。辞書データベースの一例を示す図である。クラスタの一例を示す図である。意見分析システムで実行される処理の一例を示すフロー図である。変形例における機能の一例を示す図である。クラスタにラベルを付与する処理の一例を示す図である。 opinion wordが取得され、かつ、aspect termが取得されなかった第１センテンスのaspect termを補填する方法の一例を示す図である。

［１．意見分析システムの全体構成］
本開示に係る意見分析システムの実施形態の一例を説明する。図１は、意見分析システムの全体構成の一例を示す図である。例えば、意見分析システム１は、サーバ１０及びユーザ端末２０を含む。サーバ１０及びユーザ端末２０の各々は、インターネット又はＬＡＮ等のネットワークＮに接続可能である。ここで、「意見」とは、後述するトピックワードの内容に対するユーザの評判、評価、又は感情の何れかを含む。

サーバ１０は、サーバコンピュータである。制御部１１は、少なくとも１つのプロセッサを含む。記憶部１２は、ＲＡＭ等の揮発性メモリと、フラッシュメモリ等の不揮発性メモリと、を含む。通信部１３は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。

ユーザ端末２０は、ユーザのコンピュータである。例えば、ユーザ端末２０は、パーソナルコンピュータ、タブレット端末、スマートフォン、又はウェアラブル端末である。制御部２１、記憶部２２、及び通信部２３の物理的構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様である。操作部２４は、タッチパネル又はマウス等の入力デバイスである。表示部２５は、液晶ディスプレイ又は有機ＥＬディスプレイである。

なお、記憶部１２，２２に記憶されるプログラムは、ネットワークＮを介して供給されてもよい。また、各コンピュータには、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、メモリカードスロット）と、外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）と、の少なくとも一方が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラムが、読取部及び入出力部の少なくとも一方を介して供給されてもよい。

また、意見分析システム１は、少なくとも１つのコンピュータを含めばよく、図１の例に限られない。例えば、意見分析システム１は、ユーザ端末２０を含まずに、サーバ１０だけを含んでもよい。この場合、ユーザ端末２０は、意見分析システム１の外部に存在する。例えば、意見分析システム１は、サーバ１０以外の他のコンピュータを含み、当該他のコンピュータによって、意見分析に関する処理が実行されてもよい。例えば、他のコンピュータは、パーソナルコンピュータ、タブレット端末、又はスマートフォンである。

［２．意見分析システムの概要］
意見分析システム１は、サービスを利用するユーザにより入力されたコメントに基づいて、サービスに対するユーザの意見を分析する。本実施形態では、サービスの一例として、通信サービスを説明する。サービス自体は、任意の種類であってよく、通信サービスに限られない。例えば、電子商取引サービス、オンラインフリーマーケットサービス、旅行予約サービス、決済サービス、金融サービス、又はその他のサービスに対し、意見分析システム１が適用されてもよい。また、サービスに限らずアイテム・人（対象）についてのコメントに適用するようにしてもよい。この場合、意見分析システム１は、ユーザにより入力されたコメントに基づいて、対象に対するユーザの意見を分析する。

コメントは、サービスに関する内容を示す文字列である。例えば、コメントは、お客様の声と呼ばれることもある。コメントは、少なくとも１つのセンテンスを含む。本実施形態では、ユーザが任意の文字列をコメントとして入力できる場合を説明するが、コメントのフォーマットは、ある程度定められていてもよい。例えば、半構造化テキストを利用して、コメントが入力されてもよい。コメントには、ユーザの何らかの意見が表れることがある。コメント内の全てのセンテンスにユーザの意見が表れるとは限らない。例えば、一部のセンテンスは、ユーザの意見ではなく、単なる事実のみが表れることもある。

意見は、サービスに対する感想である。意見は、サービスに対する称賛又は苦情ということもできる。本実施形態では、意見分析手法の一例として、ＡＢＳＡ（Aspect Based Sentiment Analysis）を説明する。ＡＢＳＡは、所定のキーワードを観点として抽出し、当該キーワードに対する極性を予測する手法である。極性は、肯定的であるか、否定的であるか、を示す情報である。意見分析手法自体は、任意の手法であってよく、ＡＢＳＡに限られない。例えば、観点とは異なる他のキーワードに基づいて極性を予測する手法、又は、極性を予測せずに観点若しくは他のキーワードのみを抽出する手法が利用されてもよい。

図２は、意見分析システム１の大まかな流れの一例を示す図である。例えば、ユーザがユーザ端末２０を操作してサーバ１０にアクセスすると、サービスに関するコメントを入力するための入力フォームＦ及びボタンＢを含む入力画面ＳＣが表示部２５に表示される。入力画面ＳＣは、任意の形式であってよく、図２の形式に限られない。例えば、入力画面ＳＣは、サービスに関する質問に対してユーザが回答するアンケート形式であってもよい。

例えば、ユーザは、操作部２４を操作して、入力フォームＦに対し、任意のコメントを入力する。図２の例では、コメントが英語で入力されているが、コメントは、日本語、中国語、フランス語、又はスペイン語といった任意の言語で入力可能である。本実施形態で説明する処理も、コメントの言語に応じた処理が実行されるようにすればよい。ユーザがボタンＢを選択すると、ユーザ端末２０は、サーバ１０に対し、入力フォームＦに入力されたコメントを送信する。

図２の例では、「I went to XYZ mobile shop. The network connection becomes very good.」といったコメントが入力されている。このコメントは、「I went to XYZ mobile shop.」及び「The network connection becomes very good.」といった２つのセンテンスを含む。１つ目のセンテンス「I went to XYZ mobile shop.」は、ユーザが店舗に行ったという事実だけを示すので、ユーザの意見が表れていない。２つ目のセンテンスは、ユーザが感じたサービスの品質を示すので、ユーザの意見が表れている。

例えば、人間が図２のコメントを見れば、１つ目のセンテンスにユーザの意見が表れておらず、かつ、２つ目のセンテンスにユーザの意見が表れていることを理解できる。更に、人間が２つ目のセンテンスを見れば、サービスの品質の１つである「network connection」が「very good」であるといった「positive」なユーザの意見が表れていることを理解できる。本実施形態では、サーバ１０は、コメントを分析することによって、２つ目のセンテンスに、上記意見が表れていることを特定できるようになっている。

例えば、サーバ１０は、ユーザの意見が表れたセンテンスの中から、（aspect term，opinion word，polarity）といった３つの要素を取得する。これら３つの要素を取得する手法は、ＡＳＴＥ（Aspect Sentiment Triplet Extraction）と呼ばれることがある。ＡＳＴＥは、ＡＢＳＡの一手法である。aspect termは、ＡＢＳＡにおける観点を示す。opinion wordは、aspect termが示す観点における意見の内容を示す。polarityは、肯定的であるか、又は、否定的であるかを示す。以降、上記３つの要素を、分析結果データという。

例えば、先述した特許文献１の技術をＡＳＴＥに適用したとする。先述したように、特許文献１の技術は、投稿文書の全体を意見分析の対象にするので、意見分析に適さないセンテンスが投稿文書に含まれていると、このセンテンスがノイズになり意見分析の精度が低下する可能性がある。そこで、本実施形態では、コメントの全体ではなく、コメントに含まれるセンテンスを意見分析の対象にすることによって、意見分析の精度を高めるようにしている。以降、本実施形態の詳細を説明する。

［３．意見分析システムで実現される機能］
図３は、意見分析システム１で実現される機能の一例を示す図である。

［３－１．サーバで実現される機能］
サーバ１０は、データ記憶部１００、コメント取得部１０１、形態素解析部１０２、結合部１０３、クラスタリング実行部１０４、トピックワード取得部１０５、及び意見分析部１０６を含む。データ記憶部１００は、記憶部１２により実現される。コメント取得部１０１、形態素解析部１０２、結合部１０３、クラスタリング実行部１０４、トピックワード取得部１０５、及び意見分析部１０６は、制御部１１により実現される。

［データ記憶部］
データ記憶部１００は、意見分析に必要なデータを記憶する。例えば、データ記憶部１００は、コメントデータベースＤＢ１、クラスタデータベースＤＢ２、及び辞書データベースＤＢ３を記憶する。

図４は、コメントデータベースＤＢ１の一例を示す図である。コメントデータベースＤＢ１は、コメントに関する各種データが格納されたデータベースである。例えば、コメントデータベースＤＢ１には、コメントＩＤ、コメント、センテンスＩＤ、センテンス、及び分析結果データが格納される。コメントＩＤは、コメントを一意に識別可能なデータである。コメントは、任意のデータ形式でコメントデータベースＤＢ１に格納されてよく、例えば、テキスト形式、リッチテキスト形式、ドキュメント形式、又は電子メール形式であってもよい。

センテンスＩＤは、コメントに含まれるセンテンスを一意に識別可能なデータである。コメントの中のセンテンスは、ピリオド等の記号の位置によって特定されるようにすればよい。コメントは、複数のセンテンスを含んでもよいし、１つのセンテンスだけを含んでもよい。分析結果データは、意見分析部１０６による分析結果を示す。先述したように、本実施形態では、分析結果データは、（aspect term，opinion word，polarity）といった３つの要素を示す。ユーザの意見が表れていないセンテンスには、分析結果データは関連付けられない。

なお、コメントデータベースＤＢ１には、コメントに関する他のデータが格納されてよい。例えば、コメントを入力したユーザの名前、ユーザのメールアドレス、コメントが取得された日時が、コメントデータベースＤＢ１に格納されていてもよい。例えば、コメントに含まれるセンテンスが属するクラスタのクラスタＩＤ又はラベルが、コメントデータベースＤＢ１に格納されていてもよい。例えば、アンケート形式のコメントであれば、コメントに対応する質問を識別可能な情報が、コメントデータベースＤＢ１に格納されていてもよい。

図５は、クラスタデータベースＤＢ２の一例を示す図である。クラスタデータベースＤＢ２は、クラスタリング実行部１０４によるクラスタリングの実行結果に関する各種データが格納されたデータベースである。例えば、クラスタデータベースＤＢ２には、クラスタＩＤ、ラベル、コメントＩＤ、センテンスＩＤ、候補ワード、及び出現頻度が格納される。クラスタＩＤは、クラスタを一意に識別可能なデータである。

本実施形態では、クラスタは、互いに似た意味を持つセンテンスの集まりである。クラスタは、トピック又はグループと呼ばれることもある。クラスタは、センテンスの集まりに限られず、互いに似た意味を持つコメント又は候補ワードの集まりであってもよい。ラベルは、クラスタの名前である。本実施形態では、ラベルが人手で入力されるものとする。例えば、意見分析システム１の管理者がラベルを示す文字列を入力すると、この文字列が、ラベルとしてクラスタデータベースＤＢ２に格納される。

コメントＩＤ及びセンテンスＩＤは、クラスタに属するセンテンスを含むコメントのコメントＩＤと、当該センテンスのセンテンスＩＤと、である。本実施形態では、コメントＩＤ及びセンテンスＩＤの組み合わせによってセンテンスが特定される場合を説明するが、センテンスＩＤだけによってセンテンスを特定できる場合には、コメントＩＤは、クラスタデータベースＤＢ２に格納されなくてもよい。

候補ワードは、後述のトピックワードの候補となるワードである。候補ワードは、センテンスに含まれるワードの全部又は一部である。本実施形態では、後述の形態素解析によって取得された形態素又は結合名詞が候補ワードに相当する。英語のような分かち書きの言語では、形態素解析を利用せずに、スペースで区切られたワードがそのまま候補ワードとして取得されてもよい。出現頻度は、クラスタに属するセンテンスの中で候補ワードが出現する頻度である。出現頻度は、後述のトピックワード取得部１０５によって計算される。出現頻度は、出現回数ということもできる。

図６は、辞書データベースＤＢ３の一例を示す図である。辞書データベースＤＢ３は、トピックワードに関する各種データが格納されたデータベースである。例えば、辞書データベースＤＢ３には、トピックワードが取得されたクラスタのクラスタＩＤ及びラベルと、トピックワードと、が格納される。本実施形態では、１つのクラスタから、少なくとも１つのトピックワードが取得されるものとする。１つのクラスタから取得されるトピックワードには、上限数が定められていてもよいし、特に上限数がさだめられていなくてもよい。

トピックワードは、何らかの話題を意味するトピックを表すワードである。トピックワードは、意見ワードの一例である。このため、本実施形態でトピックワードと記載した箇所は、意見ワードと読み替えることができる。意見ワードは、サービスに対するユーザの意見に関するワードである。即ち、意見ワードは、ユーザの意見が何らかの形で表れたワード、又は、当該ワードに関連性のあるワードである。意見ワードは、クラスタを代表するワードということもできる。意見ワードは、複数のワードを含んでもよいし、１つのワードだけを含んでもよい。意見ワードは、特にトピックの概念に関係のないワードであってもよい。

本実施形態では、aspect termがトピックワードに相当する場合を例に挙げるが、トピックワードは、aspect term以外の他のワードであってもよい。例えば、opinion wordがトピックワードに相当してもよい。例えば、ＡＢＳＡ以外の意見分析手法を利用する場合には、ユーザの何らかの意見を示すワードが、トピックワードとして利用されるようにすればよい。後述のトピックワード取得部１０５により取得されたトピックワードが辞書データベースＤＢ３に格納される。

例えば、データ記憶部１００は、上記データ以外にも、極性推定モデルＭ１を記憶する。極性推定モデルＭ１は、polarityを推定するためのモデルである。本実施形態では、機械学習手法を利用した極性推定モデルＭ１を例に挙げるが、極性推定モデルＭ１は、機械学習手法以外の他の手法を利用したモデルであってもよい。例えば、極性推定モデルＭ１は、ルールベースを利用したモデルであってもよい。

例えば、極性推定モデルＭ１がルールベースを利用したモデルである場合、aspect term及びopinion wordの少なくとも一方と、polarityと、の関係が予めルールとして定義されている。このルールは、テーブル形式又は他の形式のデータとして、データ記憶部１００に記憶されているものとする。あるセンテンスに含まれるaspect term及びopinion wordの少なくとも一方に関連付けられたpolarityが、このセンテンスの分類結果データに含めるpolarityとして取得される。

例えば、極性推定モデルＭ１が機械学習手法を利用したモデルである場合、機械学習手法自体は、種々の手法を利用可能である。例えば、極性推定モデルＭ１は、教師有り学習、半教師有り学習、又は教師無し学習の何れの手法を利用してもよい。本実施形態では、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）と呼ばれる手法を利用した極性推定モデルＭ１を例に挙げるが、極性推定モデルＭ１は、ＢＥＲＴ以外のTransformer又はニューラルネットワーク等の他の手法を利用してもよい。例えば、極性推定モデルＭ１は、Ｑ＆Ａベースモデルと呼ばれる手法が利用されてもよい。例えば、aspect termが主語に相当し、opinion wordが述語に相当するセンテンスであれば、極性推定モデルＭ１は、主語と述語の係り受けを手掛かりにして、polarityを推定する。

本実施形態の極性推定モデルＭ１には、訓練用のaspect term及びopinion wordと、訓練用のpolarityと、のペアである訓練データが学習されている。訓練用のpolarityは、訓練用のaspect term及びopinion wordを含むセンテンスが肯定的であるか否定的であるかを示すデータである。訓練用のpolarityは、訓練用のaspect term及びopinion wordに対応する正解となるpolarityである。訓練データは、人手で作成されてもよいし、公知のツールが利用されて自動的に作成されてもよい。例えば、極性推定モデルＭ１は、訓練用のaspect term及びopinion wordが入力されると、訓練用のpolarityが出力されるように、パラメータが調整されている。極性推定モデルＭ１の学習手法自体は、機械学習手法で利用されている種々の手法を利用可能である。極性推定モデルＭ１には、肯定的な意見を示す訓練データと、否定的な意見を示す訓練データと、の両方が学習されている。

なお、データ記憶部１００は、任意のデータを記憶可能である。データ記憶部１００が記憶するデータは、上記の例に限られない。例えば、データ記憶部１００は、形態素解析で利用される形態素解析ツール、クラスタリングで利用されるクラスタリングツール、及び出現頻度を計算するためのプログラムを記憶してもよい。例えば、データ記憶部１００は、候補ワードがトピックワードになるための出現頻度の閾値を記憶してもよい。

［コメント取得部］
コメント取得部１０１は、サービスを利用するユーザにより入力された、サービスに関するコメントを取得する。以降、コメント取得部１０１が取得するコメントを、第１コメントと記載する。第１コメントは、クラスタリングの対象となるコメントである。即ち、第１コメントは、トピックワードを取得するために利用されるコメントである。本実施形態では、第１コメントが意見分析の対象にもなる場合を説明するが、第１コメントは、意見分析の対象にならなくてもよい。即ち、第１コメントは、トピックワードを取得するためだけに利用されるコメントであってもよい。この場合、後述する変形例のように、第２コメントが意見分析の対象となる。

例えば、コメント取得部１０１は、ユーザ端末２０から、入力フォームＦに入力された第１コメントを取得する。第１コメントは、操作部２４からの入力ではなく、ユーザ端末２０のマイクによって検出されたユーザの音声を利用して入力されてもよい。この場合、ユーザの音声がテキストに変換されたものが第１コメントに相当する。コメント取得部１０１は、第１コメントに含まれるピリオド等の記号の位置に基づいて、第１センテンスを特定する。第１センテンスは、第１コメントに含まれるセンテンスである。

例えば、コメント取得部１０１は、第１コメントを、少なくとも１つの第１センテンスに分割する。コメント取得部１０１は、他の第１コメントと重複しないように、コメントＩＤを発行する。コメント取得部１０１は、他の第１センテンスと重複しないように、センテンスＩＤを発行する。コメント取得部１０１は、コメントＩＤ、第１コメント、センテンスＩＤ、及び第１センテンスを互いに関連付けてコメントデータベースＤＢ１に格納する。コメント取得部１０１は、任意のタイミングで、コメントデータベースＤＢ１に格納された第１コメントを取得できる。

なお、コメント取得部１０１は、入力画面ＳＣを一例とするウェブサイト以外の他の手段を利用して、第１コメントを取得してもよい。例えば、コメント取得部１０１は、ユーザ端末２０にインストールされた専用のアプリケーション、電子メール、ＳＮＳ、ＳＭＳ、又はメッセージアプリを利用して、第１コメントを取得してもよい。例えば、コメント取得部１０１は、これらの複数の手段を利用して、第１コメントを取得してもよい。

［形態素解析部］
形態素解析部１０２は、第１センテンスに対し、形態素解析を実行する。形態素解析自体は、種々の形態素解析ツールを利用可能である。例えば、英語の第１センテンスであれば、形態素解析部１０２は、Tree Tagger又はＮＬＴＫといった形態素解析ツールに基づいて、第１コメントの形態素解析を実行してもよい。例えば、日本語の第１センテンスであれば、形態素解析部１０２は、ＭｅＣａｂ又はＪＵＭＡＮといった形態素解析ツールに基づいて、第１センテンスの形態素解析を実行してもよい。

例えば、形態素解析部１０２は、第１センテンスを複数の形態素に分解する。形態素解析部１０２は、第１センテンスごとに、当該第１センテンスを複数の形態素に分解し、当該複数の形態素をデータ記憶部１００に記録する。第１コメントに複数の第１センテンスが含まれる場合には、形態素解析部１０２は、複数の第１センテンスの各々に対して形態素解析を実行し、複数の第１センテンスの各々から分解された複数の形態素を、データ記憶部１００に記録する。

なお、形態素解析では、個々の形態素の品詞も特定できるので、形態素解析部１０２は、個々の形態素の品詞もデータ記憶部１００に記録するものとする。図２の例であれば、２つ目の第１センテンスに含まれる「network」が、形態素解析によって「net」と「work」の２つの名詞に分解されたとすると、形態素解析部１０２は、「net」の品詞が名詞であることと、「work」の品詞が名詞であることと、をデータ記憶部１００に記録する。形態素解析部１０２は、他の形態素についても同様に、品詞をデータ記憶部１００に記録する。

［結合部］
結合部１０３は、第１センテンスから取得された複数の形態素の中に、互いに連続する複数の名詞が含まれている場合には、当該複数の名詞を結合して結合名詞を取得する。図２の例であれば、第１センテンスに含まれる「network」が、「net」と「work」といった２つの名詞に分解されたとすると、結合部１０３は、これら連続した２つの名詞を結合して「network」といった結合名詞を取得する。結合部１０３は、３つ以上の名詞が連続する場合も同様に、連続する３つ以上の名詞を結合して結合名詞を取得すればよい。

［クラスタリング実行部］
クラスタリング実行部１０４は、第１コメントに関するクラスタリングを実行する。本実施形態では、クラスタリング手法として、k-meansクラスタリングを例に挙げるが、クラスタリング手法自体は、種々の手法を利用可能である。例えば、ウォード法、群平均法、最短距離法、又はＤＢＳＣＡＮといったクラスタリング手法を利用可能である。例えば、クラスタリング実行部１０４は、確率モデルの一種であるトピックモデルと呼ばれるクラスタリング手法を利用して、クラスタリングを実行してもよい。クラスタリングは、教師無し学習の手法が利用されてもよい。

本実施形態では、クラスタリング実行部１０４は、第１コメントに含まれる第１センテンスに関する特徴に基づいて、第１センテンスに関するクラスタリングを実行する。第１センテンスに関する特徴とは、第１センテンスの全部又は一部の特徴を示すデータである。特徴は、埋め込み表現と呼ばれることもある。例えば、クラスタリング実行部１０４は、第１コメントに含まれる第１センテンスの特徴ベクトルを取得する。第１センテンスに関する特徴は、任意の形式で表現可能であり、ベクトル形式に限られない。例えば、第１センテンスに関する特徴は、配列又は単一の数値といった他の形式で表現されてもよい。

本実施形態では、第１センテンスの特徴ベクトルの取得方法として、fastTextを例に挙げるが、特徴ベクトルの取得方法自体は、種々の方法を利用可能である。例えば、ＢＯＷ又はWord2vecと呼ばれる手法が利用されて、第１センテンスの特徴ベクトルが取得されてもよい。例えば、クラスタリング実行部１０４は、複数の第１コメントから複数の第１センテンスを取得し、複数の第１センテンスの各々の特徴ベクトルを取得する。

例えば、クラスタリング実行部１０４は、複数の第１センテンスの各々の特徴ベクトルに基づいて、k-meansクラスタリングを実行する。クラスタリング実行部１０４は、互いに特徴ベクトルが似ているセンテンス同士が同じクラスタに属するように、クラスタリングを実行する。特徴ベクトルが似ているとは、ベクトル空間上における距離が近いことである。例えば、クラスタリング実行部１０４は、互いに距離が近い順に所定数の第１センテンスを特定し、当該所定数の第１センテンスが同じクラスタに属するように、クラスタリングを実行する。クラスタリング実行部１０４は、クラスタごとに、クラスタＩＤを生成し、当該クラスタに属するセンテンスが関連付けられるように、クラスタデータベースＤＢ２を更新する。

図７は、クラスタの一例を示す図である。図７の例では、３つのクラスタＣ１～Ｃ３が示されている。以降、クラスタＣ１～Ｃ３を区別しない時は、単にクラスタＣという。クラスタＣの数は、２つ又は４つ以上であってもよく、３つに限られない。例えば、クラスタＣの上限数が定められていてもよいし、特に上限数が定められていなくてもよい。本実施形態では、第１コメントに含まれる第１センテンスのクラスタリングが実行される場合を説明するが、クラスタリングの対象になるのは、第１センテンスではなく、第１コメント全体であってもよいし、第１コメントに含まれる個々のワード（形態素又は結合名詞）であってもよい。

例えば、クラスタＣ１には、第１センテンスＳ１０１，Ｓ１０２等が属する。クラスタリング実行部１０４は、第１センテンスＳ１０１，Ｓ１０２等の各々に含まれる候補ワードＷ１，Ｗ２等を取得する。本実施形態では、トピックワードとして、名詞であるaspect termが取得されるので、クラスタリング実行部１０４は、形態素解析によって名詞に分類された形態素を、候補ワードＷ１，Ｗ２等として取得する。候補ワードＷ１，Ｗ２等は、互いに重複がないように取得される。後述のトピックワード取得部１０５により、候補ワードＷ１，Ｗ２等の各々の出現頻度が計算されて、トピックワードＷ２等が取得される。

例えば、クラスタＣ２には、センテンスＳ２０１，Ｓ２０２等が属する。クラスタリング実行部１０４は、センテンスＳ２０１，Ｓ２０２等の各々に含まれる候補ワードＷ１，Ｗ３等を取得する。クラスタリング実行部１０４は、形態素解析によって名詞に分類された形態素を、候補ワードＷ１，Ｗ３等として取得する。候補ワードＷ１，Ｗ３等は、互いに重複がないように取得される。後述のトピックワード取得部１０５により、ワードＷ１，Ｗ３等の各々の出現頻度が計算されて、トピックワードＷ３等が取得される。

例えば、クラスタＣ３には、センテンスＳ３０１，Ｓ３０２等が属する。クラスタリング実行部１０４は、センテンスＳ３０１，Ｓ３０２等の各々に含まれる候補ワードＷ１，Ｗ４等を取得する。クラスタリング実行部１０４は、形態素解析によって名詞に分類された形態素を、候補ワードＷ１，Ｗ４等として取得する。候補ワードＷ１，Ｗ４等は、互いに重複がないように取得される。後述のトピックワード取得部１０５により、ワードＷ１，Ｗ４等の各々の出現頻度が計算されて、トピックワードＷ４等が取得される。

なお、クラスタリング実行部１０４は、トピックワードとして、形容詞であるopinion wordが取得される場合、クラスタリング実行部１０４は、形態素解析によって形容詞に分類された形態素を、候補ワードとして取得すればよい。また、aspect termは、名詞以外の品詞であってもよいし、opinion wordは、形容詞以外の品詞であってもよい。クラスタリング実行部１０４は、候補ワードとして取得した品詞の形態素を、候補ワードとして取得すればよい。クラスタリング実行部１０４は、特に品詞に関係なく、全てのワードを候補ワードとして取得してもよい。

本実施形態では、形態素解析によって分解された複数の名詞が連続する場合には、互いに結合されて結合名詞になるので、クラスタリング実行部１０４は、結合名詞に基づいて、クラスタリングを実行する。例えば、クラスタリング実行部１０４は、結合名詞に基づいて、第１センテンスの特徴ベクトルを取得し、クラスタリングを実行する。クラスタリング実行部１０４は、結合される前の複数の名詞ではなく結合名詞に基づいて、第１センテンスの特徴ベクトルを取得する。クラスタリングの実行方法は、先述した通りである。

［トピックワード取得部］
トピックワード取得部１０５は、クラスタリングの実行結果に基づいて、トピックワードを取得する。例えば、トピックワード取得部１０５は、クラスタＣごとに、当該クラスタに属する第１センテンスに含まれるワードを、トピックワードとして取得する。例えば、トピックワード取得部１０５は、第１センテンスが属するクラスタＣごとに、当該クラスタＣを代表するトピックワードを取得する。

本実施形態では、トピックワード取得部１０５は、クラスタリングの実行結果に基づいて、クラスタＣごとに、トピックワードに関する複数の候補ワードを取得し、当該複数の候補ワードの中から、トピックワードを取得する。例えば、トピックワード取得部１０５は、候補ワードごとに、当該候補ワードに関する出現頻度を計算し、当該出現頻度に基づいて、トピックワードを取得する。

例えば、トピックワード取得部１０５は、クラスタＣごとに、候補ワードの出現をカウントし、出現頻度として取得する。出現頻度の計算方法自体は、任意の方法であってよく、例えば、単純に出現回数をカウントする方法であってもよいし、ＴＦ－ＩＤＦ法が利用されてもよい。ＴＦ－ＩＤＦ法が利用される場合には、ある特定のクラスタＣだけで頻出する候補ワードの出現頻度が高くなり、どのクラスタＣでも満遍なく出現する候補ワードの出現頻度はひくくなる。

図７の例では、トピックワード取得部１０５は、クラスタＣ１における候補ワードＷ１，Ｗ２等の各々の出現頻度を計算し、クラスタＩＤ、候補ワード、及び出現頻度を互いに関連付けてクラスタデータベースＤＢ２に格納する。トピックワード取得部１０５は、クラスタＣ２における候補ワードＷ１，Ｗ３等の各々の出現頻度を計算し、クラスタＩＤ、候補ワード、及び出現頻度を互いに関連付けてクラスタデータベースＤＢ２に格納する。クラスタＣ３における候補ワードＷ１，Ｗ３等の各々の出現頻度を計算し、クラスタＩＤ、候補ワード、及び出現頻度を互いに関連付けてクラスタデータベースＤＢ２に格納する。

例えば、トピックワード取得部１０５は、出現頻度が閾値以上の候補ワードを、トピックワードとして取得してもよい。閾値は、全てのクラスタＣで共通であってもよいし、クラスタＣに応じた閾値が定められてもよい。例えば、クラスタＣに属する候補ワードの数に応じた閾値であってもよい。トピックワード取得部１０５は、出現頻度が高い順に所定数の候補ワードをトピックワードとして取得してもよい。

図７の例では、トピックワード取得部１０５は、ＴＦ－ＩＤＦ法に基づいて、出現頻度を計算する。候補ワードＷ１は、クラスタＣ１～Ｃ３でまんべんなく出現するので、ＴＦ－ＩＤＦ法に基づく出現頻度としては低くなる。候補ワードＷ１は、クラスタＣ１～Ｃ３の各々を代表するワードではなく、サービスに対する何らかのコメントを入力する時に汎用的に用いられるワードにすぎないので、トピックワードとして取得されない。

一方、候補ワードＷ２は、クラスタＣ１だけで頻出するので、ＴＦ－ＩＤＦ法に基づく出現頻度としては高くなる。候補ワードＷ２は、クラスタＣ１の特徴をよく表す代表的なワードなので、クラスタＣ１のトピックワードとして取得される。同様に、候補ワードＷ３は、クラスタＣ２の代表的なワードなので、クラスタＣ２のトピックワードとして取得される。候補ワードＷ４は、クラスタＣ３の代表的なワードなので、クラスタＣ３のトピックワードとして取得される。

なお、トピックワード取得部１０５は、予め定められた方法に基づいて、トピックワードを取得すればよい。トピックワードの取得方法は、上記の例に限られない。例えば、トピックワード取得部１０５は、出現頻度を計算せずに、候補ワードの全てをトピックワードとして取得してもよい。例えば、トピックワード取得部１０５は、複数の候補ワードの中からランダムに選択した候補ワードを、トピックワードとして取得してもよい。

［意見分析部］
意見分析部１０６は、トピックワードに基づいて、第１コメントに含まれる第１センテンスにおける意見を分析する。本実施形態では、意見分析部１０６は、トピックワードに基づいて、第１センテンスにおける意見を分析する場合を説明する。なお、意見分析部１０６は、トピックワードに基づいて、第２コメントに含まれる第２センテンスにおける意見を分析してもよい。第２センテンスにおける意見を分析する場合は、後述の変形例で説明する。

第２コメントは、第１コメントとは異なるコメントである。第２コメントは、クラスタリングの対象にはならないコメントである。即ち、第２コメントは、トピックワードを取得するためには利用されないコメントである。先述したコメント取得部１０１は、第２コメントを取得してもよい。第２コメントの取得方法は、第１コメントの取得方法と同様であってよい。以降説明する実施形態では、第１コメントに含まれる第１センテンスが意見分析の対象になるものとする。

本実施形態では、意見分析部１０６は、第１センテンスにトピックワードが含まれるか否かを判定することによって、意見を分析する。意見は、トピックワードと、当該トピックワードに関する他の要素と、を含む複数の要素で表現されるので、意見分析部１０６は、第１センテンスにトピックワードが含まれると判定された場合に、第１センテンスのうち、当該トピックワードの部分以外の他の部分に基づいて、他の要素を取得することによって、意見を分析する。

例えば、意見分析部１０６は、他の部分の中から、第１センテンスに含まれるトピックワードと係り受けの関係にある係り受けワードを、他の要素として取得する。係り受けワードの取得方法自体は、種々の係り受け解析ツールを利用可能である。例えば、先述した形態素解析ツールには係り受け解析が可能なツールも存在するので、意見分析部１０６は、形態素解析ツールを利用して、係り受けワードを取得してもよい。例えば、本実施形態のように、名詞であるaspect termがトピックワードに相当する場合には、意見分析部１０６は、名詞と係り受けの関係にある形容詞を、係り受けワードとして特定してもよい。

図２の例であれば、意見分析部１０６は、トピックワードであるaspect term「network connection」と係り受けの関係にある「very good」を、係り受けワードとして特定する。意見分析部１０６は、当該特定された係り受けワード「very good」を、opinion wordとして取得する。この場合、第１センテンスのうちのaspect term以外の部分「The becomes very good.」が他の部分に相当し、opinion wordが他の要素に相当する。

なお、トピックワードは、opinion wordであってもよい。図２の例であれば、意見分析部１０６は、トピックワードであるopinion word「very good」と係り受けの関係にある「network connection」を、係り受けワードとして特定する。意見分析部１０６は、当該特定された係り受けワード「network connection」を、aspect termとして取得する。この場合、aspect termが他の要素に相当する。形容詞であるopinion wordがトピックワードに相当する場合、意見分析部１０６は、形容詞と係り受けの関係にある名詞（主語）を、係り受けワードとして特定してもよい。

本実施形態では、意見を表現する複数の要素は、トピックワード、係り受けワード、及び意見に関するpolarityを含む。polarityは、意見が肯定的であるか否かを示す情報である。本実施形態では、polarityは、positive又はnegativeの２値で表現される場合を説明するが、これらの２値ではなく、中間値が存在してもよい。例えば、polarityは、どの程度positiveであるか、又は、どの程度negativeであるかといたような度合いを、パーセンテージで表現する情報であってもよい。

例えば、意見分析部１０６は、トピックワード及び係り受けワードの少なくとも一方に基づいて、polarityを取得することによって、意見を分析する。本実施形態では、意見分析部１０６は、トピックワード及び係り受けワードの両方に基づいて、polarityを取得する場合を説明するが、意見分析部１０６は、トピックワード又は係り受けワードの何れか一方のみに基づいて、polarityを取得してもよい。

例えば、意見分析部１０６は、トピックワード及び係り受けワードと、極性推定モデルＭ１と、に基づいて、polarityを取得する。意見分析部１０６は、トピックワード及び係り受けワードを極性推定モデルＭ１に入力する。極性推定モデルＭ１は、トピックワード及び係り受けワードの特徴ベクトルを計算し、特徴ベクトルに応じたpolarityを出力する。意見分析部１０６は、極性推定モデルＭ１から出力されたpolarityを取得する。

例えば、意見分析部１０６は、上記のような意見分析の実行結果に基づいて、分析結果データを生成し、コメントデータベースＤＢ１に格納する。分析結果データは、任意の目的で利用可能である。例えば、サーバ１０は、意見分析システム１の管理者の端末に対し、分析結果データを送信してもよい。管理者の端末では、分析結果データに基づいて、種々のユーザの意見を、クラスタＣのラベルと関連付けて表示してもよい。

［３－２．ユーザ端末で実現される機能］
ユーザ端末２０は、データ記憶部２００、表示制御部２０１、及び操作受付部２０２を含む。データ記憶部２００は、記憶部２２により実現される。表示制御部２０１及び操作受付部２０２は、制御部２１により実現される。

［データ記憶部］
データ記憶部２００は、第１コメントの入力に必要なデータを記憶する。例えば、データ記憶部２００は、入力画面ＳＣを表示するために必要なブラウザを記憶する。例えば、データ記憶部２００は、ブラウザではなく、専用のアプリケーションを記憶してもよい。例えば、音声を利用して第１コメントが入力される場合には、データ記憶部２００は、音声をテキストに変換する変換ツールを記憶してもよい。

［表示制御部］
表示制御部２０１は、入力画面ＳＣを表示部２５に表示させる。

［操作受付部］
操作受付部２０２は、第１コメントを入力する操作を受け付ける。

［４．意見分析システムで実行される処理］
図８は、意見分析システム１で実行される処理の一例を示すフロー図である。図８では、サーバ１０が実行する処理が示されている。図８の処理は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することによって実行される。図８の処理が実行される前に、サーバ１０は、複数のユーザ端末２０の各々から第１コメントを取得し、複数のユーザの各々が入力した第１コメントをコメントデータベースＤＢ１に格納しているものとする。

図８のように、サーバ１０は、コメントデータベースＤＢ１に格納された第１コメントを取得する（ＳＴ１）。ＳＴ１では、サーバ１０が所定数の第１コメントを取得する場合を説明するが、サーバ１０は、第１コメントを１つずつ取得し、ＳＴ２以降の処理を繰り返し実行してもよい。サーバ１０は、第１コメントを第１センテンスに分解し、第１センテンスに対し、形態素解析を実行する（ＳＴ２）。サーバ１０は、第１センテンスから取得された複数の形態素のうち、連続する名詞を結合することによって、結合名詞を取得する（ＳＴ３）。連続する名詞が存在しない場合には、ＳＴ３の処理は実行されない。

サーバ１０は、第１センテンスの特徴ベクトルを取得する（ＳＴ４）。サーバ１０は、ＳＴ４で取得した特徴ベクトルに基づいて、クラスタリングを実行する（ＳＴ５）。ＳＴ５では、サーバ１０は、特徴ベクトルが類似するセンテンス同士が同じクラスタＣに属するように、クラスタリングを実行する。サーバ１０は、クラスタＣごとに、候補ワードの出現頻度を計算する（ＳＴ６）。サーバ１０は、クラスタＣごとに、候補ワードの出現頻度に基づいて、トピックワードを取得する（ＳＴ７）。ＳＴ７では、サーバ１０は、閾値以上の出現頻度を有する候補ワードを、トピックワードとして取得する。ＳＴ７までの処理によって、辞書データベースＤＢ３の作成が完了する。

サーバ１０は、第１コメントごとに、トピックワードと係り受けの関係にある係り受けワードを特定する（ＳＴ８）。ＳＴ８では、サーバ１０は、aspect termであるトピックワードと係り受け関係にある係り受けワードを、opinion wordとして特定する。サーバ１０は、第１センテンスごとに、当該第１センテンスから取得したトピックワード及び係り受けワードと、極性推定モデルＭ１と、に基づいて、当該第１センテンスのpolarityを取得し（ＳＴ９）、本処理は終了する。

本実施形態の意見分析システム１は、サービスを利用するユーザにより入力された、サービスに関する第１コメントに関するクラスタリングの実行結果に基づいて、サービスに対する意見に関するトピックワードを取得する。意見分析システム１は、トピックワードに基づいて、第１コメントに含まれる第１センテンスにおける意見を分析する。これにより、第１コメント全体を意見分析の対象とするのではなく、第１センテンスを意見分析の対象にすることによって、第１コメントの中に意見分析に向かない第１センテンスが含まれていたとしても、この第１センテンスがノイズになることを防止できるので、意見分析の精度が高まる。

また、意見分析システム１は、トピックワードに基づいて、第１センテンスにおける意見を分析する。後述する変形例のように、意見分析システム１は、第２センテンスを意見分析の対象にしてもよいが、第１センテンスを意見分析の対象にすることによって、後述する変形例のように意見分析モデルを作成しなくても、第１センテンスにおける意見を分析できる。

また、意見分析システム１は、第１コメントに含まれる第１センテンスに関する特徴に基づいて、第１センテンスに関するクラスタリングを実行する。意見分析システム１は、第１センテンスに関するクラスタＣごとに、当該クラスタＣを代表するトピックワードを取得する。第１センテンスをクラスタリングの対象にすることによって、意見分析により適したトピックワードを取得できるので、意見分析の精度がより高まる。

また、意見分析システム１は、第１センテンスにトピックワードが含まれるか否かを判定することによって、意見を分析する。これにより、クラスタＣを代表するトピックワードを含む第１センテンスの意見分析を実行できるので、意見分析の精度が高まる。

また、意見分析システム１は、第１センテンスにトピックワードが含まれると判定された場合に、第１センテンスのうち、当該トピックワードの部分以外の他の部分に基づいて、他の要素を取得することによって、意見を分析する。トピックワードの部分以外の他の部分を利用して意見を分析することによって、意見分析の精度がより高まる。

また、意見分析システム１は、トピックワードの部分以外の他の部分の中から、第１センテンスに含まれるトピックワードと係り受けの関係にある係り受けワードを、他の要素として取得する。トピックワードと係り受けの関係にある係り受けワードを利用して意見を分析することによって、意見分析の精度がより高まる。

また、意見分析システム１は、トピックワード及び係り受けワードの少なくとも一方に基づいて、polarityを取得することによって、意見を分析する。これにより、意見の極性を推定できる。

また、意見分析システム１は、クラスタリングの実行結果に基づいて、クラスタＣごとに、トピックワードに関する複数の候補ワードを取得する。意見分析システム１は、当該複数の候補ワードの中から、トピックワードを取得する。クラスタＣごとに、複数の候補ワードの中からトピックワードを取得することによって、クラスタＣに適したトピックワードを取得できるので、意見分析の精度がより高まる。

また、意見分析システム１は、候補ワードごとに、当該候補ワードに関する出現頻度を計算する。意見分析システム１は、当該出現頻度に基づいて、トピックワードを取得する。これにより、クラスタＣに属する第１センテンスの中でよく出現する候補ワードをトピックワードとすることによって、クラスタＣを代表するトピックワードを取得できるので、意見分析の精度がより高まる。

また、意見分析システム１は、第１コメントから取得された複数の形態素の中に、互いに連続する複数の名詞が含まれている場合には、当該複数の名詞を結合して結合名詞を取得する。意見分析システム１は、結合名詞に基づいて、クラスタリングを実行する。これにより、本来は１つの名詞であるワードが形態素解析によって複数の名詞に分解されてしまったとしても、元々の１つのワードである結合名詞に戻すことができるので、意見分析の精度がより高まる。

［５．変形例］
なお、本開示は、以上に説明した実施形態の例に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。

図９は、変形例における機能の一例を示す図である。図９のように、以降説明する変形例では、クラスタ推定部１０７及び補填部１０８が実現される。クラスタ推定部１０７及び補填部１０８は、制御部１１を主として実現される。また、データ記憶部１００は、意見分析モデルＭ２を記憶する。意見分析モデルＭ２の詳細については、後述する。

［５－１．変形例１］
例えば、実施形態では、クラスタＣのラベルが人手で付与される場合を説明したが、クラスタＣのラベルは、自動的に付与されてもよい。変形例１の意見分析システム１は、クラスタ推定部１０７を更に含む。クラスタ推定部１０７は、クラスタＣごとに、当該クラスタＣのトピックワードと、所定のトピックに関連付けられた関連ワードと、に基づいて、当該クラスタＣが当該所定のトピックに関係するか否かを推定する。関連ワードは、所定のトピックを代表するワードである。関連ワードは、シードワードと呼ばれることもある。

図１０は、クラスタＣにラベルを付与する処理の一例を示す図である。変形例１では、クラスタ推定部１０７は、クラスタＣごとに、トピックワードの特徴ベクトルと、関連ワードの特徴ベクトルと、を取得する。特徴ベクトルの取得方法は、実施形態で説明した通りである。関連ワードの特徴も、ベクトル形式以外の他の形式（例えば、配列形式又は単一の数値）で表現されてもよい。変形例１では、実施形態と同様に、fastTextが利用される場合を説明する。

図１０の例では、トピックが「品質」であり、関連ワードが「電波強度」である。この関連ワードは、サービスにおける品質の１つを表すワードである。クラスタ推定部１０７は、クラスタＣ１のトピックワードＷ２の特徴ベクトルと、関連ワードの特徴ベクトルと、のコサイン類似度ｓｉｍ１を計算する。クラスタ推定部１０７は、クラスタＣ２のトピックワードＷ３の特徴ベクトルと、関連ワードの特徴ベクトルと、のコサイン類似度ｓｉｍ２を計算する。クラスタ推定部１０７は、クラスタＣ３のトピックワードＷ４の特徴ベクトルと、関連ワードの特徴ベクトルと、のコサイン類似度ｓｉｍ３を計算する。

例えば、クラスタ推定部１０７は、コサイン類似度ｓｉｍ１～ｓｉｍ３のうち、最も高いコサイン類似度ｓｉｍ１に関連付けられたクラスタＣ１に、関連ワードに関連付けられたトピックを、ラベルとして付与する。クラスタ推定部１０７は、コサイン類似度ｓｉｍ１～ｓｉｍ３と、閾値と、に基づいて、ラベルを付与してもよい。例えば、コサイン類似度ｓｉｍ１～ｓｉｍ３のうち、閾値以上のものがコサイン類似度ｓｉｍ１だけだったとすると、クラスタ推定部１０７は、閾値以上であるコサイン類似度ｓｉｍ１に関連付けられたクラスタＣ１に、関連ワードに関連付けられたトピックを、ラベルとして付与する。

変形例１の意見分析部１０６は、クラスタ推定部１０７の推定結果に基づいて、意見を分析する。変形例１の分析結果データには、実施形態で説明した３要素に加えて、トピックワードが属するクラスタＣのラベルも含まれる。意見分析部１０６は、クラスタＣのラベルも含む分析結果データを取得することによって、意見を分析する。

変形例１の意見分析システム１は、クラスタＣごとに、当該クラスタＣのトピックワードＷと、所定のトピックに関連付けられた関連ワードと、に基づいて、当該クラスタＣが当該所定のトピックに関係するか否かを推定する。意見分析システム１は、当該推定結果に基づいて、意見を分析する。これにより、意見分析の精度がより高まる。

［５－２．変形例２］
例えば、ユーザが入力した第１コメントに含まれる第１センテンスが文章として不十分だと、第１センテンスから３要素を特定できないこともある。例えば、aspect termが取得されたがopinion wordが省略された第１センテンスが存在することもある。逆に、opinion wordが取得されたがaspect termが省略された第１センテンスが存在することもある。この場合、３要素のうち、取得されなかった要素が何らかの方法で補填されてもよい。

変形例２の意見分析システム１は、補填部１０８を含む。補填部１０８は、トピックワード以外の他の部分から、トピックワードに関する他の要素が取得されなかった場合に、所定の補填方法に基づいて、他の要素を補填する。他の要素が取得された場合には、補填部１０８による補填は行われない。変形例２では、トピックワードがopinion wordであり、他の要素がaspect termである場合を例に挙げる。補填方法は、変形例２で説明する方法以外にも、変形例３又は４で説明する方法であってもよい。

図１１は、opinion wordが取得され、かつ、aspect termが取得されなかった第１センテンスのaspect termを補填する方法の一例を示す図である。図１１のように、変形例２の入力画面ＳＣは、アンケート形式であるものとする。第１コメントは、質問に対する回答である。補填部１０８は、質問の内容に基づいて、他の要素を補填する。例えば、図１１の例では、質問「接続環境はいかがでしたか？」に対し、第１コメントとして「I went to XYZ mobile shop. Very good.」が得られたとする。第１コメントは、「I went to XYZ mobile shop.」及び「Very good.」といった２つの第１センテンスを含む。実施形態と同様に、１つ目の第１センテンスは、ユーザの意見が表れていない。

図１１の例では、２つ目の第１センテンスは、主語が省略されている。このため、実施形態のように、トピックワードであるopinion word「Very good」の係り受けが存在しないので、「network connection」といったaspect termを特定できない。この場合、補填部１０８は、aspect termを特定できなかった第１センテンスの質問「接続環境はいかがでしたか？」に基づいて、aspect termを補填する。例えば、補填部１０８は、この質問の主語である「接続環境」をそのままaspect termとして補填してもよいし、この質問に予め「network connection」といったaspect termを関連付けておき、この質問に関連付けられた「network connection」をaspect termとして補填してもよい。

なお、補填部１０８の補填方法は、上記の例に限られない。例えば、「ご利用になったサービスで良かったものは何ですか？」といった質問に対し、第１コメントとして、「Network connection.」が取得されたとする。この場合、第１コメントは、１つの第１センテンスのみから構成される。更に、トピックワードとして、aspect termである「network connection」が取得されたとする。この場合、第１コメントの第１センテンスは、opinion wordが省略されているので、補填部１０８は、上記質問に含まれる形容詞「悪い」をそのままopinion wordとして補填してもよいし、この質問に予め「very good」といったopinion wordを関連付けておき、この質問に関連付けられた「very good」をopinion wordとして補填してもよい。

変形例２の意見分析システム１は、トピックワード以外の他の部分から、トピックワードに関する他の要素が取得されなかった場合に、所定の補填方法に基づいて、他の要素を補填する。これにより、第１センテンスが不完全であり、他の要素が取得できなかったとしても、他の要素を補填できるので、意見分析の精度が高まる。例えば、第１センテンスからaspect termしか取得できなかったとしても、opinion wordを補填することによって、aspect termを含まない不十分な第１センテンスの意見分析が可能になる。逆に、第１センテンスからopinion wordしか取得できなかったとしても、aspect termを補填することによって、opinion wordを含まない不十分な第１センテンスの意見分析が可能になる。

また、意見分析システム１は、質問の内容に基づいて、トピックワードに関する他の要素を補填する。これにより、第１センテンスが不完全だった場合の他の要素の補填の精度が高まる。例えば、ユーザは、「接続環境はいかがでしたか？」といった質問に対し、接続環境に関する回答を入力するので、第１センテンスがaspect termを含まない不完全なものだったとしても、第１センテンスは、接続環境に関する内容であると推定できる。この場合に、質問に基づいてaspect termを補填できる。例えば、ユーザは、「ご利用になったサービスで悪いものは何ですか？」といった質問に対し、悪かったサービスを入力するので、第１センテンスがopinion wordを含まない不完全なものだったとしても、第１センテンスは、ユーザが悪いと感じたサービスであると推定できる。この場合に、質問に基づいて、opinion wordを補填できる。

［５－３．変形例３］
例えば、変形例２において、第１センテンスが不完全だった場合に、似た内容の第３センテンスからaspect termとopinion wordが取得された場合には、第３センテンスから取得されたaspect term及びopinion wordの少なくとも一方から、不完全で取得できなかったものが補填されてもよい。変形例３の入力画面ＳＣは、実施形態のようなフリーフォーム形式であるものとするが、変形例２のような質問形式であってもよい。なお、変形例３では、トピックワードがopinion wordであるものとする。

例えば、ユーザが、「I went to XYZ mobile shop. The service becomes very good.」といった第１コメントを入力したとする。実施形態で説明したように、１つ目の第１センテンスは、ユーザの意見が表れていない。２つ目の第１センテンスには、トピックワードとしてopinion wordである「very good」が含まれている。係り受け先は、主語の「The service」であるが、抽象的なワードであり、aspect termとして不適切だったとする。

上記の例において、他のユーザが、「I went to XYZ mobile shop. The network connection becomes very good.」といった第３コメントを入力したとする。第３コメントに含まれるセンテンスを、第３センテンスという。この場合、実施形態で説明したように、第３コメントの２つ目の第３センテンスから、aspect term「network connection」と、opinion word「very good」と、を取得できる。これらの取得方法は、実施形態の説明における第１コメント及び第１センテンスを、それぞれ第３コメント及び第３センテンスと読み替えるようにすればよい。

変形例３の補填部１０８は、第１センテンスと似た内容を含む第３コメントから取得された他の要素に基づいて、第１センテンスの他の要素を補填する。例えば、上記の例では、トピックワードとして、opinion wordである「very good」が取得されているが、aspect wordは取得されていない。例えば、補填部１０８は、第１コメントの２つ目の第１センテンスの特徴ベクトルと、第３コメントの２つ目の第３センテンスの特徴ベクトルと、に基づいて、これらの第１センテンス及び第３センテンスが類似することを特定する。これらが類似するとは、特徴ベクトル同士の距離が閾値未満になることである。例えば、補填部１０８は、第３センテンスから取得されたaspect termである「network connection」を、第１センテンスから取得されなかったaspect termとして補填する。第３センテンスは、特徴ベクトルではなく、第１センテンスと同じopinion wordを含むセンテンスであってもよい。この場合、特徴ベクトルは計算されず、aspect termを含まない第１センテンスと同じopinion wordを含む第３センテンスが特定される。

なお、補填部１０８の補填方法は、上記の例に限られない。例えば、第１センテンスからaspect termが取得され、かつ、opinion wordが取得されなかった場合に、補填部１０８は、第１センテンスと似た内容の第３センテンスから取得されたopinion wordを、第１センテンスのaspect termとして補填してもよい。例えば、ユーザが「I went to XYZ mobile shop. The network connection becomes...」といったように、opinion wordを省略した第１センテンスを入力したとする。この場合に、補填部１０８は、２つ目の第１センテンスと似た第３センテンス「The network connection becomes very good.」を特定する。補填部１０８は、この第３センテンスから取得したopinion wordである「very good」を、第１センテンスのopinion wordとして特定してもよい。

変形例３の意見分析システム１は、第１センテンスと似た内容を含む第３センテンスから取得された他の要素に基づいて、第１センテンスの他の要素を補填する。これにより、第１センテンスが不完全だった場合の他の要素の補填の精度が高まる。例えば、第１センテンスがaspect termを含まない不完全なものだったとしても、第１センテンスと似た内容を含む第３センテンスから取得されたaspect termで補填できる。例えば、第１センテンスがopinion wordを含まない不完全なものだったとしても、第１センテンスと似た内容を含む第３センテンスから取得されたopinion wordで補填できる。

［５－４．変形例４］
例えば、第１コメントは、入力画面ＳＣ等の専用のフォームに入力されたものではなく、ＳＮＳ上の投稿であってもよい。この場合に、第１コメントには、ハッシュタグと呼ばれる情報が関連付けられていることがある。ハッシュタグは、第１コメントの内容を分類可能な情報である。この場合に、補填部１０８は、不完全な第１センテンスに関連付けられたハッシュタグに基づいて、第１センテンスに足りない要素を補填してもよい。

ハッシュタグは、分類の一例である。このため、ハッシュタグと記載した箇所は、分類と読み替えることができる。分類は、第１コメントを何らかの形で分類する情報であればよく、ハッシュタグに限られない。例えば、ハッシュマーク以外の記号を利用した情報が、分類に相当してもよい。変形例４では、第１コメントを入力したユーザが分類を入力する場合を説明するが、予め定められた複数の分類の中から、ユーザが分類を選択するようにしてもよい。

変形例４の補填部１０８は、ハッシュタグに基づいて、他の要素を補填する。例えば、ユーザが、ＳＮＳの投稿として、「I went to XYZ mobile shop. The service becomes very good.」といった第１コメントを入力したとする。この第１コメントに、ハッシュタグ「#network connection」が関連付けられていたとする。変形例３で説明したように、この第１コメントの２つ目の第１センテンスは、opinion word「very good」を含むが、aspect termを含まない。補填部１０８は、ハッシュタグに含まれる「network connection」を、aspect termとして取得する。

なお、補填部１０８の補填方法は、上記の例に限られない。例えば、ユーザが、ＳＮＳの投稿として、「I went to XYZ mobile shop. The network connection becomes...」といった第１コメントを入力したとする。この第１コメントに、ハッシュタグ「#very good」が関連付けられていたとする。変形例３で説明したように、この第１コメントの２つ目の第１センテンスは、opinion wordを含まない。補填部１０８は、ハッシュタグに含まれる「very good」を、opinion wordとして取得してもよい。

変形例４の意見分析システム１は、第１コメントに関連付けられたハッシュタグに基づいて、他の要素を補填する。これにより、第１センテンスが不完全だった場合の他の要素の補填の精度が高まる。例えば、第１センテンスがaspect termを含まない不完全なものだったとしても、第１センテンスに関連付けられたハッシュタグから取得されたaspect termで補填できる。例えば、第１センテンスがopinion wordを含まない不完全なものだったとしても、第１センテンスに関連付けられたハッシュタグから取得されたopinion wordで補填できる。

［５－５．変形例５］
例えば、実施形態及び変形例１～４では、第１センテンスに対する意見分析が実行される場合を説明したが、第２センテンスに対する意見分析が実行されてもよい。第２センテンスに対する意見分析は、実施形態及び変形例１～４における意見分析部１０６の説明で第１センテンスと記載した箇所を第２センテンスと読み替えるようにすればよい。なお、意見分析部１０６は、第１センテンス又は第２センテンスに対する意見分析を実行すればよい。意見分析部１０６は、第１センテンス及び第２センテンスの両方に対する意見分析を実行してもよい。

意見分析部１０６は、トピックワードに基づいて、第２センテンスにおける意見を分析する。例えば、意見分析部１０６は、第２センテンスにトピックワードが含まれるか否かを判定することによって、意見を分析する。第２センテンスにトピックワードが含まれると判定された場合に、第２センテンスのうち、当該トピックワードの部分以外の他の部分に基づいて、他の要素を取得することによって、意見を分析してもよい。例えば、意見分析部１０６は、他の部分の中から、第２センテンスに含まれるトピックワードと係り受けの関係にある係り受けワードを、他の要素として取得してもよい。これらの処理は、実施形態で第１センテンスと記載した箇所を、第２センテンスと読み替えることにより実行されるようにすればよい。

例えば、変形例２と同様に、第２コメントは、質問に対する回答であってもよい。例えば、変形例３と同様に、補填部１０８は、第２センテンスと似た内容を含む第３センテンスから取得された他の要素に基づいて、第２センテンスの他の要素を補填してもよい。例えば、変形例４と同様に、第２コメントには、ハッシュタグを一例とする分類情報が関連付けられていてもよい。第２コメントが不完全である場合に不足した要素を補填する方法は、変形例２～４の説明で第１センテンスと記載した箇所を第２センテンスと読み替えるようにすればよい。

変形例５の意見分析システム１は、第２センテンスにおける意見を分析する。これにより、第１コメントに基づいて取得したトピックワードを利用して、第２センテンスにおける意見分析を実行できる。

また、意見分析システム１は、第２センテンスに意見ワードが含まれるか否かを判定することによって、意見を分析する。これにより、クラスタＣを代表するトピックワードを含む第２センテンスの意見分析を実行できるので、意見分析の精度が高まる。

［５－６．変形例６］
例えば、変形例５のように第２センテンスにおける意見を分析する場合に、意見分析部１０６は、トピックワードに基づいて、意見を分析するための意見分析モデルＭ２の学習を実行する。意見分析モデルＭ２は、機械学習手法を利用した機械学習モデルの一例である。このため、意見分析モデルＭ２と記載した箇所は、機械学習モデルと読み替えることができる。

例えば、意見分析モデルＭ２は、教師有り学習、半教師有り学習、又は教師無し学習の何れの手法を利用してもよい。本実施形態では、ＢＥＲＴと呼ばれる手法を利用した意見分析モデルＭ２を例に挙げるが、意見分析モデルＭ２は、ＢＥＲＴ以外のTransformer又はニューラルネットワークの手法を利用してもよい。例えば、意見分析モデルＭ２は、Ｑ＆Ａベースモデルと呼ばれる手法が利用されてもよい。

意見分析モデルＭ２には、第１センテンスと、第１センテンスから取得されたaspect term、opinion word、及びpolarityと、のペアである訓練データが学習されている。第１センテンスからaspect term、opinion word、及びpolarityを取得する方法は、実施形態で説明した方法と同様の方法が利用されてよい。訓練データは、人手で作成されてもよいし、公知のツールが利用されて自動的に作成されてもよい。例えば、意見分析モデルＭ２は、第１センテンスが入力されると、第１センテンスから取得されたaspect term、opinion word、及びpolarityが出力されるように、パラメータが調整されている。意見分析モデルＭ２の学習手法自体は、機械学習手法で利用されている種々の手法を利用可能である。

例えば、意見分析部１０６は、学習済みの意見分析モデルＭ２と、第２センテンスと、に基づいて、意見を分析する。意見分析部１０６は、学習済みの意見分析モデルＭ２に対し、第２センテンスを入力する。意見分析モデルＭ２は、第２センテンスの特徴ベクトルを計算し、特徴ベクトルに応じたaspect term、opinion word、及びpolarityを出力する。意見分析部１０６は、意見分析モデルＭ２が出力したaspect term、opinion word、及びpolarityを取得することによって、意見を分析する。

変形例６の意見分析システム１は、トピックワードに基づいて、意見を分析するための意見分析モデルＭ２の学習を実行する。意見分析システム１は、学習済みの意見分析モデルＭ２と、第２センテンスと、に基づいて、意見を分析する。これにより、第２センテンスに対する意見分析の精度が高まる。

［５－７．その他変形例］
例えば、上記変形例を組み合わせてもよい。

例えば、サーバ１０で実現されるものとして説明した機能は、ユーザ端末２０又は他のコンピュータで実現されてもよいし、複数のコンピュータで分担されてもよい。例えば、コメント取得部１０１が第１のコンピュータで実現され、形態素解析部１０２及び結合部１０３が第２のコンピュータで実現され、クラスタリング実行部１０４、トピックワード取得部１０５、及び意見分析部１０６が第３のコンピュータで実現されるといったように、複数のコンピュータで処理が分担されてもよい。

１意見分析システム、Ｂボタン、Ｆ入力フォーム、Ｎネットワーク、１０サーバ、１１制御部、１２記憶部、１３通信部、２０ユーザ端末、２１制御部、２２記憶部、２３通信部、２４操作部、２５表示部、Ｍ１極性推定モデル、Ｍ２意見分析モデル、ＳＣ入力画面、１００データ記憶部、１０１コメント取得部、１０２形態素解析部、１０３結合部、１０４クラスタリング実行部、１０５トピックワード取得部、１０６意見分析部、１０７クラスタ推定部、１０８補填部、２００データ記憶部、２０１表示制御部、２０２操作受付部、ＤＢ１コメントデータベース、ＤＢ２クラスタデータベース、ＤＢ３辞書データベース。

Claims

サービスを利用するユーザにより入力された、前記サービスに関する第１コメントを取得するコメント取得部と、
前記第１コメントに関するクラスタリングを実行するクラスタリング実行部と、
前記クラスタリングの実行結果に基づいて、前記サービスに対する意見に関する意見ワードを取得する意見ワード取得部と、
前記意見ワードに基づいて、前記第１コメントに含まれる第１センテンスにおける前記意見を分析する意見分析部と、
を含む意見分析システム。
前記意見分析部は、前記意見ワードに基づいて、前記第１センテンスにおける前記意見を分析する、
請求項１に記載の意見分析システム。
前記クラスタリング実行部は、前記第１センテンスに関する特徴に基づいて、前記第１センテンスに関する前記クラスタリングを実行し、
前記意見ワード取得部は、前記第１センテンスに関するクラスタごとに、前記意見ワードを取得する、
請求項１又は２に記載の意見分析システム。
前記意見分析部は、前記第１センテンスに前記意見ワードが含まれるか否かを判定することによって、前記意見を分析する、
請求項１又は２に記載の意見分析システム。
前記意見は、前記意見ワードと、当該意見ワードに関する他の要素と、を含む複数の要素で表現され、
前記意見分析部は、前記第１センテンスに前記意見ワードが含まれると判定された場合に、前記第１センテンスのうち、当該意見ワードの部分以外の他の部分に基づいて、前記他の要素を取得することによって、前記意見を分析する、
請求項４に記載の意見分析システム。
前記意見分析部は、前記他の部分の中から、前記第１センテンスに含まれる前記意見ワードと係り受けの関係にある係り受けワードを、前記他の要素として取得する、
請求項５に記載の意見分析システム。
前記複数の要素は、前記意見ワード、前記係り受けワード、及び前記意見に関する極性を含み、
前記意見分析部は、前記意見ワード及び前記係り受けワードの少なくとも一方に基づいて、前記極性を取得することによって、前記意見を分析する、
請求項６に記載の意見分析システム。
前記意見ワード取得部は、前記クラスタリングの実行結果に基づいて、クラスタごとに、前記意見ワードに関する複数の候補ワードを取得し、当該複数の候補ワードの中から、前記意見ワードを取得する、
請求項１又は２に記載の意見分析システム。
前記意見ワード取得部は、前記候補ワードごとに、当該候補ワードに関する出現頻度を計算し、当該出現頻度に基づいて、前記意見ワードを取得する、
請求項８に記載の意見分析システム。
前記クラスタリング実行部は、
前記第１センテンスに対し、形態素解析を実行し、
前記第１センテンスから取得された複数の形態素の中に、互いに連続する複数の名詞が含まれている場合には、当該複数の名詞を結合して結合名詞を取得し、
前記結合名詞に基づいて、前記クラスタリングを実行する、
請求項１又は２に記載の意見分析システム。
前記意見分析システムは、クラスタごとに、当該クラスタの前記意見ワードと、所定のトピックに関連付けられた関連ワードと、に基づいて、当該クラスタが当該所定のトピックに関係するか否かを推定するクラスタ推定部を更に含み、
前記意見分析部は、当該推定結果に基づいて、前記意見を分析する、
請求項１又は２に記載の意見分析システム。
前記意見分析システムは、前記他の部分から前記他の要素が取得されなかった場合に、所定の補填方法に基づいて、前記他の要素を補填する補填部を更に含む、
請求項５に記載の意見分析システム。
前記第１コメントは、質問に対する回答であり、
前記補填部は、前記質問の内容に基づいて、前記他の要素を補填する、
請求項１２に記載の意見分析システム。
前記補填部は、前記第１センテンスと似た内容を含む第３センテンスから取得された前記他の要素に基づいて、前記第１センテンスの前記他の要素を補填する、
請求項１２に記載の意見分析システム。
前記第１コメントには、前記第１コメントに関する分類が関連付けられており、
前記補填部は、前記分類に基づいて、前記他の要素を補填する、
請求項１２に記載の意見分析システム。
前記意見分析部は、前記意見ワードに基づいて、前記第１コメントに含まれる第１センテンス又は第２コメントに含まれる第２センテンスにおける前記意見を分析する、
請求項１又は２に記載の意見分析システム。
前記意見分析部は、前記意見ワードに基づいて、前記第２センテンスにおける前記意見を分析する、
請求項１６に記載の意見分析システム。
前記意見分析部は、
前記第２センテンスに前記意見ワードが含まれるか否かを判定することによって、前記意見を分析する、
請求項１６に記載の意見分析システム。
コンピュータが、
サービスを利用するユーザにより入力された、前記サービスに関する第１コメントを取得するコメント取得ステップと、
前記第１コメントに関するクラスタリングを実行するクラスタリング実行ステップと、
前記クラスタリングの実行結果に基づいて、前記サービスに対する意見に関する意見ワードを取得する意見ワード取得ステップと、
前記意見ワードに基づいて、前記第１コメントに含まれる第１センテンスにおける前記意見を分析する意見分析ステップと、
を実行する意見分析方法。
サービスを利用するユーザにより入力された、前記サービスに関する第１コメントを取得するコメント取得部、
前記第１コメントに関するクラスタリングを実行するクラスタリング実行部、
前記クラスタリングの実行結果に基づいて、前記サービスに対する意見に関する意見ワードを取得する意見ワード取得部、
前記意見ワードに基づいて、前記第１コメントに含まれる第１センテンスにおける前記意見を分析する意見分析部、
としてコンピュータを機能させるためのプログラム。