JP6821528B2

JP6821528B2 - 評価装置、評価方法、ノイズ除去装置、およびプログラム

Info

Publication number: JP6821528B2
Application number: JP2017170216A
Authority: JP
Inventors: 大輔坂本
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2021-01-27
Anticipated expiration: 2037-09-05
Also published as: US20190073682A1; CN109426987A; CN109426987B; JP2019046289A; US11132699B2

Description

本発明は、評価装置、評価方法、ノイズ除去装置、およびプログラムに関する。

従来、企業および団体など（以下、「企業」と称する）が利用するブランドに関して、テレビ、新聞、雑誌、Ｗｅｂ記事などの各種メディアに掲載された情報を収集し、世間におけるブランドの露出度、ブランドに対するイメージなどの評価が行われている。このようなブランドの評価を行うことで、企業はブランド戦略の決定などに役立てることができる。

例えば、特許文献１においては、所定のブランドについて、メディアに露出された情報を収集し、ブランドのメディアへの露出度、ブランドに関する世間の興味関心を表すブランド関心度などを算出し、それらを統合して所定の評価指標を算出するブランド評価方法が提案されている。

また、特許文献２においては、インターネット上のテキスト分析を行い、投稿者が希望した希望文とその希望を実行した実行文とを抽出して、投稿者の希望をかなえる有言実行度を求める情報分析を行う。有言実行度を求めるにあたっては、希望文に含まれる希望を示す表現と、実行文に含まれる実行を示す表現と、希望文および実行文の両方に含まれる対象語と、を抽出している。

特開２０１５−９５２４９号公報特開２０１６−７１５９６号公報

特許文献１に記載された情報分析方法を利用し、例えば所定のブランドに関してメディアに露出された情報を取得して評価指標を算出しているが、この評価方法では、例えば、ブランドの所有者である企業が期待するブランドのイメージと、世間の反応とのギャップを評価することが出来なかった。また、メディアに露出された情報が肯定的なものであるのか否定的なものであるのかを適切に評価することが出来なかった。

また、従来のブランド評価方法においては、テレビ、新聞、雑誌などのメディアが重視されていたが、近年は、世間の反応が顕著に表れるソーシャルネットワーキングサービス（ＳＮＳ）などを含む様々なメディアを総合的かつ平等に評価する必要がある。また、ブランドに関してメディアに露出された情報を取得したとしても、取得した情報に含まれたノイズによって、総合的かつ平等な評価が難しくなることがあった。

本発明は、このような事情を考慮してなされたものであり、取得した情報に含まれたノイズによらず、企業が期待するブランドのイメージと世間（需要家）の反応とのギャップを評価し、企業が行った活動などによって世間がどのように反応したのかについて適切に評価することが可能な評価装置、評価方法、ノイズ除去装置、およびプログラムを提供することを目的の一つとする。

（１）：対象事物に関し、メディアを介して需要家に提供された提供情報を取得する提供情報取得部（例えば、収集部１０）と、投稿者により投稿された投稿情報を取得する投稿情報取得部（例えば、収集部１０）と、前記投稿情報取得部により取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去するノイズ除去部（例えば、ノイズ除去部１４）と、前記ノイズ除去部によりノイズが除去された投稿情報に基づいて、前記対象事物の評価を行う評価部（例えば、スコアリング部２０）と、を備える評価装置である。

（２）：（１）において、前記ノイズ除去部は、前記感性表現が含まれる前記投稿情報における前記提供情報に対応する部分を、前記提供情報から前記感性表現を除去した代替情報に置換するものである。

（３）：（１）または（２）において、前記ノイズ除去部は、前記投稿情報および前記提供情報に含まれる単語の性質ごとに重み付けを行うものである。

（４）：（１）から（３）のいずれか１つにおいて、前記投稿情報取得部は、前記提供情報に対する感想を含む投稿情報を選択的に取得するものである。

（５）：（４）において、前記投稿情報は、所定の発信源から発信された提供情報に対する感想に関する投稿情報であるものである。

（６）：（１）から（５）のいずれか１つにおいて、前記投稿情報取得部により取得され、前記ノイズ除去部によってノイズが除去された投稿情報に含まれる文章の構文解析を行う構文解析部（例えば、解析部１６）と、前記構文解析部における解析結果をスコアリングするスコアリング部と、を備え、前記スコアリング部は、前記対象事物と前記スコアリングされた解析結果との関連付けを行うものである。

（７）：（６）において、前記スコアリング部は、前記構文解析部で解析された解析結果に重み付けを行うものである。

（８）：対象事物に関し、メディアを介して需要家に提供された提供情報を取得する提供情報取得部（例えば、収集部１０）と、投稿者により投稿された投稿情報を取得する投稿情報取得部（例えば、収集部１０）と、前記投稿情報取得部により取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去するノイズ除去部（例えば、ノイズ除去部１４）と、を備えるノイズ除去装置である。

（９）：コンピュータが、対象事物に関し、メディアを介して需要家に提供された提供情報を取得し、投稿者により投稿された投稿情報を取得し、取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去し、ノイズが除去された投稿情報に基づいて、前記対象事物の評価を行う、評価方法である。

（１０）：コンピュータに、対象事物に関し、メディアを介して需要家に提供された提供情報を取得させ、投稿者により投稿された投稿情報を取得させ、取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去させ、ノイズが除去された投稿情報に基づいて、前記対象事物の評価を行わせる、プログラムである。

（１）〜（７）、（９）、（１０）によれば、取得した情報に含まれたノイズによらず、企業または団体が期待するブランドのイメージと世間（需要家）の反応とのギャップを評価し、企業または団体が行った活動などによって世間がどのように反応したのかについて適切に評価することができる。また、ブランドのイメージと世間の反応とのギャップを評価する場合、メディアに露出された情報の確からしさも含めて適切に評価し、さらに企業のリスクの程度も評価することができる。

（８）によれば、取得した情報に含まれるノイズを精度よく除去することができる。

実施形態における評価装置の一例を示す機能ブロック図である。実施形態における代替表現辞書に記憶された宣伝データおよび代替表現データの一例を示す図である。実施形態における評価装置の処理の流れの一例を示すフローチャートである。実施形態における評価装置のノイズ除去処理の流れの一例を示すフローチャートである。ノイズ除去の処理パターンの性質を説明する図である。（Ａ）は、ノイズ除去前の処理対象データを示す図、（Ｂ）は、ノイズ除去後の処理対象データを示す図である。実施形態においてタグ付け処理が行われた処理対象データの一例を示す図である。実施形態における評価装置のスコアリング処理の一例を示す図である。ノイズ除去部によるノイズの除去を行った場合と行わなかった場合の結果を説明する図である。

以下、図面を参照し、本発明のいくつかの実施形態における評価装置、評価方法、ノイズ除去装置、およびプログラムについて説明する。

図１は、本発明の実施形態における評価装置１の一例を示す機能ブロック図である。評価装置１は、メディアＭ（情報媒体）から処理の対象となるデータ（以下、「処理対象データ」と称する）を収集して解析することで、評価対象となるブランドに関する評価を行う。メディアＭは、例えば、テレビ、新聞、雑誌、ウェブ記事、ウェブログ、短文投稿サービスなどのＳＮＳ、株主のレポートを含む。

評価装置１は、ブランド（対象事物）に関する評価指標として、「ミラースコア」、「サーモスコア」、「リスク値」という３つの値を算出する。「ミラースコア」とは、評価対象となるブランドを所有する企業（発信源）が、同ブランドを世間にどのように見られたいか定義した内容に対して、世間が同ブランドをどのように思っているのかを表す指標である。「ミラースコア」とは、企業が期待する内容を示す用語の出現頻度を示す。このミラースコアを算出することで、企業が期待するブランドのイメージと世間の反応とのギャップを把握することができる。世間の反応は、世間（需要家）がＳＮＳ等のメディアＭに投稿する処理対象データ（投稿情報）に含まれる感想に表されている。処理対象データに含まれる感想は、感性表現によって分類することができる。

「サーモスコア」とは、評価対象となるブランドを所有する企業の活動によって世間の感情（感性）を高めることができたかを表す指標である。「サーモスコア」とは、世間（需要家）の反応を示す用語の出現頻度を示す。このサーモスコアを算出することで、評価対象となるブランドに対する世間の感情を高めることができたか、世間の支持を得ることができたかを把握することができる。「リスク値」とは、評価対象となるブランドに関して、発生したリスクの程度を示す指標である。「リスク値」は企業または団体のリスクを示す用語の出現頻度およびメディアＭ（情報媒体）の種類に基づいて算出される。

評価装置１は、例えば、収集部１０（提供情報取得部、投稿情報取得部）と、スクリーニング部１２と、ノイズ除去部１４と、解析部１６と、タグ付け部１８と、スコアリング部２０（評価部）と、表示部２２と、記憶部２４と、辞書ＤＢ２６とを備える。辞書ＤＢ２６は、例えば、企業辞書３０と、トピック辞書３２と、代替表現辞書３４と、感性辞書３６と、ミラー辞書３８と、サーモ辞書４０と、リスク辞書４２とを備える。

収集部１０は、メディアＭから処理対象データを収集して記憶部２４に記憶させる。収集部１０は、例えば、インターネットＮを介して、処理対象データを収集する。処理対象データには、例えば投稿者が投稿するデータや企業または団体により予め設定されたブランドに関連するキャッチフレーズなどのデータが含まれる。このデータは、例えば対象事物に関し、メディアを介して需要家に提供された宣伝データである。収集部１０は、日次、週次などの所定のタイミングで処理対象データを収集する。収集部１０は、処理対象データのうち、提供情報に対する感想を含む投稿情報を選択的に取得してもよい。また、収集元となるメディアＭは、評価装置１のユーザによって予め決定されていてもよい。また、収集部１０が、予め定義された文字列を含むインターネット上の文書などを周期的に収集するクローリング処理を行ってもよい。なお、評価装置１がオペレータＰによる入力を受け付ける受付部（図示しない）を備え、収集部１０がこの受付部に入力された処理対象データを収集してもよい。

スクリーニング部１２は、収集部１０によって収集された処理対象データのうち、評価対象となるブランドに関係ない処理対象データを除外し、評価対象となるブランドに関する処理対象データを抽出する。スクリーニング部１２は、メディアＭ（情報媒体）から収集されたデータの中から、企業または団体により予め設定されたブランドに関連するデータを識別して抽出する。例えば、スクリーニング部１２は、企業辞書３０に記憶された辞書データを読み出す。この辞書データが、評価対象となるブランドとなる。そして、スクリーニング部１２は、このブランドの同音異義語を含む処理対象データを除外する。また、例えば、スクリーニング部１２は、予め定義された特定のＵＲＬから取得した処理対象データを除外し、予め定義された特定ＩＤのウェブログおよびＳＮＳから取得した処理対象データを除外し、同一のテキストを含むデータが多数存在する場合には異常データとして除外してもよい。

ノイズ除去部１４は、スクリーニング部１２でスクリーニングされた処理対象データのテキストから、ノイズを除去する。処理対象データに含まれるノイズは、処理対象データのうち、処理対象データの宣伝データ（提供情報）との合致度合が所定割合以上となる部分（以下「宣伝データ相当部分」という）に含まれる感性表現（特定表現）である。例えば、ノイズ除去部１４は、処理対象データに含まれる宣伝データ相当部分に対応する代替表現データ（代替情報）を代替表現辞書３４から抽出する。代替表現データは、宣伝データから感性表現が除かれて生成されたデータである。そして、ノイズ除去部１４は、処理対象データにおける宣伝データ相当部分に対応するデータを代替表現データに置換する。また、処理対象データのうち、宣伝データに付随するデータであって、感性表現を含まないデータのテキストについては、合わせて削除される。宣伝データに付随するデータであるか否かの判断が難しい場合には、宣伝データに付随するデータは削除されることなくそのまま残る。

ノイズ除去部１４で除去される感性表現は、宣伝データに含まれる感性表現である。このため、処理対象データのうち、宣伝データ相当部分に含まれていない感性表現は、ノイズ除去部１４によって除外されないことになる。なお、処理対象データの宣伝データとの合致度合とは、処理対象データにおける宣伝データ相当部分と宣伝データとの一致割合をいう。したがって、例えば、処理対象データのうち、宣伝データ相当部分が宣伝データのテキスト全体の９０％であるときに、処理対象データの宣伝データとの合致度合が９０％となる。ノイズを除去するための宣伝データ相当部分と判断するための所定割合は適宜設定することができ、例えば１００％としてもよいし、９０％や８０％、あるいは５０％などとしてもよい。また、所定割合は、評価の程度などの諸条件に応じて適宜設定するようにしてもよい。

解析部１６は、処理対象データに含まれるテキストを単語レベルに分割し、同じ意味のブランドを関連付けする形態素解析処理を行って、処理対象データの文章の解析を行う。例えば、解析部１６は、同一のブランドを示すアルファベット表記、漢字表記、カタカナ表記、平仮名表記などを関連付けし、同一のブランドを示すデータとして処理する。また、解析部１６は、アルファベット表記に関しては、大文字、小文字、および大文字と小文字の混合文字の違いがある場合であっても、同一のブランドを示すデータとして処理してもよい。また、解析部１６は、誤記（漢字変換誤記など）を含むテキストについても、評価対象となるブランドを示すデータとして処理してもよい。これにより、表記のゆれを補正することが可能である。

また、解析部１６は、テキストに含まれる単語の係り受け元および係り受け先の関係を把握するとともに、テキストに含まれる単語の表現の強弱、多重否定、肯定疑問、係り受け、比較、方言の解釈を行う構文解析処理を行う。表現の強弱を解釈するとは、例えば、「Ａ製品は極めて良い」という表現における“極めて”と、「Ａ製品は若干良い」という表現における“若干”とでは、前者の“極めて”の方がより強い表現であると解釈することである。また、多重否定を解釈するとは、例えば、「Ａ製品は良くない訳ではない」という二重の否定を含む表現を肯定的な表現として正しく解釈することである。

また、肯定疑問を解釈するとは、例えば、「Ａ製品は良い製品だよね？」という肯定的な意図で表現された疑問文を肯定的な表現として解釈することである。また、係り受けを解釈するとは、例えば、「良いのはＡ製品だよね？」という表現のように修飾語の位置が前後逆になっている場合であってもその意味を正しく解釈することである。この「良いのはＡ製品だよね？」は、肯定的な表現として解釈される。

また、比較を解釈するとは、「Ａ製品は以前のモデルのほうが良かった」というＡ製品の現在のモデルと以前のモデルとを比較する表現に対しては、Ａ製品は悪くなったという意図である判断し、否定的な表現として解釈することである。また、方言を解釈するとは、例えば、「Ａ製品はめんこい製品です」という表現における方言“めんこい”については、標準語“かわいい”の意図であると判断してその意味を正しく解釈することである。
この「Ａ製品はめんこい製品です」については、肯定的な表現として解釈される。上記のような構文解析処理を行うことで、意味理解の精度を高めることができる。

タグ付け部１８は、企業辞書３０と、トピック辞書３２と、感性辞書３６と、ミラー辞書３８と、サーモ辞書４０と、リスク辞書４２とを参照し、処理対象データの各々に含まれるテキストの解析結果に対して、「企業タグ」、「トピックタグ」、「感性タグ」、「ミラータグ」、「サーモタグ」、「リスクタグ」のタグ付けを行う。タグ付け処理の詳細については後述する。

スコアリング部２０は、タグ付け部１８よってタグ付け処理が行われた処理対象データに基づいて、ミラースコア、サーモスコア、およびリスク値を算出するスコアリング処理を行う。例えば、スコアリング部２０は、処理対象データ内に「企業タグ」と「トピックタグ」と「ミラータグ」との組み合わせでタグ付けされた文字列を対象に、ミラースコアの算出を行う。また、例えば、スコアリング部２０は、処理対象データ内に「企業タグ」と「トピックタグ」と「サーモタグ」との組み合わせでタグ付けされた文字列を対象に、サーモスコアの算出を行う。また、例えば、スコアリング部２０は、処理対象データ内に「企業タグ」と「トピックタグ」と「リスクタグ」の組み合わせでタグ付けされた文字列を対象に、リスク値の算出を行う。また、例えば、スコアリング部２０は、処理対象データ内に「企業タグ」と「リスクタグ」との組み合わせでタグ付けされた文字列を対象に、リスク値の算出を行う。

収集部１０、スクリーニング部１２、ノイズ除去部１４、解析部１６、タグ付け部１８、およびスコアリング部２０のうち一部または全部は、プロセッサ（コンピュータ）がプログラム（ソフトウェア）を実行することにより実現される。また、これらのうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。

表示部２２は、スコアリング部２０によって算出されたミラースコア、サーモスコア、およびリスク値を表示する。評価装置１のユーザは、表示部２２に表示されたミラースコア、サーモスコア、およびリスク値を確認することで、対象となるブランドの評価を行うことができる。表示部２２は、例えば、液晶ディスプレイや有機ＥＬ（Electroluminescence）表示装置などである。

記憶部２４は、収集部１０によって収集された処理対象データを記憶する。記憶部２４は、例えば、収集元のメディアの種類と、処理対象データとを関連付けして記憶する。

辞書ＤＢ２６は、スクリーニング部１２、ノイズ除去部１４、解析部１６、タグ付け部１８、およびスコアリング部２０によって行われる各種処理において使用される辞書データを記憶する。記憶部２４および辞書ＤＢ２６は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリなどで実現される。

企業辞書３０は、企業が所有するブランドであって、評価対象となるブランドの辞書データを記憶する。企業辞書３０は、例えば、企業名、製品名、サービス名、企業の社長の名前など、その企業を特徴付ける用語を記憶する。

トピック辞書３２は、世間で話題となっていることが想定されるトピックの辞書データを記憶する。例えば、評価対象となるブランドに関してニュースリリースなどの情報が世間に発表された場合には、トピック辞書３２は、このニュースリリースに記載されたトピックを記憶する。トピック辞書３２は、例えば、「新型」、「発売開始」、「発表」、「世界発披露」など、評価対象となるブランドに関連付けされた用語を記憶する。

代替表現辞書３４は、企業または団体のブランドの製品を宣伝するキャッチフレーズとなる宣伝データおよびそのキャッチフレーズから感性表現を除去した代替表現データをテキストで記憶する。図２は、本実施形態における代替表現辞書３４に記憶された宣伝データおよび代替表現データの一例を示す図である。代替表現辞書３４は、感性表現を含む宣伝データと、この宣伝データを、感性表現を除いて置換する代替表現データを記憶している。このため、代替表現データは、感性表現を含まないデータとなっている。

代替表現辞書３４は、例えば、「自立安定制御の機能により、バイクのある日常をより楽しく」という宣伝データＮｏ１を記憶している。宣伝データＮｏ１には「楽しく」という感性表現が含まれている。「楽しく」という表現は、「楽しい」という感性につながることから感性表現と判断される。代替表現辞書３４は、宣伝データＮｏ１を置換する「自立バイク」という代替表現データＮｏ１を記憶している。代替表現データＮｏ１は、宣伝データＮｏ１から「楽しく」という感性表現を除き、かつ宣伝データＮｏ１の内容を端的に示すデータとなっている。

代替表現辞書３４は、「新たにダイナミックかつ心地良いハンドリングを提供」という宣伝データＮｏ２を記憶している。宣伝データＮｏ２には、「ダイナミック」「心地良い」という感性表現が含まれている。「ダイナミック」「心地良い」は、いずれも「良い」という感性につながることから感性表現と判断される。

代替表現辞書３４は、「２０１４年度から３年連続で新車販売台数第１位を獲得」という宣伝データＮｏ３を記憶している。宣伝データＮｏ３には、「１位を獲得」という感性表現が含まれている。「１位を獲得」は、「うれしい」という感性につながることから感性表現と判断される。

代替表現辞書３４は、「燃費性能をさらに向上させ、低燃費と走る楽しさを高次元で両立」という宣伝データＮｏ４を記憶している。宣伝データＮｏ４には、「高次元で両立」という感性表現が含まれている。「高次元で両立」は、「良い」という感性につながることから感性表現と判断される。

代替表現辞書３４は、その他に、「好き」「賞賛」「新しい」「嫌い」などの感性表現を含む語およびこれらの感性表現を含む語につながる語を含む宣伝データを記憶している。代替表現辞書３４は、さらに、これらの宣伝データに対応する代替表現データも記憶している。代替表現辞書３４は、これらの宣伝データに含まれるテキストを単語レベルで記憶している。

感性辞書３６は、処理対象データの意味解析のために使用される辞書データを記憶する。感性辞書３６は、スコアリング部２０によって行われる処理対象データのポジティブおよびネガティブ判定処理に必要な辞書データを記憶する。

ミラー辞書３８は、企業のブランドが世間においてどのように見られたいのか、どのような言葉でそのブランドを表して欲しいのかを定義した辞書データを記憶する。ミラー辞書３８は、例えば、少なくとも１つの大分類を示す用語と、各大分類に関連付けされた少なくとも１つの中分類を示す用語と、各中分類に関連付けされたキーワードとを記憶する。このキーワードが、辞書データとして使用される。なお、ミラー辞書３８は、大分類、中分類、キーワードというデータ構成を有する必要はなく、大分類のみを定義してもよいし、さらに細かな分類を定義してもよいし、分類を定義せずにキーワードのみを記憶してもよい。

サーモ辞書４０は、評価対象となるブランドを所有する企業の活動によって世間の感情を高めることができたかを評価するための辞書データを記憶する。サーモ辞書４０は、世間の肯定的な感情を表す用語、例えば「安心」、「満足」、「好き」、「期待」を記憶している。また、サーモ辞書４０は、世間の否定的な感情を表す用語、例えば「不安」、「不満」、「嫌い」、「失望」という上記の肯定的な感情を表す用語と相対する用語を記憶している。また、サーモ辞書４０は、上記の感情を表す用語と関連付けされたキーワードを記憶してもよい。サーモ辞書４０は、例えば、「期待」に関連付けされたキーワードとして「是非チェック」、「今後が楽しみ」などを記憶してよい。

リスク辞書４２は、評価対象となるブランドに関して、企業が把握すべきリスクを示す辞書データを記憶する。リスク辞書４２は、例えば、少なくとも１つの大分類を示す用語と、各大分類に関連付けされた少なくとも１つの中分類を示す用語と、各中分類に関連付けされた少なくとも１つの小分類を示す用語と、各小分類に関連付けされたキーワードとを記憶する。このキーワードが、辞書データとして使用される。なお、リスク辞書４２は、大分類、中分類、小分類、キーワードというデータ構成を有する必要はなく、大分類のみ若しくは大分類および中分類のみを設定してもよいし、さらに細かな分類を定義してもよいし、分類を定義せずにキーワードのみを記憶してもよい。

次に、本実施形態における評価装置１の動作について説明する。図３は、本実施形態における評価装置１の処理の流れの一例を示すフローチャートである。

まず、収集部１０は、メディアＭから処理対象データを収集し記憶部２４に記憶させる（ステップＳ１０１）。収集部１０は、例えば、インターネットＮを介して、処理対象データを収集する。収集部１０は、日次、週次などの所定のタイミングで処理対象データを収集する。また、評価装置１がオペレータＰによる入力を受け付ける受付部（図示しない）を備え、収集部１０がこの受付部に入力された処理対象データを収集してもよい。

次に、スクリーニング部１２は、記憶部２４に記憶された処理対象データを読み出し、評価対象となるブランドに関係ないデータを除外するスクリーニング処理を行う（ステップＳ１０３）。例えば、スクリーニング部１２は、企業辞書３０から辞書データ（評価対象となるブランド）を読み出し、このブランドの同音異義語を含むデータを除外する。

次に、ノイズ除去部１４は、スクリーニング部１２がスクリーニングした処理対象データにおける感性表現を含む宣伝データを代替表現データに置換して、ノイズとなる感性表現を除去する処理を行う（ステップＳ１０５）。

図４は、本実施形態における評価装置１のノイズ除去処理（ステップＳ１０５）の流れの一例を示すフローチャートである。まず、ノイズ除去部１４は、スクリーニング部１２でスクリーニングされた処理対象データと代替表現辞書３４に記憶された宣伝データとを比較する。（ステップＳ２０１）。

処理対象データと宣伝データとの比較を行うにあたり、ノイズ除去部１４は、処理対象データに含まれるテキストを単語レベルに分解し、代替表現辞書３４に記憶された単語レベルの宣伝データのテキストとの比較を行う。ノイズ除去部１４は、宣伝データのテキストに含まれる単語が、処理対象データにどの程度含まれているかによって、処理対象データと宣伝データとの合致度合を算出する。

処理対象データと宣伝データとの合致度合を算出する際には、例えば、処理対象データの中に同じ単語が複数含まれているときには、ノイズ除去部１４は、同じ単語であっても、例えば前後関係から、宣伝データに含まれる単語であるか否かを判断する。例えば、処理対象データが「自立安定制御の機能により、バイクのある日常をより楽しくだってさ。毎日が楽しくなるね。」というテキストである場合、ノイズ除去部１４は、「日常をより楽しく」に含まれる「楽しく」を宣伝データ（宣伝データＮｏ１）に含まれる単語と判断し、「毎日が楽しくなるね」に含まれる「楽しく」は、宣伝データ（宣伝データＮｏ１）に含まれない単語と判断する。

以下に、ノイズ除去を行う場合の処理パターンについて説明する。図５は、ノイズ除去の処理パターンの性質を説明する図である。図５に示すように、ノイズ除去を行う際の処理パターンとしては、処理パターンＡ、処理パターンＢ、処理パターンＣがある。処理パターンＡは、代替表現への置換があり、感性情報が残っている処理パターンである。処理パターンＢは、代替表現への置換があり、感性情報が残っていない処理パターンである。処理パターンＣは、代替表現への置換がない処理パターンである。処理パターンＣでは、感性情報の有無は処理対象データの内容に依存している。これらの処理パターンＡ、処理パターンＢ、および処理パターンＣのいずれもが、評価を行う際の集計の対象となる。

以下、ノイズ除去前の処理対象データとノイズ除去後の処理対象データの例について説明する。図６（Ａ）は、ノイズ除去前の処理対象データを示す図、（Ｂ）は、ノイズ除去後の処理対象データを示す図である。図６（Ｂ）には、各処理対象データの処理パターンも合わせて示している。

図６（Ａ）に示すように、処理対象データのテキストが『ホンダがなにやら変わったバイクを作っているぞー。』である文１には、図２に示す宣伝データに対応する宣伝データ相当部分が含まれていない。この場合には、図６（Ｂ）に示すように、ノイズ除去後の文１のテキストデータは、そのまま『ホンダがなにやら変わったバイクを作っているぞー。』となる。この場合のノイズ除去の処理パターンは処理パターンＣである。

処理対象データのテキストが『「今回発表するに至りましたステアバイワイヤを搭載したモデルは、新たにダイナミックかつ心地良いハンドリングを提供することをお約束するものです。」だそうだ。』である文２には、図２に示す宣伝データＮｏ２に対応する宣伝データ相当部分が含まれている。この場合、図６（Ｂ）に示すように、ノイズ除去後の文２のテキストデータは、宣伝データＮｏ２のテキストに対応する宣伝データ相当部分を代替表現データＮｏ２に置換し、『「ステアバイワイヤによるハンドリング」だそうだ。』となる。この場合のノイズ除去の処理パターンは処理パターンＢである。また、「今回発表に至りました」「を搭載したモデルは、」「することをお約束するものです。」等のテキストは、宣伝データに付随するデータであって、感性表現を含まないデータとして削除される。

処理対象データのテキストが『今回発表に至りましたステアバイワイヤを搭載したモデルは、新たにダイナミックかつ心地良いハンドリングを提供だってさ、凄いね。』である文３には、図２に示す宣伝データＮｏ２に対応する宣伝データ相当部分が含まれている。この場合、図６（Ｂ）に示すように、ノイズ除去後の文３のテキストデータは、宣伝データＮｏ２のテキストに対応する宣伝データ相当部分を代替表現データＮｏ２に置換し、『「ステアバイワイヤによるハンドリング」提供だってさ、凄いね。』となる。この場合のノイズ除去の処理パターンは処理パターンＡである。この例から分かるように、処理対象データの宣伝データとの合致度合が１００％でない場合でも、宣伝データに対応すると判断されるデータを代替表現データと置換する。同様にして、図６（Ａ）に示す文４の処理対象データは、図６（Ｂ）に示すデータに置換される。

また、処理対象データと宣伝データとの合致度合を算出するにあたり、処理対象データおよび宣伝データに含まれる部分の性質である単語に重み付けを行うようにしてもよい。例えば、宣伝データに含まれるテキストの単語のうち、動詞や形容詞については重み付けを重くし、接続詞や助詞などの重み付けを軽くするようにしてもよい。

例えば、宣伝データＮｏ２の「新たにダイナミックかつ心地良いハンドリングを提供」については、「新た」「ダイナミック」「心地良い」「ハンドリング」「提供」の重みを「３」とし、「に」「かつ」「を」の重みを「１」として重みづけをするようにしてもよい。なお、重み付けは、「３」「１」の２段階ではなく、さらに多くの段階をもって行うようにしてもよい。

次に、ノイズ除去部１４は、ステップＳ２０１における比較の結果、処理対象データに宣伝データとの合致度合が所定割合以上である部分があり、処理対象データに宣伝データ相当部分があるか否かを判定する（ステップＳ２０３）。ノイズ除去部１４は、処理対象データに宣伝データ相当部分があると判定した場合には、宣伝データ相当部分に対応する代替表現データ（図２参照）を代替表現辞書３４から選択し、処理対象データに含まれている宣伝データ相当部分と置換する代替表現データを選択する（ステップＳ２０５）。それから、ノイズ除去部１４は、処理対象データ中の宣伝データ相当部分を代替表現データに置換して、処理対象データに含まれる宣伝データ相当部分中の感性表現を除去する（ステップＳ２０７）。こうして、ノイズ除去処理を終了する。また、ステップＳ２０３において、処理対象データに宣伝データ相当部分がないと判定した場合には、そのままノイズ除去処理を終了する。

図３に戻り、次に、解析部１６は、ノイズ除去部１４でノイズ除去された処理対象データに含まれるテキストを単語レベルに分割し、同じ意味のブランドを関連付けする形態素解析処理を行う（ステップＳ１０７）。例えば、解析部１６は、同一のブランドを示すアルファベット表記、漢字表記、カタカナ表記、平仮名表記などを関連付けし、同一のブランドを示すデータとして処理して表記のゆれを補正する。

次に、解析部１６は、テキストに含まれる単語の係り受け元および係り受け先の関係を把握するとともに、テキストに含まれる単語の表現の強弱、多重否定、肯定疑問、係り受け、比較、方言の解釈を行う構文解析処理を行う（ステップＳ１０９）。

次に、タグ付け部１８は、処理対象データの各々に含まれるテキストに対して、「企業タグ」、「トピックタグ」、「感性タグ」、「ミラータグ」、「サーモタグ」、「リスクタグ」のタグ付けを行う（ステップＳ１１１）。

タグ付け部１８は、企業辞書３０に記憶された辞書データの文字列が処理対象データに含まれる場合には、処理対象データ内のその文字列に対して「企業タグ」を付与する。タグ付け部１８は、トピック辞書３２に記憶された辞書データの文字列が処理対象データに含まれる場合には、処理対象データ内のその文字列に対して「トピックタグ」を付与する。タグ付け部１８は、感性辞書３６に記憶された辞書データの文字列が処理対象データに含まれる場合には、処理対象データ内のその文字列に対して「感性タグ」を付与する。タグ付け部１８は、ミラー辞書３８に記憶された辞書データの文字列が処理対象データに含まれる場合には、処理対象データ内のその文字列に対して「ミラータグ」を付与する。タグ付け部１８は、サーモ辞書４０に記憶された辞書データの文字列が処理対象データに含まれる場合には、処理対象データ内のその文字列に対して「サーモタグ」を付与する。タグ付け部１８は、リスク辞書４２に記憶された辞書データの文字列が処理対象データに含まれる場合には、処理対象データ内のその文字列に対して「リスクタグ」を付与する。

図７は、本実施形態においてタグ付け処理が行われた処理対象データの一例を示す図である。図７に示す例では、「Ａ社」および「製品Ａ」という文字列に対して「企業タグ」が付与され、「販売開始」という文字列に対して「トピックタグ」が付与され、「独創的」という文字列に対して「ミラータグ」が付与され、「期待」という文字列に対して「サーモタグ」および「感性タグ」が付与され、「故障」という文字列に対して「リスクタグ」が付与されている。

次に、スコアリング部２０は、タグ付け部１８よってタグ付けが行われた処理対象データに基づいて、ミラースコア、サーモスコア、およびリスク値を算出するスコアリング処理を行う（ステップＳ１１３）。スコアリング部２０は、「企業タグ」と「トピックタグ」と「サーモタグ」との組み合わせでタグ付けされた処理対象データを対象に、処理対象データ毎のサーモスコアの算出を行う。スコアリング部２０は、付与された「企業タグ」と「トピックタグ」ごとのミラースコアとサーモスコアを用いて、評価値を算出する。

例えば、図８に示すように、「処理対象データ１」は、「新型」という「トピックタグ」が付与された文字列と、「製品Ａ」という「企業タグ」が付与された文字列と、「かっこよかった」という「ミラータグ（大分類「ヨロコビ」）」が付与された文字列と、「是非チェック」という「サーモタグ（「期待」に関連付けされたキーワード）」が付与された文字列とを含む。この場合、スコアリング部２０は、「製品Ａ」と「新型」と「ヨロコビ」との組み合わせで個別ミラースコアを「１．０」と算出する。また、スコアリング部２０は、「製品Ａ」と「新型」と「期待」との組み合わせで個別サーモスコアを「１．０」と算出する。

また、「処理対象データ２」は、「新型」という「トピックタグ」が付与された文字列と、「かっこよかった」という「ミラータグ（大分類「ヨロコビ」）」が付与された文字列と、「是非チェック」という「サーモタグ（「期待」に関連付けされたキーワード）」が付与された文字列とを含む。この場合、「企業タグ」が付与された文字列が存在しないため、スコアリング部２０は、個別ミラースコアおよび個別サーモスコアを「０．０」に設定する。

また、「処理対象データ３」は、「新型」という「トピックタグ」が付与された文字列と、「製品Ａ」および「Ａ社」という「企業タグ」が付与された文字列と、「かっこよかった」という「ミラータグ（大分類「ヨロコビ」）」が付与された文字列と、「是非チェック」という「サーモタグ（「期待」に関連付けされたキーワード）」が付与された文字列とを含む。即ち、「処理対象データ３」は、「企業タグ」が付与された「製品Ａ」および「Ａ社」という２つ文字列を含む。この場合、スコアリング部２０は、この２つも文字列のそれぞれについて、個別ミラースコアおよび個別サーモスコアを算出する。

ここで、「処理対象データ３」においては、「展示すごくかっこよかったです」という肯定的な表現を含んでいるが、これは、製品ＡまたはＡ社を肯定的に表現していない場合がある。即ち、「展示すごくかっこよかったです」という表現は、「展示」の方法についての肯定的な表現であるとも解釈できる。この場合、スコアリング部２０は、製品Ａを直接的に肯定的に表現する処理対象データ１よりも、低い個別ミラースコアおよび個別サーモスコアを算出する。例えば、スコアリング部２０は、「製品Ａ」と「新型」と「ヨロコビ」との組み合わせで個別ミラースコアを「０．５」と算出し、「Ａ社」と「新型」と「ヨロコビ」との組み合わせで個別ミラースコアを「０．５」と算出する。また、スコアリング部２０は、「製品Ａ」と「新型」と「期待」との組み合わせで個別サーモスコアを「０．５」と算出し、「Ａ社」と「新型」と「期待」との組み合わせで個別サーモスコアを「０．５」と算出する。

次に、スコアリング部２０は、「企業タグ」と「トピックタグ」と「リスクタグ」との組み合わせでタグ付けされた処理対象データを対象に、処理対象データ毎のリスク値（以下、「個別リスク値」と称する）の算出を行う。例えば、スコアリング部２０は、「リスクタグ」の数をカウントし、「リスクタグ」１つを１点としてスコアリングを行う。

次に、スコアリング部２０は、全ての処理対象データに対する個別スコアリング処理が完了した後、各処理対象データの収集元の種類に基づいて、重み付け処理を行う。スコアリング部２０は、メディアＭ（情報媒体）の種類に基づいて、ミラー辞書３８に記憶された用語を含むデータとサーモ辞書４０に記憶された用語を含むデータとに対して重み付けを行い、後述するミラースコアとサーモスコアの算出を行う。例えば、過去の統計データに基づいて、メディア毎の１日あたりの評価対象となるブランドの平均発言量を算出し、全てのメディアの影響が均一になるように重み付けを行う。例えば、新聞の重みを基準値の「１」とした場合、新聞と比較して発言量が少ないテレビについては、新聞よりも大きな重み「２」を設定する。また、新聞と比較して発言量が多いＳＮＳについては、新聞よりも小さな重み「０．１」を設定する。

次に、スコアリング部２０は、処理対象データに付与された「感性タグ」に基づいて、処理対象データの内容が、ポジティブな表現であるのか、ネガティブな表現であるのかを判定する感情判定処理を行う。スコアリング部２０は、処理対象データの各々について、ミラースコアおよびサーモスコア毎に、ポジティブ（肯定的）な内容を示すものであるのか、ネガティブ（否定的）な内容を示すものであるのかを判定する。

例えば、スコアリング部２０は、１つの処理対象データの中で、ポジティブな表現を示す箇所の数（ポジティブな表現の感性タグの数）がネガティブな表現を示す箇所の数（ネガティブな表現の感性タグの数）よりも多い場合には、その処理対象データは全体としてポジティブな表現であると判定する。また、スコアリング部２０は、１つの処理対象データの中で、ネガティブな表現を示す箇所の数がポジティブな表現を示す箇所の数よりも多い場合には、その処理対象データは全体としてネガティブな表現であると判定する。なお、スコアリング部２０は、１つの処理対象データの中で、ポジティブな表現を示す箇所の数とネガティブな表現を示す箇所の数とが同じである場合には、その処理対象データは全体としてニュートラルな表現であると判定する。また、スコアリング部２０は、「感性タグ」が付与されていない処理対象データについては、無感情と判定する。

次に、スコアリング部２０は、感情判定処理を行った処理対象データに基づいて、最終的なサーモスコアおよびミラースコアを算出する。例えば、スコアリング部２０は、評価対象となるブランド毎に、ポジティブな表現であると判定した処理対象データの個別ミラースコアの合計、およびネガティブな表現であると判定した処理対象データの個別ミラースコアの合計を算出する。また、スコアリング部２０は、ポジティブな表現であると判定した処理対象データの個別ミラースコアの合計から、ネガティブな表現であると判定した処理対象データの個別ミラースコアの合計を引いた値を、最終的なミラースコアとして算出する。

また、例えば、スコアリング部２０は、評価対象となるブランド毎に、ポジティブな表現であると判定した処理対象データの個別サーモスコアの合計、およびネガティブな表現であると判定した処理対象データの個別サーモスコアの合計を算出する。また、スコアリング部２０は、ポジティブな表現であると判定した処理対象データの個別サーモスコアの合計から、ネガティブな表現であると判定した処理対象データの個別サーモスコアの合計を引いた値を、最終的なサーモスコアとして算出する。また、スコアリング部２０は、算出したミラースコアおよびサーモスコアを記憶部２４に記憶させる。

次に、スコアリング部２０は、感情判定処理を行った処理対象データに基づいて、最終的なリスク値を算出し、リスクレベルを判定する。リスクレベルの判定においては、所定の閾値を基準として、例えば、リスクの「高」、「中」、「低」が判定される。以上により、スコアリング処理を終了する。

次に、スコアリング部２０は、算出したミラースコア、サーモスコア、リスク値などを、表示部２２に表示させる評価結果出力処理を行う。スコアリング部２０は、ミラースコアと、サーモスコアと、リスク値とを対比した画像を表示可能とする情報を生成し、表示部２２に表示させる。そして、ミラースコアと、サーモスコアと、リスク値を参照して評価値を算出し、評価結果として表示部２２に出力する（ステップＳ１１５）。

なお、算出したミラースコア、サーモスコア、リスク値を三次元空間にマッピングし、サポートベクターマシーンで評価値を算出するようにしてもよい。

上記の本実施形態の評価装置１によれば、取得した情報に含まれたノイズによらず、企業または団体が期待するブランドのイメージと世間（需要家）の反応とのギャップを評価し、企業または団体が行った活動などによって世間がどのように反応したのかについて適切に評価することができる。また、ブランドのイメージと世間の反応とのギャップを評価する場合、メディアに露出された情報の確からしさも含めて適切に評価し、さらに企業のリスクの程度も評価することができる。

また、例えば、感性タグが付与されたテキストは、スコアリング部２０における評価に大きな影響を与えるため、感性タグが付されたテキストがノイズとして残っていると、評価に対する精度を悪化させてしまう。この点、上記の本実施形態の評価装置１によれば、ノイズ除去部１４によってノイズ除去処理を行うことにより、処理対象データに含まれる感性表現のうち、宣伝データに含まれる感性表現が除去される。一例として、ノイズ除去部１４によるノイズの除去を行った場合と行わなかった場合の例を図９に示す。ノイズ除去を行わなかった場合には、図９（Ａ）に示すように、「楽しい」の語が含まれるテキストが３３４件であったが、ノイズ除去部１４によるノイズ除去を行った場合には、図９（Ｂ）に示すように、「楽しい」の語が含まれるテキストが１１５件であった。このように、処理対象データに含まれるノイズを好適に除去することができる。したがって、タグ付け部１８によって「感性タグ」を付与されるテキストから、宣伝データに含まれるテキストが除去される。よって、スコアリング部２０における評価の精度の悪化を抑制することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

１…評価装置、１０…収集部（提供情報取得部、投稿情報取得部）、１２…スクリーニング部、１４…ノイズ除去部、１６…解析部、１８…タグ付け部、２０…スコアリング部（評価部）、２２…表示部、２４…記憶部、２６…辞書ＤＢ、３０…企業辞書、３２…トピック辞書、３４…代替表現辞書、３６…感性辞書、３８…ミラー辞書、４０…サーモ辞書、４２…リスク辞書

Claims

対象事物に関し、メディアを介して需要家に提供された提供情報を取得する提供情報取得部と、
投稿者により投稿された投稿情報を取得する投稿情報取得部と、
前記投稿情報取得部により取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去するノイズ除去部と、
前記ノイズ除去部によりノイズが除去された投稿情報に基づいて、前記対象事物の評価を行う評価部と、
を備える評価装置。
前記ノイズ除去部は、前記感性表現が含まれる前記投稿情報における前記提供情報に対応する部分を、前記提供情報から前記感性表現を除去した代替情報に置換する請求項１に記載の評価装置。
前記ノイズ除去部は、前記投稿情報および前記提供情報に含まれる単語の性質ごとに重み付けを行う請求項１または２に記載の評価装置。
前記投稿情報取得部は、前記提供情報に対する感想を含む投稿情報を選択的に取得する請求項１から３のうちのいずれか一項に記載の評価装置。
前記投稿情報は、所定の発信源から発信された提供情報に対する感想に関する投稿情報である請求項４に記載の評価装置。
前記投稿情報取得部により取得され、前記ノイズ除去部によってノイズが除去された投稿情報に含まれる文章の構文解析を行う構文解析部と、
前記構文解析部における解析結果をスコアリングするスコアリング部と、を備え、
前記スコアリング部は、前記対象事物と前記スコアリングされた解析結果との関連付けを行う請求項１から５のうちのいずれか一項に記載の評価装置。
前記スコアリング部は、前記構文解析部で解析された解析結果に重み付けを行う請求項６に記載の評価装置。
対象事物に関し、メディアを介して需要家に提供された提供情報を取得する提供情報取得部と、
投稿者により投稿された投稿情報を取得する投稿情報取得部と、
前記投稿情報取得部により取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去するノイズ除去部と、
を備えるノイズ除去装置。
コンピュータが、
対象事物に関し、メディアを介して需要家に提供された提供情報を取得し、
投稿者により投稿された投稿情報を取得し、
取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去し、
ノイズが除去された投稿情報に基づいて、前記対象事物の評価を行う、
評価方法。
コンピュータに、
対象事物に関し、メディアを介して需要家に提供された提供情報を取得させ、
投稿者により投稿された投稿情報を取得させ、
取得された投稿情報のうち、前記提供情報との合致度合が所定割合以上である投稿情報から、少なくとも前記提供情報に含まれる感性表現をノイズとして除去させ、
ノイズが除去された投稿情報に基づいて、前記対象事物の評価を行わせる、
プログラム。