JP7117168B2

JP7117168B2 - 情報処理装置および情報処理方法

Info

Publication number: JP7117168B2
Application number: JP2018113899A
Authority: JP
Inventors: 利彦柳瀬; 美沙佐藤; 孝介柳井; 健三黒土; 祐太是枝
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2022-08-12
Anticipated expiration: 2038-06-14
Also published as: JP2019215825A

Description

本発明は、情報を処理する情報処理装置および情報処理方法に関する。

近年、大量のテキスト情報を分析することで有用な知見を発見する情報サービスが実用化されている。たとえば、商品レビュー記事やソーシャルネットワークのテキストを用いて、商品の評判を自動的に推定する評判分析がある。また、ニュース記事が株式市場にとって肯定的に受け入れられているかそうでないかを推定するニュースの極性分析がある。

インターネットを通じて、大量のテキストデータにアクセスできるようになったこと、全文検索やデータベースなど大量情報に対する情報アクセス技術が普及したこと、さらに、機械学習やパターン認識の技術を応用した分析の自動化または半自動化が進展したことが、上記実用化の理由と考えられる。

具体的には、評判分析やニュースの極性分析は、肯定表現および否定表現を辞書として有し、過去に人間が商品の肯定または否定を評価した結果から肯定または否定の判定パターンを機械学習手法により計算機に学習することで、自動的に実現される。

一方で、こうした情報をもとに判断するユーザは個々人によって異なる価値観を持っているため、同じ情報を見たとしても行動が分かれる場合がある。たとえば、ニュースの極性分析の結果を見た際に、ある人はリスクを最小化しようとし、またある人は利益を最大化しようとする。このように、実際のユースケースでは極性情報だけでなく価値観を反映した観点の情報が必要になる。

この技術分野の背景技術として特許文献１～３および非特許文献１がある。特許文献１は、文書に対して肯定的な評価または否定的な評価であるかを分析する方法を開示する。特許文献２は、依存構造解析の結果を用いて、文そのものの極性ではなく、文の言及先に対して肯定か否定かを判定する方法を開示する。特許文献３は、価値に基づく情報分類の方法を開示する。非特許文献１は、文の肯定否定の極性を判定する機械学習器の情報から文に含まれる単語の極性を判定する方法を開示する。

特開２０１５‐１２５５７０号公報国際公開２０１６／０５６０４３号公報国際公開２０１６／０６７３３４号公報

五島圭一、高橋大志、「株式価格情報を用いた金融極性辞書の作成」、自然言語処理２４巻（２０１７）４号５４７頁～５７７頁２０１７年１２月１５日公開

観点の中でも特に人の価値観のように「良い」、「悪い」という極性を持つ観点を以後では「価値」と呼び、価値を表す具体的な表現の辞書を「価値体系辞書」と呼ぶ。この価値に基づく情報分析のためには、事前に価値体系辞書を作成する必要がある。辞書作成者の作業負担を軽減するためには、価値体系辞書に価値表現を追加する際に、追加語の価値に対する極性をユーザが直接判定することなく、当該追加語の極性を精度良く自動推定し、極性の合わない追加語を取り除く必要がある。加えて、価値体系辞書の編集によって分析結果が変化するが、その変化が辞書作成者の意図とあっているかを、簡便に確認する方法が求められる。上述した従来技術では、これらを実現する点が考慮されていない。

本発明は、対象語句の極性判定の高精度化を図ることを目的とする。

本願において開示される発明の一側面となる情報処理装置および情報処理方法は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文集合を記憶する文集合データベースにアクセス可能な情報処理装置および情報処理方法であって、前記プロセッサは、対象語句を取得する取得処理と、前記取得処理によって取得された対象語句を含む文を前記文集合から検索する検索処理と、前記検索処理によって検索された文の極性を判定する第１判定処理と、前記検索処理によって検索された文に基づいて、当該文から前記対象語句と述語との組である促進抑制関係を抽出する抽出処理と、前記第１判定処理の第１判定結果と、前記抽出処理の抽出結果と、に基づいて、前記対象語句の極性を判定する第２判定処理と、前記第２判定処理の第２判定結果を出力する出力処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、対象語句の極性判定の高精度化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、対象語句の追加登録例を示す説明図である。図２は、情報処理装置の構成例を示す説明図である。図３は、文集合ＤＢの記憶内容例を示す説明図である。図４は、関連表現辞書ＤＢの記憶内容例を示す説明図である。図５は、促進抑制表現ＤＢの記憶内容を示す説明図である。図６は、情報処理装置の機能的構成例１を示すブロック図である。図７は、編集条件の一例を示す説明図である。図８は、取得部による価値表現の追加候補の取得例を示す説明図である。図９は、文極性判定モデルの生成例を示す説明図である。図１０は、促進抑制関係抽出および対象語句の極性判定の例１を示す説明図である。図１１は、促進抑制関係抽出および対象語句の極性判定の例２を示す説明図である。図１２は、情報処理装置による対象語句の追加登録処理手順例を示すフローチャートである。図１３は、実験結果を示す図表である。図１４は、価値体系辞書ＤＢからの編集条件の生成例を示す説明図である。図１５は、情報処理装置による確認候補の削除処理手順例を示すフローチャートである。図１６は、検索結果画面例を示す説明図である。図１７は、情報処理装置の機能的構成例２を示すブロック図である。図１８は、検索結果画面の処理手順例１を示すフローチャートである。図１９は、検索結果画面の処理手順例２を示すフローチャートである。

以下の実施例において、要素の数等に言及する場合、特に指定された場合および原理的に明らかに特定される場合を除き、その特定の数に限定されることはなく、特定の数以上でも以下でもよい。また、以下の実施例において、その構成要素は、特に指定された場合および原理的に明らかに必要とされる場合を除き、必ずしも必須のものではないということは明らかである。また、同様に以下の実施例において、構成要素の形状や位置関係について言及するときは、特に明示する場合や原理的に明らかにそうでないと考えられる場合を除き、実質的にその形状等に近似または類似するものを含むものとする。このことは上記数値および範囲に関しても同様である。また、以下の実施例では、主に日本語文書を処理する場合について説明するが、言語固有の処理を置き換えれば英語などその他の言語でも、同様の手順で適用可能である。

＜対象語句の追加登録例＞
図１は、対象語句の追加登録例を示す説明図である。価値体系辞書ＤＢ（Ｄａｔａｂａｓｅ）１００は、上述した人間のもつ価値観をそれぞれの価値（観点）ごとに分けて具体的な表現とともに整理した価値体系辞書をデータベース化した構造化データである。具体的には、たとえば、価値体系辞書ＤＢ１００は、フィールドとして、価値カテゴリ１０１と、価値１０２と、極性１０３と、価値表現１０４と、を有する。価値カテゴリ１０１は、価値１０２の大分類である。１つの価値カテゴリ１０１は、１または関連する２以上の価値１０２を含む。

価値１０２は、上述したように、観点の中でも特に人の価値観のように「良い」、「悪い」という極性１０３を持つ観点である。価値１０２は、いずれかの価値カテゴリ１０１に属する。極性１０３は、価値１０２が肯定的（Ｐｏｓｉｔｉｖｅ）または否定的（Ｎｅｇａｔｉｖｅ）であるかを示す情報である。価値表現１０４は、価値１０２を表現する語句である。たとえば、価値表現１０４の「暴落」は、価値カテゴリ１０１の「経済」に属する価値１０２である「リスク」を表現する語句の一例であり、「リスク」の極性１０３は、「Ｎｅｇａｔｉｖｅ」である。「リスク」の極性１０３が「Ｎｅｇａｔｉｖｅ」であるということは、その価値表現１０４の極性１０３もまた「Ｎｅｇａｔｉｖｅ」である。なお、語句とは、１以上の単語から構成される文字列である。

ここで、価値体系辞書ＤＢ１００の価値１０２「リスク」の価値表現１０４に対象語句１１０として「値下がり」を追加登録する場合について説明する。追加登録前では、「値下がり」の極性１０３は不明であるが、ユーザは、「値下がり」の極性１０３を指定する必要はない。本実施例の情報処理装置は、対象語句１１０の極性１０３を自動決定する。この場合、「値下がり」の極性１０３が「Ｎｅｇａｔｉｖｅ」であれば、情報処理装置は、価値１０２「リスク」の価値表現１０４に「値下がり」を追加登録し、「値下がり」の極性１０３が「Ｐｏｓｉｔｉｖｅ」であれば、情報処理装置は、価値１０２「リスク」の価値表現１０４に「値下がり」を追加登録しない。これにより、対象語句１１０の極性１０３を高精度に決定することができ、価値表現１０４の自動登録を実現し、誤登録を抑制することができる。

＜情報処理装置の構成例＞
図２は、情報処理装置の構成例を示す説明図である。情報処理装置２００は、プロセッサ２０１と、記憶デバイス２０２と、入力デバイス２０３と、出力デバイス２０４と、通信インターフェース（通信ＩＦ）２０５と、を有する。プロセッサ２０１、記憶デバイス２０２、入力デバイス２０３、出力デバイス２０４、および通信ＩＦ２０５は、バス２０６により接続される。プロセッサ２０１は、情報処理装置２００を制御する。記憶デバイス２０２は、プロセッサ２０１の作業エリアとなる。また、記憶デバイス２０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス２０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス２０３は、データを入力する。入力デバイス２０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス２０４は、データを出力する。出力デバイス２０４としては、たとえば、ディスプレイ、プリンタがある。通信ＩＦ２０５は、ネットワークと接続し、データを送受信する。

また、情報処理装置２００は、文集合ＤＢ２１０、価値体系辞書ＤＢ１００、関連表現辞書ＤＢ２２０、および促進抑制表現ＤＢ２３０にアクセス可能である。情報処理装置２００は、文集合ＤＢ２１０、価値体系辞書ＤＢ１００、関連表現辞書ＤＢ２２０、および促進抑制表現ＤＢ２３０を記憶デバイス２０２に記憶させてもよく、通信ＩＦ２０５を介して情報処理装置２００は、文集合ＤＢ２１０、価値体系辞書ＤＢ１００、関連表現辞書ＤＢ２２０、および促進抑制表現ＤＢ２３０にデータの読み出しや書き込みをしてもよい。文集合ＤＢ２１０、関連表現辞書ＤＢ２２０、および促進抑制表現ＤＢ２３０の詳細については、図３～図５で後述する。

＜データベースの記憶内容例＞
図３は、文集合ＤＢ２１０の記憶内容例を示す説明図である。文集合ＤＢ２１０は、文書を本文ごとに分けて記憶するデータベースである。文集合ＤＢ２１０は、フィールドとして、文書ＩＤ３０１と、文ＩＤ３０２と、本文３０３と、を有する。文書ＩＤ３０１は、文書を一意に特定する識別情報である。文ＩＤ３０２は、本文３０３を一意に特定する識別情報であり、たとえば、文書内で本文３０３が登場する順番となる整数値である。本文３０３は、文書内の１つの文を示す文字列である。情報処理装置２００は、文集合ＤＢ２１０を全文検索可能である。

図４は、関連表現辞書ＤＢ２２０の記憶内容例を示す説明図である。関連表現辞書ＤＢ２２０は、関連する表現である語句を記憶するデータベースである。関連表現辞書ＤＢ２２０は、フィールドとして、見出し語４０１と、関連表現４０２と、を有する。見出し語４０１は、関連表現辞書ＤＢ２２０のインデックスとなる語句である。関連表現４０２とは、見出し語４０１に関連する語句である。関連表現４０２は、見出し語４０１の類義語に限らず、たとえば、対義語を含んでもよい。

図４では、たとえば、見出し語４０１の「健康」に関連して「健やか、ＱＯＬ、成人病」など語句が関連表現４０２として登録されている。ここで、関連表現４０２は類義語だけに限られない。たとえば、「健やか」は、見出し語４０１の「健康」な状態を示した形容表現であり、また、「ＱＯＬ」（ＱＵＡＬＩＴＹＯＦＬＩＦＥ）は、見出し語４０１の「健康」を必要条件とする語句である。

また、「成人病」は、見出し語４０１の「健康」とは反対の価値１０２である「病気」の一例である。このように、関連表現４０２には見出し語４０１に対して、様々な関係のある表現が登録される可能性がある。関連表現辞書ＤＢ２２０は、大規模な文書からＳｋｉｐ－ＧｒａｍやＣＢＯＷ、ＧｌｏＶｅなどの単語の埋め込み表現を学習することで自動的に作成される。

この埋め込み表現は、エントリ内の各関連表現４０２に対応する単語ベクトルが格納された行列である。これらの単語ベクトルは、似た文脈で登場する単語はコサイン類似度が大きくなるという特徴を有する。そのため、関連表現辞書ＤＢ２２０として埋め込み表現を使うには、入力された語句に対する単語ベクトルの近傍探索をすればよい。たとえば、１０個の関連表現４０２を得たい場合には自身を除く１０近傍の単語ベクトルを探索すればよい。

図５は、促進抑制表現ＤＢ２３０の記憶内容を示す説明図である。促進抑制表現ＤＢ２３０は、促進表現５０１を示す語句と抑制表現５０２を示す語句とを記憶するデータベースである。促進表現５０１および抑制表現５０２はいずれも、対象と述語の組により構成される。促進表現５０１は、ある対象と、その対象を促進する述語の組である。たとえば、『適度な運動は健康に良い。』という文の場合、対象が「運動」であり、対象を促進する述語が「良い」である。すなわち、対象である「運動」が“健康”を促進するという関係である。

また、抑制表現５０２は、対象と、その対象を抑制する述語の組である。たとえば、『運賃の値上げが、乗客数を減少させた。』という文の場合、対象が「乗客数」であり、対象を抑制する述語が「減少させた」である。すなわち、対象である「乗客数」を“運賃の値上げ”が抑制したという関係になる。

＜情報処理装置２００の機構的構成例＞
図６は、情報処理装置２００の機能的構成例１を示すブロック図である。情報処理装置２００は、取得部６０１と、検索部６０２と、第１判定部６０３と、抽出部６０４と、第２判定部６０５と、出力部６０６と、第３判定部６０７と、登録部６０８と、検出部６０９と、削除部６１０と、を有する。取得部６０１～削除部６１０は、具体的には、たとえば、図２に示した記憶デバイス２０２に記憶されたプログラムをプロセッサ２０１に実行させることで実現される機能である。

取得部６０１は、対象語句１１０を取得する。対象語句１１０とは、価値体系辞書ＤＢ１００への追加対象となる語句である。図１の例では、「値下がり」である。取得部６０１は、たとえば、図２に示した入力デバイス２０３からの対象語句１１０の入力により、対象語句１１０を直接取得する。

また、取得部６０１は、分析対象キーワードを取得することもできる。分析対象キーワードとは、分析したい本文３０３を絞り込むための文字列である。たとえば、ユーザが仮想通貨に関するニュースを分析したい場合には、分析対象キーワードを「仮想通貨」とすればよい。取得部６０１は、たとえば、図２に示した入力デバイス２０３からの対象語句１１０の入力により、分析対象キーワードを直接取得する。これにより、後述する検索部６０２において、分析対象キーワードを含む本文３０３に絞り込むことができる。

また、取得部６０１は、対象語句１１０を間接的に取得することもできる。具体的には、たとえば、取得部６０１は、分析対象キーワードと特定の価値を取得する。たとえば、ユーザが仮想通貨に関するニュースをリスクの観点から分析したい場合には、分析対象キーワードを「仮想通貨」とし、特定の価値を「リスク」とすればよい。

そして、取得部６０１は、特定の価値に基づいて、価値体系辞書ＤＢ１００から特定の価値表現１０４を取得する。具体的には、たとえば、取得部６０１は、特定の価値が「リスク」であれば、価値体系辞書ＤＢ１００の価値１０２が「リスク」のエントリの価値表現１０４である「値下げ」、「暴落」、「急落」を特定の価値表現１０４として取得する。

そして、取得部６０１は、特定の価値表現１０４に一致する見出し語４０１に関連する関連表現４０２を、関連表現辞書ＤＢ２２０から対象語句１１０として取得する。この場合、取得部６０１は、たとえば、特定の価値表現１０４が「値下げ」の場合、関連表現辞書ＤＢ２２０において、見出し語４０１が「値下げ」であるエントリの関連表現４０２である「値下がり」、「値上がり」、「下落」を対象語句１１０として取得する。ただし、当該エントリの関連表現４０２の１つである「急落」は、特定の価値１０２である「リスク」に対応する価値表現１０４に含まれているため、取得部６０１は、「急落」を関連表現辞書ＤＢ２２０から取得しない。これにより、対象語句１１０を間接的に取得することができる。

また、取得部６０１は、価値体系辞書ＤＢ１００から特定の価値１０２を取得するとともに、特定の価値１０２に関連付けられている特定の価値表現１０４を対象語句１１０として取得してもよい。たとえば、文集合ＤＢ２１０に文書が追加された場合や、後述する文極性１０３モデルに変更があった場合など、極性１０３に変更（反転）が生じる可能性のあるタイミングで、取得部６０１は、価値体系辞書ＤＢ１００から、特定の価値１０２および特定の価値表現１０４を取得する。

検索部６０２は、取得部６０１によって取得された対象語句１１０を含む文を文集合から検索する。たとえば、対象語句１１０が「所得制限」である場合、文集合ＤＢ２１０から文ＩＤ３０２が「１５」の本文３０３が検索される。

また、検索部６０２は、取得部６０１によって分析対象キーワードおよび対象語句１１０が取得された場合、分析対象キーワードおよび対象語句１１０の両方を含む文を文集合から検索する。たとえば、分析対象キーワードが「仮想通貨」であり、特定の価値１０２が「リスク」、対象語句１１０が「値下がり」である場合、検索部６０２は、「仮想通貨は非常に大きな値下がりの危険性を伴う。」といった本文３０３を検索する。

第１判定部６０３は、検索部６０２によって検索された文の極性１０３を判定する。具体的には、たとえば、第１判定部６０３は、入力文が与えられると当該入力文の極性１０３を出力する文極性判定モデル６３０に、検索部６０２によって検索された本文３０３（以下、検索本文３０３）を与えることにより、当該検索本文３０３の極性１０３を判定する。文極性判定モデル６３０は、機械学習により生成されるモデルであり、記憶デバイス２０２に記憶される。

これにより、第１判定部６０３は、検索本文３０３が肯定的な表現（Ｐｏｓｉｔｉｖｅ）であるか否定的な表現（Ｎｅｇａｔｉｖｅ）であるかを自動的に判定することができる。なお、情報処理装置２００は、文極性判定モデル６３０を機械学習により生成してもよく、外部装置から取得してもよい。

抽出部６０４は、検索本文３０３に基づいて、検索本文３０３から対象語句１１０と述語との組である促進抑制関係を抽出する。具体的には、たとえば、抽出部６０４は、係り受け解析や句構造解析などの構造解析を実行することにより、対象語句１１０の述語を特定する。つぎに、抽出部６０４は、促進抑制表現ＤＢ２３０を参照して、特定した述語が促進表現５０１であるか抑制表現５０２であるかを特定する。そして、抽出部６０４は、検索本文３０３から、対象語句１１０と、特定された促進表現５０１または抑制表現５０２との組である促進関係または抑制関係を抽出する。

第２判定部６０５は、第１判定部６０３の第１判定結果と、抽出部６０４の抽出結果と、に基づいて、対象語句１１０の極性１０３を判定する。第１判定結果とは、文極性の判定結果であり、検索本文３０３が肯定的な表現（Ｐｏｓｉｔｉｖｅ）であるか否定的な表現（Ｎｅｇａｔｉｖｅ）であるかを示す。抽出結果とは、検索本文３０３から対象語句１１０と述語との組である促進関係または抑制関係である。

第２判定部６０５は、検索本文３０３の文極性がＰｏｓｉｔｉｖｅであり、かつ、検索本文３０３から促進関係が抽出されていれば、対象語句１１０の極性１０３をＰｏｓｉｔｉｖｅと判定する。また、第２判定部６０５は、検索本文３０３の文極性がＰｏｓｉｔｉｖｅであり、かつ、検索本文３０３から抑制関係が抽出されていれば、対象語句１１０の極性１０３をＮｅｇａｔｉｖｅと判定する。

第２判定部６０５は、検索本文３０３の文極性がＮｅｇａｔｉｖｅであり、かつ、検索本文３０３から促進関係が抽出されていれば、対象語句１１０の極性１０３をＮｅｇａｔｉｖｅと判定する。また、第２判定部６０５は、検索本文３０３の文極性がＮｅｇａｔｉｖｅであり、かつ、検索本文３０３から抑制関係が抽出されていれば、対象語句１１０の極性１０３をＰｏｓｉｔｉｖｅと判定する。これにより、対象語句１１０の極性１０３を高精度に決定することができる。

出力部６０６は、第２判定部６０５の第２判定結果を出力する。第２判定結果とは、対象語句１１０の極性１０３（ＰｏｓｉｔｉｖｅまたはＮｅｇａｔｉｖｅ）である。出力部６０６は、第２判定結果を、出力デバイス２０４であるディスプレイに表示してもよく、出力デバイス２０４の一例であるプリンタに出力してもよい。また、出力部６０６は、第２判定結果を、通信ＩＦ２０５を介して他の装置に送信してもよい。また、出力部６０６は、第２判定結果を、記憶デバイス２０２に格納してもよい。

第３判定部６０７は、価値体系辞書ＤＢ１００における特定の価値１０２の極性１０３と、第２判定部６０５の第２判定結果である対象語句１１０の極性１０３とが、一致するか否かを判定する。たとえば、価値体系辞書ＤＢ１００において、特定の価値１０２が「リスク」である場合、その極性１０３は、Ｎｅｇａｔｉｖｅである。対象語句１１０である「値下がり」の極性１０３がＮｅｇａｔｉｖｅであれば、特定の価値１０２である「リスク」の極性１０３と一致すると判定する。一方、対象語句１１０である「値下がり」の極性１０３がＰｏｓｉｔｉｖｅであれば、特定の価値１０２である「リスク」の極性１０３と一致しないと判定する。

登録部６０８は、第３判定部６０７によって一致すると判定された場合、価値体系辞書ＤＢ１００における特定の価値１０２に関連づけて対象語句１１０を価値表現１０４として登録する。たとえば、価値体系辞書ＤＢ１００において、特定の価値１０２が「リスク」の極性１０３であるＮｅｇａｔｉｖｅと、対象語句１１０である「値下がり」の極性１０３であるＮｅｇａｔｉｖｅとは、一致するため、登録部６０８は、図１に示したように、価値体系辞書ＤＢ１００において価値１０２が「リスク」であるエントリの価値表現１０４に、対象語句１１０の「値下がり」を登録する。これにより、高精度に極性１０３が決定された対象語句１１０を価値表現１０４として自動的に登録することができ、誤登録を抑制することができる。

検出部６０９は、価値表現１０４の確認要求の有無を検出する。確認要求とは、価値表現１０４の極性１０３の正しさを確認するための要求であり、たとえば、文集合ＤＢ２１０の更新が確認要求となる。文集合ＤＢ２１０の更新とは、文集合ＤＢ２１０への文書の追加、文集合ＤＢ２１０内の文書の内容についての変更、または、文集合ＤＢ２１０内の文書の削除である。検出部６０９は、文集合ＤＢ２１０から更新完了通知を受信することで、確認要求を検出する。また、文集合ＤＢ２１０の更新があったことをユーザ操作により入力デバイス２０３から受け付けた場合も、検出部６０９は、確認要求として検出してもよい。

また、確認要求は、文極性判定モデル６３０の更新でもよい。具体的には、たとえば、訓練データの更新により、文極性判定モデル６３０が更新されると、検出部６０９は、文極性判定モデル６３０の更新完了を確認要求として検出する。

検出部６０９によって確認要求が検出されると、取得部６０１は、価値体系辞書ＤＢ１００から特定の価値１０２を取得するとともに、特定の価値表現１０４を対象語句１１０として取得する。すなわち、極性１０３に変更（反転）が生じる可能性のあるタイミングで、取得部６０１は、価値体系辞書ＤＢ１００から、特定の価値１０２および特定の価値表現１０４を取得することになる。

削除部６１０は、第３判定部６０７によって一致しないと判定された場合、価値体系辞書ＤＢ１００における特定の価値表現１０４を削除する。具体的には、たとえば、極性１０３に変更（反転）が生じる可能性のあるタイミングで価値体系辞書ＤＢ１００から特定の価値１０２および特定の価値表現１０４が取得された場合、特定の価値１０２の極性１０３と、第２判定部６０５の第２判定結果である対象語句１１０の極性１０３とが、不一致であれば、削除部６１０は、対象語句１１０を特定の価値１０２のエントリから削除する。一方、特定の価値１０２の極性１０３と、第２判定部６０５の第２判定結果である対象語句１１０の極性１０３とが一致していれば、削除する必要はない。

たとえば、特定の価値１０２が「リスク」（極性１０３はＮｅｇａｔｉｖｅ）であり、対象語句１１０である価値表現１０４が「暴落」である場合、「暴落」の極性１０３がＰｏｓｉｔｉｖｅと判定されると、極性１０３の不一致により、削除部６１０は、価値１０２が「リスク」であるエントリの価値表現１０４から「暴落」を削除する。一方、「暴落」の極性１０３がＮｅｇａｔｉｖｅと判定されると、極性１０３の一致により、削除部６１０は、「暴落」を削除しない。これにより、文集合ＤＢ２１０や文極性判定モデル６３０に変更があった場合、価値１０２と価値表現１０４との間の極性１０３の不一致を解消することができる。したがって、価値体系辞書ＤＢ１００の管理者による管理負担の軽減を図ることができる。

＜編集条件例＞
図７は、編集条件の一例を示す説明図である。編集条件７００とは、価値体系辞書ＤＢ１００を編集するため、すなわち、対象語句１１０を追加登録するための入力情報である。編集条件７００は、取得部６０１により取得される。編集条件７００には、分析対象キーワード７０１と、特定の価値カテゴリ７０２と、特定の価値７０３と、特定の価値７０３の極性１０３と、価値表現１０４の追加候補７０５と、が設定可能である。特定の価値カテゴリ７０２は、特定の価値７０３が属する価値カテゴリ１０１である。価値表現１０４の追加候補７０５は、上述した対象語句１１０である。編集条件７００は、ユーザにより作成される。

（Ａ）は、価値体系辞書ＤＢ１００に存在する特定の価値７０３を用いて作成された編集条件７００を示す。価値表現１０４の追加候補７０５は未定である。この場合、上述したように、取得部６０１が、特定の価値７０３に基づいて、価値体系辞書ＤＢ１００から価値表現１０４を取得することになる。

（Ｂ）は、（Ａ）において、価値表現１０４の追加候補７０５があらかじめ入力された編集条件７００を示す。この場合、取得部６０１が、価値体系辞書ＤＢ１００から価値表現１０４を取得する処理が不要になり、追加登録処理の高速化を図ることができる。また、ユーザが設定した価値表現１０４の追加候補７０５について直接極性１０３を判定することができるため、ユーザ自身が選んだ追加候補７０５が登録にふさわしいか否かを確認することができる。

（Ｃ）は、（Ａ）において、特定の価値７０３の極性７０４があらかじめ入力された編集条件７００を示す。具体的には、たとえば、編集条件７００を価値体系辞書ＤＢ１００に新規エントリとして追加する場合に用いられる。この場合、新規エントリとなる編集条件７００の価値表現１０４の追加候補７０５は、（Ａ）の編集条件７００と同様に取得される。

（Ｄ）は、（Ｂ）において、特定の価値７０３の極性７０４があらかじめ入力された編集条件７００を示す。具体的には、たとえば、編集条件７００を価値体系辞書ＤＢ１００に新規エントリとして追加する場合に用いられる。この場合、新規エントリとなる編集条件７００の価値表現１０４の追加候補７０５は、ユーザが設定した価値表現１０４の追加候補７０５となるため、ユーザ自身が選んだ追加候補７０５が登録にふさわしいか否かを確認することができる。

＜価値表現１０４の追加候補７０５の取得例＞
図８は、取得部６０１による価値表現１０４の追加候補７０５の取得例を示す説明図である。編集条件７００に価値表現１０４の追加候補７０５が未設定であれば、取得部６０１は、価値表現１０４の追加候補７０５を取得することになる。ここでは、図７の（Ａ）の編集条件７００を用いて説明する。

（Ａ）取得部６０１は、編集条件７００内の特定の価値カテゴリ７０２および特定の価値７０３の組に一致する価値カテゴリ１０１および価値１０２の組のエントリを価値体系辞書ＤＢ１００から特定し、特定したエントリの価値表現１０４である「値下げ」、「暴落」、および「急落」を取得する。

（Ｂ）取得部６０１は、取得した価値表現１０４である「値下げ」、「暴落」、および「急落」の各々について、関連表現辞書ＤＢ２２０の見出し語４０１に一致するエントリを特定する。

（Ｃ）取得部６０１は、特定した関連表現辞書ＤＢ２２０のエントリの価値表現１０４を取得する。たとえば、価値表現１０４である「値下げ」が見出し語４０１に存在するため、取得部６０１は、当該エントリの関連表現４０２である「値下がり」、「値上がり」、「下落」、および「急落」を取得する。取得部６０１は、「値下がり」、「値上がり」および「下落」を価値表現１０４の追加候補７０５（Ｃ１～Ｃ３）として決定する。一方、「急落」については、価値体系辞書ＤＢ１００に存在するため、取得部６０１は、追加候補７０５に決定しない。（Ｂ）で取得した他の価値表現１０４である「暴落」および「急落」についても同様に処理される。

＜文極性判定モデル６３０の生成例＞
図９は、文極性判定モデル６３０の生成例を示す説明図である。文極性判定モデル６３０の生成は、第１判定部６０３が実行してもよく、情報処理装置２００外の他の装置が実行してもよい。第１判定部６０３が実行する場合、訓練ＤＢ９００は、たとえば、記憶デバイス２０２に記憶される。訓練ＤＢ９００は、訓練データ９０１と文極性９０２とを格納するデータベースである。訓練データ９０１は、文極性判定モデル６３０の生成に用いられる例文Ｔ１～Ｔｎ（ｎは１以上の整数）である。例文Ｔ１～Ｔｎの任意の例文を例文Ｔとする。例文Ｔ１～Ｔｎの各々には、その文極性９０２が設定されている。

文極性判定モデル６３０は、たとえば、パラメータａ１～ａｎと、重みｗ１～ｗｎと、を用いた回帰モデルである。パラメータａ１～ａｎは、例文Ｔの特徴を示すパラメータである。ｙは、文極性９０２の値である。たとえば、ｙは、－１≦ｙ≦１の範囲であり、－１≦ｙ＜０であれば、文極性９０２はＮｅｇａｔｉｖｅ、０≦ｙ≦１であれば、文極性９０２はＰｏｓｉｔｉｖｅとする。

文極性判定モデル６３０は、たとえば、識別モデルを用いることもできる。ｙは「－１」または「１」であり、「－１」であれば文極性９０２はＮｅｇａｔｉｖｅ、「１」であれば文極性９０２はＰｏｓｉｔｉｖｅとする。識別モデルの具体例にはＳｕｐｐｏｒｔＶｅｃｔｏｒＣｌａｓｓｉｆｉｅｒやＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ、リカレントニューラルネットワークや畳み込みネットワークなどを用いることができる。

第１判定部６０３は、例文Ｔ１～Ｔｎの各々について、例文Ｔのパラメータａ１～ａｎと文極性９０２の値ｙとを文極性判定モデル６３０に与えることで、重みｗ１～ｗｎを決定する。これにより、文極性判定モデル６３０が確定する。このあと、第１判定部６０３は、極性１０３が未知の検索本文３０３のパラメータａ１～ａｎを文極性判定モデル６３０に与えることで、当該検索本文３０３の文極性９０２の値ｙを出力し、値ｙにより文極性９０２を判定する。

＜促進抑制関係抽出および対象語句１１０の極性判定の例＞
図１０は、促進抑制関係抽出および対象語句１１０の極性判定の例１を示す説明図である。例１では、図７（Ａ）の編集条件７００が取得されたものとする。例１では、検索本文ＳＴ１、ＳＴ２の文極性がＮｅｇａｔｉｖｅである。図１０において、（Ａ）は、促進抑制関係抽出例を示し、（Ｂ）は、対象語句１１０である価値表現１０４の追加候補７０５の極性判定例を示す。

（Ａ）検索本文ＳＴ１は、分析対象キーワード７０１である「仮想通貨」と、追加候補Ｃ１の「値下がり」と、を含む本文３０３である。抽出部６０４は、構造解析により、検索本文ＳＴ１を、主語Ｓの「仮想通貨は」と、目的語Ｏの「日経平均の値下がりを」と、述語動詞Ｖの「おこした」とに分解する。抽出部６０４は、述語動詞Ｖの「おこした」を、促進抑制表現ＤＢ２３０の促進表現５０１として抽出する。

また、検索本文ＳＴ２は、分析対象キーワード７０１である「仮想通貨」と、追加候補Ｃ２の「値上がり」と、を含む本文３０３である。抽出部６０４は、構造解析により、検索本文ＳＴ２を、主語Ｓの「仮想通貨は」と、目的語Ｏの「日経平均の値上がりを」と、述語動詞Ｖの「妨げた」とに分解する。抽出部６０４は、述語動詞Ｖの「妨げた」を、促進抑制表現ＤＢ２３０の抑制表現５０２として抽出する。

（Ｂ）第２判定部６０５は、第１判定結果の文極性がＮｅｇａｔｉｖｅな検索本文３０３（以下、Ｎｅｇａｔｉｖｅ文）と、抽出結果である対象語句１１０の促進関係と、の組み合わせについては、対象語句１１０の極性１０３をＮｅｇａｔｉｖｅと判定する。たとえば、検索本文ＳＴ１は、Ｎｅｇａｔｉｖｅ文であり、追加候補Ｃ１は促進関係であるため、追加候補Ｃ１の極性１０３はＮｅｇａｔｉｖｅとなる。

この場合、第３判定部６０７は、編集条件７００の特定の価値１０２である「リスク」の極性１０３と、追加候補Ｃ１である「値下がり」の極性１０３とが一致するか否かを判定する。「リスク」の極性１０３と追加候補Ｃ１である「値下がり」の極性１０３とはＮｅｇａｔｉｖｅで一致する。したがって、登録部６０８は、追加候補Ｃ１である「値下がり」を、価値体系辞書ＤＢ１００での特定の価値１０２である「リスク」のエントリの価値表現１０４に登録する。

また、第２判定部６０５は、Ｎｅｇａｔｉｖｅ文と、抽出結果である対象語句１１０の抑制関係と、の組み合わせについては、対象語句１１０の極性１０３をＰｏｓｉｔｉｖｅと判定する。たとえば、検索本文ＳＴ２は、Ｎｅｇａｔｉｖｅ文であり、追加候補Ｃ２は抑制関係であるため、追加候補Ｃ２の極性１０３はＰｏｓｉｔｉｖｅとなる。

この場合、第３判定部６０７は、編集条件７００の特定の価値７０３である「リスク」の極性１０３と、追加候補Ｃ２である「値上がり」の極性１０３とが一致するか否かを判定する。「リスク」の極性１０３と追加候補Ｃ２である「値上がり」の極性１０３とは不一致である。したがって、登録部６０８は、追加候補Ｃ２である「値上がり」を、価値体系辞書ＤＢ１００での特定の価値１０２である「リスク」のエントリの価値表現１０４に登録しない。

図１１は、促進抑制関係抽出および対象語句１１０の極性判定の例２を示す説明図である。例２では、図７（Ａ）の編集条件７００が取得されたものとする。例２では、検索本文ＳＴ３、ＳＴ４の文極性がＰｏｓｉｔｉｖｅである。図１１において、（Ａ）は、促進抑制関係抽出例を示し、（Ｂ）は、対象語句１１０である価値表現１０４の追加候補７０５の極性判定例を示す。

（Ａ）検索本文ＳＴ３は、分析対象キーワード７０１である「仮想通貨」と、追加候補Ｃ２の「値上がり」と、を含む本文３０３である。抽出部６０４は、構造解析により、検索本文ＳＴ３を、主語Ｓの「仮想通貨は」と、目的語Ｏの「日経平均の値上がりを」と、述語動詞Ｖの「おこした」とに分解する。抽出部６０４は、述語動詞Ｖの「おこした」を、促進抑制表現ＤＢ２３０の促進表現５０１として抽出する。

また、検索本文ＳＴ４は、分析対象キーワード７０１である「仮想通貨」と、追加候補Ｃ１の「値下がり」と、を含む本文３０３である。抽出部６０４は、構造解析により、検索本文ＳＴ４を、主語Ｓの「仮想通貨は」と、目的語Ｏの「日経平均の値下がりを」と、述語動詞Ｖの「妨げた」とに分解する。抽出部６０４は、述語動詞Ｖの「妨げた」を、促進抑制表現ＤＢ２３０の抑制表現５０２として抽出する。

（Ｂ）第２判定部６０５は、第１判定結果の文極性がＰｏｓｉｔｉｖｅな検索本文３０３（以下、Ｐｏｓｉｔｉｖｅ文）と、抽出結果である対象語句１１０の促進関係と、の組み合わせについては、対象語句１１０の極性１０３をＰｏｓｉｔｉｖｅと判定する。たとえば、検索本文ＳＴ３は、Ｐｏｓｉｔｉｖｅ文であり、追加候補Ｃ２は促進関係であるため、追加候補Ｃ２の極性１０３はＰｏｓｉｔｉｖｅとなる。

また、第２判定部６０５は、Ｐｏｓｉｔｉｖｅ文と、抽出結果である対象語句１１０の抑制関係と、の組み合わせについては、対象語句１１０の極性１０３をＮｅｇａｔｉｖｅと判定する。たとえば、検索本文ＳＴ４は、Ｐｏｓｉｔｉｖｅ文であり、追加候補Ｃ１は抑制関係であるため、追加候補Ｃ１の極性１０３はＮｅｇａｔｉｖｅとなる。

この場合、第３判定部６０７は、編集条件７００の特定の価値７０３である「リスク」の極性１０３と、追加候補Ｃ１である「値下がり」の極性１０３とが一致するか否かを判定する。「リスク」の極性１０３と追加候補Ｃ１である「値下がり」の極性１０３とはＮｅｇａｔｉｖｅで一致する。したがって、登録部６０８は、追加候補Ｃ１である「値下がり」を、価値体系辞書ＤＢ１００での特定の価値１０２である「リスク」のエントリの価値表現１０４に登録する。

なお、図１０および図１１において、述語動詞Ｖが否定語（たとえば、「ない」）を含む場合、抽出部６０４は、促進抑制表現を反転してもよい。たとえば、述語動詞Ｖが「おこした」ではなく「おこしていなかった」である場合、抽出部６０４は、「おこした」に対応する促進表現５０１を反転して、抑制表現５０２とする。これにより、否定語を含む検索本文にも適用することができる。

＜対象語句１１０の追加登録処理手順例＞
図１２は、情報処理装置２００による対象語句１１０の追加登録処理手順例を示すフローチャートである。情報処理装置２００は、取得部６０１により編集条件７００を取得し（ステップＳ１２０１）、編集条件７００内の特定の価値７０３が新規の価値１０２、すなわち、価値体系辞書ＤＢ１００に未登録の価値１０２であるか否かを判断する（ステップＳ１２０２）。新規な価値１０２である場合（ステップＳ１２０３：Ｙｅｓ）、取得部６０１は、編集条件７００の特定の価値カテゴリ７０２、特定の価値７０３、および極性７０４を価値体系辞書ＤＢ１００に新規追加する（ステップＳ１２０３）。そして、ステップＳ１２０４に移行する。たとえば、図７の（Ｃ）や（Ｄ）の編集条件７００がステップＳ１２０３の処理対象となる。

一方、ステップＳ１２０２において新規な価値１０２でない場合（ステップＳ１２０２：Ｎｏ）、情報処理装置２００は、取得部６０１により、編集条件７００に価値表現１０４の追加候補７０５があるか否かを判断する（ステップＳ１２０４）。価値表現１０４の追加候補７０５がある場合（ステップＳ１２０４：Ｙｅｓ）、ステップＳ１２０６に移行する。一方、価値表現１０４の追加候補７０５がない場合（ステップＳ１２０４：Ｎｏ）、情報処理装置２００は、取得部６０１により、図８に示したように、編集条件７００に基づいて価値表現１０４の追加候補７０５を生成する（ステップＳ１２０５）。

そして、情報処理装置２００は、検索部６０２により、分析対象キーワード７０１および追加候補７０５を含む本文３０３（検索本文３０３）を文集合から検索する（ステップＳ１２０６）。このあと、情報処理装置２００は、第１判定部６０３により、検索本文３０３の文極性を判定し（ステップＳ１２０７）、抽出部６０４により、検索本文３０３に含まれる促進抑制関係を抽出する（ステップＳ１２０８）。

そして、情報処理装置２００は、第２判定部６０５により、第１判定部６０３による文極性判定結果と抽出部６０４による促進抑制関係の抽出結果とに基づいて、追加候補７０５の極性１０３を判定し、出力部６０６により判定結果を出力する（ステップＳ１２０９）。情報処理装置２００は、第３判定部６０７により、特定の価値１０２の極性１０３と追加候補７０５の極性１０３とが一致するか否かを判定する（ステップＳ１２１０）。

不一致の場合（ステップＳ１２１０：Ｎｏ）、情報処理装置２００は、一例の処理を終了する。一方、一致する場合（ステップＳ１２１０：Ｙｅｓ）、情報処理装置２００は、登録部６０８により、特定の価値１０２のエントリの価値表現１０４に追加候補７０５を登録して（ステップＳ１２１１）、一例の処理を終了する。

このように、実施例１によれば、語句の極性１０３を高精度に判定することができ、管理者の管理負担の軽減を図ることができる。特に、追加候補７０５の極性１０３を高精度に判定することにより、あらたな価値表現１０４の追加を自動でおこなうことができる。したがって、管理者が、追加候補７０５の極性１０３について試行錯誤する必要がなくなり、価値体系辞書ＤＢ１００の信頼性の向上を図ることができる。

＜実験結果＞
以下に実験結果を示す。
・実験設定
内閣府の景気ウォッチャー調査２０１２年から２０１６年の６０，３６８文を経済に関する文集合とする。文集合の各文について、景気の主観評価（５段階：悪い，やや悪い，変化なし，やや良い，良い）という回答者のコメントが関連付けられる。なお、前処理で、主観評価の「変化なし」に該当する文を除去し、さらに、「悪い」と「やや悪い」をまとめて「悪い」とし、「良い」と「やや良い」をまとめて「良い」とし、５段階の主観評価を２段階に変換した。この２段階の主観評価を文極性とする。

また、実験では、代表的な５つの単語（失業、雇用、利益、売上、損失）を価値１０２とし、人手により極性１０３を示すラベルを以下のように付与する。
「失業」→Ｎｅｇａｔｉｖｅ
「雇用」→Ｐｏｓｉｔｉｖｅ
「利益」→Ｐｏｓｉｔｉｖｅ
「売上」→Ｐｏｓｉｔｉｖｅ
「損失」→Ｎｅｇａｔｉｖｅ

失業が増えるは悪いこと、雇用が増えるのは良いこと、利益が増えるのは良いこと、売上が上がることは良いこと、損失が増えるのは悪いこと、という基準で人手ラベル（悪いがＮｅｇａｔｉｖｅ、良いがＰｏｓｉｔｉｖｅ）が付与された。

実験では２つの方法を用いる。１つは、ベースライン手法である。ベースライン手法は、文極性を語句の極性１０３と同一視する、つまり、文極性をカウントして最頻値を価値１０２の極性１０３とする。もう１つは、上述した本実施例１の手法である。すなわち、情報処理装置２００が、価値１０２と促進抑制関係との関係に基づいて、文極性を修正して価値１０２の極性１０３とする。

図１３は、実験結果を示す図表である。（Ａ）は、ベースライン手法による実験結果であり、（Ｂ）が本実施例の手法による実験結果である。図１３中、「ｐｏｓ．」はＰｏｓｉｔｉｖｅ、「ｎｅｇ．」はＮｅｇａｔｉｖｅの略である。また、数値はその価値１０２の件数である。

ｐｏｓ．の列は、その価値１０２を含む文の文極性がＰｏｓｉｔｉｖｅである件数であり、ｎｅｇ．の列は、その価値１０２を含む文の文極性がＮｅｇａｔｉｖｅである件数である。推定の列は、ｐｏｓ．の件数とｎｅｇ．の件数のうち最頻値となる文極性である。人手の列は、人手により付与された極性１０３を示すラベルである。

たとえば、（Ａ）ベースライン手法において、価値１０２が「失業」の場合、ｐｏｓ．が１０件、ｎｅｇ．が３件であるため、推定される「失業」の極性１０３は、ｐｏｓ．であることを示す。（Ａ）では、推定された極性１０３と人手で付与されたラベルの極性１０３とで、「失業」、「利益」、および「売上」で反転が見られた。一方、（Ｂ）の本実施例の手法では、５つの価値１０２すべてで極性１０３が人手付与した場合と一致した。また、（Ａ）ベースライン手法で正しく推定されていた価値１０２についても、（Ｂ）の本実施例の手法でも正しく推定できた。このように、価値１０２と促進抑制関係とを用いて文極性から対象語句１１０の極性１０３を判定することで、対象語句１１０の極性判定の高精度化を図ることができた。

＜価値体系辞書ＤＢ１００からの価値表現１０４の削除例＞
つぎに、価値体系辞書ＤＢ１００を利用したサービスの運用中に、極性１０３が反転した価値表現１０４を削除する例について説明する。価値体系辞書ＤＢ１００を利用したサービスの運用中に、文集合ＤＢ２１０や文極性判定モデル６３０の更新により、価値表現１０４の極性１０３が反転するにもかかわらず、現状の極性１０３のまま、登録され続ける場合がある。

このような場合、価値体系辞書ＤＢ１００の信頼度が低下する。したがって、文集合ＤＢ２１０や文極性判定モデル６３０の更新のタイミングで、価値体系辞書ＤＢ１００の価値表現１０４の極性１０３を確認し、極性１０３が反転した語句を削除することで、価値体系辞書ＤＢ１００の信頼性の維持を図る。

なお、文集合ＤＢ２１０や文極性判定モデル６３０の更新のタイミングについては、確認要求として検出部６０９が検出し、価値表現１０４の極性１０３の再判定は、第１判定部６０３、抽出部６０４および第２判定部６０５が実行し、極性１０３が反転した語句の削除は、削除部６１０が実行する。

図１４は、価値体系辞書ＤＢ１００からの編集条件の生成例を示す説明図である。検出部６０９によって確認要求が検出されると、取得部６０１は、価値体系辞書ＤＢ１００のエントリごとに、価値カテゴリ１０１を特定の価値カテゴリ７０２、価値１０２を特定の価値７０３、価値表現１０４を価値表現１０４の確認候補１４０５として取得して、編集条件１４００を生成する。なお、実施例１で価値表現１０４の確認候補１４０５を追加登録した際に用いた分析対象キーワード７０１を編集条件７００に設定してもよい。

＜確認候補１４０５の削除処理手順例＞
図１５は、情報処理装置２００による確認候補１４０５の削除処理手順例を示すフローチャートである。情報処理装置２００は、検出部６０９により、確認要求の検出を待ち受ける（ステップＳ１５０１：Ｎｏ）。確認要求が検出された場合（ステップＳ１５０１：Ｙｅｓ）、情報処理装置２００は、取得部６０１により編集条件１４００を取得し（ステップＳ１５０２）、検索部６０２により、確認候補１４０５を含む本文３０３（検索本文３０３）を文集合から検索する（ステップＳ１５０３）。このあと、情報処理装置２００は、第１判定部６０３により、ステップＳ１２０７と同様、検索本文３０３の文極性を判定し（ステップＳ１５０４）、抽出部６０４により、ステップＳ１２０８と同様、検索本文３０３に含まれる促進抑制関係を抽出する（ステップＳ１５０５）。

そして、情報処理装置２００は、第２判定部６０５により、ステップＳ１２０９と同様、第１判定部６０３による文極性判定結果と抽出部６０４による促進抑制関係の抽出結果とに基づいて、確認候補１４０５の極性１０３を判定し、出力部６０６により判定結果を出力する（ステップＳ１５０６）。情報処理装置２００は、第３判定部６０７により、ステップＳ１２１０と同様、特定の価値１０２の極性１０３と確認候補１４０５の極性１０３とが一致するか否かを判定する（ステップＳ１５０７）。

不一致の場合（ステップＳ１５０７：Ｎｏ）、情報処理装置２００は、一例の処理を終了する。一方、一致する場合（ステップＳ１５０７：Ｙｅｓ）、情報処理装置２００は、削除部６１０により、特定の価値１０２のエントリの価値表現１０４に登録されている確認候補１４０５を削除して（ステップＳ１５０８）、一例の処理を終了する。

このように、実施例１によれば、確認候補１４０５の極性１０３が反転した場合には、確認候補１４０５を価値体系辞書ＤＢ１００から削除するため、管理者が、確認候補１４０５の極性１０３の変化（反転）について試行錯誤する必要がなくなり、価値体系辞書ＤＢ１００の信頼性の向上を図ることができる。

実施例２では、実施例１で追加候補７０５の追加登録または確認候補１４０５の削除が実行された場合の出力例を示す。

＜検索結果画面例＞
図１６は、検索結果画面例を示す説明図である。検索結果画面１６００は、第１表示領域１６０１～第４表示領域１６０４を有する。第１表示領域１６０１は、追加候補７０５の追加登録の際に用いられた分析対象キーワード７０１を表示する領域である。第２表示領域１６０２は、価値カテゴリ１０１別の追加候補７０５の追加前後に関する検索本文３０３の件数を示す。

たとえば、価値カテゴリ１０１が「経済」の行では、追加候補７０５の追加登録前の検索本文３０３は５件、追加候補７０５の追加登録後の検索本文３０３は９件、追加候補７０５の追加登録に伴って追加された検索本文３０３が６件、追加候補７０５の追加登録に伴って削除された検索本文３０３が２件であることを示す。すなわち、追加が６件、削除が２件であるため、追加前の５件から４件増加して、追加後は９件になったことを示している。

第３表示領域１６０３は、価値１０２別の追加候補７０５の追加前後に関する検索本文３０３の件数を示す。たとえば、価値カテゴリ１０１が「経済」でかつ価値１０２が「リスク」の行では、追加候補７０５の追加登録前の検索本文３０３は３件、追加候補７０５の追加登録後の検索本文３０３は６件、追加候補７０５の追加登録に伴って追加された検索本文３０３が４件、追加候補７０５の追加登録に伴って削除された検索本文３０３が１件であることを示す。すなわち、追加が４件、削除が１件であるため、追加前の３件から３件増加して、追加後は６件になったことを示している。

第４表示領域１６０４は、検索本文３０３を表示する領域である。具体的には、たとえば、第４表示領域１６０４は、更新前検索結果表示領域１６４１と、更新後検索結果表示領域１６４２と、相違点表示領域１６４３と、を有する。

更新前検索結果表示領域１６４１は、追加候補７０５の追加登録による価値体系辞書ＤＢ１００の更新前における検索結果を表示する領域である。更新後検索結果表示領域１６４２は、追加候補７０５の追加登録による価値体系辞書ＤＢ１００の更新後における検索結果を表示する領域である。相違点表示領域１６４３は、更新前検索結果表示領域１６４１と更新後検索結果表示領域１６４２との相違点を表示する領域である。すなわち、相違点表示領域１６４３には、更新前検索結果表示領域１６４１には表示されたが、更新後検索結果表示領域１６４２には表示されていない本文３０３や、更新後検索結果表示領域１６４２には表示されたが、更新前検索結果表示領域１６４１には表示されていない本文３０３が相違点として表示される。

なお、情報処理装置２００の出力デバイス２０４の一例であるディスプレイに検索結果表示画面を表示してもよく、また、情報処理装置２００が、図１６に示したような検索結果の情報を、情報処理装置２００と通信可能な他の装置に送信し、当該他の装置がそのディスプレイに検索結果表示画面を表示してもよい。

＜情報処理装置２００の機能的構成例＞
図１７は、情報処理装置２００の機能的構成例２を示すブロック図である。図６との相違は、あらたに、特定部１７００が追加された点である。特定部１７００は、具体的には、たとえば、図２に示した記憶デバイス２０２に記憶されたプログラムをプロセッサ２０１に実行させることで実現される機能である。

実施例２では、検索部６０２は、分析対象キーワード７０１を含む本文３０３を文集合ＤＢ２１０から検索する。特定部１７００は、検索部６０２によって検索された分析対象キーワード７０１を含む本文３０３から、追加登録の際に用いられた特定の価値カテゴリ１０１および特定の価値１０２に対応する価値表現１０４を含む本文３０３とその件数を特定する（第２特定結果）。第２特定結果の本文３０３は、出力部６０６により更新後検索結果表示領域に表示され、第２特定結果の本文３０３の件数は、出力部６０６により第２表示領域１６０２および第３表示領域１６０３の「追加後」の件数として表示される。

第２特定結果には、同一分析対象キーワード７０１で検索した検索本文３０３から特定した価値体系辞書ＤＢ１００の更新前の特定結果（第１特定結果）と重複する部分も存在する。第１特定結果の本文３０３は、出力部６０６により更新前検索結果表示領域に表示され、第１特定結果の本文３０３の件数は、出力部６０６により第２表示領域１６０２および第３表示領域１６０３の「追加前」の件数として表示される。

また、特定部１７００は、第２特定結果には含まれているが、第１特定結果には含まれていない新規本文３０３とその件数を特定する。新規本文３０３は、出力部６０６により相違点表示領域に表示され、新規本文３０３の件数は、出力部６０６により第２表示領域１６０２および第３表示領域１６０３の「追加」の件数として表示される。

また、特定部１７００は、第２特定結果には含まれていないが、第１特定結果には含まれている本文３０３（以下、削除本文３０３）とその件数を特定する。削除本文３０３は、出力部６０６により相違点表示領域に表示され、削除本文３０３の件数は、出力部６０６により第２表示領域１６０２および第３表示領域１６０３の「削除」の件数として表示される。

＜検索結果画面１６００の出力処理手順例＞
図１８は、検索結果画面１６００の処理手順例１を示すフローチャートである。情報処理装置２００は、取得部６０１により、分析対象キーワード７０１を取得する（ステップＳ１８０１）。つぎに、情報処理装置２００は、検索部６０２により、分析対象キーワード７０１を含む本文３０３を文集合ＤＢ２１０から検索する（ステップＳ１８０２）。

情報処理装置２００は、特定部１７００により、分析対象キーワード７０１に対応する価値カテゴリ１０１内の価値表現１０４を含む検索本文３０３とその件数を、ステップＳ１８０２の検索結果から特定する（ステップＳ１８０３）。そして、情報処理装置２００は、特定部１７００により、ステップＳ１８０３で特定した検索本文３０３とその件数のうち、新規本文３０３とその件数を特定し（ステップＳ１８０４）、ステップＳ１８０３の特定結果として特定されなかった削除文とその件数を特定する（ステップＳ１８０５）。

同様に、情報処理装置２００は、特定部１７００により、分析対象キーワード７０１に対応する価値１０２内の価値表現１０４を含む検索本文３０３とその件数を、ステップＳ１８０２の検索結果から特定する（ステップＳ１８０６）。そして、情報処理装置２００は、特定部１７００により、ステップＳ１８０６で特定した検索本文３０３とその件数のうち、新規本文３０３とその件数を特定し（ステップＳ１８０７）、ステップＳ１８０６の特定結果として特定されなかった削除文とその件数を特定する（ステップＳ１８０８）。このあと、情報処理装置２００は、図１６に示した検索結果表示画面を生成して出力する（ステップＳ１８０９）。これにより、情報処理装置２００は、一連の処理を終了する。

このように、追加候補７０５の追加登録による価値体系辞書ＤＢ１００の影響を、実際の特定結果の差分をユーザに表示することで確認することができるため、価値体系辞書ＤＢ１００への語句の編集の容易化を図ることができる。

なお、図１８に示した処理手順では、前回の追加候補７０５の追加登録から今回の追加候補７０５の追加登録までの間に、文集合ＤＢ２１０または価値体系辞書ＤＢ１００が更新されている場合がある。この間の文集合ＤＢ２１０または価値体系辞書ＤＢ１００が更新は、第２特定結果に影響を与え、第１特定結果との差分の信頼性が低下する。したがって、追加候補７０５の追加登録がある場合に、情報処理装置２００は、追加登録前の価値体系辞書ＤＢ１００を用いて図１８の処理（ステップＳ１８０３～Ｓ１８０８）を実行するとともに、追加登録後の価値体系辞書ＤＢ１００を用いて図１８の処理（ステップＳ１８０３～Ｓ１８０８）を実行する。これにより、前回の追加候補７０５の追加登録から今回の追加候補７０５の追加登録までの間の文集合ＤＢ２１０または価値体系辞書ＤＢ１００の更新による影響を回避することができる。以下、図１９を用いて説明する。

図１９は、検索結果画面１６００の処理手順例２を示すフローチャートである。図１８と同一処理には同一ステップ番号を付し、その説明を省略する。更新前データ収集処理（ステップＳ１９０３）は、追加候補７０５の追加登録前の価値体系辞書ＤＢ１００を用いてステップＳ１８０３～Ｓ１８０８を実行する処理である。また、更新後データ収集処理（ステップＳ１９０４）は、追加候補７０５の追加登録後の価値体系辞書ＤＢ１００を用いてステップＳ１８０３～Ｓ１８０８を実行する処理である。これにより、前回の追加候補７０５の追加登録から今回の追加候補７０５の追加登録までの間の文集合ＤＢ２１０または価値体系辞書ＤＢ１００の更新による影響を回避することができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

２００情報処理装置
６０１取得部
６０２検索部
６０３第１判定部
６０４抽出部
６０５第２判定部
６０６出力部
６０７第３判定部
６０８登録部
６０９検出部
６１０削除部

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文集合を記憶する文集合データベースにアクセス可能な情報処理装置であって、
前記プロセッサは、
対象語句を取得する取得処理と、
前記取得処理によって取得された対象語句を含む文を前記文集合から検索する検索処理と、
前記検索処理によって検索された文の極性を判定する第１判定処理と、
前記検索処理によって検索された文に基づいて、当該文から前記対象語句と述語との組である促進抑制関係を抽出する抽出処理と、
前記第１判定処理の第１判定結果と、前記抽出処理の抽出結果と、に基づいて、前記対象語句の極性を判定する第２判定処理と、
前記第２判定処理の第２判定結果を出力する出力処理と、
を実行することを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１判定処理では、前記プロセッサは、入力文が与えられると前記入力文の極性を出力する文極性判定モデルに、前記検索処理によって検索された文を与えることにより、前記検索処理によって検索された文の極性を判定する、
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記取得処理では、前記プロセッサは、分析対象キーワードを取得し、
前記検索処理では、前記プロセッサは、前記取得処理によって取得された分析対象キーワードおよび前記対象語句を含む文を前記文集合から検索する、
ことを特徴とする情報処理装置。
請求項３に記載の情報処理装置であって、
極性を持つ観点を示す語句である価値、前記価値を表現する語句である価値表現、および前記価値表現の極性を関連付けて記憶する価値体系辞書データベースと、見出し語および当該見出し語に関連する関連表現を記憶する関連表現辞書データベースと、にアクセス可能であり、
前記取得処理では、前記プロセッサは、特定の価値を取得し、前記特定の価値に関連付けられている特定の価値表現を、前記価値体系辞書データベースから取得し、当該特定の価値表現に一致する見出し語に関連する関連表現を、前記関連表現辞書データベースから前記対象語句として取得し、
前記検索処理では、前記プロセッサは、前記分析対象キーワードおよび前記関連表現を含む文を前記文集合から検索する、
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置であって、
前記プロセッサは、
前記価値体系辞書データベースにおける前記特定の価値の極性と、前記第２判定処理の第２判定結果である前記対象語句の極性とが、一致するか否かを判定する第３判定処理と、
前記第３判定処理によって一致すると判定された場合、前記価値体系辞書データベースにおける前記特定の価値に関連づけて前記対象語句を前記価値表現として登録する登録処理と、
を実行することを特徴とする情報処理装置。
請求項５に記載の情報処理装置であって、
前記プロセッサは、
前記第３判定処理によって一致しないと判定された場合、前記価値体系辞書データベースにおける前記特定の価値表現を削除する削除処理と、
を実行することを特徴とする情報処理装置。
請求項６に記載の情報処理装置であって、
前記プロセッサは、
前記価値表現の確認要求の有無を検出する検出処理を実行し、
前記削除処理では、前記プロセッサは、前記検出処理によって前記確認要求が検出され、かつ、前記第３判定処理によって一致しないと判定された場合、前記価値体系辞書データベースにおける前記特定の価値表現を削除する、
ことを特徴とする情報処理装置。
請求項５に記載の情報処理装置であって、
前記検索処理では、前記プロセッサは、前記分析対象キーワードを含む文を前記文集合から検索し、
前記プロセッサは、
前記検索処理によって検索された前記分析対象キーワードを含む文から、前記特定の価値に対応する価値表現を含む文を特定する特定処理を実行し、
前記出力処理では、前記プロセッサは、前記特定処理の第１特定結果を出力する、
ことを特徴とする情報処理装置。
請求項８に記載の情報処理装置であって、
前記特定処理では、前記プロセッサは、前記第１特定結果と、前記登録処理による登録前に実行された前記特定処理の第２特定結果と、に基づいて、前記第２特定結果には含まれていないが、前記第１特定結果には含まれている新規な文を特定し、
前記出力処理では、前記プロセッサは、前記新規な文を出力する、
ことを特徴とする情報処理装置。
請求項８に記載の情報処理装置であって、
前記特定処理では、前記プロセッサは、前記第１特定結果と、前記登録処理による登録前に実行された前記特定処理の第２特定結果と、に基づいて、前記第２特定結果には含まれているが、前記第１特定結果には含まれていない削除文を特定し、
前記出力処理では、前記プロセッサは、前記削除文を出力する、
ことを特徴とする情報処理装置。
請求項５に記載の情報処理装置であって、
前記検索処理では、前記プロセッサは、前記分析対象キーワードを含む文を前記文集合から検索し、
前記プロセッサは、
前記検索処理によって検索された前記分析対象キーワードを含む文から、前記特定の価値に対応する価値表現を含む文の数を特定する特定処理を実行し、
前記出力処理では、前記プロセッサは、前記特定処理の第１特定結果を出力する、
ことを特徴とする情報処理装置。
請求項１１に記載の情報処理装置であって、
前記特定処理では、前記プロセッサは、前記第１特定結果と、前記登録処理による登録前に実行された前記特定処理の第２特定結果と、に基づいて、前記第２特定結果には含まれていないが、前記第１特定結果には含まれている新規な文の数を特定し、
前記出力処理では、前記プロセッサは、前記新規な文の数を出力する、
ことを特徴とする情報処理装置。
請求項１２に記載の情報処理装置であって、
前記特定処理では、前記プロセッサは、前記第１特定結果と、前記登録処理による登録前に実行された前記特定処理の第２特定結果と、に基づいて、前記第２特定結果には含まれているが、前記第１特定結果には含まれていない削除文の数を特定し、
前記出力処理では、前記プロセッサは、前記削除文の数を出力する、
ことを特徴とする情報処理装置。
請求項９、１０、１２、および１３のうちいずれか１つに記載の情報処理装置であって、
前記特定処理では、前記プロセッサは、前記第２特定結果を、前記取得処理によって前記分析対象キーワードが取得されてから前記登録処理によって前記対象語句が登録されるまでの間に実行することにより出力する、
ことを特徴とする情報処理装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文集合を記憶する文集合データベースにアクセス可能な情報処理装置による情報処理方法であって、
前記プロセッサは、
対象語句を取得する取得処理と、
前記取得処理によって取得された対象語句を含む文を前記文集合から検索する検索処理と、
前記検索処理によって検索された文の極性を判定する第１判定処理と、
前記検索処理によって検索された文に基づいて、当該文から前記対象語句と述語の組である促進抑制関係を抽出する抽出処理と、
前記第１判定処理の第１判定結果と、前記抽出処理の抽出結果と、に基づいて、前記対象語句の極性を判定する第２判定処理と、
前記第２判定処理の第２判定結果を出力する出力処理と、
を実行することを特徴とする情報処理方法。