JP7117168B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP7117168B2
JP7117168B2 JP2018113899A JP2018113899A JP7117168B2 JP 7117168 B2 JP7117168 B2 JP 7117168B2 JP 2018113899 A JP2018113899 A JP 2018113899A JP 2018113899 A JP2018113899 A JP 2018113899A JP 7117168 B2 JP7117168 B2 JP 7117168B2
Authority
JP
Japan
Prior art keywords
sentence
information processing
polarity
value
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018113899A
Other languages
English (en)
Other versions
JP2019215825A (ja
Inventor
利彦 柳瀬
美沙 佐藤
孝介 柳井
健三 黒土
祐太 是枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018113899A priority Critical patent/JP7117168B2/ja
Publication of JP2019215825A publication Critical patent/JP2019215825A/ja
Application granted granted Critical
Publication of JP7117168B2 publication Critical patent/JP7117168B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報を処理する情報処理装置および情報処理方法に関する。
近年、大量のテキスト情報を分析することで有用な知見を発見する情報サービスが実用化されている。たとえば、商品レビュー記事やソーシャルネットワークのテキストを用いて、商品の評判を自動的に推定する評判分析がある。また、ニュース記事が株式市場にとって肯定的に受け入れられているかそうでないかを推定するニュースの極性分析がある。
インターネットを通じて、大量のテキストデータにアクセスできるようになったこと、全文検索やデータベースなど大量情報に対する情報アクセス技術が普及したこと、さらに、機械学習やパターン認識の技術を応用した分析の自動化または半自動化が進展したことが、上記実用化の理由と考えられる。
具体的には、評判分析やニュースの極性分析は、肯定表現および否定表現を辞書として有し、過去に人間が商品の肯定または否定を評価した結果から肯定または否定の判定パターンを機械学習手法により計算機に学習することで、自動的に実現される。
一方で、こうした情報をもとに判断するユーザは個々人によって異なる価値観を持っているため、同じ情報を見たとしても行動が分かれる場合がある。たとえば、ニュースの極性分析の結果を見た際に、ある人はリスクを最小化しようとし、またある人は利益を最大化しようとする。このように、実際のユースケースでは極性情報だけでなく価値観を反映した観点の情報が必要になる。
この技術分野の背景技術として特許文献1~3および非特許文献1がある。特許文献1は、文書に対して肯定的な評価または否定的な評価であるかを分析する方法を開示する。特許文献2は、依存構造解析の結果を用いて、文そのものの極性ではなく、文の言及先に対して肯定か否定かを判定する方法を開示する。特許文献3は、価値に基づく情報分類の方法を開示する。非特許文献1は、文の肯定否定の極性を判定する機械学習器の情報から文に含まれる単語の極性を判定する方法を開示する。
特開2015‐125570号公報 国際公開2016/056043号公報 国際公開2016/067334号公報
五島 圭一、高橋 大志、「株式価格情報を用いた金融極性辞書の作成」、自然言語処理 24巻(2017)4号 547頁~577頁 2017年12月15日公開
観点の中でも特に人の価値観のように「良い」、「悪い」という極性を持つ観点を以後では「価値」と呼び、価値を表す具体的な表現の辞書を「価値体系辞書」と呼ぶ。この価値に基づく情報分析のためには、事前に価値体系辞書を作成する必要がある。辞書作成者の作業負担を軽減するためには、価値体系辞書に価値表現を追加する際に、追加語の価値に対する極性をユーザが直接判定することなく、当該追加語の極性を精度良く自動推定し、極性の合わない追加語を取り除く必要がある。加えて、価値体系辞書の編集によって分析結果が変化するが、その変化が辞書作成者の意図とあっているかを、簡便に確認する方法が求められる。上述した従来技術では、これらを実現する点が考慮されていない。
本発明は、対象語句の極性判定の高精度化を図ることを目的とする。
本願において開示される発明の一側面となる情報処理装置および情報処理方法は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文集合を記憶する文集合データベースにアクセス可能な情報処理装置および情報処理方法であって、前記プロセッサは、対象語句を取得する取得処理と、前記取得処理によって取得された対象語句を含む文を前記文集合から検索する検索処理と、前記検索処理によって検索された文の極性を判定する第1判定処理と、前記検索処理によって検索された文に基づいて、当該文から前記対象語句と述語との組である促進抑制関係を抽出する抽出処理と、前記第1判定処理の第1判定結果と、前記抽出処理の抽出結果と、に基づいて、前記対象語句の極性を判定する第2判定処理と、前記第2判定処理の第2判定結果を出力する出力処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、対象語句の極性判定の高精度化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
図1は、対象語句の追加登録例を示す説明図である。 図2は、情報処理装置の構成例を示す説明図である。 図3は、文集合DBの記憶内容例を示す説明図である。 図4は、関連表現辞書DBの記憶内容例を示す説明図である。 図5は、促進抑制表現DBの記憶内容を示す説明図である。 図6は、情報処理装置の機能的構成例1を示すブロック図である。 図7は、編集条件の一例を示す説明図である。 図8は、取得部による価値表現の追加候補の取得例を示す説明図である。 図9は、文極性判定モデルの生成例を示す説明図である。 図10は、促進抑制関係抽出および対象語句の極性判定の例1を示す説明図である。 図11は、促進抑制関係抽出および対象語句の極性判定の例2を示す説明図である。 図12は、情報処理装置による対象語句の追加登録処理手順例を示すフローチャートである。 図13は、実験結果を示す図表である。 図14は、価値体系辞書DBからの編集条件の生成例を示す説明図である。 図15は、情報処理装置による確認候補の削除処理手順例を示すフローチャートである。 図16は、検索結果画面例を示す説明図である。 図17は、情報処理装置の機能的構成例2を示すブロック図である。 図18は、検索結果画面の処理手順例1を示すフローチャートである。 図19は、検索結果画面の処理手順例2を示すフローチャートである。
以下の実施例において、要素の数等に言及する場合、特に指定された場合および原理的に明らかに特定される場合を除き、その特定の数に限定されることはなく、特定の数以上でも以下でもよい。また、以下の実施例において、その構成要素は、特に指定された場合および原理的に明らかに必要とされる場合を除き、必ずしも必須のものではないということは明らかである。また、同様に以下の実施例において、構成要素の形状や位置関係について言及するときは、特に明示する場合や原理的に明らかにそうでないと考えられる場合を除き、実質的にその形状等に近似または類似するものを含むものとする。このことは上記数値および範囲に関しても同様である。また、以下の実施例では、主に日本語文書を処理する場合について説明するが、言語固有の処理を置き換えれば英語などその他の言語でも、同様の手順で適用可能である。
<対象語句の追加登録例>
図1は、対象語句の追加登録例を示す説明図である。価値体系辞書DB(Database)100は、上述した人間のもつ価値観をそれぞれの価値(観点)ごとに分けて具体的な表現とともに整理した価値体系辞書をデータベース化した構造化データである。具体的には、たとえば、価値体系辞書DB100は、フィールドとして、価値カテゴリ101と、価値102と、極性103と、価値表現104と、を有する。価値カテゴリ101は、価値102の大分類である。1つの価値カテゴリ101は、1または関連する2以上の価値102を含む。
価値102は、上述したように、観点の中でも特に人の価値観のように「良い」、「悪い」という極性103を持つ観点である。価値102は、いずれかの価値カテゴリ101に属する。極性103は、価値102が肯定的(Positive)または否定的(Negative)であるかを示す情報である。価値表現104は、価値102を表現する語句である。たとえば、価値表現104の「暴落」は、価値カテゴリ101の「経済」に属する価値102である「リスク」を表現する語句の一例であり、「リスク」の極性103は、「Negative」である。「リスク」の極性103が「Negative」であるということは、その価値表現104の極性103もまた「Negative」である。なお、語句とは、1以上の単語から構成される文字列である。
ここで、価値体系辞書DB100の価値102「リスク」の価値表現104に対象語句110として「値下がり」を追加登録する場合について説明する。追加登録前では、「値下がり」の極性103は不明であるが、ユーザは、「値下がり」の極性103を指定する必要はない。本実施例の情報処理装置は、対象語句110の極性103を自動決定する。この場合、「値下がり」の極性103が「Negative」であれば、情報処理装置は、価値102「リスク」の価値表現104に「値下がり」を追加登録し、「値下がり」の極性103が「Positive」であれば、情報処理装置は、価値102「リスク」の価値表現104に「値下がり」を追加登録しない。これにより、対象語句110の極性103を高精度に決定することができ、価値表現104の自動登録を実現し、誤登録を抑制することができる。
<情報処理装置の構成例>
図2は、情報処理装置の構成例を示す説明図である。情報処理装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF)205と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、情報処理装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワークと接続し、データを送受信する。
また、情報処理装置200は、文集合DB210、価値体系辞書DB100、関連表現辞書DB220、および促進抑制表現DB230にアクセス可能である。情報処理装置200は、文集合DB210、価値体系辞書DB100、関連表現辞書DB220、および促進抑制表現DB230を記憶デバイス202に記憶させてもよく、通信IF205を介して情報処理装置200は、文集合DB210、価値体系辞書DB100、関連表現辞書DB220、および促進抑制表現DB230にデータの読み出しや書き込みをしてもよい。文集合DB210、関連表現辞書DB220、および促進抑制表現DB230の詳細については、図3~図5で後述する。
<データベースの記憶内容例>
図3は、文集合DB210の記憶内容例を示す説明図である。文集合DB210は、文書を本文ごとに分けて記憶するデータベースである。文集合DB210は、フィールドとして、文書ID301と、文ID302と、本文303と、を有する。文書ID301は、文書を一意に特定する識別情報である。文ID302は、本文303を一意に特定する識別情報であり、たとえば、文書内で本文303が登場する順番となる整数値である。本文303は、文書内の1つの文を示す文字列である。情報処理装置200は、文集合DB210を全文検索可能である。
図4は、関連表現辞書DB220の記憶内容例を示す説明図である。関連表現辞書DB220は、関連する表現である語句を記憶するデータベースである。関連表現辞書DB220は、フィールドとして、見出し語401と、関連表現402と、を有する。見出し語401は、関連表現辞書DB220のインデックスとなる語句である。関連表現402とは、見出し語401に関連する語句である。関連表現402は、見出し語401の類義語に限らず、たとえば、対義語を含んでもよい。
図4では、たとえば、見出し語401の「健康」に関連して「健やか、QOL、成人病」など語句が関連表現402として登録されている。ここで、関連表現402は類義語だけに限られない。たとえば、「健やか」は、見出し語401の「健康」な状態を示した形容表現であり、また、「QOL」(QUALITY OF LIFE)は、見出し語401の「健康」を必要条件とする語句である。
また、「成人病」は、見出し語401の「健康」とは反対の価値102である「病気」の一例である。このように、関連表現402には見出し語401に対して、様々な関係のある表現が登録される可能性がある。関連表現辞書DB220は、大規模な文書からSkip-GramやCBOW、GloVeなどの単語の埋め込み表現を学習することで自動的に作成される。
この埋め込み表現は、エントリ内の各関連表現402に対応する単語ベクトルが格納された行列である。これらの単語ベクトルは、似た文脈で登場する単語はコサイン類似度が大きくなるという特徴を有する。そのため、関連表現辞書DB220として埋め込み表現を使うには、入力された語句に対する単語ベクトルの近傍探索をすればよい。たとえば、10個の関連表現402を得たい場合には自身を除く10近傍の単語ベクトルを探索すればよい。
図5は、促進抑制表現DB230の記憶内容を示す説明図である。促進抑制表現DB230は、促進表現501を示す語句と抑制表現502を示す語句とを記憶するデータベースである。促進表現501および抑制表現502はいずれも、対象と述語の組により構成される。促進表現501は、ある対象と、その対象を促進する述語の組である。たとえば、『適度な運動は健康に良い。』という文の場合、対象が「運動」であり、対象を促進する述語が「良い」である。すなわち、対象である「運動」が“健康”を促進するという関係である。
また、抑制表現502は、対象と、その対象を抑制する述語の組である。たとえば、『運賃の値上げが、乗客数を減少させた。』という文の場合、対象が「乗客数」であり、対象を抑制する述語が「減少させた」である。すなわち、対象である「乗客数」を“運賃の値上げ”が抑制したという関係になる。
<情報処理装置200の機構的構成例>
図6は、情報処理装置200の機能的構成例1を示すブロック図である。情報処理装置200は、取得部601と、検索部602と、第1判定部603と、抽出部604と、第2判定部605と、出力部606と、第3判定部607と、登録部608と、検出部609と、削除部610と、を有する。取得部601~削除部610は、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることで実現される機能である。
取得部601は、対象語句110を取得する。対象語句110とは、価値体系辞書DB100への追加対象となる語句である。図1の例では、「値下がり」である。取得部601は、たとえば、図2に示した入力デバイス203からの対象語句110の入力により、対象語句110を直接取得する。
また、取得部601は、分析対象キーワードを取得することもできる。分析対象キーワードとは、分析したい本文303を絞り込むための文字列である。たとえば、ユーザが仮想通貨に関するニュースを分析したい場合には、分析対象キーワードを「仮想通貨」とすればよい。取得部601は、たとえば、図2に示した入力デバイス203からの対象語句110の入力により、分析対象キーワードを直接取得する。これにより、後述する検索部602において、分析対象キーワードを含む本文303に絞り込むことができる。
また、取得部601は、対象語句110を間接的に取得することもできる。具体的には、たとえば、取得部601は、分析対象キーワードと特定の価値を取得する。たとえば、ユーザが仮想通貨に関するニュースをリスクの観点から分析したい場合には、分析対象キーワードを「仮想通貨」とし、特定の価値を「リスク」とすればよい。
そして、取得部601は、特定の価値に基づいて、価値体系辞書DB100から特定の価値表現104を取得する。具体的には、たとえば、取得部601は、特定の価値が「リスク」であれば、価値体系辞書DB100の価値102が「リスク」のエントリの価値表現104である「値下げ」、「暴落」、「急落」を特定の価値表現104として取得する。
そして、取得部601は、特定の価値表現104に一致する見出し語401に関連する関連表現402を、関連表現辞書DB220から対象語句110として取得する。この場合、取得部601は、たとえば、特定の価値表現104が「値下げ」の場合、関連表現辞書DB220において、見出し語401が「値下げ」であるエントリの関連表現402である「値下がり」、「値上がり」、「下落」を対象語句110として取得する。ただし、当該エントリの関連表現402の1つである「急落」は、特定の価値102である「リスク」に対応する価値表現104に含まれているため、取得部601は、「急落」を関連表現辞書DB220から取得しない。これにより、対象語句110を間接的に取得することができる。
また、取得部601は、価値体系辞書DB100から特定の価値102を取得するとともに、特定の価値102に関連付けられている特定の価値表現104を対象語句110として取得してもよい。たとえば、文集合DB210に文書が追加された場合や、後述する文極性103モデルに変更があった場合など、極性103に変更(反転)が生じる可能性のあるタイミングで、取得部601は、価値体系辞書DB100から、特定の価値102および特定の価値表現104を取得する。
検索部602は、取得部601によって取得された対象語句110を含む文を文集合から検索する。たとえば、対象語句110が「所得制限」である場合、文集合DB210から文ID302が「15」の本文303が検索される。
また、検索部602は、取得部601によって分析対象キーワードおよび対象語句110が取得された場合、分析対象キーワードおよび対象語句110の両方を含む文を文集合から検索する。たとえば、分析対象キーワードが「仮想通貨」であり、特定の価値102が「リスク」、対象語句110が「値下がり」である場合、検索部602は、「仮想通貨は非常に大きな値下がりの危険性を伴う。」といった本文303を検索する。
第1判定部603は、検索部602によって検索された文の極性103を判定する。具体的には、たとえば、第1判定部603は、入力文が与えられると当該入力文の極性103を出力する文極性判定モデル630に、検索部602によって検索された本文303(以下、検索本文303)を与えることにより、当該検索本文303の極性103を判定する。文極性判定モデル630は、機械学習により生成されるモデルであり、記憶デバイス202に記憶される。
これにより、第1判定部603は、検索本文303が肯定的な表現(Positive)であるか否定的な表現(Negative)であるかを自動的に判定することができる。なお、情報処理装置200は、文極性判定モデル630を機械学習により生成してもよく、外部装置から取得してもよい。
抽出部604は、検索本文303に基づいて、検索本文303から対象語句110と述語との組である促進抑制関係を抽出する。具体的には、たとえば、抽出部604は、係り受け解析や句構造解析などの構造解析を実行することにより、対象語句110の述語を特定する。つぎに、抽出部604は、促進抑制表現DB230を参照して、特定した述語が促進表現501であるか抑制表現502であるかを特定する。そして、抽出部604は、検索本文303から、対象語句110と、特定された促進表現501または抑制表現502との組である促進関係または抑制関係を抽出する。
第2判定部605は、第1判定部603の第1判定結果と、抽出部604の抽出結果と、に基づいて、対象語句110の極性103を判定する。第1判定結果とは、文極性の判定結果であり、検索本文303が肯定的な表現(Positive)であるか否定的な表現(Negative)であるかを示す。抽出結果とは、検索本文303から対象語句110と述語との組である促進関係または抑制関係である。
第2判定部605は、検索本文303の文極性がPositiveであり、かつ、検索本文303から促進関係が抽出されていれば、対象語句110の極性103をPositiveと判定する。また、第2判定部605は、検索本文303の文極性がPositiveであり、かつ、検索本文303から抑制関係が抽出されていれば、対象語句110の極性103をNegativeと判定する。
第2判定部605は、検索本文303の文極性がNegativeであり、かつ、検索本文303から促進関係が抽出されていれば、対象語句110の極性103をNegativeと判定する。また、第2判定部605は、検索本文303の文極性がNegativeであり、かつ、検索本文303から抑制関係が抽出されていれば、対象語句110の極性103をPositiveと判定する。これにより、対象語句110の極性103を高精度に決定することができる。
出力部606は、第2判定部605の第2判定結果を出力する。第2判定結果とは、対象語句110の極性103(PositiveまたはNegative)である。出力部606は、第2判定結果を、出力デバイス204であるディスプレイに表示してもよく、出力デバイス204の一例であるプリンタに出力してもよい。また、出力部606は、第2判定結果を、通信IF205を介して他の装置に送信してもよい。また、出力部606は、第2判定結果を、記憶デバイス202に格納してもよい。
第3判定部607は、価値体系辞書DB100における特定の価値102の極性103と、第2判定部605の第2判定結果である対象語句110の極性103とが、一致するか否かを判定する。たとえば、価値体系辞書DB100において、特定の価値102が「リスク」である場合、その極性103は、Negativeである。対象語句110である「値下がり」の極性103がNegativeであれば、特定の価値102である「リスク」の極性103と一致すると判定する。一方、対象語句110である「値下がり」の極性103がPositiveであれば、特定の価値102である「リスク」の極性103と一致しないと判定する。
登録部608は、第3判定部607によって一致すると判定された場合、価値体系辞書DB100における特定の価値102に関連づけて対象語句110を価値表現104として登録する。たとえば、価値体系辞書DB100において、特定の価値102が「リスク」の極性103であるNegativeと、対象語句110である「値下がり」の極性103であるNegativeとは、一致するため、登録部608は、図1に示したように、価値体系辞書DB100において価値102が「リスク」であるエントリの価値表現104に、対象語句110の「値下がり」を登録する。これにより、高精度に極性103が決定された対象語句110を価値表現104として自動的に登録することができ、誤登録を抑制することができる。
検出部609は、価値表現104の確認要求の有無を検出する。確認要求とは、価値表現104の極性103の正しさを確認するための要求であり、たとえば、文集合DB210の更新が確認要求となる。文集合DB210の更新とは、文集合DB210への文書の追加、文集合DB210内の文書の内容についての変更、または、文集合DB210内の文書の削除である。検出部609は、文集合DB210から更新完了通知を受信することで、確認要求を検出する。また、文集合DB210の更新があったことをユーザ操作により入力デバイス203から受け付けた場合も、検出部609は、確認要求として検出してもよい。
また、確認要求は、文極性判定モデル630の更新でもよい。具体的には、たとえば、訓練データの更新により、文極性判定モデル630が更新されると、検出部609は、文極性判定モデル630の更新完了を確認要求として検出する。
検出部609によって確認要求が検出されると、取得部601は、価値体系辞書DB100から特定の価値102を取得するとともに、特定の価値表現104を対象語句110として取得する。すなわち、極性103に変更(反転)が生じる可能性のあるタイミングで、取得部601は、価値体系辞書DB100から、特定の価値102および特定の価値表現104を取得することになる。
削除部610は、第3判定部607によって一致しないと判定された場合、価値体系辞書DB100における特定の価値表現104を削除する。具体的には、たとえば、極性103に変更(反転)が生じる可能性のあるタイミングで価値体系辞書DB100から特定の価値102および特定の価値表現104が取得された場合、特定の価値102の極性103と、第2判定部605の第2判定結果である対象語句110の極性103とが、不一致であれば、削除部610は、対象語句110を特定の価値102のエントリから削除する。一方、特定の価値102の極性103と、第2判定部605の第2判定結果である対象語句110の極性103とが一致していれば、削除する必要はない。
たとえば、特定の価値102が「リスク」(極性103はNegative)であり、対象語句110である価値表現104が「暴落」である場合、「暴落」の極性103がPositiveと判定されると、極性103の不一致により、削除部610は、価値102が「リスク」であるエントリの価値表現104から「暴落」を削除する。一方、「暴落」の極性103がNegativeと判定されると、極性103の一致により、削除部610は、「暴落」を削除しない。これにより、文集合DB210や文極性判定モデル630に変更があった場合、価値102と価値表現104との間の極性103の不一致を解消することができる。したがって、価値体系辞書DB100の管理者による管理負担の軽減を図ることができる。
<編集条件例>
図7は、編集条件の一例を示す説明図である。編集条件700とは、価値体系辞書DB100を編集するため、すなわち、対象語句110を追加登録するための入力情報である。編集条件700は、取得部601により取得される。編集条件700には、分析対象キーワード701と、特定の価値カテゴリ702と、特定の価値703と、特定の価値703の極性103と、価値表現104の追加候補705と、が設定可能である。特定の価値カテゴリ702は、特定の価値703が属する価値カテゴリ101である。価値表現104の追加候補705は、上述した対象語句110である。編集条件700は、ユーザにより作成される。
(A)は、価値体系辞書DB100に存在する特定の価値703を用いて作成された編集条件700を示す。価値表現104の追加候補705は未定である。この場合、上述したように、取得部601が、特定の価値703に基づいて、価値体系辞書DB100から価値表現104を取得することになる。
(B)は、(A)において、価値表現104の追加候補705があらかじめ入力された編集条件700を示す。この場合、取得部601が、価値体系辞書DB100から価値表現104を取得する処理が不要になり、追加登録処理の高速化を図ることができる。また、ユーザが設定した価値表現104の追加候補705について直接極性103を判定することができるため、ユーザ自身が選んだ追加候補705が登録にふさわしいか否かを確認することができる。
(C)は、(A)において、特定の価値703の極性704があらかじめ入力された編集条件700を示す。具体的には、たとえば、編集条件700を価値体系辞書DB100に新規エントリとして追加する場合に用いられる。この場合、新規エントリとなる編集条件700の価値表現104の追加候補705は、(A)の編集条件700と同様に取得される。
(D)は、(B)において、特定の価値703の極性704があらかじめ入力された編集条件700を示す。具体的には、たとえば、編集条件700を価値体系辞書DB100に新規エントリとして追加する場合に用いられる。この場合、新規エントリとなる編集条件700の価値表現104の追加候補705は、ユーザが設定した価値表現104の追加候補705となるため、ユーザ自身が選んだ追加候補705が登録にふさわしいか否かを確認することができる。
<価値表現104の追加候補705の取得例>
図8は、取得部601による価値表現104の追加候補705の取得例を示す説明図である。編集条件700に価値表現104の追加候補705が未設定であれば、取得部601は、価値表現104の追加候補705を取得することになる。ここでは、図7の(A)の編集条件700を用いて説明する。
(A)取得部601は、編集条件700内の特定の価値カテゴリ702および特定の価値703の組に一致する価値カテゴリ101および価値102の組のエントリを価値体系辞書DB100から特定し、特定したエントリの価値表現104である「値下げ」、「暴落」、および「急落」を取得する。
(B)取得部601は、取得した価値表現104である「値下げ」、「暴落」、および「急落」の各々について、関連表現辞書DB220の見出し語401に一致するエントリを特定する。
(C)取得部601は、特定した関連表現辞書DB220のエントリの価値表現104を取得する。たとえば、価値表現104である「値下げ」が見出し語401に存在するため、取得部601は、当該エントリの関連表現402である「値下がり」、「値上がり」、「下落」、および「急落」を取得する。取得部601は、「値下がり」、「値上がり」および「下落」を価値表現104の追加候補705(C1~C3)として決定する。一方、「急落」については、価値体系辞書DB100に存在するため、取得部601は、追加候補705に決定しない。(B)で取得した他の価値表現104である「暴落」および「急落」についても同様に処理される。
<文極性判定モデル630の生成例>
図9は、文極性判定モデル630の生成例を示す説明図である。文極性判定モデル630の生成は、第1判定部603が実行してもよく、情報処理装置200外の他の装置が実行してもよい。第1判定部603が実行する場合、訓練DB900は、たとえば、記憶デバイス202に記憶される。訓練DB900は、訓練データ901と文極性902とを格納するデータベースである。訓練データ901は、文極性判定モデル630の生成に用いられる例文T1~Tn(nは1以上の整数)である。例文T1~Tnの任意の例文を例文Tとする。例文T1~Tnの各々には、その文極性902が設定されている。
文極性判定モデル630は、たとえば、パラメータa1~anと、重みw1~wnと、を用いた回帰モデルである。パラメータa1~anは、例文Tの特徴を示すパラメータである。yは、文極性902の値である。たとえば、yは、-1≦y≦1の範囲であり、-1≦y<0であれば、文極性902はNegative、0≦y≦1であれば、文極性902はPositiveとする。
文極性判定モデル630は、たとえば、識別モデルを用いることもできる。yは「-1」または「1」であり、「-1」であれば文極性902はNegative、「1」であれば文極性902はPositiveとする。識別モデルの具体例にはSupport Vector ClassifierやLogistic Regression、リカレントニューラルネットワークや畳み込みネットワークなどを用いることができる。
第1判定部603は、例文T1~Tnの各々について、例文Tのパラメータa1~anと文極性902の値yとを文極性判定モデル630に与えることで、重みw1~wnを決定する。これにより、文極性判定モデル630が確定する。このあと、第1判定部603は、極性103が未知の検索本文303のパラメータa1~anを文極性判定モデル630に与えることで、当該検索本文303の文極性902の値yを出力し、値yにより文極性902を判定する。
<促進抑制関係抽出および対象語句110の極性判定の例>
図10は、促進抑制関係抽出および対象語句110の極性判定の例1を示す説明図である。例1では、図7(A)の編集条件700が取得されたものとする。例1では、検索本文ST1、ST2の文極性がNegativeである。図10において、(A)は、促進抑制関係抽出例を示し、(B)は、対象語句110である価値表現104の追加候補705の極性判定例を示す。
(A)検索本文ST1は、分析対象キーワード701である「仮想通貨」と、追加候補C1の「値下がり」と、を含む本文303である。抽出部604は、構造解析により、検索本文ST1を、主語Sの「仮想通貨は」と、目的語Oの「日経平均の値下がりを」と、述語動詞Vの「おこした」とに分解する。抽出部604は、述語動詞Vの「おこした」を、促進抑制表現DB230の促進表現501として抽出する。
また、検索本文ST2は、分析対象キーワード701である「仮想通貨」と、追加候補C2の「値上がり」と、を含む本文303である。抽出部604は、構造解析により、検索本文ST2を、主語Sの「仮想通貨は」と、目的語Oの「日経平均の値上がりを」と、述語動詞Vの「妨げた」とに分解する。抽出部604は、述語動詞Vの「妨げた」を、促進抑制表現DB230の抑制表現502として抽出する。
(B)第2判定部605は、第1判定結果の文極性がNegativeな検索本文303(以下、Negative文)と、抽出結果である対象語句110の促進関係と、の組み合わせについては、対象語句110の極性103をNegativeと判定する。たとえば、検索本文ST1は、Negative文であり、追加候補C1は促進関係であるため、追加候補C1の極性103はNegativeとなる。
この場合、第3判定部607は、編集条件700の特定の価値102である「リスク」の極性103と、追加候補C1である「値下がり」の極性103とが一致するか否かを判定する。「リスク」の極性103と追加候補C1である「値下がり」の極性103とはNegativeで一致する。したがって、登録部608は、追加候補C1である「値下がり」を、価値体系辞書DB100での特定の価値102である「リスク」のエントリの価値表現104に登録する。
また、第2判定部605は、Negative文と、抽出結果である対象語句110の抑制関係と、の組み合わせについては、対象語句110の極性103をPositiveと判定する。たとえば、検索本文ST2は、Negative文であり、追加候補C2は抑制関係であるため、追加候補C2の極性103はPositiveとなる。
この場合、第3判定部607は、編集条件700の特定の価値703である「リスク」の極性103と、追加候補C2である「値上がり」の極性103とが一致するか否かを判定する。「リスク」の極性103と追加候補C2である「値上がり」の極性103とは不一致である。したがって、登録部608は、追加候補C2である「値上がり」を、価値体系辞書DB100での特定の価値102である「リスク」のエントリの価値表現104に登録しない。
図11は、促進抑制関係抽出および対象語句110の極性判定の例2を示す説明図である。例2では、図7(A)の編集条件700が取得されたものとする。例2では、検索本文ST3、ST4の文極性がPositiveである。図11において、(A)は、促進抑制関係抽出例を示し、(B)は、対象語句110である価値表現104の追加候補705の極性判定例を示す。
(A)検索本文ST3は、分析対象キーワード701である「仮想通貨」と、追加候補C2の「値上がり」と、を含む本文303である。抽出部604は、構造解析により、検索本文ST3を、主語Sの「仮想通貨は」と、目的語Oの「日経平均の値上がりを」と、述語動詞Vの「おこした」とに分解する。抽出部604は、述語動詞Vの「おこした」を、促進抑制表現DB230の促進表現501として抽出する。
また、検索本文ST4は、分析対象キーワード701である「仮想通貨」と、追加候補C1の「値下がり」と、を含む本文303である。抽出部604は、構造解析により、検索本文ST4を、主語Sの「仮想通貨は」と、目的語Oの「日経平均の値下がりを」と、述語動詞Vの「妨げた」とに分解する。抽出部604は、述語動詞Vの「妨げた」を、促進抑制表現DB230の抑制表現502として抽出する。
(B)第2判定部605は、第1判定結果の文極性がPositiveな検索本文303(以下、Positive文)と、抽出結果である対象語句110の促進関係と、の組み合わせについては、対象語句110の極性103をPositiveと判定する。たとえば、検索本文ST3は、Positive文であり、追加候補C2は促進関係であるため、追加候補C2の極性103はPositiveとなる。
この場合、第3判定部607は、編集条件700の特定の価値703である「リスク」の極性103と、追加候補C2である「値上がり」の極性103とが一致するか否かを判定する。「リスク」の極性103と追加候補C2である「値上がり」の極性103とは不一致である。したがって、登録部608は、追加候補C2である「値上がり」を、価値体系辞書DB100での特定の価値102である「リスク」のエントリの価値表現104に登録しない。
また、第2判定部605は、Positive文と、抽出結果である対象語句110の抑制関係と、の組み合わせについては、対象語句110の極性103をNegativeと判定する。たとえば、検索本文ST4は、Positive文であり、追加候補C1は抑制関係であるため、追加候補C1の極性103はNegativeとなる。
この場合、第3判定部607は、編集条件700の特定の価値703である「リスク」の極性103と、追加候補C1である「値下がり」の極性103とが一致するか否かを判定する。「リスク」の極性103と追加候補C1である「値下がり」の極性103とはNegativeで一致する。したがって、登録部608は、追加候補C1である「値下がり」を、価値体系辞書DB100での特定の価値102である「リスク」のエントリの価値表現104に登録する。
なお、図10および図11において、述語動詞Vが否定語(たとえば、「ない」)を含む場合、抽出部604は、促進抑制表現を反転してもよい。たとえば、述語動詞Vが「おこした」ではなく「おこしていなかった」である場合、抽出部604は、「おこした」に対応する促進表現501を反転して、抑制表現502とする。これにより、否定語を含む検索本文にも適用することができる。
<対象語句110の追加登録処理手順例>
図12は、情報処理装置200による対象語句110の追加登録処理手順例を示すフローチャートである。情報処理装置200は、取得部601により編集条件700を取得し(ステップS1201)、編集条件700内の特定の価値703が新規の価値102、すなわち、価値体系辞書DB100に未登録の価値102であるか否かを判断する(ステップS1202)。新規な価値102である場合(ステップS1203:Yes)、取得部601は、編集条件700の特定の価値カテゴリ702、特定の価値703、および極性704を価値体系辞書DB100に新規追加する(ステップS1203)。そして、ステップS1204に移行する。たとえば、図7の(C)や(D)の編集条件700がステップS1203の処理対象となる。
一方、ステップS1202において新規な価値102でない場合(ステップS1202:No)、情報処理装置200は、取得部601により、編集条件700に価値表現104の追加候補705があるか否かを判断する(ステップS1204)。価値表現104の追加候補705がある場合(ステップS1204:Yes)、ステップS1206に移行する。一方、価値表現104の追加候補705がない場合(ステップS1204:No)、情報処理装置200は、取得部601により、図8に示したように、編集条件700に基づいて価値表現104の追加候補705を生成する(ステップS1205)。
そして、情報処理装置200は、検索部602により、分析対象キーワード701および追加候補705を含む本文303(検索本文303)を文集合から検索する(ステップS1206)。このあと、情報処理装置200は、第1判定部603により、検索本文303の文極性を判定し(ステップS1207)、抽出部604により、検索本文303に含まれる促進抑制関係を抽出する(ステップS1208)。
そして、情報処理装置200は、第2判定部605により、第1判定部603による文極性判定結果と抽出部604による促進抑制関係の抽出結果とに基づいて、追加候補705の極性103を判定し、出力部606により判定結果を出力する(ステップS1209)。情報処理装置200は、第3判定部607により、特定の価値102の極性103と追加候補705の極性103とが一致するか否かを判定する(ステップS1210)。
不一致の場合(ステップS1210:No)、情報処理装置200は、一例の処理を終了する。一方、一致する場合(ステップS1210:Yes)、情報処理装置200は、登録部608により、特定の価値102のエントリの価値表現104に追加候補705を登録して(ステップS1211)、一例の処理を終了する。
このように、実施例1によれば、語句の極性103を高精度に判定することができ、管理者の管理負担の軽減を図ることができる。特に、追加候補705の極性103を高精度に判定することにより、あらたな価値表現104の追加を自動でおこなうことができる。したがって、管理者が、追加候補705の極性103について試行錯誤する必要がなくなり、価値体系辞書DB100の信頼性の向上を図ることができる。
<実験結果>
以下に実験結果を示す。
・実験設定
内閣府の景気ウォッチャー調査2012年から2016年の60,368文を経済に関する文集合とする。文集合の各文について、景気の主観評価(5段階:悪い,やや悪い,変化なし,やや良い,良い)という回答者のコメントが関連付けられる。なお、前処理で、主観評価の「変化なし」に該当する文を除去し、さらに、「悪い」と「やや悪い」をまとめて「悪い」とし、「良い」と「やや良い」をまとめて「良い」とし、5段階の主観評価を2段階に変換した。この2段階の主観評価を文極性とする。
また、実験では、代表的な5つの単語(失業、雇用、利益、売上、損失)を価値102とし、人手により極性103を示すラベルを以下のように付与する。
「失業」→Negative
「雇用」→Positive
「利益」→Positive
「売上」→Positive
「損失」→Negative
失業が増えるは悪いこと、雇用が増えるのは良いこと、利益が増えるのは良いこと、売上が上がることは良いこと、損失が増えるのは悪いこと、という基準で人手ラベル(悪いがNegative、良いがPositive)が付与された。
実験では2つの方法を用いる。1つは、ベースライン手法である。ベースライン手法は、文極性を語句の極性103と同一視する、つまり、文極性をカウントして最頻値を価値102の極性103とする。もう1つは、上述した本実施例1の手法である。すなわち、情報処理装置200が、価値102と促進抑制関係との関係に基づいて、文極性を修正して価値102の極性103とする。
図13は、実験結果を示す図表である。(A)は、ベースライン手法による実験結果であり、(B)が本実施例の手法による実験結果である。図13中、「pos.」はPositive、「neg.」はNegativeの略である。また、数値はその価値102の件数である。
pos.の列は、その価値102を含む文の文極性がPositiveである件数であり、neg.の列は、その価値102を含む文の文極性がNegativeである件数である。推定の列は、pos.の件数とneg.の件数のうち最頻値となる文極性である。人手の列は、人手により付与された極性103を示すラベルである。
たとえば、(A)ベースライン手法において、価値102が「失業」の場合、pos.が10件、neg.が3件であるため、推定される「失業」の極性103は、pos.であることを示す。(A)では、推定された極性103と人手で付与されたラベルの極性103とで、「失業」、「利益」、および「売上」で反転が見られた。一方、(B)の本実施例の手法では、5つの価値102すべてで極性103が人手付与した場合と一致した。また、(A)ベースライン手法で正しく推定されていた価値102についても、(B)の本実施例の手法でも正しく推定できた。このように、価値102と促進抑制関係とを用いて文極性から対象語句110の極性103を判定することで、対象語句110の極性判定の高精度化を図ることができた。
<価値体系辞書DB100からの価値表現104の削除例>
つぎに、価値体系辞書DB100を利用したサービスの運用中に、極性103が反転した価値表現104を削除する例について説明する。価値体系辞書DB100を利用したサービスの運用中に、文集合DB210や文極性判定モデル630の更新により、価値表現104の極性103が反転するにもかかわらず、現状の極性103のまま、登録され続ける場合がある。
このような場合、価値体系辞書DB100の信頼度が低下する。したがって、文集合DB210や文極性判定モデル630の更新のタイミングで、価値体系辞書DB100の価値表現104の極性103を確認し、極性103が反転した語句を削除することで、価値体系辞書DB100の信頼性の維持を図る。
なお、文集合DB210や文極性判定モデル630の更新のタイミングについては、確認要求として検出部609が検出し、価値表現104の極性103の再判定は、第1判定部603、抽出部604および第2判定部605が実行し、極性103が反転した語句の削除は、削除部610が実行する。
図14は、価値体系辞書DB100からの編集条件の生成例を示す説明図である。検出部609によって確認要求が検出されると、取得部601は、価値体系辞書DB100のエントリごとに、価値カテゴリ101を特定の価値カテゴリ702、価値102を特定の価値703、価値表現104を価値表現104の確認候補1405として取得して、編集条件1400を生成する。なお、実施例1で価値表現104の確認候補1405を追加登録した際に用いた分析対象キーワード701を編集条件700に設定してもよい。
<確認候補1405の削除処理手順例>
図15は、情報処理装置200による確認候補1405の削除処理手順例を示すフローチャートである。情報処理装置200は、検出部609により、確認要求の検出を待ち受ける(ステップS1501:No)。確認要求が検出された場合(ステップS1501:Yes)、情報処理装置200は、取得部601により編集条件1400を取得し(ステップS1502)、検索部602により、確認候補1405を含む本文303(検索本文303)を文集合から検索する(ステップS1503)。このあと、情報処理装置200は、第1判定部603により、ステップS1207と同様、検索本文303の文極性を判定し(ステップS1504)、抽出部604により、ステップS1208と同様、検索本文303に含まれる促進抑制関係を抽出する(ステップS1505)。
そして、情報処理装置200は、第2判定部605により、ステップS1209と同様、第1判定部603による文極性判定結果と抽出部604による促進抑制関係の抽出結果とに基づいて、確認候補1405の極性103を判定し、出力部606により判定結果を出力する(ステップS1506)。情報処理装置200は、第3判定部607により、ステップS1210と同様、特定の価値102の極性103と確認候補1405の極性103とが一致するか否かを判定する(ステップS1507)。
不一致の場合(ステップS1507:No)、情報処理装置200は、一例の処理を終了する。一方、一致する場合(ステップS1507:Yes)、情報処理装置200は、削除部610により、特定の価値102のエントリの価値表現104に登録されている確認候補1405を削除して(ステップS1508)、一例の処理を終了する。
このように、実施例1によれば、確認候補1405の極性103が反転した場合には、確認候補1405を価値体系辞書DB100から削除するため、管理者が、確認候補1405の極性103の変化(反転)について試行錯誤する必要がなくなり、価値体系辞書DB100の信頼性の向上を図ることができる。
実施例2では、実施例1で追加候補705の追加登録または確認候補1405の削除が実行された場合の出力例を示す。
<検索結果画面例>
図16は、検索結果画面例を示す説明図である。検索結果画面1600は、第1表示領域1601~第4表示領域1604を有する。第1表示領域1601は、追加候補705の追加登録の際に用いられた分析対象キーワード701を表示する領域である。第2表示領域1602は、価値カテゴリ101別の追加候補705の追加前後に関する検索本文303の件数を示す。
たとえば、価値カテゴリ101が「経済」の行では、追加候補705の追加登録前の検索本文303は5件、追加候補705の追加登録後の検索本文303は9件、追加候補705の追加登録に伴って追加された検索本文303が6件、追加候補705の追加登録に伴って削除された検索本文303が2件であることを示す。すなわち、追加が6件、削除が2件であるため、追加前の5件から4件増加して、追加後は9件になったことを示している。
第3表示領域1603は、価値102別の追加候補705の追加前後に関する検索本文303の件数を示す。たとえば、価値カテゴリ101が「経済」でかつ価値102が「リスク」の行では、追加候補705の追加登録前の検索本文303は3件、追加候補705の追加登録後の検索本文303は6件、追加候補705の追加登録に伴って追加された検索本文303が4件、追加候補705の追加登録に伴って削除された検索本文303が1件であることを示す。すなわち、追加が4件、削除が1件であるため、追加前の3件から3件増加して、追加後は6件になったことを示している。
第4表示領域1604は、検索本文303を表示する領域である。具体的には、たとえば、第4表示領域1604は、更新前検索結果表示領域1641と、更新後検索結果表示領域1642と、相違点表示領域1643と、を有する。
更新前検索結果表示領域1641は、追加候補705の追加登録による価値体系辞書DB100の更新前における検索結果を表示する領域である。更新後検索結果表示領域1642は、追加候補705の追加登録による価値体系辞書DB100の更新後における検索結果を表示する領域である。相違点表示領域1643は、更新前検索結果表示領域1641と更新後検索結果表示領域1642との相違点を表示する領域である。すなわち、相違点表示領域1643には、更新前検索結果表示領域1641には表示されたが、更新後検索結果表示領域1642には表示されていない本文303や、更新後検索結果表示領域1642には表示されたが、更新前検索結果表示領域1641には表示されていない本文303が相違点として表示される。
なお、情報処理装置200の出力デバイス204の一例であるディスプレイに検索結果表示画面を表示してもよく、また、情報処理装置200が、図16に示したような検索結果の情報を、情報処理装置200と通信可能な他の装置に送信し、当該他の装置がそのディスプレイに検索結果表示画面を表示してもよい。
<情報処理装置200の機能的構成例>
図17は、情報処理装置200の機能的構成例2を示すブロック図である。図6との相違は、あらたに、特定部1700が追加された点である。特定部1700は、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることで実現される機能である。
実施例2では、検索部602は、分析対象キーワード701を含む本文303を文集合DB210から検索する。特定部1700は、検索部602によって検索された分析対象キーワード701を含む本文303から、追加登録の際に用いられた特定の価値カテゴリ101および特定の価値102に対応する価値表現104を含む本文303とその件数を特定する(第2特定結果)。第2特定結果の本文303は、出力部606により更新後検索結果表示領域に表示され、第2特定結果の本文303の件数は、出力部606により第2表示領域1602および第3表示領域1603の「追加後」の件数として表示される。
第2特定結果には、同一分析対象キーワード701で検索した検索本文303から特定した価値体系辞書DB100の更新前の特定結果(第1特定結果)と重複する部分も存在する。第1特定結果の本文303は、出力部606により更新前検索結果表示領域に表示され、第1特定結果の本文303の件数は、出力部606により第2表示領域1602および第3表示領域1603の「追加前」の件数として表示される。
また、特定部1700は、第2特定結果には含まれているが、第1特定結果には含まれていない新規本文303とその件数を特定する。新規本文303は、出力部606により相違点表示領域に表示され、新規本文303の件数は、出力部606により第2表示領域1602および第3表示領域1603の「追加」の件数として表示される。
また、特定部1700は、第2特定結果には含まれていないが、第1特定結果には含まれている本文303(以下、削除本文303)とその件数を特定する。削除本文303は、出力部606により相違点表示領域に表示され、削除本文303の件数は、出力部606により第2表示領域1602および第3表示領域1603の「削除」の件数として表示される。
<検索結果画面1600の出力処理手順例>
図18は、検索結果画面1600の処理手順例1を示すフローチャートである。情報処理装置200は、取得部601により、分析対象キーワード701を取得する(ステップS1801)。つぎに、情報処理装置200は、検索部602により、分析対象キーワード701を含む本文303を文集合DB210から検索する(ステップS1802)。
情報処理装置200は、特定部1700により、分析対象キーワード701に対応する価値カテゴリ101内の価値表現104を含む検索本文303とその件数を、ステップS1802の検索結果から特定する(ステップS1803)。そして、情報処理装置200は、特定部1700により、ステップS1803で特定した検索本文303とその件数のうち、新規本文303とその件数を特定し(ステップS1804)、ステップS1803の特定結果として特定されなかった削除文とその件数を特定する(ステップS1805)。
同様に、情報処理装置200は、特定部1700により、分析対象キーワード701に対応する価値102内の価値表現104を含む検索本文303とその件数を、ステップS1802の検索結果から特定する(ステップS1806)。そして、情報処理装置200は、特定部1700により、ステップS1806で特定した検索本文303とその件数のうち、新規本文303とその件数を特定し(ステップS1807)、ステップS1806の特定結果として特定されなかった削除文とその件数を特定する(ステップS1808)。このあと、情報処理装置200は、図16に示した検索結果表示画面を生成して出力する(ステップS1809)。これにより、情報処理装置200は、一連の処理を終了する。
このように、追加候補705の追加登録による価値体系辞書DB100の影響を、実際の特定結果の差分をユーザに表示することで確認することができるため、価値体系辞書DB100への語句の編集の容易化を図ることができる。
なお、図18に示した処理手順では、前回の追加候補705の追加登録から今回の追加候補705の追加登録までの間に、文集合DB210または価値体系辞書DB100が更新されている場合がある。この間の文集合DB210または価値体系辞書DB100が更新は、第2特定結果に影響を与え、第1特定結果との差分の信頼性が低下する。したがって、追加候補705の追加登録がある場合に、情報処理装置200は、追加登録前の価値体系辞書DB100を用いて図18の処理(ステップS1803~S1808)を実行するとともに、追加登録後の価値体系辞書DB100を用いて図18の処理(ステップS1803~S1808)を実行する。これにより、前回の追加候補705の追加登録から今回の追加候補705の追加登録までの間の文集合DB210または価値体系辞書DB100の更新による影響を回避することができる。以下、図19を用いて説明する。
図19は、検索結果画面1600の処理手順例2を示すフローチャートである。図18と同一処理には同一ステップ番号を付し、その説明を省略する。更新前データ収集処理(ステップS1903)は、追加候補705の追加登録前の価値体系辞書DB100を用いてステップS1803~S1808を実行する処理である。また、更新後データ収集処理(ステップS1904)は、追加候補705の追加登録後の価値体系辞書DB100を用いてステップS1803~S1808を実行する処理である。これにより、前回の追加候補705の追加登録から今回の追加候補705の追加登録までの間の文集合DB210または価値体系辞書DB100の更新による影響を回避することができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
200 情報処理装置
601 取得部
602 検索部
603 第1判定部
604 抽出部
605 第2判定部
606 出力部
607 第3判定部
608 登録部
609 検出部
610 削除部

Claims (15)

  1. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文集合を記憶する文集合データベースにアクセス可能な情報処理装置であって、
    前記プロセッサは、
    対象語句を取得する取得処理と、
    前記取得処理によって取得された対象語句を含む文を前記文集合から検索する検索処理と、
    前記検索処理によって検索された文の極性を判定する第1判定処理と、
    前記検索処理によって検索された文に基づいて、当該文から前記対象語句と述語との組である促進抑制関係を抽出する抽出処理と、
    前記第1判定処理の第1判定結果と、前記抽出処理の抽出結果と、に基づいて、前記対象語句の極性を判定する第2判定処理と、
    前記第2判定処理の第2判定結果を出力する出力処理と、
    を実行することを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記第1判定処理では、前記プロセッサは、入力文が与えられると前記入力文の極性を出力する文極性判定モデルに、前記検索処理によって検索された文を与えることにより、前記検索処理によって検索された文の極性を判定する、
    ことを特徴とする情報処理装置。
  3. 請求項1に記載の情報処理装置であって、
    前記取得処理では、前記プロセッサは、分析対象キーワードを取得し、
    前記検索処理では、前記プロセッサは、前記取得処理によって取得された分析対象キーワードおよび前記対象語句を含む文を前記文集合から検索する、
    ことを特徴とする情報処理装置。
  4. 請求項3に記載の情報処理装置であって、
    極性を持つ観点を示す語句である価値、前記価値を表現する語句である価値表現、および前記価値表現の極性を関連付けて記憶する価値体系辞書データベースと、見出し語および当該見出し語に関連する関連表現を記憶する関連表現辞書データベースと、にアクセス可能であり、
    前記取得処理では、前記プロセッサは、特定の価値を取得し、前記特定の価値に関連付けられている特定の価値表現を、前記価値体系辞書データベースから取得し、当該特定の価値表現に一致する見出し語に関連する関連表現を、前記関連表現辞書データベースから前記対象語句として取得し、
    前記検索処理では、前記プロセッサは、前記分析対象キーワードおよび前記関連表現を含む文を前記文集合から検索する、
    ことを特徴とする情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
    前記プロセッサは、
    前記価値体系辞書データベースにおける前記特定の価値の極性と、前記第2判定処理の第2判定結果である前記対象語句の極性とが、一致するか否かを判定する第3判定処理と、
    前記第3判定処理によって一致すると判定された場合、前記価値体系辞書データベースにおける前記特定の価値に関連づけて前記対象語句を前記価値表現として登録する登録処理と、
    を実行することを特徴とする情報処理装置。
  6. 請求項に記載の情報処理装置であって、
    前記プロセッサは、
    前記第3判定処理によって一致しないと判定された場合、前記価値体系辞書データベースにおける前記特定の価値表現を削除する削除処理と、
    を実行することを特徴とする情報処理装置。
  7. 請求項6に記載の情報処理装置であって、
    前記プロセッサは、
    前記価値表現の確認要求の有無を検出する検出処理を実行し、
    前記削除処理では、前記プロセッサは、前記検出処理によって前記確認要求が検出され、かつ、前記第3判定処理によって一致しないと判定された場合、前記価値体系辞書データベースにおける前記特定の価値表現を削除する、
    ことを特徴とする情報処理装置。
  8. 請求項5に記載の情報処理装置であって、
    前記検索処理では、前記プロセッサは、前記分析対象キーワードを含む文を前記文集合から検索し、
    前記プロセッサは、
    前記検索処理によって検索された前記分析対象キーワードを含む文から、前記特定の価値に対応する価値表現を含む文を特定する特定処理を実行し、
    前記出力処理では、前記プロセッサは、前記特定処理の第1特定結果を出力する、
    ことを特徴とする情報処理装置。
  9. 請求項8に記載の情報処理装置であって、
    前記特定処理では、前記プロセッサは、前記第1特定結果と、前記登録処理による登録前に実行された前記特定処理の第2特定結果と、に基づいて、前記第2特定結果には含まれていないが、前記第1特定結果には含まれている新規な文を特定し、
    前記出力処理では、前記プロセッサは、前記新規な文を出力する、
    ことを特徴とする情報処理装置。
  10. 請求項8に記載の情報処理装置であって、
    前記特定処理では、前記プロセッサは、前記第1特定結果と、前記登録処理による登録前に実行された前記特定処理の第2特定結果と、に基づいて、前記第2特定結果には含まれているが、前記第1特定結果には含まれていない削除文を特定し、
    前記出力処理では、前記プロセッサは、前記削除文を出力する、
    ことを特徴とする情報処理装置。
  11. 請求項5に記載の情報処理装置であって、
    前記検索処理では、前記プロセッサは、前記分析対象キーワードを含む文を前記文集合から検索し、
    前記プロセッサは、
    前記検索処理によって検索された前記分析対象キーワードを含む文から、前記特定の価値に対応する価値表現を含む文の数を特定する特定処理を実行し、
    前記出力処理では、前記プロセッサは、前記特定処理の第1特定結果を出力する、
    ことを特徴とする情報処理装置。
  12. 請求項11に記載の情報処理装置であって、
    前記特定処理では、前記プロセッサは、前記第1特定結果と、前記登録処理による登録前に実行された前記特定処理の第2特定結果と、に基づいて、前記第2特定結果には含まれていないが、前記第1特定結果には含まれている新規な文の数を特定し、
    前記出力処理では、前記プロセッサは、前記新規な文の数を出力する、
    ことを特徴とする情報処理装置。
  13. 請求項12に記載の情報処理装置であって、
    前記特定処理では、前記プロセッサは、前記第1特定結果と、前記登録処理による登録前に実行された前記特定処理の第2特定結果と、に基づいて、前記第2特定結果には含まれているが、前記第1特定結果には含まれていない削除文の数を特定し、
    前記出力処理では、前記プロセッサは、前記削除文の数を出力する、
    ことを特徴とする情報処理装置。
  14. 請求項9、10、12、および13のうちいずれか1つに記載の情報処理装置であって、
    前記特定処理では、前記プロセッサは、前記第2特定結果を、前記取得処理によって前記分析対象キーワードが取得されてから前記登録処理によって前記対象語句が登録されるまでの間に実行することにより出力する、
    ことを特徴とする情報処理装置。
  15. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文集合を記憶する文集合データベースにアクセス可能な情報処理装置による情報処理方法であって、
    前記プロセッサは、
    対象語句を取得する取得処理と、
    前記取得処理によって取得された対象語句を含む文を前記文集合から検索する検索処理と、
    前記検索処理によって検索された文の極性を判定する第1判定処理と、
    前記検索処理によって検索された文に基づいて、当該文から前記対象語句と述語の組である促進抑制関係を抽出する抽出処理と、
    前記第1判定処理の第1判定結果と、前記抽出処理の抽出結果と、に基づいて、前記対象語句の極性を判定する第2判定処理と、
    前記第2判定処理の第2判定結果を出力する出力処理と、
    を実行することを特徴とする情報処理方法。
JP2018113899A 2018-06-14 2018-06-14 情報処理装置および情報処理方法 Active JP7117168B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018113899A JP7117168B2 (ja) 2018-06-14 2018-06-14 情報処理装置および情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018113899A JP7117168B2 (ja) 2018-06-14 2018-06-14 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JP2019215825A JP2019215825A (ja) 2019-12-19
JP7117168B2 true JP7117168B2 (ja) 2022-08-12

Family

ID=68919116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018113899A Active JP7117168B2 (ja) 2018-06-14 2018-06-14 情報処理装置および情報処理方法

Country Status (1)

Country Link
JP (1) JP7117168B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101428946B1 (ko) * 2013-11-04 2014-08-08 최상진 콘밸브

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016051551A1 (ja) 2014-10-01 2016-04-07 株式会社日立製作所 文章生成システム
WO2016056043A1 (ja) 2014-10-06 2016-04-14 株式会社日立製作所 文章検索方法および文章検索システム
WO2016067396A1 (ja) 2014-10-29 2016-05-06 株式会社日立製作所 文の並び替え方法および計算機

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016051551A1 (ja) 2014-10-01 2016-04-07 株式会社日立製作所 文章生成システム
WO2016056043A1 (ja) 2014-10-06 2016-04-14 株式会社日立製作所 文章検索方法および文章検索システム
WO2016067396A1 (ja) 2014-10-29 2016-05-06 株式会社日立製作所 文の並び替え方法および計算機

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101428946B1 (ko) * 2013-11-04 2014-08-08 최상진 콘밸브

Also Published As

Publication number Publication date
JP2019215825A (ja) 2019-12-19

Similar Documents

Publication Publication Date Title
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
US9483460B2 (en) Automated formation of specialized dictionaries
US9244908B2 (en) Generation of a semantic model from textual listings
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2005302042A (ja) マルチセンスクエリについての関連語提案
Ng Semantic class induction and coreference resolution
Wang et al. Neural related work summarization with a joint context-driven attention mechanism
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
King et al. High-precision extraction of emerging concepts from scientific literature
JP7117168B2 (ja) 情報処理装置および情報処理方法
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
Patrick et al. Developing SNOMED CT subsets from clinical notes for intensive care service
WO2021136009A1 (zh) 搜索信息的处理方法、装置及电子设备
US20090249197A1 (en) Document proofreading support method and document proofreading support apparatus
Mei et al. Post-processing OCR text using web-scale corpora
JP4213900B2 (ja) 文書分類装置と記録媒体
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP4953459B2 (ja) 文字ベクトルを用いた略語生成装置、方法及びプログラム
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2015022406A (ja) テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム
Nitu et al. Reconstructing scanned documents for full-text indexing to empower digital library services

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220801

R150 Certificate of patent or registration of utility model

Ref document number: 7117168

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150