JP2019021254A - 文書処理システム、文書処理方法、及びプログラム - Google Patents

文書処理システム、文書処理方法、及びプログラム Download PDF

Info

Publication number
JP2019021254A
JP2019021254A JP2017141967A JP2017141967A JP2019021254A JP 2019021254 A JP2019021254 A JP 2019021254A JP 2017141967 A JP2017141967 A JP 2017141967A JP 2017141967 A JP2017141967 A JP 2017141967A JP 2019021254 A JP2019021254 A JP 2019021254A
Authority
JP
Japan
Prior art keywords
document
vector
tendency
average
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017141967A
Other languages
English (en)
Other versions
JP6894315B2 (ja
Inventor
秀明 工藤
Hideaki Kudo
秀明 工藤
義弘 宮崎
Yoshihiro Miyazaki
義弘 宮崎
永島 淳
Atsushi Nagashima
淳 永島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Nomura Asset Management Co Ltd
Original Assignee
Nomura Research Institute Ltd
Nomura Asset Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd, Nomura Asset Management Co Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2017141967A priority Critical patent/JP6894315B2/ja
Publication of JP2019021254A publication Critical patent/JP2019021254A/ja
Application granted granted Critical
Publication of JP6894315B2 publication Critical patent/JP6894315B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書の極性を好適に評価することのできる文書処理システム等を提供する。
【解決手段】第1傾向又は第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する第1ベクトル生成部と、第1傾向のラベルが付与された文書に係る文書ベクトルの平均である第1平均ベクトル、及び/又は、第2傾向のラベルが付与された文書に係る文書ベクトルの平均である第2平均ベクトルを算出する平均ベクトル生成部と、入力文書に対して、入力文書ベクトルを生成する第2ベクトル生成部と、第1平均ベクトル及び/又は第2平均ベクトルと、入力文書ベクトルとのベクトル加減算により、入力文書の第1傾向成分ベクトル、及び/又は第2傾向成分ベクトルを求める演算部とを備える。
【選択図】図5

Description

本発明は、文書処理システム、文書処理方法、及びプログラムに関する。
近年、自然言語で作成された各種文書に対して文書ベクトルを生成した上で、当該文書ベクトルを用いた様々な文書処理が考えられている。例えば特許文献1には、検索対象文書に対してベクトルを生成した上で、検索文章ベクトルとの内積を演算することにより、関連度の高い文書を検索することが開示されている。
特開2002−015001号公報
ここで、文書に対し、相対する2つの方向性のうちどちらを向いた内容なのかの極性を評価したい場合がある。より具体的には、例えば、特定のキーワード等に関連の高い文書か、低い文書かを評価する場合や、或いは、株式等の金融商品の特定銘柄に関するアナリストレポート等が、肯定的(ポジティブ)な評価を行う文書なのか、否定的(ネガティブ)な評価を行う文書なのかを評価する場合等である。例えばアナリストレポートの例であれば、通常、対象とする銘柄についての投資判断を変更する情報を含む文書である。一部のアナリストレポートには、肯定的な意見である「買いに引上げ」、「中立に引上げ」や、否定的な意見である「中立に引下げ」、「売りに引下げ」等の意見が明示的に表明されるが、このような意見表明が明示的には記載されていないものもある。しかしながら明示的な投資判断については示されていなくとも、投資判断の材料となる、特定銘柄に対する何らかの分析が記載されている。このような定性的に記載された文書を、定量的に評価することが可能となれば、投資判断等の意思決定に活かすことができる。
文書の評価方法としては、例えば、統計的学習手法により、予めいずれの極性を示すものか(例えば肯定的評価か否定的評価か)をラベル付けした文書を教師データとして、例えばディープラーニング(深層学習)により評価予測モデルを生成した上で、当該評価予測モデルに対して文書を入力することで、当該入力文書の極性を予測することも考えられる。しかしながら、このような手法では大量の教師データが用意できない場合には、十分な精度の予測結果を得られない。
また、文書が対象とする分野や作成者等により表現や文体の相違などもあるため、このようなノイズの影響で十分な評価精度が得られないこともある。
本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、文書の極性を好適に評価することのできる文書処理システム、文書処理方法、及びプログラムを提供することを目的の1つとする。
本発明の一態様に係る文書処理システムは、第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する第1ベクトル生成部と、前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出する平均ベクトル生成部と、入力文書の入力を受ける入力部と、前記入力文書に対して、前記第1ベクトル生成部と同じ手法により入力文書ベクトルを生成する第2ベクトル生成部と、前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求める演算部とを備える。
本発明の一態様に係る文書処理方法は、第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成するステップと、前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出するステップと、入力文書の入力を受けるステップと、前記入力文書に対して、前記文書ベクトルと同じ手法により入力文書ベクトルを生成するステップと、前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求めるステップとを文書処理システムが行う。
本発明の一態様に係るプログラムは、第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する処理と、前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出する処理と、入力文書の入力を受ける処理と、前記入力文書に対して、前記文書ベクトルと同じ手法により入力文書ベクトルを生成する処理と、前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求める処理とをコンピュータに実行させる。
なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されても良い。
実施形態に係る文書処理システムの処理の概要を説明するための図である。 実施形態に係る文書処理システムの処理の概要を説明するための図である。 実施形態に係る文書処理システムの概略構成を示す図である。 図3に係る文書処理装置の機能構成を示す図である。 図3に係る文書処理装置の機能構成を示す図である。 図4及び図5に係る文書処理装置のハードウェア構成の具体例を示す図である。
以下、図面を参照して本発明の実施形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。即ち、本発明は、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付して表している。図面は模式的なものであり、必ずしも実際の寸法や比率等とは一致しない。図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることがある。
[実施形態]
[1 概要]
文書に対して、ある評価軸に沿った相反する2つの事象のうち、いずれを向いたものなのかを評価したい場合がある。たとえば、株式に関連する文書なのか違うのか、読む必要性の高い文書なのか読む必要性の低い文書なのか、肯定的な評価を行っている文書なのか否定的な評価を行っている文書なのか、等である。例えば、株式銘柄等の金融商品に対して、投資判断の変更を伝えるためのアナリストレポートの多くは、肯定的な意見である「買いに引上げ」、「中立に引上げ」や、否定的な意見である「中立に引下げ」、「売りに引下げ」等の評価(レイティングの変更)が、その評価変更に至る根拠とともに文書において示される。またアナリストレポートの中には、レイティングやレイティング変更が明示的には示されないものもある。このようなテキスト情報である文書として記載された個別企業に関する定性情報に対し、その有用性や企業価値の推計に与える影響を自動で定量的に評価可能になれば、当該評価を意思決定に活用することができる。
文書に対する評価方法としては、例えば、予めいずれの極性を示すものか(例えば肯定的評価か否定的評価か)をラベル付けした文書を教師データとして、深層学習(ディープラーニング)等の統計的学習手法により評価予測モデルを生成した上で、当該評価予測モデルに文書を入力することで、当該入力文書の極性を予測することが考えられる。しかしながら、このような手法は、通常、数万〜数十万規模の大量の教師データを必要とするため、十分な数の教師データが用意できない場合には、十分な精度の結果を得ることができない。
そこで本実施形態に係る文書処理システムでは、例えば数千程度の比較的少ない教師データを用いて好適に文書を評価する。具体的には、まず、各々のテキスト文書を、既存の手法であるDoc2Vec(Paragraph2Vec)やGloVe等を用いて、加法構成性を持つベクトル化した特徴量として扱う。Doc2Vec等の手法では、文書に含まれる単語に基づいて、加法構成性のある分散意味表現として抽象化した要素からなるベクトル(文書特徴量ベクトル)が生成される。本実施形態に係る文書処理システムはこのような文書特徴量ベクトルに対する処理を行うことで、最終的に、文書の肯定的な度合いや否定的な度合いを推測する。
以下、図1及び図2を参照しながら、本実施形態に係る文書処理システムの処理方法の概要を説明する。この処理方法は、(1)教師データに基づくノイズ除去用の基準ベクトルの生成と、(2)生成された基準ベクトルに基づく、極性(肯定的/否定的)を予測する処理と、の大きく2つの処理からなる。
[1.1 教師データに基づくノイズ除去用の基準ベクトルの生成]
まず、図1を参照しながら、本実施形態に係る文書処理システムが基準ベクトルを生成する際の処理について説明する。まず、既存の手法で生成された加法構成性を持つ文書ベクトル(以下、文書ベクトルxともいう。)は、一般的に以下の式により表現されると考えられる。
この式において、
は肯定的成分(以下、ポジティブ成分pともいう。)、
は否定的成分(以下、ネガティブ成分nともいう。)、
は肯定的成分及び否定的成分以外の、例えば、分野や文体等に依存するその他の成分(以下、その他成分cともいう)である。文書の肯定的な度合い/否定的な度合いを評価する場合には、その他成分cはノイズに相当するため、除去することが望ましいと考えられる。そこで図1に係る処理では、このノイズに相当するその他成分cを除去するための基準ベクトルを生成する。
まず、教師データとして、文書のクラスタC(例えば、文書の作成者/作成会社、文書のソースの種類(ニュース、SNS等)、文書が対象とする対象銘柄、対象銘柄の業界や、それらの組み合わせ等に対応。またはk−means法等の機械学習アルゴリズムによるクラスタリングでも良い)と、ポジティブ/ネガティブのいずれかのラベルが付与された文書D1〜Dmが与えられる。ここでは、D1〜Dkがポジティブのラベルが付与されたクラスタCに属する文書、Dk+1〜Dmがネガティブのラベルが付与されたクラスタCに属する文書であるものとする。教師データの文書数に相当するmは例えば数千〜1万程度とすることができる。各々の文書ベクトルxは、n(例えば約300程度)個の要素を持つベクトルであり、これにより各々の文書の特徴が表現される。よって、クラスタCのポジティブ文書(例えば同一の会社が作成したポジティブ文書、同一の業界に対して作成されたポジティブ文書等)が平均的に有している平均ベクトル(以下、ポジティブ基準ベクトルXpともいう)は、以下のようになる。
ここではポジティブ文書のみを対象にしていることから、各文書のネガティブ成分は十分に小さく、したがってネガティブ成分の平均である第2項は0ベクトルに近似されると仮定すると、クラスタCのポジティブ基準ベクトルは以下のように表現できる。
同様に、ネガティブ文書の平均ベクトル(以下、ネガティブ基準ベクトルXnともいう)は、以下の式により表現される。
クラスタCのネガティブ基準ベクトルXnは、クラスタCのネガティブ文書(例えば同一の会社が作成したネガティブ文書、同一の業界に対して作成されたネガティブ文書等)が平均的に有しているベクトル成分である。
更に、肯定的(ポジティブ)な意味合いと否定的(ネガティブ)な意味合いは意味的に排反と考えられる。よって、加法構成性を持つ空間では、ネガティブ成分の逆ベクトルがポジティブ成分を意味すると捉えることが可能である。よって、ポジティブ基準ベクトルと、ポジティブ成分を意味するネガティブ基準ベクトルの逆ベクトルを足し合わせることで、クラスタCに含まれる文書D全体のポジティブ成分(以下、クラスタ平均ベクトルXaveともいう。)は、以下の式のように表現される。
各々の文書のポジティブ度合い(ポジティブスコア)、ネガティブ度合い(ネガティブスコア)は、このクラスタ平均ベクトルXaveを基準としてスコアリングすることができる。
もし多数のクラスタが存在する場合には、各々のクラスタについて同様の処理により、それぞれのポジティブ文書の平均ベクトルであるポジティブ基準ベクトルXp、ネガティブ文書の平均ベクトルであるネガティブ基準ベクトルXn、クラスタ平均ベクトルXaveが求められる。
[1.2 文書の極性(ポジティブスコア/ネガティブスコア)の予測]
次に、図2を参照しながら、生成された基準ベクトルを用いてノイズを除去した上で、入力文書Dの極性を予測する処理を説明する。
まず文書処理システムは、Doc2Vec等の手法を用いて、クラスタが既知の入力文書Dに対し、文書特徴量ベクトル(文書ベクトルx)を生成する。このとき、文書Dの文書ベクトルxから、ネガティブ基準ベクトルXnを減算することで、文書Dのポジティブ成分(以下、ポジティブ成分xpともいう。)が求められることを以下説明する。
ここで、
と近似すると、ポジティブ成分xpは以下のとおりとなる。
同様に文書Dのネガティブ成分(以下、ネガティブ成分xnともいう。)についても、以下の式により求められる。
このようにして求められた入力文書Dのポジティブ成分xp、ネガティブ成分xnと、クラスタ平均ベクトルXaveとのコサイン類似度を以下のように求める(ベクトルの内積を求める)ことで、入力文書Dのポジティブスコア(ポジティブ度)、ネガティブスコア(ネガティブ度)が、−1〜+1の間の値として求めることができる。
[2 機能構成]
以下、本実施形態に係る文書処理システム1の機能構成を図3乃至図5を参照しながら説明する。
[2.1 文書処理システム1]
図3に示すとおり、文書処理システム1は、教師データとなる文書の入力を受けて、ノイズ除去用の基準ベクトルを生成して基準ベクトルDB110に格納する文書処理装置100と、基準ベクトルDBに格納された基準ベクトルに基づいて、入力文書Dに対する評価を行う文書処理装置200とから構成される。なお、文書処理装置100及び文書処理装置200は、同一の装置やプログラムとして実装することも可能である。
[2.2 基準ベクトル生成のための文書処理装置100]
図4を参照しながら、ノイズ除去用の基準ベクトル生成のための文書処理装置100の機能構成を説明する。図3に示すとおり、文書処理装置100は、文書入力部101、文書特徴量ベクトル生成部103、クラスタ特定部105、基準ベクトル生成部107、及び基準ベクトルデータベース(DB)110を含む。
文書入力部101は、各々のクラスタ1乃至Cのポジティブ基準ベクトル111a乃至111C(以下、総称してポジティブ基準ベクトル111ともいう)、及びネガティブ基準ベクトル113a乃至113C(以下、総称してネガティブ基準ベクトル113ともいう。)を求めるための教師文書の入力を受ける。ここで、各々の文書には、ポジティブ/ネガティブのいずれの文書であるのかを示すラベルが付与される。また合わせて、例えば、文書の著者や出版社、文書のソースの種類(ニュース、SNS等)、文書の対象(例えばアナリストレポートであれば対象銘柄や対象とする業界)等、或いはそれらの組み合わせに関するクラスタ情報が付与されていても良い。
文書特徴量ベクトル生成部103は、文書入力部101から入力された文書のそれぞれに対し、例えばDoc2Vec等の手法を用いて、文書ベクトルxを生成する。
クラスタ特定部105は、文書入力部101から入力された各文書のクラスタを特定する。先述の通り、クラスタの情報は予め文書に対して与えられていても良いし、或いは、k−means法等の統計的機械学習等の手法により、クラスタ特定部105が特定しても良い。
基準ベクトル生成部107は、文書特徴量ベクトル生成部103が生成した各々の文書ベクトルのうち、ポジティブのラベルが付与された、同一クラスタに属する文書に係るもの平均ベクトルを求めることにより、ポジティブ基準ベクトル111(Xp)を生成する。同様に、基準ベクトル生成部107は、文書特徴量ベクトル生成部103が生成した各々の文書ベクトルのうち、ネガティブのラベルが付与された、同一クラスタに属する文書に係るもの平均ベクトルを求めることにより、ネガティブ基準ベクトル113(Xn)を生成する。
生成されたポジティブ基準ベクトル111及びネガティブ基準ベクトル113は、クラスタ毎に、基準ベクトルDB110に格納される。なお図4には示していないが、ポジティブ基準ベクトル111からネガティブ基準ベクトル113を減算するベクトル演算により求められるクラスタ平均ベクトルXave(上記数8)をクラスタ毎に基準ベクトルDB110に格納しても良い。
[2.3 極性(ポジティブ度/ネガティブ度)を評価する文書処理装置200]
続いて、図5を参照しながら、入力文書のポジティブ度/ネガティブ度を評価する文書処理装置200の機能構成を説明する。図5に示すとおり、文書処理装置200は、文書入力部201、文書特徴量ベクトル生成部203、クラスタ特定部205、基準ベクトルDB110、基準ベクトル入力部207、ベクトル演算部209、平均ベクトル入力部211、類似度演算部213、及び出力部215を含む。
文書入力部201は、極性が未知のテキスト文書Dの入力を受ける。この時、文書Dには、文書Dの著者や出版社、文書Dの種類(ニュース、SNS等)、文書Dの対象等、或いはそれらの組み合わせに関するクラスタ情報が与えられていても良い。
文書特徴量ベクトル生成部203は、文書入力部201から入力された文書Dに対し、例えばDoc2Vec等の手法を用いて、文書ベクトルxを生成する。なおこの際のアルゴリズムは、文書処理装置100の文書特徴量ベクトル生成部103が用いるものと同一である。
クラスタ特定部205は、文書入力部201から入力された文書Dのクラスタを特定する。例えば、文書処理装置100がクラスタ(基準ベクトルDB110にポジティブ基準ベクトル111やネガティブ基準ベクトル113が用意されるクラスタに対応)をk−means法等の統計的機械学習により生成している場合には、クラスタ特定部205は、文書Dがいずれのクラスタに属するかを、例えば文書ベクトルxに基づいて特定することができる。或いは先述の通り、クラスタの情報は、予め文書Dに与えられていても良い。
基準ベクトルDB110には、文書処理装置100が生成したポジティブ基準ベクトル111及びネガティブ基準ベクトル113がクラスタ毎に格納される。
基準ベクトル入力部207は、基準ベクトルDB110から、文書Dに対応するクラスタのポジティブ基準ベクトル111(Xp)及びネガティブ基準ベクトル113(Xn)を読み込む。
ベクトル演算部209は、文書特徴量ベクトル生成部203が生成した文書ベクトルxからネガティブ基準ベクトル113(Xn)を減算するベクトル演算により文書Dのポジティブ成分xpを、文書ベクトルxからポジティブ基準ベクトル111(Xp)を減算するベクトル演算により文書Dのネガティブ成分xnを、それぞれ求める(上記数11、数12)。
平均ベクトル入力部211は、基準ベクトルDB110に格納されたポジティブ基準ベクトル111(Xp)及びネガティブ基準ベクトル113(Xn)から、クラスタ平均ベクトルXaveをベクトル演算により求める(上記数8)。或いは、クラスタ平均ベクトルXaveは予め基準ベクトルDB110に格納されていても良い。
類似度演算部213は、クラスタ平均ベクトルXaveと、文書Dのポジティブ成分xpとのコサイン類似度(内積)を求めることにより、文書Dのポジティブスコア(ポジティブ度)を算出する(上記数13)。同様に類似度演算部213は、クラスタ平均ベクトルXaveの逆ベクトルと、文書Dのネガティブ成分xnとのコサイン類似度を求めることにより、文書Dのネガティブスコア(ネガティブ度)を算出する(上記数14)。
出力部215は、類似度演算部213により算出された文書Dのポジティブスコア、ネガティブスコアを記憶媒体や外部装置等に出力する。この際、例えばポジティブスコアとネガティブスコアを加算した値を文書Dの極性として出力することも考えられる。
[3 ハードウェア構成]
図6を参照しながら、文書処理装置100及び200を実現可能な情報処理装置500のハードウェア構成について説明する。なお先述の通り、文書処理装置100及び200は同一の装置やプログラムとして実現可能である。情報処理装置500は、制御部501と、記憶部505と、通信I/F(インタフェース)部511と、入力部513と、表示部515とを含み、各部はバスライン517を介して接続される。
制御部501は、CPU(Central Processing Unit。図示せず)、ROM(Read Only Memory。図示せず)、RAM(Random Access Memory)503等を含む。制御部501は
記憶部505に記憶される制御プログラム507を実行することにより、一般的なコンピュータとしての機能に加え、図4に示した文書処理装置100や図5に示した文書処理装置200の各構成に関する処理を実行可能に構成される。例えば、情報処理装置500が文書処理装置200を実現する場合には、文書入力部101、文書特徴量ベクトル生成部103、クラスタ特定部105、基準ベクトル生成部107は、RAM503に一時記憶された上で、CPU上で動作する制御プログラム507として実現可能である。また、情報処理装置500が文書処理装置200を実現する場合には、文書入力部201、文書特徴量ベクトル生成部203、クラスタ特定部205、基準ベクトル入力部207、ベクトル演算部209、平均ベクトル入力部211、類似度演算部213、及び出力部215は、RAM503に一時記憶された上で、CPU上で動作する制御プログラム507として実現可能である。
また、RAM503は、制御プログラム507に含まれるコードの他、入力される文書や、基準ベクトルDB110に格納されるポジティブ基準ベクトル111やネガティブ基準ベクトル113等の一部又は全部を一時的に記憶する。更にRAM503は、CPUが各種処理を実行する際のワークエリアとしても使用される。
記憶部505は、例えばHDD(Hard Disk Drive)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶部505は、一般的なコンピュータとしての機能を実現するためのオペレーティングシステム(OS)やアプリケーションプログラム及びデータ(いずれも図示せず)を記憶する。また記憶部505は、基準ベクトルDB110も記憶する。
通信I/F部511は、必要に応じて、外部の装置とデータ通信するためのデバイスである。例えば文書データの外部装置からの入力は、通信I/F部511を介して行うことが考えられる。また、基準ベクトルDB110を通信I/F部511を介して出力することなども考えられる。なお、通信I/F部511は、可搬性の記憶媒体への書き込み及び読込みを行う装置とのインタフェースを含んでも良い。
入力部513は、情報処理装置500を操作するユーザから入力操作を受け付けるためのデバイスである。入力部513の具体例としては、キーボードやマウス、タッチパネル等を挙げることができる。
表示部515は、情報処理装置500を操作するユーザに各種情報を提示するためのディスプレイ装置である。表示部515の具体例としては、例えば液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ等があげられる。例えば、文書処理装置200の出力部215が文書Dのポジティブスコアやネガティブスコアを表示部515に表示させること等が考えられる。
[4 本実施形態の効果]
以上説明したように、本実施形態に係る文書処理システム1の手法では、クラスタ毎に、ノイズ除去用のポジティブ基準ベクトル111及びネガティブ基準ベクトル113が生成される。このポジティブ基準ベクトル111及びネガティブ基準ベクトル113は、クラスタ内の文書ベクトルの平均として求められるため、例えばディープラーニング(深層学習)によりモデルを生成する手法に比べ、必要となる教師データの数を少なく抑えることができる。
また、本実施形態に係る手法では、ポジティブ基準ベクトル111及びネガティブ基準ベクトル113をクラスタ毎に用意し、入力文書のクラスタに応じて、適当なポジティブ基準ベクトル111及びネガティブ基準ベクトル113を適用してノイズ除去を行う。処理対象の文書の分野や文体、対象物等により応じて、文書は異なる特徴を持つことが多いため、このようにクラスタ毎にノイズ除去用の基準ベクトルを用意することで、好適にノイズ除去を図ることができる。
更にこのようにして好適にノイズ除去を行った上で、入力文書のポジティブ度合い(ポジティブスコア)/ネガティブ度合い(ネガティブスコア)を算出することができるため、その度合いに応じた意思決定を行うことが可能である。例えば、アナリストレポートであれば、入力文書のポジティブスコアが高ければ当該文書が対象とする銘柄を購入する動機づけとすることができるし、ネガティブスコアが高ければ、当該文書が対象とする銘柄を売却する動機づけとすることができる。なおこの時、ポジティブスコア/ネガティブスコアのみを出力/考慮することも考えられる。
[5 付記]
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
1…文書処理システム、100…文書処理装置、101…文書入力部、103…文書特徴量ベクトル生成部、105…クラスタ特定部、107…基準ベクトル生成部、110…基準ベクトルデータベース(DB)、200…文書処理装置、201…文書入力部、203…文書特徴量ベクトル生成部、205…クラスタ特定部、207…基準ベクトル入力部、209…ベクトル演算部、211…平均ベクトル入力部、213…類似度演算部、215…出力部、500…情報処理装置、501…制御部、503…RAM、505…記憶部、507…制御プログラム、511…通信インタフェース(I/F)部、513…入力部、515…表示部、517…バスライン

Claims (8)

  1. 第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する第1ベクトル生成部と、
    前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出する平均ベクトル生成部と、
    入力文書の入力を受ける入力部と、
    前記入力文書に対して、前記第1ベクトル生成部と同じ手法により入力文書ベクトルを生成する第2ベクトル生成部と、
    前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求める演算部と
    を備える文書処理システム。
  2. 前記第1平均ベクトルから前記第2平均ベクトルをベクトル減算することにより得られるクラスタ平均ベクトルと、前記第1傾向成分ベクトル及び/又は前記第2傾向成分ベクトルとの類似度により、前記第1傾向及び/又は前記第2傾向のスコアを算出する類似度算出部
    を更に備える請求項1記載の文書処理システム。
  3. 前記平均ベクトル生成部は、前記複数の文書が属する各々クラスタ毎に算出し、
    前記演算部は、前記入力文書のクラスタに係る前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記第1傾向成分ベクトル及び/又は前記第2傾向成分ベクトルを求める、
    請求項1又は請求項2記載の文書処理システム。
  4. 前記複数の文書のそれぞれについて、属するクラスタを特定するクラスタ特定部
    を更に備える請求項3記載の文書処理システム。
  5. 前記クラスタは、前記文書の作成者、前記文書のソースの種類、前記文書の記載対象、前記文書の記載対象の分野、の少なくとも一部に応じたものである、
    請求項3又は請求項4記載の文書処理システム。
  6. 前記複数の文書及び前記入力文書は金融商品を評価するためのものであり、
    前記第1傾向及び前記第2傾向は、前記金融商品の評価が肯定的であるか否定的であるかを示すものである、
    請求項1乃至請求項5のいずれか1項記載の文書処理システム。
  7. 第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成するステップと、
    前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出するステップと、
    入力文書の入力を受けるステップと、
    前記入力文書に対して、前記文書ベクトルと同じ手法により入力文書ベクトルを生成するステップと、
    前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求めるステップと
    を文書処理システムが行う文書処理方法。
  8. 第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する処理と、
    前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出する処理と、
    入力文書の入力を受ける処理と、
    前記入力文書に対して、前記文書ベクトルと同じ手法により入力文書ベクトルを生成する処理と、
    前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求める処理と
    をコンピュータに実行させるためのプログラム。
JP2017141967A 2017-07-21 2017-07-21 文書処理システム、文書処理方法、及びプログラム Active JP6894315B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017141967A JP6894315B2 (ja) 2017-07-21 2017-07-21 文書処理システム、文書処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017141967A JP6894315B2 (ja) 2017-07-21 2017-07-21 文書処理システム、文書処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019021254A true JP2019021254A (ja) 2019-02-07
JP6894315B2 JP6894315B2 (ja) 2021-06-30

Family

ID=65354951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017141967A Active JP6894315B2 (ja) 2017-07-21 2017-07-21 文書処理システム、文書処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6894315B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933662A (zh) * 2019-02-15 2019-06-25 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933662A (zh) * 2019-02-15 2019-06-25 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
JP6894315B2 (ja) 2021-06-30

Similar Documents

Publication Publication Date Title
Huq et al. Sentiment analysis on Twitter data using KNN and SVM
JP5963328B2 (ja) 生成装置、生成方法、およびプログラム
EP3584728B1 (en) Method and device for analyzing open-source license
US10438133B2 (en) Spend data enrichment and classification
Bennet et al. Predictive Analysis of Startup Ecosystems: Integration of Technology Acceptance Models with Random Forest Techniques
Jin et al. SMI-BLAST: a novel supervised search framework based on PSI-BLAST for protein remote homology detection
CN113343101B (zh) 一种对象排序方法及系统
CN113704599A (zh) 营销转化用户的预测方法、装置及计算机设备
CN110750297A (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
Sharma et al. Evaluating tree explanation methods for anomaly reasoning: A case study of SHAP TreeExplainer and TreeInterpreter
Liu et al. Method and application for dynamic comprehensive evaluation with subjective and objective information
Alrizq et al. Customer satisfaction analysis with Saudi Arabia mobile banking apps: a hybrid approach using text mining and predictive learning techniques
Carmichael et al. A framework for evaluating post hoc feature-additive explainers
JP6894315B2 (ja) 文書処理システム、文書処理方法、及びプログラム
Gendron Introduction to R for Business Intelligence
US12112133B2 (en) Multi-model approach to natural language processing and recommendation generation
CN111699472A (zh) 确定用于开发、设计和/或部署不同技术领域的复杂的嵌入式或信息物理系统,特别是其中使用的复杂的软件架构的措施的方法和计算机程序产品
JP2020052767A (ja) 脆弱性推定装置及び脆弱性推定方法
JP2019200582A (ja) 検索装置、検索方法及び検索プログラム
US11829386B2 (en) Identifying anonymized resume corpus data pertaining to the same individual
Haripriya et al. Detection of sarcasm from consumer sentiments on social media about luxury brands
Pooja et al. Sentiment based stock market prediction
Yılmaz et al. Price Prediction Using Web Scraping and Machine Learning Algorithms in the Used Car Market
Alshammari et al. Stock market prediction by applying big data mining
Dankov et al. Extended conceptual framework for business analytics supporting innovations

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210603

R150 Certificate of patent or registration of utility model

Ref document number: 6894315

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250