JP2019021254A - 文書処理システム、文書処理方法、及びプログラム - Google Patents
文書処理システム、文書処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2019021254A JP2019021254A JP2017141967A JP2017141967A JP2019021254A JP 2019021254 A JP2019021254 A JP 2019021254A JP 2017141967 A JP2017141967 A JP 2017141967A JP 2017141967 A JP2017141967 A JP 2017141967A JP 2019021254 A JP2019021254 A JP 2019021254A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- tendency
- average
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title claims description 7
- 239000013598 vector Substances 0.000 claims abstract description 263
- 239000000654 additive Substances 0.000 claims abstract description 11
- 230000000996 additive effect Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000010365 information processing Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】第1傾向又は第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する第1ベクトル生成部と、第1傾向のラベルが付与された文書に係る文書ベクトルの平均である第1平均ベクトル、及び/又は、第2傾向のラベルが付与された文書に係る文書ベクトルの平均である第2平均ベクトルを算出する平均ベクトル生成部と、入力文書に対して、入力文書ベクトルを生成する第2ベクトル生成部と、第1平均ベクトル及び/又は第2平均ベクトルと、入力文書ベクトルとのベクトル加減算により、入力文書の第1傾向成分ベクトル、及び/又は第2傾向成分ベクトルを求める演算部とを備える。
【選択図】図5
Description
また、文書が対象とする分野や作成者等により表現や文体の相違などもあるため、このようなノイズの影響で十分な評価精度が得られないこともある。
[1 概要]
文書に対して、ある評価軸に沿った相反する2つの事象のうち、いずれを向いたものなのかを評価したい場合がある。たとえば、株式に関連する文書なのか違うのか、読む必要性の高い文書なのか読む必要性の低い文書なのか、肯定的な評価を行っている文書なのか否定的な評価を行っている文書なのか、等である。例えば、株式銘柄等の金融商品に対して、投資判断の変更を伝えるためのアナリストレポートの多くは、肯定的な意見である「買いに引上げ」、「中立に引上げ」や、否定的な意見である「中立に引下げ」、「売りに引下げ」等の評価(レイティングの変更)が、その評価変更に至る根拠とともに文書において示される。またアナリストレポートの中には、レイティングやレイティング変更が明示的には示されないものもある。このようなテキスト情報である文書として記載された個別企業に関する定性情報に対し、その有用性や企業価値の推計に与える影響を自動で定量的に評価可能になれば、当該評価を意思決定に活用することができる。
まず、図1を参照しながら、本実施形態に係る文書処理システムが基準ベクトルを生成する際の処理について説明する。まず、既存の手法で生成された加法構成性を持つ文書ベクトル(以下、文書ベクトルxともいう。)は、一般的に以下の式により表現されると考えられる。
次に、図2を参照しながら、生成された基準ベクトルを用いてノイズを除去した上で、入力文書Dの極性を予測する処理を説明する。
以下、本実施形態に係る文書処理システム1の機能構成を図3乃至図5を参照しながら説明する。
図3に示すとおり、文書処理システム1は、教師データとなる文書の入力を受けて、ノイズ除去用の基準ベクトルを生成して基準ベクトルDB110に格納する文書処理装置100と、基準ベクトルDBに格納された基準ベクトルに基づいて、入力文書Dに対する評価を行う文書処理装置200とから構成される。なお、文書処理装置100及び文書処理装置200は、同一の装置やプログラムとして実装することも可能である。
図4を参照しながら、ノイズ除去用の基準ベクトル生成のための文書処理装置100の機能構成を説明する。図3に示すとおり、文書処理装置100は、文書入力部101、文書特徴量ベクトル生成部103、クラスタ特定部105、基準ベクトル生成部107、及び基準ベクトルデータベース(DB)110を含む。
続いて、図5を参照しながら、入力文書のポジティブ度/ネガティブ度を評価する文書処理装置200の機能構成を説明する。図5に示すとおり、文書処理装置200は、文書入力部201、文書特徴量ベクトル生成部203、クラスタ特定部205、基準ベクトルDB110、基準ベクトル入力部207、ベクトル演算部209、平均ベクトル入力部211、類似度演算部213、及び出力部215を含む。
図6を参照しながら、文書処理装置100及び200を実現可能な情報処理装置500のハードウェア構成について説明する。なお先述の通り、文書処理装置100及び200は同一の装置やプログラムとして実現可能である。情報処理装置500は、制御部501と、記憶部505と、通信I/F(インタフェース)部511と、入力部513と、表示部515とを含み、各部はバスライン517を介して接続される。
以上説明したように、本実施形態に係る文書処理システム1の手法では、クラスタ毎に、ノイズ除去用のポジティブ基準ベクトル111及びネガティブ基準ベクトル113が生成される。このポジティブ基準ベクトル111及びネガティブ基準ベクトル113は、クラスタ内の文書ベクトルの平均として求められるため、例えばディープラーニング(深層学習)によりモデルを生成する手法に比べ、必要となる教師データの数を少なく抑えることができる。
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
Claims (8)
- 第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する第1ベクトル生成部と、
前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出する平均ベクトル生成部と、
入力文書の入力を受ける入力部と、
前記入力文書に対して、前記第1ベクトル生成部と同じ手法により入力文書ベクトルを生成する第2ベクトル生成部と、
前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求める演算部と
を備える文書処理システム。 - 前記第1平均ベクトルから前記第2平均ベクトルをベクトル減算することにより得られるクラスタ平均ベクトルと、前記第1傾向成分ベクトル及び/又は前記第2傾向成分ベクトルとの類似度により、前記第1傾向及び/又は前記第2傾向のスコアを算出する類似度算出部
を更に備える請求項1記載の文書処理システム。 - 前記平均ベクトル生成部は、前記複数の文書が属する各々クラスタ毎に算出し、
前記演算部は、前記入力文書のクラスタに係る前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記第1傾向成分ベクトル及び/又は前記第2傾向成分ベクトルを求める、
請求項1又は請求項2記載の文書処理システム。 - 前記複数の文書のそれぞれについて、属するクラスタを特定するクラスタ特定部
を更に備える請求項3記載の文書処理システム。 - 前記クラスタは、前記文書の作成者、前記文書のソースの種類、前記文書の記載対象、前記文書の記載対象の分野、の少なくとも一部に応じたものである、
請求項3又は請求項4記載の文書処理システム。 - 前記複数の文書及び前記入力文書は金融商品を評価するためのものであり、
前記第1傾向及び前記第2傾向は、前記金融商品の評価が肯定的であるか否定的であるかを示すものである、
請求項1乃至請求項5のいずれか1項記載の文書処理システム。 - 第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成するステップと、
前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出するステップと、
入力文書の入力を受けるステップと、
前記入力文書に対して、前記文書ベクトルと同じ手法により入力文書ベクトルを生成するステップと、
前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求めるステップと
を文書処理システムが行う文書処理方法。 - 第1傾向、又は前記第1傾向と相反する第2傾向のいずれの傾向を持つ文書であるかが各々ラベル付けされた複数の文書のそれぞれについて、分散意味表現により表現された加法構成性を有する文書ベクトルを生成する処理と、
前記複数の文書のうち、前記第1傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第1平均ベクトル、及び/又は、前記第2傾向のラベルが付与された文書に係る前記文書ベクトルの平均である第2平均ベクトルを算出する処理と、
入力文書の入力を受ける処理と、
前記入力文書に対して、前記文書ベクトルと同じ手法により入力文書ベクトルを生成する処理と、
前記第1平均ベクトル及び/又は前記第2平均ベクトルと、前記入力文書ベクトルとのベクトル加減算により、前記入力文書の前記第1傾向に関するベクトル成分を示す第1傾向成分ベクトル、及び/又は前記第2傾向に関するベクトル成分を示す第2傾向成分ベクトルを求める処理と
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017141967A JP6894315B2 (ja) | 2017-07-21 | 2017-07-21 | 文書処理システム、文書処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017141967A JP6894315B2 (ja) | 2017-07-21 | 2017-07-21 | 文書処理システム、文書処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019021254A true JP2019021254A (ja) | 2019-02-07 |
JP6894315B2 JP6894315B2 (ja) | 2021-06-30 |
Family
ID=65354951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017141967A Active JP6894315B2 (ja) | 2017-07-21 | 2017-07-21 | 文書処理システム、文書処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6894315B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
-
2017
- 2017-07-21 JP JP2017141967A patent/JP6894315B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6894315B2 (ja) | 2021-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huq et al. | Sentiment analysis on Twitter data using KNN and SVM | |
JP5963328B2 (ja) | 生成装置、生成方法、およびプログラム | |
EP3584728B1 (en) | Method and device for analyzing open-source license | |
US10438133B2 (en) | Spend data enrichment and classification | |
Bennet et al. | Predictive Analysis of Startup Ecosystems: Integration of Technology Acceptance Models with Random Forest Techniques | |
Jin et al. | SMI-BLAST: a novel supervised search framework based on PSI-BLAST for protein remote homology detection | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
CN113704599A (zh) | 营销转化用户的预测方法、装置及计算机设备 | |
CN110750297A (zh) | 一种基于程序分析和文本分析的Python代码参考信息生成方法 | |
Sharma et al. | Evaluating tree explanation methods for anomaly reasoning: A case study of SHAP TreeExplainer and TreeInterpreter | |
Liu et al. | Method and application for dynamic comprehensive evaluation with subjective and objective information | |
Alrizq et al. | Customer satisfaction analysis with Saudi Arabia mobile banking apps: a hybrid approach using text mining and predictive learning techniques | |
Carmichael et al. | A framework for evaluating post hoc feature-additive explainers | |
JP6894315B2 (ja) | 文書処理システム、文書処理方法、及びプログラム | |
Gendron | Introduction to R for Business Intelligence | |
US12112133B2 (en) | Multi-model approach to natural language processing and recommendation generation | |
CN111699472A (zh) | 确定用于开发、设计和/或部署不同技术领域的复杂的嵌入式或信息物理系统,特别是其中使用的复杂的软件架构的措施的方法和计算机程序产品 | |
JP2020052767A (ja) | 脆弱性推定装置及び脆弱性推定方法 | |
JP2019200582A (ja) | 検索装置、検索方法及び検索プログラム | |
US11829386B2 (en) | Identifying anonymized resume corpus data pertaining to the same individual | |
Haripriya et al. | Detection of sarcasm from consumer sentiments on social media about luxury brands | |
Pooja et al. | Sentiment based stock market prediction | |
Yılmaz et al. | Price Prediction Using Web Scraping and Machine Learning Algorithms in the Used Car Market | |
Alshammari et al. | Stock market prediction by applying big data mining | |
Dankov et al. | Extended conceptual framework for business analytics supporting innovations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20170810 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200604 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6894315 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |