JP2021135676A - 文書分析システム - Google Patents
文書分析システム Download PDFInfo
- Publication number
- JP2021135676A JP2021135676A JP2020030684A JP2020030684A JP2021135676A JP 2021135676 A JP2021135676 A JP 2021135676A JP 2020030684 A JP2020030684 A JP 2020030684A JP 2020030684 A JP2020030684 A JP 2020030684A JP 2021135676 A JP2021135676 A JP 2021135676A
- Authority
- JP
- Japan
- Prior art keywords
- principal component
- topics
- topic
- analysis system
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 claims description 36
- 230000001186 cumulative effect Effects 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 31
- 238000000513 principal component analysis Methods 0.000 claims description 20
- 238000000611 regression analysis Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 abstract 2
- 238000004220 aggregation Methods 0.000 abstract 2
- 238000000034 method Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Abstract
Description
図1に示されている本発明の一実施形態としての文書分析システムは、ネットワークを介してクライアント2と相互通信可能な文書分析サーバ1により構成されている。
文書分析サーバ1は、データベース10と、パープレキシティ評価要素11と、第1トピック数決定要素121と、第2トピック数決定要素122と、基準トピック数決定要素124と、累計出現頻度評価要素13と、主成分分析要素14と、回帰分析要素15と、を備えている。文書分析サーバ1は、スマートフォンまたはタブレットなどの携帯型の端末装置により構成されていてもよい。文書分析サーバ1は、クライアント2の構成要素(例えばGUI)であってもよい。
(基準トピックス数の決定)
パープレキシティ評価要素11により、トピックモデルにしたがって単語の多重集合またはBOW(Bag of Words)により表現されている複数の文書dがデータベース10から取得される(図2/STEP100)。データベース10に登録されている複数の文書dのそれぞれは、例えば、クライアント2の入力インターフェース21を通じてユーザにより入力され、当該クライアント2の出力インターフェース22(またはこれを構成する通信機器)により文書分析サーバ11に送信またはアップロードされる。
基準トピック数N0が決定されたことにより、トピックモデルにおいて、当該基準トピック数N0のトピックのそれぞれにおける、複数の文書dに含まれる複数の単語wのそれぞれの出現頻度φが定まる。累計出現頻度評価要素13により、基準トピック数N0のトピックのそれぞれにおける、複数の文書dに含まれる複数の単語wのそれぞれの累計出現頻度が評価される(図5/STEP130)。図6には、一のトピックkにおける複数の単語w1、‥、wi、wi+1、‥の累計出現頻度Σiφk,wiが示されている。単語wiの累計出現頻度とは、出現頻度が上位の単語w1から当該単語wiまで順に当該出現頻度φk,wiを累計した結果である。
複数のアイテム(例えば、自動車)のそれぞれを(例えば、車種、車型等により)区分するための指数mが「1」に設定される(図7/STEP140)。トピックを表わす指数nが「1」に設定される(図7/STEP141)。
複数のアイテムmのそれぞれに対する満足・不満足(要改良)のコメントの別個の記入欄と、関連する質問肢群の評点欄とが含まれる調査シートがクライアント2の出力インターフェース22に出力される。当該調査シートに入力インターフェース21を通じてユーザにより入力された満足・不満足のコメントが複数の文書dとして評点とともに文書分析サーバ1に対して送信され、回帰分析要素15により取得される(図11/STEP152)。当該複数の文書dに対してLDA処理が実行され、各アイテムについてトピック分布θ(>0)が決定される(図2参照)。各アイテムについて決定されたトピック分布θのうち、不満足欄に記入されたコメントに関するトピック分布θにマイナスが付加されて負値に変換される。
文書分析サーバ1によれば、文書生成モデルであるLDAにしたがってトピックモデルを定義するトピック数Nがさまざまな値に仮定され、かつ、単語群が異なる乱数のそれぞれにより指定された場合に複数の文書dのそれぞれが生成される確率である文書生成確率に基づき、パープレキシティPPLが評価される(関係式(01)、図2/STEP106、図3参照)。第1トピック数N1(パープレキシティPPLが最初に極小値を示す累計頻度が最高になるトピック数)および第2トピック数N2(パープレキシティPPLが最小値を示す累計頻度が最高になるトピック数)のそれぞれは、当該複数の文書dのそれぞれに潜在するトピックまたは文脈上の意味を抽出する観点から適当な確率モデルとしてのトピックモデルを定義しうる(図2/STEP121、STEP122、図4Aおよび図4B参照)。
Claims (9)
- 文書生成モデルであるLDAにしたがってトピックモデルを定義するトピック数がさまざまな値に仮定され、かつ、単語群が異なる乱数のそれぞれにより指定された場合に複数の文書のそれぞれが生成される確率である文書生成確率に基づき、パープレキシティを評価するパープレキシティ評価要素と、
前記異なる乱数のそれぞれにより指定された単語群ごとに、前記パープレキシティ評価要素により評価された前記パープレキシティが最初に極小値を示す頻度を累計し、当該累計頻度が最高になるトピック数を第1トピック数として決定する第1トピック数決定要素と、
前記異なる乱数のそれぞれにより指定された単語群ごとに、前記パープレキシティ評価要素により評価された前記パープレキシティが最小値を示す頻度を累計し、当該累計頻度が最高になるトピック数を第2トピック数として決定する第2トピック数決定要素と、
前記第1トピック数決定要素により決定された前記第1トピック数と、前記第2トピック数決定要素により決定された前記第2トピック数と、を複合することにより基準トピック数を定める基準トピック数決定要素と、を備えていることを特徴とする文書分析システム。 - 請求項1記載の文書分析システムにおいて、
前記基準トピック数のトピックのそれぞれにおける、前記複数の文書に含まれる複数の単語のそれぞれの累計出現頻度を評価する累計出現頻度評価要素をさらに備えていることを特徴とする文書分析システム。 - 請求項2記載の文書分析システムにおいて、
前記累計出現頻度評価要素が、前記基準トピック数のトピックのうち少なくとも1つのトピックにおいて、前記複数の単語に含まれる少なくとも1つの指定単語の累計出現頻度が基準値以下であるか否かを判定することを特徴とする文書分析システム。 - 請求項1〜3のうちいずれか1項に記載の文書分析システムにおいて、
複数のアイテムのそれぞれに関する前記複数の文書のそれぞれが、トピックモデルにしたがって前記基準トピック数のトピックにより構成されていると仮定された場合において、前記複数のアイテムのそれぞれと前記基準トピック数のトピックのそれぞれとの組み合わせごとの相対頻度を評価する相対頻度評価要素と、
前記複数のアイテムのそれぞれについて、前記相対頻度評価要素により評価された前記複数のアイテムのそれぞれと前記複数のトピックのそれぞれとの組み合わせごとの相対頻度を主成分分析することにより、前記複数のトピックのそれぞれの主成分ベクトルおよび前記複数のアイテムのそれぞれの主成分ベクトルを評価する主成分分析要素と、をさらに備えていることを特徴とする文書分析システム。 - 請求項4記載の文書分析システムにおいて、
前記主成分分析要素が、前記複数のトピックのそれぞれの主成分ベクトルを構成する主成分の極性および大きさのうち少なくとも一方に応じて区分される複数の主成分群のそれぞれに対して、前記複数のトピックのそれぞれを分類し、前記複数の主成分群のそれぞれに分類されたトピックにおいて単語出現頻度が指定値以上である単語に基づき、前記複数の主成分群のそれぞれの意味を解析することを特徴とする文書分析システム。 - 請求項5記載の文書分析システムにおいて、
前記主成分分析要素が、前記複数の主成分群としての、主成分ベクトルの第1主成分が正であり、かつ、第1主成分の大きさが第2主成分の大きさよりも大きい第1正主成分群、主成分ベクトルの第2主成分が正であり、かつ、第2主成分の大きさが第1主成分の大きさよりも大きい第2正主成分群、主成分ベクトルの第1主成分が負であり、かつ、第1主成分の大きさが第2主成分の大きさよりも大きい第1負主成分群、および、主成分ベクトルの第2主成分が負であり、かつ、第2主成分の大きさが第1主成分の大きさよりも大きい第2負主成分群のそれぞれに対して、前記トピックのそれぞれを分類することを特徴とする文書分析システム。 - 請求項5または6記載の文書分析システムにおいて、
前記主成分分析要素が、前記トピック分類要素により前記複数の主成分群のそれぞれに分類されたトピックにおいて、前記複数のアイテムのそれぞれに関する単語出現頻度を対比することを特徴とする文書分析システム。 - 請求項1〜7のうちいずれか1項に記載の文書分析システムにおいて、
前記複数の文書としてのアンケート結果に含まれる回答文書のそれぞれが、前記基準トピック数のトピックにより構成されていると仮定された場合において、前記アンケート結果に含まれる複数の項目に対する評点を目的変数とし、かつ、トピック分布を説明変数として回帰分析を実行する回帰分析要素をさらに備えていることを特徴とする文書分析システム。 - 請求項8記載の文書分析システムにおいて、
前記回帰分析要素が、前記アンケート結果に含まれる回答文書のうち否定的内容の文書に関して、トピック分布の符号をマイナスに反転させたうえで回帰分析を実行することを特徴とする文書分析システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030684A JP2021135676A (ja) | 2020-02-26 | 2020-02-26 | 文書分析システム |
US17/181,576 US11847142B2 (en) | 2020-02-26 | 2021-02-22 | Document analysis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030684A JP2021135676A (ja) | 2020-02-26 | 2020-02-26 | 文書分析システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135676A true JP2021135676A (ja) | 2021-09-13 |
Family
ID=77366179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020030684A Pending JP2021135676A (ja) | 2020-02-26 | 2020-02-26 | 文書分析システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11847142B2 (ja) |
JP (1) | JP2021135676A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230186022A1 (en) * | 2021-12-10 | 2023-06-15 | Blackberry Limited | Method and system for finding associations between natural language and computer language |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484228B2 (en) * | 2011-03-17 | 2013-07-09 | Indian Institute Of Science | Extraction and grouping of feature words |
US9251250B2 (en) | 2012-03-28 | 2016-02-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for processing text with variations in vocabulary usage |
JP6176730B2 (ja) | 2014-02-19 | 2017-08-09 | Kddi株式会社 | クラスタリング装置、方法及びプログラム |
US9767416B2 (en) * | 2015-02-04 | 2017-09-19 | Oracle International Corporation | Sparse and data-parallel inference method and system for the latent Dirichlet allocation model |
US20190114319A1 (en) * | 2017-10-17 | 2019-04-18 | Oracle International Corporation | Streaming latent dirichlet allocation |
US11615311B2 (en) * | 2018-12-10 | 2023-03-28 | Baidu Usa Llc | Representation learning for input classification via topic sparse autoencoder and entity embedding |
US11763233B2 (en) * | 2019-09-20 | 2023-09-19 | Optum Services (Ireland) Limited | Method, apparatus and computer program product for prioritizing a data processing queue |
US11784948B2 (en) * | 2020-01-29 | 2023-10-10 | International Business Machines Corporation | Cognitive determination of message suitability |
-
2020
- 2020-02-26 JP JP2020030684A patent/JP2021135676A/ja active Pending
-
2021
- 2021-02-22 US US17/181,576 patent/US11847142B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20210263953A1 (en) | 2021-08-26 |
US11847142B2 (en) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769056B2 (en) | Synthetic data for neural network training using vectors | |
CN110503531B (zh) | 时序感知的动态社交场景推荐方法 | |
US11860961B2 (en) | Deep-learning-based dating profiles filtering and recommendation system | |
CN109933782B (zh) | 用户情绪预测方法和装置 | |
WO2018168220A1 (ja) | 学習材推薦方法、学習材推薦装置および学習材推薦プログラム | |
JP2017102906A (ja) | 情報処理装置、情報処理方法及びプログラム | |
Ghosh et al. | Application of feature-learning methods toward product usage context identification and comfort prediction | |
Prasad et al. | System model for prediction analytics using k-nearest neighbors algorithm | |
KR102531185B1 (ko) | 온라인 광고 컨텐트 플랫폼을 제공하기 위한 시스템 | |
JP2021135676A (ja) | 文書分析システム | |
Thannimalai et al. | A content based and collaborative filtering recommender system | |
CN110019563B (zh) | 一种基于多维数据的肖像建模方法和装置 | |
Shi et al. | Emotional cellular-based multi-class fuzzy support vector machines on product’s KANSEI extraction | |
Kothari et al. | A novel approach towards context sensitive recommendations based on machine learning methodology | |
CN113822390B (zh) | 用户画像构建方法、装置、电子设备和存储介质 | |
Morshed et al. | Customer’s spontaneous facial expression recognition | |
Balfaqih | A Hybrid Movies Recommendation System Based on Demographics and Facial Expression Analysis using Machine Learning | |
US11900327B2 (en) | Evaluation adjustment factoring for bias | |
KR102624636B1 (ko) | 자체 피드백 기반의 설문지 생성 시스템 | |
US11887405B2 (en) | Determining features based on gestures and scale | |
US20240144079A1 (en) | Systems and methods for digital image analysis | |
Sridhar et al. | Extending Deep Neural Categorisation Models for Recommendations by Applying Gradient Based Learning | |
Kumar et al. | Music Recommendation based on User Mood | |
KR102624634B1 (ko) | 자가학습 기반 인공지능을 이용한 비대면 설문조사에서 중도이탈 응답 대체 시스템 | |
Caldas et al. | Co-mlm: a ssl algorithm based on the minimal learning machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231017 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240216 |