JP6483789B1 - 情報解析システム - Google Patents
情報解析システム Download PDFInfo
- Publication number
- JP6483789B1 JP6483789B1 JP2017224316A JP2017224316A JP6483789B1 JP 6483789 B1 JP6483789 B1 JP 6483789B1 JP 2017224316 A JP2017224316 A JP 2017224316A JP 2017224316 A JP2017224316 A JP 2017224316A JP 6483789 B1 JP6483789 B1 JP 6483789B1
- Authority
- JP
- Japan
- Prior art keywords
- processing unit
- cluster
- information
- vector
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書等情報に対する情報解析システム1は、入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部12と、文ベクトルを用いてクラスタリングするクラスタリング処理部13と、クラスタリング処理の結果、一部または全部のクラスタを表形式で出力する表形式処理部18と、を有する。
【選択図】図1
Description
網羅度は対象の単語が,文書等情報におけるページなどで出現する度合いを示しているので,網羅度が高ければそれだけ重要性が高いと考えられる。そこで,本発明のように,網羅度を加味して重要度を算出するとよい。
本発明のように構成することで,クラスタを重要度や出現位置に基づいてソートできる。これによって,上位所定数のクラスタを表形式で出力をすることができるので,重要情報のうち,特にその度合いが高いものを表形式として整理することができる。
網羅度は対象の単語が,文書等情報におけるページなどで出現する度合いを示しているので,網羅度が高ければそれだけ重要性が高いと考えられる。そこで,本発明のように,網羅度を加味して重要度を算出するとよい。
本発明のように構成することで,クラスタを重要度や出現位置に基づいてソートできる。これによって,上位所定数のクラスタを表形式で出力をすることができるので,重要情報のうち,特にその度合いが高いものを表形式として整理することができる。
クラスタの項目名の特定方法にはさまざまな方法があるが,本発明の方法を用いることで,クラスタの項目名を適切に特定することができる。
クラスタの項目名の特定方法にはさまざまな方法があるが,本発明の方法を用いることで,クラスタの項目名を適切に特定することができる。
(数1)
(数2)
(数3)
(数4)
(数6)
(数7)
10:事前処理部
11:情報入力受付処理部
12:文ベクトル算出処理部
13:クラスタリング処理部
14:密集度算出処理部
15:網羅度算出処理部
16:クラスタソート処理部
17:項目名特定処理部
18:表形式処理部
19:クラスタ統合処理部
20:文節ベクトル算出処理部
70:演算装置
71:記憶装置
72:表示装置
73:入力装置
74:通信装置
Claims (10)
- 文書等情報に対する情報解析システムであって,
前記情報解析システムは,
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部と,
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部と,
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部と,
前記算出した網羅度を用いて算出した重要度に基づいて,前記クラスタをソートするクラスタソート処理部と,
前記クラスタをソートした結果,上位所定数のクラスタを表形式で出力をする表形式処理部と,
を有することを特徴とする情報解析システム。 - 文書等情報に対する情報解析システムであって,
前記情報解析システムは,
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部と,
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部と,
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部と,
前記算出した網羅度を用いて算出した重要度に基づいて,前記クラスタをソートするクラスタソート処理部と,
前記クラスタをソートした結果,上位所定数のクラスタを表形式で出力をする表形式処理部と,
を有することを特徴とする情報解析システム。 - 前記情報解析システムは,さらに,
各クラスタについて,そのクラスタに含まれる単語のうち,網羅度が最大のものをクラスタの項目名として特定する項目名特定処理部,
を有することを特徴とする請求項1または請求項2に記載の情報解析システム。 - 文書等情報に対する情報解析システムであって,
前記情報解析システムは,
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部と,
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部と,
前記クラスタリング処理をしたクラスタについて,含まれる文の平均文ベクトルを算出し,前記平均文ベクトルとの類似度が最大となる単語ベクトルを有する単語を,クラスタの項目名として特定する項目名特定処理部と,
前記クラスタリング処理の結果,一部または全部のクラスタを表形式で出力し,前記特定したクラスタの項目名を表の項目名とする表形式処理部と,
を有することを特徴とする情報解析システム。 - 文書等情報に対する情報解析システムであって,
前記情報解析システムは,
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部と,
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部と,
前記クラスタリング処理をしたクラスタについて,含まれる文の平均文節ベクトルを算出し,前記平均文節ベクトルとの類似度が最大となる単語ベクトルを有する単語を,クラスタの項目名として特定する項目名特定処理部と,
前記クラスタリング処理の結果,一部または全部のクラスタを表形式で出力し,前記特定したクラスタの項目名を表の項目名とする表形式処理部と,
を有することを特徴とする情報解析システム。 - 前記情報解析システムは,さらに,
所定条件を充足した場合に,複数のクラスタを統合するクラスタ統合処理部,を有しており,
前記クラスタ統合処理部は,
統合後の文の密集度が所定の閾値以上のクラスタがある限り,全てのクラスタにおいて,第1のクラスタと,第1のクラスタ以外の各クラスタについて,統合した場合の文の密集度を算出し,前記算出した文の密集度が最大のクラスタとなったクラスタを特定し,前記第1のクラスタと前記特定したクラスタとを統合する,
ことを特徴とする請求項1から請求項5のいずれかに記載の情報解析システム。 - コンピュータを,
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部,
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部,
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部,
前記算出した網羅度を用いて算出した重要度に基づいて,前記クラスタをソートするクラスタソート処理部,
前記クラスタをソートした結果,上位所定数のクラスタを表形式で出力をする表形式処理部,
として機能させることを特徴とする情報解析プログラム。 - コンピュータを,
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部,
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部,
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部,
前記算出した網羅度を用いて算出した重要度に基づいて,前記クラスタをソートするクラスタソート処理部,
前記クラスタをソートした結果,上位所定数のクラスタを表形式で出力をする表形式処理部,
として機能させることを特徴とする情報解析プログラム。 - コンピュータを,
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部,
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部,
前記クラスタリング処理をしたクラスタについて,含まれる文の平均文ベクトルを算出し,前記平均文ベクトルとの類似度が最大となる単語ベクトルを有する単語を,クラスタの項目名として特定する項目名特定処理部,
前記クラスタリング処理の結果,一部または全部のクラスタを表形式で出力し,前記特定したクラスタの項目名を表の項目名とする表形式処理部,
として機能させることを特徴とする情報解析プログラム。 - コンピュータを,
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部,
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部,
前記クラスタリング処理をしたクラスタについて,含まれる文の平均文節ベクトルを算出し,前記平均文節ベクトルとの類似度が最大となる単語ベクトルを有する単語を,クラスタの項目名として特定する項目名特定処理部,
前記クラスタリング処理の結果,一部または全部のクラスタを表形式で出力し,前記特定したクラスタの項目名を表の項目名とする表形式処理部,
として機能させることを特徴とする情報解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017224316A JP6483789B1 (ja) | 2017-11-22 | 2017-11-22 | 情報解析システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017224316A JP6483789B1 (ja) | 2017-11-22 | 2017-11-22 | 情報解析システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6483789B1 true JP6483789B1 (ja) | 2019-03-13 |
JP2019096019A JP2019096019A (ja) | 2019-06-20 |
Family
ID=65718175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017224316A Active JP6483789B1 (ja) | 2017-11-22 | 2017-11-22 | 情報解析システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6483789B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6968353B2 (ja) * | 2019-11-22 | 2021-11-17 | 株式会社エクサウィザーズ | 特徴抽出方法、コンピュータプログラム及び情報処理装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
-
2017
- 2017-11-22 JP JP2017224316A patent/JP6483789B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2019096019A (ja) | 2019-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharif et al. | Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes | |
US9836511B2 (en) | Computer-generated sentiment-based knowledge base | |
Basiri et al. | A framework for sentiment analysis in persian | |
US20160155058A1 (en) | Non-factoid question-answering system and method | |
Shoukry et al. | A hybrid approach for sentiment classification of Egyptian dialect tweets | |
KR20190015797A (ko) | 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법 | |
CN104137102A (zh) | 非事实型询问应答系统以及计算机程序 | |
Khasawneh et al. | Sentiment analysis of Arabic social media content: a comparative study | |
Suleiman et al. | Comparative study of word embeddings models and their usage in Arabic language applications | |
CN113704451A (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
US10417338B2 (en) | External resource identification | |
JP2008123111A (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
Al-Kabi et al. | Evaluating social context in arabic opinion mining. | |
JP5591871B2 (ja) | 回答タイプ推定装置、方法、及びプログラム | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
De Freitas et al. | Exploring resources for sentiment analysis in Portuguese language | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
US11436278B2 (en) | Database creation apparatus and search system | |
Jaman et al. | Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine | |
Hathlian et al. | Sentiment-subjective analysis framework for arabic social media posts | |
Malandrakis et al. | Sail: Sentiment analysis using semantic similarity and contrast features | |
JP6483789B1 (ja) | 情報解析システム | |
Imane et al. | A set of parameters for automatically annotating a Sentiment Arabic Corpus | |
Baniata et al. | Sentence representation network for Arabic sentiment analysis | |
Rachidi et al. | Classifying toxicity in the Arabic Moroccan dialect on Instagram: a machine and deep learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20171211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6483789 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |