JP4348145B2 - 文章分類プログラム、文章分類方法および文章分類装置 - Google Patents
文章分類プログラム、文章分類方法および文章分類装置 Download PDFInfo
- Publication number
- JP4348145B2 JP4348145B2 JP2003302715A JP2003302715A JP4348145B2 JP 4348145 B2 JP4348145 B2 JP 4348145B2 JP 2003302715 A JP2003302715 A JP 2003302715A JP 2003302715 A JP2003302715 A JP 2003302715A JP 4348145 B2 JP4348145 B2 JP 4348145B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sentence
- morphemes
- sentence data
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
d=(x1+x2+x3+・・・+xn)/n
=Σ(x)/n
d:係り受けの距離
x:係り受け間に出現した形態素数
n:同一の係り受け組に出現回数
次に、ステップS25において、入力データを形態素解析して形態素に分割し、ステップS26において、形態素に分割された各形態素の係り受けを解析する。
(1)事例データのリストから入力データの係り受け関係と同じ係り受けを有する事例データを検索する。
(2)入力データの係り受けの組の距離と各事例データ距離とを比べ、基準値に基づいて入力データを分類する。例えば、基準値として距離が10以下が顧客からのクレームであり、距離が11以上は顧客からのクレームではないとされている場合に、入力データの距離が5であれば、その入力データは顧客からのクレームであるという結果が出る。
v=t*x+m*y
t:テキストマイニングの結果
m:データマイニングの結果
x:テキストマイニングの重み
y:データマイニングの重み
なお、最終結果の出力は、ソートして出力することが望ましい。
予め分類された基準文章データを形態素解析して形態素に分割する手順と、
上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出する手順と、
入力された文章データを形態素解析して形態素に分割する手順と、
上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する手順と、
上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する手順とを実現させるための文章分類プログラム。
上記基準文章データと文章データとの類似度を算出する手順は、上記算出された基準値と上記文章データについて算出された距離及び個数とに基づいて、上記入力された文章データと上記文章データとの類似度を算出することを特徴とする付記1に記載の文章分類プログラム。
上記分類する手順は、上記算出された基準文章データと文章データとの類似度と、上記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、上記入力された文章データを分類することを特徴とする付記1または2に記載の文章分類プログラム。
上記基準値を算出する手順は、上記基準文章データについて算出した距離及び個数に基づいて、上記基準文章データの基準値を算出することを特徴とする付記1乃至3の何れか1項に記載の文章分類プログラム。
予め分類された基準文章データを形態素解析して形態素に分割し、
上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出しと、
上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出し、
入力された文章データを形態素解析して形態素に分割し、
上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出し、
上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出し、
上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類することを特徴とする文章分類方法。
予め分類された基準文章データを形態素解析して形態素に分割する第1の形態素解析手段と、
上記1の形態素解析手段により分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第1の係り受け解析手段と、
上記基準文章データにおける、上記第1の係り受け解析手段より抽出された形態素の組を構成する形態素間の距離を算出すると、
上記基準文章データについて上記第1の距離算出手段により算出した距離に基づいて、上記基準文章データの基準値を算出する基準値算出手段と、
入力された文章データを形態素解析して形態素に分割する第2の形態素解析手段と、
上記第2の形態素解析手段により分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第2の係り受け解析手段と、
上記文章データにおける、上記第2の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第2の距離算出手段と、
上記基準値算出手段により算出された基準値と上記文章データについて上記第2の距離算出手段により算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する類似度算出手段と、
上記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する文章分類手段と、
を備えることを特徴とする文章分類装置。
2 入力データの解析
3 結果マージ
4 テキストマイニング
5 データマイニング
6 正解セット
7 文章データ
8 基準値計算エンジン
9 基準値
10 数値データ
11 マート生成
12 マート
13 入力データ
14 判定エンジン
15 類似度
16 MBR
17 類似度
18 マージ
19 結果
100 文章分類装置
111 形態素解析部
112 係り受け解析部
113 距離算出部
114 基準値算出部
115 文章データベース
116 テキスト類似度算出部
117 文章分類部
118 データ類似度算出部
119 個数算出部
200 WWWブラウザ
2401 CPU
2402 メモリ
2403 入力装置
2404 出力装置
2405 外部記録装置
2406 媒体駆動装置
2407 ネットワーク接続装置
2408 バス
2409 可搬記録媒体
2501 情報処理装置
2502 情報提供者
2503、2504 プログラム(データ)
Claims (5)
- 予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割する手順と、
分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
それぞれの前記基準文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
それぞれの前記基準文章データについて算出して得られた複数の前記距離の算術平均を、前記基準文章データの基準値として算出する手順と、
入力された文章データを形態素解析して形態素に分割する手順と、
前記分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
前記文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
前記算出された基準値と前記文章データについて算出された距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出する手順と、
前記算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類する手順とをコンピュータに実行させるための文章分類プログラム。 - 前記文章データにおける、前記抽出された形態素の組の繰り返し数を算出する手順をさらに備え、
前記基準文章データと文章データとの類似度を算出する手順は、前記算出された基準値と前記文章データについて算出された距離及び繰り返し数とに基づいて、前記入力された文章データと前記基準文章データとの類似度を算出することを特徴とする請求項1に記載の文章分類プログラム。 - 前記予め分類された基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、前記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する手順をさらに備え、
前記分類する手順は、前記算出された基準文章データと文章データとの類似度と、前記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、前記入力された文章データを分類することを特徴とする請求項1または2に記載の文章分類プログラム。 - 文章を分類する文章分類装置において実行される文章分類方法であって、
予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割し、
分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
それぞれの前記基準文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出し、
それぞれの前記基準文章データについて算出して得られた複数の前記距離の算術平均を、前記基準文章データの基準値として算出し、
入力された文章データを形態素解析して形態素に分割し、
前記分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
前記文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出し、
前記算出された基準値と前記文章データについて算出された距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出し、
前記算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類することを特徴とする文章分類方法。 - 文章を分類する文章分類装置において、
予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割する第1の形態素解析手段と、
前記第1の形態素解析手段により分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第1の係り受け解析手段と、
それぞれの前記基準文章データにおける、前記第1の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第1の距離算出手段と、
それぞれの前記基準文章データについて前記第1の距離算出手段により算出して得られた複数の前記距離の算術平均を、前記基準文章データの基準値として算出する基準値算出手段と、
入力された文章データを形態素解析して形態素に分割する第2の形態素解析手段と、
前記第2の形態素解析手段により分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第2の係り受け解析手段と、
前記文章データにおける、前記第2の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第2の距離算出手段と、
前記基準値算出手段により算出された前記基準値と前記文章データについて前記第2の距離算出手段により算出された前記距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類する文章分類手段と、
を備えることを特徴とする文章分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003302715A JP4348145B2 (ja) | 2003-08-27 | 2003-08-27 | 文章分類プログラム、文章分類方法および文章分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003302715A JP4348145B2 (ja) | 2003-08-27 | 2003-08-27 | 文章分類プログラム、文章分類方法および文章分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005071229A JP2005071229A (ja) | 2005-03-17 |
JP4348145B2 true JP4348145B2 (ja) | 2009-10-21 |
Family
ID=34406923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003302715A Expired - Fee Related JP4348145B2 (ja) | 2003-08-27 | 2003-08-27 | 文章分類プログラム、文章分類方法および文章分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4348145B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5162151B2 (ja) * | 2007-03-29 | 2013-03-13 | 株式会社中電シーティーアイ | 入力情報分析装置 |
JP6206840B2 (ja) * | 2013-06-19 | 2017-10-04 | 国立研究開発法人情報通信研究機構 | テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3577972B2 (ja) * | 1998-10-19 | 2004-10-20 | 日本電信電話株式会社 | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002245067A (ja) * | 2001-02-14 | 2002-08-30 | Mitsubishi Electric Corp | 情報検索装置 |
-
2003
- 2003-08-27 JP JP2003302715A patent/JP4348145B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005071229A (ja) | 2005-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112184525B (zh) | 通过自然语义分析实现智能匹配推荐的系统及方法 | |
US8108204B2 (en) | Text categorization using external knowledge | |
KR102310487B1 (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Verma et al. | A novel approach for text summarization using optimal combination of sentence scoring methods | |
CN112000802A (zh) | 基于相似度集成的软件缺陷定位方法 | |
CN113434418A (zh) | 知识驱动的软件缺陷检测与分析方法及系统 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
Gräßler et al. | Efficient extraction of technical requirements applying data augmentation | |
Li et al. | automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective | |
EP4258107A1 (en) | Method and system for automated discovery of artificial intelligence and machine learning assets in an enterprise | |
Velmurugan et al. | Mining implicit and explicit rules for customer data using natural language processing and apriori algorithm | |
JP4348145B2 (ja) | 文章分類プログラム、文章分類方法および文章分類装置 | |
JP2005092443A (ja) | クラスター分析装置およびクラスター分析方法 | |
Qian et al. | Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects | |
CN114117047A (zh) | 一种基于c4.5算法对非法语音进行分类的方法及系统 | |
JP2001325104A (ja) | 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP2002215642A (ja) | フィードバック型インターネット検索方法及びその方法を実施するためのシステムとプログラム記録媒体 | |
Van den Bosch | Instance-family abstraction in memory-based language learning | |
Romero-Córdoba et al. | A comparative study of soft computing software for enhancing the capabilities of business document management systems | |
JP3910823B2 (ja) | アンケート分析装置、アンケート分析方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090331 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4348145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |