JP2020004156A - 分類方法、装置、及びプログラム - Google Patents
分類方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP2020004156A JP2020004156A JP2018123996A JP2018123996A JP2020004156A JP 2020004156 A JP2020004156 A JP 2020004156A JP 2018123996 A JP2018123996 A JP 2018123996A JP 2018123996 A JP2018123996 A JP 2018123996A JP 2020004156 A JP2020004156 A JP 2020004156A
- Authority
- JP
- Japan
- Prior art keywords
- texts
- text
- clusters
- classification
- break
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Abstract
Description
=文書中の単語wの出現数/文書中の全ての単語の出現数
単語wのIDF値
=log(文書の総数/単語wを含む文書の数)
複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とする分類方法。
前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする付記1に記載の分類方法。
前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記2に記載の分類方法。
決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記3に記載の分類方法。
前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記2〜付記4のいずれか1項に記載の分類方法。
前記特定の条件を満たす区切れ箇所を読点とする付記1〜付記5のいずれか1項に記載の分類方法。
前記テキストを区切れ箇所で区切った前半部分及び後半部分のいずれか一方の、前記複数のテキストにおける出現状況が予め定めた条件を満たす場合に、前記区切れ箇所を前記特定の条件を満たす区切れ箇所とする付記1〜付記5のいずれか1項に記載の分類方法。
複数のテキストを受け付ける受付部と、
前記受付部により受け付けられた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成する生成部と、
前記受付部により受け付けられた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、前記生成部により生成された前記新たな複数のテキストと、を複数のクラスタに分類する分類部と、
を含むことを特徴とする分類装置。
前記分類部は、前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
前記分類部により生成された前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する表示制御部を更に含む
ことを特徴とする付記8に記載の分類装置。
前記分類部は、前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
前記表示制御部は、前記分類部により決定された前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記9に記載の分類装置。
前記表示制御部は、前記分類部により決定された前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記10に記載の分類装置。
前記表示制御部は、前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記9〜付記11のいずれか1項に記載の分類装置。
前記生成部は、前記特定の条件を満たす区切れ箇所を読点とする付記8〜付記12のいずれか1項に記載の分類装置。
前記生成部は、前記テキストを区切れ箇所で区切った前半部分及び後半部分のいずれか一方の、前記複数のテキストにおける出現状況が予め定めた条件を満たす場合に、前記区切れ箇所を前記特定の条件を満たす区切れ箇所とする付記8〜付記12のいずれか1項に記載の分類装置。
複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラム。
前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする付記15に記載の分類プログラム。
前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記16に記載の分類プログラム。
決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記17に記載の分類プログラム。
前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記16〜付記18のいずれか1項に記載の分類プログラム。
複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラムを記憶した記憶媒体。
12 受付解析部
14 分割部
16 分類部
18 表示制御部
24 単語モデル
24A IDF値テーブル
24B 単語ベクトルテーブル
30 分類結果画面
40 コンピュータ
41 CPU
42 メモリ
43 記憶部
49 記憶媒体
50 分類プログラム
Claims (9)
- 複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とする分類方法。 - 前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする請求項1に記載の分類方法。 - 前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする請求項2に記載の分類方法。 - 決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする請求項3に記載の分類方法。 - 前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする請求項2〜請求項4のいずれか1項に記載の分類方法。 - 前記特定の条件を満たす区切れ箇所を読点とする請求項1〜請求項5のいずれか1項に記載の分類方法。
- 前記テキストを区切れ箇所で区切った前半部分及び後半部分のいずれか一方の、前記複数のテキストにおける出現状況が予め定めた条件を満たす場合に、前記区切れ箇所を前記特定の条件を満たす区切れ箇所とする請求項1〜請求項5のいずれか1項に記載の分類方法。
- 複数のテキストを受け付ける受付部と、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成する生成部と、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する分類部と、
を含むことを特徴とする分類装置。 - 複数のテキストを受け付け、
受け付けた前記複数のテキストのうち、いずれかのテキストが特定の条件を満たす区切れ箇所を含むことを検出すると、前記いずれかのテキストを前記区切れ箇所で分割して、新たな複数のテキストを生成し、
受け付けた前記複数のテキストのうち、前記特定の条件を満たす区切れ箇所を含まないテキストと、生成した前記新たな複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018123996A JP7139728B2 (ja) | 2018-06-29 | 2018-06-29 | 分類方法、装置、及びプログラム |
US16/429,123 US11144723B2 (en) | 2018-06-29 | 2019-06-03 | Method, device, and program for text classification |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018123996A JP7139728B2 (ja) | 2018-06-29 | 2018-06-29 | 分類方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020004156A true JP2020004156A (ja) | 2020-01-09 |
JP7139728B2 JP7139728B2 (ja) | 2022-09-21 |
Family
ID=69054679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018123996A Active JP7139728B2 (ja) | 2018-06-29 | 2018-06-29 | 分類方法、装置、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11144723B2 (ja) |
JP (1) | JP7139728B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024013991A1 (ja) * | 2022-07-15 | 2024-01-18 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108885617B (zh) * | 2016-03-23 | 2022-05-31 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
JP2021096711A (ja) * | 2019-12-18 | 2021-06-24 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
CN113220840B (zh) * | 2021-05-17 | 2023-08-01 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN114120060A (zh) * | 2021-11-25 | 2022-03-01 | 海信集团控股股份有限公司 | 图书分级方法及设备 |
US11811626B1 (en) * | 2022-06-06 | 2023-11-07 | International Business Machines Corporation | Ticket knowledge graph enhancement |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240536A (ja) * | 1997-02-27 | 1998-09-11 | Mitsubishi Electric Corp | 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法 |
JP2001229177A (ja) * | 2000-02-16 | 2001-08-24 | Mitsubishi Electric Corp | 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体 |
JP2007241901A (ja) * | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | 意思決定支援システム及び意思決定支援方法 |
JP2007304642A (ja) * | 2006-05-08 | 2007-11-22 | Nippon Hoso Kyokai <Nhk> | 文書データ分類装置及び文書データ分類プログラム |
JP2008234670A (ja) * | 1998-12-24 | 2008-10-02 | Ricoh Co Ltd | 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2008146456A1 (ja) * | 2007-05-28 | 2008-12-04 | Panasonic Corporation | 情報探索支援方法および情報探索支援装置 |
JP2011248491A (ja) * | 2010-05-25 | 2011-12-08 | Nec Corp | 情報分類装置、情報分類方法および情報分類プログラム |
JP2012073804A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
US20120246100A1 (en) * | 2009-09-25 | 2012-09-27 | Shady Shehata | Methods and systems for extracting keyphrases from natural text for search engine indexing |
JP2015135637A (ja) * | 2014-01-17 | 2015-07-27 | Kddi株式会社 | ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6553419B1 (en) * | 2000-02-02 | 2003-04-22 | International Business Machines Corporation | System and method for computer system performance data pause and resume consuming minimum display area |
JP3654850B2 (ja) | 2000-05-17 | 2005-06-02 | 松下電器産業株式会社 | 情報検索システム |
EP1156430A2 (en) | 2000-05-17 | 2001-11-21 | Matsushita Electric Industrial Co., Ltd. | Information retrieval system |
GB0113581D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech synthesis apparatus |
JP2005251115A (ja) * | 2004-03-08 | 2005-09-15 | Shogakukan Inc | 連想検索システムおよび連想検索方法 |
JP4913154B2 (ja) * | 2006-11-22 | 2012-04-11 | 春男 林 | 文書解析装置および方法 |
JP5574842B2 (ja) | 2010-06-21 | 2014-08-20 | 株式会社野村総合研究所 | Faq候補抽出システムおよびfaq候補抽出プログラム |
JP5466119B2 (ja) | 2010-09-21 | 2014-04-09 | Kddi株式会社 | 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法 |
US10296616B2 (en) * | 2014-07-31 | 2019-05-21 | Splunk Inc. | Generation of a search query to approximate replication of a cluster of events |
-
2018
- 2018-06-29 JP JP2018123996A patent/JP7139728B2/ja active Active
-
2019
- 2019-06-03 US US16/429,123 patent/US11144723B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240536A (ja) * | 1997-02-27 | 1998-09-11 | Mitsubishi Electric Corp | 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法 |
JP2008234670A (ja) * | 1998-12-24 | 2008-10-02 | Ricoh Co Ltd | 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001229177A (ja) * | 2000-02-16 | 2001-08-24 | Mitsubishi Electric Corp | 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体 |
JP2007241901A (ja) * | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | 意思決定支援システム及び意思決定支援方法 |
JP2007304642A (ja) * | 2006-05-08 | 2007-11-22 | Nippon Hoso Kyokai <Nhk> | 文書データ分類装置及び文書データ分類プログラム |
WO2008146456A1 (ja) * | 2007-05-28 | 2008-12-04 | Panasonic Corporation | 情報探索支援方法および情報探索支援装置 |
US20120246100A1 (en) * | 2009-09-25 | 2012-09-27 | Shady Shehata | Methods and systems for extracting keyphrases from natural text for search engine indexing |
JP2011248491A (ja) * | 2010-05-25 | 2011-12-08 | Nec Corp | 情報分類装置、情報分類方法および情報分類プログラム |
JP2012073804A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
JP2015135637A (ja) * | 2014-01-17 | 2015-07-27 | Kddi株式会社 | ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法 |
Non-Patent Citations (1)
Title |
---|
胡 寅駿: ""テキストマイニングによる自由記述文の自動解析"", 電子情報通信学会技術研究報告, vol. 114, no. 81, JPN6022004110, 15 July 2014 (2014-07-15), JP, pages 75 - 79, ISSN: 0004700872 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024013991A1 (ja) * | 2022-07-15 | 2024-01-18 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200004817A1 (en) | 2020-01-02 |
JP7139728B2 (ja) | 2022-09-21 |
US11144723B2 (en) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7139728B2 (ja) | 分類方法、装置、及びプログラム | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
US20160098433A1 (en) | Method for facet searching and search suggestions | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Eskander et al. | Foreign words and the automatic processing of Arabic social media text written in Roman script | |
US20160189057A1 (en) | Computer implemented system and method for categorizing data | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
JP2019121139A (ja) | 要約装置、要約方法、及び要約プログラム | |
JP2005122510A (ja) | 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP7131130B2 (ja) | 分類方法、装置、及びプログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
KR102357023B1 (ko) | 대화 분절 문장의 복원을 위한 장치 및 방법 | |
JP2005115628A (ja) | 定型表現を用いた文書分類装置・方法・プログラム | |
JP3471253B2 (ja) | 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体 | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
CN117648917B (zh) | 一种版式文件对比方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7139728 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |