JP7044162B2 - 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 - Google Patents
分類規則生成プログラム、分類規則生成方法および分類規則生成装置 Download PDFInfo
- Publication number
- JP7044162B2 JP7044162B2 JP2020540004A JP2020540004A JP7044162B2 JP 7044162 B2 JP7044162 B2 JP 7044162B2 JP 2020540004 A JP2020540004 A JP 2020540004A JP 2020540004 A JP2020540004 A JP 2020540004A JP 7044162 B2 JP7044162 B2 JP 7044162B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- text data
- character strings
- character string
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000012545 processing Methods 0.000 claims description 62
- 238000012937 correction Methods 0.000 claims description 31
- 238000009826 distribution Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 18
- 230000000877 morphologic effect Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、実施例1にかかる分類装置10の全体構成例を説明する図である。図1に示す分類装置10は、ログ情報などのテキストデータを分割して特徴語を抽出し、特徴語と予め用意されたカテゴリとを対応付ける業務分類モデルを生成し、生成した業務分類モデルにしたがって、ログ情報をカテゴリに分類する分類規則生成装置の一例である。
図2は、実施例1にかかる分類装置10の機能構成を示す機能ブロック図である。図2に示すように、分類装置10は、通信部11、記憶部12、制御部20を有する。
次に、上述した各処理の流れについて説明する。ここでは、出現頻度処理の流れと規則生成処理の流れとについて説明する。なお、各処理や各処理内のステップは、矛盾のない範囲内で処理順番等を入れ替えることができる。
図12は、出現頻度処理の流れを示すフローチャートである。図12に示すように、出現頻度処理部40は、業務ログをすべて取得し(S101)、全業務ログについて単語の分割処理が実行されたか否かを判定する(S102)。
図13は、規則生成処理の流れを示すフローチャートである。図13に示すように、規則処理部50は、業務ログをすべて取得し(S201)、全業務ログについて文字列の抽出処理が実行されたか否かを判定する(S202)。
上述したように、分類装置10は、各文字列の出現頻度を、その文字列を含む業務ログの分類先の分布をもとに補正し、その出現頻度情報を利用してテキスト分割を行うことにより、後段の業務内容分類に適した単位の文字列を特徴語として取得することができ、その特徴語を使った規則を使うことによって分類精度が向上する。すなわち、分類装置10は、テキストデータの分割の段階で後段の分類を考慮し、各文字列による分類先の分布(ばらつき)を利用して特徴語を抽出することにより、分類精度の高い分類規則を生成することができる。
例えば、上記実施例における単語、文字列、分割文字列などの「出現頻度」は、「業務発生時間の総和(総業務時間)」と置き換えることもできる。
上記実施例では、分類装置10が分類規則の学習と学習後の分類とを実行する例を説明したが、これに限定されるものではなく、学習と学習後の分類とを別々の装置で実行することもできる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更することができる。
図14は、ハードウェア構成例を説明する図である。図14に示すように、分類装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図14に示した各部は、バス等で相互に接続される。
11 通信部
12 記憶部
13 業務ログDB
14 業務分類DB
15 文字列DB
16 分類規則DB
20 制御部
30 学習部
40 出現頻度処理部
41 形態素解析部
42 頻度算出部
43 頻度補正部
50 規則処理部
51 テキスト分割部
52 規則生成部
60 分類部
Claims (4)
- コンピュータに、
テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出し、
前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出し、
前記複数の連結文字列それぞれについて、当該連結文字列が前記複数のテキストデータ内に出現する出現頻度を算出するとともに、算出された前記出現頻度および前記分類先の分布に基づいてエントロピーを算出し、
前記複数の連結文字列それぞれについて算出された前記分類先の分布、および、前記エントロピーに基づいて、前記複数の連結文字列それぞれの前記出現頻度を補正し、
前記複数の連結文字列それぞれの補正後の出現頻度に基づき、前記テキストデータを分割する位置を特定し、
特定された位置に基づき、前記複数の連結文字列のいずれかが含まれるように前記テキストデータを分割して、複数の分割文字列を抽出し、
前記複数の分割文字列のうち、前記出現頻度が閾値以上かつ前記エントロピーが閾値以下の分割文字列を特徴語として選択し、
前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する
処理を実行させることを特徴とする分類規則生成プログラム。 - 業務ログが発生した場合に、前記業務ログに含まれる前記特徴語を特定し、
前記分類規則を参照し、特定した前記特徴語と対応付けられる前記分類カテゴリを特定し、
特定した前記分類カテゴリに前記業務ログを分類する、処理を前記コンピュータに実行させることを特徴とする請求項1に記載の分類規則生成プログラム。 - コンピュータが、
テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出し、
前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出し、
前記複数の連結文字列それぞれについて、当該連結文字列が前記複数のテキストデータ内に出現する出現頻度を算出するとともに、算出された前記出現頻度および前記分類先の分布に基づいてエントロピーを算出し、
前記複数の連結文字列それぞれについて算出された前記分類先の分布、および、前記エントロピーに基づいて、前記複数の連結文字列それぞれの前記出現頻度を補正し、
前記複数の連結文字列それぞれの補正後の出現頻度に基づき、前記テキストデータを分割する位置を特定し、
特定された位置に基づき、前記複数の連結文字列のいずれかが含まれるように前記テキストデータを分割して、複数の分割文字列を抽出し、
前記複数の分割文字列のうち、前記出現頻度が閾値以上かつ前記エントロピーが閾値以下の分割文字列を特徴語として選択し、
前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する
処理を実行することを特徴とする分類規則生成方法。 - テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出する第1抽出部と、
前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出する第1算出部と、
前記複数の連結文字列それぞれについて、当該連結文字列が前記複数のテキストデータ内に出現する出現頻度を算出するとともに、算出された前記出現頻度および前記分類先の分布に基づいてエントロピーを算出する第2算出部と、
前記複数の連結文字列それぞれについて算出された前記分類先の分布、および、前記エントロピーに基づいて、前記複数の連結文字列それぞれの前記出現頻度を補正する補正部と、
前記複数の連結文字列それぞれの補正後の出現頻度に基づき、前記テキストデータを分割する位置を特定する特定部と、
特定された位置に基づき、前記複数の連結文字列のいずれかが含まれるように前記テキストデータを分割して、複数の分割文字列を抽出する第2抽出部と、
前記複数の分割文字列のうち、前記出現頻度が閾値以上かつ前記エントロピーが閾値以下の分割文字列を特徴語として選択する選択部と、
前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する生成部と
を有することを特徴とする分類規則生成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/032449 WO2020044558A1 (ja) | 2018-08-31 | 2018-08-31 | 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020044558A1 JPWO2020044558A1 (ja) | 2021-04-30 |
JP7044162B2 true JP7044162B2 (ja) | 2022-03-30 |
Family
ID=69642878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020540004A Active JP7044162B2 (ja) | 2018-08-31 | 2018-08-31 | 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7044162B2 (ja) |
WO (1) | WO2020044558A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7472652B2 (ja) | 2020-05-21 | 2024-04-23 | 富士通株式会社 | 分類プログラム、分類方法、及び分類装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085170A (ja) | 2001-09-11 | 2003-03-20 | Nippon Hoso Kyokai <Nhk> | 定型文クラスタリング装置および方法 |
WO2011071174A1 (ja) | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム |
JP2011123706A (ja) | 2009-12-11 | 2011-06-23 | Advanced Media Inc | 文章分類装置および文章分類方法 |
WO2014208298A1 (ja) | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 文章分類装置、文章分類方法、及び記録媒体 |
-
2018
- 2018-08-31 JP JP2020540004A patent/JP7044162B2/ja active Active
- 2018-08-31 WO PCT/JP2018/032449 patent/WO2020044558A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085170A (ja) | 2001-09-11 | 2003-03-20 | Nippon Hoso Kyokai <Nhk> | 定型文クラスタリング装置および方法 |
WO2011071174A1 (ja) | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム |
JP2011123706A (ja) | 2009-12-11 | 2011-06-23 | Advanced Media Inc | 文章分類装置および文章分類方法 |
WO2014208298A1 (ja) | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 文章分類装置、文章分類方法、及び記録媒体 |
Non-Patent Citations (1)
Title |
---|
石田 栄美,テキスト自動分類の概要,情報の科学と技術,日本,社団法人情報科学技術協会,2006年10月01日,第56巻,第10号,p.469-474 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020044558A1 (ja) | 2021-04-30 |
WO2020044558A1 (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
US10318617B2 (en) | Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines | |
JP4922692B2 (ja) | 検索クエリー作成装置 | |
US8832126B2 (en) | Custodian suggestion for efficient legal e-discovery | |
US9584589B2 (en) | Friend recommendation method, apparatus and storage medium | |
KR20110026218A (ko) | 문자 메시지 입력 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체 | |
CN102945246B (zh) | 网络信息数据的处理方法及装置 | |
US8433666B2 (en) | Link information extracting apparatus, link information extracting method, and recording medium | |
JP7044162B2 (ja) | 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
JPH1145284A (ja) | プロファイルの作成方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP6641777B2 (ja) | 情報処理装置及びプログラム | |
CN112567364B (zh) | 知识信息创建支援装置 | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
JPWO2020111074A1 (ja) | メール分類装置、メール分類方法、およびコンピュータプログラム | |
CN111125319A (zh) | 一种企业基础法律智能咨询终端、系统及方法 | |
CN111737397A (zh) | 信息处理装置、文档管理系统、记录媒体及信息处理方法 | |
US20050234975A1 (en) | Related content linking managing system, method and recording medium | |
JP2011154469A (ja) | パターン抽出装置、パターン抽出方法及びプログラム | |
JP2001022727A (ja) | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 | |
CN113901793A (zh) | 结合rpa和ai的事件抽取方法及装置 | |
JP7031232B2 (ja) | 検索システム、検索方法および検索プログラム | |
WO2020017037A1 (ja) | ログ分析装置、ログ分析方法、プログラム | |
JP2012022443A (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
JP2020013395A (ja) | 公開装置、公開方法および公開プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7044162 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |