JP2020008992A - データ分類システム、データ分類方法、および、データ分類装置 - Google Patents
データ分類システム、データ分類方法、および、データ分類装置 Download PDFInfo
- Publication number
- JP2020008992A JP2020008992A JP2018127516A JP2018127516A JP2020008992A JP 2020008992 A JP2020008992 A JP 2020008992A JP 2018127516 A JP2018127516 A JP 2018127516A JP 2018127516 A JP2018127516 A JP 2018127516A JP 2020008992 A JP2020008992 A JP 2020008992A
- Authority
- JP
- Japan
- Prior art keywords
- label
- data
- classification
- classifier
- simultaneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
こうした検索システムを実現する場合、上述のような大量のデータを、予め定義済みのカテゴリ別に分類する構成が必要となる。一方、ひとつのデータが複数カテゴリに属する可能性もある。そのため、ひとつのデータに対してカテゴリを表すラベルを複数付与することでデータの分類を行う技術が存在する(多ラベル分類問題)。
在する。こうした概念に関連する従来技術として、例えば、学習データを使わずに、ドメイン知識を利用してユーザが分類器を作成するもので、ユーザが容易に作成できる単純な分類器を多数組み合わせて統合分類器を学習(アンサンブル学習)し、統合分類器による分類結果を真のラベルの代用とすることで、学習データの数を補う方法(非特許文献1参
照)が提案されている。
る場合、多様な特徴量とラベルとの組み合わせに応じた大量の分類器を、ユーザが手作業で作成しなければならない。
そこで本発明の目的は、統合分類器における分類器の作成を効率的なものとし、当該統合分類器の分類精度を向上可能とする技術を提供することにある。
する処理と、前記同時未分類率と前記同時分類確率との乗算値をラベルごとに集計して推薦スコアを算定する処理と、分類器を追加作成するべきラベルとして前記推薦スコアの高い順にラベルを特定し、当該ラベルの推薦情報を所定装置に出力する処理と、を実行することを特徴とする。
図1は本実施形態のデータ分類システム100を含むネットワーク構成図である。図1に示すデータ分類システム100は、統合分類器における分類器の作成を効率的なものとし、当該統合分類器の分類精度を向上させる情報処理システムである。
、上述の統合分類器303によるラベル無しデータ201の多ラベル分類を効率的なものとする効果を奏する。ラベル無しデータ201を分類する目的として、多ラベル分類器を作成するための学習データ203の作成がある。
施形態においては、分類器作成推薦サーバ103が分類器を追加作成するべきラベルの推薦情報を、当該データ分類者のユーザ端末101に通知する。
kを計算し、同時分類確率情報208に保存する。その後、推薦スコア計算部307は、全クラスタについて推薦スコアの和をとる形でΣkΣjuijkpijkとして計算する。
また、本実施形態のデータ分類システム100を主として構成する分類器作成推薦サーバ103のハードウェア構成を図2に示す。
続いて、本実施形態のデータ分類システム100を構成する、上述の分類器作成推薦サーバ103および学習データ生成サーバ102らが用いるデータ類について説明する。
上述の分類器管理情報202のレコードは、分類器受取部301を通じてユーザ端末101から分類者作成の値を取得、あるいは分類器作成部308によって自動生成されることによって蓄積されていく。
このうち文書ID207aは、当該文書を一意に識別するための数値あるいは文字列である。また、文書内容207bは、当該文書の内容を示す文字列である。
このち推薦スコア209bは、ラベル名209aに記載のラベルについて推薦スコア計算部307が計算した推薦スコアの値である。
このうちユーザID210aは、ユーザ情報文書210bを一意に識別するための数値、あるいは文字列である。
また、ユーザ情報文書210bは、ユーザの業務上の経験やスキルを表す文書であり、自然言語からなる不定形の文書あるいは整形済みの文字列データである。
このうちラベル211cは、ユーザ情報文書群210を入力として、統合分類器303で分類した結果として統合分類器303から出力されたラベルである。
以下、本実施形態におけるデータ分類方法の実際手順について図に基づいて説明する。以下で説明するデータ分類方法に対応する各種動作は、データ分類システム100を構成する学習データ生成サーバ102や分類器作成推薦サーバ103がそれぞれメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは以下に説明
される各種の動作をおこなうためのコードから構成されている。
図14は本実施形態における学習データ生成方法のフロー例1を示す図であり、具体的には、学習データ生成サーバ102の動作を示すフローチャートである。
このフローにおいて、学習データ生成サーバ102は、ユーザ端末101あるいは分類器作成推薦サーバ103からの分類器追加要求をうけて処理を開始する。
図15は本実施形態における分類器作成推薦方法のフロー例を示す図であり、具体的には、分類器追加推薦サーバ103の動作を示すフローチャートである。
なお、上述のS203およびS204の各処理は非同期に実行されるものとする。
なお、上述のS206およびS207は非同期に実行されるものとする。
こうした本実施形態によれば、統合分類器における分類器の作成を効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
いて所定ユーザが追加作成した分類器を入力装置より取得し、当該追加した分類器を前記複数の分類器に追加して分類器群を生成し、当該分類器群における各分類器の分類結果を統合した新たな学習データと、当該学習データにより学習した統合分類器とを再作成する処理を更に実行し、前記新たな学習データにおいて、ラベル無しのデータセット各々について、当該特徴量と、前記新たな学習データにより学習した統合分類器が出力した分類確率とに基づき、当該新たな学習データに含まれるラベルが未分類となるデータセットの割合として未分類率を計算し、前記未分類率が所定基準を下回るまで、前記推薦情報の出力と前記統合分類器および学習データの再作成と、前記未分類率の計算とを繰り返すものである、としてもよい。
101 ユーザ端末
102 学習データ生成サーバ(所定装置)
103 分類器作成推薦サーバ(データ分類装置)
104 ラベル無しデータ管理サーバ
105 文書群管理サーバ
201 ラベル無しデータ
202 分類器管理情報
203 分類結果
204 学習データ
205 未分類率情報
206 同時未分類率情報
207 文書群
208 同時分類確率情報
209 推薦スコア情報
210 ユーザ情報文書群
211 ユーザ情報分類結果
301 分類器受取部
302 分類器実行部
303 統合分類器
304 未分類率計算部
305 同時未分類率計算部
306 同時分類確率計算部
307 推薦スコア計算部
308 分類器生成部
309 推薦実行部
401 記憶装置
402 プログラム
403 演算装置
404 メモリ
405 通信装置
Claims (10)
- 複数の分類器各々による所定データセットの分類結果を統合し、当該データセットの特徴量と分類結果たるラベルとの対応関係を規定した学習データを格納する記憶装置と、
前記学習データを記憶装置から読み出し、当該学習データにおけるラベル無しのデータセット各々について、当該特徴量と、前記分類器各々による前記分類結果から学習した統合分類器が出力する分類確率とに基づき、1つのデータセットに対して複数ラベルが未分類とされる確率たる同時未分類率と、1つのデータセットに対して複数ラベルが分類される確率たる同時分類確率とを算定する処理、前記同時未分類率と前記同時分類確率との乗算値をラベルごとに集計して推薦スコアを算定する処理、および、分類器を追加作成するべきラベルとして前記推薦スコアの高い順にラベルを特定し、当該ラベルの推薦情報を所定装置に出力する処理、を実行する演算装置と、
を含むことを特徴とするデータ分類システム。 - 前記演算装置は、
前記同時未分類率の算定に際し、前記学習データに含まれるラベルの分類確率が所定の閾値内に収まる場合、当該データセットに対して前記ラベルが未分類であると判定し、前記学習データにおいて所定のラベルiとラベルjの両方が未分類となるデータの割合として前記同時未分類率uijを算定し、
前記同時分類確率の算定に際し、所定の文書群に含まれるラベルiおよびラベルjの各ラベル名に対応する単語の共起確率として前記同時分類確率pijを算定し、
前記推薦スコアの算定に際し、ラベルiに関する前記推薦スコアをΣjuijpijとして算定するものである、
ことを特徴とする請求項1に記載のデータ分類システム。 - 前記演算装置は、
前記推薦情報に基づいて所定ユーザが追加作成した分類器を入力装置より取得し、当該追加した分類器を前記複数の分類器に追加して分類器群を生成し、当該分類器群における各分類器の分類結果を統合した新たな学習データと、当該学習データにより学習した統合分類器とを再作成する処理を更に実行し、
前記新たな学習データにおいて、ラベル無しのデータセット各々について、当該特徴量と、前記新たな学習データにより学習した統合分類器が出力した分類確率とに基づき、当該新たな学習データに含まれるラベルが未分類となるデータセットの割合として未分類率を計算し、前記未分類率が所定基準を下回るまで、前記推薦情報の出力と前記統合分類器および学習データの再作成と、前記未分類率の計算とを繰り返すものである、
ことを特徴とする請求項1に記載のデータ分類システム。 - 前記演算装置は、
前記分類器の追加に伴う前記新たな学習データおよび前記統合分類器の再作成の前後で、前記未分類率の値が同一あるいは増加した場合、前記推薦情報の対象としたラベルの推薦スコアに対し、ラベル間の推薦スコアの順位を低下させる所定係数を乗算する処理を更に実行するものである、
ことを特徴とする請求項3に記載のデータ分類システム。 - 前記演算装置は、
前記推薦情報の対象として特定した所定のラベルiについて、前記同時分類確率を参照し、当該ラベルiとの同時分類確率が所定基準以上のラベルjを特定し、前記ラベルiが付与される場合に前記同時分類確率の確率で前記ラベルjに分類する分類器を自動生成して、前記自動生成した分類器を、前記複数の分類器に追加する処理を更に実行するものである、
ことを特徴とする請求項1に記載のデータ分類システム。 - 前記演算装置は、
前記同時分類確率の算定に際し、前記文書群に加え、前記学習データの特徴量に含まれる文と前記学習データに付与された複数のラベルとから前記同時分類確率を計算するものである、
ことを特徴とする請求項2に記載のデータ分類システム。 - 前記記憶装置は、
前記分類器の追加作成の主体となりうるユーザ各々に関して、所定事象に関与している旨を示す記述、および連絡先の各情報を記述したユーザ情報文書群を更に格納しており、
前記演算装置は、
前記特定したラベルのラベル名に対応する単語を、前記ユーザ情報文書群に照合し、当該単語を前記記述に含むユーザを特定し、当該ユーザの前記連絡先に宛てて前記推薦情報の出力を行うものである、
ことを特徴とする請求項1に記載のデータ分類システム。 - 前記演算装置は、
前記学習データに含まれるデータセットの特徴量および前記文書群の特徴量をクラスタリングし、
前記同時未分類率の算定に際し、前記データセットのうち、所定のクラスタkに属するものについて、所定のラベルiおよびラベルjの両方が未分類となる割合として同時未分類率uijkを計算し、
前記同時分類確率の算定に際し、前記文書群のうち、所定のクラスタkに属する文書群に含まれる、ラベルiおよびラベルjの各ラベル名に対応する単語の共起確率として同時分類確率pijkを計算し、
前記推薦スコアの算定に際し、ラベルiに関する前記推薦スコアをΣkΣjuijkpijkとして計算するものである、
ことを特徴とする請求項2に記載のデータ分類システム。 - 複数の分類器各々による所定データセットの分類結果を統合し、当該データセットの特徴量と分類結果たるラベルとの対応関係を規定した学習データを格納する記憶装置を備えた情報処理システムが、
前記学習データを記憶装置から読み出し、当該学習データにおけるラベル無しのデータセット各々について、当該特徴量と、前記分類器各々による前記分類結果から学習した統合分類器が出力する分類確率とに基づき、1つのデータセットに対して複数ラベルが未分類とされる確率たる同時未分類率と、1つのデータセットに対して複数ラベルが分類される確率たる同時分類確率とを算定する処理と、
前記同時未分類率と前記同時分類確率との乗算値をラベルごとに集計して推薦スコアを算定する処理と、
分類器を追加作成するべきラベルとして前記推薦スコアの高い順にラベルを特定し、当該ラベルの推薦情報を所定装置に出力する処理と、
を実行することを特徴とするデータ分類方法。 - 所定ネットワークを介した他装置との通信処理を行う通信装置と、
所定装置に対して前記通信装置によりアクセスし、前記所定装置が備える、複数の分類器各々による所定データセットの分類結果を統合し、当該データセットの特徴量と分類結果たるラベルとの対応関係を規定した学習データ、を取得する処理、当該学習データにおけるラベル無しのデータセット各々について、当該特徴量と、前記分類器各々による前記分類結果から学習した統合分類器が出力する分類確率とに基づき、1つのデータセットに
対して複数ラベルが未分類とされる確率たる同時未分類率と、1つのデータセットに対して複数ラベルが分類される確率たる同時分類確率とを算定する処理、前記同時未分類率と前記同時分類確率との乗算値をラベルごとに集計して推薦スコアを算定する処理、および、分類器を追加作成するべきラベルとして前記推薦スコアの高い順にラベルを特定し、当該ラベルの推薦情報を所定装置に出力する処理、を実行する演算装置と、
を備えることを特徴とするデータ分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018127516A JP6976910B2 (ja) | 2018-07-04 | 2018-07-04 | データ分類システム、データ分類方法、および、データ分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018127516A JP6976910B2 (ja) | 2018-07-04 | 2018-07-04 | データ分類システム、データ分類方法、および、データ分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020008992A true JP2020008992A (ja) | 2020-01-16 |
JP6976910B2 JP6976910B2 (ja) | 2021-12-08 |
Family
ID=69151577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018127516A Active JP6976910B2 (ja) | 2018-07-04 | 2018-07-04 | データ分類システム、データ分類方法、および、データ分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6976910B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341443A (zh) * | 2020-03-09 | 2020-06-26 | 西安中科长青医疗科技研究院有限公司 | 一种基于深度学习的超声甲状腺结节智能评估方法 |
CN111488520A (zh) * | 2020-03-19 | 2020-08-04 | 武汉工程大学 | 一种农作物种植种类推荐信息处理装置、方法及存储介质 |
CN112445828A (zh) * | 2020-11-30 | 2021-03-05 | 网络通信与安全紫金山实验室 | 工业互联网标识解析递归查询路由方法、装置及计算机可读存储介质 |
CN113255710A (zh) * | 2020-02-12 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 手机号码分类方法、装置、设备及存储介质 |
CN114139031A (zh) * | 2021-10-28 | 2022-03-04 | 马上消费金融股份有限公司 | 数据分类方法、装置、电子设备及存储介质 |
WO2023171095A1 (ja) * | 2022-03-09 | 2023-09-14 | 株式会社神戸製鋼所 | 溶接における欠陥予測システム、機械学習装置、欠陥予測方法、およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015191334A (ja) * | 2014-03-27 | 2015-11-02 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
JP2015204043A (ja) * | 2014-04-15 | 2015-11-16 | Kddi株式会社 | 多クラス識別器構築装置、方法及びプログラム |
-
2018
- 2018-07-04 JP JP2018127516A patent/JP6976910B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015191334A (ja) * | 2014-03-27 | 2015-11-02 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
JP2015204043A (ja) * | 2014-04-15 | 2015-11-16 | Kddi株式会社 | 多クラス識別器構築装置、方法及びプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255710A (zh) * | 2020-02-12 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 手机号码分类方法、装置、设备及存储介质 |
CN113255710B (zh) * | 2020-02-12 | 2024-05-28 | 北京沃东天骏信息技术有限公司 | 手机号码分类方法、装置、设备及存储介质 |
CN111341443A (zh) * | 2020-03-09 | 2020-06-26 | 西安中科长青医疗科技研究院有限公司 | 一种基于深度学习的超声甲状腺结节智能评估方法 |
CN111488520A (zh) * | 2020-03-19 | 2020-08-04 | 武汉工程大学 | 一种农作物种植种类推荐信息处理装置、方法及存储介质 |
CN111488520B (zh) * | 2020-03-19 | 2023-09-26 | 武汉工程大学 | 一种农作物种植种类推荐信息处理装置、方法及存储介质 |
CN112445828A (zh) * | 2020-11-30 | 2021-03-05 | 网络通信与安全紫金山实验室 | 工业互联网标识解析递归查询路由方法、装置及计算机可读存储介质 |
CN114139031A (zh) * | 2021-10-28 | 2022-03-04 | 马上消费金融股份有限公司 | 数据分类方法、装置、电子设备及存储介质 |
CN114139031B (zh) * | 2021-10-28 | 2024-03-19 | 马上消费金融股份有限公司 | 数据分类方法、装置、电子设备及存储介质 |
WO2023171095A1 (ja) * | 2022-03-09 | 2023-09-14 | 株式会社神戸製鋼所 | 溶接における欠陥予測システム、機械学習装置、欠陥予測方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6976910B2 (ja) | 2021-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6976910B2 (ja) | データ分類システム、データ分類方法、および、データ分類装置 | |
Wang et al. | A review of microsoft academic services for science of science studies | |
Mozetič et al. | Multilingual Twitter sentiment classification: The role of human annotators | |
US10127522B2 (en) | Automatic profiling of social media users | |
CN110555469B (zh) | 处理交互序列数据的方法及装置 | |
US10602207B2 (en) | Neural network based content distribution in an online system | |
US20160162476A1 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
CN110866799B (zh) | 使用人工智能监视在线零售平台的系统和方法 | |
Mozetič et al. | How to evaluate sentiment classifiers for Twitter time-ordered data? | |
US11573995B2 (en) | Analyzing the tone of textual data | |
US11373117B1 (en) | Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors | |
US11567948B2 (en) | Autonomous suggestion of related issues in an issue tracking system | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
US11720857B2 (en) | Autonomous suggestion of issue request content in an issue tracking system | |
US11481734B2 (en) | Machine learning model for predicting litigation risk on construction and engineering projects | |
US11689507B2 (en) | Privacy preserving document analysis | |
Ardimento et al. | Knowledge extraction from on-line open source bug tracking systems to predict bug-fixing time | |
WO2023129339A1 (en) | Extracting and classifying entities from digital content items | |
US10867255B2 (en) | Efficient annotation of large sample group | |
Seeliger et al. | Learning of process representations using recurrent neural networks | |
CN108460049B (zh) | 一种确定信息类别的方法和系统 | |
US20210312361A1 (en) | Cognitive analysis to generate and evaluate implementation plans | |
US20230162518A1 (en) | Systems for Generating Indications of Relationships between Electronic Documents | |
US20210279658A1 (en) | Systems and methods for multi-channel customer communications content recommender | |
Roelands et al. | Classifying businesses by economic activity using web-based text mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6976910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |