JP7087851B2 - 情報処理装置、データ分類方法およびプログラム - Google Patents
情報処理装置、データ分類方法およびプログラム Download PDFInfo
- Publication number
- JP7087851B2 JP7087851B2 JP2018166803A JP2018166803A JP7087851B2 JP 7087851 B2 JP7087851 B2 JP 7087851B2 JP 2018166803 A JP2018166803 A JP 2018166803A JP 2018166803 A JP2018166803 A JP 2018166803A JP 7087851 B2 JP7087851 B2 JP 7087851B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- cluster
- sample data
- positive
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1は、実施形態に係るデータベースサーバが適用されるシステムの一例を示す図である。図1に示す会議システム1は、本実施形態に係るデータベースサーバ30による機械学習によって生成された学習モデルを、通信端末70を利用した会議に利用する場合の例である。会議システム1は、例えば、通信端末70によって集音された音声データに対して、データベースサーバ30によって生成された学習モデルを用いた自然言語処理を行うことができるシステムである。
続いて、実施形態に係る各装置のハードウエア構成について説明する。図1に示した会議システム1を構成する各装置は、一般的なコンピュータの構成を有する。ここでは、一般的なコンピュータのハードウエア構成例について説明する。
続いて、実施形態に係るデータベースサーバ30の機能構成について説明する。図3は、実施形態に係るデータベースサーバの機能構成の一例を示す図である。データベースサーバ30によって実現される機能は、送受信部31、サンプルデータ取得部32、対象カテゴリ情報生成部33、特徴量抽出部34、データ数値化部35、第1の学習部36、クラスタ属性特定部37、制約設定部38、第2の学習部39、未知データ分類部41、記憶・読出部42および記憶部3000を含む。
ここで、記憶部3000に記憶されているデータの詳細について説明する。図4は、実施形態に係るカテゴリ管理テーブルの一例を示す図である。図4に示すカテゴリ管理テーブル300は、自然言語処理による分類対象となるカテゴリごとに、当該カテゴリを特定するための設定情報を管理するテーブルである。
続いて、記憶部3000に記憶されるテキストデータ200の内容について説明する。図5は、実施形態に係るテキストデータの一例を示す図である。図5に示すテキストデータ200は、テキスト情報が含まれるデータであり、本実施形態に係るデータ分類方法において分類対象となるデータである。テキストデータ200は、例えば、WEBサーバ50から提供されるWEBサービスを介して、WEBページを構成するHTML(HyperText Markup Language)形式で取得される。
続いて、図6を用いて、特徴量抽出部34の詳細な機能構成について説明する。図6は、実施形態に係る特徴量抽出部の機能構成の一例を示す図である。図6に示す特徴量抽出部34は、対象カテゴリ情報抽出部341、形態素解析部342および特徴量決定部343を含む。
続いて、図7を用いて、制約設定部38の詳細な機能構成について説明する。図7は、実施形態に係る制約設定部の機能構成の一例を示す図である。図7に示す制約設定部38は、不正解ベクトル生成部381およびデータリンク生成部382を含む。
続いて、データベースサーバ30に記憶されたテキストデータ200に対するデータ分類処理について説明する。図8は、実施形態に係るデータベースサーバにおけるデータ分類処理の一例を示すフローチャートである。以下において、テキストデータ200における会話要素の有無の分類するための処理について説明する。
以上説明したように、本発明の一実施形態に係るデータベースサーバは、特定のカテゴリに対して、自然言語処理に用いるテキストデータ200の分類を行うデータベースサーバ30(情報処理装置の一例)であって、テキストデータ200のうち、特定のカテゴリの正例または負例のいずれの属性であるかを示す属性情報(正負ラベルの一例)がラベリングされたサンプルデータ210の特徴量を抽出し、抽出した特徴量を用いた教師なし学習に基づいて第1の学習モデルを生成し、サンプルデータ210にラベリングされた属性情報に基づいて、第1の学習モデルに含まれるクラスタが特定のカテゴリの正例または負例のいずれの属性を有する集合であるかを特定する。また、データベースサーバ30は、生成した第1の学習モデルに含まれるクラスタの属性、および当該クラスタに属するサンプルデータ210にラベリングされた属性情報に基づいて、テキストデータ200の分類を行うための制約を設定し、設定した制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する。そして、データベースサーバ30は、生成した第2の学習モデルに含まれるクラスタに対して、属性情報がラベリングされていないテキストデータ200(未知データの一例)を分類する。これによって、データベースサーバ30は、第1の学習モデルに基づく制約を用いた半教師あり学習を行うことによって、属性情報がラベリングされていない未知データの分類精度を向上させることができる。
なお、各実施形態の機能は、アセンブラ、C、C++、C#、Java(登録商標)等のレガシープログラミング言語またはオブジェクト指向プログラミング言語等で記述されたコンピュータ実行可能なプログラムにより実現でき、各実施形態の機能を実行するためのプログラムは、電気通信回線を通じて頒布することができる。
2 管理システム
5 通信ネットワーク
10 管理サーバ
30 データベースサーバ(情報処理装置の一例)
32 サンプルデータ取得部(取得手段の一例)
34 特徴量抽出部(特徴量抽出手段の一例)
36 第1の学習部(第1の生成手段の一例)
37 クラスタ属性特定部(クラスタ属性特定手段の一例)
38 制約設定部(制約設定手段の一例)
39 第2の学習部(第2の生成手段の一例)
41 未知データ分類部(分類手段の一例)
50 WEBサーバ
70 通信端末
200 テキストデータ
210 サンプルデータ
300 カテゴリ管理テーブル
341 対象カテゴリ情報抽出部(カテゴリ情報抽出手段の一例)
342 形態素解析部(形態素解析手段の一例)
343 特徴量決定部(特徴量決定手段の一例)
381 不正解ベクトル生成部
382 データリンク生成部
Claims (14)
- 特定のカテゴリに対して、自然言語処理に用いるテキストデータの分類を行う情報処理装置であって、
前記テキストデータのうち、前記カテゴリの正例または負例のいずれの属性であるかを示す正負ラベルがラベリングされたサンプルデータの特徴量を抽出する特徴量抽出手段と、
前記抽出された特徴量を用いた教師なし学習に基づいて、第1の学習モデルを生成する第1の生成手段と、
前記サンプルデータにラベリングされた正負ラベルに基づいて、前記生成された第1の学習モデルに含まれるクラスタが、前記正例または前記負例のいずれの属性を有する集合であるかを特定するクラスタ属性特定手段と、
前記特定されたクラスタの属性、および当該クラスタに属するサンプルデータにラベリングされた正負ラベルに基づいて、前記分類を行うための制約を設定する制約設定手段と、
前記設定された制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する第2の生成手段と、
前記生成された第2の学習モデルに含まれるクラスタに対して、前記テキストデータのうち、前記正負ラベルがラベリングされていない未知データを分類する分類手段と、
を備える情報処理装置。 - 前記制約設定手段は、前記第1の学習モデルに含まれるクラスタに属するサンプルデータのうち、当該クラスタとは前記属性が異なる前記正負ラベルがラベリングされたサンプルデータに対する制約を設定する請求項1に記載の情報処理装置。
- 前記制約設定手段は、前記第1の学習モデルに含まれるクラスタのうち、同一のクラスタに属する異なる前記正負ラベルがラベリングされたサンプルデータの間における制約、および異なるクラスタに属する同一の前記正負ラベルがラベリングされたサンプルデータの間における制約を設定する請求項1または2に記載の情報処理装置。
- 請求項1または2に記載の情報処理装置であって、
前記テキストデータのうち、前記正負ラベルがラベリングされた複数のサンプルデータを取得する取得手段を備え、
前記特徴量抽出手段は、前記取得された複数のサンプルデータの特徴量を抽出し、
前記第1の生成手段は、前記抽出された複数のサンプルデータの特徴量を用いた前記教師なし学習に基づいて、前記第1の学習モデルを生成する情報処理装置。 - 請求項4のいずれか一項に記載の情報処理装置であって、
前記特徴量抽出手段は、更に、
前記取得されたサンプルデータに含まれる、前記カテゴリを特定するためのカテゴリ情報を抽出するカテゴリ情報抽出手段と、
前記取得されたサンプルデータに含まれるテキスト情報に対する形態素解析を行う形態素解析手段と、
前記抽出されたカテゴリ情報、および前記形態素解析手段による解析結果に基づいて、前記サンプルデータの特徴量を決定する特徴量決定手段と、を備える情報処理装置。 - 前記第1の学習モデルに含まれるクラスタは、前記教師なし学習に基づいて生成される第1のクラスタおよび第2のクラスタを含む請求項1乃至5のいずれか一項に記載の情報処理装置。
- 前記第2の学習モデルに含まれるクラスタは、前記半教師あり学習に基づいて生成される、前記第1のクラスタに対応する第3のクラスタおよび第2のクラスタに対応する第4のクラスタを含む請求項6に記載の情報処理装置。
- 前記教師なし学習は、K-meansクラスタリングによる機械学習である請求項1乃至7のいずれか一項に記載の情報処理装置。
- 前記半教師あり学習は、COP K-meansクラスタリングによる機械学習である請求項1乃至8のいずれか一項に記載の情報処理装置。
- 前記特定のカテゴリは、会話要素の有無を識別するためのカテゴリである請求項1乃至9のいずれか一項に記載の情報処理装置。
- 特定のカテゴリに対して、自然言語処理に用いるテキストデータの分類を行う情報処理装置が実行するデータ分類方法であって、
前記テキストデータのうち、前記カテゴリの正例または負例のいずれの属性であるかを示す正負ラベルがラベリングされたサンプルデータの特徴量を抽出する特徴量抽出ステップと、
前記抽出された特徴量を用いた教師なし学習に基づいて、第1の学習モデルを生成する第1の生成ステップと、
前記サンプルデータにラベリングされた正負ラベルに基づいて、前記生成された第1の学習モデルに含まれるクラスタが、前記正例または前記負例のいずれの属性を有する集合であるかを特定するクラスタ属性特定ステップと、
前記特定されたクラスタの属性、および当該クラスタに属するサンプルデータにラベリングされた正負ラベルに基づいて、前記分類を行うための制約を設定する制約設定ステップと、
前記設定された制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する第2の生成ステップと、
前記生成された第2の学習モデルに含まれるクラスタに対して、前記テキストデータのうち、前記正負ラベルがラベリングされていない未知データを分類する分類ステップと、
を実行するデータ分類方法。 - 前記制約設定ステップは、前記第1の学習モデルに含まれるクラスタに属するサンプルデータのうち、当該クラスタとは前記属性が異なる前記正負ラベルがラベリングされたサンプルデータに対する制約を設定する請求項11に記載のデータ分類方法。
- 前記制約設定ステップは、前記第1の学習モデルに含まれるクラスタのうち、同一のクラスタに属する異なる前記正負ラベルがラベリングされたサンプルデータの間における制約、および異なるクラスタに属する同一の前記正負ラベルがラベリングされたサンプルデータの間における制約を設定する請求項11または12に記載のデータ分類方法。
- コンピュータに、請求項11乃至13のいずれか一項に記載の方法を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018166803A JP7087851B2 (ja) | 2018-09-06 | 2018-09-06 | 情報処理装置、データ分類方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018166803A JP7087851B2 (ja) | 2018-09-06 | 2018-09-06 | 情報処理装置、データ分類方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042330A JP2020042330A (ja) | 2020-03-19 |
JP7087851B2 true JP7087851B2 (ja) | 2022-06-21 |
Family
ID=69798240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018166803A Active JP7087851B2 (ja) | 2018-09-06 | 2018-09-06 | 情報処理装置、データ分類方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7087851B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611376B (zh) * | 2020-04-16 | 2023-11-17 | 西交利物浦大学 | 基于用户生成文本的无监督学习的用户分类方法及装置 |
CN111709247B (zh) * | 2020-05-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
JP2021186761A (ja) * | 2020-06-01 | 2021-12-13 | 株式会社クボタ | 学習モデル生成装置、推測装置および散気量制御装置 |
KR102273867B1 (ko) * | 2020-11-27 | 2021-07-06 | 주식회사 솔리드웨어 | 비지도학습방법론에 기인한 지도학습모델 생성 방법 및 그 장치와, 이를 이용한 비지도학습모델 해석 방법 및 그 장치 |
KR102273868B1 (ko) * | 2020-11-27 | 2021-07-06 | 주식회사 솔리드웨어 | 비지도학습에서의 사용자의도 반영 방법 및 그 장치 |
EP4282497A1 (en) * | 2021-01-21 | 2023-11-29 | Sony Group Corporation | Information processing method, information processing system, information terminal, and computer program |
CN112765358B (zh) * | 2021-02-23 | 2023-04-07 | 西安交通大学 | 一种基于噪声标签学习的纳税人行业分类方法 |
JPWO2022195690A1 (ja) * | 2021-03-15 | 2022-09-22 | ||
CN116049412B (zh) * | 2023-03-31 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107705A (ja) | 2003-09-29 | 2005-04-21 | Hitachi Ltd | 複数言語を対象とした文書分類装置及び文書分類方法 |
JP2013134752A (ja) | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデル学習方法、装置、及びプログラム |
US20140337005A1 (en) | 2013-05-08 | 2014-11-13 | Microsoft Corporation | Cross-lingual automatic query annotation |
JP2017107391A (ja) | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
JP2017126158A (ja) | 2016-01-13 | 2017-07-20 | 日本電信電話株式会社 | 2値分類学習装置、2値分類装置、方法、及びプログラム |
-
2018
- 2018-09-06 JP JP2018166803A patent/JP7087851B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107705A (ja) | 2003-09-29 | 2005-04-21 | Hitachi Ltd | 複数言語を対象とした文書分類装置及び文書分類方法 |
JP2013134752A (ja) | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデル学習方法、装置、及びプログラム |
US20140337005A1 (en) | 2013-05-08 | 2014-11-13 | Microsoft Corporation | Cross-lingual automatic query annotation |
JP2017107391A (ja) | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
JP2017126158A (ja) | 2016-01-13 | 2017-07-20 | 日本電信電話株式会社 | 2値分類学習装置、2値分類装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020042330A (ja) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7087851B2 (ja) | 情報処理装置、データ分類方法およびプログラム | |
US20180232362A1 (en) | Method and system relating to sentiment analysis of electronic content | |
US10860948B2 (en) | Extending question training data using word replacement | |
US10649985B1 (en) | Systems and methods for processing natural language queries for healthcare data | |
US10637826B1 (en) | Policy compliance verification using semantic distance and nearest neighbor search of labeled content | |
US10141006B1 (en) | Artificial intelligence system for improving accessibility of digitized speech | |
US11573995B2 (en) | Analyzing the tone of textual data | |
US11615241B2 (en) | Method and system for determining sentiment of natural language text content | |
Tizard et al. | Can a conversation paint a picture? mining requirements in software forums | |
US11144579B2 (en) | Use of machine learning to characterize reference relationship applied over a citation graph | |
US11494559B2 (en) | Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents | |
US20170185913A1 (en) | System and method for comparing training data with test data | |
CN109766441B (zh) | 文本分类方法、装置及系统 | |
US11507747B2 (en) | Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
US20210286945A1 (en) | Content modification using natural language processing to include features of interest to various groups | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
US11042576B2 (en) | Identifying and prioritizing candidate answer gaps within a corpus | |
US20220237409A1 (en) | Data processing method, electronic device and computer program product | |
KR102193228B1 (ko) | 딥러닝 기반 비재무정보 평가 장치 및 그 방법 | |
US20210294969A1 (en) | Generation and population of new application document utilizing historical application documents | |
CN113343936A (zh) | 视频表征模型的训练方法及训练装置 | |
WO2021114634A1 (zh) | 文本标注方法、设备及存储介质 | |
US20160259774A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
EP4270239A1 (en) | Supervised machine learning method for matching unsupervised data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220523 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7087851 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |