JP7087851B2 - 情報処理装置、データ分類方法およびプログラム - Google Patents

情報処理装置、データ分類方法およびプログラム Download PDF

Info

Publication number
JP7087851B2
JP7087851B2 JP2018166803A JP2018166803A JP7087851B2 JP 7087851 B2 JP7087851 B2 JP 7087851B2 JP 2018166803 A JP2018166803 A JP 2018166803A JP 2018166803 A JP2018166803 A JP 2018166803A JP 7087851 B2 JP7087851 B2 JP 7087851B2
Authority
JP
Japan
Prior art keywords
data
cluster
sample data
positive
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018166803A
Other languages
English (en)
Other versions
JP2020042330A (ja
Inventor
晋太郎 川村
聖彦 篠宮
嘉偉 勇
克己 金崎
昭一 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2018166803A priority Critical patent/JP7087851B2/ja
Publication of JP2020042330A publication Critical patent/JP2020042330A/ja
Application granted granted Critical
Publication of JP7087851B2 publication Critical patent/JP7087851B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、データ分類方法およびプログラムに関する。
機械翻訳、情報検索または質問応答等の場面において、機械学習をベースにした自然言語処理を活用する研究が盛んに行われている。この機械学習を活用した分野においては、その学習精度を高めるために、学習データとして用いる十分なデータセットが必要となる。
このようなデータセットに関して、学習データを属性ごとに分類する機械学習のアルゴリズムがある。特許文献1には、自然言語処理を用いる分類器のトレーニング方法が開示されている。機械学習のアルゴリズムは、パターンマッチング、教師なし学習、半教師あり学習または教師あり学習等の手法が知られている。
しかし、従来の方法では、分類対象となる大量のデータに対して、各データの属性を手作業でラベリングする必要があり、ラベリングに対する負荷が大きい。一方で、ラベリングを必要としない教師なし学習等の手法を用いた場合には、分類精度が低下してしまう。そのため、分類対象のデータに対するラベリングの負荷を低減させるとともに、自然言語処理に用いるデータの分類精度を向上させたいという課題があった。
請求項1に係る情報処理装置は、特定のカテゴリに対して、自然言語処理に用いるテキストデータの分類を行う情報処理装置であって、前記テキストデータのうち、前記カテゴリの正例または負例のいずれの属性であるかを示す正負ラベルがラベリングされたサンプルデータの特徴量を抽出する特徴量抽出手段と、前記抽出された特徴量を用いた教師なし学習に基づいて、第1の学習モデルを生成する第1の生成手段と、前記サンプルデータにラベリングされた正負ラベルに基づいて、前記生成された第1の学習モデルに含まれるクラスタが、前記正例または前記負例のいずれの属性を有する集合であるかを特定するクラスタ属性特定手段と、前記特定されたクラスタの属性、および当該クラスタに属するサンプルデータにラベリングされた正負ラベルに基づいて、前記分類を行うための制約を設定する制約設定手段と、前記設定された制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する第2の生成手段と、前記生成された第2の学習モデルに含まれるクラスタに対して、前記テキストデータのうち、前記正負ラベルがラベリングされていない未知データを分類する分類手段と、を備える。
本発明によれば、分類対象のデータに対するラベリングの負荷を低減させるとともに、自然言語処理に用いるデータの分類精度を向上させることができる。
実施形態に係る会議システムのシステム構成の一例を示す図である。 実施形態に係るコンピュータのハードウエア構成の一例を示す図である。 実施形態に係るデータベースサーバの機能構成の一例を示す図である。 実施形態に係るカテゴリ管理テーブルの一例を示す図である。 実施形態に係るテキストデータの一例を示す図である。 実施形態に係る特徴量抽出部の機能構成の一例を示す図である。 実施形態に係る制約設定部の機能構成の一例を示す図である。 実施形態に係るデータベースサーバにおけるデータ分類処理の一例を示すフローチャートである。 実施形態に係るデータベースサーバにおける特徴量抽出処理の一例を示すフローチャートである。 実施形態に係るデータベースサーバにおけるカテゴリ分類処理の一例を示すフローチャートである。 教師なし学習によって生成された第1の学習モデルの一例を説明するための概念図である。 第1の学習モデルに含まれる属性が特定されたクラスタの一例を説明するための概念図である。 不正解ベクトルNmisについて説明するための概念図である。 不正解ベクトルNmisによって示される領域に属するサンプルデータに対して生成されたデータリンクの一例を説明するための概念図である。 実施形態に係る半教師あり学習によって生成された第2の学習モデルの一例を説明するための概念図である。 実施形態に係る第2の学習モデルに含まれるクラスタに対して分類された未知データの一例を説明するための概念図である。
以下、図面を参照しながら、発明を実施するための形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。
●システム構成●
図1は、実施形態に係るデータベースサーバが適用されるシステムの一例を示す図である。図1に示す会議システム1は、本実施形態に係るデータベースサーバ30による機械学習によって生成された学習モデルを、通信端末70を利用した会議に利用する場合の例である。会議システム1は、例えば、通信端末70によって集音された音声データに対して、データベースサーバ30によって生成された学習モデルを用いた自然言語処理を行うことができるシステムである。
会議システム1は、管理サーバ10、データベースサーバ30、WEBサーバ50および通信端末70によって構成されている。会議システム1を構成する各装置は、通信ネットワーク5を介してそれぞれ接続されている。通信ネットワーク5は、例えば、LAN(Local Area Network)、専用線およびインターネット等によって構築される。通信ネットワーク5は、有線だけでなく、Wi-Fi(Wireless Fidelity)や、Bluetooth(登録商標)等の無線による通信が行われる箇所があってもよい。
管理サーバ10、データベースサーバ30およびWEBサーバ50は、管理システム2を構成する。管理システム2は、通信端末70からによって集音された音声データ等の発話録データに対して、自然言語処理を行うシステムである。管理サーバ10は、通信ネットワーク5を介して、通信端末70に対して、各種機能を実現するためのアプリケーション等を提供するサーバコンピュータである。
データベースサーバ30は、自然言語処理に用いる複数のテキストデータ(データセット)を記憶するサーバコンピュータである。また、データベースサーバ30は、データセットを機械学習により特定のカテゴリの属性ごとに分類する分類器としての機能を有する。本実施形態において、会議システム1は、データベースサーバ30において会話要素の有無によって分類された学習モデルを用いて、例えば、通信端末70によって生成されたデータに対する自然言語処理を行う。
WEBサーバ50は、データベースサーバ30または通信端末70に対して、WEBサービス(HTTP:Hypertext Transfer Protocol通信)による中継機能を提供するサーバ装置である。WEBサーバ50は、WEBサービスを介して、データベースサーバ30へ自然言語処理に用いるテキストデータ200を送信する。なお、WEBサーバ50の機能は、データベースサーバ30および通信端末70に備えられていてもよい。
通信端末70は、会議システム1の利用者が使用するノートPC(Personal Computer)等の端末装置である。会議システム1の利用者は、通信端末70にインストールされた会議アプリ等の特定のアプリケーションを用いて会議を開催する。通信端末70は、会議中に行われた利用者の発言等を集音した音声データを管理システム2へ送信する。そして、通信端末70は、管理システム2によって自然言語処理された議事録等の変換データを受信することによって、自動的に会議の議事録等を作成することができる。なお、通信端末70は、通信ネットワーク5に接続可能な通信機能を備えていればノートPCに限られない。通信端末70は、ディスクトップPC、タブレット端末、スマートフォン、電子黒板、カーナビゲーション装置またはマイク等の集音装置であってもよい。また、図1は、通信端末70が一つである場合の例を説明したが、通信端末70の数はこれに限られず、会議システム1は、複数の通信端末70を有してもよい。
なお、図1は、会議システムの例を説明したが、図1に示したシステムの用途は、会議に限られず、自然言語処理を必要とする所定のイベントであってもよい。例えば、会議システム1は、会合、集い、寄り合い、相談、打ち合わせ等の音声データに対するテキスト変換を利用するイベントに適用されてもよい。また、会議システム1は、通信端末70を用いた情報検索等のイベントに適用されてもよい。さらに、管理サーバ10およびデータベースサーバ30の機能は、一つのサーバによって実現される構成であってもよいし、データベースサーバ30の機能は、複数のサーバによって実現される構成であってもよい。
●ハードウエア構成●
続いて、実施形態に係る各装置のハードウエア構成について説明する。図1に示した会議システム1を構成する各装置は、一般的なコンピュータの構成を有する。ここでは、一般的なコンピュータのハードウエア構成例について説明する。
図2は、実施形態に係るコンピュータのハードウエア構成の一例を示す図である。コンピュータ100は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、ストレージ104、入出力インターフェース(I/F)105、ネットワークインターフェース(I/F)106およびバスライン107を有する。
CPU101は、ROM102やストレージ104等に格納された本発明に係るプログラムやデータをRAM103上に読み出し、処理を実行することで、コンピュータ100の各機能を実現する演算装置である。例えば、データベースサーバ30は、本発明に係るプログラムが実行されることで本発明に係るデータ分類方法を実現する。
ROM102は、電源を切ってもプログラムやデータを保持することができる不揮発性のメモリである。ROM102は、例えば、フラッシュROM等により構成される。ROM102は、多種の用途に対応したSDK(Software Development Kit)がインストールされており、SDKのアプリケーションを用いて、コンピュータ100の機能やネットワーク接続などを実現することが可能である。
RAM103は、CPU101のワークエリア等として用いられる揮発性のメモリである。ストレージ104は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等のストレージデバイスである。ストレージ104は、例えば、OS(Operation System)、アプリケーションプログラム、および各種データ等を記憶する。
入出力I/F105は、コンピュータ100に外部装置を接続するためのインターフェースである。外部装置は、例えば、USB(Universal Serial Bus)メモリ、メモリカード、光学ディスク等の記録媒体105aや、各種の電子機器等が含まれる。
ネットワークI/F106は、通信ネットワーク5を介して、データ通信をするためのインターフェースである。ネットワークI/F106は、例えば、無線LANの通信インターフェースである。また、ネットワークI/F106は、有線LAN、3G(3rd Generation)、LTE(Long Term Evolution)、4G(4rd Generation)、5G(5rd Generation)、ミリ波無線通信の通信インターフェースを備えていてもよい。
バスライン107は、上記の各構成要素に共通に接続され、アドレス信号、データ信号、および各種制御信号等を伝送する。CPU101、ROM102、RAM103、ストレージ104、入出力I/F105およびネットワークI/F106は、バスライン107を介して相互に接続されている。
なお、実施形態に係る各装置のハードウエア構成は、必要に応じて構成要素が追加または削除されてもよい。通信端末70は、図2に示した構成に加えて、マイク等の音声を入力するための集音装置を有する。また、通信端末70は、例えば、キーボード、マウスおよびタッチパネル等の入力装置、スピーカ、カメラ等の撮像装置、並びにLCD(Liquid Crystal display)等の表示装置を有していてもよい。
●機能構成●
続いて、実施形態に係るデータベースサーバ30の機能構成について説明する。図3は、実施形態に係るデータベースサーバの機能構成の一例を示す図である。データベースサーバ30によって実現される機能は、送受信部31、サンプルデータ取得部32、対象カテゴリ情報生成部33、特徴量抽出部34、データ数値化部35、第1の学習部36、クラスタ属性特定部37、制約設定部38、第2の学習部39、未知データ分類部41、記憶・読出部42および記憶部3000を含む。
送受信部31は、通信ネットワーク5を介して、外部装置と各種データの送受信を行う機能である。送受信部31は、例えば、WEBサーバ50から提供されるWEBサービスを介して、分類対象となるテキストデータ200を受信する。送受信部31は、図2に示したネットワークI/F106およびCPU101で実行されるプログラム等によって実現される。
サンプルデータ取得部32は、記憶部3000に記憶されたテキストデータ200のうち、特定のカテゴリの属性を特定するための属性情報がラベリングされたデータをサンプルデータ210として取得する。属性情報は、例えば、特定のカテゴリに対する正例または負例のいずれの属性に属するかを示す正負ラベルである。属性情報は、例えば、カテゴリの種別が「会話」である場合、会話要素の有無を特定するための情報である。ここで、会話とは、発言、質問、応答、対話、発表等が含まれる。なお、属性情報のラベリングは、データベースサーバ30の利用者またはWEBサービスによりテキストデータ200のデータセットを提供する提供者等によって行われる。サンプルデータ取得部32は、図2に示したネットワークI/F106およびCPU101で実行されるプログラム等によって実現される。サンプルデータ取得部32は、取得手段の一例である。
対象カテゴリ情報生成部33は、後述するカテゴリ管理テーブル300に含まれる対象カテゴリ設定情報310を生成する機能である。対象カテゴリ設定情報310とは、データ分類処理の分類対象となるカテゴリの特徴を特定するための情報である。対象カテゴリ情報生成部33は、図2に示したCPU101で実行されるプログラム等により実現される。
特徴量抽出部34は、サンプルデータ取得部32によって取得されたサンプルデータ210の特徴量を抽出する機能である。特徴量は、例えば、分類対象のカテゴリにおけるテキストデータ200に含まれる単語の重要度である。この場合、特徴量抽出部34は、サンプルデータ210に含まれるテキスト情報の中から、単語を抽出する。特徴量抽出部34による処理の詳細は、後述(図6参照)する。特徴量抽出部34は、図2に示したCPU101で実行されるプログラム等により実現される。特徴量抽出部34は、特徴量抽出手段の一例である。
データ数値化部35は、テキストデータ200の特徴量の数値化処理を行う機能である。データ数値化部35は、特徴量抽出部34によって抽出されたサンプルデータ210の特徴量を特徴量ベクトルに変換(数値化)する。なお、サンプルデータ210ではないテキストデータ200に対しても、サンプルデータ210に対する処理と同様に特徴量抽出処理を実行する。データ数値化部35は、図2に示したCPU101で実行されるプログラム等により実現される。
第1の学習部36は、特徴量抽出部34によって抽出されたサンプルデータ210の特徴量を用いた教師なし学習に基づいて、第1の学習モデルを生成する機能である。教師なし学習(unsupervised learning)とは、所定のデータをラベルリング等の外的基準なしに分類する手法である。教師なし学習は、例えば、K-meansクラスタリング等の手法である。第1の学習部36は、図2に示したCPU101で実行されるプログラム等により実現される。第1の学習部36は、第1の生成手段の一例である。
クラスタ属性特定部37は、第1の学習部36によって学習された第1の学習モデルに含まれる各クラスタの属性を特定するための機能である。クラスタ属性特定部37は、例えば、第1の学習モデルに含まれるクラスタが、分類対象のカテゴリの正例または負例のいずれの属性を有する集合であるかを特定する。クラスタ属性特定部37は、図2に示したCPU101で実行されるプログラム等により実現される。クラスタ属性特定部37は、クラスタ属性特定手段の一例である。
制約設定部38は、データ分類処理に用いる制約設定を行う機能である。制約設定部38は、第1の学習部36によって生成された第1の学習モデルと、第1の学習モデルに含まれるクラスタに属するサンプルデータ210にラベリングされた属性情報とに基づいて、自然言語処理に用いるテキストデータ200の分類を行うための制約を設定する。制約設定部38の具体的の処理については、後述(図7参照)する。制約設定部38は、図2に示したCPU101で実行されるプログラム等により実現される。制約設定部38は、制約設定手段の一例である。
第2の学習部39は、制約設定部38によって設定された制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する機能である。半教師あり学習(semi-supervised learning)とは、ラベリングされたデータとラベリングされていないデータの両方を用いてデータ分類を行う手法である。半教師あり学習は、例えば、COP K-meansクラスタリング等の手法である。第2の学習部39は、図2に示したCPU101で実行されるプログラム等により実現される。第2の学習部39は、第2の生成手段の一例である。
未知データ分類部41は、第2の学習部39によって生成された第2の学習モデルに含まれるクラスタに対して、未知データを分類する機能である。未知データとは、テキストデータ200のうち、属性情報がラベリングされていないデータである。未知データ分類部41は、図2に示したCPU101で実行されるプログラム等により実現される。未知データ分類部41は、分類手段の一例である。
記憶・読出部42は、記憶部3000に各種データを記憶し、記憶部3000から各種データを読み出す機能である。記憶・読出部42は、図2に示したCPU101で実行されるプログラム等により実現される。記憶部3000は、図2に示したROM102またはストレージ104により実現される。また、記憶部3000は、カテゴリ管理テーブル300および複数のテキストデータ200を記憶している。
●カテゴリ管理テーブル
ここで、記憶部3000に記憶されているデータの詳細について説明する。図4は、実施形態に係るカテゴリ管理テーブルの一例を示す図である。図4に示すカテゴリ管理テーブル300は、自然言語処理による分類対象となるカテゴリごとに、当該カテゴリを特定するための設定情報を管理するテーブルである。
カテゴリ管理テーブル300は、分類対象とするカテゴリを識別するためのカテゴリ識別番号、カテゴリ名、および分類対象とするカテゴリを特徴付けるための情報である対象カテゴリ設定情報310を関連付けて記憶して管理している。
図5に示すカテゴリ管理テーブル300において、カテゴリ識別番号「1」およびカテゴリ名「会話」に関連付けられた対象カテゴリ設定情報310は、「Q:」,「A:」,「C:」,「?」,「⇒」,「→」,「<"人名">」,「["人名"]」,「("人名")」等である。例えば、対象カテゴリ設定情報310は、全角または半角文字の直後の「?」,「⇒」,「→」,「:」や、全角または半角文字の直前の「?」,「Q」,「A」,「C」,「<"人名">」,「["人名"]」,「("人名")」等のパターンである会話を特徴付けるための情報を含む。なお、対象カテゴリ設定情報310は、対象カテゴリ情報生成部33の処理によって適宜追加・変更可能である。
●テキストデータ
続いて、記憶部3000に記憶されるテキストデータ200の内容について説明する。図5は、実施形態に係るテキストデータの一例を示す図である。図5に示すテキストデータ200は、テキスト情報が含まれるデータであり、本実施形態に係るデータ分類方法において分類対象となるデータである。テキストデータ200は、例えば、WEBサーバ50から提供されるWEBサービスを介して、WEBページを構成するHTML(HyperText Markup Language)形式で取得される。
図5に示すテキストデータ200は、質問応答形式で記述されたテキスト情報を含む。図5に示すテキストデータ200は、カテゴリ「会話」に関連付けられた対象カテゴリ設定情報310を含むため(図4参照)、「会話有」の属性を有するデータ(正例)となる。一方で、図5に示すテキストデータ200とは異なり、カテゴリ「会話」に関連付けられた対象カテゴリ設定情報310を含まないテキストデータ200は、「会話無」の属性を有するデータ(負例)となる。
テキストデータ200は、例えば、会話要素が含まれる可能性のあるデータセットとして収集されるデータである。具体的には、企業や公的機関の会議録、SNS(Social Networking Service)、商品レビュー、テレビの字幕、小説等のデータに会話要素が含まれている可能性が高い。特に、WEB上に公開されているデータであれば、クローリングやウェブスクレイピング等によって自動的にデータセットを充足させることでき、分類精度を高めるために十分なデータを収集することができる。
●特徴量抽出部
続いて、図6を用いて、特徴量抽出部34の詳細な機能構成について説明する。図6は、実施形態に係る特徴量抽出部の機能構成の一例を示す図である。図6に示す特徴量抽出部34は、対象カテゴリ情報抽出部341、形態素解析部342および特徴量決定部343を含む。
対象カテゴリ情報抽出部341は、サンプルデータ取得部32によって取得されたサンプルデータ210に含まれるテキスト情報の中から、対象カテゴリ情報を抽出する機能である。対象カテゴリ情報抽出部341は、サンプルデータ210に含まれるテキスト情報の中から、カテゴリ管理テーブル300に含まれる対象カテゴリ設定情報310と同じテキストを、対象カテゴリ情報として抽出する。対象カテゴリ情報抽出部341は、カテゴリ情報抽出手段の一例である。
形態素解析部342は、サンプルデータ取得部32によって取得されたサンプルデータ210に含まれるテキスト情報に対する形態素解析処理を行う機能である。形態素解析部342は、サンプルデータ210に含まれるテキスト情報のうち、名詞、動詞および形容詞等の品詞を有するものを単語の特徴量として取得する。形態素解析部342は、形態素解析手段の一例である。
特徴量決定部343は、対象カテゴリ情報抽出部341によって抽出された対象カテゴリ情報、および形態素解析部342による解析結果に基づいて、サンプルデータ210の特徴量を決定する機能である。特徴量決定部343は、特徴量決定手段の一例である。
●制約設定部
続いて、図7を用いて、制約設定部38の詳細な機能構成について説明する。図7は、実施形態に係る制約設定部の機能構成の一例を示す図である。図7に示す制約設定部38は、不正解ベクトル生成部381およびデータリンク生成部382を含む。
不正解ベクトル生成部381は、第1の学習部36によって生成された第1の学習モデルに含まれるクラスタに対して、当該クラスタの属性とは異なる属性を有するサンプルデータ210が含まれる可能性のある領域を示す不正解ベクトルNmisを生成する。
データリンク生成部382は、不正解ベクトル生成部381によって生成された不正解ベクトルNmisが示す領域に属するサンプルデータ210に対するデータリンクを生成する機能である。データリンクとは、ラベリングされた属性情報が示す属性と異なる属性を有するクラスタに属するサンプルデータ210を、正しい属性を有するクラスタに属させるための制約である。すなわち、データリンク生成部382は、第1の学習モデルに含まれるクラスタに属するサンプルデータ210のうち、クラスタが有する属性とは異なる属性を示す属性情報がラベリングされたサンプルデータ210に対する制約を生成する。
●データ分類処理●
続いて、データベースサーバ30に記憶されたテキストデータ200に対するデータ分類処理について説明する。図8は、実施形態に係るデータベースサーバにおけるデータ分類処理の一例を示すフローチャートである。以下において、テキストデータ200における会話要素の有無の分類するための処理について説明する。
ステップS11において、サンプルデータ取得部32は、記憶部3000に記憶されたテキストデータ200のうち、属性情報がラベリングされたサンプルデータ210を抽出する。具体的には、記憶・読出部42は、記憶部3000に記憶されたテキストデータ200のうち、所定のデータを読み出す。次に、サンプルデータ取得部32は、読み出されたテキストデータ200に含まれるテキスト情報に基づいて、このテキストデータ200に属性情報をラベリングする。ここで、属性情報とは、分類対象のカテゴリにおけるテキストデータ200の属性(正例または負例)を示す情報(正負ラベル)であり、例えば、会話要素の有無を特定するための情報である。そして、サンプルデータ取得部32は、属性情報がラベリングされたテキストデータ200を、サンプルデータ210として取得する。
ステップS12において、特徴量抽出部34は、ステップS11によって抽出されたサンプルデータ210に含まれるテキスト情報の内容に基づいて、サンプルデータ210の特徴量を抽出する。
ここで、図9を用いて、データベースサーバ30による特徴量抽出処理について説明する。図9は、実施形態に係るデータベースサーバにおける特徴量抽出処理について説明するためのフローチャートである。図9に示す特徴量抽出処理は、テキストデータ200に含まれるテキスト情報の会話要素を示す対象カテゴリ情報を利用したパターンマッチングの例である。
ステップS121において、記憶・読出部42は、記憶部3000に記憶された対象カテゴリ設定情報310を読み出す。具体的には、記憶・読出部42は、記憶部3000に記憶されたカテゴリ管理テーブル300の中から、カテゴリ名「会話」に関連づけられた対象カテゴリ設定情報310(図4参照)を読み出す。
ステップS122において、対象カテゴリ情報抽出部341は、サンプルデータ210に含まれるテキスト情報の中から、ステップS121によって読み出された対象カテゴリ設定情報310に該当するテキスト情報を、対象カテゴリ情報として抽出する。
ステップS123において、形態素解析部342は、図8に示したステップS11によって取得されたサンプルデータ210に含まれるテキスト情報の形態素解析を実行する。具体的には、まず、形態素解析部342は、サンプルデータ210に含まれるテキスト情報を抽出する。そして、形態素解析部342は、抽出したテキスト情報のうち、名詞、動詞および形容詞等の品詞を有するものを特徴量の候補として取得する。
ステップS124において、特徴量決定部343は、ステップS122によって抽出された対象カテゴリ情報、およびステップS123による解析結果に基づいて、サンプルデータ210の特徴量を決定する。ここで、上記説明したように、ステップS122によって抽出された対象カテゴリ情報、およびステップS123による解析結果は、処理対象であるサンプルデータ210の特徴量の候補である。具体的には、まず、特徴量決定部343は、TF-IDF(Term Frequency-Inverse Document Frequency)値を算出する。TF-IDF値とは、文書中に含まれる単語の重要度を評価する手法の一つであり、単語の出現頻度(TF)と希少性(IDF)の二つの指標に基づいて計算される。ここで算出されるTF-IDF値は、会話有または会話無に関係する情報を含むものと想定される。しかしながら、算出されるTF-IDF値の次元は非常に冗長なものとなり、結果的に分類精度を低下させるおそれがある。そこで、特徴量決定部343は、以下(式1)に示すカイ二乗検定によってカイ二乗値CHI(t,c)を計算することによって、該当する対象カテゴリ情報とTF-IDF値によって示される特徴量の取捨選択を行う。
Figure 0007087851000001
ここで、カイ二乗検定とは、2つの事柄がどの程度独立しているかの検定であり、例えば、「会話要素の有無t,t’」と「ステップS122によって抽出された対象カテゴリ情報とステップS123による解析結果とで示される特徴量の候補の有無c,c’」との関係性を計算するものである。Nは、「会話要素の有無」と「特徴量の候補の有無」のバリエーションの数(この場合のパリエーションは、t,t’,c,c’であるため、N=4)、P(t,c)は、全てのサンプルデータ210のうち、属性が「会話要素有」で、かつ特徴量の候補が含まれる確率、P(t’,c)は、全てのサンプルデータ210のうち、属性が「会話要素無」で、かつ特徴量の候補が含まれる確率、P(t,c’)は、全てのサンプルデータ210のうち、属性が「会話要素有」で、かつ特徴量の候補が含まれない確率、P(t’,c’)は、全てのサンプルデータ210のうち、属性が「会話要素無」で、かつ特徴量の候補が含まれない確率を示す、また、P(t)は、全てのサンプルデータ210のうち、属性が「会話要素有」である確率、P(t’)は、全てのサンプルデータ210のうち、属性が「会話要素無」である確率、P(c)は、全てのサンプルデータ210のうち、特徴量の候補が含まれる確率、P(c’)は、全てのサンプルデータ210のうち、特徴量の候補が含まれる確率を示す。なお、全てのサンプルデータ210とは、サンプルデータ取得部32によって取得された、属性情報がラベリングされた全てのサンプルデータ210のことである。
カイ二乗検定は、誤判断を避けるために無関係な特徴量を排除する機能を有する。例えば、「会話要素の有無t,t’」に対して、「特徴量の候補の有無c,c’」が全く関係ない場合、P(t,c)×P(t’,c’)=P(t,c’)×P(t’,c)となり、カイ二乗値CHI(t,c)は、0となる。一方で、「会話要素の有無t,t’」に対して、「特徴量の候補の有無c,c’」の依存度が強いと、カイ二乗値CHI(t,c)も大きな値となる。つまり、特徴量決定部343は、カイ二乗検定によって算出されたカイ二乗値CHI(t,c)がより大きい特徴量を、サンプルデータ210の特徴量として選択・決定する。そのため、特徴量決定部343は、サンプルデータ210の属性(例えば、会話要素の有無)の識別に関係する特徴量のみを絞り込むことができる。
これによって、特徴量決定部343は、サンプルデータ取得部32によって取得された全てのサンプルデータ210の特徴量を決定する。特徴量決定部343は、複数のサンプルデータ210に対して、上記特徴量抽出処理を実行することによって、データ分類処理において分類種別を特定するためのサンプルとなるデータセットを生成する。
図8に戻り、データベースサーバ30のデータ分類処理の説明を続ける。ステップS13において、記憶・読出部42は、記憶部3000に記憶されているテキストデータ200を読み出す。ここで、テキストデータ200は、ステップS11によってサンプルデータ210として取得されたデータ、およびサンプルデータ210として抽出されなかったデータを含む。すなわち、テキストデータ200は、属性情報がラベリングされたデータ(サンプルデータ210)と属性情報がラベリングされていないデータ(未知データ)の両方を含む。
ステップS14において、データ数値化部35は、ステップS14によって読み出されたテキストデータ200に対するベクトル化(数値化)処理を実行する。そして、ステップS15において、データベースサーバ30は、ステップS14によって数値化されたテキストデータ200を用いて、カテゴリ分類処理を実行する。
ここで、図10乃至図16を用いて、データベースサーバ30によるカテゴリ分類処理について説明する。図10は、実施形態に係るデータベースサーバにおけるカテゴリ分類処理の一例を示すフローチャートである。以下で説明する処理は、教師なし学習と、教師なし学習によって生成された第1の学習モデルに基づく制約を用いた半教師あり学習との組み合わせによる分類処理である。
まず、ステップS151において、第1の学習部36は、図9のステップS14によって数値化されたサンプルデータ210の特徴量を用いた教師なし学習によって、第1の学習モデルを生成する。具体的には、第1の学習部36は、代表的な教師なし学習であるK-meansクラスタリングによって、二値分類されたクラスタ(第1のクラスタおよび第2のクラスタ)を含む第1の学習モデルを行う。図11は、教師なし学習によって生成された第1の学習モデルの一例を説明するための概念図である。図11に示すように、教師なし学習は、サンプルデータ210の属性を区別しないため、第1の学習モデルに含まれるクラスタは、各クラスタが会話有(正例)であるか会話無(負例)であるかの属性が不明な状態である。
次に、ステップS152において、クラスタ属性特定部37は、ステップS151によって生成された第1の学習モデルに含まれるクラスタの属性を特定する。上記のように、教師なし学習によって生成されたクラスタは、どちらのクラスタが会話要素を含むかを特定することができない。そのため、クラスタ属性特定部37は、サンプルデータ210にラベリングされた属性情報に基づいて、第1の学習モデルに含まれる各クラスタが、正例または負例のいずれの属性を有する集合であるかを特定する。クラスタ属性特定部37は、例えば、各クラスタに属するサンプルデータ210の属性(正負)の数の多数決によって、それぞれのクラスタの属性を特定する。図12は、第1の学習モデルに含まれる属性が特定されたクラスタの一例を説明するための概念図である。図12に示すように、左側のクラスタに属するサンプルデータ210は、会話無(負例)データよりも会話有(正例)データが多いため、クラスタ属性特定部37は、左側のクラスタの属性を、会話(正例)有クラスタとして特定する。また、右側のクラスタに属するサンプルデータ210は、会話有(正例)データよりも会話無(負例)データが多いため、クラスタ属性特定部37は、右側のクラスタの属性を、会話無(負例)クラスタとして特定する。
次に、ステップS153において、不正解ベクトル生成部381は、ステップS152によって属性が特定された第1の学習モデルに含まれるクラスタを用いて、不正解ベクトルNmisを算出する。不正解ベクトルNmisとは、第1の学習モデルに含まれるクラスタに属するデータに対して、正解と判定すべき領域のうち予測できなかった領域を示す。ここで、正解とは、サンプルデータ210が自らの属性と同じ属性を有するクラスタに分類されることを示す。また、正解データとは、自らの属性と同じ属性を有するクラスタに分類されたサンプルデータ210を表し、不正解データとは、自らの属性とは異なる属性を有するクラスタに分類されたサンプルデータ210を表す。第1の学習モデルは、教師なし学習によって生成される学習モデルであるため、その分類精度は低い。そのため、不正解ベクトル生成部381は、分類精度の向上を図るため、不正解ベクトルNmisが示す領域を活用する。
図12は、不正解ベクトルNmisについて説明するための概念図である。Acorrは、Aカテゴリの正解集合を示し、Apredは、Aカテゴリの予測集合を示している。ここで、正解集合とは、正解データが分類される集合領域を示す。一方で、予測集合とは、正解データが分類されることが予測される集合領域を示す。同様に、Bcorrは、Bカテゴリの正解集合を示し、Bpredは、Bカテゴリの予測集合を示している。例えば、Aカテゴリは、会話有のクラスタであり、Bカテゴリは、会話無のクラスタである。不正解ベクトルNmisは、正解集合の中で、予測集合に含まれない領域を示す。すなわち、不正解ベクトルNmisは、第1の学習部36によって生成された第1の学習モデルに含まれるクラスタに対して、クラスタの属性とは異なる属性を有するサンプルデータ210が含まれる可能性のある領域を示す。不正解ベクトルNmisは、下記(式2)を用いて算出される。
Figure 0007087851000002
ステップS154において、データリンク生成部382は、ステップS153において生成された不正解ベクトルNmisが示す領域に対して、当該領域に属するデータに対するデータリンクを生成する。第1の学習モデルには、会話有(正例)クラスタに属する会話無(負例)データ、または会話無(負例)クラスタに属する会話有(正例)データのように、本来分類されるべきクラスタとは属性の異なるデータが存在する。そのようなデータに対して、データリンク生成部382は、ユークリッド距離を算出し、最短距離となるデータを検出する。そして、データリンク生成部382は、検出されたデータに対して、半教師あり学習で使用する「must-link」および「cannot-link」のデータリンクの制約を設定する。
ここで、不正解ベクトルNmisが示す領域に属するデータに対するデータリンクの生成処理を説明する。図14は、不正解ベクトルNmisによって示される領域に属するサンプルデータに対して生成されたデータリンクの一例を説明するための概念図である。ラベリングされた属性情報と同じ属性のクラスタに分類されたサンプルデータ210を正解データT、ラベリングされた属性情報とは異なる属性のクラスタに分類されたサンプルデータ210を不正解データFとする。
正解データTは、属すべきクラスタに属するデータであるので、データリンク生成部382は、正解データTと、正解データTとは異なるクラスタに属する不正解データFのうち最短距離に位置するデータとの間で「must-link」を生成する。また、不正解データFは、属するべきでないクラスタに属するデータであるので、データリンク生成部382は、不正解データFと、同じクラスタに属する正解データTのうち最短距離に位置するデータとの間で「cannot-link」を生成する。ここで、「must-link」は、二つのサンプルデータ210が同じクラスタに属する制約であり、第1の学習モデルに含まれるクラスタのうち、異なるクラスタに属する同一の属性情報がラベリングされたサンプルデータ210の間で設定される制約である。一方で、「cannot-link」は、二つのサンプルデータ210が異なるクラスタに属する制約であり、第1の学習モデルに含まれるクラスタのうち、同一のクラスタに属する異なる属性情報がラベリングされたサンプルデータ210の間で設定される制約である。
ステップS155において、第2の学習部39は、ステップS154において生成されたデータリンクに基づいて、代表的な半教師あり学習であるCOP K-meansクラスタリングによる第2の学習モデルを生成する。図15は、実施形態に係る半教師あり学習によって生成された第2の学習モデルの一例を説明するための概念図である。図15に示すように、第2の学習モデルは、図10に示した第1の学習モデルに含まれるクラスタ(第1のクラスタおよび第2のクラスタ)の境界が修正され複雑化している。第2の学習モデルは、第1のクラスタの境界が修正された第3のクラスタおよび第2のクラスタの境界が修正された第4のクラスタを含む。このように、第2の学習モデルは、教師なし学習に基づいて生成された制約設定を、半教師あり学習に適用することによって、より精密な学習モデルを生成することができる。
そして、ステップS156において、未知データ分類部41は、ステップS155によって生成された第2の学習モデルに含まれるクラスタに対して、属性情報がラベリングされていない未知データの分類処理を行う。ここで、属性情報がラベリングされていない未知データとは、テキストデータ200のうち、サンプルデータ210として取得されていないデータである。図16は、実施形態に係る第2の学習モデルに含まれるクラスタに対して分類された未知データの一例を説明するための概念図である。図16に示すように、第1の学習モデルに含まれるクラスタでは不正解データとなっていた未知データに対しても、第2の学習モデルにおいては、正解データとして分類されていることがわかる。なお、未知データの特徴量は、次元数もしくはTF-IDF値の構成並びに順番が図9に示した特徴量抽出処理によって得られたデータと等しくなるよう生成される。
このように、データベースサーバ30は、複数のサンプルデータ210を用いた教師なし学習により生成された第1の学習モデルを利用して、テキストデータ200の分類を行うための制約を設定する。そして、データベースサーバ30は、設定した制約を用いて半教師あり学習を行う。これにより、データベースサーバ30は、属性情報がラベリングされていない未知データの分類精度を向上させることができる。また、データベースサーバ30によるデータ分類処理は、全てのテキストデータ200に対して属性情報をラベリングする必要がないため、ラベリングに要する負荷を低減させることができるとともに、誤ったラベリングが行われることによってデータ分類精度が低下することを防止することができる。
従来から機械学習によるデータの分類方法として用いられる、正規表現によるパターンマッチングや教師なし学習は、分類対象のデータに対するラベリング作業が不要であるが、分類精度が低い。一方で、サポートベクターマシン(SVM)のような教師あり学習を用いる方法は、分類精度は高いが、膨大なデータに対するラベリングに係る負荷が大きい。そこで、本実施形態は、上記手法の特徴を混成させた半教師あり学習を用いる。半教師あり学習は、教師なし学習を行わずに、正解データTを直接適用させる方法もある。しかし、この手法では、制約条件の数や計算量がサンプルデータの増加に伴い増大してしまう。本実施形態では、教師なし学習によって生成された第1の学習モデルおよびサンプルデータ210の属性に基づいて、不正解データFとなった要素に対してのみ、「must-link」および「cannot-link」の制約を設けることで、効率的かつ精度よく半教師あり学習を実施することができる。
なお、図10に示したカテゴリ分類処理は、説明の便宜上、第2の学習モデルを生成した後に未知データが分類される(ステップS156)構成を説明したが、未知データは、例えば、ステップS151によって第1の学習モデルが生成される段階からサンプルデータ210とともに分類されている構成であってもよい。
●まとめ●
以上説明したように、本発明の一実施形態に係るデータベースサーバは、特定のカテゴリに対して、自然言語処理に用いるテキストデータ200の分類を行うデータベースサーバ30(情報処理装置の一例)であって、テキストデータ200のうち、特定のカテゴリの正例または負例のいずれの属性であるかを示す属性情報(正負ラベルの一例)がラベリングされたサンプルデータ210の特徴量を抽出し、抽出した特徴量を用いた教師なし学習に基づいて第1の学習モデルを生成し、サンプルデータ210にラベリングされた属性情報に基づいて、第1の学習モデルに含まれるクラスタが特定のカテゴリの正例または負例のいずれの属性を有する集合であるかを特定する。また、データベースサーバ30は、生成した第1の学習モデルに含まれるクラスタの属性、および当該クラスタに属するサンプルデータ210にラベリングされた属性情報に基づいて、テキストデータ200の分類を行うための制約を設定し、設定した制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する。そして、データベースサーバ30は、生成した第2の学習モデルに含まれるクラスタに対して、属性情報がラベリングされていないテキストデータ200(未知データの一例)を分類する。これによって、データベースサーバ30は、第1の学習モデルに基づく制約を用いた半教師あり学習を行うことによって、属性情報がラベリングされていない未知データの分類精度を向上させることができる。
また、本発明の一実施形態に係るデータベースサーバは、教師なし学習に基づいて生成した第1の学習モデルに含まれるクラスタのうち、同一のクラスタに属する異なる属性情報(正負ラベルの一例)がラベリングされたサンプルデータ210の間における制約(例えば、cannot-link)、および異なるクラスタに属する同一の属性情報がラベリングされたサンプルデータ210の間における制約(例えば、must-link)を設定する。これによって、データベースサーバ30(情報処理装置の一例)は、教師なし学習によって生成された第1の学習モデル、およびサンプルデータ210の属性に基づいて、不正解データFとなった要素に対してのみ、「must-link」および「cannot-link」の制約を設けることで、効率的かつ精度よく半教師あり学習を実施することができる。
さらに、本発明の一実施形態に係るデータベースサーバは、テキストデータ200のうち、属性情報(正負ラベルの一例)がラベリングされた複数のサンプルデータ210を取得し、取得した複数のサンプルデータ210の特徴量を抽出し、抽出した複数のサンプルデータ210の特徴量を用いた教師なし学習に基づいて、第1の学習モデルを生成する。これによって、データベースサーバ30(情報処理装置の一例)は、全てのテキストデータ200に対して属性情報をラベリングする必要がないため、ラベリングに要する負荷を低減させることができるとともに、誤ったラベリングが行われることによってデータ分類精度が低下することを防止することができる。
●補足●
なお、各実施形態の機能は、アセンブラ、C、C++、C#、Java(登録商標)等のレガシープログラミング言語またはオブジェクト指向プログラミング言語等で記述されたコンピュータ実行可能なプログラムにより実現でき、各実施形態の機能を実行するためのプログラムは、電気通信回線を通じて頒布することができる。
また、各実施形態の機能を実行するためのプログラムは、ROM、EEPROM(Electrically Erasable Programmable Read-Only Memory)、EPROM(Erasable Programmable Read-Only Memory)、フラッシュメモリ、フレキシブルディスク、CD(Compact Disc)-ROM、CD-RW(Re-Writable)、DVD-ROM、DVD-RAM、DVD-RW、ブルーレイディスク、SDカード、MO(Magneto-Optical disc)等の装置可読な記録媒体に格納して頒布することもできる。
さらに、各実施形態の機能の一部または全部は、例えばFPGA(Field Programmable Gate Array)等のプログラマブル・デバイス(PD)上に実装することができ、またはASICとして実装することができ、各実施形態の機能をPD上に実現するためにPDにダウンロードする回路構成データ(ビットストリームデータ)、回路構成データを生成するためのHDL(Hardware Description Language)、VHDL(Very High Speed Integrated Circuits Hardware Description Language)、Verilog-HDL等により記述されたデータとして記録媒体により配布することができる。
これまで本発明の一実施形態に係る情報処理装置、データ分類方法およびプログラムについて説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
1 会議システム
2 管理システム
5 通信ネットワーク
10 管理サーバ
30 データベースサーバ(情報処理装置の一例)
32 サンプルデータ取得部(取得手段の一例)
34 特徴量抽出部(特徴量抽出手段の一例)
36 第1の学習部(第1の生成手段の一例)
37 クラスタ属性特定部(クラスタ属性特定手段の一例)
38 制約設定部(制約設定手段の一例)
39 第2の学習部(第2の生成手段の一例)
41 未知データ分類部(分類手段の一例)
50 WEBサーバ
70 通信端末
200 テキストデータ
210 サンプルデータ
300 カテゴリ管理テーブル
341 対象カテゴリ情報抽出部(カテゴリ情報抽出手段の一例)
342 形態素解析部(形態素解析手段の一例)
343 特徴量決定部(特徴量決定手段の一例)
381 不正解ベクトル生成部
382 データリンク生成部
特表2017―535007号

Claims (14)

  1. 特定のカテゴリに対して、自然言語処理に用いるテキストデータの分類を行う情報処理装置であって、
    前記テキストデータのうち、前記カテゴリの正例または負例のいずれの属性であるかを示す正負ラベルがラベリングされたサンプルデータの特徴量を抽出する特徴量抽出手段と、
    前記抽出された特徴量を用いた教師なし学習に基づいて、第1の学習モデルを生成する第1の生成手段と、
    前記サンプルデータにラベリングされた正負ラベルに基づいて、前記生成された第1の学習モデルに含まれるクラスタが、前記正例または前記負例のいずれの属性を有する集合であるかを特定するクラスタ属性特定手段と、
    前記特定されたクラスタの属性、および当該クラスタに属するサンプルデータにラベリングされた正負ラベルに基づいて、前記分類を行うための制約を設定する制約設定手段と、
    前記設定された制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する第2の生成手段と、
    前記生成された第2の学習モデルに含まれるクラスタに対して、前記テキストデータのうち、前記正負ラベルがラベリングされていない未知データを分類する分類手段と、
    を備える情報処理装置。
  2. 前記制約設定手段は、前記第1の学習モデルに含まれるクラスタに属するサンプルデータのうち、当該クラスタとは前記属性が異なる前記正負ラベルがラベリングされたサンプルデータに対する制約を設定する請求項1に記載の情報処理装置。
  3. 前記制約設定手段は、前記第1の学習モデルに含まれるクラスタのうち、同一のクラスタに属する異なる前記正負ラベルがラベリングされたサンプルデータの間における制約、および異なるクラスタに属する同一の前記正負ラベルがラベリングされたサンプルデータの間における制約を設定する請求項1または2に記載の情報処理装置。
  4. 請求項1または2に記載の情報処理装置であって、
    前記テキストデータのうち、前記正負ラベルがラベリングされた複数のサンプルデータを取得する取得手段を備え、
    前記特徴量抽出手段は、前記取得された複数のサンプルデータの特徴量を抽出し、
    前記第1の生成手段は、前記抽出された複数のサンプルデータの特徴量を用いた前記教師なし学習に基づいて、前記第1の学習モデルを生成する情報処理装置。
  5. 請求項4のいずれか一項に記載の情報処理装置であって、
    前記特徴量抽出手段は、更に、
    前記取得されたサンプルデータに含まれる、前記カテゴリを特定するためのカテゴリ情報を抽出するカテゴリ情報抽出手段と、
    前記取得されたサンプルデータに含まれるテキスト情報に対する形態素解析を行う形態素解析手段と、
    前記抽出されたカテゴリ情報、および前記形態素解析手段による解析結果に基づいて、前記サンプルデータの特徴量を決定する特徴量決定手段と、を備える情報処理装置。
  6. 前記第1の学習モデルに含まれるクラスタは、前記教師なし学習に基づいて生成される第1のクラスタおよび第2のクラスタを含む請求項1乃至5のいずれか一項に記載の情報処理装置。
  7. 前記第2の学習モデルに含まれるクラスタは、前記半教師あり学習に基づいて生成される、前記第1のクラスタに対応する第3のクラスタおよび第2のクラスタに対応する第4のクラスタを含む請求項6に記載の情報処理装置。
  8. 前記教師なし学習は、K-meansクラスタリングによる機械学習である請求項1乃至7のいずれか一項に記載の情報処理装置。
  9. 前記半教師あり学習は、COP K-meansクラスタリングによる機械学習である請求項1乃至8のいずれか一項に記載の情報処理装置。
  10. 前記特定のカテゴリは、会話要素の有無を識別するためのカテゴリである請求項1乃至9のいずれか一項に記載の情報処理装置。
  11. 特定のカテゴリに対して、自然言語処理に用いるテキストデータの分類を行う情報処理装置が実行するデータ分類方法であって、
    前記テキストデータのうち、前記カテゴリの正例または負例のいずれの属性であるかを示す正負ラベルがラベリングされたサンプルデータの特徴量を抽出する特徴量抽出ステップと、
    前記抽出された特徴量を用いた教師なし学習に基づいて、第1の学習モデルを生成する第1の生成ステップと、
    前記サンプルデータにラベリングされた正負ラベルに基づいて、前記生成された第1の学習モデルに含まれるクラスタが、前記正例または前記負例のいずれの属性を有する集合であるかを特定するクラスタ属性特定ステップと、
    前記特定されたクラスタの属性、および当該クラスタに属するサンプルデータにラベリングされた正負ラベルに基づいて、前記分類を行うための制約を設定する制約設定ステップと、
    前記設定された制約を用いた半教師あり学習に基づいて、第2の学習モデルを生成する第2の生成ステップと、
    前記生成された第2の学習モデルに含まれるクラスタに対して、前記テキストデータのうち、前記正負ラベルがラベリングされていない未知データを分類する分類ステップと、
    を実行するデータ分類方法。
  12. 前記制約設定ステップは、前記第1の学習モデルに含まれるクラスタに属するサンプルデータのうち、当該クラスタとは前記属性が異なる前記正負ラベルがラベリングされたサンプルデータに対する制約を設定する請求項11に記載のデータ分類方法。
  13. 前記制約設定ステップは、前記第1の学習モデルに含まれるクラスタのうち、同一のクラスタに属する異なる前記正負ラベルがラベリングされたサンプルデータの間における制約、および異なるクラスタに属する同一の前記正負ラベルがラベリングされたサンプルデータの間における制約を設定する請求項11または12に記載のデータ分類方法。
  14. コンピュータに、請求項11乃至13のいずれか一項に記載の方法を実行させるプログラム。
JP2018166803A 2018-09-06 2018-09-06 情報処理装置、データ分類方法およびプログラム Active JP7087851B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018166803A JP7087851B2 (ja) 2018-09-06 2018-09-06 情報処理装置、データ分類方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018166803A JP7087851B2 (ja) 2018-09-06 2018-09-06 情報処理装置、データ分類方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020042330A JP2020042330A (ja) 2020-03-19
JP7087851B2 true JP7087851B2 (ja) 2022-06-21

Family

ID=69798240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018166803A Active JP7087851B2 (ja) 2018-09-06 2018-09-06 情報処理装置、データ分類方法およびプログラム

Country Status (1)

Country Link
JP (1) JP7087851B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611376B (zh) * 2020-04-16 2023-11-17 西交利物浦大学 基于用户生成文本的无监督学习的用户分类方法及装置
CN111709247B (zh) * 2020-05-20 2023-04-07 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
JP2021186761A (ja) * 2020-06-01 2021-12-13 株式会社クボタ 学習モデル生成装置、推測装置および散気量制御装置
KR102273867B1 (ko) * 2020-11-27 2021-07-06 주식회사 솔리드웨어 비지도학습방법론에 기인한 지도학습모델 생성 방법 및 그 장치와, 이를 이용한 비지도학습모델 해석 방법 및 그 장치
KR102273868B1 (ko) * 2020-11-27 2021-07-06 주식회사 솔리드웨어 비지도학습에서의 사용자의도 반영 방법 및 그 장치
EP4282497A1 (en) * 2021-01-21 2023-11-29 Sony Group Corporation Information processing method, information processing system, information terminal, and computer program
CN112765358B (zh) * 2021-02-23 2023-04-07 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
JPWO2022195690A1 (ja) * 2021-03-15 2022-09-22
CN116049412B (zh) * 2023-03-31 2023-07-14 腾讯科技(深圳)有限公司 文本分类方法、模型训练方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107705A (ja) 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法
JP2013134752A (ja) 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> トピックモデル学習方法、装置、及びプログラム
US20140337005A1 (en) 2013-05-08 2014-11-13 Microsoft Corporation Cross-lingual automatic query annotation
JP2017107391A (ja) 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
JP2017126158A (ja) 2016-01-13 2017-07-20 日本電信電話株式会社 2値分類学習装置、2値分類装置、方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107705A (ja) 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法
JP2013134752A (ja) 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> トピックモデル学習方法、装置、及びプログラム
US20140337005A1 (en) 2013-05-08 2014-11-13 Microsoft Corporation Cross-lingual automatic query annotation
JP2017107391A (ja) 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
JP2017126158A (ja) 2016-01-13 2017-07-20 日本電信電話株式会社 2値分類学習装置、2値分類装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2020042330A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
JP7087851B2 (ja) 情報処理装置、データ分類方法およびプログラム
US20180232362A1 (en) Method and system relating to sentiment analysis of electronic content
US10860948B2 (en) Extending question training data using word replacement
US10649985B1 (en) Systems and methods for processing natural language queries for healthcare data
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US10141006B1 (en) Artificial intelligence system for improving accessibility of digitized speech
US11573995B2 (en) Analyzing the tone of textual data
US11615241B2 (en) Method and system for determining sentiment of natural language text content
Tizard et al. Can a conversation paint a picture? mining requirements in software forums
US11144579B2 (en) Use of machine learning to characterize reference relationship applied over a citation graph
US11494559B2 (en) Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
US20170185913A1 (en) System and method for comparing training data with test data
CN109766441B (zh) 文本分类方法、装置及系统
US11507747B2 (en) Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
CN113407677B (zh) 评估咨询对话质量的方法、装置、设备和存储介质
US20210286945A1 (en) Content modification using natural language processing to include features of interest to various groups
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
US11042576B2 (en) Identifying and prioritizing candidate answer gaps within a corpus
US20220237409A1 (en) Data processing method, electronic device and computer program product
KR102193228B1 (ko) 딥러닝 기반 비재무정보 평가 장치 및 그 방법
US20210294969A1 (en) Generation and population of new application document utilizing historical application documents
CN113343936A (zh) 视频表征模型的训练方法及训练装置
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
US20160259774A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
EP4270239A1 (en) Supervised machine learning method for matching unsupervised data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220523

R151 Written notification of patent or utility model registration

Ref document number: 7087851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151