JP6930180B2 - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP6930180B2 JP6930180B2 JP2017068552A JP2017068552A JP6930180B2 JP 6930180 B2 JP6930180 B2 JP 6930180B2 JP 2017068552 A JP2017068552 A JP 2017068552A JP 2017068552 A JP2017068552 A JP 2017068552A JP 6930180 B2 JP6930180 B2 JP 6930180B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- label
- cluster
- context
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施例における学習装置の一例について、図1を用いて説明する。図1は、実施例1における学習装置の一例を示す図である。図1に示すように、本実施例における学習装置100は、記憶部120と、分析部130とを有する。
次に、本実施例における学習装置100による学習処理について、図11を用いて説明する。図11は、実施例1における学習処理の一例を示すフローチャートである。図11に示すように、学習装置100の辞書生成部131は、例えば図示しない操作部を通じて、図示しないユーザから、学習開始の指示を受け付けるまで待機する(S100:No)。辞書生成部131は、学習開始の指示を受け付けたと判定した場合(S100:Yes)、学習用コーパス121から文書を取得して単語を抽出し、表層単語辞書122に記憶する(S101)。
以上説明したように、本実施例における学習装置は、複数の文書を、当該文書に含まれる単語を用いてクラスタに分類する際に、クラスタの分類に用いられた各単語にラベルを付与し、各単語に付与されたラベルを用いて、複数の文書をクラスタに分類する。また、本実施例における学習装置は、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、第1の単語に付与されたラベルと共通するラベルを第2の単語に付与する。これにより、入力文書数が少ない場合においても、分散学習に用いる入力文書数を確保できる。
本実施例における学習装置の一例について説明する。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。また、本実施例における学習装置については図示を省略する。
以上説明したように、本実施例における学習装置は、第1の単語を含む文書が第1のクラスタと第2のクラスタとに分類された場合、第1のクラスタを構成する文書に含まれる第1の単語に対して第1のラベルを付与する。また、本実施例における学習装置は、第2のクラスタを構成する文書に含まれる第1の単語に対して第1のラベルとは異なる第2のラベルを付与する。本実施例における学習装置は、第2の単語を用いて分類されたクラスタが第1のクラスタと類似する場合は第1のラベルを第2の単語に付与し、第2の単語を用いて分類されたクラスタが第2のクラスタと類似する場合は第2のラベルを第2の単語に付与する。これにより、同じ表層の単語を細分化するような構成において、分散学習に用いる入力文書数を増加できる。
本実施例における学習装置の一例について、図15を用いて説明する。図15は、実施例3における学習装置の一例を示す図である。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。
次に、本実施例における学習装置300による学習処理について、図17を用いて説明する。図17は、実施例3における学習処理の一例を示すフローチャートである。なお、以下の説明において、図11に示すステップと同じ符号については同様のステップであるため、詳細な説明を省略する。
以上説明したように、本実施例における学習装置は、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が閾値以上であると判定した場合、共通するラベルを付与することを抑制する。また、本実施例における学習装置は、第1の単語を用いて分類されたクラスタのサンプルの密度と、第2の単語を用いて分類されたクラスタのサンプルの密度との差異が閾値以上であると判定した場合、共通するラベルを付与することを抑制する。これにより、過剰な意味ラベルの付与を抑制できる。
また、各実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
図19は、コンピュータのハードウェア構成例を示す図である。図19に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータ入力を受け付ける入力装置502と、モニタ503とを有する。また、コンピュータ500は、記憶媒体からプログラムなどを読み取る媒体読取装置504と、他の装置と接続するためのインターフェース装置505と、他の装置と無線により接続するための無線通信装置506とを有する。また、コンピュータ500は、各種情報を一時記憶するRAM(Random Access Memory)507と、ハードディスク装置508とを有する。また、各装置501〜508は、バス509に接続される。
120、220、320、420 記憶部
121 学習用コーパス
122 表層単語辞書
123 コンテキスト記憶部
124 クラスタ記憶部
125、225 意味ラベル記憶部
326 単語意味辞書
327、427 閾値記憶部
130、230、330、430 分析部
131 辞書生成部
132 コンテキスト生成部
133 クラスタリング処理部
134、234、334 ラベル付与部
135 出力部
436 閾値算出部
Claims (9)
- 複数の文書から単語を抽出して表層単語辞書を生成する辞書生成部と、
生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成するコンテキスト生成部と、
前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類するクラスタリング処理部と、
分類された前記クラスタのうち、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、前記第1の単語と前記第2の単語に共通するラベルを付与し、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとが類似しない場合に、前記第1の単語と前記第2の単語に異なるラベルを付与するラベル付与部と、
を有し、
前記コンテキスト生成部は、付与された前記ラベルを用いて前記コンテキストを更新し、
前記クラスタリング処理部は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
ことを特徴とする学習装置。 - 前記ラベル付与部は、分類された複数の前記クラスタの重心間の距離が第1の閾値未満であると判定した場合、又は、複数の前記クラスタの分散の差異が第2の閾値未満であると判定した場合に、判定対象の複数の前記クラスタが相互に類似すると判定することを特徴とする請求項1に記載の学習装置。
- 相互に類似する意味を有する単語を用いて分類された各クラスタの重心間の距離を用いて前記第1の閾値を算出し、又は前記各クラスタの分散の差異を用いて前記第2の閾値を算出する閾値算出部をさらに有することを特徴とする請求項2に記載の学習装置。
- 前記ラベル付与部は、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が第3の閾値以上であると判定した場合、又は前記第1の単語を用いて分類されたクラスタのサンプルの密度と、前記第2の単語を用いて分類されたクラスタのサンプルの密度との差異が第4の閾値以上であると判定した場合、前記第2の単語に、前記第1の単語と共通するラベルを付与することを抑制することを特徴とする請求項1〜3のいずれか1つに記載の学習装置。
- 前記単語の意味を記憶する単語意味辞書をさらに有し、
前記ラベル付与部は、前記第1の単語及び前記第2の単語が、相互に類似する意味を有することが前記単語意味辞書に記載されていると判定される場合に、前記第1の単語を用いて分類されたクラスタと前記第2の単語を用いて分類されたクラスタとが相互に類似すると判定することを特徴とする請求項1〜4のいずれか1つに記載の学習装置。 - さらに、前記ラベルごとに、前記クラスタに含まれるコンテキストを出力する出力部を有する、
ことを特徴とする請求項1〜5のいずれか1つに記載の学習装置。 - 前記ラベル付与部は、前記第1の単語を含む文書が第1のクラスタと第2のクラスタとに分類された場合、前記第1のクラスタを構成する文書に含まれる前記第1の単語に対して第1のラベルを付与し、前記第2のクラスタを構成する文書に含まれる前記第1の単語に対して前記第1のラベルとは異なる第2のラベルを付与し、前記第2の単語を用いて分類されたクラスタが前記第1のクラスタと類似する場合は前記第1のラベルを前記第2の単語に付与し、前記第2の単語を用いて分類されたクラスタが前記第2のクラスタと類似する場合は前記第2のラベルを前記第2の単語に付与することを特徴とする請求項1〜6のいずれか1つに記載の学習装置。
- 複数の文書から単語を抽出して表層単語辞書を生成し、
生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成し、
前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類し、
分類された前記クラスタのうち、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、前記第1の単語と前記第2の単語に共通するラベルを付与し、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとが類似しない場合に、前記第1の単語と前記第2の単語に異なるラベルを付与する、
処理をコンピュータが実行し、
前記コンテキストを生成する処理は、付与された前記ラベルを用いて前記コンテキストを更新し、
前記分類する処理は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
ことを特徴とする学習方法。 - 複数の文書から単語を抽出して表層単語辞書を生成し、
生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成し、
前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類し、
分類された前記クラスタのうち、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、前記第1の単語と前記第2の単語に共通するラベルを付与し、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとが類似しない場合に、前記第1の単語と前記第2の単語に異なるラベルを付与する、
処理をコンピュータに実行させ、
前記コンテキストを生成する処理は、付与された前記ラベルを用いて前記コンテキストを更新し、
前記分類する処理は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
ことを特徴とする学習プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017068552A JP6930180B2 (ja) | 2017-03-30 | 2017-03-30 | 学習装置、学習方法及び学習プログラム |
US15/919,811 US10747955B2 (en) | 2017-03-30 | 2018-03-13 | Learning device and learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017068552A JP6930180B2 (ja) | 2017-03-30 | 2017-03-30 | 学習装置、学習方法及び学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018169940A JP2018169940A (ja) | 2018-11-01 |
JP6930180B2 true JP6930180B2 (ja) | 2021-09-01 |
Family
ID=63670500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017068552A Active JP6930180B2 (ja) | 2017-03-30 | 2017-03-30 | 学習装置、学習方法及び学習プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10747955B2 (ja) |
JP (1) | JP6930180B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6930179B2 (ja) * | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
JP7006402B2 (ja) * | 2018-03-14 | 2022-01-24 | 富士通株式会社 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
US10810513B2 (en) * | 2018-10-25 | 2020-10-20 | The Boeing Company | Iterative clustering for machine learning model building |
GB201916800D0 (en) * | 2019-11-19 | 2020-01-01 | Ibm | Detecting errors in spreadsheets |
GB201916803D0 (en) | 2019-11-19 | 2020-01-01 | Ibm | Identifying content and structure of olap dimensions from a spreadsheet |
GB201916804D0 (en) | 2019-11-19 | 2020-01-01 | Ibm | Generating an OLAP model from a spreadsheet |
GB201916801D0 (en) | 2019-11-19 | 2020-01-01 | Ibm | Identifying data relationships from a spreadsheet |
JP7358981B2 (ja) * | 2019-12-27 | 2023-10-11 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3643516B2 (ja) * | 2000-03-23 | 2005-04-27 | 日本電信電話株式会社 | 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 |
AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
US6751614B1 (en) * | 2000-11-09 | 2004-06-15 | Satyam Computer Services Limited Of Mayfair Centre | System and method for topic-based document analysis for information filtering |
WO2003014975A1 (en) * | 2001-08-08 | 2003-02-20 | Quiver, Inc. | Document categorization engine |
US20040013302A1 (en) * | 2001-12-04 | 2004-01-22 | Yue Ma | Document classification and labeling using layout graph matching |
US7031909B2 (en) * | 2002-03-12 | 2006-04-18 | Verity, Inc. | Method and system for naming a cluster of words and phrases |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US8056001B2 (en) * | 2003-04-10 | 2011-11-08 | Hewlett-Packard Development Company, L.P. | Method and apparatus for classifying elements of a document |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
JP2005092442A (ja) | 2003-09-16 | 2005-04-07 | Mitsubishi Research Institute Inc | 多次元空間モデル表現装置および多次元空間モデル表現方法 |
CN100462961C (zh) * | 2004-11-09 | 2009-02-18 | 国际商业机器公司 | 组织多个文档的方法以及显示多个文档的设备 |
US7945437B2 (en) * | 2005-02-03 | 2011-05-17 | Shopping.Com | Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language |
US7937345B2 (en) * | 2006-07-12 | 2011-05-03 | Kofax, Inc. | Data classification methods using machine learning techniques |
EP1939797A1 (en) * | 2006-12-23 | 2008-07-02 | NTT DoCoMo, Inc. | Method and apparatus for automatically determining a semantic classification of context data |
US9317593B2 (en) * | 2007-10-05 | 2016-04-19 | Fujitsu Limited | Modeling topics using statistical distributions |
US7996390B2 (en) * | 2008-02-15 | 2011-08-09 | The University Of Utah Research Foundation | Method and system for clustering identified forms |
US8566349B2 (en) * | 2009-09-28 | 2013-10-22 | Xerox Corporation | Handwritten document categorizer and method of training |
US9928244B2 (en) * | 2010-05-18 | 2018-03-27 | Integro, Inc. | Electronic document classification |
US8751496B2 (en) * | 2010-11-16 | 2014-06-10 | International Business Machines Corporation | Systems and methods for phrase clustering |
US8510306B2 (en) * | 2011-05-30 | 2013-08-13 | International Business Machines Corporation | Faceted search with relationships between categories |
US9430464B2 (en) * | 2013-12-20 | 2016-08-30 | International Business Machines Corporation | Identifying unchecked criteria in unstructured and semi-structured data |
US9805115B1 (en) * | 2014-03-13 | 2017-10-31 | Symantec Corporation | Systems and methods for updating generic file-classification definitions |
US9672279B1 (en) * | 2014-09-30 | 2017-06-06 | EMC IP Holding Company LLC | Cluster labeling system for documents comprising unstructured text data |
US10176253B2 (en) * | 2015-01-28 | 2019-01-08 | International Business Machines Corporation | Fusion of cluster labeling algorithms by analyzing sub-clusters |
US10095686B2 (en) * | 2015-04-06 | 2018-10-09 | Adobe Systems Incorporated | Trending topic extraction from social media |
US10339921B2 (en) * | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
US10691739B2 (en) * | 2015-12-22 | 2020-06-23 | Mcafee, Llc | Multi-label content recategorization |
-
2017
- 2017-03-30 JP JP2017068552A patent/JP6930180B2/ja active Active
-
2018
- 2018-03-13 US US15/919,811 patent/US10747955B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018169940A (ja) | 2018-11-01 |
US20180285347A1 (en) | 2018-10-04 |
US10747955B2 (en) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6930180B2 (ja) | 学習装置、学習方法及び学習プログラム | |
US7031909B2 (en) | Method and system for naming a cluster of words and phrases | |
CN103678418B (zh) | 信息处理方法和信息处理设备 | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
US10956472B2 (en) | Dynamic load balancing based on question difficulty | |
JP6933736B2 (ja) | 知識グラフにおけるデータモデルを取得する方法、装置、機器及び媒体 | |
JP2024101661A (ja) | 求職者検索システム、情報処理方法及びプログラム | |
KR101494795B1 (ko) | 문서를 매트릭스로 표현하는 방법 | |
Raghav et al. | Text and citations based cluster analysis of legal judgments | |
JP2020140468A (ja) | 情報処理装置及びプログラム | |
US10643152B2 (en) | Learning apparatus and learning method | |
Zhou et al. | Geo-location inference on news articles via multimodal pLSA | |
JP6282714B1 (ja) | 算出装置、算出方法、及び算出プログラム | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 | |
JP2006099753A (ja) | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 | |
Ravinuthala et al. | Thematic text graph: A text representation technique for keyword weighting in extractive summarization system | |
JP2016045552A (ja) | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 | |
US8886651B1 (en) | Thematic clustering | |
JP2019159918A (ja) | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 | |
JPH11282874A (ja) | 情報フィルタリング方法および装置 | |
JP7168334B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP7042720B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6159002B1 (ja) | 推定装置、推定方法及び推定プログラム | |
Zhao et al. | Applying lexical link analysis to discover insights from public information on COVID-19 | |
JP6887002B2 (ja) | 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6930180 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |