JP7006402B2 - クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 - Google Patents
クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 Download PDFInfo
- Publication number
- JP7006402B2 JP7006402B2 JP2018046864A JP2018046864A JP7006402B2 JP 7006402 B2 JP7006402 B2 JP 7006402B2 JP 2018046864 A JP2018046864 A JP 2018046864A JP 2018046864 A JP2018046864 A JP 2018046864A JP 7006402 B2 JP7006402 B2 JP 7006402B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- words
- clustering
- learning
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、実施例1にかかるクラスタリング装置を説明する図である。図1に示すように、クラスタリング装置は、多義性がある単語(多義語)を含む文書から単語を抽出し、各文書を使った単語の分散表現の学習過程で、分散表現の移動ベクトルをクラスタリングするコンピュータ装置の一例である。
図3は、実施例1にかかるクラスタリング装置10の機能構成を示す機能ブロック図である。図3に示すように、クラスタリング装置10は、通信部11、記憶部12、制御部20を有する。
図9は、クラスタリング処理の流れを示すフローチャートである。図9に示すように、クラスタリング装置10の抽出部21は、文書DB13に記憶される各文書から単語を抽出し、単語の辞書を生成するとともに(S101)、と各単語を含む文書の一覧である対応表を生成する(S102)。
上述したように、クラスタリング装置10は、各文章を使った単語の分散表現の学習過程で、分散表現の移動ベクトルをクラスタリングすることができる。そして、クラスタリング装置10は、各単語における移動ベクトルをクラスタリングし、意味の数を推定することで、多義語の異なる意味ごとに異なるラベルを付与することができる。したがって、クラスタリング装置10は、全ての単語において分散表現の学習過程の移動ベクトルをクラスタリングすることで、精度の高い意味表現学習を実行することができ、多義語の分散表現の精度を向上させることができる。
上記実施例では、ランダムに設定した一つの起点を用いた例を説明したが、ランダムに起点を決める場合、学習過程の移動方向がはっきりせず、クラスタリングの精度が低下することも考えられる。図10は、起点が1つの場合の精度劣化を説明する図である。学習の過程で図10の(a)に示すように本来のベクトルを跨ぐように移動すると、意味Bを含む文章の移動がはっきりしなくなり、クラスタリングの精度が劣化する。また、図10の(b)に示すように、学習している単語の意味(意味A、意味B)が複数あって、それぞれのベクトルの直線上の同じ側に起点が設定されてしまうと、学習による移動方向が同一になるので、各単語が区別できなくなる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
図11は、ハードウェア構成例を示す図である。図11に示すように、クラスタリング装置10は、ネットワーク接続装置10a、入力装置10b、HDD(Hard Disk Drive)10c、メモリ10d、プロセッサ10eを有する。また、図11に示した各部は、バス等で相互に接続される。
11 通信部
12 記憶部
13 文書DB
14 クラスタリング結果DB
20 制御部
21 抽出部
22 起点決定部
23 学習部
24 移動ベクトル算出部
25 分類部
26 ベクトル生成部
Claims (6)
- ベクトル空間における単語の分散表現を生成するクラスタリングプログラムであって、
学習開始段階において、複数の単語それぞれの前記ベクトル空間におけるベクトル値を記録し、
学習後の段階において、前記複数の単語それぞれの前記ベクトル空間でのベクトル値を記録し、
前記複数の単語の、学習前後のベクトル値の変化状況に基づき、前記複数の単語をクラスタリングし、
クラスタリング結果に基づき、前記複数の単語に含まれる多義語に対し、語義ごとに分離したベクトルを生成する、
処理をコンピュータに実行させるクラスタリングプログラム。 - 複数の文書に含まれる単語について、前記ベクトル空間における起点を設定し、
前記単語を含む前記複数の文書それぞれを入力として、学習によって前記起点から移動した移動後のベクトルを取得し、
前記複数の文書それぞれを入力したときの前記起点と前記移動後のベクトルとの差分を移動ベクトルとして算出し、
前記複数の文書それぞれの移動ベクトル間の距離に基づいて、前記複数の文書をクラスタリングする処理を前記コンピュータに実行させる請求項1に記載のクラスタリングプログラム。 - クラスタリングされた文書に含まれる前記単語について、同一のクラスタリングには同一のラベルであって、異なるクラスタリング間では異なるラベルである、単語ラベルを付与する処理を前記コンピュータに実行させる請求項2に記載のクラスタリングプログラム。
- 前記ベクトル空間でランダムに選択したベクトル、すべての要素がゼロであるゼロベクトル、または、予め定めた学習手法で学習して得られたベクトルを前記起点に設定する処理を前記コンピュータに実行させる請求項2に記載のクラスタリングプログラム。
- ベクトル空間における単語の分散表現を生成するクラスタリング方法であって、
学習開始段階において、複数の単語それぞれの前記ベクトル空間におけるベクトル値を記録し、
学習後の段階において、前記複数の単語それぞれの前記ベクトル空間でのベクトル値を記録し、
前記複数の単語の、学習前後のベクトル値の変化状況に基づき、前記複数の単語をクラスタリングし、
クラスタリング結果に基づき、前記複数の単語に含まれる多義語に対し、語義ごとに分離したベクトルを生成する、
処理をコンピュータが実行するクラスタリング方法。 - ベクトル空間における単語の分散表現を生成するクラスタリング装置であって、
学習開始段階において、複数の単語それぞれの前記ベクトル空間におけるベクトル値を記録する第1記録部と、
学習後の段階において、前記複数の単語それぞれの前記ベクトル空間でのベクトル値を記録する第2記録部と、
前記複数の単語の、学習前後のベクトル値の変化状況に基づき、前記複数の単語をクラスタリングする分類部と、
クラスタリング結果に基づき、前記複数の単語に含まれる多義語に対し、語義ごとに分離したベクトルを生成する生成部と、
を有するクラスタリング装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046864A JP7006402B2 (ja) | 2018-03-14 | 2018-03-14 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
US16/290,659 US11144724B2 (en) | 2018-03-14 | 2019-03-01 | Clustering of words with multiple meanings based on generating vectors for each meaning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046864A JP7006402B2 (ja) | 2018-03-14 | 2018-03-14 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159918A JP2019159918A (ja) | 2019-09-19 |
JP7006402B2 true JP7006402B2 (ja) | 2022-01-24 |
Family
ID=67904044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018046864A Active JP7006402B2 (ja) | 2018-03-14 | 2018-03-14 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11144724B2 (ja) |
JP (1) | JP7006402B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7519793B2 (ja) * | 2020-03-19 | 2024-07-22 | 株式会社野村総合研究所 | 自然言語処理装置およびプログラム |
US20220189333A1 (en) * | 2020-12-11 | 2022-06-16 | Iportfolio Inc. | Method of generating book database for reading evaluation |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139708A (ja) | 2004-11-15 | 2006-06-01 | Ricoh Co Ltd | テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム |
JP2009043197A (ja) | 2007-08-10 | 2009-02-26 | Olympus Corp | 判別装置 |
JP2010182267A (ja) | 2009-02-09 | 2010-08-19 | Toshiba Corp | コンテンツ分類装置、方法及びプログラム |
JP2010198269A (ja) | 2009-02-25 | 2010-09-09 | Yahoo Japan Corp | 意味ドリフトの発生評価方法及び装置 |
JP2011186735A (ja) | 2010-03-08 | 2011-09-22 | Mitsubishi Electric Corp | 文書検索装置及び文書検索プログラム |
CN103970729A (zh) | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
US20160196258A1 (en) | 2015-01-04 | 2016-07-07 | Huawei Technologies Co., Ltd. | Semantic Similarity Evaluation Method, Apparatus, and System |
JP2017040522A (ja) | 2015-08-19 | 2017-02-23 | 株式会社Screenホールディングス | 教示支援方法および画像分類方法 |
JP6232607B1 (ja) | 2017-05-29 | 2017-11-22 | 和之 白井 | 特許要件適否予測装置および特許要件適否予測プログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134532A (en) * | 1997-11-14 | 2000-10-17 | Aptex Software, Inc. | System and method for optimal adaptive matching of users to most relevant entity and information in real-time |
US6256629B1 (en) * | 1998-11-25 | 2001-07-03 | Lucent Technologies Inc. | Method and apparatus for measuring the degree of polysemy in polysemous words |
JP2001331515A (ja) | 2000-05-23 | 2001-11-30 | Sigmatics Inc | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 |
JP2006048286A (ja) * | 2004-08-03 | 2006-02-16 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US7917496B2 (en) * | 2007-12-14 | 2011-03-29 | Yahoo! Inc. | Method and apparatus for discovering and classifying polysemous word instances in web documents |
US9092422B2 (en) * | 2009-12-30 | 2015-07-28 | Google Inc. | Category-sensitive ranking for text |
JP5751251B2 (ja) | 2010-03-26 | 2015-07-22 | 日本電気株式会社 | 意味抽出装置、意味抽出方法、および、プログラム |
US8694565B2 (en) * | 2011-06-16 | 2014-04-08 | Microsoft Corporation | Language integrated query over vector spaces |
JP5754018B2 (ja) | 2011-07-11 | 2015-07-22 | 日本電気株式会社 | 多義語抽出システム、多義語抽出方法、およびプログラム |
US20130085745A1 (en) * | 2011-10-04 | 2013-04-04 | Salesforce.Com, Inc. | Semantic-based approach for identifying topics in a corpus of text-based items |
JP2013105309A (ja) * | 2011-11-14 | 2013-05-30 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
JP5530020B1 (ja) * | 2013-11-01 | 2014-06-25 | 株式会社日立パワーソリューションズ | 異常診断システム及び異常診断方法 |
US9632999B2 (en) * | 2015-04-03 | 2017-04-25 | Klangoo, Sal. | Techniques for understanding the aboutness of text based on semantic analysis |
US10423891B2 (en) * | 2015-10-19 | 2019-09-24 | International Business Machines Corporation | System, method, and recording medium for vector representation of words in a language |
US9672207B2 (en) * | 2015-10-19 | 2017-06-06 | International Business Machines Corporation | System, method, and recording medium for determining and discerning items with multiple meanings |
US10599731B2 (en) * | 2016-04-26 | 2020-03-24 | Baidu Usa Llc | Method and system of determining categories associated with keywords using a trained model |
US10558747B2 (en) * | 2016-11-03 | 2020-02-11 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
JP6930180B2 (ja) * | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
US10223354B2 (en) * | 2017-04-04 | 2019-03-05 | Sap Se | Unsupervised aspect extraction from raw data using word embeddings |
US11048870B2 (en) * | 2017-06-07 | 2021-06-29 | International Business Machines Corporation | Domain concept discovery and clustering using word embedding in dialogue design |
US10593422B2 (en) * | 2017-12-01 | 2020-03-17 | International Business Machines Corporation | Interaction network inference from vector representation of words |
-
2018
- 2018-03-14 JP JP2018046864A patent/JP7006402B2/ja active Active
-
2019
- 2019-03-01 US US16/290,659 patent/US11144724B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139708A (ja) | 2004-11-15 | 2006-06-01 | Ricoh Co Ltd | テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム |
JP2009043197A (ja) | 2007-08-10 | 2009-02-26 | Olympus Corp | 判別装置 |
JP2010182267A (ja) | 2009-02-09 | 2010-08-19 | Toshiba Corp | コンテンツ分類装置、方法及びプログラム |
JP2010198269A (ja) | 2009-02-25 | 2010-09-09 | Yahoo Japan Corp | 意味ドリフトの発生評価方法及び装置 |
JP2011186735A (ja) | 2010-03-08 | 2011-09-22 | Mitsubishi Electric Corp | 文書検索装置及び文書検索プログラム |
CN103970729A (zh) | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
US20160196258A1 (en) | 2015-01-04 | 2016-07-07 | Huawei Technologies Co., Ltd. | Semantic Similarity Evaluation Method, Apparatus, and System |
JP2017040522A (ja) | 2015-08-19 | 2017-02-23 | 株式会社Screenホールディングス | 教示支援方法および画像分類方法 |
JP6232607B1 (ja) | 2017-05-29 | 2017-11-22 | 和之 白井 | 特許要件適否予測装置および特許要件適否予測プログラム |
Non-Patent Citations (3)
Title |
---|
富田 準二、外2名,多義性を考慮した拡張固有表現のクラス判定手法,情報処理学会論文誌 論文誌トランザクション 2011(平成23)年度(2),日本,一般社団法人情報処理学会,2012年04月15日,第4巻,第4号,p.34-47 |
村田真樹 他4名,SENSEVAL2J辞書タスクでのCRLの取り組み,自然言語処理,日本,言語処理学会,2003年04月10日,第10巻第3号,115-133頁 |
菅原 拓夢、外3名,単語の分散表現を用いた語義曖昧性解消,言語処理学会第21回年次大会 発表論文集,日本,言語処理学会,2015年03月09日,p.648-651 |
Also Published As
Publication number | Publication date |
---|---|
US20190286703A1 (en) | 2019-09-19 |
US11144724B2 (en) | 2021-10-12 |
JP2019159918A (ja) | 2019-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3467723B1 (en) | Machine learning based network model construction method and apparatus | |
US10891322B2 (en) | Automatic conversation creator for news | |
CN109710744B (zh) | 一种数据匹配方法、装置、设备及存储介质 | |
US11954881B2 (en) | Semi-supervised learning using clustering as an additional constraint | |
JP7529797B2 (ja) | オンラインゲームのためのユーザ入力テキストの言語検出 | |
Shams et al. | A non-parametric LDA-based induction method for sentiment analysis | |
JP2012079286A (ja) | 構造予測モデル学習装置、方法、プログラム、及び記録媒体 | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
US10198497B2 (en) | Search term clustering | |
JP2019185551A (ja) | アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法 | |
JP2006252333A (ja) | データ処理方法、データ処理装置およびそのプログラム | |
JP2019159576A (ja) | 学習プログラム、学習方法および学習装置 | |
JP6633476B2 (ja) | 属性推定装置、属性推定方法および属性推定プログラム | |
JP2022500808A (ja) | 文生成方法と装置、電子機器及びプログラム | |
JP7006402B2 (ja) | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 | |
CN107765883A (zh) | 输入法的候选词语的排序方法和排序设备 | |
CN117252665B (zh) | 业务推荐方法、装置、电子设备及存储介质 | |
JP2018041300A (ja) | 機械学習用モデル生成装置及びプログラム。 | |
CN104376120B (zh) | 一种信息检索方法及系统 | |
CN113821687A (zh) | 一种内容检索方法、装置和计算机可读存储介质 | |
Wu et al. | Multimodal affect models: An investigation of relative salience of audio and visual cues for emotion prediction | |
JP2012194691A (ja) | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 | |
JP7099254B2 (ja) | 学習方法、学習プログラム及び学習装置 | |
CN114529007A (zh) | 资源操作数据预测方法、预测模型训练方法及装置 | |
JP5255484B2 (ja) | クラスタリング距離学習装置およびそのプログラム、ならびに、クラスタリング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7006402 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |