JP4325938B2 - 単語配置装置、単語配置方法およびプログラム - Google Patents
単語配置装置、単語配置方法およびプログラム Download PDFInfo
- Publication number
- JP4325938B2 JP4325938B2 JP2004302254A JP2004302254A JP4325938B2 JP 4325938 B2 JP4325938 B2 JP 4325938B2 JP 2004302254 A JP2004302254 A JP 2004302254A JP 2004302254 A JP2004302254 A JP 2004302254A JP 4325938 B2 JP4325938 B2 JP 4325938B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- category
- different
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
冨浦洋一、田中省作、日高達著「共起データに基づく名詞のn次元空間への配置」情報処理学会研究報告、Vol.SIG−NL 154、p.71−76、2003年3月6日
μr=0 (1≦r≦k)
[制約条件2] 全異なり単語のベクトルの各成分の分散を1とし、異なる成分間の共分散を0とする。
[制約条件4] 全異なり単語のベクトルの各成分の分散を1とする。
[制約条件4’] 検索されなかった全異なり単語のベクトルの各成分の分散を1とする。
実際は、上記制約条件3’、4’の下で、クラスタ間変動
20…単語重み算出手段、
30…データベース検索手段、
40…データベース(概念ベース)、
50…ベクトル付与手段。
Claims (6)
- 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置装置において、
文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手段と;
任意のカテゴリcと、上記形態素解析手段が得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手段と;
各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与手段と;
を有することを特徴とする単語配置装置。 - 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置装置において、
文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手段と;
任意のカテゴリcと、上記形態素解析手段が得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手段と;
各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索手段と;
上記データベース検索手段で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与手段と;
を有することを特徴とする単語配置装置。 - 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置方法において、
文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析工程と;
任意のカテゴリcと、上記形態素解析工程で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出工程と;
各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与工程と;
を有することを特徴とする単語配置方法。 - 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置方法において、
文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析工程と;
任意のカテゴリcと、上記形態素解析工程で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出工程と;
各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索工程と;
上記データベース検索工程で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与工程と;
を有することを特徴とする単語配置方法。 - 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置するプログラムであって、
文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手順と;
任意のカテゴリcと、上記形態素解析手順で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手順と;
各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与手順と;
をコンピュータに実行させるプログラム。 - 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置するプログラムであって、
文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手順と;
任意のカテゴリcと、上記形態素解析手順で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手順と;
各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索手順と;
上記データベース検索手順で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与手順と;
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004302254A JP4325938B2 (ja) | 2004-10-15 | 2004-10-15 | 単語配置装置、単語配置方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004302254A JP4325938B2 (ja) | 2004-10-15 | 2004-10-15 | 単語配置装置、単語配置方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006113917A JP2006113917A (ja) | 2006-04-27 |
JP4325938B2 true JP4325938B2 (ja) | 2009-09-02 |
Family
ID=36382377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004302254A Active JP4325938B2 (ja) | 2004-10-15 | 2004-10-15 | 単語配置装置、単語配置方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4325938B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5116580B2 (ja) * | 2008-06-25 | 2013-01-09 | 日本電信電話株式会社 | 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
JP6467893B2 (ja) * | 2014-12-03 | 2019-02-13 | 日本電気株式会社 | 情報処理システム、情報処理方法、及び、プログラム |
JP6498095B2 (ja) * | 2015-10-15 | 2019-04-10 | 日本電信電話株式会社 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
-
2004
- 2004-10-15 JP JP2004302254A patent/JP4325938B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006113917A (ja) | 2006-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2015299050B2 (en) | Methods and systems for mapping data items to sparse distributed representations | |
JP4571404B2 (ja) | データ処理方法、データ処理システムおよびプログラム | |
Gerani et al. | Proximity-based opinion retrieval | |
CN108733682B (zh) | 一种生成多文档摘要的方法及装置 | |
JP2007087401A (ja) | インデクシングシステム、インデクシング方法、質問テンプレート生成システム、質問テンプレート生成方法、及びプログラム | |
JP4711761B2 (ja) | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 | |
Li et al. | Integration of knowledge graph embedding into topic modeling with hierarchical dirichlet process | |
Huang et al. | A patent keywords extraction method using TextRank model with prior public knowledge | |
Litvak et al. | Cross-lingual training of summarization systems using annotated corpora in a foreign language | |
JP2006338342A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム | |
JP2006331245A (ja) | 情報検索装置、情報検索方法およびプログラム | |
Amalia et al. | An efficient text classification using fasttext for bahasa indonesia documents classification | |
Basmatkar et al. | An overview of contextual topic modeling using bidirectional encoder representations from transformers | |
Suresh Kumar et al. | Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification | |
Bhopale et al. | Leveraging Neural Network Phrase Embedding Model for Query Reformulation in Ad-hoc Biomedical Information Retrieval | |
JP2001331515A (ja) | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 | |
JP4325938B2 (ja) | 単語配置装置、単語配置方法およびプログラム | |
Wei et al. | Finding related publications: extending the set of terms used to assess article similarity | |
Chu-Carroll et al. | An experimental study of the impact of information extraction accuracy on semantic search performance | |
JP2010128598A (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
Chakraborti et al. | Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization | |
Rizun et al. | Methodology of constructing and analyzing the hierarchical contextually-oriented corpora | |
Kim et al. | Improving patent search by search result diversification | |
Chavula et al. | Ranking by language similarity for resource scarce southern bantu languages | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060814 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090605 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4325938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130619 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140619 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |