JP6517537B2 - 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム - Google Patents
単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6517537B2 JP6517537B2 JP2015037057A JP2015037057A JP6517537B2 JP 6517537 B2 JP6517537 B2 JP 6517537B2 JP 2015037057 A JP2015037057 A JP 2015037057A JP 2015037057 A JP2015037057 A JP 2015037057A JP 6517537 B2 JP6517537 B2 JP 6517537B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- dimension
- word vector
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
以降、単語に割り振られたベクトルのことを特別に「単語ベクトル」と呼ぶこととする。つまり、単語wiの単語ベクトルはr´iである。この時、計算機上の計算としては、以下(1)式において表すように、二つの単語wiとwjと間の類似度は、wiと、wjとの単語ベクトル間の内積、あるいは、コサイン距離により定義するのが一般的である。
文書データ更新のシグナルを受信したら処理2Aへ移行する。
単語ベクトルの次元数増加のシグナルを受信したら処理2Bへ移行する。
文書データを読み込み、単語と文脈単語の共起情報を更新する。
文書データに出現した単語数に従って単語数Nの値を更新する。
対象次元dをd=1とセットする。
単語ベクトル及び文脈ベクトルの要素を末尾に一つ増やし初期化する。
次元数DをD=D+1とする。
dの初期値をd=Dとセットする。
後述する(6)式に従って対象次元dに関する最適化問題を解き、単語ベクトルの対象次元dの値を更新する。
dがd=Dならば処理1へ戻る。
dがd=D以外であればd=d+1として処理3へ戻る。
20、220 演算部
26 文書データ更新部
28 次元数増加部
30 反復最適化部
32 文脈ベクトル最適化部
34 単語ベクトル最適化部
36 反復判定部
40 ベクトル記憶部
50、250 出力部
100 単語ベクトル学習装置
200 自然言語処理装置
230 自然言語処理部
232 置換部
234 翻訳部
240 ベクトル記憶部
Claims (10)
- 文書データに基づいて、単語の各々について、当該単語の特徴を表す単語ベクトルを学習する単語ベクトル学習装置であって、
前記単語ベクトルの何れかの次元を順番に対象次元とし、単語の文脈情報と、前記単語ベクトルとに基づいた前記対象次元に関する目的関数であって、前記単語ベクトル中の当該対象次元を除く各次元の値を定数とみなすことで定まる前記目的関数を最適化するように、当該対象次元の値を推定する処理を、前記単語ベクトル中の各次元について繰り返す反復最適化部
を含む単語ベクトル学習装置。 - 前記反復最適化部は、前記単語ベクトル中の各次元について、小さい次元から順番に当該対象次元の値を推定する処理を繰り返す請求項1に記載の単語ベクトル学習装置。
- 前記反復最適化部は、前記単語ベクトルの何れかの次元を順番に対象次元dとし、さらに前記単語ベクトルに対応する単語が他の単語の文脈として出現することを表す文脈ベクトルであって前記単語ベクトルと同じ次元数の文脈ベクトルの次元dを対象次元とし、単語の文脈情報と、前記単語ベクトルと、前記文脈ベクトルとに基づいた前記対象次元dに関する目的関数であって、前記単語ベクトル中、又は前記文脈ベクトル中の当該対象次元dを除く、前記単語ベクトル及び前記文脈ベクトルの各次元の値を定数とみなすことで定まる前記目的関数を最適化するように、当該対象次元の値を推定する処理を、前記単語ベクトル中の各次元について繰り返す請求項1又は請求項2に記載の単語ベクトル学習装置。
- 前記反復最適化部は、
前記単語の各々についての単語ベクトルの対象次元の値を固定とし、前記単語の各々についての単語ベクトル及び前記文脈ベクトルの対象次元と異なる各次元の値と、単語ペアについて一方の単語が他方の単語の文脈として出現した回数とに基づいて、前記対象次元に関する目的関数を最適化するように、前記単語の各々についての文脈ベクトルの対象次元の値を推定する文脈ベクトル最適化部と、
前記単語の各々についての文脈ベクトルの対象次元の値を固定とし、前記単語の各々についての単語ベクトル及び文脈ベクトルの対象次元と異なる各次元の値と、単語ペアについて一方の単語が他方の単語の文脈として出現した回数とに基づいて、前記対象次元に関する目的関数を最適化するように、前記単語の各々についての単語ベクトルの対象次元の値を推定する単語ベクトル最適化部と、
予め定められた反復終了条件を満たすまで、前記文脈ベクトル最適化部による推定、及び前記単語ベクトル最適化部による推定を交互に繰り返し行う反復判定部と、を含み、
前記単語ベクトル及び文脈ベクトルの何れかの次元を順番に対象次元とし、前記文脈ベクトル最適化部、前記単語ベクトル最適化部、及び前記反復判定部による処理を繰り返す請求項3に記載の単語ベクトル学習装置。 - 次元数の更新情報に基づいて前記単語ベクトルの次元数を増加する次元数増加部を更に含み、
前記反復最適化部は、学習された前記単語ベクトルに対して次元数を増やして前記単語ベクトルを学習する場合、前記単語ベクトル中の前記増加した分の各次元を順番に対象次元とし、前記推定する処理を繰り返す請求項1〜請求項4の何れか1項に記載の単語ベクトル学習装置。 - 入力された入力文書に対して、請求項1〜請求項5の何れか1項記載の単語ベクトル学習装置で学習された各単語の前記単語ベクトルを用いて、前記単語ベクトルに基づく単語間の意味的な類似度に基づく自然言語処理を行う自然言語処理部
を含む自然言語処理装置。 - 入力文書に基づき、単語の各々について、当該単語の特徴を表す単語ベクトルの学習を行い、学習された各単語の単語ベクトルを用いて、前記入力文書に対し、前記単語ベクトルに基づく単語間の意味的な類似度に基づく自然言語処理を行う自然言語処理装置であって、
前記学習は、前記単語ベクトルの何れかの次元を順番に対象次元とし、前記入力文書から得られる単語の文脈情報と、前記単語ベクトルとに基づいた前記対象次元に関する目的関数であって、前記単語ベクトル中の当該対象次元を除く各次元の値を定数とみなすことで定まる前記目的関数を最適化するように、当該対象次元の値を推定する処理を、前記単語ベクトル中の各次元について繰り返すことを特徴とする自然言語処理装置。 - 文書データに基づいて、単語の各々について、当該単語の特徴を表す単語ベクトルを学習する単語ベクトル学習装置における単語ベクトル学習方法であって、
反復最適化部が、前記単語ベクトルの何れかの次元を順番に対象次元とし、単語の文脈情報と、前記単語ベクトルとに基づいた前記対象次元に関する目的関数であって、前記単語ベクトル中の当該対象次元を除く各次元の値を定数とみなすことで定まる前記目的関数を最適化するように、当該対象次元の値を推定する処理を、前記単語ベクトル中の各次元について繰り返すステップ
を含む単語ベクトル学習方法。 - コンピュータを、請求項1〜請求項5の何れか1項に記載の単語ベクトル学習装置を構成する各部として機能させるためのプログラム。
- コンピュータを、請求項6又は請求項7に記載の自然言語処理装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015037057A JP6517537B2 (ja) | 2015-02-26 | 2015-02-26 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015037057A JP6517537B2 (ja) | 2015-02-26 | 2015-02-26 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016161968A JP2016161968A (ja) | 2016-09-05 |
JP6517537B2 true JP6517537B2 (ja) | 2019-05-22 |
Family
ID=56845052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015037057A Active JP6517537B2 (ja) | 2015-02-26 | 2015-02-26 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6517537B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018150453A1 (ja) | 2017-02-14 | 2018-08-23 | 三菱電機株式会社 | データ分析装置およびデータ分析方法 |
JP6620950B2 (ja) * | 2017-03-02 | 2019-12-18 | 日本電信電話株式会社 | 単語学習装置、単語学習方法、及び単語学習プログラム |
KR102034346B1 (ko) * | 2017-06-29 | 2019-10-18 | 연세대학교 산학협력단 | 학습 기반의 비속어 탐지 장치 및 방법 |
KR102024300B1 (ko) * | 2017-09-28 | 2019-09-24 | 한국과학기술원 | 개체명 임베딩 시스템 및 방법 |
CN108170667B (zh) * | 2017-11-30 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及设备 |
JP7084761B2 (ja) * | 2018-04-10 | 2022-06-15 | 日本放送協会 | 文生成装置、文生成方法及び文生成プログラム |
JP6936370B1 (ja) * | 2020-09-02 | 2021-09-15 | Scsk株式会社 | 情報処理システム、及び情報処理プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
JP3195752B2 (ja) * | 1997-02-28 | 2001-08-06 | シャープ株式会社 | 検索装置 |
JP4013489B2 (ja) * | 2001-03-02 | 2007-11-28 | 富士ゼロックス株式会社 | 対応カテゴリ検索システムおよび方法 |
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
-
2015
- 2015-02-26 JP JP2015037057A patent/JP6517537B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016161968A (ja) | 2016-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6517537B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
CN107729322B (zh) | 分词方法及装置、建立句子向量生成模型方法及装置 | |
EP3602419B1 (en) | Neural network optimizer search | |
JP6872505B2 (ja) | ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム | |
CN110610234B (zh) | 将外部应用程序集成到深度神经网络中 | |
JP6738769B2 (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
US20220108215A1 (en) | Robust and Data-Efficient Blackbox Optimization | |
CN109299246B (zh) | 一种文本分类方法及装置 | |
CN110874392B (zh) | 基于深度双向注意力机制的文本网络信息融合嵌入方法 | |
CN113591496A (zh) | 一种双语词语对齐方法及系统 | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN111310996A (zh) | 基于图自编码网络的用户信任关系预测方法及系统 | |
CN110838021A (zh) | 转化率预估方法、装置、电子设备及存储介质 | |
JP6698061B2 (ja) | 単語ベクトル変換装置、方法、及びプログラム | |
CN110399619A (zh) | 面向神经机器翻译的位置编码方法及计算机存储介质 | |
CN115908775A (zh) | 化学结构式的识别方法、装置、存储介质及电子设备 | |
JP5503577B2 (ja) | データ極性判定装置、方法、及びプログラム | |
CN115066689A (zh) | 细粒度的随机神经架构搜索 | |
JP6482084B2 (ja) | 文法規則フィルターモデル学習装置、文法規則フィルター装置、構文解析装置、及びプログラム | |
JP2019061623A (ja) | パラメータ推定装置、方法、及びプログラム | |
WO2022185457A1 (ja) | 特徴量抽出装置、学習装置、特徴量抽出方法、学習方法、及びプログラム | |
JP2013186656A (ja) | 自然言語解析処理装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181002 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6517537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |