JP6698061B2 - 単語ベクトル変換装置、方法、及びプログラム - Google Patents
単語ベクトル変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6698061B2 JP6698061B2 JP2017216644A JP2017216644A JP6698061B2 JP 6698061 B2 JP6698061 B2 JP 6698061B2 JP 2017216644 A JP2017216644 A JP 2017216644A JP 2017216644 A JP2017216644 A JP 2017216644A JP 6698061 B2 JP6698061 B2 JP 6698061B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- distance
- vector
- pair
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
反義語の対(例:良い、悪い)は、各単語の周辺分布が似ているため、各単語のベクトルが近くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
テキストB:この考えは悪い。
テキストC:この考えは宜しい。
単語の対について、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語があるとき、該対を同位語の対と呼ぶ。単語の対「野球、サッカー」は、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語「スポーツ」をもつため、同位語の対となる。
テキストB:サッカーを見る。
テキストC:草野球を見る。
同義語の対(例:野球、ベースボール)は、場合によっては、各単語のベクトルが遠くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
テキストB:ベースボールを見る。
テキストC:草野球を見る。
とする。
とし、Wpの変換後概念ベース32中のベクトルを
とする。
として設定する。
として設定する。
に対し、以下のように更新する。
の計算は以下のようにする。
S2〜S6の処理からなるターンを実行するか否かを判断する。
所定の回数を実行済みの場合は、終了と判断して、変換処理ルーチンを終了する。
所定の回数を実行済みでない場合は、実行すると判断してS2に進む。
所定の回数を実行済みでない場合でも、現時点の行列(ωpq)と、一つ前のS1時点の行列(ωpq)とが同じ(すなわち収束している)場合、終了と判断して、変換処理ルーチンを終了してもよい。
変換処理ルーチンを終了する場合、概念ベース22中の各単語Wpとその単語ベクトルωpとの対の集合を、変換後概念ベース32として出力する。
概念ベース22中の単語のリストを、W1,W2,・・・,Wmとする。W1,W2,・・・,Wmの中で、S2で未選定の単語から一つ選定したWiを処理対象の単語Xとし、S3に進む。未選定の単語がなければ、本ターンを終了し、S1に進む。
辞書24中のWiが基点語であるレコード中の、対応する単語リストの中で、概念ベース22中にあり、かつ、S3で未選定であり、かつ、単語Wiとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWjを処理対象の単語Yとし、S4に進む。そのような単語がなければ、S5に進む。
{i,j}(jはS3で選定したもの)に対し、上記更新(1)を行う。S3に進む。
W1,W2,・・・,Wmの中で、Wiでなく、かつ、S3で選定したいずれのWjでもなく、かつ、S5で未選定であり、かつ、単語Wiとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWjを処理対象の単語Zとし、S6に進む。そのような単語がなければ、S2に進む。
S6の計算量を低減するために、Wiを除くW1,W2,・・・,Wmを、Wiとの距離の昇順にソートし、その上位G個の中から、(場合によってはソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。あるいは、Wiを除くW1,W2,・・・,Wmの中で、Wiとの距離が、ある閾値以下(あるいは未満)であるものの中から、(場合によっては距離の昇順にソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。
{i,j}(jはS5で選定したもの)に対し、上記更新(1)を行う。S5に進む。
24 辞書
30 変換手段
32 変換後概念ベース
100 単語ベクトル変換装置
Claims (7)
- 単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
前記概念ベース中の任意の単語A、Bの対Cに対し、Aの変換後のベクトルとBの変換後のベクトルの距離d’と、Aの前記概念ベース中のベクトルとBの前記概念ベース中のベクトルの距離dとを用いた目的関数において、前記対Cが前記辞書中にある場合は、前記距離d’と前記距離dに値αを加算ないし乗算した値との差を用い、前記対Cが前記辞書中にない場合は、前記距離d’と前記距離dとの差を用いて、前記目的関数を最適化するように、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする単語ベクトル変換装置。 - 前記目的関数において前記値αは、前記対Cが前記辞書中にある場合には前記辞書における意味的な遠さ又は近さに応じた値を取る請求項1に記載の単語ベクトル変換装置。
- 単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
前記概念ベース中の任意の単語A、Bの対Cに対し、Aの変換後のベクトルとBの変換後のベクトルの距離d’と、Aの前記概念ベース中のベクトルとBの前記概念ベース中のベクトルの距離dとを用いた目的関数において、前記距離d’と前記距離dに値αを加算ないし乗算した値との差を用い、前記目的関数を最適化するように、前記概念ベース中の変換後のベクトルを更新することにより、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする単語ベクトル変換装置であって、
前記目的関数において前記値αは、
前記対Cが前記辞書にある場合であって、かつ、前記対Cが意味的に遠い単語対である場合は、α>0として前記距離dに加算するか、又はα>1として前記距離dに乗算し、
前記対Cが前記辞書にある場合であって、かつ、前記対Cが意味的に近い単語対である場合は、α<0として前記距離dに加算するか、又はα<1として前記距離dに乗算し、
前記対Cが前記辞書にない場合は、α=0として前記距離dに加算するか、又はα=1として前記距離dに乗算する請求項1又は請求項2に記載の単語ベクトル変換装置。 - 前記値αは、前記距離dに加算ないし乗算する条件において、
前記対Cが意味的に遠い単語対である場合に、前記距離dが大きいほど小さい値とし、
前記対Cが意味的に近い単語対である場合に、前記距離dが小さいほど大きい値とするように定義する請求項1〜請求項3の何れか1項に記載の単語ベクトル変換装置。 - 単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
前記概念ベース中の任意の単語A、Bの対Cに対し、Aの変換後のベクトルとBの変換後のベクトルの距離d’と、Aの前記概念ベース中のベクトルとBの前記概念ベース中のベクトルの距離dとを用いた目的関数において、前記対Cが前記辞書中にある場合は、前記距離d’と前記距離dに値αを加算ないし乗算した値との差を用い、前記対Cが前記辞書中にない場合は、前記距離d’と前記距離dとの差を用いて、前記目的関数を最適化するように、前記概念ベース中の任意の単語のベクトルを変換する、処理をコンピュータに実行させることを特徴とする単語ベクトル変換方法。 - 単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
前記概念ベース中の任意の単語A、Bの対Cに対し、Aの変換後のベクトルとBの変換後のベクトルの距離d’と、Aの前記概念ベース中のベクトルとBの前記概念ベース中のベクトルの距離dとを用いた目的関数において、前記距離d’と前記距離dに値αを加算ないし乗算した値との差を用い、前記目的関数を最適化するように、前記概念ベース中の変換後のベクトルを更新することにより、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする単語ベクトル変換方法であって、
前記目的関数において前記値αは、
前記対Cが前記辞書にある場合であって、かつ、前記対Cが意味的に遠い単語対である場合は、α>0として前記距離dに加算するか、又はα>1として前記距離dに乗算し、
前記対Cが前記辞書にある場合であって、かつ、前記対Cが意味的に近い単語対である場合は、α<0として前記距離dに加算するか、又はα<1として前記距離dに乗算し、
前記対Cが前記辞書にない場合は、α=0として前記距離dに加算するか、又はα=1として前記距離dに乗算する、処理をコンピュータに実行させることを特徴とする単語ベクトル変換方法。 - コンピュータを、請求項1〜請求項4の何れか1項に記載の単語ベクトル変換装置の処理部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017216644A JP6698061B2 (ja) | 2017-11-09 | 2017-11-09 | 単語ベクトル変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017216644A JP6698061B2 (ja) | 2017-11-09 | 2017-11-09 | 単語ベクトル変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019087157A JP2019087157A (ja) | 2019-06-06 |
JP6698061B2 true JP6698061B2 (ja) | 2020-05-27 |
Family
ID=66763134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017216644A Active JP6698061B2 (ja) | 2017-11-09 | 2017-11-09 | 単語ベクトル変換装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6698061B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021009538A (ja) * | 2019-07-01 | 2021-01-28 | 株式会社野村総合研究所 | 自然言語処理装置および自然言語処理プログラム |
WO2023148948A1 (ja) * | 2022-02-07 | 2023-08-10 | 三菱電機株式会社 | 情報処理装置、更新方法、及び更新プログラム |
-
2017
- 2017-11-09 JP JP2017216644A patent/JP6698061B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019087157A (ja) | 2019-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020182122A1 (zh) | 用于生成文本匹配模型的方法和装置 | |
JP6973255B2 (ja) | 単語ベクトル変更装置、方法、及びプログラム | |
WO2019118256A1 (en) | Generation of text from structured data | |
KR101939209B1 (ko) | 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
Yang et al. | xMoCo: Cross momentum contrastive learning for open-domain question answering | |
JP6722615B2 (ja) | クエリクラスタリング装置、方法、及びプログラム | |
US20230244934A1 (en) | Augmenting machine learning language models using search engine results | |
JP6698061B2 (ja) | 単語ベクトル変換装置、方法、及びプログラム | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
JPWO2015145981A1 (ja) | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、多言語文書類似度学習プログラム | |
Wang et al. | Reproducibility, Replicability, and Insights into Dense Multi-Representation Retrieval Models: from ColBERT to Col | |
Gupta et al. | Text analysis and information retrieval of text data | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
US11947589B2 (en) | Web-scale personalized visual search recommendation service | |
WO2023147140A1 (en) | Routing to expert subnetworks in mixture-of-experts neural networks | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム | |
JP7364065B2 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
CN109902169B (zh) | 基于电影字幕信息提升电影推荐系统性能的方法 | |
CN109684442B (zh) | 一种文本检索方法、装置、设备及程序产品 | |
Schopf et al. | Towards bilingual word embedding models for engineering: Evaluating semantic linking capabilities of engineering-specific word embeddings across languages | |
KR102341563B1 (ko) | 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법 | |
KR101356193B1 (ko) | 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치 | |
Lee | N-Gram Language Model | |
KR102389555B1 (ko) | 가중 트리플 지식 그래프를 생성하는 장치, 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190517 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6698061 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |