JP2019087157A - 単語ベクトル変換装置、方法、及びプログラム - Google Patents
単語ベクトル変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2019087157A JP2019087157A JP2017216644A JP2017216644A JP2019087157A JP 2019087157 A JP2019087157 A JP 2019087157A JP 2017216644 A JP2017216644 A JP 2017216644A JP 2017216644 A JP2017216644 A JP 2017216644A JP 2019087157 A JP2019087157 A JP 2019087157A
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- distance
- dictionary
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
Description
反義語の対(例:良い、悪い)は、各単語の周辺分布が似ているため、各単語のベクトルが近くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
テキストB:この考えは悪い。
テキストC:この考えは宜しい。
単語の対について、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語があるとき、該対を同位語の対と呼ぶ。単語の対「野球、サッカー」は、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語「スポーツ」をもつため、同位語の対となる。
テキストB:サッカーを見る。
テキストC:草野球を見る。
同義語の対(例:野球、ベースボール)は、場合によっては、各単語のベクトルが遠くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
テキストB:ベースボールを見る。
テキストC:草野球を見る。
とする。
とし、Wpの変換後概念ベース32中のベクトルを
とする。
として設定する。
として設定する。
に対し、以下のように更新する。
の計算は以下のようにする。
S2〜S6の処理からなるターンを実行するか否かを判断する。
所定の回数を実行済みの場合は、終了と判断して、変換処理ルーチンを終了する。
所定の回数を実行済みでない場合は、実行すると判断してS2に進む。
所定の回数を実行済みでない場合でも、現時点の行列(ωpq)と、一つ前のS1時点の行列(ωpq)とが同じ(すなわち収束している)場合、終了と判断して、変換処理ルーチンを終了してもよい。
変換処理ルーチンを終了する場合、概念ベース22中の各単語Wpとその単語ベクトルωpとの対の集合を、変換後概念ベース32として出力する。
概念ベース22中の単語のリストを、W1,W2,・・・,Wmとする。W1,W2,・・・,Wmの中で、S2で未選定の単語から一つ選定したWiを処理対象の単語Xとし、S3に進む。未選定の単語がなければ、本ターンを終了し、S1に進む。
辞書24中のWiが基点語であるレコード中の、対応する単語リストの中で、概念ベース22中にあり、かつ、S3で未選定であり、かつ、単語Wiとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWjを処理対象の単語Yとし、S4に進む。そのような単語がなければ、S5に進む。
{i,j}(jはS3で選定したもの)に対し、上記更新(1)を行う。S3に進む。
W1,W2,・・・,Wmの中で、Wiでなく、かつ、S3で選定したいずれのWjでもなく、かつ、S5で未選定であり、かつ、単語Wiとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWjを処理対象の単語Zとし、S6に進む。そのような単語がなければ、S2に進む。
S6の計算量を低減するために、Wiを除くW1,W2,・・・,Wmを、Wiとの距離の昇順にソートし、その上位G個の中から、(場合によってはソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。あるいは、Wiを除くW1,W2,・・・,Wmの中で、Wiとの距離が、ある閾値以下(あるいは未満)であるものの中から、(場合によっては距離の昇順にソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。
{i,j}(jはS5で選定したもの)に対し、上記更新(1)を行う。S5に進む。
24 辞書
30 変換手段
32 変換後概念ベース
100 単語ベクトル変換装置
Claims (3)
- 単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
前記概念ベース中の任意の単語A、Bの対Cに対し、Cが前記辞書中にある場合、Aの変換後のベクトルとBの変換後のベクトルの距離d’と、Aの前記概念ベース中のベクトルとBの前記概念ベース中のベクトルの距離dに値αを加算ないし乗算した値とが可能な限り等しくなり、かつ、Cが前記辞書中にない場合、d’とdとが可能な限り等しくなるように、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする単語ベクトル変換装置。 - 単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
変換手段が、前記概念ベース中の任意の単語A、Bの対Cに対し、Cが前記辞書中にある場合、Aの変換後のベクトルとBの変換後のベクトルの距離d’と、Aの前記概念ベース中のベクトルとBの前記概念ベース中のベクトルの距離dに値αを加算ないし乗算した値とが可能な限り等しくなり、かつ、Cが前記辞書中にない場合、d’とdとが可能な限り等しくなるように、前記概念ベース中の任意の単語のベクトルを変換するステップを備えることを特徴とする単語ベクトル変換方法。 - コンピュータを、請求項1に記載の単語ベクトル変換装置の処理部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017216644A JP6698061B2 (ja) | 2017-11-09 | 2017-11-09 | 単語ベクトル変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017216644A JP6698061B2 (ja) | 2017-11-09 | 2017-11-09 | 単語ベクトル変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019087157A true JP2019087157A (ja) | 2019-06-06 |
JP6698061B2 JP6698061B2 (ja) | 2020-05-27 |
Family
ID=66763134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017216644A Active JP6698061B2 (ja) | 2017-11-09 | 2017-11-09 | 単語ベクトル変換装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6698061B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021009538A (ja) * | 2019-07-01 | 2021-01-28 | 株式会社野村総合研究所 | 自然言語処理装置および自然言語処理プログラム |
WO2023148948A1 (ja) * | 2022-02-07 | 2023-08-10 | 三菱電機株式会社 | 情報処理装置、更新方法、及び更新プログラム |
-
2017
- 2017-11-09 JP JP2017216644A patent/JP6698061B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021009538A (ja) * | 2019-07-01 | 2021-01-28 | 株式会社野村総合研究所 | 自然言語処理装置および自然言語処理プログラム |
WO2023148948A1 (ja) * | 2022-02-07 | 2023-08-10 | 三菱電機株式会社 | 情報処理装置、更新方法、及び更新プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6698061B2 (ja) | 2020-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020182122A1 (zh) | 用于生成文本匹配模型的方法和装置 | |
JP7421604B2 (ja) | モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
US10832011B2 (en) | Question answering system using multilingual information sources | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
JP2021152963A (ja) | 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP2022050379A (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
US8521739B1 (en) | Creation of inferred queries for use as query suggestions | |
US11481560B2 (en) | Information processing device, information processing method, and program | |
WO2019198618A1 (ja) | 単語ベクトル変更装置、方法、及びプログラム | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
US11308146B2 (en) | Content fragments aligned to content criteria | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
WO2023033942A1 (en) | Efficient index lookup using language-agnostic vectors and context vectors | |
JP2019087157A (ja) | 単語ベクトル変換装置、方法、及びプログラム | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
Gupta et al. | Text analysis and information retrieval of text data | |
US20230244934A1 (en) | Augmenting machine learning language models using search engine results | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
JP5284761B2 (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
JP7364065B2 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
CN115203378A (zh) | 基于预训练语言模型的检索增强方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190517 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6698061 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |