JP6498095B2 - 単語埋込学習装置、テキスト評価装置、方法、及びプログラム - Google Patents
単語埋込学習装置、テキスト評価装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6498095B2 JP6498095B2 JP2015203908A JP2015203908A JP6498095B2 JP 6498095 B2 JP6498095 B2 JP 6498095B2 JP 2015203908 A JP2015203908 A JP 2015203908A JP 2015203908 A JP2015203908 A JP 2015203908A JP 6498095 B2 JP6498095 B2 JP 6498095B2
- Authority
- JP
- Japan
- Prior art keywords
- embedding
- word
- node
- text
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本実施の形態は、単語埋込(word embedding)の品質向上を目的とする。本発明者らは、異なるレベルのテキスト単位の関係をモデル化するために、階層的ニューラルネットワークモデル(hierarchical neural network model)を開発した。本モデルにより、学習済の単語埋込の中にテキスト単位間の相互作用を符号化できるようになる。
文書Dは、段落列D = {P1, P2,…, PND}から成り、段落Pは、文列P = {S1, S2, …SNP}から成り、文Sは、単語列S = {w1, w2,…, wNS}からなる。ここで、ND、NPおよびNSは、それぞれ、文書、段落、文における対応する子の数(文書の段落数、段落の文数、文の単語数)を示す。各レベルのテキスト単位D、P、S、wは、K次元の埋込eD、eP、eSおよびewと関連付けられている。したがって、あらゆるテキスト単位は、L=4レベルの木構造階層で編成されている。ηを、木構造内の任意のノードとする。ここで、ηはこの木の任意のノードでありうる、すなわち、埋込eηを有する文書、段落、文または単語でありうる。parent(η)、sibling(η)およびkid(η)は、それぞれ、ηの親ノード、兄弟ノード、および子ノードを示す。
本モデルは、テキストの階層構造を利用している。テキストは、ボトムアップ式に、単語、文、段落および文書からなる4階層の木構造で表現される。
次に、本発明の実施の形態に係る単語埋込学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る単語埋込学習装置100は、CPUと、RAMと、後述する単語埋込学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語埋込学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを備えている。
次に、本発明の実施の形態に係るテキスト評価装置の構成について説明する。図2に示すように、本発明の実施の形態に係るテキスト評価装置200は、CPUと、RAMと、後述するテキスト評価処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このテキスト評価装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部290とを備えている。
次に、本発明の実施の形態に係る単語埋込学習装置100の作用について説明する。入力部10において、複数の学習用のテキストを受け付けると、複数の学習用のテキストをテキスト22に記憶し、単語埋込学習装置100は、図3に示す単語埋込学習処理ルーチンを実行する。
次に、本発明の実施の形態に係るテキスト評価装置200の作用について説明する。単語埋込学習装置100によって学習された単語埋込が、テキスト評価装置200の単語埋込226に格納される。また、入力部210において評価対象のテキストを受け付けると、テキスト評価装置200は、図4に示すテキスト評価処理ルーチンを実行する。
<単語類似度評価>
まず、単語埋込を標準的な単語類似度尺度に関して評価し、テキスト階層に注目することによりこれらの評価尺度を改善可能かどうか調べる。本モデルは、ウィキペディア(R)2014データセットを用いて訓練する。単語予測に、階層的ソフトマックス関数を用いる。ウィンドウサイズは11に設定する。
単語類推評価は、「aに対するbは、cに対する何か」というような問題を解くことを目的としている。問題の種類には、「北京に対する中国は、ロンドンに対する何か」(首都)というような意味的なものや、「ダンスをする、に対する、ダンスをしている、は、飛ぶ、に対する何か」(時制)というような構文的のものが含まれる。データセットには、8,869個の意味的問題と、10,675個の構文的問題が含まれる。「aに対するbは、cに対する何か」という問題を解くことは、Eb−Ea+Ecを算出することによる単純な計算を行うことである。ここで、Eは、現在の単語埋込を示し、余弦類似度に基づく最も近い表現の単語dを求める。
20、220 演算部
22 テキスト
24 木構造作成部
26 テキスト木構造
28、226 単語埋込
30 初期化テキスト埋込
32 初期化モデル
34 確率計算部
36 収束判定部
38 更新部
40 単語埋込
42 テキスト埋込
44 更新モデル
90、290 出力部
100 単語埋込学習装置
200 テキスト評価装置
222 単語ベクトル変換部
224 検索部
Claims (7)
- 複数のテキストの各々について、前記テキストの木構造を作成する木構造作成部と、
各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新する更新部と、
予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す収束判定部と、
を含む単語埋込学習装置。 - 前記テキストの前記木構造の各階層のノードの埋込は、前記テキストに対応するノードの埋込、各段落に対応するノードの埋込、各文に対応するノードの埋込、及び各単語埋込を含む請求項1記載の単語埋込学習装置。
- 請求項1又は2記載の単語埋込学習装置と、
入力テキストを単語ベクトルに変換する単語ベクトル変換部と、
前記単語埋込学習装置によって学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索する検索部と、
前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する出力部と、
を含むテキスト評価装置。 - 木構造作成部が、複数のテキストの各々について、前記テキストの木構造を作成し、
更新部が、各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新し、
収束判定部が、予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す
単語埋込学習方法。 - 前記テキストの前記木構造の各階層のノードの埋込は、前記テキストに対応するノードの埋込、各段落に対応するノードの埋込、各文に対応するノードの埋込、及び各単語埋込を含む請求項4記載の単語埋込学習方法。
- 請求項4又は5記載の単語埋込学習方法によって各単語埋込を学習し、
単語ベクトル変換部が、入力テキストを単語ベクトルに変換し、
検索部が、前記学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索し、
出力部が、前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する
テキスト評価方法。 - コンピュータを、請求項1又は2記載の単語埋込学習装置、又は請求項3記載のテキスト評価装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015203908A JP6498095B2 (ja) | 2015-10-15 | 2015-10-15 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015203908A JP6498095B2 (ja) | 2015-10-15 | 2015-10-15 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017076281A JP2017076281A (ja) | 2017-04-20 |
JP6498095B2 true JP6498095B2 (ja) | 2019-04-10 |
Family
ID=58551371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015203908A Active JP6498095B2 (ja) | 2015-10-15 | 2015-10-15 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6498095B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273352B (zh) * | 2017-06-07 | 2020-07-14 | 北京理工大学 | 一种基于Zolu函数的词嵌入学习模型及训练方法 |
JP6918030B2 (ja) | 2019-01-11 | 2021-08-11 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび情報処理システム |
JP7148077B2 (ja) * | 2019-02-28 | 2022-10-05 | 日本電信電話株式会社 | 木構造解析装置、方法、及びプログラム |
CN110322150B (zh) * | 2019-07-04 | 2023-04-18 | 优估(上海)信息科技有限公司 | 一种信息审核方法、装置及服务器 |
CN111309854B (zh) * | 2019-11-20 | 2023-05-26 | 武汉烽火信息集成技术有限公司 | 一种基于文章结构树的文章评价方法及系统 |
CN111259663B (zh) * | 2020-01-14 | 2023-05-26 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
JP7472587B2 (ja) * | 2020-03-26 | 2024-04-23 | 富士通株式会社 | エンコーディングプログラム、情報処理装置およびエンコーディング方法 |
CN115017158A (zh) * | 2022-05-31 | 2022-09-06 | 武汉联影医疗科技有限公司 | 节点信息查询方法 |
CN115934752B (zh) * | 2022-12-09 | 2023-07-14 | 北京中科闻歌科技股份有限公司 | 一种构建检索模型的方法、电子设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4360122B2 (ja) * | 2003-05-26 | 2009-11-11 | 富士ゼロックス株式会社 | キーワード抽出装置 |
JP4325938B2 (ja) * | 2004-10-15 | 2009-09-02 | 日本電信電話株式会社 | 単語配置装置、単語配置方法およびプログラム |
US8977537B2 (en) * | 2011-06-24 | 2015-03-10 | Microsoft Technology Licensing, Llc | Hierarchical models for language modeling |
JP6144133B2 (ja) * | 2013-07-08 | 2017-06-07 | 久美子 石井 | 検索システム |
-
2015
- 2015-10-15 JP JP2015203908A patent/JP6498095B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017076281A (ja) | 2017-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6498095B2 (ja) | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム | |
Li et al. | Imbalanced text sentiment classification using universal and domain-specific knowledge | |
CN109992629B (zh) | 一种融合实体类型约束的神经网络关系抽取方法及系统 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
WO2018131259A1 (ja) | 文章評価装置、及び文章評価方法 | |
Bansal et al. | Structured learning for taxonomy induction with belief propagation | |
US20170351663A1 (en) | Iterative alternating neural attention for machine reading | |
US20140236577A1 (en) | Semantic Representations of Rare Words in a Neural Probabilistic Language Model | |
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
JP6946842B2 (ja) | モデル学習装置、変換装置、方法、及びプログラム | |
JP6738769B2 (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN111488742B (zh) | 用于翻译的方法和装置 | |
CN114841140A (zh) | 依存分析模型及基于依存分析的中文联合事件抽取方法 | |
WO2014020834A1 (ja) | 単語潜在トピック推定装置および単語潜在トピック推定方法 | |
JP2017010249A (ja) | パラメタ学習装置、文類似度算出装置、方法、及びプログラム | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
JP7452623B2 (ja) | 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
JP2016133956A (ja) | 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム | |
JP2016197289A (ja) | パラメタ学習装置、類似度算出装置、方法、及びプログラム | |
US20210279579A1 (en) | Conversion apparatus, learning apparatus, conversion method, learning method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6498095 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |