JP6957967B2 - 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 - Google Patents
生成プログラム、生成方法、生成装置、及びパラメータ生成方法 Download PDFInfo
- Publication number
- JP6957967B2 JP6957967B2 JP2017097442A JP2017097442A JP6957967B2 JP 6957967 B2 JP6957967 B2 JP 6957967B2 JP 2017097442 A JP2017097442 A JP 2017097442A JP 2017097442 A JP2017097442 A JP 2017097442A JP 6957967 B2 JP6957967 B2 JP 6957967B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- vector
- input
- learning
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Description
〔1−1〕比較例に係るRNNについて
はじめに、図1を参照して、一実施形態の比較例に係る文章の検索又は分類の手法について説明する。なお、以下の手法は、例えば、コンピュータにより実施されてよい。
「は」 :[0,1,0,0],
「教師」:[0,0,1,0],
「です」:[0,0,0,1]
一実施形態に係る学習装置1の機能構成例を図6に例示する。
一実施形態に係る学習装置1のハードウェア構成例を図7に示す。
一実施形態に係る入力文章テーブル6を図8に示す。
一実施形態に係る語句テーブル7を図9に示す。
一実施形態に係るベクトルテーブル8を図10に示す。
次に、図11を用いて、本実施形態における、RNNオートエンコーダ16を用いた文章の学習について説明する。
「は」 :[0,1,0,0,0,0,0,0,0,0,0],
「教師」:[0,0,1,0,0,0,0,0,0,0,0],
「です」:[0,0,0,1,0,0,0,0,0,0,0],
「。」 :[0,0,0,0,1,0,0,0,0,0,0]
「is」 :[0,0,0,0,0,0,0,1,0,0,0],
「a」 :[0,0,0,0,0,0,0,0,1,0,0],
「teacher」:[0,0,0,0,0,0,0,0,0,1,0],
「.」 :[0,0,0,0,0,0,0,0,0,0,1]
図12は、図11に示す一実施形態に係るRNNオートエンコーダ16のノードを一つ取り出して、バックプロパゲーションによる学習を例示したものである。
次に、上述の如く構成された学習装置1による学習フェーズ及び圧縮表現取得フェーズのそれぞれの動作例を説明する。
実施形態の一例としての学習装置1において、RNNオートエンコーダ16を学習させるための処理の一例を図14に示すフローチャート(ステップS1〜S8)に従って説明する。
実施形態の一例としての学習装置1において、図14に示す学習処理を経て学習済みとなったRNNオートエンコーダ16を用いて、圧縮表現を取得するための処理の一例を図15に示すフローチャート(ステップS11〜S15)に従って説明する。
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。
以上の実施形態に関し、さらに以下の付記を開示する。
第1の言語で記述された第1の文章と、前記第1の文章を翻訳して得られた第2の文章と、を受け付け、
受け付けた前記第1の文章に含まれる各単語を、前記第2の文章に含まれる単語のうち、前記各単語に対応する単語に変換する変換パラメータを機械学習により学習する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
受け付けた前記第1の文章及び前記第2の文章に対して形態素解析を行ない、前記第1の文章及び前記第2の文章に含まれる各単語を抽出し、
抽出した前記単語に基づき前記変換パラメータを学習する、
処理を前記コンピュータに実行させることを特徴とする、付記1記載の学習プログラム。
抽出した前記単語をベクトル化して、各単語のベクトルを取得し、
取得した前記ベクトルに基づき前記変換パラメータを学習する、
処理を前記コンピュータに実行させることを特徴とする、付記2記載の学習プログラム。
前記第1の文章から抽出した単語のベクトルを入力とし、前記第2の文章から抽出した単語のベクトルが前記入力に対する出力となるように前記変換パラメータを学習する、
処理を前記コンピュータに実行させることを特徴とする、付記3記載の学習プログラム。
学習した前記変換パラメータに基づき、前記第1の文章の特徴量を抽出する、
処理を前記コンピュータに実行させることを特徴とする、付記1〜4のいずれか1項記載の学習プログラム。
第1の言語で記述された第1の文章と、前記第1の文章を翻訳して得られた第2の文章と、を受け付け、
受け付けた前記第1の文章に含まれる各単語を、前記第2の文章に含まれる単語のうち、前記各単語に対応する単語に変換する変換パラメータを機械学習により学習する、
ことを特徴とする学習方法。
受け付けた前記第1の文章及び前記第2の文章に対して形態素解析を行ない、前記第1の文章及び前記第2の文章に含まれる各単語を抽出し、
抽出した前記単語に基づき前記変換パラメータを学習する、
ことを特徴とする、付記6記載の学習方法。
抽出した前記単語をベクトル化して、各単語のベクトルを取得し、
取得した前記ベクトルに基づき前記変換パラメータを学習する、
ことを特徴とする、付記7記載の学習方法。
前記第1の文章から抽出した単語のベクトルを入力とし、前記第2の文章から抽出した単語のベクトルが前記入力に対する出力となるように前記変換パラメータを学習する、
ことを特徴とする、付記8記載の学習方法。
学習した前記変換パラメータに基づき、前記第1の文章の特徴量を抽出する、
ことを特徴とする、付記6〜9のいずれか1項記載の学習方法。
第1の言語で記述された第1の文章と、前記第1の文章を翻訳して得られた第2の文章と、を受け付ける文章取得部と、
受け付けた前記第1の文章に含まれる各単語を、前記第2の文章に含まれる単語のうち、前記各単語に対応する単語に変換する変換パラメータを機械学習により学習する学習部と、をそなえる
ことを特徴とする、学習装置。
受け付けた前記第1の文章及び前記第2の文章に対して形態素解析を行ない、前記第1の文章及び前記第2の文章に含まれる各単語を抽出する単語抽出部をそなえ、
前記学習部は、抽出した前記単語に基づき前記変換パラメータを学習する、
ことを特徴とする、付記11記載の学習装置。
抽出した前記単語をベクトル化して、各単語のベクトルを取得する変換部をそなえ、
前記学習部は、取得した前記ベクトルに基づき前記変換パラメータを学習する、
ことを特徴とする、付記12記載の学習装置。
前記学習部は、前記第1の文章から抽出した単語のベクトルを入力とし、前記第2の文章から抽出した単語のベクトルが前記入力に対する出力となるように前記変換パラメータを学習する、
ことを特徴とする、付記13記載の学習装置。
学習した前記変換パラメータに基づき、前記第1の文章の特徴量を抽出する特徴量抽出部、をそなえる
ことを特徴とする、付記11〜14のいずれか1項記載の学習装置。
第1の言語で記述された第1の文章と、前記第1の文章を翻訳して得られた第2の文章と、を受け付け、
受け付けた前記第1の文章に含まれる各単語を、前記第2の文章に含まれる単語のうち、前記各単語に対応する単語に変換する変換パラメータを生成する、
ことを特徴とする変換パラメータ製造方法。
受け付けた前記第1の文章及び前記第2の文章に対して形態素解析を行ない、前記第1の文章及び前記第2の文章に含まれる各単語を抽出し、
抽出した前記単語に基づき前記変換パラメータを生成する、
ことを特徴とする、付記16記載の変換パラメータ製造方法。
抽出した前記単語をベクトル化して、各単語のベクトルを取得し、
取得した前記ベクトルに基づき前記変換パラメータを生成する、
ことを特徴とする、付記17記載の変換パラメータ製造方法。
前記第1の文章から抽出した単語のベクトルを入力とし、前記第2の文章から抽出した単語のベクトルが前記入力に対する出力となるように前記変換パラメータを生成する、
ことを特徴とする、付記18記載の変換パラメータ製造方法。
生成した前記変換パラメータに基づき、前記第1の文章の特徴量を抽出する、
ことを特徴とする、付記16〜19のいずれか1項記載の変換パラメータ製造方法。
11 文章取得部
12 ベクトル変換部
13 入力データ設定部
14 出力データ設定部
15 学習部
16 RNNオートエンコーダ
16a 入力層
16b 中間層
16b1 中間層のノード
16c 出力層
17 文章入力部
18 圧縮表現取得部
19 メモリ部
20 コンピュータ
20a プロセッサ
20b メモリ
20c 記憶部
20d IF部
20e I/O部
20f 読取部
6 入力文章テーブル
61 入力文章ID
62 文章
63 分類
7 語句テーブル
71 語句ID
72 語句
73 分類
8 ベクトルテーブル
81 語句
82 ベクトル
91 入力データ
92 出力データ
101 入力データ
102 変換パラメータ
103 出力データ
Claims (7)
- 第1の言語で記述された第1の文章を取得し、
前記第1の言語で記述されそれぞれが異なる単語を含む第2の文章と第3の文章とのそれぞれに対して、前記第2の文章と前記第3の文章とに対応する翻訳文である第2の言語で記述された第4の文章がラベル付けされた訓練データを用いた機械学習により生成された機械学習モデルのパラメータに基づいて、前記第1の文章を表すベクトルを生成する、
処理をコンピュータに実行させる、生成プログラム。 - 前記機械学習の処理は、
前記第2の文章及び前記第3の文章のそれぞれと前記第4の文章とに対して形態素解析を行ない、前記第2の文章及び前記第3の文章のそれぞれと前記第4の文章とに含まれる各単語を抽出し、
抽出した前記単語に基づき前記パラメータを学習する、
処理を含む、請求項1記載の生成プログラム。 - 前記機械学習の処理は、
抽出した前記単語をベクトル化して、各単語のベクトルを取得し、
取得した前記ベクトルに基づき前記パラメータを学習する、
処理を含む、請求項2記載の生成プログラム。 - 前記機械学習の処理は、
前記第2の文章から抽出した単語のベクトル、及び、前記第3の文章から抽出した単語のベクトルのそれぞれを入力とし、前記第4の文章から抽出した単語のベクトルが前記入力のそれぞれに対する出力となるように前記パラメータを学習する、
処理を含む、請求項3記載の生成プログラム。 - 第1の言語で記述された第1の文章を取得し、
前記第1の言語で記述されそれぞれが異なる単語を含む第2の文章と第3の文章とのそれぞれに対して、前記第2の文章と前記第3の文章とに対応する翻訳文である第2の言語で記述された第4の文章がラベル付けされた訓練データを用いた機械学習により生成された機械学習モデルのパラメータに基づいて、前記第1の文章を表すベクトルを生成する、
処理をコンピュータが実行する、生成方法。 - 第1の言語で記述された第1の文章を取得し、
前記第1の言語で記述されそれぞれが異なる単語を含む第2の文章と第3の文章とのそれぞれに対して、前記第2の文章と前記第3の文章とに対応する翻訳文である第2の言語で記述された第4の文章がラベル付けされた訓練データを用いた機械学習により生成された機械学習モデルのパラメータに基づいて、前記第1の文章を表すベクトルを生成する、
制御部、をそなえる生成装置。 - 第1の言語で記述された第1の文章を表すベクトルを生成する機械学習モデルのパラメータを生成するための機械学習において、前記第1の言語で記述されそれぞれが異なる単語を含む第2の文章と第3の文章とのそれぞれに対して、前記第2の文章と前記第3の文章とに対応する翻訳文である第2の言語で記述された第4の文章がラベル付けされた訓練データを用いた前記機械学習により、前記機械学習モデルの前記パラメータを生成する、
処理をコンピュータが実行する、パラメータ生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097442A JP6957967B2 (ja) | 2017-05-16 | 2017-05-16 | 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 |
US15/967,653 US10614160B2 (en) | 2017-05-16 | 2018-05-01 | Computer-readable recording medium recording learning program, learning method, and learning apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097442A JP6957967B2 (ja) | 2017-05-16 | 2017-05-16 | 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018195012A JP2018195012A (ja) | 2018-12-06 |
JP6957967B2 true JP6957967B2 (ja) | 2021-11-02 |
Family
ID=64272410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017097442A Active JP6957967B2 (ja) | 2017-05-16 | 2017-05-16 | 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10614160B2 (ja) |
JP (1) | JP6957967B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6957967B2 (ja) * | 2017-05-16 | 2021-11-02 | 富士通株式会社 | 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 |
KR20190019748A (ko) * | 2017-08-18 | 2019-02-27 | 삼성전자주식회사 | 자연어 생성 방법 및 장치 |
US11250221B2 (en) * | 2019-03-14 | 2022-02-15 | Sap Se | Learning system for contextual interpretation of Japanese words |
JP2020154514A (ja) * | 2019-03-19 | 2020-09-24 | 株式会社エヌ・ティ・ティ・データ | 学習装置、学習方法、検索装置、検索方法及びプログラム |
JP6913706B2 (ja) * | 2019-04-19 | 2021-08-04 | 株式会社サイトビジット | 試験問題予測システム及び試験問題予測方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0496570B1 (en) | 1991-01-22 | 1998-06-03 | Honeywell Inc. | Two-level system identifier apparatus with optimization |
JPH07191967A (ja) | 1993-11-22 | 1995-07-28 | Toshiba Corp | 関数近似装置及び電力需要予測装置 |
JPH08221378A (ja) | 1995-02-10 | 1996-08-30 | Ricoh Co Ltd | 学習機械 |
US8504361B2 (en) * | 2008-02-07 | 2013-08-06 | Nec Laboratories America, Inc. | Deep neural networks and methods for using same |
US8977537B2 (en) * | 2011-06-24 | 2015-03-10 | Microsoft Technology Licensing, Llc | Hierarchical models for language modeling |
JP6312467B2 (ja) * | 2014-03-04 | 2018-04-18 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
US10140581B1 (en) * | 2014-12-22 | 2018-11-27 | Amazon Technologies, Inc. | Conditional random field model compression |
CN105824797B (zh) * | 2015-01-04 | 2019-11-12 | 华为技术有限公司 | 一种评价语义相似度的方法、装置和系统 |
JP6343582B2 (ja) * | 2015-04-09 | 2018-06-13 | 日本電信電話株式会社 | 言語モデル生成装置、方法及びプログラム |
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
JP2017199363A (ja) * | 2016-04-21 | 2017-11-02 | 国立研究開発法人情報通信研究機構 | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム |
US20170308526A1 (en) * | 2016-04-21 | 2017-10-26 | National Institute Of Information And Communications Technology | Compcuter Implemented machine translation apparatus and machine translation method |
JP6957967B2 (ja) * | 2017-05-16 | 2021-11-02 | 富士通株式会社 | 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 |
-
2017
- 2017-05-16 JP JP2017097442A patent/JP6957967B2/ja active Active
-
2018
- 2018-05-01 US US15/967,653 patent/US10614160B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018195012A (ja) | 2018-12-06 |
US10614160B2 (en) | 2020-04-07 |
US20180336179A1 (en) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6957967B2 (ja) | 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 | |
US11132512B2 (en) | Multi-perspective, multi-task neural network model for matching text to program code | |
US8768704B1 (en) | Methods and systems for automated generation of nativized multi-lingual lexicons | |
US20210124876A1 (en) | Evaluating the Factual Consistency of Abstractive Text Summarization | |
Bjerva et al. | From phonology to syntax: Unsupervised linguistic typology at different levels with language embeddings | |
CN110727765A (zh) | 基于多注意力机制的问题分类方法、系统及存储介质 | |
CN110895928A (zh) | 语音识别方法和设备 | |
KR102461295B1 (ko) | 생의학적 개체명 정규화 방법 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN112581327A (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
JP6556381B2 (ja) | モデル学習装置及びモデル学習方法 | |
JP2011227749A (ja) | 略語完全語復元装置とその方法と、プログラム | |
US20090063127A1 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
Bharti et al. | Automated speech to sign language conversion using Google API and NLP | |
Hamooni et al. | Phoneme sequence recognition via DTW-based classification | |
KR101983477B1 (ko) | 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템 | |
Jenckel et al. | Transcription free lstm ocr model evaluation | |
KR20230093765A (ko) | 코퍼스를 활용하여 사전 학습된 신경망을 이용한 자연어 처리 모델의 전이 학습 방법 | |
Baranwal et al. | Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers | |
WO2018066083A1 (ja) | 学習プログラム、情報処理装置および学習方法 | |
Manenti et al. | Unsupervised speech unit discovery using k-means and neural networks | |
Sobhy et al. | An AI Based Automatic Translator for Ancient Hieroglyphic Language-From Scanned Images to English Text | |
Vidra | Morphological segmentation of Czech words | |
JP2019021206A (ja) | 学習装置、プログラムパラメータ、学習方法およびモデル |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190607 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6957967 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |