JP2018180935A - 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム - Google Patents
並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018180935A JP2018180935A JP2017079651A JP2017079651A JP2018180935A JP 2018180935 A JP2018180935 A JP 2018180935A JP 2017079651 A JP2017079651 A JP 2017079651A JP 2017079651 A JP2017079651 A JP 2017079651A JP 2018180935 A JP2018180935 A JP 2018180935A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- parallel
- conjunction
- parallel phrase
- prediction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
次に、本発明の実施の形態に係る並列句解析モデル学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る並列句解析モデル学習装置100は、CPUと、RAMと、後述する並列句解析モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この並列句解析モデル学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
式(2)の代わりに、
Loss = Σ(f((L,R))-Score(outL,outR))2
などとしてもよい。
次に、本発明の実施の形態に係る並列句解析装置の構成について説明する。図4に示すように、本発明の実施の形態に係る並列句解析装置200は、CPUと、RAMと、後述する並列句解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この並列句解析装置200は、機能的には図4に示すように入力部210と、演算部220と、出力部290とを備えている。
次に、本発明の実施の形態に係る並列句解析モデル学習装置100の作用について説明する。入力部10において、複数の学習用文からなる言語データを受け付け、言語データ記憶部22に記憶する。また、入力部10において、等位接続詞の前後の句の組み合わせである複数の正解並列句を受け付け、正解データ記憶部24に記憶する。そして、並列句解析モデル学習装置100は、図6に示す並列句解析モデル学習処理ルーチンを実行する。
次に、本発明の実施の形態に係る並列句解析装置200の作用について説明する。入力部210において解析対象となる入力文を受け付け、並列句解析装置200は、図7に示す並列句解析処理ルーチンを実行する。
本発明の実施例として、WSJ(Wall Street Journal)を用いた実験結果を示す。このWSJは英語言語データPenn Treebank の一部であり、言語ラベルが付いている。この英語言語データの中から、’and’,’or’,’but’ を等位接続詞として学習および解析を行った(表1)。また、このデータを言語モデル部学習用、ランキング計算部学習用、評価試験用に分けた(表2)。
20、220 演算部
22 言語データ記憶部
24 正解データ記憶部
26、224 言語モデル学習部
28 言語モデル記憶部
30、222 並列句候補抽出部
32、226 言語モデル適用部
34 ランキングモデル学習部
36、228 ランキングモデル記憶部
100 並列句解析モデル学習装置
200 並列句解析装置
228 ランキングモデル記憶部
290 出力部
Claims (8)
- 入力文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する並列句候補抽出部と、
前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力する言語モデル適用部と、
前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果から、予め学習されたランキングモデルを用いてランキングスコアを計算し、並列句の解析結果を出力するランキング計算部と、
を含む並列句解析装置。 - 前記ランキングスコアは、前記等位接続詞の前の句の直後の単語として予測される等位接続詞、及び前記等位接続詞の後の句の直前の単語として予測される等位接続詞の組み合わせの尤もらしさを表す請求項1記載の並列句解析装置。
- 前記言語モデルを、文字列の次の単語を予測し出力するように学習されたLSTM(Long short-term memory)とし、
前記ランキングモデルを、前記等位接続詞の前の句の直後の単語の予測結果に対するパラメータ、及び前記等位接続詞の後の句の直前の単語の予測結果に対するパラメータを含む線形モデルとした請求項1又は2記載の並列句解析装置。 - 学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する並列句候補抽出部と、
前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力する言語モデル適用部と、
予め求められた、等位接続詞の前後の句の組み合わせである複数の正解並列句に基づいて、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、前記並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、前記ランキングモデルを学習するランキングモデル学習部と、
を含む並列句解析モデル学習装置。 - 並列句候補抽出部が、入力文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出し、
言語モデル適用部が、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、
ランキング計算部が、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果から、予め学習されたランキングモデルを用いてランキングスコアを計算し、並列句の解析結果を出力する
並列句解析方法。 - 並列句候補抽出部が、学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出し、
言語モデル適用部が、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、
ランキングモデル学習部が、予め求められた、等位接続詞の前後の句の組み合わせである複数の正解並列句に基づいて、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、前記並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、前記ランキングモデルを学習する
並列句解析モデル学習方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載の並列句解析装置の各部として機能させるためのプログラム。
- コンピュータを、請求項4記載の並列句解析モデル学習装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079651A JP6663881B2 (ja) | 2017-04-13 | 2017-04-13 | 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079651A JP6663881B2 (ja) | 2017-04-13 | 2017-04-13 | 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180935A true JP2018180935A (ja) | 2018-11-15 |
JP6663881B2 JP6663881B2 (ja) | 2020-03-13 |
Family
ID=64275654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017079651A Active JP6663881B2 (ja) | 2017-04-13 | 2017-04-13 | 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6663881B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020149663A (ja) * | 2019-03-12 | 2020-09-17 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | ニューラルネットワーク生成用の方法及び装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62281059A (ja) * | 1986-05-30 | 1987-12-05 | Fujitsu Ltd | 並列句処理装置 |
JPH08278973A (ja) * | 1995-04-07 | 1996-10-22 | Fujitsu Ltd | 並列句解析装置および学習データ作成装置 |
JPH0950434A (ja) * | 1995-08-10 | 1997-02-18 | Brother Ind Ltd | 日本語解析方法 |
US20150186790A1 (en) * | 2013-12-31 | 2015-07-02 | Soshoma Inc. | Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews |
JP2016134169A (ja) * | 2015-01-19 | 2016-07-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 言語モデル学習方法及び装置、言語認識方法及び装置 |
CN105868181A (zh) * | 2016-04-21 | 2016-08-17 | 南京大学 | 基于新型神经网络的自然语言并列结构的自动识别方法 |
-
2017
- 2017-04-13 JP JP2017079651A patent/JP6663881B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62281059A (ja) * | 1986-05-30 | 1987-12-05 | Fujitsu Ltd | 並列句処理装置 |
JPH08278973A (ja) * | 1995-04-07 | 1996-10-22 | Fujitsu Ltd | 並列句解析装置および学習データ作成装置 |
JPH0950434A (ja) * | 1995-08-10 | 1997-02-18 | Brother Ind Ltd | 日本語解析方法 |
US20150186790A1 (en) * | 2013-12-31 | 2015-07-02 | Soshoma Inc. | Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews |
JP2016134169A (ja) * | 2015-01-19 | 2016-07-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 言語モデル学習方法及び装置、言語認識方法及び装置 |
CN105868181A (zh) * | 2016-04-21 | 2016-08-17 | 南京大学 | 基于新型神经网络的自然语言并列结构的自动识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020149663A (ja) * | 2019-03-12 | 2020-09-17 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | ニューラルネットワーク生成用の方法及び装置 |
US11620532B2 (en) | 2019-03-12 | 2023-04-04 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating neural network |
Also Published As
Publication number | Publication date |
---|---|
JP6663881B2 (ja) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cotterell et al. | Are all languages equally hard to language-model? | |
Tolmachev et al. | Juman++: A morphological analysis toolkit for scriptio continua | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
Mirowski et al. | Dependency recurrent neural language models for sentence completion | |
Hardmeier | Discourse in statistical machine translation | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
JP2004355483A (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
US20210406483A1 (en) | Device, method and program for natural language processing | |
Boudchiche et al. | A hybrid approach for Arabic lemmatization | |
CN112560510A (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
JP2018097468A (ja) | 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
CN103823795B (zh) | 机器翻译系统、机器翻译方法和与其一起使用的解码器 | |
JP2012146263A (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
Sulaeman et al. | Development of Indonesian-Japanese statistical machine translation using lemma translation and additional post-process | |
JP6663881B2 (ja) | 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム | |
JP2016133956A (ja) | 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム | |
Moore et al. | Incremental dependency parsing and disfluency detection in spoken learner English | |
Le et al. | Automatic quality estimation for speech translation using joint ASR and MT features | |
Li et al. | Minimum imputed-risk: Unsupervised discriminative training for machine translation | |
JP6558856B2 (ja) | 形態素解析装置、モデル学習装置、及びプログラム | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
Rauf et al. | Automated grammatical error correction: A comprehensive review | |
JP6782929B2 (ja) | 言語解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6663881 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |