JP5646523B2 - 基本木学習装置、構文解析装置、方法、及びプログラム - Google Patents
基本木学習装置、構文解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5646523B2 JP5646523B2 JP2012037953A JP2012037953A JP5646523B2 JP 5646523 B2 JP5646523 B2 JP 5646523B2 JP 2012037953 A JP2012037953 A JP 2012037953A JP 2012037953 A JP2012037953 A JP 2012037953A JP 5646523 B2 JP5646523 B2 JP 5646523B2
- Authority
- JP
- Japan
- Prior art keywords
- tree
- basic
- learning
- syntax
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
本実施の形態では、基本木の確率モデルを、非特許文献3(Y.W. Teh (2006) A Bayesian Interpretation of Interpolated Kneser-Ney. Technical Report TRA2/06, School of Computing, NUS.)に開示されているPitman-Yor 過程を用いて、以下の(1)式に示すようにモデル化する。
である。
次に、構文木コーパスを訓練データとして、基本木の集合を学習し、構文解析を行う構文解析装置に本発明を適用した場合を例にして、本実施の形態を説明する。
シンボル細分化学習部31は、構文木コーパス{t}が観測された下での基本木の集合eの事後確率を示すために用いられる確率モデルp(e|{t},Φ)のパラメータセットΦを指定回数だけ逐次更新することで、各基本木の最適なシンボル細分化を行い、そのときの基本木の集合^e及びパラメータセット^Φを求めるものである。以下、基本木の集合及びパラメータセットの初期値をe(0)及びΦ(0)とし、u回目の更新後の基本木の集合及びパラメータセットをe(u)及びΦ(u)と表記する。シンボル細分化学習部31では、基本木の深さや大きさは更新せずに、各基本木の最適なシンボル細分化情報を学習する。
次に、シンボル細分化学習部31によってシンボルが細分化された構文木コーパスを訓練データとして、木置換文法に基づく基本木を獲得する木置換文法学習部32について説明する。木置換文法学習部32は、シンボルが細分化された構文木コーパス(以降、{t′}と表記する)が観測された下での基本木の集合eの事後確率を示す確率モデルp(e|{t′},Φ)のパラメータセットΦを指定回数だけ逐次更新することで、最適な基本木の集合^e及び最適なパラメータセット^Φを求めるものである。以下、基本木の集合及びパラメータセットの初期値をe(0)及びΦ(0)とし、u回目の更新後の基本木の集合及びパラメータセットをe(u)及びΦ(u)と表記する。木置換文法学習部32では、シンボル細分化学習部31とは対照的に、各基本木のシンボルは更新せずに、基本木の深さや大きさを学習する。
次に、与えられた構文木が未知の文に対して、構文木を推定する構文解析部34について説明する。
次に、本実施の形態に係る構文解析装置100の作用について説明する。構文解析装置100のROMに記憶された基本木獲得プログラムを、CPUが実行することにより、図8に示す構文解析処理ルーチンが実行される。
本発明の効果を検証するため、構文解析の実験で広く使われている英語のペンツリーバンクデータ(http://www.cis.upenn.edu/~treebank/)を構文木コーパスとして使用して構文解析実験を行い、精度の評価を行った。ただし、シンボル細分化学習部31と木置換文法学習部32における繰り返し回数はともに300と設定した。
30 演算部
31 シンボル細分化学習部
32 木置換文法学習部
33 メモリ
34 構文解析部
50、60 初期パラメータ設定部
51 シンボルサンプリング部
52、62 パラメータ更新部
53、63 収束判定部
61 基本木サンプリング部
100 構文解析装置
Claims (7)
- 文法情報を示すシンボルが各非終端ノードに付与された複数の構文木からなる構文木コーパスを記憶した訓練データ記憶手段と、
細分化されたシンボルが付与された基本木の情報と、前記細分化されたシンボルが付与された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、前記構文木コーパスの各構文木を構成する、深さが所定値となる基本木の集合から、前記構文木に付与される細分化されたシンボルを学習すると共に、前記確率モデルの前記所定のパラメータを学習するシンボル細分化学習手段と、
前記シンボル細分化学習手段によって学習された、前記細分化されたシンボルが付与された前記構文木コーパスを用いて、前記基本木の確率モデルに従って、前記細分化されたシンボルが付与された前記構文木コーパスを構成する基本木であって、細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を学習すると共に、前記所定のパラメータを学習する木置換文法学習手段と、
を含む基本木学習装置。 - 前記シンボル細分化学習手段は、前記構文木コーパスの各構文木を構成する前記深さが所定値となる基本木の集合、前記深さが所定値となる基本木の集合の各非終端ノードに付与される前記細分化されたシンボル、及び前記確率モデルの前記所定のパラメータを初期化する初期パラメータ設定手段と、
前記確率モデルに従って、前記深さが所定値となる基本木の集合の各基本木に付与された前記細分化されたシンボルを更新するシンボルサンプリング手段と、
前記所定のパラメータを更新するパラメータ更新手段と、
収束条件を満たすまで、前記シンボルサンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返す収束判定手段を含み、
前記木置換文法学習手段は、前記構文木コーパスの各構文木を構成する、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合、及び前記確率モデルの前記所定のパラメータを初期化する初期パラメータ設定手段と、
前記確率モデルに従って、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を更新する基本木サンプリング手段と、
前記所定のパラメータを更新するパラメータ更新手段と、
収束条件を満たすまで、前記基本木サンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返す収束判定手段を含む請求項1記載の基本木学習装置。 - 請求項1又は2記載の基本木学習装置によって学習された前記任意の深さとなる基本木の集合及び前記確率モデルの前記所定のパラメータを記憶する記憶手段と、
前記記憶手段に記憶された前記任意の深さとなる基本木の集合、及び前記所定のパラメータを設定した前記確率モデルに基づいて、解析対象の構文の構文木構造を解析する解析手段と、
を含む構文解析装置。 - 訓練データ記憶手段と、シンボル細分化学習手段と、木置換文法学習手段とを含む基本木学習装置における基本木学習方法であって、
前記訓練データ記憶手段には、文法情報を示すシンボルが各非終端ノードに付与された複数の構文木からなる構文木コーパスが記憶され、
前記シンボル細分化学習手段は、細分化されたシンボルが付与された基本木の情報と、前記細分化されたシンボルが付与された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、前記構文木コーパスの各構文木を構成する、深さが所定値となる基本木の集合から、前記構文木に付与される細分化されたシンボルを学習すると共に、前記確率モデルの前記所定のパラメータを学習し、
前記木置換文法学習手段は、前記シンボル細分化学習手段によって学習された、前記細分化されたシンボルが付与された前記構文木コーパスを用いて、前記基本木の確率モデルに従って、前記細分化されたシンボルが付与された前記構文木コーパスを構成する基本木であって、細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を学習すると共に、前記所定のパラメータを学習する
基本木学習方法。 - 前記シンボル細分化学習手段によって学習することは、
初期パラメータ設定手段によって、前記構文木コーパスの各構文木を構成する前記深さが所定値となる基本木の集合、前記深さが所定値となる基本木の集合の各非終端ノードに付与される前記細分化されたシンボル、及び前記確率モデルの前記所定のパラメータを初期化し、
シンボルサンプリング手段によって、前記確率モデルに従って、前記深さが所定値となる基本木の集合の各基本木に付与された前記細分化されたシンボルを更新し
パラメータ更新手段によって、前記所定のパラメータを更新し、
収束判定手段によって、収束条件を満たすまで、前記シンボルサンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返すことを含み、
前記木置換文法学習手段によって学習することは、
初期パラメータ設定手段によって、前記構文木コーパスの各構文木を構成する、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合、及び前記確率モデルの前記所定のパラメータを初期化し、
基本木サンプリング手段によって、前記確率モデルに従って、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を更新し、
パラメータ更新手段によって、前記所定のパラメータを更新し、
収束判定手段によって、収束条件を満たすまで、前記基本木サンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返すことを含む請求項4記載の基本木学習方法。 - 記憶手段、及び解析手段を含む構文解析装置における構文解析方法であって、
前記記憶手段には、請求項4又は5記載の基本木学習方法によって学習された前記任意の深さとなる基本木の集合及び前記確率モデルの前記所定のパラメータが記憶され、
前記解析手段は、前記記憶手段に記憶された前記任意の深さとなる基本木の集合、及び前記所定のパラメータを設定した前記確率モデルに基づいて、解析対象の構文の構文木構造を解析する
構文解析方法。 - コンピュータを、請求項1又は2記載の基本木学習装置又は請求項3記載の構文解析装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012037953A JP5646523B2 (ja) | 2012-02-23 | 2012-02-23 | 基本木学習装置、構文解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012037953A JP5646523B2 (ja) | 2012-02-23 | 2012-02-23 | 基本木学習装置、構文解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013174971A JP2013174971A (ja) | 2013-09-05 |
JP5646523B2 true JP5646523B2 (ja) | 2014-12-24 |
Family
ID=49267833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012037953A Active JP5646523B2 (ja) | 2012-02-23 | 2012-02-23 | 基本木学習装置、構文解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5646523B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6042264B2 (ja) * | 2013-05-15 | 2016-12-14 | 日本電信電話株式会社 | 文法規則学習装置、方法、及びプログラム |
CN112541344A (zh) * | 2019-09-23 | 2021-03-23 | 北京国双科技有限公司 | 目标段落的确定方法、装置、存储介质及设备 |
-
2012
- 2012-02-23 JP JP2012037953A patent/JP5646523B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013174971A (ja) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parisotto et al. | Neuro-symbolic program synthesis | |
Lhoussain et al. | Adaptating the levenshtein distance to contextual spelling correction | |
Cuong et al. | Conditional random field with high-order dependencies for sequence labeling and segmentation | |
US8239349B2 (en) | Extracting data | |
Chicano et al. | Fitness probability distribution of bit-flip mutation | |
CN107391495B (zh) | 一种双语平行语料的句对齐方法 | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111680494A (zh) | 相似文本的生成方法及装置 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
Mohamed et al. | Exploring the potential of schemes in building NLP tools for Arabic language. | |
Agic et al. | Improving part-of-speech tagging accuracy for Croatian by morphological analysis | |
US20180173689A1 (en) | Transliteration decoding using a tree structure | |
JP5646523B2 (ja) | 基本木学習装置、構文解析装置、方法、及びプログラム | |
Roos et al. | Analysis of textual variation by latent tree structures | |
JP6558852B2 (ja) | 節同定装置、方法、及びプログラム | |
Benedí et al. | Estimation of stochastic context-free grammars and their use as language models | |
Chahuneau et al. | pycdec: A Python Interface to cdec. | |
JP5462819B2 (ja) | 基本木獲得装置、構文解析装置、方法、及びプログラム | |
JP6011856B2 (ja) | 文書間関係推定モデル学習装置、文書間関係推定装置、方法、及びプログラム | |
JP6633999B2 (ja) | 符号器学習装置、変換装置、方法、及びプログラム | |
JP2019144844A (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
JP2017059216A (ja) | クエリ校正システムおよび方法 | |
CN110895660B (zh) | 一种基于句法依存关系动态编码的语句处理方法及装置 | |
Haque et al. | Supertags as source language context in hierarchical phrase-based SMT | |
JP6042264B2 (ja) | 文法規則学習装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5646523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |