JP5648913B2 - 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム - Google Patents
機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム Download PDFInfo
- Publication number
- JP5648913B2 JP5648913B2 JP2011009499A JP2011009499A JP5648913B2 JP 5648913 B2 JP5648913 B2 JP 5648913B2 JP 2011009499 A JP2011009499 A JP 2011009499A JP 2011009499 A JP2011009499 A JP 2011009499A JP 5648913 B2 JP5648913 B2 JP 5648913B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- morpheme
- feature
- semantic label
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
パラメータテーブルは、各素性に対する重みを対応づけて記憶しうるものであり、素性としては、形態素の部分列(形態素列)と意味ラベルとを対応つける素性(マッピング素性)、及び、意味ラベル列を表す素性(N−gram素性)の両方が含まれる。マッピング素性に対する重みは、当該形態素列の意味ラベルへのなりやすさを表し、N−gram素性に対する重みは、当該意味ラベル列の尤もらしさを表す。
機能表現辞書191としては、例えば、日本語機能表現辞書「つつじ」(参考文献1:松吉俊,佐藤理史,宇津呂武仁,“日本語機能表現辞書の編纂”自然言語処理,14(5):pp.123-146, 2007年10月.)を用いればよい。「つつじ」は、機能表現の表層形約16,000種について、その意味カテゴリが付与されている。また、機能表現意味ラベルとして「つつじ」に収録されている意味カテゴリ89個を用いればよい。
なお、デコーディング部110の詳細な構成や処理内容についても学習時と同じである。
意味ラベル取得部210は、最尤フレーズ列から意味ラベルを取り出す(S210)。
素性重み学習装置100と機能表現解析装置200(または機能表現解析装置300)によれば、機能表現同士の接続可否を記載した接続表を準備することなく、形態素列に意味ラベルを付与することが可能である。また、同じ表層形を持つ機能表現が複数存在していても、前後の文脈によって適切な意味ラベルを選択することができる。
なお、上述の機能表現解析装置もしくは素性重み学習装置は、プログラムによってコンピュータを機能表現解析装置もしくは素性重み学習装置として動作させてもよい。
110 デコーディング部 111 ラティス構築手段
112 最尤パス探索手段 120 第1素性選択部
130 第2素性選択部 140 差分抽出部
150 パラメータテーブル更新部 160 制御部
190、290 記録部 191 機能表現辞書
192 パラメータテーブル 193 意味ラベル正解コーパス
200、300 機能表現解析装置 210 意味ラベル取得部
Claims (8)
- 機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルを記録する記録部と、
入力された形態素列に尤もらしい意味ラベルの列が対応つけられた1つまたは複数の形態素から成るフレーズの列を、最尤フレーズ列として出力するデコーディング部と、
前記最尤フレーズ列から意味ラベルを取り出す意味ラベル取得部と、
を備え、
前記デコーディング部は、
形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築手段と、
前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索手段と
を有し、
前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含む
ことを特徴とする機能表現解析装置。 - 前記最尤パス探索手段は、
前記取り得るフレーズ列のうち、当該フレーズ列に対応する前記パラメータテーブルにおける素性の重みを足し合わせた値が最大となるフレーズ列を前記最尤パスとする
ことを特徴とする請求項1記載の機能表現解析装置。 - 機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルと、形態素列に対して1つまたは複数の形態素から成るフレーズを構成して意味ラベルを付与した文の集合である意味ラベル正解コーパスを記録する記録部と、
前記意味ラベル正解コーパス内の1文分の形態素列が入力され、入力された形態素列に尤もらしい意味ラベルの列が対応つけられたフレーズ列を、最尤フレーズ列として出力するデコーディング部と、
前記最尤フレーズ列から前記マッピング素性および前記N−gram素性を求め、第1素性集合を作成する第1素性選択部と、
前記意味ラベル正解コーパスから正解となるフレーズ列である正解フレーズ列を求め、前記正解フレーズ列から前記マッピング素性および前記N−gram素性を求め、第2素性集合を作成する第2素性選択部と、
前記第1素性集合と前記第2素性集合との間で異なる素性を抽出する差分抽出部と、
抽出された素性であって前記第1素性集合に含まれる素性の重みを小さくし、抽出された素性であって前記第2素性集合に含まれる素性の重みを大きくするパラメータテーブル更新部と、
前記デコーディング部、前記第1素性選択部、前記第2素性選択部、前記差分抽出部、前記パラメータテーブル更新部の処理を繰り返す制御部と
を備え、
前記デコーディング部は、
形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築手段と、
前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索手段と
を有し、
前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含む
ことを特徴とする素性重み学習装置。 - あらかじめ、機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルを記録しておき、
入力された形態素列に尤もらしい意味ラベルの列が対応つけられた1つまたは複数の形態素から成るフレーズの列を、最尤フレーズ列として出力するデコーディングステップと、
前記最尤フレーズ列から意味ラベルを取り出す意味ラベル取得ステップと、
を有し、
前記デコーディングステップは、
形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築サブステップと、
前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索サブステップと
を有し、
前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含む
ことを特徴とする機能表現解析方法。 - 前記最尤パス探索サブステップは、
前記取り得るフレーズ列のうち、当該フレーズ列に対応する前記パラメータテーブルにおける素性の重みを足し合わせた値が最大となるフレーズ列を前記最尤パスとする
ことを特徴とする請求項4記載の機能表現解析方法。 - あらかじめ、機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルと、形態素列に対して1つまたは複数の形態素から成るフレーズを構成して意味ラベルを付与した文の集合である意味ラベル正解コーパスを記録しておき、
前記意味ラベル正解コーパス内の1文分の形態素列が入力され、入力された形態素列に尤もらしい意味ラベルの列が対応つけられたフレーズ列を、最尤フレーズ列として出力するデコーディングステップと、
前記最尤フレーズ列から前記マッピング素性および前記N−gram素性を求め、第1素性集合を作成する第1素性選択ステップと、
前記意味ラベル正解コーパスから正解となるフレーズ列である正解フレーズ列を求め、前記正解フレーズ列から前記マッピング素性および前記N−gram素性を求め、第2素性集合を作成する第2素性選択ステップと、
前記第1素性集合と前記第2素性集合との間で異なる素性を抽出する差分抽出ステップと、
抽出された素性であって前記第1素性集合に含まれる素性の重みを小さくし、抽出された素性であって前記第2素性集合に含まれる素性の重みを大きくするパラメータテーブル更新ステップと、
前記デコーディングステップ、前記第1素性選択ステップ、前記第2素性選択ステップ、前記差分抽出ステップ、前記パラメータテーブル更新ステップの処理を繰り返す制御ステップと
を有し、
前記デコーディングステップは、
形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築サブステップと、
前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索サブステップと
を有し、
前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含む
ことを特徴とする素性重み学習方法。 - 請求項1または2に記載の機能表現解析装置としてコンピュータを動作させるためのプログラム。
- 請求項3記載の素性重み学習装置としてコンピュータを動作させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011009499A JP5648913B2 (ja) | 2011-01-20 | 2011-01-20 | 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011009499A JP5648913B2 (ja) | 2011-01-20 | 2011-01-20 | 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012150694A JP2012150694A (ja) | 2012-08-09 |
JP5648913B2 true JP5648913B2 (ja) | 2015-01-07 |
Family
ID=46792876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011009499A Active JP5648913B2 (ja) | 2011-01-20 | 2011-01-20 | 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5648913B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102106797B1 (ko) * | 2013-10-11 | 2020-05-06 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
JP6652355B2 (ja) * | 2015-09-15 | 2020-02-19 | 株式会社東芝 | 情報抽出装置、方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4328362B2 (ja) * | 2007-03-06 | 2009-09-09 | 日本電信電話株式会社 | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体 |
JP2009181408A (ja) * | 2008-01-31 | 2009-08-13 | Nippon Telegr & Teleph Corp <Ntt> | 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体 |
-
2011
- 2011-01-20 JP JP2011009499A patent/JP5648913B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012150694A (ja) | 2012-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101532447B1 (ko) | 아시아어 문자를 생성하는 인식 아키텍처 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Keuleers et al. | Wuggy: A multilingual pseudoword generator | |
Virpioja et al. | Morfessor 2.0: Python implementation and extensions for Morfessor Baseline | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
CN112151183A (zh) | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
TW201822190A (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
CN112183106B (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP2002149643A (ja) | 日本語の表意文字の読み方を予測する方法 | |
JP5648913B2 (ja) | 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
JP4878220B2 (ja) | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 | |
US10964313B2 (en) | Word score calculation device, word score calculation method, and computer program product | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
CN107203512B (zh) | 用于从用户的自然语言输入中提取关键元素的方法 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
US20240202216A1 (en) | Extraction machine learning framework | |
JP7411149B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム | |
CN114723073B (zh) | 语言模型预训练、产品搜索方法、装置以及计算机设备 | |
JP5521669B2 (ja) | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130926 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140422 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141021 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5648913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |