JP6062816B2 - 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム - Google Patents
形態素解析器生成装置、形態素解析器生成方法、及び、プログラム Download PDFInfo
- Publication number
- JP6062816B2 JP6062816B2 JP2013148399A JP2013148399A JP6062816B2 JP 6062816 B2 JP6062816 B2 JP 6062816B2 JP 2013148399 A JP2013148399 A JP 2013148399A JP 2013148399 A JP2013148399 A JP 2013148399A JP 6062816 B2 JP6062816 B2 JP 6062816B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- sentence
- partial character
- npylm
- crf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
10 入力部
11 演算処理部
12 NPYLM生成部
13 CRF生成部
14 学習部
15 出力部
16 記憶部
17 学習データ記憶部
18 NPYLM記憶部
19 CRF記憶部
Claims (9)
- 学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、
前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すNPYLM(Nested Pitman-Yor Language Model)を生成し、NPYLM記憶部に記憶するステップと、
前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記NPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入したCRFを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記CRFのパラメータを更新し、前記更新された分かち書きに基づいて前記NPYLMを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
を備え、
前記CRFの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記NPYLMから削除した後に、再度の学習を行う形態素解析器生成方法。 - 前記CRFは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項1または2に記載の形態素解析器生成方法。
- 学習用のデータとして複数の文を記憶した学習データ記憶部と、
前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すNPYLM(Nested Pitman-Yor Language Model)を生成し、NPYLM記憶部に記憶するNPYLM生成部と、
前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記NPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入したCRFを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記CRFのパラメータを更新し、前記更新された分かち書きに基づいて前記NPYLMを更新する処理を、所定の収束条件を満たすまで繰り返し行う学習部と、
を備え、
前記学習部は、前記CRFの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記NPYLMから削除した後に、再度の学習を行う形態素解析器生成装置。 - 前記CRFは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項4または5に記載の形態素解析器生成装置。
- 学習用のデータに基づいて形態素解析器を生成するためのプログラムであって、コンピュータに、
学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、
前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すNPYLM(Nested Pitman-Yor Language Model)を生成し、NPYLM記憶部に記憶するステップと、
前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記NPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入したCRFを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記CRFのパラメータを更新し、前記更新された分かち書きに基づいて前記NPYLMを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
を実行させ、
前記CRFの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記NPYLMから削除した後に、再度の学習を行うプログラム。 - 前記CRFは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項7または8に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013148399A JP6062816B2 (ja) | 2013-07-17 | 2013-07-17 | 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013148399A JP6062816B2 (ja) | 2013-07-17 | 2013-07-17 | 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015022398A JP2015022398A (ja) | 2015-02-02 |
JP6062816B2 true JP6062816B2 (ja) | 2017-01-18 |
Family
ID=52486820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013148399A Expired - Fee Related JP6062816B2 (ja) | 2013-07-17 | 2013-07-17 | 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6062816B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116324791A (zh) | 2020-10-30 | 2023-06-23 | 富士通株式会社 | 信息处理程序、信息处理方法以及信息处理装置 |
-
2013
- 2013-07-17 JP JP2013148399A patent/JP6062816B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015022398A (ja) | 2015-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mani et al. | Deeptriage: Exploring the effectiveness of deep learning for bug triaging | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
Pagliardini et al. | Unsupervised learning of sentence embeddings using compositional n-gram features | |
CN108628834B (zh) | 一种基于句法依存关系的词语表示学习方法 | |
CN111782807B (zh) | 一种基于多方法集成学习的自承认技术债务检测分类方法 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
Nikhath et al. | Building a k-nearest neighbor classifier for text categorization | |
Singh et al. | A decision tree based word sense disambiguation system in Manipuri language | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN112765319B (zh) | 一种文本的处理方法、装置、电子设备及存储介质 | |
Elayidom et al. | Text classification for authorship attribution analysis | |
Nguyen et al. | Hierarchical character embeddings: Learning phonological and semantic representations in languages of logographic origin using recursive neural networks | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
Khasnabish et al. | Detecting programming language from source code using bayesian learning techniques | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
JP6062816B2 (ja) | 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム | |
Mahmoodvand et al. | Semi-supervised approach for Persian word sense disambiguation | |
Kumar et al. | Detection of depression using machine learning algorithms | |
JP5462819B2 (ja) | 基本木獲得装置、構文解析装置、方法、及びプログラム | |
JP5990124B2 (ja) | 略語生成装置、略語生成方法、及びプログラム | |
JP2016133956A (ja) | 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム | |
CN113158678A (zh) | 一种应用于电力文本命名实体的识别方法及装置 | |
Espinal et al. | A Format-sensitive BERT-based Approach to Resume Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6062816 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |