JP6558852B2 - 節同定装置、方法、及びプログラム - Google Patents
節同定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6558852B2 JP6558852B2 JP2015218710A JP2015218710A JP6558852B2 JP 6558852 B2 JP6558852 B2 JP 6558852B2 JP 2015218710 A JP2015218710 A JP 2015218710A JP 2015218710 A JP2015218710 A JP 2015218710A JP 6558852 B2 JP6558852 B2 JP 6558852B2
- Authority
- JP
- Japan
- Prior art keywords
- clause
- score function
- unit
- score
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
Conditional Random Field (CRF)(非特許文献1参照)を使った節の同定方法では、各単語wiに対し、節の始まり(B-S)、節の範囲内(I-S)、節の範囲外(O-S)の3種類のタグを付与する。例えば、図3では“He became a student”と“he recieved a grant”の2つの節があり、節の先頭の単語にはB-S、それ以外の単語にはI-Sが振られ、節の範囲外の単語にはO-Sが振られる。
Probabilistic Context Free Grammer (PCFG)を使った節の同定方法は以下の2ステップから構成される。
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、文中の節の同定方法に関する。この技術は、双対分解を用いることにより、Conditional Random Field (CRF) とProbabilistic Context Free Grammer (PCFG) の両方の出力を同時に考慮し、より高精度に文中の節の範囲を同定する技術である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の実施の形態の節同定装置100を示すブロック図である。節同定装置100は、CPUと、RAMと、節同定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
ここで、文中の節を同定する原理について説明する。
ただし、ai,jは、a(i,j)を表し、bi,jは、b(i,j)を表している。
既存手法であるCRFを使った節の同定方法と、PCFGを使った節の同定方法、及び本発明の実施の形態で説明した双対分解を使った節の同定方法の性能評価を実験的に示す。本実験では、Penn Treebankのデータを使用する。Penn Treebankは構文木を含むデータであり、データは学習用、開発セット用、テスト用の3つの部分集合からなる。本発明の実施の形態では、節の同定を行ないたいため、この3つのデータセットそれぞれに含まれる構文木の集合を、節を表わすタグ系列 (B-S、I-S、O-S)の集合に変換したものを用いる。節はネストする場合があるが、今回はネストした中の最も小さい節のみを節と考えることとする。評価にはテスト用のPenn Treebankの部分集合である1346文を使用した。CRFを使った節の同定方法では、Penn Treebankの学習用データを用いてCRFを学習した(開発セット用データでハイパーパラメータのチューニングを行なった)。実装にはCRF++を用い、特徴量にはUnigram特徴量とBigram特徴量を用いた。PCFGを使った節同定方法では、構文木を出力するためにStanford Parserを使用した。双対分解を使った節の同定方法で用いる第1スコア関数f(・)、第2スコア関数g(・)には、CRFの対数尤度関数、PCFGの対数尤度関数を用いた。
30 演算部
31 スコア関数学習部
32 スコア関数学習部
33 初期化部
34 CRF節同定部
35 PCFG節同定部
36 反復終了判定部
37 スコア関数修正部
40 出力部
100 節同定装置
Claims (7)
- 文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第1スコア関数を用いて、CRF(Conditional Random Field)に従って、入力文中の単語の各部分系列が節であるか否かを同定するCRF節同定部と、
文を表す構文木のスコアを算出するための第2スコア関数を用いて、PCFG(Probabilistic Context Free Grammer)に従って、入力文を表す最適な構文木を求め、前記入力文中の単語の各部分系列が節であるか否かを同定するPCFG節同定部と、
前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果とを比較した結果に基づいて、前記第1スコア関数及び前記第2スコア関数の各々を修正するスコア関数修正部と、
予め定められた反復終了条件を満たすまで、前記CRF節同定部による同定、前記PCFG節同定部による同定、及び前記スコア関数修正部による修正を繰り返す反復終了判定部と、
を含み、
前記スコア関数修正部は、前記入力文中の単語の各部分系列について、前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果とを比較して合意の度合いを表す変数を更新し、
前記入力文中の単語の各部分系列についての、前記CRF節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第1スコア関数を修正し、
前記入力文中の単語の各部分系列についての、前記PCFG節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第2スコア関数を修正する節同定装置。 - 前記CRF節同定部は、Viterbiアルゴリズムに従って、前記第1スコア関数のスコアが最大となる前記タグ系列を探索することによって、前記入力文中の節を同定し、
前記PCFG節同定部は、Viterbiアルゴリズムに従って、前記第2スコア関数のスコアが最大となる前記構文木を探索することによって、前記入力文中の節を同定する請求項1記載の節同定装置。 - 前記第1スコア関数は、複数の学習用文の各々を表す前記タグ系列の正例に基づいて予め学習され、
前記第2スコア関数は、複数の学習用文の各々を表す前記構文木の正例に基づいて予め学習された請求項1又は2記載の節同定装置。 - CRF節同定部、PCFG節同定部、スコア関数修正部、及び反復終了判定部を含む節同定装置における節同定方法であって、
前記CRF節同定部が、文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第1スコア関数を用いて、CRF(Conditional Random Field)に従って、入力文中の単語の各部分系列が節であるか否かを同定し、
前記PCFG節同定部が、文を表す構文木のスコアを算出するための第2スコア関数を用いて、PCFG(Probabilistic Context Free Grammer)に従って、入力文を表す最適な構文木を求め、前記入力文中の単語の各部分系列が節であるか否かを同定し、
前記スコア関数修正部が、前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果とを比較した結果に基づいて、前記第1スコア関数及び前記第2スコア関数の各々を修正し、
前記反復終了判定部が、予め定められた反復終了条件を満たすまで、前記CRF節同定部による同定、前記PCFG節同定部による同定、及び前記スコア関数修正部による修正を繰り返すことを含み、
前記スコア関数修正部が修正することでは、前記入力文中の単語の各部分系列について、前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果とを比較して合意の度合いを表す変数を更新し、
前記入力文中の単語の各部分系列についての、前記CRF節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第1スコア関数を修正し、
前記入力文中の単語の各部分系列についての、前記PCFG節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第2スコア関数を修正する節同定方法。 - 前記CRF節同定部が同定することでは、Viterbiアルゴリズムに従って、前記第1スコア関数のスコアが最大となる前記タグ系列を探索することによって、前記入力文中の節を同定し、
前記PCFG節同定部が同定することでは、Viterbiアルゴリズムに従って、前記第2スコア関数のスコアが最大となる前記構文木を探索することによって、前記入力文中の節を同定する請求項4記載の節同定方法。 - 前記第1スコア関数は、複数の学習用文の各々を表す前記タグ系列の正例に基づいて予め学習され、
前記第2スコア関数は、複数の学習用文の各々を表す前記構文木の正例に基づいて予め学習された請求項4又は5記載の節同定方法。 - コンピュータを、請求項1〜請求項3の何れか1項に記載の節同定装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015218710A JP6558852B2 (ja) | 2015-11-06 | 2015-11-06 | 節同定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015218710A JP6558852B2 (ja) | 2015-11-06 | 2015-11-06 | 節同定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017091101A JP2017091101A (ja) | 2017-05-25 |
JP6558852B2 true JP6558852B2 (ja) | 2019-08-14 |
Family
ID=58768280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015218710A Active JP6558852B2 (ja) | 2015-11-06 | 2015-11-06 | 節同定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6558852B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929521B (zh) * | 2019-12-06 | 2023-10-27 | 北京知道创宇信息技术股份有限公司 | 一种模型生成方法、实体识别方法、装置及存储介质 |
WO2022123716A1 (ja) * | 2020-12-10 | 2022-06-16 | 富士通株式会社 | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 |
CN115080924B (zh) * | 2022-07-25 | 2022-11-15 | 南开大学 | 一种基于自然语言理解的软件许可证条款抽取方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8543906B2 (en) * | 2005-06-29 | 2013-09-24 | Xerox Corporation | Probabilistic learning method for XML annotation of documents |
JP4976789B2 (ja) * | 2006-09-05 | 2012-07-18 | 日本電信電話株式会社 | トークン列中の境界検出方法、装置、プログラム、記録媒体 |
JP5139701B2 (ja) * | 2007-03-13 | 2013-02-06 | 日本電信電話株式会社 | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
US8086443B2 (en) * | 2007-08-24 | 2011-12-27 | Siemens Medical Solutions Usa, Inc. | System and method for text tagging and segmentation using a generative/discriminative hybrid hidden markov model |
-
2015
- 2015-11-06 JP JP2015218710A patent/JP6558852B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017091101A (ja) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857845B (zh) | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 | |
Kim et al. | Structured attention networks | |
US11914959B2 (en) | Entity linking method and apparatus | |
Dupont et al. | Links between probabilistic automata and hidden Markov models: probability distributions, learning models and induction algorithms | |
US20040111253A1 (en) | System and method for rapid development of natural language understanding using active learning | |
US20180365209A1 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
Sidorov et al. | Computing text similarity using tree edit distance | |
JP6558852B2 (ja) | 節同定装置、方法、及びプログラム | |
Janz et al. | Actively learning what makes a discrete sequence valid | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
US20230128008A1 (en) | Automating test-driven development with transformers | |
US20220244952A1 (en) | Source code generation using code templates with neural transformers | |
WO2022164668A1 (en) | Natural language source code search using using neural transformers | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
US9460086B2 (en) | Method and apparatus for performing bilingual word alignment | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
Cohn | Efficient inference in large conditional random fields | |
JP6291440B2 (ja) | パラメータ学習方法、装置、及びプログラム | |
CN112765985A (zh) | 一种面向特定领域专利实施例的命名实体识别方法 | |
CN114912458A (zh) | 一种情感分析方法、装置和计算机可读介质 | |
CN115617954B (zh) | 问答方法、装置、电子设备及存储介质 | |
JP2016095698A (ja) | 翻訳学習装置、翻訳装置、方法、及びプログラム | |
Fernández-González et al. | Dynamic oracles for top-down and in-order shift-reduce constituent parsing | |
CN112182022B (zh) | 基于自然语言的数据查询方法、装置及翻译模型 | |
JP5646523B2 (ja) | 基本木学習装置、構文解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6558852 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |