JP2017091101A - 節同定装置、方法、及びプログラム - Google Patents
節同定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2017091101A JP2017091101A JP2015218710A JP2015218710A JP2017091101A JP 2017091101 A JP2017091101 A JP 2017091101A JP 2015218710 A JP2015218710 A JP 2015218710A JP 2015218710 A JP2015218710 A JP 2015218710A JP 2017091101 A JP2017091101 A JP 2017091101A
- Authority
- JP
- Japan
- Prior art keywords
- clause
- score function
- unit
- node identification
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】CRF節同定部34が、第1スコア関数を用いて、CRFに従って、入力文中の節を同定する。PCFG節同定部35が、第2スコア関数を用いて、PCFGに従って、入力文を表す最適な構文木を求め、前記入力文中の節を同定する。スコア関数修正部37が、CRF節同定部34による節の同定結果と、PCFG節同定部35による節の同定結果とを比較した結果に基づいて、第1スコア関数及び第2スコア関数の各々を修正する。反復終了判定部36が、反復終了条件を満たすまで、CRF節同定部34による同定、PCFG節同定部35による同定、及びスコア関数修正部37による修正を繰り返す。
【選択図】図1
Description
Conditional Random Field (CRF)(非特許文献1参照)を使った節の同定方法では、各単語wiに対し、節の始まり(B-S)、節の範囲内(I-S)、節の範囲外(O-S)の3種類のタグを付与する。例えば、図3では“He became a student”と“he recieved a grant”の2つの節があり、節の先頭の単語にはB-S、それ以外の単語にはI-Sが振られ、節の範囲外の単語にはO-Sが振られる。
Probabilistic Context Free Grammer (PCFG)を使った節の同定方法は以下の2ステップから構成される。
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、文中の節の同定方法に関する。この技術は、双対分解を用いることにより、Conditional Random Field (CRF) とProbabilistic Context Free Grammer (PCFG) の両方の出力を同時に考慮し、より高精度に文中の節の範囲を同定する技術である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の実施の形態の節同定装置100を示すブロック図である。節同定装置100は、CPUと、RAMと、節同定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
ここで、文中の節を同定する原理について説明する。
ただし、ai,jは、a(i,j)を表し、bi,jは、b(i,j)を表している。
既存手法であるCRFを使った節の同定方法と、PCFGを使った節の同定方法、及び本発明の実施の形態で説明した双対分解を使った節の同定方法の性能評価を実験的に示す。本実験では、Penn Treebankのデータを使用する。Penn Treebankは構文木を含むデータであり、データは学習用、開発セット用、テスト用の3つの部分集合からなる。本発明の実施の形態では、節の同定を行ないたいため、この3つのデータセットそれぞれに含まれる構文木の集合を、節を表わすタグ系列 (B-S、I-S、O-S)の集合に変換したものを用いる。節はネストする場合があるが、今回はネストした中の最も小さい節のみを節と考えることとする。評価にはテスト用のPenn Treebankの部分集合である1346文を使用した。CRFを使った節の同定方法では、Penn Treebankの学習用データを用いてCRFを学習した(開発セット用データでハイパーパラメータのチューニングを行なった)。実装にはCRF++を用い、特徴量にはUnigram特徴量とBigram特徴量を用いた。PCFGを使った節同定方法では、構文木を出力するためにStanford Parserを使用した。双対分解を使った節の同定方法で用いる第1スコア関数f(・)、第2スコア関数g(・)には、CRFの対数尤度関数、PCFGの対数尤度関数を用いた。
30 演算部
31 スコア関数学習部
32 スコア関数学習部
33 初期化部
34 CRF節同定部
35 PCFG節同定部
36 反復終了判定部
37 スコア関数修正部
40 出力部
100 節同定装置
Claims (8)
- 文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第1スコア関数を用いて、CRF(Conditional Random Field)に従って、入力文中の節を同定するCRF節同定部と、
文を表す構文木のスコアを算出するための第2スコア関数を用いて、PCFG(Probabilistic Context Free Grammer)に従って、入力文を表す最適な構文木を求め、前記入力文中の節を同定するPCFG節同定部と、
前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果とを比較した結果に基づいて、前記第1スコア関数及び前記第2スコア関数の各々を修正するスコア関数修正部と、
予め定められた反復終了条件を満たすまで、前記CRF節同定部による同定、前記PCFG節同定部による同定、及び前記スコア関数修正部による修正を繰り返す反復終了判定部と、
を含む節同定装置。 - 前記CRF節同定部は、Viterbiアルゴリズムに従って、前記第1スコア関数のスコアが最大となる前記タグ系列を探索することによって、前記入力文中の節を同定し、
前記PCFG節同定部は、Viterbiアルゴリズムに従って、前記第2スコア関数のスコアが最大となる前記構文木を探索することによって、前記入力文中の節を同定する請求項1記載の節同定装置。 - 前記第1スコア関数は、複数の学習用文の各々を表す前記タグ系列の正例に基づいて予め学習され、
前記第2スコア関数は、複数の学習用文の各々を表す前記構文木の正例に基づいて予め学習された請求項1又は2記載の節同定装置。 - 前記スコア関数修正部は、前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果とが一致しない場合、各節に対する、前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果との合意の度合いを表す変数を用いて、前記第1スコア関数及び前記第2スコア関数の各々を修正する請求項1〜請求項3の何れか1項記載の節同定装置。
- CRF節同定部、PCFG節同定部、スコア関数修正部、及び反復終了判定部を含む節同定装置における節同定方法であって、
前記CRF節同定部が、文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第1スコア関数を用いて、CRF(Conditional Random Field)に従って、入力文中の節を同定し、
前記PCFG節同定部が、文を表す構文木のスコアを算出するための第2スコア関数を用いて、PCFG(Probabilistic Context Free Grammer)に従って、入力文を表す最適な構文木を求め、前記入力文中の節を同定し、
前記スコア関数修正部が、前記CRF節同定部による節の同定結果と、前記PCFG節同定部による節の同定結果とを比較した結果に基づいて、前記第1スコア関数及び前記第2スコア関数の各々を修正し、
前記反復終了判定部が、予め定められた反復終了条件を満たすまで、前記CRF節同定部による同定、前記PCFG節同定部による同定、及び前記スコア関数修正部による修正を繰り返す
節同定方法。 - 前記CRF節同定部が同定することでは、Viterbiアルゴリズムに従って、前記第1スコア関数のスコアが最大となる前記タグ系列を探索することによって、前記入力文中の節を同定し、
前記PCFG節同定部が同定することでは、Viterbiアルゴリズムに従って、前記第2スコア関数のスコアが最大となる前記構文木を探索することによって、前記入力文中の節を同定する請求項5記載の節同定方法。 - 前記第1スコア関数は、複数の学習用文の各々を表す前記タグ系列の正例に基づいて予め学習され、
前記第2スコア関数は、複数の学習用文の各々を表す前記構文木の正例に基づいて予め学習された請求項5又は6記載の節同定方法。 - コンピュータを、請求項1〜請求項4の何れか1項に記載の節同定装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015218710A JP6558852B2 (ja) | 2015-11-06 | 2015-11-06 | 節同定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015218710A JP6558852B2 (ja) | 2015-11-06 | 2015-11-06 | 節同定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017091101A true JP2017091101A (ja) | 2017-05-25 |
JP6558852B2 JP6558852B2 (ja) | 2019-08-14 |
Family
ID=58768280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015218710A Active JP6558852B2 (ja) | 2015-11-06 | 2015-11-06 | 節同定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6558852B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929521A (zh) * | 2019-12-06 | 2020-03-27 | 北京知道智慧信息技术有限公司 | 一种模型生成方法、实体识别方法、装置及存储介质 |
WO2022123716A1 (ja) * | 2020-12-10 | 2022-06-16 | 富士通株式会社 | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 |
CN115080924A (zh) * | 2022-07-25 | 2022-09-20 | 南开大学 | 一种基于自然语言理解的软件许可证条款抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007012059A (ja) * | 2005-06-29 | 2007-01-18 | Xerox Corp | 文書プロセッサ |
JP2008065435A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | トークン列中の境界検出方法、装置、プログラム、記録媒体 |
JP2008225907A (ja) * | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
US20090055183A1 (en) * | 2007-08-24 | 2009-02-26 | Siemens Medical Solutions Usa, Inc. | System and Method for Text Tagging and Segmentation Using a Generative/Discriminative Hybrid Hidden Markov Model |
-
2015
- 2015-11-06 JP JP2015218710A patent/JP6558852B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007012059A (ja) * | 2005-06-29 | 2007-01-18 | Xerox Corp | 文書プロセッサ |
JP2008065435A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | トークン列中の境界検出方法、装置、プログラム、記録媒体 |
JP2008225907A (ja) * | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
US20090055183A1 (en) * | 2007-08-24 | 2009-02-26 | Siemens Medical Solutions Usa, Inc. | System and Method for Text Tagging and Segmentation Using a Generative/Discriminative Hybrid Hidden Markov Model |
Non-Patent Citations (3)
Title |
---|
浅原 正幸: "自然言語処理と系列ラベリング技術", 経営の科学 オペレーションズ・リサーチ 第52巻 第11号 COMMUNICATIONS OF THE OPERATIONS RESEARC, vol. 第52巻第11号, JPN6018048838, 1 November 2007 (2007-11-01), JP, pages 3 - 8, ISSN: 0003937069 * |
藤野 昭典 外2名: "生成・識別ハイブリッドモデルに基づく半教師あり学習", FIT2005 第4回情報科学技術フォーラム 情報科学技術レターズ 第4巻, JPN6018048843, 22 August 2005 (2005-08-22), JP, pages 161 - 164, ISSN: 0003937070 * |
鈴木 潤 外2名: "拡張ラグランジュ緩和を用いた同時自然言語解析法", 言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD−ROM], JPN6018048840, 31 March 2012 (2012-03-31), JP, pages 1284 - 1287, ISSN: 0003937071 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929521A (zh) * | 2019-12-06 | 2020-03-27 | 北京知道智慧信息技术有限公司 | 一种模型生成方法、实体识别方法、装置及存储介质 |
CN110929521B (zh) * | 2019-12-06 | 2023-10-27 | 北京知道创宇信息技术股份有限公司 | 一种模型生成方法、实体识别方法、装置及存储介质 |
WO2022123716A1 (ja) * | 2020-12-10 | 2022-06-16 | 富士通株式会社 | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 |
CN115080924A (zh) * | 2022-07-25 | 2022-09-20 | 南开大学 | 一种基于自然语言理解的软件许可证条款抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6558852B2 (ja) | 2019-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN109857845B (zh) | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 | |
US10956464B2 (en) | Natural language question answering method and apparatus | |
US11914959B2 (en) | Entity linking method and apparatus | |
US20040111253A1 (en) | System and method for rapid development of natural language understanding using active learning | |
US20180365209A1 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
JP6558852B2 (ja) | 節同定装置、方法、及びプログラム | |
Janz et al. | Actively learning what makes a discrete sequence valid | |
US11074406B2 (en) | Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor | |
CN112182022B (zh) | 基于自然语言的数据查询方法、装置及翻译模型 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
US20230128008A1 (en) | Automating test-driven development with transformers | |
WO2022164668A1 (en) | Natural language source code search using using neural transformers | |
EP4285217A1 (en) | Natural language source code search using using neural transformers | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
Cohn | Efficient inference in large conditional random fields | |
JP6291440B2 (ja) | パラメータ学習方法、装置、及びプログラム | |
CN106951437A (zh) | 适于多个中文敏感词句的识别处理方法及装置 | |
CN114912458A (zh) | 一种情感分析方法、装置和计算机可读介质 | |
CN112765985A (zh) | 一种面向特定领域专利实施例的命名实体识别方法 | |
CN115617954B (zh) | 问答方法、装置、电子设备及存储介质 | |
CN116932763A (zh) | 利用标签信息的层次多标签专业技术文档分类方法和系统 | |
JP2016095698A (ja) | 翻訳学習装置、翻訳装置、方法、及びプログラム | |
CN112487811B (zh) | 基于强化学习的级联信息提取系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6558852 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |