JP4933118B2 - 文章区間抽出装置及びプログラム - Google Patents
文章区間抽出装置及びプログラム Download PDFInfo
- Publication number
- JP4933118B2 JP4933118B2 JP2006064508A JP2006064508A JP4933118B2 JP 4933118 B2 JP4933118 B2 JP 4933118B2 JP 2006064508 A JP2006064508 A JP 2006064508A JP 2006064508 A JP2006064508 A JP 2006064508A JP 4933118 B2 JP4933118 B2 JP 4933118B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- subtree
- section
- extracting
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
〔構成〕
まず、本発明の実施の形態による文章区間抽出装置の構成について説明する。図1は、文章区間抽出装置の構成を示すブロック図である。この文章区間抽出装置1は、学習データに基づいて部分木によって弱学習器を生成し、この生成した弱学習器を用いて機械学習を行うことにより、重み付き係数及び弱学習器から成る最終仮説情報を生成する学習部10と、テキストデータからキーとなる単語及び文章区間を抽出し、学習部10により生成された最終仮説情報に基づいて、定型的な表現が含まれる文章区間を特定する抽出部20を備えている。
次に、図1に示した文章区間抽出装置1の動作について説明する。図2は、文章区間抽出装置1の処理を説明するフローチャート図である。文章区間抽出装置1の木構造生成手段11は、まず、記憶手段14から学習データを読み出し、学習データを構成する文を入力文として構文解析し、木構造に変換する(ステップS2−1)。図3は、木構造生成手段11により生成された木構造の例を示す図である。この木構造は、「セーヌ川を挟み、ル・アーブルの対岸に位置する港町、オンフルール。今なお中世の古い家並みが残る、町です。」という2つの入力文から生成されたものである。
この類似度は、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、その各リスト構造が対象とする木構造に含まれる割合を基準として定義された度合いである。そして、部分木抽出手段12は、類似度が一定値以上であるか否かを判断基準とすることにより、木構造x及び閾値θtを変数に持つ弱学習器ht(x,θt)を生成する。ここで、ht(x,θt)=1または−1である。
この関数式H(x)は、所定の木構造の文章xが、定型的な表現が含まれる文章区間であるか否かの判定処理に用いられる。ここで、H(x)=1または0であり、1の場合に木構造xは定型的な表現が含まれる文章区間であることを示し、0の場合に木構造xは定型的な表現が含まれる文章区間でないことを示す。このように、機械学習された重み付き係数αtは、弱学習器ht(x,θt)に対して与えられ、正例(定型表現が含まれる文章集合)及び負例(定型表現が含まれない文章集合)の分別力がある場合は大きい値が与えられ、分別力がない場合は小さい値が与えられることになる。
10 学習部
11 木構造生成手段
12 部分木抽出手段
13 学習手段
14,15,25 記憶手段
20 抽出部
21 単語抽出手段
22 文章抽出手段
23 判定手段
24 文章区間抽出手段
Claims (4)
- 複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置であって、
定型表現が含まれているか否かが予め設定された複数の文から成る学習データが記憶される記憶手段、
該記憶手段から学習データを読み出し、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する木構造生成手段、
前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、該木構造生成手段により生成された各木構造から、該キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する部分木抽出手段、及び、
該部分木抽出手段により生成された部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習し、所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する学習手段を有する学習部を備え、
前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出することを特徴とする文章区間抽出装置。 - 請求項1に記載の文章区間抽出装置において、
さらに、テキストデータからキーとなる単語を抽出する単語抽出手段、
前記キーとなる単語を含む文と、その前の文、後ろ文、または前及び後ろの文とを合わせた文章区間を抽出する文章抽出手段、及び、
該文章抽出手段により抽出された文章区間に対して、前記学習部に備えた学習手段により生成された関数に基づいて、定型表現が含まれる文章区間であるか否かを判定する判定手段を有する抽出部を備えたことを特徴とする文章区間抽出装置。 - 請求項2に記載の文章区間抽出装置において、
前記抽出部は、さらに、判定手段により定型表現が含まれる文章区間であると判定された第1の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第1の値、及び、判定手段により定型表現が含まれる文章区間であると判定された第2の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第2の値から、前記第2の値に係る前記第1の値からの増加値が所定の値より小さい場合に、前記第2の文章区間に冗長な文が含まれると判定し、前記第1の文章区間を、定型表現が含まれる文章区間として抽出する文章区間抽出手段を有することを特徴とする文章区間抽出装置。 - 複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置による文章区間抽出プログラムであって、該装置を構成するコンピュータに、
定型表現が含まれているか否かが予め設定された複数の文から成る学習データから、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する処理と、
前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、前記各木構造から、該キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する処理と、
前記部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習する処理と、
所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する処理と、
前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出する処理と、
を実行させる文章区間抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006064508A JP4933118B2 (ja) | 2006-03-09 | 2006-03-09 | 文章区間抽出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006064508A JP4933118B2 (ja) | 2006-03-09 | 2006-03-09 | 文章区間抽出装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007241739A JP2007241739A (ja) | 2007-09-20 |
JP4933118B2 true JP4933118B2 (ja) | 2012-05-16 |
Family
ID=38587209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006064508A Active JP4933118B2 (ja) | 2006-03-09 | 2006-03-09 | 文章区間抽出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4933118B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6069077B2 (ja) * | 2013-04-09 | 2017-01-25 | 日本放送協会 | 中継区間抽出装置、及びプログラム |
-
2006
- 2006-03-09 JP JP2006064508A patent/JP4933118B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007241739A (ja) | 2007-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9727553B2 (en) | System and method for generating and using user semantic dictionaries for natural language processing of user-provided text | |
US9588962B2 (en) | System and method for generating and using user ontological models for natural language processing of user-provided text | |
US9588960B2 (en) | Automatic extraction of named entities from texts | |
CA2484410C (en) | System for identifying paraphrases using machine translation techniques | |
US10445428B2 (en) | Information object extraction using combination of classifiers | |
CN105988990A (zh) | 用于汉语中的零指代消解的装置和方法以及模型训练方法 | |
JP2013502643A (ja) | 構造化データ翻訳装置、システム及び方法 | |
US8204736B2 (en) | Access to multilingual textual resources | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
US20220245361A1 (en) | System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
Fischbach et al. | Fine-grained causality extraction from natural language requirements using recursive neural tensor networks | |
Dubuisson Duplessis et al. | Utterance retrieval based on recurrent surface text patterns | |
Kapočiūtė-Dzikienė et al. | A comparison of Lithuanian morphological analyzers | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
US20220229987A1 (en) | System and method for repository-aware natural language understanding (nlu) using a lookup source framework | |
US20220229990A1 (en) | System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework | |
JP4933118B2 (ja) | 文章区間抽出装置及びプログラム | |
CN1627289B (zh) | 用于分析汉语的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110707 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4933118 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |