JP2005092279A - 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム - Google Patents
自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2005092279A JP2005092279A JP2003320738A JP2003320738A JP2005092279A JP 2005092279 A JP2005092279 A JP 2005092279A JP 2003320738 A JP2003320738 A JP 2003320738A JP 2003320738 A JP2003320738 A JP 2003320738A JP 2005092279 A JP2005092279 A JP 2005092279A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- language
- analysis result
- sentence
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】 読点情報を扱うことが可能な言語解析技術と扱うことができない言語解析技術を区別する。前者には読点情報を含んだ文の解析を、後者には読点情報を削除した文の解析を、それぞれ受け持たせ、両者から得られる解析結果を利用する。これまで十分に利用されていなかった読点情報を用いて解析結果の曖昧性を減ずることが可能となる。
【選択図】 図2
Description
(2)太郎は、合格するはずだと、言いました。
(3)太郎は合格するはずだ、と言いました。
読点情報を含んだまま自然言語文の言語解析を行なう第1の言語解析手段と、
読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析手段と、
前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段の解析結果候補についての正誤の情報との間の対応関係を保持する機械学習手段と、
前記機械学習手段の保持する対応関係に基づいて、前記第2の言語解析手段の解析結果候補から最終解を選択する最終解選択手段と、
を具備することを特徴とする自然言語処理システムである。
読点情報を含んだまま入力された自然言語文の言語解析を行なう第1の言語解析ステップと、
前記第1の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析ステップと、
前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
前記機械学習ステップにより保持される対応関係に基づいて、前記第2の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
12…形態素解析部
13…構文・意味解析部
14…素性情報生成部
15…正誤情報付与部
16…機械学習部
17…解析対象文保持部
18…最終解選択部
Claims (19)
- 読点情報を含んだまま自然言語文の言語解析を行なう第1の言語解析手段と、
読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析手段と、
前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段の解析結果候補の正誤の情報との間の対応関係を保持する機械学習手段と、
前記機械学習手段の保持する対応関係に基づいて、前記第2の言語解析手段の解析結果候補から最終解を選択する最終解選択手段と、
を具備することを特徴とする自然言語処理システム。 - 前記第1の言語解析手段は、自然言語文を形態素毎に分節して品詞の認定などの形態素解析を行なう、
ことを特徴とする請求項1に記載の自然言語処理システム。 - 前記第2の言語解析手段は、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める意味解析を行なう、
ことを特徴とする請求項1に記載の自然言語処理システム。 - 前記第2の言語解析手段は、所定の文法規則に基づいて構文・意味解析を行なう、
ことを特徴とする請求項3に記載の自然言語処理システム。 - 前記機械学習手段は、前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、所定の統計処理手法により生成する、
ことを特徴とする請求項1に記載の自然言語処理システム。 - 前記機械学習手段は、前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、Support Vector Machine(SVM)に基づく統計処理手法により生成する、
ことを特徴とする請求項5に記載の自然言語処理システム。 - 前記機械学習手段は、前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、決定木に基づく統計処理手法により生成する、
ことを特徴とする請求項5に記載の自然言語処理システム。 - 前記機械学習手段は、読点が後続する文節と、該文節の係り先の文節との間の位置関係あるいは統語上の関係を素性情報として用いる、
ことを特徴とする請求項1に記載の自然言語処理システム。 - 前記第1の言語解析手段により得られる読点に関する解析結果を前記第2の言語解析手段により得られる解析結果候補に付与し、
前記機械学習手段は、前記第2の言語解析手段により得られる解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補の正誤の情報との間の対応関係を保持する、
ことを特徴とする請求項1に記載の自然言語処理システム。 - 読点情報を含んだまま入力された自然言語文の言語解析を行なう第1の言語解析ステップと、
前記第1の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析ステップと、
前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
前記機械学習ステップにより保持される対応関係に基づいて、前記第2の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
を具備することを特徴とする自然言語処理方法。 - 前記第1の言語解析ステップでは、自然言語文を形態素毎に分節して品詞の認定などの形態素解析を行なう、
ことを特徴とする請求項10に記載の自然言語処理方法。 - 前記第2の言語解析ステップでは、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める意味解析を行なう、
ことを特徴とする請求項10に記載の自然言語処理方法。 - 前記第2の言語解析ステップでは、所定の文法規則に基づいて構文・意味解析を行なう、
ことを特徴とする請求項12に記載の自然言語処理方法。 - 前記機械学習ステップでは、前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、所定の統計処理手法により生成する、
ことを特徴とする請求項10に記載の自然言語処理方法。 - 前記機械学習ステップでは、前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、Support Vector Machine(SVM)に基づく統計処理手法により生成する、
ことを特徴とする請求項14に記載の自然言語処理方法。 - 前記機械学習ステップでは、前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、決定木に基づく統計処理手法により生成する、
ことを特徴とする請求項14に記載の自然言語処理方法。 - 前記機械学習ステップでは、読点が後続する文節と、該文節の係り先の文節との間の位置関係あるいは統語上の関係を素性情報として用いる、
ことを特徴とする請求項10に記載の自然言語処理方法。 - 前記第1の言語解析ステップにおいて得られる読点に関する解析結果を前記第2の言語解析ステップにおいて得られる解析結果候補に付与し、
前記機械学習ステップでは、前記第2の言語解析ステップにおいて得られる解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補の正誤の情報との間の対応関係を保持する、
ことを特徴とする請求項10に記載の自然言語処理方法。 - 自然言語の言語解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式的術されたコンピュータ・プログラムであって、
読点情報を含んだまま入力された自然言語文の言語解析を行なう第1の言語解析ステップと、
前記第1の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析ステップと、
前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
前記機械学習ステップにより保持される対応関係に基づいて、前記第2の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
を具備することを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003320738A JP4033089B2 (ja) | 2003-09-12 | 2003-09-12 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003320738A JP4033089B2 (ja) | 2003-09-12 | 2003-09-12 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005092279A true JP2005092279A (ja) | 2005-04-07 |
JP4033089B2 JP4033089B2 (ja) | 2008-01-16 |
Family
ID=34452605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003320738A Expired - Fee Related JP4033089B2 (ja) | 2003-09-12 | 2003-09-12 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4033089B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338457A (ja) * | 2005-06-03 | 2006-12-14 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2010140263A (ja) * | 2008-12-11 | 2010-06-24 | Fuji Xerox Co Ltd | 自然言語処理装置及びプログラム |
-
2003
- 2003-09-12 JP JP2003320738A patent/JP4033089B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338457A (ja) * | 2005-06-03 | 2006-12-14 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP4654776B2 (ja) * | 2005-06-03 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2010140263A (ja) * | 2008-12-11 | 2010-06-24 | Fuji Xerox Co Ltd | 自然言語処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4033089B2 (ja) | 2008-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
CN109460552B (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
Vasyl et al. | Application of sentence parsing for determining keywords in Ukrainian texts | |
WO2017163346A1 (ja) | 文章解析システム及びプログラム | |
Zheng et al. | Dynamic knowledge-base alignment for coreference resolution | |
US20200143112A1 (en) | Fault-tolerant information extraction | |
WO2008059111A2 (en) | Natural language processing | |
Díez Platas et al. | Medieval Spanish (12th–15th centuries) named entity recognition and attribute annotation system based on contextual information | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
López et al. | Experiments on sentence boundary detection in user-generated web content | |
Jayasuriya et al. | Learning a stochastic part of speech tagger for sinhala | |
Aziz et al. | Urdu spell checker: A scarce resource language | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
JP4033089B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Rahat et al. | A recursive algorithm for open information extraction from Persian texts | |
Ackermann et al. | Model [nl] generation: natural language model extraction | |
Varshini et al. | A recognizer and parser for basic sentences in telugu using cyk algorithm | |
Óladóttir et al. | Developing a spell and grammar checker for Icelandic using an error corpus | |
Jolly et al. | Anatomizing lexicon with natural language Tokenizer Toolkit 3 | |
Nevzorova et al. | Corpus management system: Semantic aspects of representation and processing of search queries | |
Angle et al. | Kannada morpheme segmentation using machine learning | |
Ouersighni | Robust rule-based approach in Arabic processing | |
Athira et al. | Pronominal anaphora resolution using salience score for Malayalam |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071015 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |