JP6298785B2 - 自然言語解析装置、方法、及びプログラム - Google Patents
自然言語解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6298785B2 JP6298785B2 JP2015041680A JP2015041680A JP6298785B2 JP 6298785 B2 JP6298785 B2 JP 6298785B2 JP 2015041680 A JP2015041680 A JP 2015041680A JP 2015041680 A JP2015041680 A JP 2015041680A JP 6298785 B2 JP6298785 B2 JP 6298785B2
- Authority
- JP
- Japan
- Prior art keywords
- chunk
- analysis
- unit
- analysis unit
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
まず、本実施形態に係る自然言語解析装置の原理について説明する。本実施形態に係る自然言語解析装置は、ある特定の定義に従って、1語以上の単語を統合した単語の固まり(以後、チャンクとする)を定義し、該当するチャンクを単位として依存関係を求める構文解析を行う際に、構文解析器の素性として、「依存構造解析単位として定義されたチャンク」(依存構造解析単位)の情報のみではなく、複数の異なる定義からなるチャンクの情報を統合して利用し、解析単位チャンク間の依存関係を求める構文解析を行う。
次に、本実施形態に係る自然言語解析装置の構成について説明する。図1に示すように、本実施形態に係る自然言語解析装置100は、CPUと、RAMと、後述する自然言語解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この自然言語解析装置は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを含んで構成されている。
次に、本実施形態に係る自然言語解析装置100の作用について説明する。入力部10において自然言語の入力テキストを受け付けると、自然言語解析装置100によって図11に示す自然言語解析処理ルーチンを実行する。
20 演算部
22 形態素解析部
24 チャンク解析モデル記憶部
30 チャンク解析部
32 長単位解析部
34 単名詞句解析部
36 文節解析部
40 依存構造解析部
42 初期処理部
44 素性抽出部
46 動作決定部
48 終了判定部
50 依存構造解析モデル記憶部
52 素性テンプレート記憶部
90 出力部
100 自然言語解析装置
Claims (8)
- 入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された粒度で統合した解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、チャンクの品詞、活用情報、及び分類のうち少なくとも一つに関する情報を抽出する素性抽出部と、
前記素性抽出部により抽出された前記解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、前記テキストの前記解析単位チャンク間の各々に、依存関係を表すラベルを付与する動作決定部と、
を含む、自然言語解析装置。 - 前記複数種類のチャンクは、短単位、長単位、単名詞句、又は文節を含む請求項1記載の自然言語解析装置。
- 前記解析単位チャンクは、前記文節よりも短く、かつ、前記単語よりも長い粒度で統合されたチャンクである請求項2記載の自然言語解析装置。
- 前記解析単位チャンクは、長単位である請求項3記載の自然言語解析装置。
- 前記動作決定部は、前記解析単位チャンク毎に、前記依存関係を表すラベルを付与するための動作の決定、前記依存関係を表すラベルの付与、及び前記素性抽出部による素性の抽出を行う処理を繰り返すことにより、前記テキストの前記解析単位チャンク間の各々に、前記依存関係を表すラベルを付与し、
前記素性抽出部は、前記解析単位チャンクに関する素性として、当該解析単位チャンクの情報、前記動作決定部により当該解析単位チャンクとそれ以外の解析単位チャンクとの間に既に付与された前記依存関係を表すラベル、及び当該解析単位チャンクと既に依存関係にあるとされた解析単位チャンクの情報を抽出し、
当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、当該チャンクの情報、及び前記動作決定部により当該解析単位チャンクと依存関係にあるとされた解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクの情報を抽出する請求項1〜請求項4の何れか1項記載の自然言語解析装置。 - 前記素性抽出部は、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、少なくとも、当該解析単位チャンクより大きい粒度で統合されたチャンクに関する素性を抽出する請求項1〜請求項5の何れか1項記載の自然言語解析装置。
- 素性抽出部と、動作決定部とを含む自然言語解析装置における、自然言語解析方法であって、
前記素性抽出部は、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、チャンクの品詞、活用情報、及び分類のうち少なくとも一つに関する情報を抽出し、
前記動作決定部は、前記素性抽出部により抽出された前記解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、前記テキストの前記解析単位チャンク間の各々に、依存関係を表すラベルを付与する、
自然言語解析方法。 - コンピュータを、請求項1〜6の何れか1項記載の自然言語解析装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015041680A JP6298785B2 (ja) | 2015-03-03 | 2015-03-03 | 自然言語解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015041680A JP6298785B2 (ja) | 2015-03-03 | 2015-03-03 | 自然言語解析装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016162308A JP2016162308A (ja) | 2016-09-05 |
| JP6298785B2 true JP6298785B2 (ja) | 2018-03-20 |
Family
ID=56847269
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015041680A Active JP6298785B2 (ja) | 2015-03-03 | 2015-03-03 | 自然言語解析装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6298785B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6665029B2 (ja) * | 2016-05-20 | 2020-03-13 | 日本電信電話株式会社 | 言語解析装置、言語解析方法、及びプログラム |
| JP7707638B2 (ja) | 2021-05-11 | 2025-07-15 | 富士通株式会社 | 機械学習プログラム、機械学習方法および情報処理装置 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0844763A (ja) * | 1994-08-02 | 1996-02-16 | Ricoh Co Ltd | キーワード自動抽出装置 |
| JP4047900B1 (ja) * | 2006-11-15 | 2008-02-13 | 日本電信電話株式会社 | 係り受け解析装置及びそのプログラム |
| JP5087994B2 (ja) * | 2007-05-22 | 2012-12-05 | 沖電気工業株式会社 | 言語解析方法及びその装置 |
| JP2009151630A (ja) * | 2007-12-21 | 2009-07-09 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、及びプログラム |
-
2015
- 2015-03-03 JP JP2015041680A patent/JP6298785B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016162308A (ja) | 2016-09-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10409911B2 (en) | Systems and methods for text analytics processor | |
| EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
| Sedláček et al. | A new Czech morphological analyser ajka | |
| US11809820B2 (en) | Language characteristic extraction device, named entity extraction device, extraction method, and program | |
| JPWO2017163346A1 (ja) | 文章解析システム及びプログラム | |
| SABRIYE et al. | AN APPROACH FOR DETECTING SYNTAX AND SYNTACTIC AMBIGUITY IN SOFTWARE REQUIREMENT SPECIFICATION. | |
| Jayaweera et al. | Hidden markov model based part of speech tagger for sinhala language | |
| Sanyal et al. | Natural language processing technique for generation of SQL queries dynamically | |
| JP5564705B2 (ja) | 文構造解析装置、文構造解析方法および文構造解析プログラム | |
| Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
| Kim et al. | Training a korean srl system with rich morphological features | |
| Scholivet et al. | Identification of ambiguous multiword expressions using sequence models and lexical resources | |
| KR102206742B1 (ko) | 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치 | |
| JP6298785B2 (ja) | 自然言語解析装置、方法、及びプログラム | |
| Korobkin et al. | Patent data analysis system for information extraction tasks | |
| Kramer et al. | Improvement of a naive Bayes sentiment classifier using MRS-based features | |
| Korobkin et al. | Technical function discovery in patent databases for generating innovative solutions | |
| KR102661819B1 (ko) | 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 | |
| Gupta et al. | A TENGRAM method based part-of-speech tagging of multi-category words in Hindi language | |
| Khoufi et al. | Chunking Arabic texts using conditional random fields | |
| Ihsan et al. | A Corpus-based Study of Reporting Verbs in Citation Texts Using Natural Language Processing | |
| Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders | |
| ch Balabantaray et al. | Case study of named entity recognition in Odia using CRF++ tool | |
| Munir et al. | Dependency parsing using the URDU. KON-TB treebank | |
| JP2002334076A (ja) | テキスト処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160729 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170627 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170828 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180220 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180226 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6298785 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |