JP2019200488A - 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム - Google Patents
自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム Download PDFInfo
- Publication number
- JP2019200488A JP2019200488A JP2018093299A JP2018093299A JP2019200488A JP 2019200488 A JP2019200488 A JP 2019200488A JP 2018093299 A JP2018093299 A JP 2018093299A JP 2018093299 A JP2018093299 A JP 2018093299A JP 2019200488 A JP2019200488 A JP 2019200488A
- Authority
- JP
- Japan
- Prior art keywords
- constituent
- constituents
- sentence
- grammatical function
- function classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims description 26
- 239000000470 constituent Substances 0.000 claims abstract description 465
- 230000006870 function Effects 0.000 claims abstract description 223
- 238000000605 extraction Methods 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 29
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims description 83
- 230000000295 complement effect Effects 0.000 claims description 26
- 238000010586 diagram Methods 0.000 description 17
- 235000021152 breakfast Nutrition 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Abstract
Description
図1は、一実施形態に係る自然言語処理装置1の構成例を示すシステム図である。
図1に示す自然言語処理装置1は、1または複数のコンピュータを用いて構成されている。1または複数のコンピュータは、それぞれCPU(中央処理装置)、主記憶装置、補助記憶装置、入出力装置、通信装置等を備え、補助記憶装置に記憶されている所定のプログラムをCPUが実行することで所定の処理を実行する。
図1に示す自然言語処理装置1は、構文解析部2と、文法機能分類抽出部3と、記憶部4と、検索部5を備える。構文解析部2と、文法機能分類抽出部3と、記憶部4と、検索部5は、自然言語処理装置1を構成する各コンピュータが備えるハードウェアとソフトウェアの組み合わせによって構成される。また、自然言語処理装置1は、例えば、1または複数のコンピュータを用いて構成された文法機能分類抽出部3と記憶部4を備える構成(検索部5等を含まない構成)であってもよいし、構文解析部2と文法機能分類抽出部3を備える構成(記憶部4と検索部5を含まない構成)であってもよいし、構文解析部2と文法機能分類抽出部3と検索部5を備える構成(記憶部4を含まない構成)であってもよいし、文法機能分類抽出部3や検索部5単体からなる装置であってもよい。なお、以下では、本実施形態に係る自然言語処理装置1が英語を対象として所定の処理する場合について説明する。なお、文法機能分類抽出部3は、抽出部の一例である。
図2において、構文解析部2は、記憶部4が記憶する文書41が含む1つの文410を入力する。そして、構文解析部2は、1つの文410を構文解析した結果である1文の構文解析結果として構文木420を出力する。構文木420は、構文解析結果42の一部を構成する。なお、この場合、文410は「This tree is illustrating the constituency relation.」である。
例えば、記号「S」の構成素の内容は「文」であり構成素のレベルは「節」である。また、例えば、記号「SBAR」の構成素の内容は「従属節」であり構成素のレベルは「節」である。また、例えば、記号「NP」の構成素の内容は「名詞句」であり構成素のレベルは「句」である。また、例えば、記号「VP」の構成素の内容は「動詞句」であり構成素のレベルは「句」である。また、例えば、記号「PP」の構成素の内容は「前置詞句」であり構成素のレベルは「句」である。また、例えば、記号「NN」の構成素の内容は「名詞」であり構成素のレベルは「語」である。また、例えば、記号「VB」の構成素の内容は「動詞」であり構成素のレベルは「語」である。
図4は、各文法機能分類の記号と内容と当該分類の構成素の条件の対応関係とを示している。記号「F_SBAR1」の分類の内容は「冒頭にある従属節」であり、構成素の条件は「主語、述語、目的語または補語を含む節または句の前」に位置することである。記号「F_PP1」の分類の内容は「冒頭にある前置詞句」であり、構成素の条件は「主語、述語、目的語または補語を含む節または句の前」に位置することである。記号「F_S」の分類の内容は「主語」であり、構成素の条件は「従属節に含まれない節または句内」に位置することである。記号「F_V」の分類の内容は「述語(述語動詞)」であり、構成素の条件は「従属節に含まれない節または句内」に位置することである。記号「F_OC」の分類の内容は「目的語または補語」であり、構成素の条件は「従属節に含まれない節または句内」に位置することである。記号「F_NP」の分類の内容は「述語よりも後ろにある名詞句」であり、構成素の条件は「従属節に含まれない節または句内」に位置することである。記号「F_ADJP」の分類の内容は「述語よりも後ろにある形容詞句」であり、構成素の条件は「従属節に含まれない節または句内」に位置することである。記号「F_to」の分類の内容は「述語よりも後ろにあるTo不定詞」であり、構成素の条件は「従属節に含まれない節または句内」に位置することである。記号「F_PP2」の分類の内容は「述語よりも後ろにある前置詞句」であり、構成素の条件は「主語、述語、目的語または補語を含む節または句の後」に位置することである。そして、記号「F_SBAR2」の分類の内容は「述語よりも後ろにある従属節」であり、構成素の条件は「主語、述語、目的語または補語を含む節または句の後」に位置することである。
図10(a)は、文法機能分類抽出部3が使用するパターンの一例を示し、図10(b)は処理対象とする構文解析結果の例を入力文が、「The Student should read an interesting book.」である構文木423として示す。
ここで、この入力文は助動詞「should」を含む。
図11(a)は、文法機能分類抽出部3が使用する他のパターンの例を示し、図11(b)は処理対象とする構文解析結果の例を入力文が、「Members are loved by a big dog that eats sugar toasts and have a good amount of muscle.」である構文木424として示す。ここで、この入力文は助動詞を含まない。
図12(a)は文法機能分類抽出部3が使用する他のパターンの例を示し、図12(b)は処理対象とする構文解析結果の例を入力文が「In library the student should read good work books and the Librarian should ensure that all the book is vandal resistant.」である構文木425として示す。ここで、この入力文は重文であり、各文が助動詞「should」を含む。
なお、第2動作例においても第1動作例と同様、文法機能分類抽出部3によって、図4に示す文法機能分類が抽出される。
コンピュータ9は、CPU91、主記憶装置92、補助記憶装置93、インタフェース94を備える。
上述の自然言語処理装置1は、コンピュータ9を備える。そして、上述した各処理部の動作は、プログラムの形式で補助記憶装置93に記憶されている。CPU91は、プログラムを補助記憶装置93から読み出して主記憶装置92に展開し、当該プログラムに従って上記処理を実行する。例えば、上述した構文解析部2、文法機能分類抽出部3、および、検索部5(検索処理部51)は、CPU91であってよい。
また、CPU91は、プログラムに従って、上述した記憶部4に対応する記憶領域を主記憶装置92または補助記憶装置93に確保してもよい。
なお、自然言語処理装置1、構文解析装部2、文法機能分類抽出部3、検索部5、文法機能分類抽出結果43等を構成するプログラムやデータは、その一部または全部をコンピュータ読取可能な記録媒体あるいは通信回線を介して頒布することができる。また、自然言語処理装置1を複数のコンピュータで構成する場合、複数のコンピュータは、ネットワークを介して分散して配置されていてもよい。
2 構文解析部
3 文法機能分類抽出部(抽出部)
4 記憶部
5 検索部
51 検索処理部
Claims (13)
- 文の構成単位である一以上の単語のまとまりからなる構成素の文法的な機能の分類を示す文法機能分類を特定する自然言語処理装置であって、
入力文を文単位で構文解析し、複数の前記構成素と、前記各構成素の種類である構成素種類とを、前記各構成素間の階層的位置関係で表す構文解析結果を生成する構文解析部と、
前記構文解析結果における前記各構成素の前記構成素種類と前記階層的位置関係とに基づき、複数の前記構成素から、所定の文法機能分類に属する前記構成素を抽出する抽出部を備える
自然言語処理装置。 - 前記抽出部は、
前記構文解析結果を基に、所定の前記構成素種類である第1の前記構成素から辿った所定の前記構成素種類である第2の前記構成素を特定し、
第2の前記構成素と所定の位置関係を有する第3の前記構成素を、前記文法機能分類の1つに属する前記構成素として抽出する
請求項1に記載の自然言語処理装置。 - 前記抽出部は、
前記構成素種類が「文」である第1の前記構成素から前記構成素種類が「動詞句」である第2の前記構成素を下層に向けて辿り、
辿られた前記構成素種類が「動詞句」である第2の前記構成素の下層にある前記構成素種類が「動詞」である第3の前記構成素を、前記文法機能分類の1つである「述語」に属する前記構成素として抽出する
請求項2に記載の自然言語処理装置。 - 前記抽出部は、
前記文法機能分類が「述語」であるとして抽出した前記構成素を上層に向けて辿り、最も上層に存在する「動詞句」の前記構成素種類を有する前記構成素を特定し、
特定された「動詞句」の前記構成素と同層にある前記構成素種類が「名詞句」である前記構成素を、前記文法機能分類の1つである「主語」に属する前記構成素として抽出する
請求項3に記載の自然言語処理装置。 - 前記抽出部は、前記文法機能分類が「述語」であるとして抽出した前記構成素に接続された前記構成素種類が「動詞句」である前記構成素を下層に向けて辿り、
最も下層に存在する「名詞句」の前記構成素種類を有する前記構成素を、前記文法機能分類の1つである「目的語または補語」に属する前記構成素として抽出する
請求項3または4に記載の自然言語処理装置。 - 前記抽出部は、前記各構成素の前記構成素種類と前記各構成素間の前記階層的位置関係が、所定のパターンに適合する場合に、前記複数の構成素から、前記所定の文法機能分類に属する前記構成素を抽出する
請求項1に記載の自然言語処理装置。 - 第1の前記構成素の1つ上層の第2の前記構成素の前記構成素種類が「動詞句」であり、
第2の前記構成素の同層の前方に存在し、第2の前記構成素と同一の構成素に上層で接続される第3の前記構成素の前記構成素種類が「助動詞」であり、
第1の前記構成素の3つ上層の第4の前記構成素の前記構成素種類が「文」であり、かつ、
第1の前記構成素の4つ上層に前記構成素が存在しない、
との前記パターンに適合する場合、
前記抽出部は、第1の前記構成素を、前記文法機能分類の1つである「述語」に属する前記構成素として抽出する
請求項6に記載の自然言語処理装置。 - 前記入力文に助動詞を含まない場合において、
第1の前記構成素の1つ上層の第2の前記構成素の前記構成素種類が「動詞句」であり、
第1の前記構成素の2つ上層の第3の前記構成素の前記構成素種類が「文」であり、かつ、
第1の前記構成素の3つ上層の構成素が存在しない、
との前記パターンに適合する場合、
前記抽出部は、第1の前記構成素を、前記文法機能分類の1つである「述語」に属する前記構成素として抽出する
請求項6に記載の自然言語処理装置。 - 前記入力文が重文である場合において、
第1の前記構成素の1つ上層の第2の前記構成素の前記構成素種類が「動詞句」であり、
第1の前記構成素の3つ上層の第3の前記構成素の前記構成素種類が「文」であり、
第2の前記構成素の同層の前方に存在し、第2の前記構成素と同一の構成素に上層で接続される前記構成素の前記構成素種類が「助動詞」であり、かつ、
第1の前記構成素の4つ上層の前記構成素の前記構成素種類が「文」である、
との前記パターンに適合する場合、
前記抽出部は、第1の前記構成素を、前記文法機能分類の1つである「述語」に属する前記構成素として抽出する
請求項6に記載の自然言語処理装置。 - 文の構成単位である一以上の単語のまとまりからなる構成素の文法的な機能の分類を示す文法機能分類を用いて検索する検索装置であって、
入力文を文単位で構文解析し、複数の前記構成素と、前記各構成素の種類である構成素種類とを、前記各構成素間の階層的位置関係で表す構文解析結果を生成する構文解析部と、
前記構文解析結果における前記各構成素の前記構成素種類と前記階層的位置関係とに基づき、複数の前記構成素から、所定の文法機能分類に属する前記構成素を抽出する抽出部と、
前記抽出部による文法機能分類の抽出結果を、検索対象として、指定された前記文法機能分類とキーワードとに対応する前記構成素を含む前記文を検索する検索処理部と、
を備える検索装置。 - 文の構成単位である一以上の単語のまとまりからなる構成素の文法的な機能の分類を示す文法機能分類を特定する自然言語処理方法であって、
入力文を文単位で構文解析し、複数の前記構成素と、前記各構成素の種類である構成素種類とを、前記各構成素間の階層的位置関係で表す構文解析結果を生成するステップと、
前記構文解析結果における前記各構成素の前記構成素種類と前記階層的位置関係とに基づき、複数の前記構成素から、所定の文法機能分類に属する前記構成素を抽出するステップと、
を有する自然言語処理方法。 - 文の構成単位である一以上の単語のまとまりからなる構成素の文法的な機能の分類を示す文法機能分類を用いて検索する検索方法であって、
入力文を文単位で構文解析し、複数の前記構成素と、前記各構成素の種類である構成素種類とを、前記各構成素間の階層的位置関係で表す構文解析結果を生成するステップと、
前記構文解析結果における前記各構成素の前記構成素種類と前記階層的位置関係とに基づき、複数の前記構成素から、所定の文法機能分類に属する前記構成素を抽出するステップと、
前記抽出部による文法機能分類の抽出結果を、検索対象として、指定された前記文法機能分類とキーワードとに対応する前記構成素を含む前記文を検索するステップと、
を有する検索方法。 - 文の構成単位である一以上の単語のまとまりからなる構成素の文法的な機能の分類を示す文法機能分類を特定する自然言語処理方法をコンピュータに実行させるプログラムであって、
入力文を文単位で構文解析し、複数の前記構成素と、前記各構成素の種類である構成素種類とを、前記各構成素間の階層的位置関係で表す構文解析結果を生成するステップと、
前記構文解析結果における前記各構成素の前記構成素種類と前記階層的位置関係とに基づき、複数の前記構成素から、所定の文法機能分類に属する前記構成素を抽出するステップと、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018093299A JP7227705B2 (ja) | 2018-05-14 | 2018-05-14 | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018093299A JP7227705B2 (ja) | 2018-05-14 | 2018-05-14 | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019200488A true JP2019200488A (ja) | 2019-11-21 |
JP7227705B2 JP7227705B2 (ja) | 2023-02-22 |
Family
ID=68612093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018093299A Active JP7227705B2 (ja) | 2018-05-14 | 2018-05-14 | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7227705B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230015798A (ko) * | 2021-07-23 | 2023-01-31 | 한국전력공사 | 단어 임베딩용 라이브러리 생성 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05151261A (ja) * | 1991-11-28 | 1993-06-18 | Hitachi Ltd | 時制推敲支援システム |
JPH0635959A (ja) * | 1992-07-20 | 1994-02-10 | Csk Corp | 構文解析システム及び構文解析制御方式 |
JP2000148755A (ja) * | 1998-09-02 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 意味解析方法及び装置及び意味解析プログラムを記録した記録媒体 |
-
2018
- 2018-05-14 JP JP2018093299A patent/JP7227705B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05151261A (ja) * | 1991-11-28 | 1993-06-18 | Hitachi Ltd | 時制推敲支援システム |
JPH0635959A (ja) * | 1992-07-20 | 1994-02-10 | Csk Corp | 構文解析システム及び構文解析制御方式 |
JP2000148755A (ja) * | 1998-09-02 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 意味解析方法及び装置及び意味解析プログラムを記録した記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230015798A (ko) * | 2021-07-23 | 2023-01-31 | 한국전력공사 | 단어 임베딩용 라이브러리 생성 방법 |
KR102543866B1 (ko) * | 2021-07-23 | 2023-06-20 | 한국전력공사 | 단어 임베딩용 라이브러리 생성 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP7227705B2 (ja) | 2023-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2564629C1 (ru) | Способ кластеризации результатов поиска в зависимости от семантики | |
Beheshti et al. | A systematic review and comparative analysis of cross-document coreference resolution methods and tools | |
US20170235841A1 (en) | Enterprise search method and system | |
US10013404B2 (en) | Targeted story summarization using natural language processing | |
RU2732850C1 (ru) | Классификация документов по уровням конфиденциальности | |
Tayal et al. | ATSSC: Development of an approach based on soft computing for text summarization | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
Altinok | Mastering spaCy: An end-to-end practical guide to implementing NLP applications using the Python ecosystem | |
KR101948257B1 (ko) | 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 | |
Al-Zoghby et al. | Semantic relations extraction and ontology learning from Arabic texts—a survey | |
Yeasmin et al. | Study of abstractive text summarization techniques | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
Higuchi | KH Coder 2. x reference manual | |
Al-Smadi et al. | Leveraging linked open data to automatically answer Arabic questions | |
RU2563148C2 (ru) | Система и метод семантического поиска | |
Pham et al. | A hybrid approach for biomedical event extraction | |
Savary et al. | Sejfek-a lexicon and a shallow grammar of polish economic multi-word units | |
JP7227705B2 (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
Tran et al. | ReLink: Open information extraction by linking phrases and its applications | |
Antić | Python Natural Language Processing Cookbook: Over 50 recipes to understand, analyze, and generate text for implementing language processing tasks | |
Rahat et al. | A recursive algorithm for open information extraction from Persian texts | |
Kutlu et al. | Noun phrase chunking for Turkish using a dependency parser | |
US11017172B2 (en) | Proposition identification in natural language and usage thereof for search and retrieval | |
Garg et al. | A systematic and exhaustive review of automatic abstractive text summarization for Hindi language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7227705 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |