JP2008204010A - 質問内容抽出装置と質問内容抽出方法 - Google Patents
質問内容抽出装置と質問内容抽出方法 Download PDFInfo
- Publication number
- JP2008204010A JP2008204010A JP2007037033A JP2007037033A JP2008204010A JP 2008204010 A JP2008204010 A JP 2008204010A JP 2007037033 A JP2007037033 A JP 2007037033A JP 2007037033 A JP2007037033 A JP 2007037033A JP 2008204010 A JP2008204010 A JP 2008204010A
- Authority
- JP
- Japan
- Prior art keywords
- question
- predicate
- permutation
- clause
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、自然言語の文章から質問内容を抽出する装置として具現化される。その質問内容抽出装置は、その文章を表現する文字列を入力する手段と、その文字列に対応する文節の順列を生成する手段と、その文節の順列に含まれる文節の中から、質問述語を決定する手段と、その文節の順列においてその質問述語よりも前方にある文節を対象として、その質問述語を基準とする係り受け関係を決定する手段と、その質問述語を基準とする係り受け関係をその質問内容として出力する手段とを備えている。
【選択図】 図8
Description
(形態1)前記文節の順列を生成する手段は、前記文字列から形態素の順列を生成し、生成された形態素の順列から前記文節の順列を生成する。
質問述語抽出部214は、文節の順列に含まれる文節の中から、文末に位置する文節を対象として、その文節が質問述語であるか否かを判定する。質問述語抽出部214には、質問述語DB224が接続されている。質問述語DB224には、自然言語の文章に登場するであろうと想定される複数の質問述語に関して、それらの質問述語を表現する文字列が記憶されている。想定される質問述語としては、例えば「教えて。」という文字列や、「ですか?」という文字列や、「どのくらい?」という文字列が登録されている。
文末に位置する全ての文節について質問述語であるか否かの判断を行った後、質問述語抽出部214は形態素順列データと文節順列データを項構造解析部216へ出力する。
(1)動詞と名詞の格の共起用例
(2)名詞と格候補の名詞が何文節離れているか
(3)名詞と格候補の名詞の前後関係
(4)格候補の文節の機能語
(5)格候補の格
(6)格候補の主辞の品詞
(7)格候補が人間または組織か否か
その後、項構造解析部216は、「高さ寸法を」という文節について、先行詞として係り受け関係にある文節を決定する。図6の例では、「プリウスの」という文節と「あがった」という文節が、「高さ寸法を」という文節の先行詞としてそれぞれ決定される。文節順列データにおいて、「高さ寸法を」という文節の係り受け関係に関する属性として、「あがった」という文節の文節番号と、「プリウスの」という文節の文節番号が付与される。
さらに項構造解析部216は、「プリウスの」という文節と「あがった」という文節のそれぞれについて、それらの文節の先行詞として係り受け関係にある文節を決定する。図6の例では、「プリウスの」という文節は順列の先頭にあり、係り受け関係にある先行詞は存在しない。「あがった」という文節については、「トランクを」という文節と「上まで」という文節がそれぞれ先行詞として決定される。「トランクを」という文節と「上まで」という文節は、いずれも文章中に先行詞は発見されないため、項構造解析部216は係り受け関係の評価を終了する。
質問述語を基準とする係り受け関係が決定されると、項構造解析部216は形態素順列データと文節順列データを照応解析部218に出力する。
照応解析が行われた後、照応解析部218は形態素順列データと文節順列データを出力部204に出力する。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
102・・・質問内容DB
104・・・プログラム
202・・・入力部
204・・・出力部
210・・・形態素解析部
212・・・文節解析部
214・・・質問述語抽出部
216・・・項構造解析部
218・・・照応解析部
220・・・形態素DB
222・・・係り受けDB
224・・・質問述語DB
Claims (3)
- 自然言語の文章から質問内容を抽出する装置であって、
前記文章を表現する文字列を入力する手段と、
前記文字列に対応する文節の順列を生成する手段と、
前記文節の順列に含まれる文節の中から、質問述語を決定する手段と、
前記文節の順列において前記質問述語よりも前方にある文節を対象として、前記質問述語を基準とする係り受け関係を決定する手段と、
前記質問述語を基準とする係り受け関係を前記質問内容として出力する手段と
を備える質問内容抽出装置。 - 前記出力手段は、前記質問述語を基準とする係り受け関係から前記質問内容を表現する文字列を再構築して、前記再構築された文字列を前記質問内容として出力することを特徴とする請求項1の質問内容抽出装置。
- 自然言語の文章から質問内容を抽出する方法であって、
前記文章を表現する文字列を入力する工程と、
前記文字列に対応する文節の順列を生成する工程と、
前記文節の順列に含まれる文節の中から、質問述語を決定する工程と、
前記文節の順列において前記質問述語よりも前方にある文節を対象として、前記質問述語を基準とする係り受け関係を決定する工程と、
前記質問述語を基準とする係り受け関係を前記質問内容として出力する工程と
を備える質問内容抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007037033A JP2008204010A (ja) | 2007-02-16 | 2007-02-16 | 質問内容抽出装置と質問内容抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007037033A JP2008204010A (ja) | 2007-02-16 | 2007-02-16 | 質問内容抽出装置と質問内容抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008204010A true JP2008204010A (ja) | 2008-09-04 |
Family
ID=39781482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007037033A Pending JP2008204010A (ja) | 2007-02-16 | 2007-02-16 | 質問内容抽出装置と質問内容抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008204010A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011013776A (ja) * | 2009-06-30 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 述語項構造解析方法、その装置及びプログラム |
JP2021068218A (ja) * | 2019-10-24 | 2021-04-30 | 日本放送協会 | ヘッドライン生成装置およびプログラム |
-
2007
- 2007-02-16 JP JP2007037033A patent/JP2008204010A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011013776A (ja) * | 2009-06-30 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 述語項構造解析方法、その装置及びプログラム |
JP2021068218A (ja) * | 2019-10-24 | 2021-04-30 | 日本放送協会 | ヘッドライン生成装置およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oueslati et al. | A review of sentiment analysis research in Arabic language | |
KR102256240B1 (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
Louis et al. | What makes writing great? First experiments on article quality prediction in the science journalism domain | |
Malandrakis et al. | Distributional semantic models for affective text analysis | |
JP4129987B2 (ja) | テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
RU2601166C2 (ru) | Разрешение анафоры на основе технологии глубинного анализа | |
Mustafa et al. | Kurdish stemmer pre-processing steps for improving information retrieval | |
Nguyen-Son et al. | Identifying computer-generated text using statistical analysis | |
Singh et al. | Writing Style Change Detection on Multi-Author Documents. | |
Nugues | Language Processing with Perl and Prolog | |
Das et al. | Identifying emotional expressions, intensities and sentence level emotion tags using a supervised framework | |
Alian et al. | Syntactic-semantic similarity based on dependency tree Kernel | |
KR20120042562A (ko) | 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 | |
Iwatsuki et al. | Using formulaic expressions in writing assistance systems | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
Ahmad et al. | Aspect Based Sentiment Analysis and Opinion Mining on Twitter Data Set Using Linguistic Rules | |
Antić | Python Natural Language Processing Cookbook: Over 50 recipes to understand, analyze, and generate text for implementing language processing tasks | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
Rahat et al. | A recursive algorithm for open information extraction from Persian texts | |
Kavros et al. | SoundexGR: An algorithm for phonetic matching for the Greek language | |
JP2008204010A (ja) | 質問内容抽出装置と質問内容抽出方法 | |
Schönle et al. | Linguistic-Aware WordPiece Tokenization: Semantic Enrichment and OOV Mitigation | |
Abbas et al. | Tr-classifier and knn evaluation for topic identification tasks | |
Hasegawa-Johnson et al. | Arabic speech and language technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090707 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120131 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120529 |