JP2008204010A - 質問内容抽出装置と質問内容抽出方法 - Google Patents

質問内容抽出装置と質問内容抽出方法 Download PDF

Info

Publication number
JP2008204010A
JP2008204010A JP2007037033A JP2007037033A JP2008204010A JP 2008204010 A JP2008204010 A JP 2008204010A JP 2007037033 A JP2007037033 A JP 2007037033A JP 2007037033 A JP2007037033 A JP 2007037033A JP 2008204010 A JP2008204010 A JP 2008204010A
Authority
JP
Japan
Prior art keywords
question
predicate
permutation
clause
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007037033A
Other languages
English (en)
Inventor
Ryo Murakami
涼 村上
Tsukasa Shimizu
司 清水
Kentaro Inui
健太郎 乾
Yuji Matsumoto
裕治 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nara Institute of Science and Technology NUC
Toyota Motor Corp
Toyota Central R&D Labs Inc
Original Assignee
Nara Institute of Science and Technology NUC
Toyota Motor Corp
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nara Institute of Science and Technology NUC, Toyota Motor Corp, Toyota Central R&D Labs Inc filed Critical Nara Institute of Science and Technology NUC
Priority to JP2007037033A priority Critical patent/JP2008204010A/ja
Publication of JP2008204010A publication Critical patent/JP2008204010A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 自然言語の文章から適切に質問内容を抽出することが可能な技術を提供する。
【解決手段】 本発明は、自然言語の文章から質問内容を抽出する装置として具現化される。その質問内容抽出装置は、その文章を表現する文字列を入力する手段と、その文字列に対応する文節の順列を生成する手段と、その文節の順列に含まれる文節の中から、質問述語を決定する手段と、その文節の順列においてその質問述語よりも前方にある文節を対象として、その質問述語を基準とする係り受け関係を決定する手段と、その質問述語を基準とする係り受け関係をその質問内容として出力する手段とを備えている。
【選択図】 図8

Description

本発明は、自然言語の文章の中から、質問内容を抽出する装置と方法に関する。詳しくは、人間が自然言語によって表明した文章の中から、質問として問合せている内容を抽出する装置と方法に関する。本明細書で自然言語とは、人間が日常的に用いている言語のことをいう。
自然言語の文章から、意味内容を抽出する技術についての研究がなされている。自然言語の文章としては、例えばアンケートの自由記入欄に記載された文章や、人間の話す言葉を音声認識した文章などが相当する。自然言語の文章では、同じ意味内容についても多種多様な表現がなされるが、同じ意味内容の文章については、表現に差異があっても、同じ意味を示すものとして扱うことが好ましい。そのためには、自然言語の文章から意味内容を抽出する技術が必要とされる。
文章の中から意味内容を抽出する手法としては、自然言語の文章を要約し、要約された結果をその文章の意味内容として扱う手法が考えられる。文章を要約する技術は、例えば特許文献1に開示されている。特許文献1に開示された技術では、文章に含まれる単語別に重要度を計算し、重要度の高い単語を含む文を抽出することで、文章の要約を生成する。
特開2002−297635号公報
上記した従来技術の要約手法では、文章に含まれる単語の重要度のみに着目しており、単語同士の意味のつながりについては考慮されていない。単語の重要度は、多くの場合、文章の中での出現回数に応じて評価され、頻出する単語ほど重要度が高く評価される。従って、文章の中に頻出する単語を含む文を重要な文と認識してしまい、必ずしも文章全体としての意味内容を捉えたものとなっていないことがあった。
自然言語の文章が質問を意図したものである場合、質問内容を確実に相手側に伝えるために、文章内で付加的な説明が多くなされる傾向がある。そのため、文章内で出現回数の多い単語だからといって、必ずしも質問内容との意味のつながりが強いわけではない。上記した技術では、自然言語の文章から質問内容を適切に抽出することが困難であった。
本発明は上記課題を解決する。本発明では、自然言語の文章から適切に質問内容を抽出することが可能な技術を提供する。
本発明は、自然言語の文章から質問内容を抽出する装置として具現化される。その質問内容抽出装置は、その文章を表現する文字列を入力する手段と、その文字列に対応する文節の順列を生成する手段と、その文節の順列に含まれる文節の中から、質問述語を決定する手段と、その文節の順列においてその質問述語よりも前方にある文節を対象として、その質問述語を基準とする係り受け関係を決定する手段と、その質問述語を基準とする係り受け関係をその質問内容として出力する手段とを備えている。
本発明の質問内容抽出装置では、自然言語の文章を表現する文字列を入力し、入力された文字列に対応する文節の順列を生成する。そして、文節の順列の中から、質問述語を決定する。そして、文節の順列において質問述語の前方にある文節を対象として、質問述語を基準とする係り受け関係を決定する。この係り受け関係の判断の際には、質問述語と同じ文内の文節だけではなく、さらに前方にある別の文内の文節についても係り受け関係の有無が判断される。質問述語を基準とする係り受け関係が決定されると、その係り受け関係を文章から抽出された質問内容として出力する。
上記の装置では、単語の出現頻度に着目するのではなく、自然言語の文章の中で質問内容に直接関係する質問述語に着目し、その質問述語を基準とする係り受け関係に含まれる文節をもとの文章から抽出して出力する。このような構成とすることによって、文章全体での意味のつながりを反映した質問内容の抽出を行うことができる。
上記の質問内容抽出装置において、その出力手段は、その質問述語を基準とする係り受け関係からその質問内容を表現する文字列を再構築し、その再構築された文字列をその質問内容として出力することが好ましい。
上記のように、質問内容を文字列として再構築することによって、抽出された質問内容をより人間が理解しやすくすることができる。
本発明は方法としても具現化される。本発明の方法は、自然言語の文章から質問内容を抽出する方法であって、前記文章を表現する文字列を入力する工程と、前記文字列に対応する文節の順列を生成する工程と、前記文節の順列に含まれる文節の中から、質問述語を決定する工程と、前記文節の順列において前記質問述語よりも前方にある文節を対象として、前記質問述語を基準とする係り受け関係を決定する工程と、前記質問述語を基準とする係り受け関係を前記質問内容として出力する工程とを備えている。
本発明の質問内容抽出装置および質問内容抽出方法によれば、自然言語の文章から適切に質問内容を抽出することができる。
以下に発明を実施するための最良の形態を列記する。
(形態1)前記文節の順列を生成する手段は、前記文字列から形態素の順列を生成し、生成された形態素の順列から前記文節の順列を生成する。
図1は本実施例の質問内容抽出装置100の構成を模式的に示している。質問内容抽出装置100は、例えば商品販売者が設置したカスタマーセンターに配置されており、商品購買者から集まったアンケートの自由記入欄に記載された自然言語の文章の中から、商品販売者に対する質問内容を抽出する。抽出された質問内容は、商品販売者が今後のカスタマーサービスを行ううえでの参考資料として、質問内容データベース(以下ではデータベースをDBと表記する)102に登録される。
質問内容抽出装置100は、処理装置(CPU)、記憶装置(光学記憶媒体、磁気記憶媒体、あるいはRAMやROMといった半導体メモリ等)、入出力装置(キーボード、ディスプレイ等)、演算装置などから構成されている汎用のコンピュータ装置であって、記憶装置にインストールされたプログラム104に従って動作する。
図2に質問内容抽出装置100が実現する機能構成を模式的に表現したブロック図を示している。質問内容抽出装置100は、入力部202、形態素解析部210、形態素DB220、文節解析部212、質問述語抽出部214、質問述語DB224、項構造解析部216、係り受けDB222、照応解析部218、出力部204に相当するそれぞれの機能を実現する。
入力部202では、質問内容の抽出対象となる自然言語の文章を入力する。本実施例の質問内容抽出装置100では、カスタマーセンターに駐在するオペレータが、アンケートの自由記入欄に記載された文章を、質問内容抽出装置100のキーボードを用いて入力する。入力部202は、キーボードから入力された文字列を、テキストデータの形式で形態素解析部210に出力する。
図3に入力部202から入力される自然言語の文章の例を示す。図3に示す例では、入力される文章はプリウス(登録商標)に関するものであり、「プリウスの購入を考えている。」という文と、「うちの車庫は高さが低い。」という文と、「車庫に入るか心配。」という文と、「トランクをオープンにしたときの上まであがった高さ寸法を教えて。」という文と、「車庫に入るならば購入したい。」という文の5つの文から構成されている。入力部202では、これらの文からなる文章の文字列が入力される。
形態素解析部210は、入力部202から入力された文字列から、形態素の順列を生成する。本明細書で形態素とは、言語として意味をなす最小の文字列であって、それ以上小さくすると意味を成さなくなるものをいう。
形態素解析部210には形態素DB220が接続されている。形態素DB220には、自然言語で用いられる形態素群のそれぞれについて、形態素を構成する文字列と、その形態素の品詞を示す識別子が関連付けて記憶されている。また形態素DB220には、3つの形態素の順序付きの組合せに関して、その組み合わせが自然言語の文章で出現する確率が記憶されている。この形態素の組合せの出現確率は、日本語コーパスを用いた事前学習によって、予め適切に設定しておくことができる。形態素DB220は、入力された文字列から、その文字列に相当する最も確からしい形態素の順列を生成する。形態素の順列が生成されると、そこに含まれる形態素のそれぞれについて、属性として品詞の大分類と小分類を示す識別子を付与する。
図4に、図3の文章の文字列から形態素の順列を生成した結果を示している。図3の文章の文字列からは、先頭から順に、「プリウス」という形態素、「の」という形態素、「購入」という形態素、「を」という形態素、・・・「。」という形態素から構成される、形態素の順列が生成される。また、「プリウス」という形態素には品詞の大分類として「名詞」が、品詞の小分類として「固有名詞」が、それぞれ属性として付与される。「の」という形態素には品詞の大分類として「助詞」が、品詞の小分類として「連体化」が、それぞれ属性として付与される。それ以降の形態素についても、その形態素の品詞の大分類と小分類がそれぞれ属性として付与される。
入力された文字列に対応する形態素の順列が生成されると、形態素解析部210は、形態素順列データを文節解析部212に出力する。本実施例では、形態素順列データは、生成された形態素の順列に含まれるすべての形態素に関して、その形態素の文章の先頭からの順序を示す形態素番号と、その形態素に対応する文字列と、その形態素の品詞の大分類と小分類を示す識別子が関連付けられたデータである。
文節解析部212は、形態素解析部210から入力された形態素順列データから、文節の順列を生成する。本明細書で文節とは、1つの自立語と、それに付随する付属語を含んでいる。本実施例では、形態素の品詞が動詞、形容詞、形容動詞、名詞、連体詞、副詞、接続詞、感動詞などの場合には、その形態素は自立語として扱われ、形態素の品詞が助詞、助動詞、記号などの場合には、その形態素は付属語として扱われる。
文節解析部212は、形態素解析部210から入力された形態素の順列について、先頭から順に形態素の品詞を評価していき、自立語である形態素が発見されると、その自立語の周囲の付属語とその自立語をグルーピングして、その自立語を含む文節を形成する。この処理を形態素の順列の最後まで繰り返し行うことで、文節の順列を生成することができる。
図5に、図3の文章から生成された形態素の順列(図4参照)から、文節の順列を生成した例を示している。この場合、先頭から順に、「プリウスの」という文節と、「購入を」という文節と、・・・・、「購入したい。」という文節の順列が生成される。
また文節解析部212では、それぞれの文節に属性を付与する。本実施例では、文の末尾に位置する文節について、文末の文節であることを示す識別子を付与する。その文節が文末に位置するか否かは、文節の最後の文字が句点、疑問符または感嘆符であるか否かによって判別する。図3の文章から生成された文節の順列では、「考えている。」という文節と、「低い。」という文節と、「心配。」という文節と、「教えて。」という文節と、「購入したい。」という文節に、文末に位置する文節であることを示す識別子が付与される。
文節の順列が生成されると、文節解析部212は、形態素順列データと、文節順列データを、質問述語抽出部214に出力する。本実施例で文節順列データは、文章の先頭からの文節の順序を示す文節番号と、その文節を構成する形態素それぞれの形態素番号と、その文節を構成する形態素それぞれに対応する文字列と、その文節の属性を示す識別子が関連付けられたデータである。
質問述語抽出部214は、文節解析部212から入力された文節順列データに基づいて、文節の順列に含まれる文節の中から質問述語を決定する。
質問述語抽出部214は、文節の順列に含まれる文節の中から、文末に位置する文節を対象として、その文節が質問述語であるか否かを判定する。質問述語抽出部214には、質問述語DB224が接続されている。質問述語DB224には、自然言語の文章に登場するであろうと想定される複数の質問述語に関して、それらの質問述語を表現する文字列が記憶されている。想定される質問述語としては、例えば「教えて。」という文字列や、「ですか?」という文字列や、「どのくらい?」という文字列が登録されている。
文末に位置する文節の中から想定された質問述語と一致するものが見出されると、質問述語抽出部214は、その文節が質問述語であることを示す識別子を、文節順列データにおいてその文節の属性として付与する。図3の文章から生成された文節の順列では、「教えて。」という文節に、質問述語であることを示す識別子が付与される。
文末に位置する全ての文節について質問述語であるか否かの判断を行った後、質問述語抽出部214は形態素順列データと文節順列データを項構造解析部216へ出力する。
項構造解析部216では、質問述語抽出部214から入力された形態素順列データと文節順列データに基づいて、質問述語を基準とする文節間の係り受け関係の決定を行う。
自然言語の文章においては、述語である文節と、その前方にある先行詞との係り受け関係としては、ガ格、ニ格、ヲ格の係り受け関係が存在する。質問述語に関しては、多くの場合、ガ格は質問について回答することを要請されている者(例えば商品販売者)を示しており、ニ格は質問をしている者(例えば商品購買者)を示しているから、ガ格やニ格の係り受けについては、文章の中で省略されていることもあるし、省略されていないこともある。またヲ格の係り受けについては、質問内容の主題を示しており、文章の中で明示されていることが多い。本実施例では、ガ格、ニ格、ヲ格の係り受けについて、文章の中にあるものとして判定を行う。
項構造解析部216では、2つの文節の間での係り受け関係について、その係り受け関係の得点を評価して、様々な組合せの中から最も得点の高い2つの文節について係り受け関係があるものと判定する。係り受け関係の得点を評価する際には、以下の素性が考慮される。
(1)動詞と名詞の格の共起用例
(2)名詞と格候補の名詞が何文節離れているか
(3)名詞と格候補の名詞の前後関係
(4)格候補の文節の機能語
(5)格候補の格
(6)格候補の主辞の品詞
(7)格候補が人間または組織か否か
上記した素性が文節間の係り受け関係の得点に及ぼす影響については、日本語コーパスを用いた事前学習によって、予め適切に設定しておくことができる。事前学習の結果は係り受けDB222に記憶されている。係り受けDB222には、2つの文節それぞれの文字列と、それらの文節間の係り受け関係の得点が、関連付けて記憶されている。項構造解析部216は、2つの文節の組合せに関して、係り受けDB222に記憶された事前学習結果から、それらの文節間の係り受け関係の得点を取得することができる。
項構造解析部216は、質問述語よりも前方に位置する全ての文節のうち、名詞句に相当する文節を対象として、質問述語との係り受け関係を評価し、質問述語の先行詞を決定する。文節が名詞句であるか否かは、その文節の自立語の品詞に応じて判断される。係り受け関係の評価においては、評価の対象とする文節のそれぞれについて質問述語との係り受け関係の得点を算出して、最も得点の高い文節をその質問述語の先行詞として決定する。
質問述語と係り受け関係にある先行詞が決定されると、項構造解析部216は、文節順列データにおいて、質問述語である文節の係り受けに関する属性として、先行詞の文節番号を付与する。
本実施例の質問内容抽出装置100では、質問述語の先行詞を決定する際に、その質問述語が含まれる文内だけではなく、文章内でより前方にある別の文に含まれる文節についても、評価対象として扱う。このように文と文の間をまたいだ係り受け関係の評価を行うことによって、文章全体での意味のつながりを反映した係り受け関係を決定することができる。
その後、項構造解析部216は、決定された質問述語の先行詞について、その先行詞と他の文節との係り受け関係を判定する。質問述語と他の文節との係り受け関係を評価した場合と同じように、項構造解析部216は、その先行詞よりも前方にある全ての文節を対象として、その先行詞との係り受け関係の得点を評価して、最も係り受け関係の得点が高い文節を決定する。このような係り受け関係の評価を繰り返し実施して、自然言語の文章における質問述語を基準とした係り受け関係を決定する。
図6に、図3の文章について質問述語を基準とする係り受け関係を決定した結果を示している。項構造解析部216は、まず質問述語である「教えて。」という文節について、先行詞として係り受け関係にある文節を決定する。この例では、「高さ寸法を」という文節が「教えて。」という文節のヲ格の先行詞として決定される。文節順列データにおいて、「教えて。」という文節の係り受け関係に関する属性として、「高さ寸法を」という文節の文節番号が付与される。
その後、項構造解析部216は、「高さ寸法を」という文節について、先行詞として係り受け関係にある文節を決定する。図6の例では、「プリウスの」という文節と「あがった」という文節が、「高さ寸法を」という文節の先行詞としてそれぞれ決定される。文節順列データにおいて、「高さ寸法を」という文節の係り受け関係に関する属性として、「あがった」という文節の文節番号と、「プリウスの」という文節の文節番号が付与される。
さらに項構造解析部216は、「プリウスの」という文節と「あがった」という文節のそれぞれについて、それらの文節の先行詞として係り受け関係にある文節を決定する。図6の例では、「プリウスの」という文節は順列の先頭にあり、係り受け関係にある先行詞は存在しない。「あがった」という文節については、「トランクを」という文節と「上まで」という文節がそれぞれ先行詞として決定される。「トランクを」という文節と「上まで」という文節は、いずれも文章中に先行詞は発見されないため、項構造解析部216は係り受け関係の評価を終了する。
以上のような項構造解析部216の処理によって、質問述語を基準とする文節間の係り受け関係が決定される。この係り受け関係は、図7に示すような、質問述語から遡って伸びる係り受け木として表現することができる。図7に示す係り受け木は、自然言語の文章における質問内容に関連した文節のみから構成されており、文章全体を通した意味のつながりを適切に表現してる。
質問述語を基準とする係り受け関係が決定されると、項構造解析部216は形態素順列データと文節順列データを照応解析部218に出力する。
照応解析部218では、質問述語を基準とする係り受け関係に含まれる文節の中で、文章の中に先行詞が見出されなかった文節について、隠れた先行詞の決定を行う。照応解析の詳細については、例えば飯田、乾、松本,”文脈的手がかりを考慮した機械学習による日本語ゼロ代名詞の先行詞同定”,情報処理学会論文誌,2004年3月,第45巻,第3号,p.906―918,等に記載されているため、本明細書では詳細な説明を省略する。
照応解析が行われた後、照応解析部218は形態素順列データと文節順列データを出力部204に出力する。
出力部204は、質問述語を基準とする係り受け関係を、質問内容の抽出結果として出力する。出力部204は、照応解析部218から入力された文節順列データに基づいて、文節の順列の中から、質問述語を基準とする係り受け関係に含まれる文節のみを出力する。出力部204は、質問述語を基準とする係り受け関係に含まれる文節について、それらの文節の文字列と、それらの文節の係り受けに関する属性とを関連付けた出力データを、質問内容DB102に出力する。このように出力部204から質問内容DB102に構造化したデータを出力することによって、質問内容抽出装置100を利用する商品販売者は、多くの商品購買者から寄せられた質問内容を適切に管理することが可能となる。例えば、「プリウス」に関する質問内容をグルーピングして質問内容DB102内で管理することもできるし、「高さ寸法」に関する質問内容をグルーピングして質問内容DB102内で管理することもできる。
あるいは出力部204は質問述語を基準とする係り受け関係から、質問内容を表現する文字列を再構築して、再構築された文字列を出力する構成としてもよい。
図8に出力部204が質問内容を表現する文字列を再構築する例を示している。出力部204は、質問述語を基準とする係り受け関係に含まれる文節について、再構築後の文字列にどの文節を反映させるかを判断する。本実施例では、出力部204は、再構築後の文字列が指定された文字数の範囲内に収まるように、どの文節を再構築後の文字列に反映させるかを判断する。
本実施例の質問内容抽出装置100では、質問述語との関連性が強い文節を優先的に再構築後の文字列に反映する。従って、最も重要度の高い文節は質問述語であり、次いで重要度の高い文節は質問述語の先行詞であり、次いで重要度の高い文節はその先行詞についての先行詞である。本実施例では、重要度の高い順に再構築後の文字列に反映させる文節を順に選択していき、再構築後の文字列が指定された文字数に収まる範囲内で、最大限に長い文字列を再構築後の文字列として出力する。
図8の(a)に示す自然言語の文章の文字列(図3に示したものと同一である)からは、図8の(b)、(c)または(d)に示す文字列が質問内容の抽出結果として出力される。図8の(b)に示すように、再構築後の文字列の文字数が10文字以内に指定された場合には、「高さ寸法を教えて。」という文字列が出力される。図8の(c)に示すように、再構築後の文字列の文字数が15文字以内に指定された場合には、「プリウスの高さ寸法を教えて。」という文字列が出力される。図8の(d)に示すように、再構築後の文字列の文字数が30文字以内に指定された場合には、「プリウスのトランクが上まであがった高さ寸法を教えて。」という文字列が出力される。
このようにして出力部204から出力される文字列は、図8の(a)に示す自然言語の文章から抽出された質問内容を、簡潔かつ適切に表現したものとなっている。本実施例で抽出された質問内容には、自然言語の文章における単語同士の意味のつながりが反映されており、自然言語の文章の全体を通した意味が適切に反映されている。
なお出力部204で文字列を再構築する際の条件としては、再構築後の文字列の文字数を指定しておく以外にも、様々な条件を設定することができる。例えば、文字列の再構築に用いる文節の数を予め指定しておいてもよい。あるいは、もとの自然言語の文章の文字数と再構築後の文字列の文字数の比率を予め指定しておいてもよい。
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
図1は質問内容抽出装置100の物理的な構成を模式的に示す図である。 図2は質問内容抽出装置100の機能的な構成を模式的に示す図である。 図3は入力部202で入力される自然言語の文章の文字列を例示する図である。 図4は形態素解析部210が出力する形態素順列データの構造を例示する図である。 図5は文節解析部212が出力する文節順列データの構造を例示する図である。 図6は項構造解析部216が出力する質問述語を基準とする係り受け関係を反映した文節順列データの構造を例示する図である。 図7は質問述語を基準とする係り受け関係を表現した係り受け木を模式的に示す図である。 図8は出力部204が出力する再構築後の文字列を例示する図である。
符号の説明
100・・・質問内容抽出装置
102・・・質問内容DB
104・・・プログラム
202・・・入力部
204・・・出力部
210・・・形態素解析部
212・・・文節解析部
214・・・質問述語抽出部
216・・・項構造解析部
218・・・照応解析部
220・・・形態素DB
222・・・係り受けDB
224・・・質問述語DB

Claims (3)

  1. 自然言語の文章から質問内容を抽出する装置であって、
    前記文章を表現する文字列を入力する手段と、
    前記文字列に対応する文節の順列を生成する手段と、
    前記文節の順列に含まれる文節の中から、質問述語を決定する手段と、
    前記文節の順列において前記質問述語よりも前方にある文節を対象として、前記質問述語を基準とする係り受け関係を決定する手段と、
    前記質問述語を基準とする係り受け関係を前記質問内容として出力する手段と
    を備える質問内容抽出装置。
  2. 前記出力手段は、前記質問述語を基準とする係り受け関係から前記質問内容を表現する文字列を再構築して、前記再構築された文字列を前記質問内容として出力することを特徴とする請求項1の質問内容抽出装置。
  3. 自然言語の文章から質問内容を抽出する方法であって、
    前記文章を表現する文字列を入力する工程と、
    前記文字列に対応する文節の順列を生成する工程と、
    前記文節の順列に含まれる文節の中から、質問述語を決定する工程と、
    前記文節の順列において前記質問述語よりも前方にある文節を対象として、前記質問述語を基準とする係り受け関係を決定する工程と、
    前記質問述語を基準とする係り受け関係を前記質問内容として出力する工程と
    を備える質問内容抽出方法。
JP2007037033A 2007-02-16 2007-02-16 質問内容抽出装置と質問内容抽出方法 Pending JP2008204010A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007037033A JP2008204010A (ja) 2007-02-16 2007-02-16 質問内容抽出装置と質問内容抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007037033A JP2008204010A (ja) 2007-02-16 2007-02-16 質問内容抽出装置と質問内容抽出方法

Publications (1)

Publication Number Publication Date
JP2008204010A true JP2008204010A (ja) 2008-09-04

Family

ID=39781482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007037033A Pending JP2008204010A (ja) 2007-02-16 2007-02-16 質問内容抽出装置と質問内容抽出方法

Country Status (1)

Country Link
JP (1) JP2008204010A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013776A (ja) * 2009-06-30 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 述語項構造解析方法、その装置及びプログラム
JP2021068218A (ja) * 2019-10-24 2021-04-30 日本放送協会 ヘッドライン生成装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013776A (ja) * 2009-06-30 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 述語項構造解析方法、その装置及びプログラム
JP2021068218A (ja) * 2019-10-24 2021-04-30 日本放送協会 ヘッドライン生成装置およびプログラム

Similar Documents

Publication Publication Date Title
Oueslati et al. A review of sentiment analysis research in Arabic language
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
Louis et al. What makes writing great? First experiments on article quality prediction in the science journalism domain
Malandrakis et al. Distributional semantic models for affective text analysis
JP4129987B2 (ja) テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
RU2601166C2 (ru) Разрешение анафоры на основе технологии глубинного анализа
Mustafa et al. Kurdish stemmer pre-processing steps for improving information retrieval
Nguyen-Son et al. Identifying computer-generated text using statistical analysis
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Nugues Language Processing with Perl and Prolog
Das et al. Identifying emotional expressions, intensities and sentence level emotion tags using a supervised framework
Alian et al. Syntactic-semantic similarity based on dependency tree Kernel
KR20120042562A (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Iwatsuki et al. Using formulaic expressions in writing assistance systems
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
Ahmad et al. Aspect Based Sentiment Analysis and Opinion Mining on Twitter Data Set Using Linguistic Rules
Antić Python Natural Language Processing Cookbook: Over 50 recipes to understand, analyze, and generate text for implementing language processing tasks
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
Rahat et al. A recursive algorithm for open information extraction from Persian texts
Kavros et al. SoundexGR: An algorithm for phonetic matching for the Greek language
JP2008204010A (ja) 質問内容抽出装置と質問内容抽出方法
Schönle et al. Linguistic-Aware WordPiece Tokenization: Semantic Enrichment and OOV Mitigation
Abbas et al. Tr-classifier and knn evaluation for topic identification tasks
Hasegawa-Johnson et al. Arabic speech and language technology

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090707

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20091111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120529