JP2004157931A - 意図文型種別抽出方式 - Google Patents
意図文型種別抽出方式 Download PDFInfo
- Publication number
- JP2004157931A JP2004157931A JP2002325341A JP2002325341A JP2004157931A JP 2004157931 A JP2004157931 A JP 2004157931A JP 2002325341 A JP2002325341 A JP 2002325341A JP 2002325341 A JP2002325341 A JP 2002325341A JP 2004157931 A JP2004157931 A JP 2004157931A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- intention
- type
- expression
- free description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】自由記述文の表現意図を示す文型の種別を抽出して、書き手の意図を把握可能とする意図文型種別抽出方式を提供する。
【解決手段】自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現とを登録した意図文型種別体系をもち、入力された自由記述文の文末を判断し文単位に編集し、この自由記述文の、少なくともその単語または語句または文字列を解析し、この解析結果に含まれる単語または語句または文字列のうち1種類以上および合計1個以上から成る文末表現と、意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現を照合して、入力された自由記述文の文末表現と合致したものの意図文型種別を抽出する。
【選択図】 図1
【解決手段】自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現とを登録した意図文型種別体系をもち、入力された自由記述文の文末を判断し文単位に編集し、この自由記述文の、少なくともその単語または語句または文字列を解析し、この解析結果に含まれる単語または語句または文字列のうち1種類以上および合計1個以上から成る文末表現と、意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現を照合して、入力された自由記述文の文末表現と合致したものの意図文型種別を抽出する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、テキストを処理する情報処理装置において、アンケート文やメール文のように書き手が特定の読み手を想定して記述した自由記述文に対し、書き手の意図を示す情報を抽出し、その種別を判定する意図文型種別抽出方式に関する。
【0002】
【従来の技術】
従来より、アンケートに対する自由回答文やメール文のような自由記述文に対し、書き手の意図を判定するため、文章中のキーワードや固定表現やモダリティに基づくパターンマッチングによって文章を分類する技術や、文章を単語分割し、特徴ベクトルを用いて学習型の自動分類を行う技術はよく知られている。また、アンケート文の選択式回答などの数値データから回答者の潜在的な要望を抽出するデータマイニングの手法も知られている。
また、「乾裕子、内元清貴、井佐原均著『モダリティ分析に基づく自由回答アンケートの分類』言語処理学会第4回年次大会大会誌、p.540−543」には、モダリティと構文情報を利用することにより文書の意図を認識する方法が提案されている。ここで、モダリティとは、禁止・可能・要求等を表わす表現であり、助動詞やそれに相当する表現に含まれるものである。このようなモダリティと自立語自体に内在する意図とを組み合わせることにより、文書の意図自体を把握することを提案している。
【0003】
【非特許文献1】
乾裕子、内元清貴、井佐原均著「モダリティ分析に基づく自由回答アンケートの分類」言語処理学会第4回年次大会大会誌、p.540−543
【0004】
【発明が解決しようとする課題】
しかしながら、従来のパターンマッチングまたは特徴ベクトルを用いた分類技術はともに、名詞、動詞、形容詞、形容動詞等の自立語に着目した内容に基づく分類方式であり、書き手の深層心理まで考慮してその意図を抽出するという観点では充分な分類方式とはいえない。また、上記「モダリティ分析に基づく自由回答アンケートの分類」による手法は、文中の述語に続く助動詞あるいは助動詞相当表現に着目して意図認定を行っているものであるが、着目する表現部分は、単文内のひとつの述語に続く助動詞表現に限定されており、書き手の意図を把握するために条件節を含むような複文に跨った文末表現を捕らえることはしていない。具体的には、「購入できて、嬉しい」は、単に自分の感情を表明しているが、「購入できれば、嬉しい」といった場合には、暗に「購入したい」という要求を示すものであり異なるが、従来の手法では、同者はいずれも「嬉しい」という自立語(この表現ではモダリティなし)になってしまい、区別できない。また、アンケート文の選択式回答等の数値データに対する上記データマイニングの手法は、自由記述文に対しては適用できない。
【0005】
本発明は、上記の点に鑑みてなされたもので、入力された文書から、この文書に含まれる自由記述文の表現意図を示す文型の種別を抽出して、書き手の意図を把握可能とする意図文型種別抽出方式を提供するものである。
【0006】
【課題を解決するための手段】
請求項1に記載の発明は、日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、前記自由記述文からなる文書を入力するための入力手段と、前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、前記自由記述文の、少なくともその単語または語句または文字列を解析する解析手段と、自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現とを登録した意図文型種別体系を記憶する記憶手段と、前記解析手段による解析結果に含まれる単語または語句または文字列のうち1種類以上および合計1個以上から成る文末表現と、前記意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現を照合して、前記自由記述文の文末表現と合致したものの意図文型種別を抽出する抽出手段と、抽出された前記意図文型種別を出力する出力手段と、を具備することを特徴としている。
【0007】
また、請求項2に記載の発明は、日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、前記自由記述文からなる文書を入力するための入力手段と、前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、前記自由記述文に含まれる単語または語句または文字列とその品詞または様相または用言の意味属性等の文法情報とを解析する解析手段と、自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を記憶する記憶手段と、前記解析手段による解析結果に含まれる品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、意図文型種別体系に登録された品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報を照合して、前記自由記述文の文末表現に関する文法情報の特徴部分と合致したものの意図文型種別を抽出する抽出手段と、抽出された前記意図文型種別を出力する出力手段と、を具備することを特徴としている。
【0008】
また、請求項3に記載の発明は、日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、前記自由記述文からなる文書を入力するための入力手段と、前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、前記自由記述文に含まれる単語または語句または文字列とその品詞または様相または用言の意味属性等の文法情報とを解析する解析手段と、自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現およびその品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を記憶する記憶手段と、前記解析手段による解析結果に含まれる単語または語句または文字列からなる文末表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報を照合して、前記自由記述文の文末表現およびその文法情報の特徴部分が合致したものの意図文型種別を抽出する抽出手段と、抽出された前記意図文型種別を出力する出力手段と、を具備することを特徴としている。
【0009】
以上のように構成し、入力された文書に含まれる自由記述文に対し、書き手の意図に対応する意図文型種別を付与することによって上記課題を解決する。
【0010】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
図1は、本発明の一実施の形態である情報処理装置の構成を示すブロック図である。
図1において、符号1は、本実施の形態の情報処理装置である。符号2は、入力部であり、処理の対象となる自由記述文からなる文書を本情報処理装置1に入力するためのインターフェースである。この入力部2は、入力された文書のデータ(入力文)を下記の文単位編集部4aに渡す。符号3は、記憶部であり後述する文末判定規則3a、文法規則3b、単語辞書3c、意図文型種別体系3dを記憶している。また、符号4は、処理部であり下記の文単位編集部4a、解析部4b、意図文型種別抽出部4c、意図文型種別出力部4dからなっている。符号5は、意図文型種別出力部4dの処理結果を出力する出力部である。
【0011】
文単位編集部4aは、入力部2から渡された入力文を、予め文末判定規則3aに記述してある文末を判定するための規則を用いて、入力文を構成する各文の文末を判断し文単位に編集した文単位編集結果を出力する。
解析部4bは、文単位編集部4aから文単位編集結果を受けると、文単位編集結果の各文に対して文法規則3bと単語辞書3cを用い、各文(特に文末部分を構成する特徴表現(文字列))に含まれる単語、語句、文字列から各単語を特定し、その単語の表記と、各単語に対して、その品詞、様相、用言の意味属性のいずれかまたはこれらの組み合わせを付与したデータである日本語単語情報列を出力する。
【0012】
意図文型種別抽出部4cは、解析部4bから日本語単語情報列を受けると、(a)この日本語単語情報列に含まれる単語または語句または文字列のうち1種類以上および合計1個以上から成る文末表現、または、(b)日本語単語情報列に含まれる品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分、または、(c)日本語単語情報列に含まれる単語または語句または文字列からなる文末表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、予め用意した意図文型種別体系3dの意図文型認定規則(後述)と比較を行い、この日本語単語情報列と意図文型認定規則に含まれる要件とが合致した場合、この意図文型認定規則に対応する、意図文型種別体系3dに定義されている意図文型種別(意図文型種別ID、意図文型種別名)を出力する。
【0013】
なお、本実施の形態では、上記(c)と、(c)に対応した意図文型認定規則を用意し、これらを比較するものとする。また、上記意図文型認定規則との比較の際は、この意図文型認定規則に規定された単語または語句または文字列からなる文末に記される特徴表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報との比較を行う。
意図文型種別出力部4dは、文単位編集部4aで文単位にされた文単位編集結果に含まれる個々の文に対して、意図文型種別抽出部4cで抽出された意図文型種別を付与した意図文型種別付き日本文テキストを出力部5に出力する。
【0014】
ここで、記憶部3に記憶される文末判定規則3a、文法規則3b、単語辞書3c、意図文型種別体系3dについて説明する。
文末判定規則3aには、文末を示す記号である句点「。」や疑問符「?」や感嘆符「!」等により文末を判定するための基準が規定されている。
文法規則3bは、単語の連接関係を規定する情報等からなっている。
単語辞書3cには、日本語の単語、語句およびその品詞等が登録されている。
【0015】
意図文型種別体系3dは、自由記述文の表現意図を示す意図文型の種別である意図文型種別毎にこの種別を判定するための規則が定義されている。図2に、その一例を示している。
横1行が、1つの規則の記述例で、1つの規則は、意図文型種別ID、意図文型種別名、文末判定規則、意図文型認定規則から構成される。意図文型種別IDは、意図文型種別の分類のため付与する番号で、個々の意図文型認定規則に個別の番号が対応づけられる。意図文型種別名は、個々の意図文型種別の名称である。文末判定規則は、個々の意図文型認定規則で使用する文末判定規則を記述する。ルールIDは、1つの意図文型種別に対して、さらに複数の規則がある場合があるため、同一の意図文型種別内の意図文型認定規則に個別の番号を付与する。意図文型認定規則は、意図文型種別毎に、文末に記される、意図を表す特徴表現を構成する単語(または語句または文字列)とその品詞または様相または用言の意味属性からなる文法情報を規定するものである。
【0016】
図3は、意図文型種別体系の概念図である。
同図に示す意図文型種別体系は、意図文型種別(第1階層は、10:要求文、20:表明文、…、第2階層は10:願望構文、20提案構文、…、第3階層では、10:疑問、20:否定疑問のように分類される)とそれに対応した意図文型(図では、その特徴表現と、対応する意図文型種別IDとルールIDの組み合わせを示している)で構成されている。意図文型種別体系(3d)は、同図に示すように階層構造になっている。したがって、使用用途に応じて、階層が深い範囲を指定すれば、狭い範囲の意図文型種別を抽出することが可能であり、階層が浅い範囲を指定すると広い範囲の意図文型種別を抽出することが可能になる。
【0017】
本実施の形態で使用する意図文型種別体系3dは、意図文型種別毎の意図文型を特徴付ける単語または語句または文字列の表記と、品詞または様相または用言の意味属性からなる文法情報をその認定規則(意図文型認定規則)として登録している。様相とは、否定・使役・試行・禁止・丁寧のように文の非本質的な要素で物事のあり方のことであり、本実施の形態では、様相と時制との組み合わせも考慮に入れた意図文型種別体系を採用する。なお、時制とは動詞が表す内容の時間的位置(過去・現在・未来など)を示す文法範疇、また、それを表す言語形式を意味する。例えば、「走る」と「走った」を区別して処理することにより、抽出精度向上が期待できる。用言とは、事物の動作・作用・存在・性質・状態について叙述する語で、それ自体独立して述語として働く語のことである。また、意味属性とは、言葉の本質的な意味を表す属性であり、1つの意図文型種別には複数の意図文型が登録される場合もある。
【0018】
意図文型種別体系3dは、前述の図3を参照して説明したように階層化されている。図4、5は、さらに階層化され詳細に定義された意図文型認定規則について、依頼型要求文(間接依頼)の場合を例として説明するものである。
同図に示すように、1つの意図文型種別には、意図文型を分類するための大項目(要求文/表明文/…)・中項目(願望構文/提案構文/依頼構文/…)・小項目(疑問/否定疑問/直接依頼/間接依頼/…)・サブ項目(確認疑問/真偽疑問/…)がわかるような階層化された番号を意図文型種別IDとして付与している。したがって、この意図文型種別IDは、意図文型種別を、意図文型種別抽出の対象となる複文の種類毎に細分類するものとなっている。
【0019】
1つの意図文型種別には、さらに複数の意図文型認定規則が存在する場合があるため、前述のように意図文型種別IDごとに個別のルールIDを付与している。意図文型種別IDとルールIDとの組み合わせにより、細かく分類される意図文型認定規則に対して個別の番号を付与する。例にあげた「依頼型要求文(間接依頼)」は、「用言」に、条件を表わす「助詞」または「助動詞」または「補助用言」が接続した複文と「メリット」を示す用言意味属性が付与されている用言が主文にあり且つ主文の様相が疑問ではない意図文型の種別を抽出するための規則を記述している。
【0020】
なお、上記入力部2は、キーボード、マウス等の入力デバイスにより構成されている。他の入力デバイスの例としては、音声を受け入れてテキストデータを出力する音声認識装置が挙げられる。また、記憶部3は、ハードディスク、光磁気ディスク等の不揮発性の記録装置により構成される。また、処理部4はメモリおよびCPU(中央処理装置)等により構成され、処理部4の各機能を実現するためのプログラム(図示せず)をメモリにロードして実行することによりその機能が実現されるものとする。また、出力部5は、表示装置や印刷装置(プリンタ)により構成されている。ここで、表示装置とはCRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
以上、情報処理装置1の構成について説明した。
【0021】
次に、このように構成された本実施形態の情報処理装置1の動作について、図6,7を参照し説明する。
情報処理装置1は、アンケートの回答文やメール文のように、書き手が読み手を想定した自由記述文から、書き手の心的態度や深層心理を表わす意図を自動的に抽出するのに有用な装置である。したがって、書き手の意図とその心的態度を把握したいと考えているユーザであれば、個人のユーザにも企業にあっても活用可能な装置である。以下では、自由記述文から回答者(書き手)の意図を抽出する一例を説明する。
【0022】
図7に示す例1の「商品の品揃えには満足してます。でも、商品の写真が充実すると嬉しい。」という自由記述文が入力部2を通して入力されると、文単位編集手段4aにこの入力文が渡さる(ステップS01)。
文単位編集部4aでは、入力部2から渡された例1の入力文に対して、文末判定規則3aのうち、『単独の句点「。」の直後を文末とする』規則を適用し、句点「。」の直後を文末と判定する。この例では、同図例2に示す「商品の品揃えには満足してます。」の直後と、「でも、商品の写真が充実すると嬉しい。」の直後を文末と判定し、文単位毎に編集した文単位編集結果を出力し解析部4bに渡す(文単位編集処理:ステップS02)。図7に示す例では、文末部分に、<bunmatu>という、文を区切るための識別子を挿入している。
解析部4bでは、文単位編集結果を受け取り、単語の連接関係を規定した文法規則3bと、単語辞書3cを用いて、図7:例2に示す文単位編集結果を解析し、その結果である日本語単語情報列(図7:例3)を生成し、意図文型種別抽出部4cに渡す(解析処理:ステップS03)。
【0023】
ここで、図7:例2に示す最初の文を例にあげて、上記解析処理の詳細を説明する。
「商品の品揃えには満足してます。」とういう文が解析部4bに渡されると、まず、この文の最初の1文字「商」が、単語辞書3cにあるかどうかを検索し調べる。ここで、表記が「商」で品詞が「名詞」の単語が単語辞書3cにあると、これを仮採用する。次に「商」を含めて次の単語との組み合わせからなる「商品」を検索し、品詞が名詞で単語辞書3cに登録されていると、これを仮採用し(この時点で、採用していた「商」は仮採用を取り消す)、次に「商品の」を単語辞書3cで検索する。このときこの「商品の」は単語辞書3cに登録されていないので、「商品」の単位で採用する。次に「の品揃え〜」の中で、「商品」という名詞に接続可能な品詞情報について文法規則3bを参照し、「商品」の次の単語「の」を確定する。同様の処理を繰り返し、最終的に「{表記:商品;品詞:名詞}{表記:の;品詞:格助詞}{表記:品揃え;品詞:名詞}{表記:には;品詞:格助詞}{表記:満足;品詞:サ変名詞;用言意味属性:喜}{表記:してます;品詞:補助用言;様相:丁寧}{表記;。;品詞:句点}」という日本語単語情報列が生成される。
【0024】
意図文型種別抽出部4cでは、図7:例3の日本語単語情報列が渡されると、この日本語単語情報列に含まれる単語または語句または文字列または品詞または様相または用言の意味属性の何れかの情報(文末に記された特徴表現や特徴的な文法情報)を、予め用意されている意図文型種別体系3dの意図文型認定規則と照合する。そして、この日本語単語情報列に含まれる特徴表現や特徴的な文法情報と合致する意図文型認定規則を採用する。
【0025】
図7:例3の日本語単語情報列に含まれる「でも、商品の写真が充実すると嬉しい。」という文の場合、これに対応する日本語単語情報列に含まれる情報は、「{表記:でも;品詞:接続詞}{表記:、;品詞:読点}{表記:商品;品詞:名詞}{表記:の;品詞:格助詞}{表記:写真;品詞:名詞}{表記:が;品詞:格助詞}{表記:充実;品詞:サ変型名詞}{表記:する;品詞:動詞}{表記:と;品詞:接続助詞}{表記:嬉し;品詞:形容詞;用言意味属性:メリット}{表記:い;品詞:形容詞接尾辞}{表記:。;品詞:句点}」である。
【0026】
この情報に含まれる特徴表現や特徴的な文法情報と合致するものとして、「{品詞:サ変型名詞}{表記:する}{表記:と}{品詞:形容詞&用言意味属性:メリット用言}{表記:い&品詞:形容詞接尾辞}」という意図文型認定規則(図2参照)を採用する。そして、意図文型種別出力部4dでは、「でも、商品の写真が充実すると嬉しい。」という文に対し、上記意図文型認定規則に対応する「10304000−1 依頼型要求文(間接依頼)」という意図文型種別ID(およびルールID)と意図文型種別名を各々抽出する。同様にして、上記日本語単語情報列に含まれる「商品の品揃えには満足している。」という文には、「20304000−1:表明文(感情・喜)」(なお、これに対応する意図文型認定規則は、意図文型種別体系を示す図面にて例示を省略)という意図文型種別ID(およびルールID)と意図文型種別名を抽出する(意図文型種別抽出処理:ステップS04)。
そして、入力文に意図文型種別IDと意図文型種別名を付与した結果(図7:例4)を出力する(ステップS05)。
本実施の形態の情報処理装置1は、以上のように動作する。
【0027】
本実施の形態の情報処理装置1では、意図文型種別体系3dが階層化されているため、書き手の意図を抽出する際には、読み手が知りたい内容に応じて、まとめたり、紬かく分けるなど任意の階層レベルの意図文型種別を抽出することが可能となっている。
また、インターネットの利用が普及し、大量の電子データから必要な情報を抽出したり、こうした電子データをもとに何らかの対応をとる際の優先度を決める必要性が高まっている。情報処理装置1では、書き手の心的態度を含む意図によって分類する必要があるサービスを提供する事業を行う場合有用である。
【0028】
また、アンケートの自由回答文では、その重要性に関わらず、その内容を適切に把握するには、人間が回答の内容を読む必要があったため、コストがかかるという面から、分析対象とはされていなかった。情報処理装置1を利用することによって、人間が内容を読まなくても、意図別に自由回答文を抽出することが可能になり、さらに、表明された意図の種別に従って重みづけを行うことも可能になる。
また、情報処理装置1が出力する意図文型種別は、自由記述文というテキストデータから、意図をその種別ごとに数値化して抽出することも目的としており、これによって、選択方式の数値データとリンクさせた分析が可能になる。
【0029】
なお、図1における処理部4の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより前述の自然言語処理を行ってもよい。ここで「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0030】
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0031】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0032】
以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含まれる。
【0033】
【発明の効果】
以上、詳細に説明したように、本発明によれば、請求項1に記載の発明では自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現とを登録した意図文型種別体系を、また、請求項2に記載の発明では意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を、また、請求項3に記載の発明では意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現およびその品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を、予めもち、これと、入力された文書に記述された自由記述文がその文末にもつ特徴表現や特徴的な文法情報とを照合して、この自由記述文の意図文型種別を出力している。
このように、本発明では、入力された文書に含まれる自由記述文から、その文末の特徴的な表現やその文法情報に着目して、上記意図文型種別を自動的に抽出するので、書き手が特定の読み手を意識して記述した自由記述文に対して、読み手はその文章を実際に読まなくても、書き手の読み手に対する心的態度、あるいは価値づけをする心的過程を含めた意図を把握することが可能になる。
【0034】
また、自由記述文には、それに用いられる単語または語句または文字列により表現意図を把握できる場合がある。請求項1に記載の発明では、具体的に表される単語または語句または文字列をもとに意図文型種別体系を構成するので、簡略な構成で、上記のような自由記述文の表現意図を把握することができる。
また、請求項2に記載の発明では、文法的な構造をもとに意図文型種別の判定を行うので、具体的に表される単語または語句または文字列を条件とするのではなく、抽象的である文法情報を条件とする方が、文が表す表現意図を把握できる場合に有効である。
また、請求項3に記載の発明は、上記請求項1及び請求項2に記載の発明の構成を合わせ持ち、単語または語句または文字列を用いて具体的な条件(意図文型認定規則)を指定したり、文法情報を用いて抽象的な条件を指定したりできるので、様々な自由記述文に対し文の本質を捉えた、意図文型種別を抽出するための条件を記述することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である情報処理装置の構成を示すブロック図である。
【図2】意図文型種別体系の一例である。
【図3】意図文型種別体系の概念図である。
【図4】依頼型要求文(間接依頼)を例に意図文型認定規則の詳細について説明する図である。
【図5】図4の続きの図である。
【図6】同実施の形態の情報処理装置の動作フローチャートである。
【図7】同実施の形態の入出力例である。
【符号の説明】
1…情報処理装置
2…入力部(入力手段)
3…記憶部(記憶手段)
3a…文末判定規則
3b…文法規則
3c…単語辞書
3d…意図文型種別体系
4…処理部
4a…文単位編集部(文単位編集手段)
4b…解析部(解析手段)
4c…意図文型種別抽出部(抽出手段)
4d…意図文型種別出力部(出力手段)
5…出力部
【発明の属する技術分野】
本発明は、テキストを処理する情報処理装置において、アンケート文やメール文のように書き手が特定の読み手を想定して記述した自由記述文に対し、書き手の意図を示す情報を抽出し、その種別を判定する意図文型種別抽出方式に関する。
【0002】
【従来の技術】
従来より、アンケートに対する自由回答文やメール文のような自由記述文に対し、書き手の意図を判定するため、文章中のキーワードや固定表現やモダリティに基づくパターンマッチングによって文章を分類する技術や、文章を単語分割し、特徴ベクトルを用いて学習型の自動分類を行う技術はよく知られている。また、アンケート文の選択式回答などの数値データから回答者の潜在的な要望を抽出するデータマイニングの手法も知られている。
また、「乾裕子、内元清貴、井佐原均著『モダリティ分析に基づく自由回答アンケートの分類』言語処理学会第4回年次大会大会誌、p.540−543」には、モダリティと構文情報を利用することにより文書の意図を認識する方法が提案されている。ここで、モダリティとは、禁止・可能・要求等を表わす表現であり、助動詞やそれに相当する表現に含まれるものである。このようなモダリティと自立語自体に内在する意図とを組み合わせることにより、文書の意図自体を把握することを提案している。
【0003】
【非特許文献1】
乾裕子、内元清貴、井佐原均著「モダリティ分析に基づく自由回答アンケートの分類」言語処理学会第4回年次大会大会誌、p.540−543
【0004】
【発明が解決しようとする課題】
しかしながら、従来のパターンマッチングまたは特徴ベクトルを用いた分類技術はともに、名詞、動詞、形容詞、形容動詞等の自立語に着目した内容に基づく分類方式であり、書き手の深層心理まで考慮してその意図を抽出するという観点では充分な分類方式とはいえない。また、上記「モダリティ分析に基づく自由回答アンケートの分類」による手法は、文中の述語に続く助動詞あるいは助動詞相当表現に着目して意図認定を行っているものであるが、着目する表現部分は、単文内のひとつの述語に続く助動詞表現に限定されており、書き手の意図を把握するために条件節を含むような複文に跨った文末表現を捕らえることはしていない。具体的には、「購入できて、嬉しい」は、単に自分の感情を表明しているが、「購入できれば、嬉しい」といった場合には、暗に「購入したい」という要求を示すものであり異なるが、従来の手法では、同者はいずれも「嬉しい」という自立語(この表現ではモダリティなし)になってしまい、区別できない。また、アンケート文の選択式回答等の数値データに対する上記データマイニングの手法は、自由記述文に対しては適用できない。
【0005】
本発明は、上記の点に鑑みてなされたもので、入力された文書から、この文書に含まれる自由記述文の表現意図を示す文型の種別を抽出して、書き手の意図を把握可能とする意図文型種別抽出方式を提供するものである。
【0006】
【課題を解決するための手段】
請求項1に記載の発明は、日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、前記自由記述文からなる文書を入力するための入力手段と、前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、前記自由記述文の、少なくともその単語または語句または文字列を解析する解析手段と、自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現とを登録した意図文型種別体系を記憶する記憶手段と、前記解析手段による解析結果に含まれる単語または語句または文字列のうち1種類以上および合計1個以上から成る文末表現と、前記意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現を照合して、前記自由記述文の文末表現と合致したものの意図文型種別を抽出する抽出手段と、抽出された前記意図文型種別を出力する出力手段と、を具備することを特徴としている。
【0007】
また、請求項2に記載の発明は、日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、前記自由記述文からなる文書を入力するための入力手段と、前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、前記自由記述文に含まれる単語または語句または文字列とその品詞または様相または用言の意味属性等の文法情報とを解析する解析手段と、自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を記憶する記憶手段と、前記解析手段による解析結果に含まれる品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、意図文型種別体系に登録された品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報を照合して、前記自由記述文の文末表現に関する文法情報の特徴部分と合致したものの意図文型種別を抽出する抽出手段と、抽出された前記意図文型種別を出力する出力手段と、を具備することを特徴としている。
【0008】
また、請求項3に記載の発明は、日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、前記自由記述文からなる文書を入力するための入力手段と、前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、前記自由記述文に含まれる単語または語句または文字列とその品詞または様相または用言の意味属性等の文法情報とを解析する解析手段と、自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現およびその品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を記憶する記憶手段と、前記解析手段による解析結果に含まれる単語または語句または文字列からなる文末表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報を照合して、前記自由記述文の文末表現およびその文法情報の特徴部分が合致したものの意図文型種別を抽出する抽出手段と、抽出された前記意図文型種別を出力する出力手段と、を具備することを特徴としている。
【0009】
以上のように構成し、入力された文書に含まれる自由記述文に対し、書き手の意図に対応する意図文型種別を付与することによって上記課題を解決する。
【0010】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
図1は、本発明の一実施の形態である情報処理装置の構成を示すブロック図である。
図1において、符号1は、本実施の形態の情報処理装置である。符号2は、入力部であり、処理の対象となる自由記述文からなる文書を本情報処理装置1に入力するためのインターフェースである。この入力部2は、入力された文書のデータ(入力文)を下記の文単位編集部4aに渡す。符号3は、記憶部であり後述する文末判定規則3a、文法規則3b、単語辞書3c、意図文型種別体系3dを記憶している。また、符号4は、処理部であり下記の文単位編集部4a、解析部4b、意図文型種別抽出部4c、意図文型種別出力部4dからなっている。符号5は、意図文型種別出力部4dの処理結果を出力する出力部である。
【0011】
文単位編集部4aは、入力部2から渡された入力文を、予め文末判定規則3aに記述してある文末を判定するための規則を用いて、入力文を構成する各文の文末を判断し文単位に編集した文単位編集結果を出力する。
解析部4bは、文単位編集部4aから文単位編集結果を受けると、文単位編集結果の各文に対して文法規則3bと単語辞書3cを用い、各文(特に文末部分を構成する特徴表現(文字列))に含まれる単語、語句、文字列から各単語を特定し、その単語の表記と、各単語に対して、その品詞、様相、用言の意味属性のいずれかまたはこれらの組み合わせを付与したデータである日本語単語情報列を出力する。
【0012】
意図文型種別抽出部4cは、解析部4bから日本語単語情報列を受けると、(a)この日本語単語情報列に含まれる単語または語句または文字列のうち1種類以上および合計1個以上から成る文末表現、または、(b)日本語単語情報列に含まれる品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分、または、(c)日本語単語情報列に含まれる単語または語句または文字列からなる文末表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、予め用意した意図文型種別体系3dの意図文型認定規則(後述)と比較を行い、この日本語単語情報列と意図文型認定規則に含まれる要件とが合致した場合、この意図文型認定規則に対応する、意図文型種別体系3dに定義されている意図文型種別(意図文型種別ID、意図文型種別名)を出力する。
【0013】
なお、本実施の形態では、上記(c)と、(c)に対応した意図文型認定規則を用意し、これらを比較するものとする。また、上記意図文型認定規則との比較の際は、この意図文型認定規則に規定された単語または語句または文字列からなる文末に記される特徴表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報との比較を行う。
意図文型種別出力部4dは、文単位編集部4aで文単位にされた文単位編集結果に含まれる個々の文に対して、意図文型種別抽出部4cで抽出された意図文型種別を付与した意図文型種別付き日本文テキストを出力部5に出力する。
【0014】
ここで、記憶部3に記憶される文末判定規則3a、文法規則3b、単語辞書3c、意図文型種別体系3dについて説明する。
文末判定規則3aには、文末を示す記号である句点「。」や疑問符「?」や感嘆符「!」等により文末を判定するための基準が規定されている。
文法規則3bは、単語の連接関係を規定する情報等からなっている。
単語辞書3cには、日本語の単語、語句およびその品詞等が登録されている。
【0015】
意図文型種別体系3dは、自由記述文の表現意図を示す意図文型の種別である意図文型種別毎にこの種別を判定するための規則が定義されている。図2に、その一例を示している。
横1行が、1つの規則の記述例で、1つの規則は、意図文型種別ID、意図文型種別名、文末判定規則、意図文型認定規則から構成される。意図文型種別IDは、意図文型種別の分類のため付与する番号で、個々の意図文型認定規則に個別の番号が対応づけられる。意図文型種別名は、個々の意図文型種別の名称である。文末判定規則は、個々の意図文型認定規則で使用する文末判定規則を記述する。ルールIDは、1つの意図文型種別に対して、さらに複数の規則がある場合があるため、同一の意図文型種別内の意図文型認定規則に個別の番号を付与する。意図文型認定規則は、意図文型種別毎に、文末に記される、意図を表す特徴表現を構成する単語(または語句または文字列)とその品詞または様相または用言の意味属性からなる文法情報を規定するものである。
【0016】
図3は、意図文型種別体系の概念図である。
同図に示す意図文型種別体系は、意図文型種別(第1階層は、10:要求文、20:表明文、…、第2階層は10:願望構文、20提案構文、…、第3階層では、10:疑問、20:否定疑問のように分類される)とそれに対応した意図文型(図では、その特徴表現と、対応する意図文型種別IDとルールIDの組み合わせを示している)で構成されている。意図文型種別体系(3d)は、同図に示すように階層構造になっている。したがって、使用用途に応じて、階層が深い範囲を指定すれば、狭い範囲の意図文型種別を抽出することが可能であり、階層が浅い範囲を指定すると広い範囲の意図文型種別を抽出することが可能になる。
【0017】
本実施の形態で使用する意図文型種別体系3dは、意図文型種別毎の意図文型を特徴付ける単語または語句または文字列の表記と、品詞または様相または用言の意味属性からなる文法情報をその認定規則(意図文型認定規則)として登録している。様相とは、否定・使役・試行・禁止・丁寧のように文の非本質的な要素で物事のあり方のことであり、本実施の形態では、様相と時制との組み合わせも考慮に入れた意図文型種別体系を採用する。なお、時制とは動詞が表す内容の時間的位置(過去・現在・未来など)を示す文法範疇、また、それを表す言語形式を意味する。例えば、「走る」と「走った」を区別して処理することにより、抽出精度向上が期待できる。用言とは、事物の動作・作用・存在・性質・状態について叙述する語で、それ自体独立して述語として働く語のことである。また、意味属性とは、言葉の本質的な意味を表す属性であり、1つの意図文型種別には複数の意図文型が登録される場合もある。
【0018】
意図文型種別体系3dは、前述の図3を参照して説明したように階層化されている。図4、5は、さらに階層化され詳細に定義された意図文型認定規則について、依頼型要求文(間接依頼)の場合を例として説明するものである。
同図に示すように、1つの意図文型種別には、意図文型を分類するための大項目(要求文/表明文/…)・中項目(願望構文/提案構文/依頼構文/…)・小項目(疑問/否定疑問/直接依頼/間接依頼/…)・サブ項目(確認疑問/真偽疑問/…)がわかるような階層化された番号を意図文型種別IDとして付与している。したがって、この意図文型種別IDは、意図文型種別を、意図文型種別抽出の対象となる複文の種類毎に細分類するものとなっている。
【0019】
1つの意図文型種別には、さらに複数の意図文型認定規則が存在する場合があるため、前述のように意図文型種別IDごとに個別のルールIDを付与している。意図文型種別IDとルールIDとの組み合わせにより、細かく分類される意図文型認定規則に対して個別の番号を付与する。例にあげた「依頼型要求文(間接依頼)」は、「用言」に、条件を表わす「助詞」または「助動詞」または「補助用言」が接続した複文と「メリット」を示す用言意味属性が付与されている用言が主文にあり且つ主文の様相が疑問ではない意図文型の種別を抽出するための規則を記述している。
【0020】
なお、上記入力部2は、キーボード、マウス等の入力デバイスにより構成されている。他の入力デバイスの例としては、音声を受け入れてテキストデータを出力する音声認識装置が挙げられる。また、記憶部3は、ハードディスク、光磁気ディスク等の不揮発性の記録装置により構成される。また、処理部4はメモリおよびCPU(中央処理装置)等により構成され、処理部4の各機能を実現するためのプログラム(図示せず)をメモリにロードして実行することによりその機能が実現されるものとする。また、出力部5は、表示装置や印刷装置(プリンタ)により構成されている。ここで、表示装置とはCRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
以上、情報処理装置1の構成について説明した。
【0021】
次に、このように構成された本実施形態の情報処理装置1の動作について、図6,7を参照し説明する。
情報処理装置1は、アンケートの回答文やメール文のように、書き手が読み手を想定した自由記述文から、書き手の心的態度や深層心理を表わす意図を自動的に抽出するのに有用な装置である。したがって、書き手の意図とその心的態度を把握したいと考えているユーザであれば、個人のユーザにも企業にあっても活用可能な装置である。以下では、自由記述文から回答者(書き手)の意図を抽出する一例を説明する。
【0022】
図7に示す例1の「商品の品揃えには満足してます。でも、商品の写真が充実すると嬉しい。」という自由記述文が入力部2を通して入力されると、文単位編集手段4aにこの入力文が渡さる(ステップS01)。
文単位編集部4aでは、入力部2から渡された例1の入力文に対して、文末判定規則3aのうち、『単独の句点「。」の直後を文末とする』規則を適用し、句点「。」の直後を文末と判定する。この例では、同図例2に示す「商品の品揃えには満足してます。」の直後と、「でも、商品の写真が充実すると嬉しい。」の直後を文末と判定し、文単位毎に編集した文単位編集結果を出力し解析部4bに渡す(文単位編集処理:ステップS02)。図7に示す例では、文末部分に、<bunmatu>という、文を区切るための識別子を挿入している。
解析部4bでは、文単位編集結果を受け取り、単語の連接関係を規定した文法規則3bと、単語辞書3cを用いて、図7:例2に示す文単位編集結果を解析し、その結果である日本語単語情報列(図7:例3)を生成し、意図文型種別抽出部4cに渡す(解析処理:ステップS03)。
【0023】
ここで、図7:例2に示す最初の文を例にあげて、上記解析処理の詳細を説明する。
「商品の品揃えには満足してます。」とういう文が解析部4bに渡されると、まず、この文の最初の1文字「商」が、単語辞書3cにあるかどうかを検索し調べる。ここで、表記が「商」で品詞が「名詞」の単語が単語辞書3cにあると、これを仮採用する。次に「商」を含めて次の単語との組み合わせからなる「商品」を検索し、品詞が名詞で単語辞書3cに登録されていると、これを仮採用し(この時点で、採用していた「商」は仮採用を取り消す)、次に「商品の」を単語辞書3cで検索する。このときこの「商品の」は単語辞書3cに登録されていないので、「商品」の単位で採用する。次に「の品揃え〜」の中で、「商品」という名詞に接続可能な品詞情報について文法規則3bを参照し、「商品」の次の単語「の」を確定する。同様の処理を繰り返し、最終的に「{表記:商品;品詞:名詞}{表記:の;品詞:格助詞}{表記:品揃え;品詞:名詞}{表記:には;品詞:格助詞}{表記:満足;品詞:サ変名詞;用言意味属性:喜}{表記:してます;品詞:補助用言;様相:丁寧}{表記;。;品詞:句点}」という日本語単語情報列が生成される。
【0024】
意図文型種別抽出部4cでは、図7:例3の日本語単語情報列が渡されると、この日本語単語情報列に含まれる単語または語句または文字列または品詞または様相または用言の意味属性の何れかの情報(文末に記された特徴表現や特徴的な文法情報)を、予め用意されている意図文型種別体系3dの意図文型認定規則と照合する。そして、この日本語単語情報列に含まれる特徴表現や特徴的な文法情報と合致する意図文型認定規則を採用する。
【0025】
図7:例3の日本語単語情報列に含まれる「でも、商品の写真が充実すると嬉しい。」という文の場合、これに対応する日本語単語情報列に含まれる情報は、「{表記:でも;品詞:接続詞}{表記:、;品詞:読点}{表記:商品;品詞:名詞}{表記:の;品詞:格助詞}{表記:写真;品詞:名詞}{表記:が;品詞:格助詞}{表記:充実;品詞:サ変型名詞}{表記:する;品詞:動詞}{表記:と;品詞:接続助詞}{表記:嬉し;品詞:形容詞;用言意味属性:メリット}{表記:い;品詞:形容詞接尾辞}{表記:。;品詞:句点}」である。
【0026】
この情報に含まれる特徴表現や特徴的な文法情報と合致するものとして、「{品詞:サ変型名詞}{表記:する}{表記:と}{品詞:形容詞&用言意味属性:メリット用言}{表記:い&品詞:形容詞接尾辞}」という意図文型認定規則(図2参照)を採用する。そして、意図文型種別出力部4dでは、「でも、商品の写真が充実すると嬉しい。」という文に対し、上記意図文型認定規則に対応する「10304000−1 依頼型要求文(間接依頼)」という意図文型種別ID(およびルールID)と意図文型種別名を各々抽出する。同様にして、上記日本語単語情報列に含まれる「商品の品揃えには満足している。」という文には、「20304000−1:表明文(感情・喜)」(なお、これに対応する意図文型認定規則は、意図文型種別体系を示す図面にて例示を省略)という意図文型種別ID(およびルールID)と意図文型種別名を抽出する(意図文型種別抽出処理:ステップS04)。
そして、入力文に意図文型種別IDと意図文型種別名を付与した結果(図7:例4)を出力する(ステップS05)。
本実施の形態の情報処理装置1は、以上のように動作する。
【0027】
本実施の形態の情報処理装置1では、意図文型種別体系3dが階層化されているため、書き手の意図を抽出する際には、読み手が知りたい内容に応じて、まとめたり、紬かく分けるなど任意の階層レベルの意図文型種別を抽出することが可能となっている。
また、インターネットの利用が普及し、大量の電子データから必要な情報を抽出したり、こうした電子データをもとに何らかの対応をとる際の優先度を決める必要性が高まっている。情報処理装置1では、書き手の心的態度を含む意図によって分類する必要があるサービスを提供する事業を行う場合有用である。
【0028】
また、アンケートの自由回答文では、その重要性に関わらず、その内容を適切に把握するには、人間が回答の内容を読む必要があったため、コストがかかるという面から、分析対象とはされていなかった。情報処理装置1を利用することによって、人間が内容を読まなくても、意図別に自由回答文を抽出することが可能になり、さらに、表明された意図の種別に従って重みづけを行うことも可能になる。
また、情報処理装置1が出力する意図文型種別は、自由記述文というテキストデータから、意図をその種別ごとに数値化して抽出することも目的としており、これによって、選択方式の数値データとリンクさせた分析が可能になる。
【0029】
なお、図1における処理部4の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより前述の自然言語処理を行ってもよい。ここで「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0030】
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0031】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0032】
以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含まれる。
【0033】
【発明の効果】
以上、詳細に説明したように、本発明によれば、請求項1に記載の発明では自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現とを登録した意図文型種別体系を、また、請求項2に記載の発明では意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を、また、請求項3に記載の発明では意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現およびその品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を、予めもち、これと、入力された文書に記述された自由記述文がその文末にもつ特徴表現や特徴的な文法情報とを照合して、この自由記述文の意図文型種別を出力している。
このように、本発明では、入力された文書に含まれる自由記述文から、その文末の特徴的な表現やその文法情報に着目して、上記意図文型種別を自動的に抽出するので、書き手が特定の読み手を意識して記述した自由記述文に対して、読み手はその文章を実際に読まなくても、書き手の読み手に対する心的態度、あるいは価値づけをする心的過程を含めた意図を把握することが可能になる。
【0034】
また、自由記述文には、それに用いられる単語または語句または文字列により表現意図を把握できる場合がある。請求項1に記載の発明では、具体的に表される単語または語句または文字列をもとに意図文型種別体系を構成するので、簡略な構成で、上記のような自由記述文の表現意図を把握することができる。
また、請求項2に記載の発明では、文法的な構造をもとに意図文型種別の判定を行うので、具体的に表される単語または語句または文字列を条件とするのではなく、抽象的である文法情報を条件とする方が、文が表す表現意図を把握できる場合に有効である。
また、請求項3に記載の発明は、上記請求項1及び請求項2に記載の発明の構成を合わせ持ち、単語または語句または文字列を用いて具体的な条件(意図文型認定規則)を指定したり、文法情報を用いて抽象的な条件を指定したりできるので、様々な自由記述文に対し文の本質を捉えた、意図文型種別を抽出するための条件を記述することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である情報処理装置の構成を示すブロック図である。
【図2】意図文型種別体系の一例である。
【図3】意図文型種別体系の概念図である。
【図4】依頼型要求文(間接依頼)を例に意図文型認定規則の詳細について説明する図である。
【図5】図4の続きの図である。
【図6】同実施の形態の情報処理装置の動作フローチャートである。
【図7】同実施の形態の入出力例である。
【符号の説明】
1…情報処理装置
2…入力部(入力手段)
3…記憶部(記憶手段)
3a…文末判定規則
3b…文法規則
3c…単語辞書
3d…意図文型種別体系
4…処理部
4a…文単位編集部(文単位編集手段)
4b…解析部(解析手段)
4c…意図文型種別抽出部(抽出手段)
4d…意図文型種別出力部(出力手段)
5…出力部
Claims (3)
- 日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、
前記自由記述文からなる文書を入力するための入力手段と、
前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、
前記自由記述文の、少なくともその単語または語句または文字列を解析する解析手段と、
自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現とを登録した意図文型種別体系を記憶する記憶手段と、
前記解析手段による解析結果に含まれる単語または語句または文字列のうち1種類以上および合計1個以上から成る文末表現と、前記意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現を照合して、前記自由記述文の文末表現と合致したものの意図文型種別を抽出する抽出手段と、
抽出された前記意図文型種別を出力する出力手段と、を具備する
ことを特徴とする意図文型種別抽出方式。 - 日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、
前記自由記述文からなる文書を入力するための入力手段と、
前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、
前記自由記述文に含まれる単語または語句または文字列とその品詞または様相または用言の意味属性等の文法情報とを解析する解析手段と、
自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を記憶する記憶手段と、
前記解析手段による解析結果に含まれる品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、意図文型種別体系に登録された品詞または様相または用言の意味属性の何れかまたは複数の組み合わせの文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報を照合して、前記自由記述文の文末表現に関する文法情報の特徴部分と合致したものの意図文型種別を抽出する抽出手段と、
抽出された前記意図文型種別を出力する出力手段と、を具備する
ことを特徴とする意図文型種別抽出方式。 - 日本語のように述語が文末にある言語の自由記述文からなる文書を解析し、所定の情報を抽出・出力する情報処理装置において、
前記自由記述文からなる文書を入力するための入力手段と、
前記自由記述文の文末を判断し文単位に編集する文単位編集手段と、
前記自由記述文に含まれる単語または語句または文字列とその品詞または様相または用言の意味属性等の文法情報とを解析する解析手段と、
自由記述文の表現意図を示す意図文型の種別である意図文型種別と該意図文型種別に対応づけられる意図文型を特徴付ける単語または語句または文字列からなる文末に記される特徴表現およびその品詞または様相または用言の意味属性からなる文末表現に関する特徴的な文法情報とを登録した意図文型種別体系を記憶する記憶手段と、
前記解析手段による解析結果に含まれる単語または語句または文字列からなる文末表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する文法情報の特徴部分と、意図文型種別体系に登録された単語または語句または文字列からなる文末に記される特徴表現に加えその品詞または様相または用言の意味属性の情報の何れかを組み合わせた文法情報の必要個数を任意に併用した文末表現に関する特徴的な文法情報を照合して、前記自由記述文の文末表現およびその文法情報の特徴部分が合致したものの意図文型種別を抽出する抽出手段と、
抽出された前記意図文型種別を出力する出力手段と、を具備する
ことを特徴とする意図文型種別抽出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002325341A JP2004157931A (ja) | 2002-11-08 | 2002-11-08 | 意図文型種別抽出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002325341A JP2004157931A (ja) | 2002-11-08 | 2002-11-08 | 意図文型種別抽出方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004157931A true JP2004157931A (ja) | 2004-06-03 |
Family
ID=32804600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002325341A Pending JP2004157931A (ja) | 2002-11-08 | 2002-11-08 | 意図文型種別抽出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004157931A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006107464A (ja) * | 2004-08-31 | 2006-04-20 | Microsoft Corp | 文の分類に基づいて通信の優先順位を決定するための方法およびシステム |
JP4796664B1 (ja) * | 2011-06-10 | 2011-10-19 | 株式会社野村総合研究所 | 感性分析システム及びプログラム |
JP2012003572A (ja) * | 2010-06-18 | 2012-01-05 | Nomura Research Institute Ltd | 感性分析システム及びプログラム |
JP2012003573A (ja) * | 2010-06-18 | 2012-01-05 | Nomura Research Institute Ltd | 感性分析システム及びプログラム |
US8577718B2 (en) | 2010-11-04 | 2013-11-05 | Dw Associates, Llc | Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context |
US8952796B1 (en) | 2011-06-28 | 2015-02-10 | Dw Associates, Llc | Enactive perception device |
US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
US9020807B2 (en) | 2012-01-18 | 2015-04-28 | Dw Associates, Llc | Format for displaying text analytics results |
US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
US9667513B1 (en) | 2012-01-24 | 2017-05-30 | Dw Associates, Llc | Real-time autonomous organization |
CN110414763A (zh) * | 2018-04-26 | 2019-11-05 | 松下电器(美国)知识产权公司 | 人才选择装置、人才选择系统、人才选择方法及程序 |
CN111625634A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 词槽识别方法及装置、计算机可读存储介质、电子设备 |
JP2023007228A (ja) * | 2021-07-01 | 2023-01-18 | 株式会社Pkutech | 情報処理装置、プログラム及び情報処理方法 |
-
2002
- 2002-11-08 JP JP2002325341A patent/JP2004157931A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006107464A (ja) * | 2004-08-31 | 2006-04-20 | Microsoft Corp | 文の分類に基づいて通信の優先順位を決定するための方法およびシステム |
JP2012003572A (ja) * | 2010-06-18 | 2012-01-05 | Nomura Research Institute Ltd | 感性分析システム及びプログラム |
JP2012003573A (ja) * | 2010-06-18 | 2012-01-05 | Nomura Research Institute Ltd | 感性分析システム及びプログラム |
US8577718B2 (en) | 2010-11-04 | 2013-11-05 | Dw Associates, Llc | Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context |
US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
JP4796664B1 (ja) * | 2011-06-10 | 2011-10-19 | 株式会社野村総合研究所 | 感性分析システム及びプログラム |
US8952796B1 (en) | 2011-06-28 | 2015-02-10 | Dw Associates, Llc | Enactive perception device |
US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
US9020807B2 (en) | 2012-01-18 | 2015-04-28 | Dw Associates, Llc | Format for displaying text analytics results |
US9667513B1 (en) | 2012-01-24 | 2017-05-30 | Dw Associates, Llc | Real-time autonomous organization |
CN110414763A (zh) * | 2018-04-26 | 2019-11-05 | 松下电器(美国)知识产权公司 | 人才选择装置、人才选择系统、人才选择方法及程序 |
CN111625634A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 词槽识别方法及装置、计算机可读存储介质、电子设备 |
CN111625634B (zh) * | 2020-05-25 | 2023-08-22 | 泰康保险集团股份有限公司 | 词槽识别方法及装置、计算机可读存储介质、电子设备 |
JP2023007228A (ja) * | 2021-07-01 | 2023-01-18 | 株式会社Pkutech | 情報処理装置、プログラム及び情報処理方法 |
JP7278560B2 (ja) | 2021-07-01 | 2023-05-22 | 株式会社Pkutech | 情報処理装置、プログラム及び情報処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Feng et al. | How many words is a picture worth? automatic caption generation for news images | |
US20040148170A1 (en) | Statistical classifiers for spoken language understanding and command/control scenarios | |
US20070094183A1 (en) | Jargon-based modeling | |
JP2005165958A (ja) | 情報検索システム、情報検索支援システム及びその方法並びにプログラム | |
JP2007141090A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP2001075966A (ja) | データ分析システム | |
JP2003223456A (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
JP2004157931A (ja) | 意図文型種別抽出方式 | |
Zad et al. | Hell hath no fury? correcting bias in the nrc emotion lexicon | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
Li et al. | Multimodal question answering over structured data with ambiguous entities | |
JP3855058B2 (ja) | 言い換えを利用した文章作成支援処理装置および方法 | |
US7849097B2 (en) | Mining latent associations of objects using a typed mixture model | |
JP2008134889A (ja) | 意見収集システム、意見収集方法および意見収集プログラム | |
JP2007164635A (ja) | 同義語彙獲得方法及び装置及びプログラム | |
Hoek et al. | Automatic coherence analysis of Dutch: Testing the subjectivity hypothesis on a larger scale | |
JP2009110081A (ja) | 文書関連性分析装置、方法及びプログラム | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
Adkins et al. | Advances in automated deception detection in text-based computer-mediated communication | |
Golande et al. | An overview of feature based opinion mining | |
Tanaka et al. | Acquiring and generalizing causal inference rules from deverbal noun constructions | |
Ojokoh et al. | Online question answering system | |
Orizu et al. | Content-Based Conflict-of-Interest Detection on Wikipedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070227 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070522 |