JP3910823B2 - アンケート分析装置、アンケート分析方法及びプログラム - Google Patents

アンケート分析装置、アンケート分析方法及びプログラム Download PDF

Info

Publication number
JP3910823B2
JP3910823B2 JP2001333190A JP2001333190A JP3910823B2 JP 3910823 B2 JP3910823 B2 JP 3910823B2 JP 2001333190 A JP2001333190 A JP 2001333190A JP 2001333190 A JP2001333190 A JP 2001333190A JP 3910823 B2 JP3910823 B2 JP 3910823B2
Authority
JP
Japan
Prior art keywords
questionnaire
keyword
analysis
unexpected
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001333190A
Other languages
English (en)
Other versions
JP2003141303A (ja
Inventor
明弘 酢山
茂明 櫻井
良平 折原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001333190A priority Critical patent/JP3910823B2/ja
Publication of JP2003141303A publication Critical patent/JP2003141303A/ja
Application granted granted Critical
Publication of JP3910823B2 publication Critical patent/JP3910823B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、アンケートを分析するためのアンケート分析装置及びアンケート分析方法に関する。
【0002】
【従来の技術】
従来のアンケート分析装置は、アンケート作成者の想定した回答に近い表現がアンケート回答にどのくらい出現しているのか、その傾向を自然言語処理技術により自動的に分析している。すなわち、アンケート作成者の想定した回答を基準として、アンケート回答者の傾向を一目で理解できるようにして、アンケートの分析を効率的しようとしている。
【0003】
【発明が解決しようとする課題】
しかしながら、従来のアンケート分析装置では、アンケート作成者が想定しなかった意外な回答(例えば、アンケート作成者が予め想定して登録しておいたキーワードから外れた表現を含む回答)についての分析をすることはできず、必ずしも効果的なアンケート分析を行うことはできなかった。一方、類似アンケート作成等のために、意外な回答を扱おうとすると、意外な回答についての分析を人手で行ない、その結果得られたキーワードを新に知識としてキーワード登録するなどの作業が必要になるため、非常に煩雑であった。
【0004】
本発明は、上記事情を考慮してなされたもので、アンケート作成者が想定しなかった意外な回答を考慮した効果的な分析を可能とするアンケート分析装置及びアンケート分析を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は、複数のアンケート回答者によりそれぞれ記述されたアンケート回答文書を、キーワードに基づいて分析するアンケート分析装置において、前記アンケート回答文書に記述されることが想定されるものとしてアンケート作成者によって予め定められた想定キーワードに関する情報を記憶する記憶手段と、分析対象とする複数の前記アンケート回答文書を入力するための入力手段と、入力された複数の前記アンケート回答文書から、予め定められた基準を満たす語句を、抽出キーワードとして抽出する第1抽出手段と、前記第1抽出手段により抽出された抽出キーワードを、前記記憶手段に記憶された想定キーワードに該当するものと、該当しないものに分類し、該当しない方に分類された抽出キーワードを、前記アンケート作成者にとっての意外性キーワードとする処理手段と、分析対象とした前記アンケート回答文書と、前記処理手段により求められた前記意外性キーワードとに基づいて、分析対象とした前記アンケート回答文書に対する前記意外性キーワードに係る分析処理を行う分析手段と、前記分析手段による分析処理の結果を出力するための出力手段とを備えたことを特徴とする。
また、本発明は、複数のアンケート回答者によりそれぞれ記述されたアンケート回答文書を、キーワードに基づいて分析するために、前記アンケート回答文書に記述されることが想定されるものとしてアンケート作成者によって予め定められた想定キーワードに関する情報を記憶する記憶手段と、入力手段と、抽出手段と、処理手段と、分析手段と、出力手段とを備えたアンケート分析装置におけるアンケート分析方法であって、前記入力手段が、分析対象とする複数の前記アンケート回答文書を入力するステップと、前記抽出手段が、入力された複数の前記アンケート回答文書から、予め定められた基準を満たす語句を、抽出キーワードとして抽出するステップと、前記処理手段が、抽出された前記抽出キーワードを、前記記憶手段に記憶された想定キーワードに該当するものと、該当しないものに分類し、該当しない方に分類された抽出キーワードを、前記アンケート作成者にとっての意外性キーワードとするステップと、前記分析手段が、分析対象とした前記アンケート回答文書と、求められた前記意外性キーワードとに基づいて、分析対象とした前記アンケート回答文書に対する前記意外性キーワードに係る分析処理を行うステップと、前記出力手段が、前記分析処理の結果を出力するステップとを有することを特徴とする。
【0009】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0010】
本発明によれば、アンケート作成者が想定していなかった意外なキーワードを抽出し、明示的に示すことができる。また、本発明によれば、アンケート作成者が想定していなかった意外なキーワードを多く含む回答を抽出し、明示的に示すことができる。また、本発明によれば、アンケート作成者が想定していなかった意外なキーワードを多く含む回答を作成した回答者を抽出し、明示的に示すことができる。また、本発明によれば、アンケート作成者が想定していなかった意外なキーワードを多く含む回答を作成する回答者の個人情報に関する情報を抽出し、明示的に示すことができる。
【0011】
また、本発明によれば、意外回答を再利用しやすく加工して類似アンケートの作成の効率化を促すことや、新たな商品企画、製品開発などアンケート対象となるものの洗練を行うための意思決定手段を提供することなど、種々の効果が期待できる。
【0012】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0013】
図1に、本発明の一実施形態に係るアンケート分析装置の構成例を示す。図1に示されるように、本アンケート分析装置は、キーワード抽出部21、アンケート相関関係抽出部22、回答規則生成部23を備えている。また、質問作成インタフェース30、回答インタフェース31、分析インタフェース32の各種インタフェースを備えている。また、質問文章データベース(DB)10、想定回答キーワード表11、個人情報DB12、回答文章DB13、(意外性キーワードを含む)抽出キーワード表14、意外性アンケートDB15、意外性キーワード対DB16、意外性回答者集団DB17、意外回答頻出規則DB18、同義語・類義語辞書19の各種データを格納するための記憶部を備えている(それら情報は必ずしも同一の記憶装置あるいは記憶領域に記憶されている必要はない)。
【0014】
(質問作成インタフェース30)
質問作成インタフェース30は、アンケート作成者100による当該アンケート分析装置への所定の入力事項の入力・編集操作を支援するためのインタフェースである。
【0015】
入力事項は、例えば、調査を行いたいアンケートのデータ(質問文章DB10参照)、アンケート作成者100が当該アンケートについて回答者によりアンケート回答(回答文章DB13参照)に記述されるとものとして想定するキーワードのデータ(想定回答キーワード表11参照)などである。
【0016】
入力事項は、質問文章DB10および想定回答キーワード表11として、格納される。
【0017】
図2に、アンケートの構成要素となる質問文章を記録した質問文章DB10のフォーマット例を示す。
【0018】
図2においては、各レコードは、それぞれ、1つの質問文章に対応するものであり、「文書ID」、「文書」、「カテゴリ」、「質問番号」の各フィールドから構成される。
【0019】
文書IDは、文書(質問文章)に固有なIDが割り当てられる。
【0020】
文書は、質問文章の内容である。
【0021】
カテゴリは、質問文章を再利用する上で利用されるフィールドであり、アンケート作成者が自由に指定できる。複数のカテゴリも制御可能とする。記号“−”が使用された場合、カテゴリの階層を表すものとする。
【0022】
質問番号は、今回行なうアンケートに用いる質問の番号である。“0”と指定されている質問文章は、今回のアンケートで利用しないものであると定義する。
【0023】
想定回答キーワード表11は、1行あたり、1キーワードおよび同義語・類義語辞書19へのポインタ列の形式で記憶される。キーワードの同義語・類義語関係は、質問作成インタフェース30を通じて制御できるものとする。
【0024】
ここに、質問作成インタフェース30は、単なるテキストエディタであってもよいし、アンケート作成支援として、カテゴリ入力による過去の類似質問検索や、類似質問に関しては登録されている想定回答キーワードを提示してくれる知的なインタフェースであってもよいものとする。
【0025】
図3に、想定回答キーワード表11のフォーマット例を示す。
【0026】
図3においては、各レコードは、それぞれ、アンケート作成者100が意図する1つのキーワードに関する情報を格納しており、「キーワードID」、「キーワード」、「形態素つきキーワード」、「類語範囲」の各フィールドから構成される。
【0027】
キーワードIDは、アンケート作成者100が入力した各キーワードに固有なIDが割り当てられる。キーワード入力時には、2重登録チェックが行なわれ同じ表層表現のキーワードは2重登録されないものとする。ただし、同義語・類義語のチェックは行わず、独立して入力できるものとする。
【0028】
形態素つきキーワードフィールドは、後で説明するキーワード抽出部21の処理過程にて記憶されるフィールドである(図3では記憶された後の状態で示している)。
【0029】
類語範囲は、同義語・類義語辞書19の参照範囲である。類語範囲に記述される値“−1”は、「当該キーワードを想定キーワードとして利用しない」ことを示す。“0”は、「同義語・類義語辞書19を使用しない」ことを示す。“1”は、「同義語・類義語辞書19を検索し、当該キーワードに照合するレコードを同義語・類義語とみなす」ことを示す。類語範囲に“2”以上の値が記述される場合は、“2”については、「当該キーワードの同義語・類義語をキーとして、さらに同義語・類義語辞書19を2次検索し、そのすべてに該当するものを同義語・類義語とみなす」ことを示し、“2”以上の値nについても同様に、「当該キーワードの同義語・類義語をキーとして、さらに同義語・類義語辞書19のn次検索まで行ない、それらのすべてに該当するものを同義語・類義語とみなす」ことを示す。
【0030】
図4に、同義語・類義語辞書19のフォーマット例を示す。
【0031】
図4においては、各レコードは、「類語キーID」、「特定語の直接的な同義語・類義語の列」の各フィールドから構成される。
【0032】
(回答インタフェース31)
回答インタフェース31は、アンケート回答者101が前記のアンケートに回答することを可能とする(アンケート回答の取得・回収を可能とする)ためのインタフェースである。ここでは、回答インタフェース31としては、例えば、セキュリティにより保護されたWebまたはEmailを想定するが、ネットワークではなく記録媒体を媒介にする方法や、書面に記述された回答を回収して光学読み取り入力あるいは手入力する方法など、その他の方法を採用することも可能である。
【0033】
ネットワークを利用する場合、サーバ(アンケート分析装置)からアンケート回答者101側端末へ配布されたアンケートに対して作成された回答(個人情報を含むものとする)は、アンケート回答者101側端末からサーバ(アンケート分析装置)に転送され、当該アンケート回答者に関する個人情報および1行1回答者とし質問の回答毎にカンマで区切られたCSV形式などの定型的な形式に変換された回答文章に分割され、個人情報DB12および回答文章DB13として格納される。
【0034】
図5に、個人情報DB12のフォーマット例を示す。なお、本実施形態では、個人情報DB12と後で説明する意外性回答者集団DB17とを同一記憶領域で(一体化したフォーマットで)管理する場合を例にとっているので、図5のフォーマット例は意外性回答者集団DB17も含んでいることになる。
【0035】
図5において、各レコードは、それぞれ、一人のアンケート回答者101に関する情報を格納しており、「回答者ID」、例えば氏名、年齢、性別等の各種の「属性」、「意外性」、「ルール」の各フィールドから構成される。
【0036】
個人情報の各属性のフィールドには、それぞれ、属性番号が与えられ、図5の例では、左から順に1、2、3…となっている。
【0037】
また、図5において、ハッチングで示した意外性フィールドとルールフィールドは、後に説明する回答規則生成部23により追加される(図5では追加された後の状態で示している)。なお、意外性フィールドとルールフィールドについては、後述する。
【0038】
なお、図5において、当該データベースへアクセスする際に、例えば回答者ID=2で属性番号=3の属性を参照したい場合には、(2,3)を指定することによって参照可能である。
【0039】
図6に、回答文章DB13のフォーマット例を示す。
【0040】
図6において、各レコードは、それぞれ、ある一人のアンケート回答者が質問文章DB10(図2参照)の個々の質問に対してそれぞれ回答した回答文を列挙したものであり、「回答者ID」、図2の質問番号の質問に対する回答の順に配置された「回答」の各フィールドから構成される(なお、図2の質問番号との対応が分かれば、回答フィールドが必ずしも質問番号順に配置されていなくても構わない)。
【0041】
なお、回答フィールドを質問番号順に配置する構成の場合には、当該データベースへアクセスする際に、例えば回答者ID=3で回答番号(=質問番号)=5の回答にアクセスしたいならば、(3,5)を指定することによって参照可能である。
【0042】
(キーワード抽出部21)
キーワード抽出部21は、回答文章DB13(図6参照)および想定回答キーワード表11(図3参照)から、アンケート作成者の意図した回答とは異なる意外性キーワードを抽出し、格納するためのものである。なお、本実施形態では、回答文章からキーワードを抽出した後に、抽出したキーワードを、想定したキーワードと意外性キーワードとに分類するようにしている。
【0043】
図7に、その処理手順の一例を示す。
【0044】
キーワード抽出部21は、回答文章DB13の各回答文章を形態素解析し(ステップS11)、キーワードを抽出する。例えば、予め定められた名詞、形容詞、形容動詞、動詞などの品詞のいずれかに該当するものを、キーワードとして抽出する。
【0045】
当該キーワードには、「表層表現」「形態素つき表現」「品詞」情報の他に、回答文章DB13で出現した箇所を示す「インデックス」「頻度」を付与し、抽出キーワード表14として記憶する(ステップS12)。
【0046】
図8に、抽出キーワード表14のフォーマット例を示す。
【0047】
図8においては、各レコードは、それぞれ、キーワード抽出部21により抽出された各キーワード(名詞、動詞、形容詞、形容動詞等)に関する情報を表すものであり、「キーワードID」、「キーワード」、「形態素つきキーワード」、「文書インデックス」、「文書頻度」、「総頻度」、「意外性」の各フィールドから構成される。
【0048】
キーワードIDは、抽出されたキーワードに割り当てられた固有の値である。
【0049】
キーワードは、当該キーワードの内容である。
【0050】
形態素つきキーワードは、キーワード抽出部21の処理過程で実行される形態素解析タグを付与したキーワードの表層表現である。
【0051】
文書インデックスフィールドは、当該キーワードが出現する回答文章(ある質問に対する1回答者の1回答)へのポインタでもあり、回答文章DB13でのフィールド情報と頻度の列挙、すなわち、(回答者ID,回答番号,頻度),…,(回答者ID,回答番号,頻度)、で表される。ここで、頻度は、当該回答者の当該回答番号(=質問番号)の回答文章中にキーワードが何回出現したかを示す。例えば、図8の例において、キーワードID=1のキーワード(“良い”)は、回答者ID=1の回答番号=3の回答文書に1回出現し、回答者ID=3の回答番号=5の回答文書に2回出現していることが示されている。
【0052】
文書頻度フィールドは、当該キーワードが出現する回答の数(すなわち、文書インデックスの数)が記憶される。例えば、図8の例において、キーワードID=1のキーワード(“良い”)は、2つの回答文書に出現しているので、文書頻度は、“2”となる。
【0053】
総頻度フィールドは、すべての回答を通して当該キーワードが実際に出現した回数(すなわち、各文書インデックスの3番目の値の総和)が記憶される。例えば、図8の例において、キーワードID=1のキーワード(“良い”)は、2つの回答文書に総計で3回出現しているので、総頻度は、“3”となる。
【0054】
意外性フィールドは、以下説明する処理によって、想定キーワードとは異なる意外性キーワードであると判定されれば“1”が、そうでなければ“0”が記憶される(図8では記憶された後の状態で示している)。
【0055】
他方、キーワード抽出部21は、想定回答キーワード表11の各キーワードも同様に形態素解析する(ステップS13)。なお、前述のように、その解析結果が、想定回答キーワード表11の形態素つきキーワードフィールドに記憶される。また、類語範囲のフィールドの値が1以上のものについては、同義語・類義語辞書19から同義語・類義語を検索し、得られた同義語・類義語についてもそれぞれ形態素解析して、形態素つきキーワードフィールドに列挙しておく。
【0056】
なお、ステップS11及びS12と、ステップS13とは、いずれを先に行ってもよいし、並列的に行ってもよい。
【0057】
さて、キーワード抽出部21は、抽出キーワード表14と想定回答キーワード表11とを、形態素つき表現で照合する(ステップS14〜S18)。なお、想定回答キーワード表11において、同義語・類義語が求められたキーワードについては、形態素つきキーワードフィールドに、当該キーワードに対する形態素つき表現の他に、1又は複数の同義語・類義語に対する形態素つき表現が格納されているので、抽出キーワード表14のあるキーワードが、それらのうちのいずれか1つでも一致した場合には、当該想定キーワードと一致したものとみなす。
【0058】
一致したキーワードに関しては、抽出キーワード表14の該当キーワードに照合マークを付ける(ステップS17)。すなわち、一致したキーワードに関しては、抽出キーワード表14の該当キーワードの意外性フィールドに“0”が記憶され、それ以外のキーワードに関しては、抽出キーワード表14の該当キーワードの意外性フィールドに“1”が記憶される。
【0059】
この結果、抽出キーワード表14のうち照合マークが付与されていなキーワード(意外性フィールドが“1”のキーワード)が、意外性キーワードを与えることになる。
【0060】
なお、以降は、抽出キーワード表14を、意外性フィールドの値が“1”になるか“0”になるかの区別によって、2つの表、すなわち意外性キーワードの表と、想定キーワードの表とに分離して保持するようにしてもよい。
【0061】
(アンケート相関関係抽出部22)
アンケート相関関係抽出部22は、抽出キーワード表14の意外性キーワード(意外性フィールドが“1”のキーワード)に基づいて、意外性キーワード対および意外性アンケートを抽出し、意外性キーワード対DB16および意外性アンケートDB15として格納する。
【0062】
図9に、その処理手順の一例を示す。
【0063】
なお、ステップS20と、ステップS21〜S25とは、いずれを先に行ってもよいし、並列的に行ってもよい。
【0064】
まず、抽出キーワード表14から意外性キーワードのレコードのみを抜き出したもの(以下、これを意外性キーワード表と呼ぶ)を記憶する(ステップS19)。ただし、意外性フィールドは省いても構わない。なお、上記のように、抽出キーワード表14ではなく、意外性キーワードの表と想定キーワードの表とに分離して保持している場合には、このステップは不要になる。
【0065】
さて、意外性キーワード対の獲得に関しては、意外性キーワード表の意外性キーワードに付与されている文書インデックス情報に基づき、1つの回答文章内(ある質問に対する1回答者の1回答内)において同時に出現しやすいキーワードの対に関する知識の獲得を、例えば相関ルール抽出法などを用いることにより、実行する(ステップS20)。
【0066】
例えば、図6の回答者ID=2で質問番号=2の回答文章では、「文字」と「小さい」が同時に出現しているが、「文字」と「小さい」の対が、出現しやすいか否かの判断基準を満たしていれば(例えば、予め定められた個数以上の回答文章において「文字」と「小さい」が同時に出現していれば、あるいは後述する前件かつ後件出現率が基準値以上であれば、あるいは後述する前件かつ後件出現率が基準値以上でしかも後述する信頼性が基準値以上であれば、など)、「文字」と「小さい」の対が、意外性キーワード対として抽出され、前件部「文字」で後件部「小さい」の相関ルールが得られる。
【0067】
なお、アンケート相関関係抽出部22は、意外性キーワード対のデータに加え、当該意外性キーワード対の出現頻度や精度などの情報をも求めるようにしてもよい。
【0068】
図10に、意外性キーワード対DB16のフォーマット例を示す。
【0069】
図10においては、各レコードは、アンケート相関関係抽出部22により獲得された各相関ルールに対応するもので、「キーワード対ID」、「前件部キーワード」、「後件部キーワード」、「前件出現率」、「前件かつ後件出現率」、「信頼性」の各フィールドから構成される。各相関ルールからは、「もしある回答文章に、前件部キーワードが含まれるならば、同一回答文章に後件キーワードが含まれる。このルールの信頼性は、○○である。」などというような情報を得ることができる。
【0070】
キーワード対IDフィールドは、各ルール固有の値を示す。
【0071】
前件部キーワードおよび後件部キーワードフィールドは、キーワード表のキーワードIDの列挙として表現される。列挙されたキーワードIDは、「AND」で結合される。
【0072】
前件出現確率フィールドは、すべての回答文章に対する前件部の成立する割合を示す。
【0073】
前件かつ後件出現確率フィールドは、すべての回答文章に対する前件部かつ後件部の成立する割合を示す。
【0074】
信頼性は、当該ルールの前件部が成立した場合に後件が成立する場合の確からしさを表す尺度であり、(前件かつ後件出現確率)/(前件出現確率)により計算される。
【0075】
例えば、1000の回答文章のうち100の回答文章に“2”という前件キーワードが確認され、そのうち80の回答文章で“3”というキーワードも同時出現するならば、前件出現率は0.1、前件かつ後件出現率は0.08、信頼性は0.8(=0.08/0.1)と与えられる。
【0076】
他方、アンケート相関関係抽出部22は、意外性キーワード表(図8の意外性フィールドが“1”の部分参照)に基づいて、回答文章DB13(図6参照)のうちから、意外性キーワードを多く含むアンケート回答(意外性アンケート)を求める(ステップS21,S22,S23,S25)。処理結果は、回答文章DB13の回答者IDを主軸にして、各回答文章が含む意外性キーワード情報を記述した意外性アンケートDB15として格納される(ステップS24)。
【0077】
図11に、意外性アンケートDB15のフォーマット例を示す。
【0078】
図11においては、各レコードは、それぞれ、回答文章DB13(図6参照)の各回答者に対応するものであり、「回答者ID」、図2の質問番号の質問に対する回答の順に配置された当該回答についての意外性キーワード情報を記述する「回答」、「意外性」の各フィールドから構成される(なお、図2の質問番号との対応が分かれば、回答フィールドが必ずしも質問番号順に配置されていなくても構わない)。
【0079】
回答者IDは、図6の回答者IDに対応するものである。
【0080】
回答の番号は、図6の回答の回答番号(=質問番号)に対応するものである。
【0081】
各回答フィールドは、当該回答文章における意外性キーワードについての(キーワードID,頻度)の列挙である。なお、このキーワードIDは、図8の抽出キーワードのキーワードIDに対応するものである。
【0082】
意外性フィールドは、当該回答者IDのアンケート回答が、意外性アンケートと判断されたか否かを示すものである。この例では、“1”が意外であることを示し、“0”がそうでないことを示す。
【0083】
意外性アンケートであるか否かの判断基準については、例えば、当該回答者IDの全回答文章に含まれる意外性キーワードの総計が基準値以上である場合に、意外性アンケートと判断する、あるいは当該回答者IDの全回答文章に含まれる意外性キーワードの種類の総計が基準値以上である場合に、意外性アンケートと判断する、あるいは当該回答者IDの全回答文章のうち意外性キーワードを含む回答文書の数を全回答文章の数で割った値が基準値以上である場合に、意外性アンケートと判断する、など種々の方法がある。
【0084】
なお、上記では、回答者ID毎に意外性の有無を判断し、記録したが、その代わりにあるいはそれに加えて、1回答者1回答文書毎に、意外性の有無を判断し、記録することなども可能である。この場合の判断基準についても、例えば、上記のように、意外性キーワードの総計や、意外性キーワードの種類の総計に基づいて判断するなど、種々の方法が可能である。
【0085】
(回答規則生成部23)
回答規則生成部23は、個人情報DB12(図5の個人情報部分参照)と意外性アンケートDB15(図11参照)から、意外回答者集団DB17(前述したように本例は個人情報DB12と一体化している)と意外回答頻出規則DB18(図12参照)を生成する。
【0086】
意外回答者集団とは、実施されたアンケートにおいて、アンケート作成者100が想定しないような回答を多く記述した(図5、図11の意外性フィールド=1の)回答者の集合である。
【0087】
意外回答頻出規則は、個人情報の属性に基づいて意外性の有無を求める規則であり、図5のうち、意外な回答を多く記述した回答者(意外性フィールド=1の回答者)の集団を正例、その他の回答者(意外性フィールド=0の回答者)の集団を負例とし、個人情報を属性とみなして、帰納学習を適用することによって求めることができる。
【0088】
このような意外回答頻出規則を求めることは、新たなアンケートを行なう場合に有益な回答を記述する可能性が高い回答者を選定するための指標となり得るため非常に有益である。
【0089】
図12に、意外回答頻出規則DB18のフォーマット例を示す。
【0090】
図12においては、各レコードは、それぞれ、1つのルールに関する情報であり、「ルールID」、「前件部」、「条件長」、「適用頻度」、「信頼性」の各フィールドから構成される。
【0091】
ルールIDは、各ルール固有の値を示す。
【0092】
前件部フィールドは、個人情報DB12の個人情報に与えられた属性番号と、意外性を決定づけるための閾値とを組にしたアイテムの列挙である。例えば、(2 ≧32)は、図5の属性番号2の個人情報すなわち年齢が、32以上である条件を示している。また、例えば、(3 M)は、図5の属性番号3の個人情報すなわち性別が、Mである条件を示している。
【0093】
前件部フィールドに複数のアイテムがある場合には、すべてを満たす必要がある。
【0094】
条件長フィールドは、意外性回答者集団と決定するために必要とするアイテムの数(前件部フィールドのアイテム数)である。
【0095】
適用頻度フィールドは、意外性回答者を分類する上で当該ルールが実際に適用された回数である。
【0096】
信頼性フィールドは、ルールの確からしさを意味し、(意外性として認められた数/適用された数)により計算される。
【0097】
一方、前述したように、図5は、個人情報DB12と意外性回答者集団DB17とを一体化したフォーマット例である。
【0098】
意外性フィールドは、意外性アンケートDB15の意外性フィールドの情報がコピーされる。
【0099】
ルールフィールドは、当該回答者を意外回答者集団と決定付けるルールのリストを、意外回答頻出規則DB18のルールIDの列挙として表す。
【0100】
(分析インタフェース32)
分析インタフェース32は、意外性キーワードをもとにした分析を制御したり、分析結果を表示したりするためのものである。
【0101】
意外性キーワード(図8参照)の提示では、例えば、意外性キーワードの出現頻度、キーワード名(あいうえお順)、文章単位でのソートなどが可能である。
【0102】
意外性キーワード対DB16(図10参照)に関しては、例えば、頻度・精度の閾値の決定を行うことが可能である。提示に関しては、例えば、頻度、精度、相関対の長さによりソートすることが可能である。
【0103】
意外性アンケートDB15(図11参照)に関しては、例えば、意外性アンケートと判断する基準を決定する意外性キーワードの割合(または数)を入力することが可能である。結果の提示に関しては、例えば、ID順、意外性の強いアンケート順などによりソート可能である。
【0104】
意外回答頻出規則(図12参照)の獲得では、例えば、利用する個人情報属性の指定を行うことが可能である。結果提示では、例えば、規則のID順、規則の信頼度、規則の長さなどによりソート可能とする。また、例えば、特定項目のみの保存を行うことが可能である。
【0105】
ところで、本アンケート分析装置は、質問作成インタフェース30と回答インタフェース31の一方又は両方を備えなくてもよい。すなわち、質問文章データベース10、想定回答キーワード表11、個人情報データベース12、回答文章データベース13を、他のシステムで作成してもよい。
【0106】
なお、キーワード抽出部21とアンケート相関関係抽出部22と回答規則生成部23とは、基本的な処理形態としては、この順番で動作するものであるが、それらのうち所望のものを必要に応じて個別に動作させることも可能である。また、それらに与えるデータやそれらが出力したデータをアンケート作成者が適宜手作業によって編集等することを可能としてもよい。
【0107】
また、意外性キーワードのみを求めればよい場合には、アンケート相関関係抽出部22と回答規則生成部23は備えなくてもよい。
【0108】
また、意外性キーワード対データベース16及び又は意外性アンケートデータベース15まで求めればよい場合には、回答規則生成部23は備えなくてもよい。
【0109】
また、分析インタフェース32を備えなくてもよい。すなわち、分析は他のシステムによって行ってもよい。
【0110】
なお、以上の各機能は、ソフトウェアとして実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための(あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための)プログラムとして実施することもでき、該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
【0111】
なお、この発明の実施の形態で例示した構成は一例であって、それ以外の構成を排除する趣旨のものではなく、例示した構成の一部を他のもので置き換えたり、例示した構成の一部を省いたり、例示した構成に別の機能あるいは要素を付加したり、それらを組み合わせたりすることなどによって得られる別の構成も可能である。また、例示した構成と論理的に等価な別の構成、例示した構成と論理的に等価な部分を含む別の構成、例示した構成の要部と論理的に等価な別の構成なども可能である。また、例示した構成と同一もしくは類似の目的を達成する別の構成、例示した構成と同一もしくは類似の効果を奏する別の構成なども可能である。
また、この発明の実施の形態で例示した各種構成部分についての各種バリエーションは、適宜組み合わせて実施することが可能である。
また、この発明の実施の形態は、個別装置としての発明、関連を持つ2以上の装置についての発明、システム全体としての発明、個別装置内部の構成部分についての発明、またはそれらに対応する方法の発明等、種々の観点、段階、概念またはカテゴリに係る発明を包含・内在するものである。
従って、この発明の実施の形態に開示した内容からは、例示した構成に限定されることなく発明を抽出することができるものである。
【0112】
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【0113】
【発明の効果】
本発明によれば、アンケート作成者が想定しなかった意外な回答を考慮した効果的な分析が可能になる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るアンケート分析装置の構成例を示す図
【図2】質問文章データベースのフォーマット例を示す図
【図3】想定回答キーワード表のフォーマット例を示す図
【図4】同義語・類義語辞書のフォーマット例を示す図
【図5】個人情報データベースのフォーマット例を示す図
【図6】回答文章データベースのフォーマット例を示す図
【図7】キーワード抽出部の処理手順の一例を示すフローチャート
【図8】抽出キーワード表のフォーマット例を示す図
【図9】アンケート相関関係抽出部の処理手順の一例を示すフローチャート
【図10】意外性キーワード対データベースのフォーマット例を示す図
【図11】意外性アンケートデータベースのフォーマット例を示す図
【図12】意外回答頻出規則データベースのフォーマット例を示す図
【符号の説明】
10…質問文章データベース
11…想定回答キーワード表
12…個人情報データベース
13…回答文章データベース
14…抽出キーワード表
15…意外性アンケートデータベース
16…意外性キーワード対データベース
17…意外回答者集団データベース
18…意外回答頻出規則データベース
19…同義語・類義語辞書
21…キーワード抽出部
22…アンケート相関関係抽出部
23…回答規則生成部
30…質問作成インタフェース
31…回答インタフェース
32…分析インタフェース
100…アンケート作成者
101…アンケート回答者

Claims (11)

  1. 複数のアンケート回答者によりそれぞれ記述されたアンケート回答文書を、キーワードに基づいて分析するアンケート分析装置において、
    前記アンケート回答文書に記述されることが想定されるものとしてアンケート作成者によって予め定められた想定キーワードに関する情報を記憶する記憶手段と、
    分析対象とする複数の前記アンケート回答文書を入力するための入力手段と、
    入力された複数の前記アンケート回答文書から、予め定められた基準を満たす語句を、抽出キーワードとして抽出する第1抽出手段と、
    前記第1抽出手段により抽出された抽出キーワードを、前記記憶手段に記憶された想定キーワードに該当するものと、該当しないものに分類し、該当しない方に分類された抽出キーワードを、前記アンケート作成者にとっての意外性キーワードとする処理手段と、
    分析対象とした前記アンケート回答文書と、前記処理手段により求められた前記意外性キーワードとに基づいて、分析対象とした前記アンケート回答文書に対する前記意外性キーワードに係る分析処理を行う分析手段と、
    前記分析手段による分析処理の結果を出力するための出力手段とを備えたことを特徴とするアンケート分析装置。
  2. 前記アンケート分析装置は、前記記憶手段に記憶された想定キーワードの全部又は一部について、当該想定キーワードに対して同義又は類義である語句を参照するための参照手段を更に備え、
    前記処理手段は、前記分類にあたっては、前記抽出キーワードと前記意外性キーワードとが一致した場合だけでなく、前記参照手段を参照して得た該想定キーワードに対して同義又は類義である語句と該抽出キーワードとが一致した場合にも、該抽出キーワードを、該想定キーワードに該当するものとして分類することを特徴とする請求項1に記載のアンケート分析装置。
  3. 前記処理手段は、求めた前記意外性キーワードについて、分析対象とした前記アンケート回答文書での出現状況に関する統計情報をも求めることを特徴とする請求項1に記載のアンケート分析装置。
  4. 前記分析手段は、分析対象とした前記アンケート回答文書と、前記処理手段により求められた前記意外性キーワードとに基づいて、同一のアンケート回答文書内で同時に出現する傾向にある複数の意外性キーワードの組に関する情報を抽出する第2抽出手段を含むものであることを特徴とする請求項1に記載のアンケート分析装置。
  5. 前記第2抽出手段は、抽出した前記複数の意外性キーワードの組について、分析対象とした前記アンケート回答文書での同時出現状況に関する統計情報をも求めることを特徴とする請求項4に記載のアンケート分析装置。
  6. 前記分析手段は、分析対象とした前記アンケート回答文書と、前記処理手段により求められた前記意外性キーワードとに基づいて、意外性キーワードが所定の基準以上に出現するアンケート回答文書を求める手段を含むものであることを特徴とする請求項1に記載のアンケート分析装置。
  7. 前記アンケート回答文書は、当該アンケート回答文書を記述したアンケート回答者の識別情報と対応付けられており、
    前記分析手段は、分析対象とした前記アンケート回答文書と、前記処理手段により求められた前記意外性キーワードとに基づいて、意外性キーワードが所定の基準以上に出現するアンケート回答文書を記述したアンケート回答者の識別情報を特定する特定手段を含む ものであることを特徴とする請求項1に記載のアンケート分析装置。
  8. 前記アンケート分析装置は、前記アンケート回答者の識別情報と対応付けられた、当該アンケート回答者の有する複数の個人属性情報の属性値を記憶する手段を更に備え、
    前記分析手段は、分析対象とした前記アンケート回答文書に対応する前記アンケート回答者についての前記属性値と、前記特定手段による特定結果とに基づいて、意外性キーワードが所定の基準以上に出現するアンケート回答文書を記述する傾向にあるアンケート回答者が有する個人属性情報の属性値に関する情報を求める手段を含むものであることを特徴とする請求項7に記載のアンケート分析装置。
  9. 前記入力手段は、前記アンケート回答文書を、前記アンケート回答者側端末からネットワークを介して取得するための手段を含むものであることを特徴とする請求項1に記載のアンケート分析装置。
  10. 複数のアンケート回答者によりそれぞれ記述されたアンケート回答文書を、キーワードに基づいて分析するために、前記アンケート回答文書に記述されることが想定されるものとしてアンケート作成者によって予め定められた想定キーワードに関する情報を記憶する記憶手段と、入力手段と、抽出手段と、処理手段と、分析手段と、出力手段とを備えたアンケート分析装置におけるアンケート分析方法であって、
    前記入力手段が、分析対象とする複数の前記アンケート回答文書を入力するステップと、
    前記抽出手段が、入力された複数の前記アンケート回答文書から、予め定められた基準を満たす語句を、抽出キーワードとして抽出するステップと
    前記処理手段が、抽出された前記抽出キーワードを、前記記憶手段に記憶された想定キーワードに該当するものと、該当しないものに分類し、該当しない方に分類された抽出キーワードを、前記アンケート作成者にとっての意外性キーワードとするステップと、
    前記分析手段が、分析対象とした前記アンケート回答文書と、求められた前記意外性キーワードとに基づいて、分析対象とした前記アンケート回答文書に対する前記意外性キーワードに係る分析処理を行うステップと、
    前記出力手段が、前記分析処理の結果を出力するステップとを有することを特徴とするアンケート分析方法。
  11. 複数のアンケート回答者によりそれぞれ記述されたアンケート回答文書を、キーワードに基づいて分析するために、前記アンケート回答文書に記述されることが想定されるものとしてアンケート作成者によって予め定められた想定キーワードに関する情報を記憶する記憶手段と、入力手段と、抽出手段と、処理手段と、分析手段と、出力手段とを備えたアンケート分析装置としてコンピュータを機能させるためのプログラムであって、
    前記入力手段が、分析対象とする複数の前記アンケート回答文書を入力するステップと、
    前記抽出手段が、入力された複数の前記アンケート回答文書から、予め定められた基準を満たす語句を、抽出キーワードとして抽出するステップと
    前記処理手段が、抽出された前記抽出キーワードを、前記記憶手段に記憶された想定キーワードに該当するものと、該当しないものに分類し、該当しない方に分類された抽出キーワードを、前記アンケート作成者にとっての意外性キーワードとするステップと、
    前記分析手段が、分析対象とした前記アンケート回答文書と、求められた前記意外性キーワードとに基づいて、分析対象とした前記アンケート回答文書に対する前記意外性キーワードに係る分析処理を行うステップと、
    前記出力手段が、前記分析処理の結果を出力するステップとをコンピュータに実行させるためのプログラム。
JP2001333190A 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム Expired - Fee Related JP3910823B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001333190A JP3910823B2 (ja) 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001333190A JP3910823B2 (ja) 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2003141303A JP2003141303A (ja) 2003-05-16
JP3910823B2 true JP3910823B2 (ja) 2007-04-25

Family

ID=19148495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001333190A Expired - Fee Related JP3910823B2 (ja) 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム

Country Status (1)

Country Link
JP (1) JP3910823B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338697A (ja) * 2006-09-26 2006-12-14 Word Laboratories Inc アンケート項目作成方法、アンケート項目作成装置およびアンケート項目作成プログラム
JP2012027729A (ja) * 2010-07-23 2012-02-09 Ryusys Inc 検索装置、検索方法及びプログラム
CN111831817A (zh) * 2020-07-28 2020-10-27 平安国际融资租赁有限公司 问卷生成分析方法、装置、计算机设备及可读存储介质

Also Published As

Publication number Publication date
JP2003141303A (ja) 2003-05-16

Similar Documents

Publication Publication Date Title
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
Ray et al. A review and future perspectives of arabic question answering systems
Alzahrani et al. Understanding plagiarism linguistic patterns, textual features, and detection methods
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
Armouty et al. Automated keyword extraction using support vector machine from Arabic news documents
CN116070599A (zh) 智能化题库生成及辅助管理系统
CN115292450A (zh) 一种基于信息抽取的数据分类分级领域知识库构建方法
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Yogish et al. Survey on trends and methods of an intelligent answering system
Thompson et al. News search using discourse analytics
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
Atkinson-Abutridy Text Analytics: An Introduction to the Science and Applications of Unstructured Information Analysis
JP6409071B2 (ja) 文の並び替え方法および計算機
KR20200066119A (ko) 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치
Al-Shawakfa A rule-based approach to understand questions in Arabic question answering
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
Barale et al. Automated refugee case analysis: An nlp pipeline for supporting legal practitioners
CN111881695A (zh) 一种审计知识的检索方法及装置
Malhar et al. Deep learning based Answering Questions using T5 and Structured Question Generation System’
KR20210038260A (ko) 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템
JP3910823B2 (ja) アンケート分析装置、アンケート分析方法及びプログラム
JP2021022292A (ja) 情報処理装置、プログラム及び情報処理方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
Zhekova et al. Automated Extraction of Values of Quantitative Indicators to a Quality Evaluation System Using Natural Language Analysis Tools.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070125

LAPS Cancellation because of no payment of annual fees