JP2003141303A - アンケート分析装置、アンケート分析方法及びプログラム - Google Patents

アンケート分析装置、アンケート分析方法及びプログラム

Info

Publication number
JP2003141303A
JP2003141303A JP2001333190A JP2001333190A JP2003141303A JP 2003141303 A JP2003141303 A JP 2003141303A JP 2001333190 A JP2001333190 A JP 2001333190A JP 2001333190 A JP2001333190 A JP 2001333190A JP 2003141303 A JP2003141303 A JP 2003141303A
Authority
JP
Japan
Prior art keywords
questionnaire
keyword
assumed
extracted
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001333190A
Other languages
English (en)
Other versions
JP3910823B2 (ja
Inventor
Akihiro Suyama
明弘 酢山
Shigeaki Sakurai
茂明 櫻井
Ryohei Orihara
良平 折原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001333190A priority Critical patent/JP3910823B2/ja
Publication of JP2003141303A publication Critical patent/JP2003141303A/ja
Application granted granted Critical
Publication of JP3910823B2 publication Critical patent/JP3910823B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 アンケート作成者が想定しなかった意外な回
答を考慮した効果的な分析を可能とするアンケート分析
装置を提供すること。 【解決手段】 想定回答キーワード表11には、回答文
章に記述されることが想定される想定キーワードが登録
されている。回答文章データベース13には、同一の複
数の質問文章に対して複数のアンケート回答者によりそ
れぞれ記述された複数の回答文章が保存されている。キ
ーワード抽出部21は、まず、分析対象とする全回答文
章から、名詞、形容詞、形容動詞、動詞などの語句を、
抽出キーワードとして抽出し、キーワード表14に格納
する。キーワード抽出部21は、次に、抽出キーワード
を、想定キーワードに該当するものと、該当しないもの
に分類し、該当しない方に分類された抽出キーワード
を、意外性キーワードとする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、アンケートを分析
するためのアンケート分析装置及びアンケート分析方法
に関する。
【0002】
【従来の技術】従来のアンケート分析装置は、アンケー
ト作成者の想定した回答に近い表現がアンケート回答に
どのくらい出現しているのか、その傾向を自然言語処理
技術により自動的に分析している。すなわち、アンケー
ト作成者の想定した回答を基準として、アンケート回答
者の傾向を一目で理解できるようにして、アンケートの
分析を効率的しようとしている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
アンケート分析装置では、アンケート作成者が想定しな
かった意外な回答(例えば、アンケート作成者が予め想
定して登録しておいたキーワードから外れた表現を含む
回答)についての分析をすることはできず、必ずしも効
果的なアンケート分析を行うことはできなかった。一
方、類似アンケート作成等のために、意外な回答を扱お
うとすると、意外な回答についての分析を人手で行な
い、その結果得られたキーワードを新に知識としてキー
ワード登録するなどの作業が必要になるため、非常に煩
雑であった。
【0004】本発明は、上記事情を考慮してなされたも
ので、アンケート作成者が想定しなかった意外な回答を
考慮した効果的な分析を可能とするアンケート分析装置
及びアンケート分析を提供することを目的とする。
【0005】
【課題を解決するための手段】本発明は、複数のアンケ
ート回答者によりそれぞれ記述されたアンケート回答文
書を、キーワードに基づいて分析するアンケート分析装
置において、前記アンケート回答文書に記述されること
が想定される想定キーワードに関する情報を記憶する記
憶手段と、分析対象とする前記アンケート回答文書か
ら、予め定められた基準を満たす語句を、抽出キーワー
ドとして抽出する第1抽出手段と、前記第1抽出手段に
より抽出された抽出キーワードを、前記記憶手段に記憶
された想定キーワードに該当するものと、該当しないも
のに分類し、該当しない方に分類された抽出キーワード
を、意外性キーワードとする処理手段とを備えたことを
特徴とする。
【0006】好ましくは、分析対象とした前記アンケー
ト回答文書と、前記処理手段により求められた前記意外
性キーワードとに基づいて、同一のアンケート回答文書
内で同時に出現する傾向にある複数の意外性キーワード
の組に関する情報を抽出する第2抽出手段を更に備える
ようにしてもよい。
【0007】好ましくは、前記アンケート回答文書は、
当該アンケート回答文書を記述したアンケート回答者の
識別情報と対応付けられており、前記アンケート分析装
置は、分析対象とした前記アンケート回答文書と、前記
処理手段により求められた前記意外性キーワードとに基
づいて、意外性キーワードが所定の基準以上に出現する
アンケート回答文書を記述したアンケート回答者の識別
情報を特定する特定手段を更に備えるようにしてもよ
い。さらに、好ましくは、前記アンケート回答者の識別
情報と対応付けられた、当該アンケート回答者の有する
複数の個人属性情報の属性値を記憶する手段と、分析対
象とした前記アンケート回答文書に対応する前記アンケ
ート回答者についての前記属性値と、前記特定手段によ
る特定結果とに基づいて、意外性キーワードが所定の基
準以上に出現するアンケート回答文書を記述する傾向に
あるアンケート回答者が有する個人属性情報の属性値に
関する情報を求める手段とを備えるようにしてもよい。
【0008】また、本発明は、複数のアンケート回答者
によりそれぞれ記述されたアンケート回答文書を、キー
ワードに基づいて分析するアンケート分析方法におい
て、前記アンケート回答文書に記述されることが想定さ
れる想定キーワードに関する情報を記憶手段に登録し、
分析対象とする前記アンケート回答文書から、予め定め
られた基準を満たす語句を、抽出キーワードとして抽出
し、抽出された前記抽出キーワードを、前記記憶手段に
登録された前記想定キーワードに該当するものと、該当
しないものに分類し、該当しない方に分類された抽出キ
ーワードを、意外性キーワードとすることを特徴とす
る。
【0009】なお、装置に係る本発明は方法に係る発明
としても成立し、方法に係る本発明は装置に係る発明と
しても成立する。また、装置または方法に係る本発明
は、コンピュータに当該発明に相当する手順を実行させ
るための(あるいはコンピュータを当該発明に相当する
手段として機能させるための、あるいはコンピュータに
当該発明に相当する機能を実現させるための)プログラ
ムとしても成立し、該プログラムを記録したコンピュー
タ読取り可能な記録媒体としても成立する。
【0010】本発明によれば、アンケート作成者が想定
していなかった意外なキーワードを抽出し、明示的に示
すことができる。また、本発明によれば、アンケート作
成者が想定していなかった意外なキーワードを多く含む
回答を抽出し、明示的に示すことができる。また、本発
明によれば、アンケート作成者が想定していなかった意
外なキーワードを多く含む回答を作成した回答者を抽出
し、明示的に示すことができる。また、本発明によれ
ば、アンケート作成者が想定していなかった意外なキー
ワードを多く含む回答を作成する回答者の個人情報に関
する情報を抽出し、明示的に示すことができる。
【0011】また、本発明によれば、意外回答を再利用
しやすく加工して類似アンケートの作成の効率化を促す
ことや、新たな商品企画、製品開発などアンケート対象
となるものの洗練を行うための意思決定手段を提供する
ことなど、種々の効果が期待できる。
【0012】
【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。
【0013】図1に、本発明の一実施形態に係るアンケ
ート分析装置の構成例を示す。図1に示されるように、
本アンケート分析装置は、キーワード抽出部21、アン
ケート相関関係抽出部22、回答規則生成部23を備え
ている。また、質問作成インタフェース30、回答イン
タフェース31、分析インタフェース32の各種インタ
フェースを備えている。また、質問文章データベース
(DB)10、想定回答キーワード表11、個人情報D
B12、回答文章DB13、(意外性キーワードを含
む)抽出キーワード表14、意外性アンケートDB1
5、意外性キーワード対DB16、意外性回答者集団D
B17、意外回答頻出規則DB18、同義語・類義語辞
書19の各種データを格納するための記憶部を備えてい
る(それら情報は必ずしも同一の記憶装置あるいは記憶
領域に記憶されている必要はない)。
【0014】(質問作成インタフェース30)質問作成
インタフェース30は、アンケート作成者100による
当該アンケート分析装置への所定の入力事項の入力・編
集操作を支援するためのインタフェースである。
【0015】入力事項は、例えば、調査を行いたいアン
ケートのデータ(質問文章DB10参照)、アンケート
作成者100が当該アンケートについて回答者によりア
ンケート回答(回答文章DB13参照)に記述されると
ものとして想定するキーワードのデータ(想定回答キー
ワード表11参照)などである。
【0016】入力事項は、質問文章DB10および想定
回答キーワード表11として、格納される。
【0017】図2に、アンケートの構成要素となる質問
文章を記録した質問文章DB10のフォーマット例を示
す。
【0018】図2においては、各レコードは、それぞ
れ、1つの質問文章に対応するものであり、「文書I
D」、「文書」、「カテゴリ」、「質問番号」の各フィ
ールドから構成される。
【0019】文書IDは、文書(質問文章)に固有なI
Dが割り当てられる。
【0020】文書は、質問文章の内容である。
【0021】カテゴリは、質問文章を再利用する上で利
用されるフィールドであり、アンケート作成者が自由に
指定できる。複数のカテゴリも制御可能とする。記号
“−”が使用された場合、カテゴリの階層を表すものと
する。
【0022】質問番号は、今回行なうアンケートに用い
る質問の番号である。“0”と指定されている質問文章
は、今回のアンケートで利用しないものであると定義す
る。
【0023】想定回答キーワード表11は、1行あた
り、1キーワードおよび同義語・類義語辞書19へのポ
インタ列の形式で記憶される。キーワードの同義語・類
義語関係は、質問作成インタフェース30を通じて制御
できるものとする。
【0024】ここに、質問作成インタフェース30は、
単なるテキストエディタであってもよいし、アンケート
作成支援として、カテゴリ入力による過去の類似質問検
索や、類似質問に関しては登録されている想定回答キー
ワードを提示してくれる知的なインタフェースであって
もよいものとする。
【0025】図3に、想定回答キーワード表11のフォ
ーマット例を示す。
【0026】図3においては、各レコードは、それぞ
れ、アンケート作成者100が意図する1つのキーワー
ドに関する情報を格納しており、「キーワードID」、
「キーワード」、「形態素つきキーワード」、「類語範
囲」の各フィールドから構成される。
【0027】キーワードIDは、アンケート作成者10
0が入力した各キーワードに固有なIDが割り当てられ
る。キーワード入力時には、2重登録チェックが行なわ
れ同じ表層表現のキーワードは2重登録されないものと
する。ただし、同義語・類義語のチェックは行わず、独
立して入力できるものとする。
【0028】形態素つきキーワードフィールドは、後で
説明するキーワード抽出部21の処理過程にて記憶され
るフィールドである(図3では記憶された後の状態で示
している)。
【0029】類語範囲は、同義語・類義語辞書19の参
照範囲である。類語範囲に記述される値“−1”は、
「当該キーワードを想定キーワードとして利用しない」
ことを示す。“0”は、「同義語・類義語辞書19を使
用しない」ことを示す。“1”は、「同義語・類義語辞
書19を検索し、当該キーワードに照合するレコードを
同義語・類義語とみなす」ことを示す。類語範囲に
“2”以上の値が記述される場合は、“2”について
は、「当該キーワードの同義語・類義語をキーとして、
さらに同義語・類義語辞書19を2次検索し、そのすべ
てに該当するものを同義語・類義語とみなす」ことを示
し、“2”以上の値nについても同様に、「当該キーワ
ードの同義語・類義語をキーとして、さらに同義語・類
義語辞書19のn次検索まで行ない、それらのすべてに
該当するものを同義語・類義語とみなす」ことを示す。
【0030】図4に、同義語・類義語辞書19のフォー
マット例を示す。
【0031】図4においては、各レコードは、「類語キ
ーID」、「特定語の直接的な同義語・類義語の列」の
各フィールドから構成される。
【0032】(回答インタフェース31)回答インタフ
ェース31は、アンケート回答者101が前記のアンケ
ートに回答することを可能とする(アンケート回答の取
得・回収を可能とする)ためのインタフェースである。
ここでは、回答インタフェース31としては、例えば、
セキュリティにより保護されたWebまたはEmail
を想定するが、ネットワークではなく記録媒体を媒介に
する方法や、書面に記述された回答を回収して光学読み
取り入力あるいは手入力する方法など、その他の方法を
採用することも可能である。
【0033】ネットワークを利用する場合、サーバ(ア
ンケート分析装置)からアンケート回答者101側端末
へ配布されたアンケートに対して作成された回答(個人
情報を含むものとする)は、アンケート回答者101側
端末からサーバ(アンケート分析装置)に転送され、当
該アンケート回答者に関する個人情報および1行1回答
者とし質問の回答毎にカンマで区切られたCSV形式な
どの定型的な形式に変換された回答文章に分割され、個
人情報DB12および回答文章DB13として格納され
る。
【0034】図5に、個人情報DB12のフォーマット
例を示す。なお、本実施形態では、個人情報DB12と
後で説明する意外性回答者集団DB17とを同一記憶領
域で(一体化したフォーマットで)管理する場合を例に
とっているので、図5のフォーマット例は意外性回答者
集団DB17も含んでいることになる。
【0035】図5において、各レコードは、それぞれ、
一人のアンケート回答者101に関する情報を格納して
おり、「回答者ID」、例えば氏名、年齢、性別等の各
種の「属性」、「意外性」、「ルール」の各フィールド
から構成される。
【0036】個人情報の各属性のフィールドには、それ
ぞれ、属性番号が与えられ、図5の例では、左から順に
1、2、3…となっている。
【0037】また、図5において、ハッチングで示した
意外性フィールドとルールフィールドは、後に説明する
回答規則生成部23により追加される(図5では追加さ
れた後の状態で示している)。なお、意外性フィールド
とルールフィールドについては、後述する。
【0038】なお、図5において、当該データベースへ
アクセスする際に、例えば回答者ID=2で属性番号=
3の属性を参照したい場合には、(2,3)を指定する
ことによって参照可能である。
【0039】図6に、回答文章DB13のフォーマット
例を示す。
【0040】図6において、各レコードは、それぞれ、
ある一人のアンケート回答者が質問文章DB10(図2
参照)の個々の質問に対してそれぞれ回答した回答文を
列挙したものであり、「回答者ID」、図2の質問番号
の質問に対する回答の順に配置された「回答」の各フィ
ールドから構成される(なお、図2の質問番号との対応
が分かれば、回答フィールドが必ずしも質問番号順に配
置されていなくても構わない)。
【0041】なお、回答フィールドを質問番号順に配置
する構成の場合には、当該データベースへアクセスする
際に、例えば回答者ID=3で回答番号(=質問番号)
=5の回答にアクセスしたいならば、(3,5)を指定
することによって参照可能である。
【0042】(キーワード抽出部21)キーワード抽出
部21は、回答文章DB13(図6参照)および想定回
答キーワード表11(図3参照)から、アンケート作成
者の意図した回答とは異なる意外性キーワードを抽出
し、格納するためのものである。なお、本実施形態で
は、回答文章からキーワードを抽出した後に、抽出した
キーワードを、想定したキーワードと意外性キーワード
とに分類するようにしている。
【0043】図7に、その処理手順の一例を示す。
【0044】キーワード抽出部21は、回答文章DB1
3の各回答文章を形態素解析し(ステップS11)、キ
ーワードを抽出する。例えば、予め定められた名詞、形
容詞、形容動詞、動詞などの品詞のいずれかに該当する
ものを、キーワードとして抽出する。
【0045】当該キーワードには、「表層表現」「形態
素つき表現」「品詞」情報の他に、回答文章DB13で
出現した箇所を示す「インデックス」「頻度」を付与
し、抽出キーワード表14として記憶する(ステップS
12)。
【0046】図8に、抽出キーワード表14のフォーマ
ット例を示す。
【0047】図8においては、各レコードは、それぞ
れ、キーワード抽出部21により抽出された各キーワー
ド(名詞、動詞、形容詞、形容動詞等)に関する情報を
表すものであり、「キーワードID」、「キーワー
ド」、「形態素つきキーワード」、「文書インデック
ス」、「文書頻度」、「総頻度」、「意外性」の各フィ
ールドから構成される。
【0048】キーワードIDは、抽出されたキーワード
に割り当てられた固有の値である。
【0049】キーワードは、当該キーワードの内容であ
る。
【0050】形態素つきキーワードは、キーワード抽出
部21の処理過程で実行される形態素解析タグを付与し
たキーワードの表層表現である。
【0051】文書インデックスフィールドは、当該キー
ワードが出現する回答文章(ある質問に対する1回答者
の1回答)へのポインタでもあり、回答文章DB13で
のフィールド情報と頻度の列挙、すなわち、(回答者I
D,回答番号,頻度),…,(回答者ID,回答番号,
頻度)、で表される。ここで、頻度は、当該回答者の当
該回答番号(=質問番号)の回答文章中にキーワードが
何回出現したかを示す。例えば、図8の例において、キ
ーワードID=1のキーワード(“良い”)は、回答者
ID=1の回答番号=3の回答文書に1回出現し、回答
者ID=3の回答番号=5の回答文書に2回出現してい
ることが示されている。
【0052】文書頻度フィールドは、当該キーワードが
出現する回答の数(すなわち、文書インデックスの数)
が記憶される。例えば、図8の例において、キーワード
ID=1のキーワード(“良い”)は、2つの回答文書
に出現しているので、文書頻度は、“2”となる。
【0053】総頻度フィールドは、すべての回答を通し
て当該キーワードが実際に出現した回数(すなわち、各
文書インデックスの3番目の値の総和)が記憶される。
例えば、図8の例において、キーワードID=1のキー
ワード(“良い”)は、2つの回答文書に総計で3回出
現しているので、総頻度は、“3”となる。
【0054】意外性フィールドは、以下説明する処理に
よって、想定キーワードとは異なる意外性キーワードで
あると判定されれば“1”が、そうでなければ“0”が
記憶される(図8では記憶された後の状態で示してい
る)。
【0055】他方、キーワード抽出部21は、想定回答
キーワード表11の各キーワードも同様に形態素解析す
る(ステップS13)。なお、前述のように、その解析
結果が、想定回答キーワード表11の形態素つきキーワ
ードフィールドに記憶される。また、類語範囲のフィー
ルドの値が1以上のものについては、同義語・類義語辞
書19から同義語・類義語を検索し、得られた同義語・
類義語についてもそれぞれ形態素解析して、形態素つき
キーワードフィールドに列挙しておく。
【0056】なお、ステップS11及びS12と、ステ
ップS13とは、いずれを先に行ってもよいし、並列的
に行ってもよい。
【0057】さて、キーワード抽出部21は、抽出キー
ワード表14と想定回答キーワード表11とを、形態素
つき表現で照合する(ステップS14〜S18)。な
お、想定回答キーワード表11において、同義語・類義
語が求められたキーワードについては、形態素つきキー
ワードフィールドに、当該キーワードに対する形態素つ
き表現の他に、1又は複数の同義語・類義語に対する形
態素つき表現が格納されているので、抽出キーワード表
14のあるキーワードが、それらのうちのいずれか1つ
でも一致した場合には、当該想定キーワードと一致した
ものとみなす。
【0058】一致したキーワードに関しては、抽出キー
ワード表14の該当キーワードに照合マークを付ける
(ステップS17)。すなわち、一致したキーワードに
関しては、抽出キーワード表14の該当キーワードの意
外性フィールドに“0”が記憶され、それ以外のキーワ
ードに関しては、抽出キーワード表14の該当キーワー
ドの意外性フィールドに“1”が記憶される。
【0059】この結果、抽出キーワード表14のうち照
合マークが付与されていなキーワード(意外性フィール
ドが“1”のキーワード)が、意外性キーワードを与え
ることになる。
【0060】なお、以降は、抽出キーワード表14を、
意外性フィールドの値が“1”になるか“0”になるか
の区別によって、2つの表、すなわち意外性キーワード
の表と、想定キーワードの表とに分離して保持するよう
にしてもよい。
【0061】(アンケート相関関係抽出部22)アンケ
ート相関関係抽出部22は、抽出キーワード表14の意
外性キーワード(意外性フィールドが“1”のキーワー
ド)に基づいて、意外性キーワード対および意外性アン
ケートを抽出し、意外性キーワード対DB16および意
外性アンケートDB15として格納する。
【0062】図9に、その処理手順の一例を示す。
【0063】なお、ステップS20と、ステップS21
〜S25とは、いずれを先に行ってもよいし、並列的に
行ってもよい。
【0064】まず、抽出キーワード表14から意外性キ
ーワードのレコードのみを抜き出したもの(以下、これ
を意外性キーワード表と呼ぶ)を記憶する(ステップS
19)。ただし、意外性フィールドは省いても構わな
い。なお、上記のように、抽出キーワード表14ではな
く、意外性キーワードの表と想定キーワードの表とに分
離して保持している場合には、このステップは不要にな
る。
【0065】さて、意外性キーワード対の獲得に関して
は、意外性キーワード表の意外性キーワードに付与され
ている文書インデックス情報に基づき、1つの回答文章
内(ある質問に対する1回答者の1回答内)において同
時に出現しやすいキーワードの対に関する知識の獲得
を、例えば相関ルール抽出法などを用いることにより、
実行する(ステップS20)。
【0066】例えば、図6の回答者ID=2で質問番号
=2の回答文章では、「文字」と「小さい」が同時に出
現しているが、「文字」と「小さい」の対が、出現しや
すいか否かの判断基準を満たしていれば(例えば、予め
定められた個数以上の回答文章において「文字」と「小
さい」が同時に出現していれば、あるいは後述する前件
かつ後件出現率が基準値以上であれば、あるいは後述す
る前件かつ後件出現率が基準値以上でしかも後述する信
頼性が基準値以上であれば、など)、「文字」と「小さ
い」の対が、意外性キーワード対として抽出され、前件
部「文字」で後件部「小さい」の相関ルールが得られ
る。
【0067】なお、アンケート相関関係抽出部22は、
意外性キーワード対のデータに加え、当該意外性キーワ
ード対の出現頻度や精度などの情報をも求めるようにし
てもよい。
【0068】図10に、意外性キーワード対DB16の
フォーマット例を示す。
【0069】図10においては、各レコードは、アンケ
ート相関関係抽出部22により獲得された各相関ルール
に対応するもので、「キーワード対ID」、「前件部キ
ーワード」、「後件部キーワード」、「前件出現率」、
「前件かつ後件出現率」、「信頼性」の各フィールドか
ら構成される。各相関ルールからは、「もしある回答文
章に、前件部キーワードが含まれるならば、同一回答文
章に後件キーワードが含まれる。このルールの信頼性
は、○○である。」などというような情報を得ることが
できる。
【0070】キーワード対IDフィールドは、各ルール
固有の値を示す。
【0071】前件部キーワードおよび後件部キーワード
フィールドは、キーワード表のキーワードIDの列挙と
して表現される。列挙されたキーワードIDは、「AN
D」で結合される。
【0072】前件出現確率フィールドは、すべての回答
文章に対する前件部の成立する割合を示す。
【0073】前件かつ後件出現確率フィールドは、すべ
ての回答文章に対する前件部かつ後件部の成立する割合
を示す。
【0074】信頼性は、当該ルールの前件部が成立した
場合に後件が成立する場合の確からしさを表す尺度であ
り、(前件かつ後件出現確率)/(前件出現確率)によ
り計算される。
【0075】例えば、1000の回答文章のうち100
の回答文章に“2”という前件キーワードが確認され、
そのうち80の回答文章で“3”というキーワードも同
時出現するならば、前件出現率は0.1、前件かつ後件
出現率は0.08、信頼性は0.8(=0.08/0.
1)と与えられる。
【0076】他方、アンケート相関関係抽出部22は、
意外性キーワード表(図8の意外性フィールドが“1”
の部分参照)に基づいて、回答文章DB13(図6参
照)のうちから、意外性キーワードを多く含むアンケー
ト回答(意外性アンケート)を求める(ステップS2
1,S22,S23,S25)。処理結果は、回答文章
DB13の回答者IDを主軸にして、各回答文章が含む
意外性キーワード情報を記述した意外性アンケートDB
15として格納される(ステップS24)。
【0077】図11に、意外性アンケートDB15のフ
ォーマット例を示す。
【0078】図11においては、各レコードは、それぞ
れ、回答文章DB13(図6参照)の各回答者に対応す
るものであり、「回答者ID」、図2の質問番号の質問
に対する回答の順に配置された当該回答についての意外
性キーワード情報を記述する「回答」、「意外性」の各
フィールドから構成される(なお、図2の質問番号との
対応が分かれば、回答フィールドが必ずしも質問番号順
に配置されていなくても構わない)。
【0079】回答者IDは、図6の回答者IDに対応す
るものである。
【0080】回答の番号は、図6の回答の回答番号(=
質問番号)に対応するものである。
【0081】各回答フィールドは、当該回答文章におけ
る意外性キーワードについての(キーワードID,頻
度)の列挙である。なお、このキーワードIDは、図8
の抽出キーワードのキーワードIDに対応するものであ
る。
【0082】意外性フィールドは、当該回答者IDのア
ンケート回答が、意外性アンケートと判断されたか否か
を示すものである。この例では、“1”が意外であるこ
とを示し、“0”がそうでないことを示す。
【0083】意外性アンケートであるか否かの判断基準
については、例えば、当該回答者IDの全回答文章に含
まれる意外性キーワードの総計が基準値以上である場合
に、意外性アンケートと判断する、あるいは当該回答者
IDの全回答文章に含まれる意外性キーワードの種類の
総計が基準値以上である場合に、意外性アンケートと判
断する、あるいは当該回答者IDの全回答文章のうち意
外性キーワードを含む回答文書の数を全回答文章の数で
割った値が基準値以上である場合に、意外性アンケート
と判断する、など種々の方法がある。
【0084】なお、上記では、回答者ID毎に意外性の
有無を判断し、記録したが、その代わりにあるいはそれ
に加えて、1回答者1回答文書毎に、意外性の有無を判
断し、記録することなども可能である。この場合の判断
基準についても、例えば、上記のように、意外性キーワ
ードの総計や、意外性キーワードの種類の総計に基づい
て判断するなど、種々の方法が可能である。
【0085】(回答規則生成部23)回答規則生成部2
3は、個人情報DB12(図5の個人情報部分参照)と
意外性アンケートDB15(図11参照)から、意外回
答者集団DB17(前述したように本例は個人情報DB
12と一体化している)と意外回答頻出規則DB18
(図12参照)を生成する。
【0086】意外回答者集団とは、実施されたアンケー
トにおいて、アンケート作成者100が想定しないよう
な回答を多く記述した(図5、図11の意外性フィール
ド=1の)回答者の集合である。
【0087】意外回答頻出規則は、個人情報の属性に基
づいて意外性の有無を求める規則であり、図5のうち、
意外な回答を多く記述した回答者(意外性フィールド=
1の回答者)の集団を正例、その他の回答者(意外性フ
ィールド=0の回答者)の集団を負例とし、個人情報を
属性とみなして、帰納学習を適用することによって求め
ることができる。
【0088】このような意外回答頻出規則を求めること
は、新たなアンケートを行なう場合に有益な回答を記述
する可能性が高い回答者を選定するための指標となり得
るため非常に有益である。
【0089】図12に、意外回答頻出規則DB18のフ
ォーマット例を示す。
【0090】図12においては、各レコードは、それぞ
れ、1つのルールに関する情報であり、「ルールI
D」、「前件部」、「条件長」、「適用頻度」、「信頼
性」の各フィールドから構成される。
【0091】ルールIDは、各ルール固有の値を示す。
【0092】前件部フィールドは、個人情報DB12の
個人情報に与えられた属性番号と、意外性を決定づける
ための閾値とを組にしたアイテムの列挙である。例え
ば、(2 ≧32)は、図5の属性番号2の個人情報す
なわち年齢が、32以上である条件を示している。ま
た、例えば、(3 M)は、図5の属性番号3の個人情
報すなわち性別が、Mである条件を示している。
【0093】前件部フィールドに複数のアイテムがある
場合には、すべてを満たす必要がある。
【0094】条件長フィールドは、意外性回答者集団と
決定するために必要とするアイテムの数(前件部フィー
ルドのアイテム数)である。
【0095】適用頻度フィールドは、意外性回答者を分
類する上で当該ルールが実際に適用された回数である。
【0096】信頼性フィールドは、ルールの確からしさ
を意味し、(意外性として認められた数/適用された
数)により計算される。
【0097】一方、前述したように、図5は、個人情報
DB12と意外性回答者集団DB17とを一体化したフ
ォーマット例である。
【0098】意外性フィールドは、意外性アンケートD
B15の意外性フィールドの情報がコピーされる。
【0099】ルールフィールドは、当該回答者を意外回
答者集団と決定付けるルールのリストを、意外回答頻出
規則DB18のルールIDの列挙として表す。
【0100】(分析インタフェース32)分析インタフ
ェース32は、意外性キーワードをもとにした分析を制
御したり、分析結果を表示したりするためのものであ
る。
【0101】意外性キーワード(図8参照)の提示で
は、例えば、意外性キーワードの出現頻度、キーワード
名(あいうえお順)、文章単位でのソートなどが可能で
ある。
【0102】意外性キーワード対DB16(図10参
照)に関しては、例えば、頻度・精度の閾値の決定を行
うことが可能である。提示に関しては、例えば、頻度、
精度、相関対の長さによりソートすることが可能であ
る。
【0103】意外性アンケートDB15(図11参照)
に関しては、例えば、意外性アンケートと判断する基準
を決定する意外性キーワードの割合(または数)を入力
することが可能である。結果の提示に関しては、例え
ば、ID順、意外性の強いアンケート順などによりソー
ト可能である。
【0104】意外回答頻出規則(図12参照)の獲得で
は、例えば、利用する個人情報属性の指定を行うことが
可能である。結果提示では、例えば、規則のID順、規
則の信頼度、規則の長さなどによりソート可能とする。
また、例えば、特定項目のみの保存を行うことが可能で
ある。
【0105】ところで、本アンケート分析装置は、質問
作成インタフェース30と回答インタフェース31の一
方又は両方を備えなくてもよい。すなわち、質問文章デ
ータベース10、想定回答キーワード表11、個人情報
データベース12、回答文章データベース13を、他の
システムで作成してもよい。
【0106】なお、キーワード抽出部21とアンケート
相関関係抽出部22と回答規則生成部23とは、基本的
な処理形態としては、この順番で動作するものである
が、それらのうち所望のものを必要に応じて個別に動作
させることも可能である。また、それらに与えるデータ
やそれらが出力したデータをアンケート作成者が適宜手
作業によって編集等することを可能としてもよい。
【0107】また、意外性キーワードのみを求めればよ
い場合には、アンケート相関関係抽出部22と回答規則
生成部23は備えなくてもよい。
【0108】また、意外性キーワード対データベース1
6及び又は意外性アンケートデータベース15まで求め
ればよい場合には、回答規則生成部23は備えなくても
よい。
【0109】また、分析インタフェース32を備えなく
てもよい。すなわち、分析は他のシステムによって行っ
てもよい。
【0110】なお、以上の各機能は、ソフトウェアとし
て実現可能である。また、本実施形態は、コンピュータ
に所定の手段を実行させるための(あるいはコンピュー
タを所定の手段として機能させるための、あるいはコン
ピュータに所定の機能を実現させるための)プログラム
として実施することもでき、該プログラムを記録したコ
ンピュータ読取り可能な記録媒体として実施することも
できる。
【0111】なお、この発明の実施の形態で例示した構
成は一例であって、それ以外の構成を排除する趣旨のも
のではなく、例示した構成の一部を他のもので置き換え
たり、例示した構成の一部を省いたり、例示した構成に
別の機能あるいは要素を付加したり、それらを組み合わ
せたりすることなどによって得られる別の構成も可能で
ある。また、例示した構成と論理的に等価な別の構成、
例示した構成と論理的に等価な部分を含む別の構成、例
示した構成の要部と論理的に等価な別の構成なども可能
である。また、例示した構成と同一もしくは類似の目的
を達成する別の構成、例示した構成と同一もしくは類似
の効果を奏する別の構成なども可能である。また、この
発明の実施の形態で例示した各種構成部分についての各
種バリエーションは、適宜組み合わせて実施することが
可能である。また、この発明の実施の形態は、個別装置
としての発明、関連を持つ2以上の装置についての発
明、システム全体としての発明、個別装置内部の構成部
分についての発明、またはそれらに対応する方法の発明
等、種々の観点、段階、概念またはカテゴリに係る発明
を包含・内在するものである。従って、この発明の実施
の形態に開示した内容からは、例示した構成に限定され
ることなく発明を抽出することができるものである。
【0112】本発明は、上述した実施の形態に限定され
るものではなく、その技術的範囲において種々変形して
実施することができる。
【0113】
【発明の効果】本発明によれば、アンケート作成者が想
定しなかった意外な回答を考慮した効果的な分析が可能
になる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るアンケート分析装置
の構成例を示す図
【図2】質問文章データベースのフォーマット例を示す
【図3】想定回答キーワード表のフォーマット例を示す
【図4】同義語・類義語辞書のフォーマット例を示す図
【図5】個人情報データベースのフォーマット例を示す
【図6】回答文章データベースのフォーマット例を示す
【図7】キーワード抽出部の処理手順の一例を示すフロ
ーチャート
【図8】抽出キーワード表のフォーマット例を示す図
【図9】アンケート相関関係抽出部の処理手順の一例を
示すフローチャート
【図10】意外性キーワード対データベースのフォーマ
ット例を示す図
【図11】意外性アンケートデータベースのフォーマッ
ト例を示す図
【図12】意外回答頻出規則データベースのフォーマッ
ト例を示す図
【符号の説明】
10…質問文章データベース 11…想定回答キーワード表 12…個人情報データベース 13…回答文章データベース 14…抽出キーワード表 15…意外性アンケートデータベース 16…意外性キーワード対データベース 17…意外回答者集団データベース 18…意外回答頻出規則データベース 19…同義語・類義語辞書 21…キーワード抽出部 22…アンケート相関関係抽出部 23…回答規則生成部 30…質問作成インタフェース 31…回答インタフェース 32…分析インタフェース 100…アンケート作成者 101…アンケート回答者
───────────────────────────────────────────────────── フロントページの続き (72)発明者 折原 良平 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 Fターム(参考) 5B075 ND03 NK32 NS03 QP03 UU06

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】複数のアンケート回答者によりそれぞれ記
    述されたアンケート回答文書を、キーワードに基づいて
    分析するアンケート分析装置において、 前記アンケート回答文書に記述されることが想定される
    想定キーワードに関する情報を記憶する記憶手段と、 分析対象とする前記アンケート回答文書から、予め定め
    られた基準を満たす語句を、抽出キーワードとして抽出
    する第1抽出手段と、 前記第1抽出手段により抽出された抽出キーワードを、
    前記記憶手段に記憶された想定キーワードに該当するも
    のと、該当しないものに分類し、該当しない方に分類さ
    れた抽出キーワードを、意外性キーワードとする処理手
    段とを備えたことを特徴とするアンケート分析装置。
  2. 【請求項2】前記アンケート分析装置は、前記記憶手段
    に記憶された想定キーワードの全部又は一部について、
    当該想定キーワードに対して同義又は類義である語句を
    参照するための参照手段を更に備え、 前記処理手段は、前記分類にあたっては、前記抽出キー
    ワードと前記意外性キーワードとが一致した場合だけで
    なく、前記参照手段を参照して得た該想定キーワードに
    対して同義又は類義である語句と該抽出キーワードとが
    一致した場合にも、該抽出キーワードを、該想定キーワ
    ードに該当するものとして分類することを特徴とする請
    求項1に記載のアンケート分析装置。
  3. 【請求項3】前記処理手段は、求めた前記意外性キーワ
    ードについて、分析対象とした前記アンケート回答文書
    での出現状況に関する統計情報をも求めることを特徴と
    する請求項1に記載のアンケート分析装置。
  4. 【請求項4】分析対象とした前記アンケート回答文書
    と、前記処理手段により求められた前記意外性キーワー
    ドとに基づいて、同一のアンケート回答文書内で同時に
    出現する傾向にある複数の意外性キーワードの組に関す
    る情報を抽出する第2抽出手段を更に備えたことを特徴
    とする請求項1に記載のアンケート分析装置。
  5. 【請求項5】前記第2抽出手段は、抽出した前記複数の
    意外性キーワードの組について、分析対象とした前記ア
    ンケート回答文書での同時出現状況に関する統計情報を
    も求めることを特徴とする請求項4に記載のアンケート
    分析装置。
  6. 【請求項6】分析対象とした前記アンケート回答文書
    と、前記処理手段により求められた前記意外性キーワー
    ドとに基づいて、意外性キーワードが所定の基準以上に
    出現するアンケート回答文書を求める手段を更に備えた
    ことを特徴とする請求項1に記載のアンケート分析装
    置。
  7. 【請求項7】前記アンケート回答文書は、当該アンケー
    ト回答文書を記述したアンケート回答者の識別情報と対
    応付けられており、 前記アンケート分析装置は、分析対象とした前記アンケ
    ート回答文書と、前記処理手段により求められた前記意
    外性キーワードとに基づいて、意外性キーワードが所定
    の基準以上に出現するアンケート回答文書を記述したア
    ンケート回答者の識別情報を特定する特定手段を更に備
    えたことを特徴とする請求項1に記載のアンケート分析
    装置。
  8. 【請求項8】前記アンケート回答者の識別情報と対応付
    けられた、当該アンケート回答者の有する複数の個人属
    性情報の属性値を記憶する手段と、 分析対象とした前記アンケート回答文書に対応する前記
    アンケート回答者についての前記属性値と、前記特定手
    段による特定結果とに基づいて、意外性キーワードが所
    定の基準以上に出現するアンケート回答文書を記述する
    傾向にあるアンケート回答者が有する個人属性情報の属
    性値に関する情報を求める手段とを備えたことを特徴と
    する請求項7に記載のアンケート分析装置。
  9. 【請求項9】前記アンケート回答文書を、前記アンケー
    ト回答者側端末からネットワークを介して取得するため
    の手段を更に備えたことを特徴とする請求項1に記載の
    アンケート分析装置。
  10. 【請求項10】複数のアンケート回答者によりそれぞれ
    記述されたアンケート回答文書を、キーワードに基づい
    て分析するアンケート分析方法において、 前記アンケート回答文書に記述されることが想定される
    想定キーワードに関する情報を記憶手段に登録し、 分析対象とする前記アンケート回答文書から、予め定め
    られた基準を満たす語句を、抽出キーワードとして抽出
    し、 抽出された前記抽出キーワードを、前記記憶手段に登録
    された前記想定キーワードに該当するものと、該当しな
    いものに分類し、該当しない方に分類された抽出キーワ
    ードを、意外性キーワードとすることを特徴とするアン
    ケート分析方法。
  11. 【請求項11】複数のアンケート回答者によりそれぞれ
    記述されたアンケート回答文書を、キーワードに基づい
    て分析するアンケート分析装置としてコンピュータを機
    能させるためのプログラムであって、 前記アンケート回答文書に記述されることが想定される
    想定キーワードに関する情報を記憶する想定キーワード
    情報記憶機能と、 分析対象とする前記アンケート回答文書から、予め定め
    られた基準を満たす語句を、抽出キーワードとして抽出
    するキーワード抽出機能と、 前記キーワード抽出機能により抽出された抽出キーワー
    ドを、前記想定キーワード情報記憶機能に記憶された想
    定キーワードに該当するものと、該当しないものに分類
    し、該当しない方に分類された抽出キーワードを、意外
    性キーワードとする意外性キーワード処理機能とをコン
    ピュータに実現させるためのプログラム。
JP2001333190A 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム Expired - Fee Related JP3910823B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001333190A JP3910823B2 (ja) 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001333190A JP3910823B2 (ja) 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2003141303A true JP2003141303A (ja) 2003-05-16
JP3910823B2 JP3910823B2 (ja) 2007-04-25

Family

ID=19148495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001333190A Expired - Fee Related JP3910823B2 (ja) 2001-10-30 2001-10-30 アンケート分析装置、アンケート分析方法及びプログラム

Country Status (1)

Country Link
JP (1) JP3910823B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338697A (ja) * 2006-09-26 2006-12-14 Word Laboratories Inc アンケート項目作成方法、アンケート項目作成装置およびアンケート項目作成プログラム
JP2012027729A (ja) * 2010-07-23 2012-02-09 Ryusys Inc 検索装置、検索方法及びプログラム
CN111831817A (zh) * 2020-07-28 2020-10-27 平安国际融资租赁有限公司 问卷生成分析方法、装置、计算机设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338697A (ja) * 2006-09-26 2006-12-14 Word Laboratories Inc アンケート項目作成方法、アンケート項目作成装置およびアンケート項目作成プログラム
JP2012027729A (ja) * 2010-07-23 2012-02-09 Ryusys Inc 検索装置、検索方法及びプログラム
CN111831817A (zh) * 2020-07-28 2020-10-27 平安国际融资租赁有限公司 问卷生成分析方法、装置、计算机设备及可读存储介质

Also Published As

Publication number Publication date
JP3910823B2 (ja) 2007-04-25

Similar Documents

Publication Publication Date Title
Kaushik et al. A comprehensive study of text mining approach
Thomas et al. Get out the vote: Determining support or opposition from congressional floor-debate transcripts
Biadsy et al. An unsupervised approach to biography production using Wikipedia
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Trappey et al. An R&D knowledge management method for patent document summarization
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
Larkey et al. UMass at TREC 2002: Cross language and novelty tracks
US10586174B2 (en) Methods and systems for finding and ranking entities in a domain specific system
Jochim et al. SLIDE-a sentiment lexicon of common idioms
CN116070599A (zh) 智能化题库生成及辅助管理系统
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
Wang et al. Chinese news event 5w1h elements extraction using semantic role labeling
Ben Abdessalem et al. E-recruiting support system based on text mining methods
Yogish et al. Survey on trends and methods of an intelligent answering system
KR102099364B1 (ko) 사용자 분석 기반의 책쓰기 가이딩 시스템
Al-Ayyoub et al. Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study.
JP3910823B2 (ja) アンケート分析装置、アンケート分析方法及びプログラム
KR102309778B1 (ko) 자연어 처리 기술을 이용한 자기소개서 평가 시스템 및 방법
Navigli et al. Glossextractor: A web application to automatically create a domain glossary
Alepidou et al. A semantic tag recommendation framework for collaborative tagging systems
Hinkelmann A Computational Literature Analysis of Conversational AI Research with a Focus on the Coaching Domain
Romero-Córdoba et al. A comparative study of soft computing software for enhancing the capabilities of business document management systems
Kogilavani et al. Summary generation approaches based on semantic analysis for news documents
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
ER et al. A Balinese folklore digital portal with natural language processing framework

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070125

LAPS Cancellation because of no payment of annual fees