JP2003248689A - 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム - Google Patents

選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム

Info

Publication number
JP2003248689A
JP2003248689A JP2002049537A JP2002049537A JP2003248689A JP 2003248689 A JP2003248689 A JP 2003248689A JP 2002049537 A JP2002049537 A JP 2002049537A JP 2002049537 A JP2002049537 A JP 2002049537A JP 2003248689 A JP2003248689 A JP 2003248689A
Authority
JP
Japan
Prior art keywords
cluster
option
information
central element
central
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002049537A
Other languages
English (en)
Inventor
Takashi Nakagawa
尚 中川
Makiko Katagiri
牧子 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2002049537A priority Critical patent/JP2003248689A/ja
Publication of JP2003248689A publication Critical patent/JP2003248689A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザに分かりやすい選択肢を作成する選択
肢作成装置などを提供すること。 【解決手段】 階層クラスタリングされたデータから、
所定の基準に従って一部または全部のクラスタを抽出す
る。そして、これらのクラスタの中心文群を親クラスタ
から子クラスタへ辿っていき、検索要素の情報より中心
文の情報量が増大した場合、該当子クラスタの中心文
を、所定の情報に対する選択肢もしくは選択肢候補とす
る。また、検索要素と中心文の関連度を計算し、クラス
タの絞込みを行うことにより、漏れのない選択肢の提示
を行うことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は選択肢作成装置など
に関し、例えば、FAQ検索でユーザに提示する選択肢
を作成するものに関する。
【0002】
【従来の技術】物やサービスを顧客に提供する企業など
が、インターネット上に顧客の疑問や質問に答えるため
のサポートサイトを開設することが広く行われている。
これらのサポートサイトでは、顧客などの利用者から入
力された質問事項に対し、それに対する情報を検索して
利用者に提示するようになっている。また、このような
検索システムは、例えばワープロソフトに添付されたヘ
ルプ機能のように、スタンドアローンの形で提供される
場合もある。
【0003】これらの、検索システムでは、例えば、検
索入力文として「印刷」などと入力すると、「印刷」に
関連した選択事項の一覧が表示され、顧客が所望のもの
を選択するようになっている。更には、選択事項が階層
化されており、例えば「印刷」→「はがき印刷」→「は
がきへの宛名印刷」などといったように、上位の階層か
ら下位の階層にかけて検索事項を辿っていくようになっ
ている場合もある。
【0004】このような、利用者に情報を提供する方法
として例えばFAQを用いるものがある。FAQ(Fr
equently Asked Questions)
とは「頻繁に出てくる質問」という意味であり、利用者
が抱くと想定される質問と、その解答をセットにしたも
のである。
【0005】ところで、利用者にとって分かりやすい選
択事項を作成するためには、利用者の質問の傾向を把握
すると共に、短くて曖昧な質問文から、利用者の意図を
明確化していく問題解決木(階層化された選択肢を作成
する元の情報として利用できる)の作成が重要である。
このように、大量のデータから、データの傾向に応じた
問題解決木の作成をするには、従来、データの共起頻度
に頼っていた。テキストデータを対象とした場合の従来
の代表的な例として、特開2001−325101「言
語事例推論方法、言語事例推論装置及び言語言語事例プ
ログラムが記録された記憶媒体」、特開2000−34
8036「文書選択方法、文書選択装置及び記憶媒体」
などが挙げられる。これら従来の方法の場合、決定木の
作成のためにキーワード頻度という単なるベクトル情報
を利用している。
【0006】
【発明が解決しようとする課題】ところが、これら従来
の問題木作成方法では、文構造やモーダルなど、文の意
味を無視した選択肢を作成してしまうといった問題や、
利用者に分かりづらい、単なる単語が選択肢として提示
されるといった問題があった。
【0007】そこで、本発明の目的は、例えばFAQな
どを利用する利用者に分かりやすい選択肢を作成する選
択肢作成装置、選択肢作成方法、及び選択肢作成プログ
ラムを提供することである。
【0008】
【課題を解決するための手段】本発明は、前記目的を達
成するために、請求項1に記載の発明では、検索対象デ
ータを用いて作成した階層クラスタにおいて、当該階層
クラスタを構成するクラスタの中心要素を取得する中心
要素取得手段と、所定の情報と前記取得した中心要素と
の情報量を比較し、前記所定の情報と前記中心要素の情
報量の差が所定の条件を満たしたクラスタを特定するク
ラスタ特定手段と、前記特定されたクラスタの中心要素
を用いて前記所定の情報に関連する選択肢を作成する選
択肢作成手段と、前記作成した選択肢を出力する出力手
段と、を具備したことを特徴とする選択肢作成装置を提
供する。請求項2に記載の発明では、前記クラスタ特定
手段における前記所定の条件は、前記中心要素の情報量
が前記所定の情報の情報量より大きいことを特徴とする
請求項1に記載の選択肢作成装置を提供する。請求項3
に記載の発明では、キーワードなどの検索要素を取得す
る検索要素取得手段と、前記取得した検索要素と、前記
取得した中心要素を比較して、前記階層クラスタを構成
するクラスタのうちの少なくとも一部を特定する一部ク
ラスタ特定手段を更に具備し、前記選択肢作成手段は、
前記クラスタ特定手段、及び前記一部クラスタ特定段で
特定されたクラスタの中心要素を用いて選択肢を作成す
ることを特徴とする請求項1、又は請求項2に記載の選
択肢作成装置を提供する。請求項4に記載の発明では、
前記一部クラスタ特定手段は、前記中心要素が前記検索
要素に類似するか、又は、前記中心要素に前記検索要素
が含まれるクラスタを特定することを特徴とする請求項
3に記載の選択肢作成装置を提供する。請求項5に記載
の発明では、前記所定の情報は、前記検索要素であるこ
とを特徴とする請求項1から請求項4までのうちの何れ
か1の請求項に記載の選択肢作成装置を提供する。請求
項6に記載の発明では、前記所定の情報は、所定のクラ
スタの1階層上のクラスタの中心要素であることを特徴
とする請求項1から請求項4までのうちの何れか1の請
求項に記載の選択肢作成装置を提供する。請求項7に記
載の発明では、前記所定の情報は、所定のクラスタより
上層にあり、かつ前記所定のクラスタが系属するクラス
タの中心要素のうち、最も情報量の多い中心要素である
ことを特徴とする請求項1から請求項4までのうちの何
れか1の請求項に記載の選択肢作成装置を提供する。請
求項8に記載の発明では、文章データを含む前記検索対
象データを取得するデータ取得手段と、前記取得した検
索対象データに含まれる文章データの相互間の類似度を
用いて、前記階層クラスタを作成するクラスタ作成手段
と、を更に具備したことを特徴とする請求項1から請求
項7までのうちの何れか1の請求項に記載の選択肢作成
装置を提供する。請求項9に記載の発明では、前記出力
した選択肢を選択可能なように提示する選択肢提示手段
と、前記提示した選択肢から選択されたものに対応する
クラスタに前記検索対象データが関連付けられていた場
合に、当該検索対象データを提示するデータ提示手段
と、を更に具備したことを特徴とする請求項1から請求
項8のうちの何れか1の請求項に記載の選択肢作成装置
を提供する。請求項10に記載の発明では、中心要素取
得手段と、クラスタ特定手段と、選択肢作成手段と、出
力手段と、を備えたコンピュータにおいて、前記中心要
素取得手段で、検索対象データを用いて作成した階層ク
ラスタにおいて、当該階層クラスタを構成するクラスタ
の中心要素を取得する中心要素取得ステップと、前記ク
ラスタ特定手段で、所定の情報と前記取得した中心要素
との情報量を比較し、前記所定の情報と前記中心要素の
情報量の差が所定の条件を満たしたクラスタを特定する
クラスタ特定ステップと、前記選択肢作成手段で、前記
特定されたクラスタの中心要素を用いて前記所定の情報
に関連する選択肢を作成する選択肢作成ステップと、前
記出力手段で、前記作成した選択肢を出力する出力ステ
ップと、から構成されたことを特徴とする選択肢作成方
法を提供する。請求項11に記載の発明では、検索対象
データを用いて作成した階層クラスタにおいて、当該階
層クラスタを構成するクラスタの中心要素を取得する中
心要素取得機能と、所定の情報と前記取得した中心要素
との情報量を比較し、前記所定の情報と前記中心要素の
情報量の差が所定の条件を満たしたクラスタを特定する
クラスタ特定機能と、前記特定されたクラスタの中心要
素を用いて前記所定の情報に関連する選択肢を作成する
選択肢作成機能と、前記作成した選択肢を出力する出力
機能と、をコンピュータに実現させるための選択肢作成
プログラムを提供する。
【0009】
【発明の実施の形態】以下、本発明の好適な実施の形態
について詳細に説明する。 (1)実施形態の概要 検索対象として使用するデータ要素群をデータ間の類似
度を基に階層クラスタリングし、クラスタの中心文(中
心要素、例えば「印刷」などとなる)を所定の方法で算
出する。選択肢を作成するための種となる情報(例えば
「印刷」)を設定する。この情報は、ユーザが入力した
検索入力文などから作成される。なお、検索対象データ
には、クラスタリングするための文章データが含まれて
いる。
【0010】次に、この種となる情報と一致又は類似す
る中心文を持ったクラスタを特定し、これらのクラスタ
の中心文を親クラスタから子クラスタへ辿っていく。一
般に下層のクラスタに行くほど中心文の情報量が増え
る。そして、中心文の情報量が増大し、所定の基準を超
えた場合、該子クラスタの中心文を、選択肢もしくは選
択肢候補とする。
【0011】例えば、図3で、クラスタ5の中心文は
「印刷」である。そして、その下層側に生成されたクラ
スタ「はがき印刷」→クラスタ「はがき宛名印刷」と辿
っていき、データ5aに辿り着く。データ5aには、は
がき宛名印刷に関する情報が格納されており、ユーザに
提供するための情報である。同様に、クラスタ5→クラ
スタ「はがき印刷」→クラスタ「はがき裏面印刷」と辿
っていき、データ5bに辿り着く。以下、同様にしてデ
ータ5c〜データ5fが、それぞれクラスタ「ラベルの
紙に出す」、クラスタ「長尺印刷」、クラスタ「印刷」
の下に置かれる。
【0012】中心文のデータ量の計算方法は、例えば、
中心文の文字数など種々考えられるが、適当な方法で、
種となる情報「印刷」の情報量と、子クラスタの中心文
「はがき印刷」、「ラベル印刷」、「長尺印刷」、・・
・、など情報量を計算する。そして、種となる情報「印
刷」の情報量と子クラスタの中心文の情報量の差が所定
の条件を満たした場合(例えば、「印刷」の情報量より
子クラスタの中心文の情報量が大きい場合)、システム
は、その子クラスタの中心文、即ち「はがき印刷」、
「ラベル印刷」、「長尺印刷」を選択肢として提示す
る。
【0013】また、「印刷」という文との類似度を用い
ることにより、クラスタ5とは別の枝に属するデータ6
aの中心文「印刷の設定」をもユーザに提示することを
可能とする。
【0014】(2)実施形態の詳細 図1は、本実施の形態の選択肢作成装置1のハードウェ
ア的な構成の1例を示したブロック図である。選択肢作
成装置1は、制御部26にバスライン43を介して入力
装置34、出力装置38、通信制御部42、記憶装置4
8、記憶媒体駆動装置46、入出力インターフェース4
4などが接続して構成されている。
【0015】制御部26は、予め用意した検索用のデー
タ(例えばFAQ用のデータ)からクラスタを生成した
り、クラスタの中心文の情報量を計算したりなどの情報
処理を行うほか、選択肢作成装置1全体の制御などを行
う。制御部26は、CPU28、ROM(Read O
nly Memory)30、RAM(Random
Access Memory)32などから構成されて
いる。
【0016】CPU28は、所定のプログラムに従っ
て、情報処理や選択肢作成装置1の制御を行ったりす
る。CPU28は、レジスタと呼ばれる記憶部を有して
おり、このレジスタにROM30やRAM32などから
プログラムを読込んで、このプログラムに従って動作す
ることにより制御部26の各種機能が発揮される。
【0017】ROM30は、CPU28が各種演算や制
御を行うための各種プログラム、データ及びパラメータ
などを格納したリードオンリーメモリである。CPU2
8は、ROM30からプログラムやデータ、パラメータ
などを読み込むことはできるが、これらを書き換えたり
消去することは一般に行わない。
【0018】RAM32は、CPU28にワーキングメ
モリとして使用されるランダムアクセスメモリである。
CPU28は、RAM32にプログラムやデータなどを
書き込んだり消去したりすることができる。本実施の形
態では、RAM32には、CPU28がクラスタを生成
したりなど、選択肢を作成するのに必要なエリアが確保
可能となっている。
【0019】入力装置34は、例えばキーボードやマウ
スなどの入力装置から構成されている。入力装置34
は、選択肢作成装置1に対して文字や数字などの各種デ
ータを入力するための装置であり、ユーザが選択肢作成
装置1に検索入力文を入力したりなど、選択肢作成装置
1に対して所定の入力操作を行う際に使用する。キーボ
ードは、カナや英文字などを入力するためのキーや数字
を入力するためのテンキー、各種機能キー、カーソルキ
ー及びその他のキーによって構成されている。
【0020】マウスは、ポインティングデバイスであ
る。GUI(Graphical User Inte
rface)などを用いて選択肢作成装置1を操作する
場合、表示装置上に表示されたボタンやアイコンなどを
マウスでクリックすることにより、所定の情報の入力を
行うことができる。
【0021】出力装置38は、例えば表示装置、印刷装
置などから構成されており、選択肢作成装置1が作成し
たデータを出力する際に使用する。表示装置は、例えば
例えばCRT(Cathode Ray Tube)デ
ィスプレイ、液晶ディスプレイ、プラズマディスプレイ
などで構成された情報を画面上に提示するための装置で
ある。表示装置には、ユーザが選択肢を作成するために
入力する検索入力文を入力する欄や、選択肢作成装置1
が作成した選択肢を表示したりなどする。印刷装置は、
例えば、インクジェットプリンタ、レーザプリンタ、熱
転写プリンタ、ドットプリンタなどの各種プリンタ装置
によって構成されている。
【0022】通信制御部42は、選択肢作成装置1をイ
ンターネットなどのネットワークに接続するための装置
であって、モデム、ターミナルアダプタ、その他の接続
装置によって構成されている。選択肢作成装置1は、通
信制御部42を用いて、外部の端末やサーバにアクセス
することが可能である。また、本実施の形態では、選択
肢作成装置1をスタンドアローンして使用する場合につ
いて説明するが、通信制御部42を用いて外部の端末に
選択肢作成機能を提供するサーバ装置とすることも可能
である。
【0023】記憶装置48は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータを読み書
きするための駆動装置によって構成されている。当該記
憶媒体として主にハードディスクが使用されるが、その
他に、例えば、光磁気ディスク、磁気ディスク、半導体
メモリなどの他の読み書き可能な記憶媒体によって構成
することも可能である。
【0024】記憶装置48には、選択肢作成プログラム
51、クラスタリング対象データベース53(何れも後
述)の他、メモリ管理や入出力管理など選択肢作成装置
1を動作させるための基本的なプログラムであるOS
(Operating System)や選択肢作成装
置1にサーバ機能を発揮させるためのサーバプログラ
ム、通信制御部42を制御し、選択肢作成装置1とネッ
トワークでつながれた端末装置やサーバ装置との通信を
制御する通信プログラム、その他の各種プログラムやデ
ータベースが記憶されている。記憶装置48は、CPU
28がデータを取得するデータ取得手段を構成してい
る。
【0025】CPU28は、記憶装置48の駆動装置を
駆動することにより、記憶装置48に対してプログラム
やデータの読み書きを行うことができる。記憶媒体駆動
装置46は、着脱可能な記憶媒体を駆動してデータの読
み書きを行うための駆動装置である。着脱可能な記憶媒
体としては、例えば、光磁気ディスク、磁気ディスク、
磁気テープ、半導体メモリ、データをパンチした紙テー
プ、CD−ROMなどがある。なお、CD−ROMや紙
テープは、読み込みのみ可能である。
【0026】入出力インターフェース44は、例えば、
シリアルインターフェースやその他の規格のインターフ
ェースにより構成されている。入出力インターフェース
44に当該インターフェースに対応した外部機器を接続
することにより、選択肢作成装置1の機能を拡張するこ
とができる。このような外部機器として例えば、ハード
ディスクなどの記憶装置、スピーカ、マイクロフォンな
どがある。ユーザは、検索入力文をマイクロフォンから
発話内容として入力することも可能である。
【0027】図2は、選択肢作成システム2の論理的な
構成の1例を示したブロック図である。選択肢作成シス
テム2は、選択肢作成プログラム51がCPU28によ
って実行され、ソフトウェア的に実現されるものであ
る。以下に、各構成要素について他の図面を参照しなが
ら説明する。
【0028】入力部15は、入力データを、入力装置3
4や記憶装置48に格納されたファイルなどからのデー
タ入力を中央処理部11へ渡すモジュールである。入力
データとしては、例えば、表示装置に表示された検索画
面から入力された検索入力文などがある。入力部15
は、検索要素(キーワードなどの検索文)を取得する検
索要素取得手段を構成している。出力部16は、中央処
理部11が出力した処理結果(例えば作成した選択肢)
などを、出力装置38や記憶装置に格納されたファイル
などへ出力するモジュールである。出力部16は、作成
した選択肢を出力する出力手段を構成している。
【0029】類似度判定部10は、クラスタリング部1
4がクラスタリングを行う際などに、データ間の類似度
を算出するモジュールであり、類似度取得手段を構成し
ている。情報量比較部12は、2つのデータを比較し、
どちらのデータがより多くの情報を保持しているかを判
定するモジュールであり、情報量比較手段を構成してい
る。情報量増加の基準としては、例えばテキストデータ
の場合、文構造解析の結果、新たな意味が追加されたこ
とが判明したことを根拠としてもよいし、より簡便に
は、文節数や文字数の増大も、根拠として利用し得る。
情報量の計算方法は、限定せずに各種のものを広く採用
することができる。
【0030】クラスタリング対象データベース53は、
クラスタリングを行うためのデータを格納したデータベ
ースであり、本実施の形態では記憶装置48に設けられ
ている。これらのデータは、例えばFAQ用のデータな
どの、ユーザの検索要求に対して提供するデータであ
る。クラスタリング部14は、クラスタ対象データベー
ス内のデータを類似度などを基にしてクラスタリング
し、クラスタごとの中心文を算出するモジュールであ
る。クラスタ中心文は、例えばクラスタの重心・最頻値
などから算出するなど、任意の方法を用いて良い。この
ように、クラスタリング部14は、中心要素特定手段
と、クラスタ作成手段を構成している。
【0031】中央処理部11は、選択肢作成プログラム
51に従って各種情報処理や演算を行うほか、処理全体
の流れを統括し、他のモジュールへのデータ振り分けを
行うモジュールである。例えば、中央処理部11は、例
えば、類似度判定部10を用いて検索要素と各クラスタ
の中心文との類似度を取得するなど、検索要素と各クラ
スタの中心文を比較して、特定の(例えば類似する中心
文を持つ)クラスタを特定したり(一部クラスタ特定手
段)、あるいは、情報量比較部12を用いて検索要素の
情報量と各クラスタの中心文の情報量とを比較して、例
えば検索要素よりも情報量が多い中心文を持つクラスタ
を特定したりする(クラスタ特定手段)。
【0032】更に、中央処理部11は、一部クラスタ特
定手段とクラスタ特定手段で特定されたクラスタの中心
部から選択肢を作成し、出力部16に出力する(選択肢
作成手段)。なお、本実施の形態では、一部クラスタ特
定手段にて特定されたクラスタに対して、クラスタ特定
手段を用いて更にクラスタを特定することとしたが、こ
れに限定するものではなく、全てのクラスタに対して一
部クラスタ特定手段でクラスタを特定し、更に全てのク
ラスタに対してクラスタ特定手段でクラスタを特定し、
両方の手段で特定されたクラスタを抽出しても良いし、
又はクラスタ特定手段で特定されたクラスタに対して一
部クラスタ特定手段で更にクラスタを特定しても良い。
【0033】また、CPU28は、選択肢作成プログラ
ム51を実行することにより、選択肢作成システム2を
構成するほか、図示しないデータ提示システムをも構成
する。データ提示システムは、選択肢提示手段とデータ
提示手段などから構成されている。選択肢提示手段は、
出力部16から出力された選択肢を表示装置などを用い
てユーザが選択可能なように提示すると共に、ユーザが
選択した選択肢を特定する機能を有している。データ提
示手段は、選択肢提示手段から、ユーザが選択した選択
肢を特定する情報を取得する。この選択肢に関連付けら
れたクラスタが最下層のものであった場合、そのクラス
タによりクラスタ対象データベース53に格納された検
索データが特定できる。データ提示手段は、このように
クラスタ対象データベース53内の検索対象データを検
索し、表示装置などで提示する。また、選択肢に関連付
けられたクラスタが最下層でない場合でも、該当クラス
タから子孫クラスタを辿っていき、下位の最下層クラス
タ群から、検索データ群が特定できる。
【0034】図3は、クラスタリング部14がクラスタ
リングによって作成した内部階層クラスタ3の1例を示
した図である。内部階層クラスタ3は、選択肢を作成す
るためにRAM32上に展開されたものである。ここで
は、クラスタリングに使用されたデータは、1例とし
て、クラスタリング対象データベース53に格納されて
いた次のファイルであるとする。[はがき宛名印刷]、
[はがき裏面印刷]、[はがき印刷]、[ラベルの紙に
出す]、[長尺印刷]、[印刷]、[印刷の設定]、
[書式設定]、[設定]、[A社のワープロで作成した
ファイルをB社のワープロで開く]、[B社のワープロ
で作成したファイルをA社のワープロで開く]、[作成
したファイルを開く]、[上書き保存してしまった]、
[上書き保存したい]、・・・。
【0035】図に示した内部階層クラスタ3では、類似
度の高い文(中心文)ほど、下位階層(右側)で分岐し
ている。ルートクラスタ(全てのデータを含む、一番上
位のクラスタ)や、他のデータを含むクラスタなどは省
略している。また、親クラスタ(クラスタ5〜8)の中
心文、即ちクラスタ中心文は、"中心文「〜」"と記載
し、子クラスタの中心文は”「〜」”と、省略して記載
してある。
【0036】本システムでは、類似度判定部10の機能
により、構成単語が同じだが意味の異なる中心文を区別
することもできる。これによって、[A社のワープロで
作成したファイルをB社のワープロで開く]、[B社の
ワープロで作成したファイルをA社のワープロで開く]
などを区別することができる。また同様に、類似度判定
部10の機能により、類義表現を吸収することもでき
る。この機能によって、クラスタ「ラベルの紙に出す」
の中心文を「ラベルに印刷する」という文と同等に扱う
ことができる。
【0037】図4は、クラスタリング部14が行ったク
ラスタリング結果の内容を表示装置に表示した1例を示
した図である。図中の表は、内部階層クラスタ3から一
定の閾値(類似度やクラスタ数)でグループ化した分類
結果を示している。この結果、印刷に関連する検索クエ
リー(データ)が最も多く、次にファイル、罫線、グラ
フに関するデータが多いことが分かる。この表では、ク
ラスタの中心文のみを代表として表示しているが、クラ
スタ内の全てのデータを表示して、より詳細な情報を提
示することも可能である。
【0038】図5は、内部階層クラスタ3のうち、「印
刷」という検索要素(キーワードなど)に対する関連度
が高いクラスタ群3aの1例を示した図である。検索要
素は、選択肢を作成するための種となる文である。検索
要素は、ユーザにキーワードを入力してもらい、これを
そのまま利用しても良いし、あるいは、ユーザが入力し
た検索入力文から抽出するなど、検索入力文から生成し
てもよい。
【0039】親クラスタの中心文は、”中心文「〜」”
と記載し、子クラスタの中心文は”「〜」”と、省略し
て記載してある。関連度を調べる検索要素は、各種考え
られるが、ここでは一例として「印刷」を取り上げた。
クラスタ群3aは、選択肢を作成するための問題解決木
を構成している。
【0040】これら、関連度は、中央処理部11が内部
階層クラスタ3の各中心文に対して検索要素「印刷」と
の類似度を計算した結果を用いて計算されたものであ
る。関連度は1に近いほど当該検索要素との関連が大き
く、0に近づくと当該検索要素との関連度が小さくなる
ことを表している。また、この変形例としては、検索要
素を用いてあるクラスタを特定し、この中心要素と他の
クラスタの中心要素との関連度を求めても良い。
【0041】クラスタの関連度としては、中心文の関連
度を採用しても良いし、クラスタを構成する全ての文の
関連度を平均しても良い。文同士の関連度としては、類
似度を利用しても良いし、より簡便には、共通する単語
の数・割合などを利用しても良い。
【0042】また、図では、各クラスタに関連度と共に
文数も記載してある。文数はそのクラスタに属するデー
タの数である。例えば、クラスタ5にはデータ5a〜5
fまでの6個のデータが属している。
【0043】計算の結果、クラスタ5の下位階層にある
クラスタは関連度が0より大きく1以下となっており、
何れも検索要素「印刷」との関連が認められる。また、
クラスタ5とは別の枝に分類されたクラスタ「印刷の設
定」(クラスタ6に分類されている)も関連度が0.7
となり、検索要素「印刷」との関連が認められる。この
ように、クラスタの枝を辿る際に、関連度をも考慮する
と、別の枝に分類されているが検索要素と関連の認めら
れるデータ(ここではデータ6a)の検索漏れを防止す
ることができる。
【0044】図6は、中央処理部11が行ったクラスタ
絞込みの結果の1例を示した図である。この絞込み結果
は、ユーザに提示することもできる。中央処理部11
は、ユーザに提示する選択肢を作成するために、クラス
タの絞込みを行う。絞込みは、ルートクラスタから下位
階層のクラスタへ関連度を調べていき、関連度が所定の
閾値(例えば0.1)以上のものをピックアップするこ
とにより行う。
【0045】図6では、検索要素「印刷」に対する関連
度によってソートされたクラスタの中心文が提示されて
いる。図6の中心要素が「印刷」で文数が「6」のクラ
スタの下位には、さらに「印刷」と関連度の高いクラス
タが存在するが、どのクラスタも前記クラスタの類似度
を超えないため、表示が省略され、1つのクラスタとし
てまとめて表示されている。
【0046】このように、本実施の形態では、ルートク
ラスタから下位階層へ向けて関連度を調べていき、所定
の関連度を上回るクラスタがあった場合、更にその下位
階層で所定の関連度を上回るクラスタは、最もルートク
ラスタに近いクラスタの中心文でまとめて表示すること
とした。また、本実施の形態では、表に表示する情報
は、クラスタの中心文を代表として表示しているが、ク
ラスタ内の全ての文を表示させて、より詳細な情報を提
示することもできる。
【0047】また、クラスタ「印刷の設定」(クラスタ
6の下位に位置する)のように、「印刷」と「設定」ク
ラスタの境界に位置するデータは、どちらのクラスタに
所属してもおかしくないが、階層クラスタリングの場
合、どちらか一方にしか所属できない。内部階層クラス
タ3に示したように、クラスタ5とクラスタ6が親子関
係にない場合、クラスタ5だけに注目していたのでは、
2つの枝の境界にあるクラスタ「印刷の設定」を見逃す
場合がある。しかし、クラスタ絞込みによって、関連す
るクラスタを抽出することにより、このような境界にあ
るデータを見落とすことなく、拾い上げることができ
る。このように、関連度を用いて絞込みすることによ
り、階層クラスタリングの結果を補正することができ
る。
【0048】図7は、選択肢作成システム2が、ユーザ
が入力した検索要素に対して選択肢を提示する手順を示
した図である。図7(a)は、表示装置に表示された入
力欄61と入力ボタン62を示している。入力欄61
は、選択肢の種を入力する入力ボックスであり、入力ボ
タン62は、現在入力されている選択肢の種で、処理を
開始させるためのボタンである。ユーザは、入力欄61
から検索入力文を入力するようになっている。検索入力
文を入力欄61に入力した段階では、単にこの検索入力
文が入力欄61に表示されているだけである。
【0049】入力ボタン62は、CPU28に入力欄6
1に入力された検索入力文を用いて選択肢の作成を開始
させるためのボタンである。入力欄61にキーワードを
入力した後、入力ボタン62に対して、例えば、マウス
操作によりクリックするなどの所定の操作を行うと、C
PU28が選択肢作成プログラム51に従って、選択肢
の作成を開始する。
【0050】図7(b)は、選択肢表示欄の1例を示し
た図である。この図では、検索要素「印刷」を用いて作
成された選択肢(候補)の1例を示している。検索要素
「印刷」に対する関連度の高い2つのクラスタ(図6に
示したクラスタ5「印刷」及びクラスタ「印刷の設
定」)に対して、「印刷」より中心文の情報量が多くな
るまで、分割を繰り返し、図中の選択肢を得たものであ
る。
【0051】作成された選択肢はユーザがマウス操作な
どにより任意の1つを選択できるようになっている。選
択された選択肢はハイライトされる。本実施の形態で
は、クラスタ3aを関連度を基に絞り込むため、クラス
タ5に継続しないクラスタ「印刷の設定」も選択肢「印
刷の設定」として表示される。
【0052】図7(c)は、文例表示欄の1例を示した
図である。文例表示欄は選択肢表示欄と同じ画面上に表
示され、選択肢表示欄で選択された選択肢に関する文例
が表示される。この文例をマウス操作でクリックするな
どすると、その文例で表されるデータが表示される。こ
れらの文例は、図7(b)で選択した選択肢を中心部と
して持つクラスタの下位に位置する全ての最下層クラス
タから、検索データ群を抽出したものである。これによ
って、該当選択肢が、実際にどのような文例を集約して
提示されているかを確認可能である。
【0053】図8は、選択肢作成システム2の動作を説
明するためのフローチャートである。以下の各構成要素
の動作は、CPU28が選択肢作成プログラム51に従
って行うものである。まず、中央処理部11は、クラス
タリング対象データベース53からデータを読み出す。
そして、類似度判定部10を起動し、これらデータ間の
類似度を求める。次に、中央処理部11は、クラスタリ
ング部14を起動する。クラスタリング部14は、類似
度を用いて内部階層クラスタ3を作成する(ステップ
5)。クラスタリングの際に、各クラスタの中心文の抽
出も行う。
【0054】次に、中央処理部11は、入力部15から
選択肢を作成するための種となる検索要素を取得する
(ステップ10)。又は、中央処理部11が、入力部1
5から検索入力文を取得し、これからキーワードを抽出
するなどして検索要素を作成するように構成しても良
い。この検索要素は、例えば「はがき印刷」、「長尺印
刷」などの選択肢を導出するための「印刷」などであ
る。
【0055】次に、中央処理部11は、取得した検索要
素に対する各クラスタの関連度を類似度などを用いて計
算する。次に、中央処理装置11は、算出した関連度
や、関連度に対して設定された所定の閾値などを用いて
クラスタ群の絞込みを行う(ステップ15)。次に、中
央処理部11は、絞り込まれたクラスタ群のうち、任意
の1つを選択する(ステップ20)。
【0056】次に、中央処理部11は、情報量比較部1
2を起動し、選択したクラスタの中心文と検索要素との
情報量の比較を行う(ステップ25)。比較の結果、選
択したクラスタ中心文の情報量が検索要素の情報量より
も多い場合は(ステップ25;Y)、選択したクラスタ
を選択肢クラスタとして選択肢クラスタ群に登録する
(ステップ30)。登録は当該選択肢クラスタを特定す
る情報をRAM32の所定のエリアに格納することによ
り行われる。
【0057】次に、中央処理部11は、選択したクラス
タをステップ15にて絞り込まれたクラスタ群から削除
する(ステップ35)。一方、ステップ25で、選択し
たクラスタの中心文の情報量が検索要素の情報量以下の
場合、中央処理部11は、選択したクラスタの子クラス
タをステップ15で絞り込まれたクラスタ群に追加し
(ステップ50)、選択したクラスタをステップ15に
て絞り込まれたクラスタ群から削除する(ステップ3
5)。
【0058】中央処理部11は、ステップ35の処理を
終えた後、ステップ15で絞り込まれたクラスタ群に含
まれる全てのクラスタが(ステップ50で追加されたク
ラスタを含む)選択されたかどうかを判断する(ステッ
プ40)。全てのクラスタが選択された場合は(ステッ
プ40;Y)、選択肢クラスタ群の中心文を選択肢とし
て出力部16に出力する。出力した選択肢は、表示装置
で提示される(ステップ45)。
【0059】一方、ステップ40において、中央処理部
11が、絞り込まれたクラスタ群のうち、選択されてい
ないクラスタがあると判断した場合は(ステップ40;
N)、ステップ20に戻り、絞り込まれたクラスタ群の
うち、任意の1クラスタを選択する。
【0060】以上に説明した本実施の形態では、以下の
ような効果を得ることができる。データ間の類似度を元
に、ユーザに分かりやすい選択肢を提示できる問題解決
木(クラスタ群3a)を作成できる。データ間の類似度
には、データの共起頻度などのベクトル化できる情報の
他に、データ間の関係など、容易にベクトル化できない
情報も含めることができるため、問題解決木の性能が向
上する。例えば、テキストデータの場合、単なる単語頻
度でなく、文構造やモーダルなどの情報を反映すること
ができ、それによって文に意味による情報を含めて問題
解決木を作成できる。
【0061】(実施例1)本実施例では、1例として、
ヘルプデスクの検索クエリー集合から、頻出クエリーと
してFAQに登録すべきクエリーを抜き出し、曖昧なク
エリーに対しては、選択肢を設けて、ユーザの意図を汲
み取ることができるデータを構築する例を示す。
【0062】ヘルプデスクのFAQ検索システムへのク
エリーに対応するため、データ間の文構造類似度を基に
階層クラスタリングを行い、クラスタごとに中心文を決
定する。文構造類似度の算出手段としては、例えば、特
願2001−95891号の「自然文マッチング装置、
自然文マッチング方法、及び自然文マッチングプログラ
ム」で使用した手法(後述)などを用いることができ
る。この手法を用いると、語意の違いを吸収して、意味
が近い文の類似度を上げることができる。
【0063】階層クラスタリングを行う手法は、例え
ば、群平均法、重心法、ウォード法などを利用すること
ができる。中心文の決定方法は、例えば、同一クラスタ
内の他の事例文との類似度の和が最も大きい文を選択す
る方法、同一クラスタ内の最も類似度の低い文の類似度
が最も高い文を選択する方法などが利用できる。
【0064】クラスタリングの結果から、所定の類似度
や、所定のクラスタ数などを閾値として、クラスタ結果
をグループにまとめ、クラスタの中心文と共に、クラス
タをデータ数の大きい順にソートして提示する。この結
果が思わしくない場合は、類似度やクラスタ数を修正し
て、提示を繰り返す。その結果、ソートされたクラスタ
の中心文によって、クエリーのおおよその傾向がつか
め、優先的にFAQとして登録すべき文例が判明する
(図4参照)。
【0065】その後、上位のクラスタの中心文を検索要
素(種となる文)として、関連するクラスタを検索す
る。このとき、検索要素と類似度の高い中心文を持つク
ラスタや、検索要素と類似度の高い文を高い割合で持つ
クラスタを自動的に選択する。又は、類似度の高い順に
クラスタを提示して、ユーザに選択させることも可能で
ある。ただし、ユーザに提示する場合は、親子関係にあ
るクラスタのうち、子クラスタの類似度が低い場合は、
この子クラスタを提示しないなどの、情報の冗長性を省
く工夫をすることが望ましい。
【0066】この結果、上位クラスタと、それに関連す
る小クラスタが取得でき、前記クラスタ結果のグループ
化の結果が多少思わしくなく、関連する情報が複数グル
ープに分散した場合でも、その結果を補正する機会を与
えることができる。
【0067】その後、当該上位クラスタの中心文、又
は、ユーザが入力した検索要素を基に、図8のフローチ
ャートに従って処理を行い、クラスタの中心文が検索要
素より大きい情報量を持つようになるまで分割を続け
る。情報量の増加の判断としては、文構造解析の結果、
追加の意味が生じたことを根拠としても良いし、より簡
便には、文節数や文字数などの増加も根拠として利用で
きる。
【0068】この結果、元となる検索要素に対する選択
肢が、追加の情報を持つクラスタの中心文として抽出で
きる(図7参照)。ここから、さらに再帰的に、さらに
追加の情報をもつクラスタを探索し、更に深い選択肢フ
ローを作成しても良い。
【0069】(検索入力文と事例文との照合方法)次
に、特願2001−095891号の「自然文マッチン
グ装置、自然文マッチング方法、及び自然文マッチング
プログラム」で使用した手法を用いてデータの類似度を
求める方法について説明する。
【0070】自然文で構成されたデータの類似度を文構
造を用いて計算するために、類似度判定部10(図2)
を例えば以下のように構成する。なお、これは1例であ
って、類似度判定部10の構成を限定するものではな
く、他の構成、あるいはアルゴリズムを用いて事例文照
合処理を行うように構成しても良い。
【0071】図9は、類似度判定部10(図2)の構成
の1例を示した図である。類似度判定部10は、語彙辞
書125、格フレーム辞書126、属性辞書127、文
構造データベース128を備えている。
【0072】データ116は、中央処理部11がクラス
タリング対象データベース53から読み込んだデータを
類似度判定部10に入力したものである。データ116
は、例えば、人間の自然な言語である自然文で構成され
ている。形態素解析部117は、入力されたデータ11
6の形態素解析を行い、その結果を形態素リストとして
文節解析部118に出力する。形態素とは、文節より更
に細かく、語句を自立語と付属語のレベルまで区分した
ものである。
【0073】文節解析部118は、形態素リストから文
節リストを作成する。文節の作成は、基本的に形態素リ
ストにある自立語と付属語をあわせて文節とする。ま
た、人名や地名などの概念を処理する必要が出てくる場
合もあるため、形態素解析の結果から得られる具体的な
数値、人名、地名などの情報も文節リストに付与する。
また、アルファベットやカタカナ、記号などの正規化処
理も行う。
【0074】なお、正規化処理とは、文字コードの全
角、半角やアルファベットの大文字や小文字、漢字の異
体字をある一定のものに揃える処理のことである。例え
ば、全角のアルファベットを半角小文字に、半角文字の
カタカナを全角文字に、異体字を常用漢字に揃える処理
を考えると、全角文字の「Alphabet」は半角文
字の「Alphabet」に、半角の「カタカナ」は全
角文字の「カタカナ」に、「渡邊」は「渡辺」に変換す
ることができる。
【0075】語彙処理部119は、文節解析部118か
ら文節リストを取得し、語彙辞書125を用いて該文節
リストに意味的な情報を付与していく。意味的な情報と
しては、例えば、同義語、類義語、多義語、同音異義
語、概念情報などがある。これらの情報は、語彙辞書1
25にテーブル化されて記憶されている。概念情報に
は、赤や青などの概念である色や西や東などの概念であ
る方向などのほか、地名や人名などの特殊概念が存在す
る。後に説明するように、本実施の形態では、特殊概念
を用いて、形態素解析時に数値、人名、地名なども概念
処理できるようにした。また、後に述べるように、例え
ば、9時20分などの時間に関する表現も概念に含める
ことができる。
【0076】格フレーム処理部120は、意味を付与さ
れた文節リストを語彙処理部119から取得し、動詞に
対する目的語と思われる語句を表層格と概念から決定す
る。なお、そのときに、文節リストに深層格の情報を付
与することができる。例えば、検索入力文が「サーバに
メールを送る」である場合、動詞は「送る」であり、こ
の動詞に対する目的語は表層格で「を格」であり、深層
格で「対象格」である「メール」である。通常動詞の目
的語は、「〜を」の形で表記され、これを表層格では
「を格」と呼ばれる。また、動詞の目的語は、意味的に
は、その動詞の動作の対象となるので、深層格では「対
象格」と呼ばれる。
【0077】また、格フレーム辞書126には、様々な
語句に対応する格フレームが記憶してある。格フレーム
とは、例えば、「送る」という語句は、表層格では「〜
に〜を送る」又、深層格では「(相手)に(対象格)を
送る」というフレーム(構造)を持ち、「に格」、「相
手格」には、人名という概念が対応し、「を格」、「対
象格」には、メール、手紙などが対応するといったこと
がテーブルとなって記憶されたものである。格フレーム
処理部120は、文節リストの目的語と思われる語句を
決定した後、格フレーム辞書126を参照して、どの程
度、入力文が格フレームにマッチしているかを判断す
る。
【0078】格フレーム辞書126の格フレームの情報
から検索入力文がどの格フレームにマッチしているのか
を決定するときに、情報が足りない場合や、語彙情報が
足りない場合がある。このような場合は、例えば、深層
格の情報のみでマッチングするなどマッチングの条件を
緩めて処理を行う。このように、マッチングの条件を緩
めることにより、本来マッチングが困難な場合にもそれ
なりにマッチングを行うことができる。
【0079】データ116を格フレームとマッチングす
る際に、表層格及び概念(又は表記)が一致する場合は
ランク1とし、ランク1のものが無ければ、概念(又は
表記)のみが一致するもの、又は表層格のみが一致する
ものを探し、これをランク2とする。ランク1及びラン
ク2のものが無ければ、一般的な係り受けの情報を採用
し、これをランク3とする。一般的な係り受けの情報と
は、「を格」は動詞に係る、「に格」は、動詞、又はサ
変名詞に係るといった情報である。格フレーム処理を行
った結果、格フレームの深層格の情報やどのランクで一
致したかという情報を持った文構造が格フレーム処理部
120により生成される。
【0080】属性付与部121は、文構造(文節)の情
報に、例えばコマンドのパラメータの情報などの、FA
Qプログラムや装置などに依存した情報を付与する。こ
れらの情報は属性辞書127に記憶されている。特殊概
念を属性とした場合の値は、特殊概念の値をそのまま属
性値とすることができる。例えば、概念で処理した人
名、地名、数値、時間などは、入力された値をそのまま
属性にすることができる。
【0081】マッチング処理部122は、属性付与部1
21から文構造を取得し、これを文構造データベース1
28に格納すると共に、新たに属性付与部121から取
得した文構造を、既に文構造データベース128に格納
してある文構造と類似度を計算して、算出した類似度1
23を中央処理部11に出力する。
【0082】マッチング処理部122が取得する文構造
は、語彙情報、格フレーム情報、格フレームとマッチン
グした際のランク、属性情報などを含んでいる。マッチ
ング処理部122は、文構造データベース128に既に
格納した各文構造との一致度を求め、比較されたデータ
を特定する情報と、該データ間の類似度123を中央処
理部11に出力する。事例文同士の一致度は、2つの文
構造がどれくらい一致しているかを求めるもので、文節
の情報と係り受けの情報などを用いて計算される。
【0083】このように、マッチング処理部122は、
属性付与部121から取得する文構造を、文構造データ
ベース128に格納してある各文構造との類似度から比
較し、比較後、取得した文構造を文構造データベース1
28に格納するという動作を繰り返すことにより、全て
のデータ間の類似度123を求めることができる。
【0084】以上に説明したように、類似度判定部10
は、入力された自然文を取得する自然文取得手段と、前
記自然文取得手段にて取得した自然文を文節に区分する
自然文文節区分手段と、前記自然文文節区分手段にて区
分された文節に含まれる語句の係り受け情報を表層格、
及び深層格にて取得して前記自然文の文構造を取得する
自然文文構造取得手段と、前記自然文文構造取得手段に
て取得した前記文構造を格納する格納手段と、前記格納
手段でに格納されている文構造と、前記自然文文構造取
得手段にて取得した前記文構造との類似度を算出して出
力する類似度出力手段と、から構成することができる。
【0085】(実施例2)次に、図10のフローチャー
トと図11に示したクラスタを用いて選択肢を生成する
手順の1例を具体的に説明する。図10のフローチャー
トにおいて、中央処理部11は、類似度判定部10、ク
ラスタリング部14を用いてデータ階層をクラスタリン
グ化すると共に、生成したクラスタの中心要素を抽出す
る(ステップ100)。
【0086】次に、中央処理部11は、全てのクラスタ
が、選択肢元の候補とされたかどうかを判断する(ステ
ップ105)。これは、後に説明するステップ115以
下で任意のクラスタを選択元の候補していくが、これに
よって全てのクラスタが選択肢元の候補とされたかどう
かを判断するためである。ここで、選択肢元のクラスタ
とは、選択肢を生成するための基準となる所定のクラス
タを意味する。
【0087】全てのクラスタが選択肢元候補とされた場
合は(ステップ105;Y)、中央処理部11は、全て
の登録された選択肢情報を出力部16に出力する(ステ
ップ110)。ここで、登録されている選択肢情報は、
後に説明するステップ115以下で登録されたものであ
る。全てのクラスタが選択肢元候補とされていない場合
は(ステップ105;N)、中央処理部11は、まだ選
択肢元候補とされていない任意の1つのクラスタを選択
肢元候補とする(ステップ115)。以下では、選択肢
元候補のクラスタを元候補クラスタと呼ぶことにする。
【0088】次に、中央処理部11は、元候補クラスタ
の子クラスタ全てを選択肢先候補とする(ステップ12
0)。ここで、子クラスタとは、所定のクラスタの系列
に系属し、かつ当該所定のクラスタの1階層下のクラス
タを意味する。また、選択肢先候補のクラスタとは、選
択肢として採用される可能性のあるクラスタである。以
下では選択肢先候補のクラスタを先候補クラスタと呼ぶ
ことにする。
【0089】次に、中央処理部11は、更に先候補クラ
スタが残っているか否かを判断する(ステップ12
5)。先候補クラスタが残っている場合は(ステップ1
25;N)、中央処理部11の処理はステップ105に
戻る。先候補のクラスタが残っていない場合は(ステッ
プ125;Y)、中央処理部11は、これらの先候補ク
ラスタのうちの任意の先候補クラスタに注目する(ステ
ップ130)。即ち、クラスタの中心要素の情報量を比
較する際の基準とする。
【0090】中央処理部11は、情報量比較部12を用
いて、この注目した先候補クラスタの中心要素の情報量
が、元候補クラスタの中心要素の情報量より大きいか否
かを判断する(ステップ135)。判断の結果、先候補
クラスタの中心要素の情報量が元候補クラスタの中心要
素の情報量よりも大きい場合は(ステップ135;
Y)、中央処理部11は、元候補クラスタの中心要素に
対する選択肢として注目した先候補クラスタの中心要素
をRAM32などに記憶して登録する(ステップ14
0)。そして、中央処理部11は、注目した先候補クラ
スタを選択先候補から外す(ステップ145)
【0091】一方、ステップ135での判断の結果、先
候補クラスタの中心要素の情報量が元候補クラスタの中
心要素の情報量以下である場合は(ステップ135;
N)、中央処理部11は、注目した先候補クラスタの子
クラスタ全てを先候補クラスタに追加し(ステップ15
0)、ステップ145の処理に移行する。
【0092】図11のクラスタ70を用いながら、以上
の手順により具体的に選択肢を生成する場合について説
明する。図11は、中央処理プログラム11がクラスタ
リング部14などを用いて作成した階層クラスタリング
の1例である。
【0093】図11では、クラスタの名前を中心要素で
表している。即ち、ルートクラスタ71の中心要素が
「印刷」で、その子クラスタであるクラスタ72a、7
2bがそれぞれ「印刷」、「印刷の設定」となってい
る。そして、中心要素の直後の括弧の中の数値は、中心
要素の情報量の相対値を表している。また、クラスタ7
2b、73a、74b、75a、75bの後の「・・
・」は、それ以下の階層を省略していることを表してい
る。
【0094】まず、元候補クラスタをクラスタ71とし
た場合、その子クラスタはクラスタ72a、72bであ
る。このうちクラスタ72bは、中心要素の情報量が5
であり、クラスタ71の中心要素の情報量1よりも大き
いので、選択肢として採用される。
【0095】一方、クラスタ72aは、中心要素の情報
量が1であり、クラスタ71の中心要素の情報量以下で
あるので、クラスタ72aは、先候補クラスタから外さ
れ、更にその子クラスタであるクラスタ73a、73b
が先候補クラスタとされる。クラスタ73a、73bの
中心要素の情報量はそれぞれ3、4であり、クラスタ7
1の中心要素の情報量よりも大きいので選択肢として採
用される。
【0096】このようにして、クラスタ71を選択肢を
作成する際の基準とした場合、クラスタ73a、73
b、72bが選択肢となる。即ち、「印刷」に対して
「印刷できない」、「はがき印刷」、「印刷の設定」が
選択肢となる。同様にしてクラスタ73bを選択肢を作
成する際の基準とした場合、クラスタ75a、75b、
74bが選択肢となる。即ち、「はがき印刷」に対して
「はがき宛名印刷」、「はがき裏面印刷」、「はがき連
続印刷」が選択肢となる。更にクラスタ74aを選択肢
を作成する際の基準とした場合、クラスタ75a、75
bが選択肢となる。即ち、「印刷する」に対して「はが
き宛名印刷」、「はがき裏面印刷」が選択肢となる。
【0097】以上に説明した第2の実施例では、所定の
クラスタの1階層上のクラスタの中心要素を選択肢を作
成するための基準と成る所定の情報とすることができ
る。第2の実施例では、ユーザ(コンテンツ作成者な
ど)が検索要素を入力しなくても階層クラスタリングの
結果から、選択肢を自動生成することができる。なお、
ステップ120を「元候補クラスタの中心要素との類似
度が、規定値を超える中心要素を持つクラスタ全てを先
候補クラスタとする」と変更することにより、例えば、
関連する情報が複数のクラスタのグループに分散した場
合でも、選択肢の自動生成のメリットを生かしながら、
別グループに属するクラスタの中心要素を選択肢として
拾うことができる。
【0098】(実施例3)次に、図12のフローチャー
トと図11に示したクラスタを用いて選択肢を生成する
他の手順について具体的に説明する。図12のフローチ
ャートにおいて、中央処理部11は、類似度判定部1
0、クラスタリング部14を用いてデータ階層をクラス
タリング化すると共に、生成したクラスタの中心要素を
抽出する(ステップ200)。次に、中央処理部11
は、全てのクラスタが、先候補クラスタとされたかどう
かを判断する(ステップ205)。
【0099】全てのクラスタが先候補クラスタとされた
場合は(ステップ205;Y)、中央処理部11は、全
ての登録された選択肢情報を出力する(ステップ21
0)。まだ、先候補クラスタとされていないクラスタが
場合は(ステップ205;N)、中央処理部11は、ま
だ先候補クラスタとされていない任意の1クラスタを先
候補クラスタとする(ステップ215)。次に、中央処
理部11は、先候補クラスタより上層の先候補クラスタ
が系属するクラスタの中心要素のなかで、最も情報量が
大きい中心要素を特定(注目)する(ステップ22
0)。注目した中心要素をもつクラスタが選択肢を作成
する基準となる。
【0100】次に、中央処理部11は、注目した中心要
素の情報量より、先候補クラスタの中心要素の情報量が
大きいか否かを判断する(ステップ225)。注目した
中心要素の情報量が先候補クラスタの中心要素の情報量
以下であった場合は(ステップ225;N)、中央処理
部11は注目した中心要素を破棄し処理をステップ20
5に移行する。
【0101】注目した中心要素の情報量が先候補クラス
タの中心要素の情報量より大きい場合は(ステップ22
5;Y)、注目した中心要素に対する選択肢として、先
候補クラスタの中心要素をRAM32などに記憶して登
録する。
【0102】図11のクラスタ70を用いながら、以上
の手順により具体的に選択肢を生成する場合について説
明する。クラスタ73a「印刷できない」を先候補クラ
スタとしたとする。クラスタ73aの中心要素の情報量
は3である。クラスタ73aに系属し、かつクラスタ7
3aより上層にあるクラスタは、クラスタ72aとクラ
スタ71である。何れも中心要素の情報量は1である。
ここでは、より上層のクラスタ71の中心要素に注目す
ることにする。
【0103】クラスタ71の中心要素の情報量より、ク
ラスタ73aの中心要素の情報量の方が大きいので、ク
ラスタ71(中心要素「印刷」)に対する選択肢として
クラスタ73aの中心要素「印刷できない」を登録す
る。クラスタ73bを先候補クラスタとして同様の処理
をし、クラスタ71に対する選択肢としてクラスタ73
bの中心要素「はがき印刷」を登録する。更に、クラス
タ72bを先候補クラスタとして同様の処理をし、クラ
スタ71に対する選択肢としてクラスタ72bの中心要
素「印刷の設定」を登録する。以上のようにして、「印
刷」に対して、「印刷できない」、「はがき印刷」、
「印刷の設定」が選択肢となる。
【0104】以上の手順では、クラスタ71とクラスタ
72aが共に中心要素の情報量が同じであり、クラスタ
71に注目したが、クラスタ72aに注目するように構
成すると、「印刷」に対して、「印刷できない」、「は
がき印刷」が選択肢となる。
【0105】また、クラスタ75a「はがき宛名印刷」
を先候補クラスタとしたとする。クラスタ75aの中心
要素の情報量の大きさは7である。クラスタ75aに系
属し、かつクラスタ75aより上層にあるクラスタは、
クラスタ74a、クラスタ73b、クラスタ72a、及
びクラスタ71である。これらのうち、最も情報量の大
きいものは、クラスタ73bの4である。そこで、クラ
スタ73bの中心要素「はがき印刷」に注目する。
【0106】注目したクラスタ73bの中心要素の情報
量の大きさよりも、クラスタ75aの中心要素の情報量
の大きさの方が大きいので、クラスタ75aの中心要素
「はがき宛名印刷」をクラスタ73bの中心要素「はが
き印刷」に対する選択肢として登録する。
【0107】クラスタ75bを先候補クラスタとして同
様の処理をし、クラスタ73bに対する選択肢としてク
ラスタ75bの中心要素「はがき裏面印刷」を登録す
る。更に、クラスタ74bを先候補クラスタとして同様
の処理をし、クラスタ73bに対する選択肢としてクラ
スタ74bの中心要素「はがき連続印刷」を登録する。
以上のようにして、「はがき印刷」に対して、「はがき
宛名印刷」、「はがき裏面印刷」、「はがき連続印刷」
が選択肢となる。
【0108】以上に説明した第3の実施例では、所定の
クラスタより上層にあり、かつ前記所定のクラスタが系
属するクラスタの中心要素のうち、最も情報量の多い中
心要素を所定の情報(選択肢を作成する際の基準となる
情報)とすることができる。
【0109】また、第3の実施例では、ユーザ(コンテ
ンツ作成者など)が検索要素を入力しなくても階層クラ
スタリングの結果から、選択肢を自動生成することがで
きる。
【0110】以上、本発明の実施形態及び実施例1〜実
施例3について説明したが、本発明は説明した実施形態
又は実施例に限定されるものではなく、各請求項に記載
した範囲において各種の変形を行うことが可能である。
例えば、階層クラスタリングされたデータから、所定の
基準に従って一部又は全部のクラスタを抽出し、これら
のクラスタの中心文群を親クラスタから子クラスタへ辿
っていき、所定の情報より中心文の情報量が増大した場
合、当該子クラスタの中心文を、所定の情報に対する選
択肢もしくは選択肢候補とする選択肢作成方法を提供す
ることができる。
【0111】前記選択肢作成方法の、前記所与の基準と
は、検索要素が当該クラスタ中心文に類似する、もしく
は含まれるクラスタを選択するように構成することもで
きる。また、前記選択肢作成方法の、前記所定の基準と
は、検索要素が類似するもしくは含まれる要素が一定割
合以上含まれるクラスタを選択するように構成すること
もできる。また、前記選択肢作成方法の、前記所定の情
報とは、ユーザが与えた情報であるように構成すること
もできる。
【0112】また、前記選択肢作成方法の、前記所定の
情報とは、親クラスタの中心文であるように構成するこ
ともできる(実施例2)。また、前記選択肢作成方法
の、前記所定の情報とは、先祖クラスタ(親クラスタ、
そのまた親クラスタ、・・・)の中心文の中で、最も情
報量が多い中心文であるように構成することもできる
(実施例3)。
【0113】また、本実施の形態では、選択肢作成装置
1は、スタンドアローンとして構成したが、インターネ
ットを介して端末に検索情報を提供するサーバ装置とし
て構成することも可能である。この場合は、通信制御部
42(図1)を用いてユーザの端末と情報の送受信を行
う。
【0114】まず、選択肢作成装置1は、端末から検索
入力文を取得しこれから検索要素を生成する。この検索
要素を用いて選択肢作成システム2により選択肢を作成
し、これを端末に送信する。ユーザが選択肢を選択した
場合、選択肢作成装置1は、その選択肢を特定する情報
を端末から受信する。そして、選択肢作成装置1は、そ
の選択肢に基づいてデータあるいは更に細かい選択肢を
端末に送信する。
【発明の効果】本発明によれば、ユーザに分かりやすい
選択肢を作成することができる。
【図面の簡単な説明】
【図1】本実施の形態の選択肢作成装置のハードウェア
的な構成の1例を示したブロック図である。
【図2】選択肢作成システムの論理的な構成の1例を示
したブロック図である。
【図3】内部階層クラスタの1例を示した図である。
【図4】クラスタリング結果の1例を示した図である。
【図5】検索要素「印刷」に対する関連度が高いクラス
タ群の1例を示した図である。
【図6】クラスタ絞込みの結果の1例を示した図であ
る。
【図7】ユーザが入力した検索要素に対して選択肢を提
示する手順を示した図である。
【図8】選択肢作成システムの動作を説明するためのフ
ローチャートである。
【図9】類似度判定部の構成の1例を示した図である。
【図10】第2の実施例に係る選択肢作成手順を説明す
るためのフローチャートである。
【図11】階層クラスタリングの1例を示した図であ
る。
【図12】第3の実施例に係る選択肢作成手順を説明す
るためのフローチャートである。
【符号の説明】
1 選択肢作成装置 2 選択肢作成システム 3 内部階層クラスタ 5 クラスタ 6 クラスタ 7 クラスタ 8 クラスタ 10 類似度判定部 11 中央処理部 12 情報量比較部 14 クラスタリング部 15 入力部 16 出力部 26 制御部 28 CPU 30 ROM 32 RAM 34 入力装置 38 出力装置 42 通信制御部 43 バスライン 44 入出力インターフェース 46 記憶媒体駆動装置 48 記憶装置 51 選択肢作成プログラム 53 クラスタリング対象データベース 61 入力ボックス 62 入力ボタン 70 クラスタ 116 データ 117 形態素解析部 118 文節解析部 119 語彙処理部 120 格フレーム処理部 121 属性付与部 122 マッチング処理部 125 語彙辞書 126 格フレーム辞書 127 属性辞書 128 文構造データベース

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 検索対象データを用いて作成した階層ク
    ラスタにおいて、当該階層クラスタを構成するクラスタ
    の中心要素を取得する中心要素取得手段と、 所定の情報と前記取得した中心要素との情報量を比較
    し、前記所定の情報と前記中心要素の情報量の差が所定
    の条件を満たしたクラスタを特定するクラスタ特定手段
    と、 前記特定されたクラスタの中心要素を用いて前記所定の
    情報に関連する選択肢を作成する選択肢作成手段と、 前記作成した選択肢を出力する出力手段と、 を具備したことを特徴とする選択肢作成装置。
  2. 【請求項2】 前記クラスタ特定手段における前記所定
    の条件は、前記中心要素の情報量が前記所定の情報の情
    報量より大きいことを特徴とする請求項1に記載の選択
    肢作成装置。
  3. 【請求項3】 キーワードなどの検索要素を取得する検
    索要素取得手段と、 前記取得した検索要素と、前記取得した中心要素を比較
    して、前記階層クラスタを構成するクラスタのうちの少
    なくとも一部を特定する一部クラスタ特定手段を更に具
    備し、 前記選択肢作成手段は、前記クラスタ特定手段、及び前
    記一部クラスタ特定段で特定されたクラスタの中心要素
    を用いて選択肢を作成することを特徴とする請求項1、
    又は請求項2に記載の選択肢作成装置。
  4. 【請求項4】 前記一部クラスタ特定手段は、前記中心
    要素が前記検索要素に類似するか、又は、前記中心要素
    に前記検索要素が含まれるクラスタを特定することを特
    徴とする請求項3に記載の選択肢作成装置。
  5. 【請求項5】 前記所定の情報は、前記検索要素である
    ことを特徴とする請求項1から請求項4までのうちの何
    れか1の請求項に記載の選択肢作成装置。
  6. 【請求項6】 前記所定の情報は、所定のクラスタの1
    階層上のクラスタの中心要素であることを特徴とする請
    求項1から請求項4までのうちの何れか1の請求項に記
    載の選択肢作成装置。
  7. 【請求項7】 前記所定の情報は、所定のクラスタより
    上層にあり、かつ前記所定のクラスタが系属するクラス
    タの中心要素のうち、最も情報量の多い中心要素である
    ことを特徴とする請求項1から請求項4までのうちの何
    れか1の請求項に記載の選択肢作成装置。
  8. 【請求項8】 文章データを含む前記検索対象データを
    取得するデータ取得手段と、 前記取得した検索対象データに含まれる文章データの相
    互間の類似度を用いて、前記階層クラスタを作成するク
    ラスタ作成手段と、 を更に具備したことを特徴とする請求項1から請求項7
    までのうちの何れか1の請求項に記載の選択肢作成装
    置。
  9. 【請求項9】 前記出力した選択肢を選択可能なように
    提示する選択肢提示手段と、 前記提示した選択肢から選択されたものに対応するクラ
    スタに前記検索対象データが関連付けられていた場合
    に、当該検索対象データを提示するデータ提示手段と、 を更に具備したことを特徴とする請求項1から請求項8
    のうちの何れか1の請求項に記載の選択肢作成装置。
  10. 【請求項10】 中心要素取得手段と、クラスタ特定手
    段と、選択肢作成手段と、出力手段と、を備えたコンピ
    ュータにおいて、 前記中心要素取得手段で、検索対象データを用いて作成
    した階層クラスタにおいて、当該階層クラスタを構成す
    るクラスタの中心要素を取得する中心要素取得ステップ
    と、 前記クラスタ特定手段で、所定の情報と前記取得した中
    心要素との情報量を比較し、前記所定の情報と前記中心
    要素の情報量の差が所定の条件を満たしたクラスタを特
    定するクラスタ特定ステップと、 前記選択肢作成手段で、前記特定されたクラスタの中心
    要素を用いて前記所定の情報に関連する選択肢を作成す
    る選択肢作成ステップと、 前記出力手段で、前記作成した選択肢を出力する出力ス
    テップと、 から構成されたことを特徴とする選択肢作成方法。
  11. 【請求項11】 検索対象データを用いて作成した階層
    クラスタにおいて、当該階層クラスタを構成するクラス
    タの中心要素を取得する中心要素取得機能と、 所定の情報と前記取得した中心要素との情報量を比較
    し、前記所定の情報と前記中心要素の情報量の差が所定
    の条件を満たしたクラスタを特定するクラスタ特定機能
    と、 前記特定されたクラスタの中心要素を用いて前記所定の
    情報に関連する選択肢を作成する選択肢作成機能と、 前記作成した選択肢を出力する出力機能と、 をコンピュータに実現させるための選択肢作成プログラ
    ム。
JP2002049537A 2002-02-26 2002-02-26 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム Pending JP2003248689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002049537A JP2003248689A (ja) 2002-02-26 2002-02-26 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002049537A JP2003248689A (ja) 2002-02-26 2002-02-26 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム

Publications (1)

Publication Number Publication Date
JP2003248689A true JP2003248689A (ja) 2003-09-05

Family

ID=28662021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002049537A Pending JP2003248689A (ja) 2002-02-26 2002-02-26 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム

Country Status (1)

Country Link
JP (1) JP2003248689A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234557A (ja) * 2007-03-23 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 評判情報検索装置、その方法およびプログラム
JP2009505175A (ja) * 2005-08-12 2009-02-05 カンヌウ ピーティーワイ エルティーディー データベースからデータベース項目を選択するための改良した方法及び装置
JP2011003156A (ja) * 2009-06-22 2011-01-06 Nec Corp データ分類装置、データ分類方法及びデータ分類プログラム
JP2014164606A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> インテント分類装置、方法及びプログラム、サービス選択支援装置、方法及びプログラム
JP2018036744A (ja) * 2016-08-30 2018-03-08 株式会社パスコ 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム
WO2020095776A1 (ja) * 2018-11-06 2020-05-14 株式会社 東芝 知識情報作成支援装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009505175A (ja) * 2005-08-12 2009-02-05 カンヌウ ピーティーワイ エルティーディー データベースからデータベース項目を選択するための改良した方法及び装置
JP2008234557A (ja) * 2007-03-23 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 評判情報検索装置、その方法およびプログラム
JP4573358B2 (ja) * 2007-03-23 2010-11-04 日本電信電話株式会社 評判情報検索装置、その方法およびプログラム
JP2011003156A (ja) * 2009-06-22 2011-01-06 Nec Corp データ分類装置、データ分類方法及びデータ分類プログラム
JP2014164606A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> インテント分類装置、方法及びプログラム、サービス選択支援装置、方法及びプログラム
JP2018036744A (ja) * 2016-08-30 2018-03-08 株式会社パスコ 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム
JP7007793B2 (ja) 2016-08-30 2022-01-25 株式会社パスコ 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム
WO2020095776A1 (ja) * 2018-11-06 2020-05-14 株式会社 東芝 知識情報作成支援装置
JP2020077091A (ja) * 2018-11-06 2020-05-21 株式会社東芝 知識情報作成支援装置
JP7267714B2 (ja) 2018-11-06 2023-05-02 株式会社東芝 知識情報作成支援装置

Similar Documents

Publication Publication Date Title
KR101732342B1 (ko) 신뢰 질의 시스템 및 방법
Wan et al. Person resolution in person search results: Webhawk
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US8060357B2 (en) Linguistic user interface
US8346795B2 (en) System and method for guiding entity-based searching
US8996593B2 (en) File management apparatus and file management method
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
WO2019200699A1 (zh) 政务系统发文方法、装置、计算机设备及存储介质
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
JP4177070B2 (ja) 文書検索装置
US8612431B2 (en) Multi-part record searches
JP2003248689A (ja) 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2019021194A (ja) 情報処理システムおよび情報処理方法
JP2009086903A (ja) 検索サービス装置
JP3937741B2 (ja) 文書の標準化
JP4356347B2 (ja) 文書抽出システム
JP4170325B2 (ja) 辞書の妥当性を評価する装置、方法およびプログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11195041A (ja) 文書検索装置、方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080805