JP4161171B2 - 情報分類装置、方法及びプログラム - Google Patents

情報分類装置、方法及びプログラム Download PDF

Info

Publication number
JP4161171B2
JP4161171B2 JP2002175625A JP2002175625A JP4161171B2 JP 4161171 B2 JP4161171 B2 JP 4161171B2 JP 2002175625 A JP2002175625 A JP 2002175625A JP 2002175625 A JP2002175625 A JP 2002175625A JP 4161171 B2 JP4161171 B2 JP 4161171B2
Authority
JP
Japan
Prior art keywords
keyword
dictionary
information
occurrence
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002175625A
Other languages
English (en)
Other versions
JP2004021605A (ja
Inventor
秀昭 樽口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2002175625A priority Critical patent/JP4161171B2/ja
Publication of JP2004021605A publication Critical patent/JP2004021605A/ja
Application granted granted Critical
Publication of JP4161171B2 publication Critical patent/JP4161171B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【従来の技術】
本発明は、情報分類装置、方法及びプログラムに関する。
【0002】
【従来の技術】
従来、予め登録しておいたキーワードを用いて情報を分類する技術が広く知られている。分類対象となる情報は、電子メール、インターネットを通じて配信されるテキスト、画像、音声など幅広い。このような情報分類技術を応用することにより、多くの情報の中から利用者にとって重要なものを短時間に抽出したり、通信回線を通じて情報を随時受信しているときに受信者にとって重要なものを受信すると即座にそのことを知ったりすることができる。
【0003】
情報の利用者に分類結果を音で通知することにより、利用者が情報に注意を払っているか否かに関わらず、分類結果を即座に通知できる可能性が高い。また、音によって分類結果を通知すれば、利用者は、視覚を用いて情報を把握しつつ、聴覚を用いて情報を分類できるため、情報の把握が容易になる。
【0004】
特開2001−282635号公報には、予め登録したキーワードが電子メール内のオブジェクトに存在するとき、当該電子メールの着信時に予め当該キーワードと対応付けて登録されているメロディをスピーカで出力する通信装置が開示されている。この通信装置によると、オペレータはキーワードを予め登録しておけば、重要な電子メールの着信を即座に知ることができる。
【0005】
【発明が解決しようとする課題】
しかし、特開2001−282635号公報に開示された通信装置には、次の問題がある。第一に、適切なキーワードを登録することの困難と手間である。情報の利用者にとって重要な情報を重要でない情報から区別するためには、適切なキーワードを予め登録しておかなければならない。ところが、重要な情報と重要でない情報とを正確に分類しようとすれば、多数のキーワードを適切な組み合わせ条件とともに登録する必要がある。第二に、情報の重要度の時間的変動である。情報の利用者にとって何が重要な情報であるかは時間の経過とともに変動する。したがって、あるときには重要な情報をそのときには重要でない情報から区別するためには、キーワードを常に更新し続けなければならない。
【0006】
本発明は、これらの問題を解決するために創作されたものであって、情報を容易かつ正確にグループに分類し、情報のグループを利用者に音で通知する情報分類装置、方法及びプログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る情報分類装置は、キーワード辞書に基づいて情報をグループに分類する分類手段と、情報から抽出した構成要素に基づいて前記キーワード辞書を更新する辞書更新手段と、情報が分類されるグループに応じて音を再生する音再生手段と、を備えることを特徴とする。
【0008】
辞書更新手段がキーワード辞書を更新するために用いる情報は、分類を直接的な目的として入力される情報ではなく、具体的には例えば、テキスト入力により作成される文書であり、通信回線を通じて受信した文書である。すなわち、辞書更新手段がキーワード辞書を更新するために用いる構成要素は、具体的には例えば、電子メールを作成するときに入力する比較的小さな言語単位(表題、文節、句、単語など)に対応したテキストであり、受信した電子メール内の比較的小さな言語単位に対応したテキストであり、インターネットを通じて受信するHTMLファイルに含まれる比較的小さな言語単位に対応したテキストである。
【0009】
本発明に係る情報分類装置によると、辞書更新手段が情報から抽出した構成要素に基づいてキーワード辞書を更新するため、情報を容易かつ正確にグループに分類することができ、音再生手段が分類されたグループに応じて音を再生するため、情報のグループを利用者に音で通知することができる。
【0010】
さらに本発明に係る情報分類装置の辞書更新手段は、テキスト入力により情報が作成されるときテキスト入力の区切毎に当該情報の構成要素を抽出することを特徴とする。一般に、キーワード辞書に登録されるキーワードは、特定の文脈で出現頻度が高くなる普通名詞、固有名詞などでなければならない。このため、テキスト情報から適切なキーワードを抽出するためには、文を単語に分解する処理が必要になる。一方、テキスト入力時には、単語、文節、句などに区切って例えば漢字仮名交じり文などに文字種変換したり、単語と単語の間をスペースで区切ることが多い。したがって、辞書更新手段がテキスト入力の区切毎に情報の構成要素を抽出することにより、キーワード辞書を更新するために情報から適切なキーワードを抽出する処理が簡素化される。
【0011】
さらに辞書更新手段が、受信した情報から当該情報の構成要素を抽出することにより、情報を正確にグループに分類することができる。一般に、情報の利用者は、自分にとって重要な情報を積極的に収集するため、重要な情報は重要でない情報に比べて受信頻度が高くなるからである。
【0012】
さらに辞書更新手段が、前記キーワード辞書に登録済みのキーワードとの共起関係の強い構成要素を情報から抽出し当該キーワードと対のグループと対のキーワードとして前記キーワード辞書に登録することにより、情報をより正確に分類することができる。尚、「対」とは互いに関連付けられていることをいう。
【0013】
さらに前記音再生手段が、情報を受信したときに当該情報が分類されるグループに応じた音を再生することにより、重要な情報を受信したときには、即座にその情報を利用することが可能になる。
【0014】
本発明に係る情報分類装置は、キーワードに対する重み付けを前記キーワード辞書に登録する重み付け手段をさらに備え、前記分類手段は、キーワードに登録された重み付けに基づいて情報をグループに分類することを特徴とする。重み付けを用いることにより、情報をより正確に分類することができる。
【0015】
さらに前記音再生手段が、音を再生するための制御情報を、前記キーワード辞書に登録済みのキーワードの出現頻度であって情報の被表示部分での出現頻度に応じて変更することにより、利用者は例えばスクロール表示中に情報の重要部分が表示されていることを容易に知ることができるため、利用者は情報の重要部分を効率よく利用することができる。尚、ここでいう情報の被表示部分とは、全体を1画面に表示しきれない情報のうち、表示されている部分をいうものとする。
【0016】
さらに本発明に係る情報分類装置は、情報とグループとの相関関係に応じた位置を座標平面上に表示するマッピング手段をさらに備えることにより、複数のグループと相関関係にある情報の傾向を正確に利用者に伝えることができる。
【0017】
さらに前記辞書更新手段が、前記手動分類手段により分類された情報の構成要素をオペレータに指示されたグループと対のキーワードとして前記キーワード辞書に追加登録することにより、オペレータの意図を直接的に分類処理に反映させることができる。
【0018】
尚、本発明に係る情報分類装置に備わる複数の手段の各機能は、構成自体で機能が特定されるハードウェア資源とプログラムにより機能が特定されるハードウェア資源との任意の組み合わせにより実現される。また、これら複数の手段の各機能は、各々が物理的に互いに独立したハードウェア資源で実現されるものに限定されない。
【0019】
また、本発明は装置の発明として特定できるだけでなく、プログラムの発明としても、そのプログラムを記録した記録媒体の発明としても、方法の発明としても特定することができる。
【0020】
【発明の実施の形態】
以下、本発明の実施例を図面に基づいて説明する。
図2は、本発明の一実施例である情報分類装置1を通信ネットワークN及び電子メール配送網Mに接続した様子を表す図である。情報分類装置1はパーソナルコンピュータ、携帯情報端末(PDA)、携帯電話等として構成され、インターネット等の通信ネットワークNを通じてWWW(World Wide Web)サーバ2からHTMLファイルを受信する他、電話回線等の電子メール配送網Mを通じて電子メール装置3と電子メールの送受信を行う。尚、通信ネットワークNと電子メール配送網Mは同一のものであってもよい。
【0021】
図3は、情報分類装置1のハードウェア構成を示すブロック図である。図示するように情報分類装置1はCPU11、ROM12、RAM13、操作器14、通信部15、サウンド制御部16、スピーカ17、表示制御部18、表示装置19及び外部記憶装置20を備える。
【0022】
CPU11は、ROM12に格納されたプログラムを実行して情報分類装置1の各部を制御する他、処理プログラムを実行し、HTMLファイルや電子メール等の情報から抽出した構成要素に基づいてキーワード辞書Wを更新する処理、キーワード辞書Wに基づいて情報をグループに分類する処理、情報が分類されるグループに応じて音を再生する処理、情報とグループとの相関関係に応じた位置を座標平面上に表示する処理、情報の構成要素に基づいてキーワードに対する重み付けをキーワード辞書Wに登録する処理等を行う。
【0023】
ROM12はCPU11が動作するために最低限必要な制御プログラムやデータ、処理プログラム、電子メールプログラム、Webブラウザ等を予め格納しているメモリであり、RAM13はプログラムや各種のデータ等を一時的に格納するメモリである。これらのプログラムや各種のデータは、通信部15を介してダウンロードしてRAM13や外部記憶装置20の所定領域に格納してもよい。またこれらのプログラムや各種のデータは、図示しないコンパクトディスク等のコンピュータ読み取り可能な記憶媒体から読み出してRAM13や外部記憶装置20の所定領域に格納してもよい。
【0024】
操作器14は、例えばパーソナルコンピュータの場合はキーボードやマウス、携帯電話の場合はダイヤルボタンであり、情報分類装置1のオペレータが種々の指示やテキスト入力を行うためのものである。
【0025】
通信部15は、所謂ネットワークインタフェースカードやモデム等であり、通信ネットワークN及び電子メール配送網Mに接続可能に構成されている。
サウンド制御部16は、音を再生するための制御情報が記述されたサウンドファイルに基づいて音響信号を生成する。そして、この音響信号をスピーカ17に出力して再生させる。また、サウンド制御部16はスピーカ17が発音する音量、すなわち再生ボリュームの調整を行うことが可能とされており、CPU11から再生ボリュームの設定値を表す制御情報が出力されたとき、その制御情報に基づいて再生ボリュームを調整する。
【0026】
表示制御部18は、通信ネットワークNを通じて受信するHTMLファイルや電子メール配送網Mを通じて受信する電子メール等の情報をCPU11の制御の下で液晶表示パネル(LCD)やCRT等から構成される表示装置19に出力する。
【0027】
外部記憶装置20は、ハードディスク、フラッシュメモリ等を備え、後述するキーワード辞書、共起キーワード辞書、仮名漢字変換辞書、キーワード候補辞書、グループテーブル、メロディテーブル、サウンドファイルなどを記憶している。サウンドファイルのデータの形式はMIDI形式のようなディジタル符号化されたデータであってもよいし、PCM、DPCM、ADPCM等のような波形サンプルデータ方式によるデータであってもよい。
【0028】
図4は、情報分類装置1のデータフロー図である。処理プログラムは、通信プロセス31、分類プロセス32、メロディ再生プロセス33、マッピングプロセス34、形態素解析プロセス35、仮名漢字変換プロセス36、フィルタプロセス37及び辞書更新プロセス38を生成する。
【0029】
通信プロセス31は、所定のプロトコルに従ってWWWサーバ2からHTMLファイルを受信する他、電子メール装置3との電子メールの送受信を行う。通信プロセス31はHTMLファイルや電子メール等の情報を受信すると、それらを形態素解析プロセス35及び分類プロセス32に出力する。
【0030】
分類プロセス32は、通信プロセス31から出力される情報をキーワード辞書Wに基づいてグループに分類し、情報毎にグループ番号やグループ評価値などをメロディ再生プロセス33及びマッピングプロセス34に出力する。
【0031】
図5は、キーワード辞書Wの一例を示す図である。キーワード辞書Wのレコードはグループ番号、キーワード、設定値及び曲番号のフィールドを含む。同一レコードに含まれるグループ番号とキーワードとは、互いに対になってキーワード辞書Wで管理される。グループ番号は後述するグループテーブルGで各グループに割り当てられているものであり、キーワードが属するグループはこのグループ番号により決定される。したがって、グループ番号とキーワードとを互いに対にしてキーワード辞書Wに登録することは、グループとキーワードとを互いに対にしてキーワード辞書Wに登録することと実質的に等しい。キーワードには特定の文脈で特に出現頻度が高くなる単語が登録される。設定値は、キーワードに対する重み付けを表すものであり、受信した情報はキーワードとその設定値が表す重み付けに基づいてグループに分類される。曲番号は、後述するメロディテーブルMで各サウンドファイル名に割り当てられている。尚、キーワードについての曲番号の設定は任意であり、設定されていない場合は当該キーワードが属するグループに設定されている曲番号により再生するサウンドファイルが決定される。曲番号は、例えばある情報について特定のキーワードの出現頻度が極めて高い場合に、そのキーワードについて設定されているサウンドファイルを、そのキーワードが属するグループについて設定されているサウンドファイルより優先して出力するような場合に利用することができる。
【0032】
図6は、グループテーブルGの一例を示す図である。グループテーブルGは情報を分類するグループ名を格納するためのテーブルである。このテーブルのレコードはグループ番号、グループ名、曲番号及び設定座標の4つのフィールドから構成される。情報がグループに分類されたとき、分類されたグループの曲番号に対応するサウンドファイルが再生される。グループ名のうち「嗜好」はオペレータの嗜好を表すキーワードを分類するためのグループであり、グループ「嗜好」に属するキーワードの登録処理方法は他のグループとは異なる。詳しくは後述する。設定座標は、情報とグループとの相関関係に応じた座標平面上の位置にマークを表示するときに、マークの位置を求めるための値であり、詳しくは後述する。
【0033】
分類プロセス32は、上述のキーワード辞書W及びグループテーブルGを用いて具体的には例えば次のようにして情報を分類する。分類プロセス32は、分類しようとする情報から表題、本文、ファイル名などのテキスト情報を抽出し、以下の式により分類しようとする情報について各グループの評価値を算出し、当該情報をグループ評価値の最も大きいグループに分類する。
グループ評価値=Σ(当該グループに属するキーワードの出現回数×当該キーワードの設定値)
ここでキーワードの設定値はキーワード辞書Wに格納されている「設定値」である。また、キーワードの出現回数は分類しようとしている情報中に当該キーワードが何個あるかをカウントした値である。尚、分類プロセス32は、テキスト情報に限らず、画像情報、音情報などもファイル名などを用いて分類することができる。
【0034】
例えばテキスト情報が以下の内容であったとする。
(情報):”バイクのプラモを買いました”
図5に示すキーワード辞書Wを用いる場合、各グループのグループ評価値は以下のように算出される。
グループ「趣味」:5(”バイク”×1)+2(”プラモ”×1)=7
グループ「仕事」:0
グループ「嗜好」:0
従って”バイクのプラモを買いました”というテキスト情報はグループ「趣味」に分類される。
【0035】
尚、情報の分類は、重み付けを用いずグループ毎にそのグループに属する全てのキーワードについて出現回数を合計し、その値が最も大きいグループに分類してもよいし、単に最も出現頻度の高いキーワードが属するグループに分類してもよい。
【0036】
メロディ再生プロセス33は、分類プロセス32で情報が分類されたグループに応じてサウンドファイルを再生する。メロディ再生プロセス33は、分類プロセス32から情報を分類したグループのグループ番号が出力されると、グループテーブルGから当該グループに設定されている曲番号を取得し、メロディテーブルにおいて当該曲番号で特定されるサウンドファイルを再生する。
【0037】
図7は、メロディテーブルMの一例を示す図である。メロディテーブルMはサウンドファイルのファイル名を格納するためのテーブルであり、曲番号及びサウンドファイルを一意に識別するためのファイル名のフィールドを含む。
【0038】
サウンドファイルの再生のタイミングは、例えば情報の受信時、情報の閲覧時などに設定することができる。具体的には例えば電子メールが着信したとき、着信した電子メールを閲覧するとき、あるいはWebブラウザでHTMLファイルを閲覧するときなどである。閲覧時に再生する場合、表示中の部分に出現するキーワードの出現頻度に応じて再生する音量やサウンドファイルの再生部分を変化させるように設定することもできる。例えば表示中の部分におけるキーワードの出現頻度が高いときは音量を大きくしたり、あるいはさびの部分を再生したりするよう設定しておくと、情報をスクロールさせて閲覧するとき、その音量が変化することあるいは再生部分が途中でさびの部分に変化することにより表示中の部分におけるキーワードの出現頻度の変化を容易に知ることができる。
【0039】
尚、メロディ再生プロセス33は、キーワード辞書Wでキーワード毎に設定されているサウンドファイルを再生してもよい。例えば、情報中に最も出現頻度の高いキーワードに対して設定されているサウンドファイルを再生してもよいし、例えば複数のキーワードが含まれる情報をスクロール表示させて閲覧するとき、そのときどきの表示中の部分に最も多く出現するキーワードに応じて再生するサウンドファイルを変更してもよい。
【0040】
また、再生する音量はグループ毎にグループの重要度に応じて予め設定するようにしてもよい。また、電子メールが着信したとき、当該電子メールが分類されるグループに分類された過去に受信済みの電子メールのうち未確認メールが所定数以上であるときは、再生する音量を大きくしてオペレータに警告するようにしてもよい。
【0041】
マッピングプロセス34は、図8に示すように、座標平面上において情報とグループとの相関関係に応じた位置に星印Zを表示する。具体的には例えば次のように処理する。はじめに次式によりグループ毎の座標を求める。
Σ(グループの設定座標×グループ評価値/評価値の総計)
ここでグループの設定座標とはグループテーブルGに示す各グループの設定座標であり、グループ評価値は分類プロセス32で算出した値である。また、評価値の総計は各グループのグループ評価値の総計である。
【0042】
次に、上式によりグループ毎にx座標を合計した値を星印Zのx座標として求め、グループ毎にy座標を合計した値を星印Zのy座標として求める。
次に、ポップアップウィンドウを表示装置19に表示し、そのポップアップウィンドウではウィンドウ中央を原点とするxy座標平面上に星印Zを表示し、嗜好、趣味、仕事の各グループの設定座標と原点とを結ぶ3本の軸を表示する。表示のタイミングは、電子メールが着信したとき、あるいはHTMLファイルの送信をWWWサーバ2に要求し、受信したHTMLファイルをWebブラウザに表示したとき等である。
【0043】
例えば、着信した電子メールについて各グループのグループ評価値が以下の値であったとする。
グループ「趣味」:5
グループ「仕事」:3
グループ「嗜好」:2
この場合、上記の式によりグループ毎に算出した座標は以下の値になる。
グループ「趣味」:(160,−100)
グループ「仕事」:(−96,−60)
グループ「嗜好」:(0,40)
これらの座標をx座標、y座標毎に合計すると(64,−120)になる。この結果、表示装置19の座標平面上で(64,−120)に相当する位置に星印Zを表示したポップアップウィンドウが電子メールの着信時に表示装置19に表示される。
【0044】
形態素解析プロセス35は、通信プロセス31から出力された情報から構成要素としての単語を抽出しフィルタプロセス37に出力する処理を行う。形態素解析プロセス35は通信プロセス31から情報が出力されると、情報内のテキストを形態素解析により単語に分解する。具体的には例えば「静岡県西部のゲレンデはスキーに最適です」というテキストを「静岡県/西部/の/ゲレンデ/は/スキー/に/最適/です」という9個の単語に分解する。
【0045】
仮名漢字変換プロセス36は、仮名漢字変換辞書に基づきユーザによって入力されるテキストを仮名漢字変換するとともに、変換指示毎に変換対象となっているテキストの構成要素を形態素解析プロセス35に出力する。具体的には例えばオペレータが「静岡県西部のゲレンデはスキーに最適です」というテキストを入力するために、「しずおかけん/せいぶの/げれんでは/すきーに/さいてきです」というようにテキストを5つの構成要素に区切って変換を指示する場合、仮名漢字変換プロセス36は、区切毎に「静岡県/西部の/ゲレンデは/スキーに/最適です」という漢字仮名交じり文に変換するとともに、変換済みの5つの構成要素を形態素解析プロセス35に出力する。これにより形態素解析プロセス35に比較的小さな構成要素が入力されるため、形態素解析プロセス35で単語に分解するために必要な処理量を低減でき、その結果、情報を単語に分解する処理を簡素化し高速化することができる。
【0046】
尚、仮名漢字変換プロセス36は、漢字に変換した単語について変換した回数、すなわちテキストを作成するときの単語の使用頻度を単語毎に蓄積し、使用頻度が所定回数以上に達したときその単語を形態素解析プロセス35に出力するようにしてもよい。
【0047】
フィルタプロセス37は、キーワード候補辞書を用いてフィルタリングすることにより、形態素解析プロセス35から出力される単語から文脈と無関係に出現する単語を除外し、特定の文脈でのみ出現率が高くなる名詞をキーワードとして抽出する。具体的には例えば「静岡県/西部/の/ゲレンデ/は/スキー/に/最適/です」という9個の単語から「静岡県」、「ゲレンデ」、「スキー」という3つのキーワードを抽出する。
【0048】
辞書更新プロセス38は、フィルタプロセス37から出力されるキーワード及びキーワード辞書Wに基づいて共起キーワード辞書Vを更新し、共起キーワード辞書Vに基づいてキーワード辞書Wを更新する。図9は、共起キーワード辞書Vの一例を示す図である。共起キーワード辞書Vは、1レコードをグループ番号、登録済キーワード、共起キーワード、共起回数及び生起回数で構成している。1レコード中の登録済キーワードと共起キーワードとは互いに対になって共起キーワード辞書Vに登録される。
【0049】
共起キーワードは「嗜好」以外のグループに属するキーワードとしてキーワード辞書Wに登録されたキーワード(登録済キーワード)と共に1つの情報内に一定条件を満たして出現(共起)したキーワードである。また共起キーワードはキーワード辞書Wに新たに登録するキーワードの候補となる単語である。共起キーワードの抽出条件は、具体的には例えば、登録済キーワードが含まれる情報内に出現する、登録済キーワードが含まれる情報において登録済キーワードが含まれる段落内に出現する、登録済キーワードが含まれる情報において登録済キーワードを中心に前後n(”n”は任意の値)個以内のキーワード内に出現する等である。尚、グループ「嗜好」に属するキーワードについては共起キーワードの抽出は行われない。生起回数は、あるキーワードが共起キーワードとして格納された以降に分類対象となった情報のうち当該共起キーワードと対になっている登録済キーワードを含んだ情報の数である。共起回数は、あるキーワードが共起キーワードとして格納された以降に分類対象となった情報のうち登録済キーワードの共起キーワードとして当該共起キーワード(既に格納されている共起キーワード)が再度抽出された情報の数を表す。
【0050】
尚、あるキーワードが共起キーワードとして格納された以降に分類対象となった情報のうち当該共起キーワードを含んだ情報の数を生起回数としてもよい。また、情報内に出現する出現回数で生起回数及び共起回数をカウントするようにしてもよい。
【0051】
辞書更新プロセス38は、登録済キーワードと共起関係の強い共起キーワードを、当該登録済キーワードの属するグループに属するキーワードとして、キーワード辞書Wに登録する。登録済キーワードと共起キーワードとの共起関係の強さは、例えば共起回数/生起回数で表される確率の高さや、共起回数の多さなどが指標となる。具体的には例えば、共起回数/生起回数>0.7かつ共起回数>9の条件を満たすときに共起キーワードをキーワード辞書Wに登録するとすれば、図9に示す共起キーワード辞書Vがある場合に、新たに受信した電子メールに「山形県のスキー場には雪が多く残っている。」というテキストが含まれ、登録済キーワードである「スキー」の共起キーワードとして「雪」が抽出されたとすると、「雪」はグループ番号「1」のキーワードとしてキーワード辞書Wに登録され、共起キーワード辞書Vから削除される。このときキーワード辞書Wに登録する設定値は、例えば共起キーワードと対になっていた登録済キーワードと同じ値でもよいし、その登録済キーワードの設定値に共起回数/生起回数で表される確率を掛けた値でもよい。また登録する曲番号は、例えばその登録済キーワードと同じ曲番号であってもよいし、その登録済キーワードが属するグループについて設定されているサウンドファイルを再生すればよい場合は設定しなくてもよい。
【0052】
辞書更新プロセス38は、出力されたキーワード毎にそのキーワードが含まれる情報の数を共起キーワード辞書Vとは別に蓄積し、その数がある条件を満たしたとき、そのキーワードをグループ「嗜好」に属するキーワード、すなわちグループ番号が”0”のキーワードとしてキーワード辞書Wに追加する。オペレータがある特定のキーワードを含む情報に興味があるとき、オペレータはそのキーワードを含む情報を積極的に収集するため、そのキーワードはオペレータが受信する情報全般に多く含まれる可能性が高い。従って、グループ「嗜好」に属するキーワードはオペレータの嗜好を表すキーワードであるといえる。キーワードをグループ「嗜好」に分類することで、オペレータは電子メール着信時の音でその情報が自身の嗜好する情報であることを容易に知ることができる。
【0053】
また、情報のグループをオペレータ自身に指定させることもできる。具体的には例えば次のように処理する。オペレータがグループを指定するよう予め設定されているとき、ある情報についてフィルタプロセス37から出力されると、辞書更新プロセス38はオペレータが当該情報を分類するグループを指示するための指示画面を表示装置19に表示し、オペレータに当該情報を分類するグループを指定させる。オペレータがグループを指定すると、辞書更新プロセス38は、抽出されたキーワードのうち出現回数が所定の回数以上であるキーワードをオペレータに指示されたグループに属するキーワードとしてキーワード辞書Wに追加登録する。尚、追加登録するキーワードをオペレータに選択させるようにしてもよい。
【0054】
以上、情報分類装置1の構成について説明した。以下、情報分類装置1の作動について説明する。
図1は、情報分類装置1の処理の流れを表すフローチャートである。
【0055】
始めに、図中の「開始4」から始まるメロディテーブルM、グループテーブルG及びキーワード辞書Wの初期設定を行うときの作動について説明する。「開始4」の処理は情報分類装置1を初めて使うとき必ず行い、以降、必要に応じて行われる。辞書更新プロセス38はキーワード辞書Wの初期設定を行うための画面を表示し、オペレータにキーワード、キーワードが属するグループ番号及び設定値の入力を要求する。オペレータがキーワード、そのキーワードが属するグループ番号、設定値及び曲番号を入力すると、辞書更新プロセス38はそれらをキーワード辞書Wに登録する(S405)。次に、辞書更新プロセス38はメロディテーブルMに格納されているサウンドファイル名を画面に一覧表示し、それぞれのグループ毎にサウンドファイル名を選択させる。オペレータがサウンドファイル名を選択すると、辞書更新プロセス38は選択されたサウンドファイル名の曲番号をグループテーブルGの「曲番号」フィールドにそれぞれ登録する(S410)。次に、辞書更新プロセス38はグループテーブルGの設定座標をグループ数に応じて設定する(S415)。
【0056】
次に、図中の「開始1」から始まる電子メールの送信時に辞書を更新するときの作動について説明する。オペレータは情報分類装置1で電子メールプログラムを起動し、送信するテキストを入力して所定のキーボード操作により区切りを指定することでそれまでに入力したテキストの仮名漢字変換を指示する(S105)。仮名漢字変換が指示されると、仮名漢字変換プロセス36は指示されたテキストを漢字仮名交じり文に仮名漢字変換し、変換済みの構成要素を形態素解析プロセス35に出力する(S110)。形態素解析プロセス35は単語を抽出してフィルタプロセス37に出力し、フィルタプロセス37はその単語にフィルタリングを行ってキーワードを抽出し、辞書更新プロセス38に出力する(S310)。キーワードが出力されると、辞書更新プロセス38はそのキーワードに基づいてキーワード辞書W及び共起キーワード辞書Vを更新する処理を行う(S315)。以上のステップS310〜S315をオペレータが仮名漢字変換を指示する毎に繰り返し、オペレータが全てのテキスト情報を入力し終わって電子メールを送信する操作を行うと、通信プロセス31はその電子メールを電子メール装置3に送信する(S115)。
【0057】
次に、図中の「開始3」から始まる電子メールを受信したときの作動について説明する。通信プロセス31は通信部15を介して電子メール装置3から電子メールを受信すると、受信した電子メールのテキスト情報を形態素解析プロセス35に出力する(S305)。形態素解析プロセス35はテキスト情報を単語に分解してフィルタプロセス37に出力する。フィルタプロセス37は単語から抽出したキーワードを辞書更新プロセス38に出力する(S310)。キーワードが入力されると、辞書更新プロセス38はそのキーワードに基づいてキーワード辞書W及び共起キーワード辞書Vの更新を行う(S315)。次に、分類プロセス32は通信プロセス31から出力された電子メールのテキスト情報をグループに分類してメロディ再生プロセス33及びマッピングプロセス34に出力する(S320)。メロディ再生プロセス33は分類したグループに応じた音を再生する処理を行う。例えば分類したグループが「趣味」であったとすると、メロディ再生プロセス33は分類したグループ「趣味」に対応するファイル名”曲名1.mmf”をグループテーブルGから取得し、そのサウンドファイルを外部記憶装置20から取得する。次に、取得したサウンドファイルをサウンド制御部16に出力する。これによりサウンド制御部16でサウンドファイルの再生が行われ、電子メールが分類されたグループに応じた音が再生される。一方、マッピングプロセス34は情報とグループとの相関関係に応じた位置に星印を表示したポップアップウィンドウを表示装置19に表示する(S325)。次に、電子メールプログラムは電子メールを表示装置19に表示する。メロディ再生プロセス33はサウンドファイルを再生すると共に、再生ボリュームをテキスト情報の表示中の部分に含まれる登録済キーワードの出現頻度に応じて制御する。
【0058】
図中の「開始2」から始まるWebを閲覧するとき、すなわちHTMLファイルを受信するときの作動は「開始3」のときの作動と実質的に同一であるため説明は省略する。
【0059】
以下、本実施例の効果について説明する。
本実施例の情報分類装置1によると、登録済キーワードとの共起関係が強い共起キーワードを新たにキーワード辞書Wに登録する。共起関係が強いということは登録済キーワードが出現する情報にその共起キーワードが出現する頻度が高いということであり、ある情報にその共起キーワードが出現するとき、その情報は登録済キーワードのグループに属する情報である可能性が高いということである。また、時間の経過に伴って興味の対象がずれていったとしても、過去に興味を持った情報と関連のある情報について将来興味を持つ可能性が高い。共起キーワードをキーワードとしてキーワード辞書Wに登録すると、元の登録済キーワードは出現せずその新たに登録したキーワードのみが出現する情報を元の登録済キーワードが属するグループに分類することができる。従って情報を正確にグループに分類することができる。
【0060】
更に、情報はキーワード毎の重み付けに基づいて算出したグループ評価値の大きいグループに分類されるため、情報を更に正確にグループに分類することができる。また、オペレータがグループを指定するよう設定されていない場合は、オペレータ自身がキーワードの登録や情報の分類を行う必要がないため、情報を容易にグループに分類することができる。例えば、情報の重要度が時間的に変化する場合であっても、時間と共に特定の単語が出現する頻度が増えてくると情報分類装置1はその単語をキーワードとして登録するため、オペレータはオペレータ自身でキーワード辞書Wを更新し続けることなく重要度の高い情報を特定のグループに分類することができる。また、メロディ再生プロセス33は分類されたグループに応じて音を再生するため、情報のグループをオペレータに音で通知することができる。これによりオペレータはその音で情報のグループを判断でき、例えば電子メールの場合であれば重要な電子メールの着信を即座に知ることができる。
【0061】
更に、本実施例の情報分類装置1は、テキスト入力により情報が作成されるときテキスト入力の区切毎に当該情報の構成要素を抽出するため、仮名漢字変換プロセス36から出力された仮名漢字変換後の構成要素については形態素解析プロセス35における処理が簡素化される。
【0062】
更に、本実施例の情報分類装置1は、情報とグループとの相関関係に応じた位置を座標平面上に表示する。これにより、一つの情報に複数のキーワードが含まれ、それらのキーワードが属するグループが異なるとき、その情報と複数のグループとの関係の程度が視覚的に表現される。従って、複数のグループと相関関係にある情報の傾向を正確にオペレータに伝えることができる。
【0063】
更に、本実施例の情報分類装置1によると、情報をオペレータの指示に応じてグループに分類することにより、オペレータの意図を直接的に分類処理に反映させることができる。
【0064】
尚、本実施例では分類する情報として電子メール及びHTMLファイルを例に説明したが、情報は画像ファイルやサウンドファイルであってもよく、例えばサウンドファイルのファイル名に基づいてそのサウンドファイルをグループに分類してもよい。
【図面の簡単な説明】
【図1】本発明の一実施例である情報分類装置の処理の流れを表すフローチャートである。
【図2】本発明の一実施例である情報分類装置をネットワークに接続した様子を表す図である。
【図3】本発明の一実施例である情報分類装置のハードウェア構成を示すブロック図である。
【図4】本発明の一実施例である情報分類装置のデータフロー図である。
【図5】本発明の一実施例である情報分類装置が備えるキーワード辞書を示す図である。
【図6】本発明の一実施例である情報分類装置が備えるグループテーブルを示す図である。
【図7】本発明の一実施例である情報分類装置が備えるメロディテーブルを示す図である。
【図8】本発明の一実施例である情報分類装置が情報とグループとの相関関係に応じた位置を座標平面上に表示した一例である。
【図9】本発明の一実施例である情報分類装置が備える共起キーワード辞書を示す図である。
【符号の説明】
1 情報分類装置
2 WWWサーバ
3 電子メール装置
11 CPU(音再生手段、辞書更新手段、手動分類手段、重み付け手段、分類手段、マッピング手段)
12 ROM
13 RAM(音再生手段、辞書更新手段、手動分類手段、重み付け手段、分類手段、マッピング手段)
14 操作器(手動分類手段)
15 通信部
16 サウンド制御部(音再生手段)
17 スピーカ(音再生手段)
18 表示制御部(手動分類手段、重み付け手段、マッピング手段)
19 表示装置(手動分類手段、重み付け手段、マッピング手段)
20 外部記憶装置(音再生手段、辞書更新手段、重み付け手段)
31 通信プロセス
32 分類プロセス
33 メロディ再生プロセス
34 マッピングプロセス
35 形態素解析プロセス
36 仮名漢字変換プロセス
37 フィルタプロセス
38 辞書更新プロセス

Claims (9)

  1. 複数のキーワードが所定のグループに分かれて登録されているキーワード辞書と、
    複数の単語からなるテキスト情報を受信する受信手段と、
    前記受信手段により受信したテキスト情報から単語を抽出し、当該単語のうち名詞のものをキーワードとして抽出するフィルタ手段と、
    前記フィルタ手段により抽出したキーワードのうち少なくとも一つに前記キーワード辞書に登録されているキーワードがある場合、前記キーワード辞書に登録されていない前記抽出したキーワードが、前記キーワード辞書に登録されているキーワードと対になって、共起キーワードとして登録される共起キーワード辞書と、
    前記キーワード辞書に登録されているキーワードと前記共起キーワードが予め設定された指標に基づいて共起関係が強いことが判断された場合に、前記共起キーワードを、当該共起キーワードと対になって前記キーワード辞書に登録されているキーワードの属するグループに登録することによって前記キーワード辞書を更新するキーワード辞書更新手段と、
    前記キーワード辞書に基づいてテキスト情報を前記所定のグループに分類する分類手段と、
    前記分類手段によってテキスト情報が分類されたグループに応じて音を再生する音再生手段と、
    を備え、
    前記キーワード辞書更新手段は、前記フィルタ手段により抽出したキーワードが所定の条件を満たした場合に、前記抽出したキーワードを、前記共起キーワードとして前記共起キーワード辞書に登録することなく、前記キーワード辞書の特定のグループに登録し、
    前記分類手段によってテキスト情報が分類されたグループを前記音再生手段により再生する音によって利用者に通知することを特徴とする情報分類装置。
  2. 前記キーワード辞書更新手段は、前記共起キーワードを当該共起キーワードと対になって前記キーワード辞書に登録されているキーワードの属するグループに登録するとき、当該共起キーワードを前記共起キーワード辞書から削除することを特徴とする請求項1記載の情報分類装置。
  3. 前記音再生手段は、テキスト情報を受信したときに当該テキスト情報が分類されるグループに応じて音を再生することを特徴とする請求項または記載の情報分類装置。
  4. 前記音再生手段は、音を再生するための制御情報を、前記キーワード辞書に登録済みのキーワードの出現頻度であって情報の被表示部分での出現頻度に応じて変更することを特徴とする請求項1または2記載の情報分類装置。
  5. キーワードに対する重み付けを前記キーワード辞書に登録する重み付け手段をさらに備え、
    前記分類手段は、キーワードに登録された重み付けに基づいてテキスト情報をグループに分類することを特徴とする請求項1〜のいずれか一項に記載の情報分類装置。
  6. テキスト情報とグループとの相関関係に応じた位置を座標平面上に表示するマッピング手段をさらに備えることを特徴とする請求項1〜のいずれか一項に記載の情報分類装置。
  7. 前記キーワード辞書更新手段は、テキスト情報から抽出したキーワードをオペレータに指示されたグループと対のキーワードとして前記キーワード辞書に追加登録することを特徴とする請求項1〜のいずれか一項に記載の情報分類装置。
  8. コンピュータソフトウェアにより情報を処理する方法であって、
    複数のキーワードを所定のグループに分けてキーワード辞書に登録するキーワード登録工程と、
    複数の単語からなるテキスト情報を受信する受信工程と、
    前記受信工程により受信したテキスト情報から単語を抽出し、当該単語のうち名詞のものをキーワードとして抽出するフィルタ工程と、
    前記フィルタ工程により抽出したキーワードのうち少なくとも一つに前記キーワード辞書に登録されているキーワードがある場合、前記キーワード辞書に登録されていない前記抽出したキーワードを、前記キーワード辞書に登録されているキーワードと対にして、共起キーワードとして共起キーワード辞書に登録する共起キーワード登録工程と、
    前記キーワード辞書に登録されているキーワードと前記共起キーワードが予め設定された指標に基づいて共起関係が強いことが判断された場合に、前記共起キーワードを、当該共起キーワードと対になって前記キーワード辞書に登録されているキーワードの属するグループに登録することによって前記キーワード辞書を更新するキーワード辞書更新工程と、
    前記キーワード辞書に基づいてテキスト情報を前記所定のグループに分類する分類工程と、を含み、
    前記キーワード辞書更新工程は、前記フィルタ工程により抽出したキーワードが所定の条件を満たした場合に、前記抽出したキーワードを、前記共起キーワードとして前記共起キーワード辞書に登録することなく、前記キーワード辞書の特定のグループに登録し、
    前記分類工程によってテキスト情報が分類されたグループを利用者に通知することを特徴とする情報分類方法。
  9. コンピュータを情報分類装置として機能させるためのプログラムであって、
    コンピュータを、複数のキーワードを所定のグループに分けてキーワード辞書に登録するキーワード登録手段、
    複数の単語からなるテキスト情報を受信する受信手段、
    前記受信手段により受信したテキスト情報から単語を抽出し、当該単語のうち名詞のものをキーワードとして抽出するフィルタ手段、
    前記フィルタ手段により抽出したキーワードのうち少なくとも一つに前記キーワード辞書に登録されているキーワードがある場合、前記キーワード辞書に登録されていない前記抽出したキーワードを、前記キーワード辞書に登録されているキーワードと対にして、共起キーワードとして共起キーワード辞書に登録する共起キーワード登録手段、
    前記キーワード辞書に登録されているキーワードと前記共起キーワードが予め設定された指標に基づいて共起関係が強いことが判断された場合に、前記共起キーワードを、当該共起キーワードと対になって前記キーワード辞書に登録されているキーワードの属するグループに登録することによって前記キーワード辞書を更新するキーワード辞書更新手段、
    前記キーワード辞書に基づいてテキスト情報を前記所定のグループに分類する分類手段、
    として機能させ、
    前記キーワード辞書更新手段は、前記フィルタ手段により抽出したキーワードが所定の条件を満たした場合に、前記抽出したキーワードを、前記共起キーワードとして前記共起キーワード辞書に登録することなく、前記キーワード辞書の特定のグループに登録し、
    前記分類手段によってテキスト情報が分類されたグループを利用者に通知するプログラム。
JP2002175625A 2002-06-17 2002-06-17 情報分類装置、方法及びプログラム Expired - Fee Related JP4161171B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002175625A JP4161171B2 (ja) 2002-06-17 2002-06-17 情報分類装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002175625A JP4161171B2 (ja) 2002-06-17 2002-06-17 情報分類装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2004021605A JP2004021605A (ja) 2004-01-22
JP4161171B2 true JP4161171B2 (ja) 2008-10-08

Family

ID=31174221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002175625A Expired - Fee Related JP4161171B2 (ja) 2002-06-17 2002-06-17 情報分類装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4161171B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4757516B2 (ja) * 2005-03-18 2011-08-24 ソニー エリクソン モバイル コミュニケーションズ, エービー 携帯端末装置
JP5135701B2 (ja) * 2006-03-30 2013-02-06 富士通株式会社 Webページ分類プログラム、Webページ分類装置およびWebページ分類方法
JP2008305146A (ja) * 2007-06-07 2008-12-18 Taito Corp 出力情報提供システム、出力情報提供サーバ、携帯電話機、及びコンピュータ・プログラム
JP4859779B2 (ja) * 2007-08-01 2012-01-25 ヤフー株式会社 有害コンテンツの評価付与装置、プログラム及び方法
EP3151131A1 (en) * 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection
JP6620538B2 (ja) 2015-12-04 2019-12-18 富士通株式会社 学習プログラム、学習方法およびメールサーバ
JP6718345B2 (ja) * 2016-09-21 2020-07-08 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
CN112784040B (zh) * 2020-12-08 2023-02-28 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
JP7450103B1 (ja) 2023-08-09 2024-03-14 PayPay株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP2004021605A (ja) 2004-01-22

Similar Documents

Publication Publication Date Title
CN103198057B (zh) 一种自动给文档添加标签的方法和装置
JP2007193380A (ja) 情報処理装置,情報処理方法,およびコンピュータプログラム
CN107832434A (zh) 基于语音交互生成多媒体播放列表的方法和装置
JP2000081892A (ja) 効果音付加装置および効果音付加方法
US8332208B2 (en) Information processing apparatus, information processing method, and program
JP2001312497A (ja) コンテンツ作成装置、コンテンツ配信システム、コンテンツ再生装置、及び方法並びに記憶媒体
JP2008217333A (ja) 検索支援装置、プログラム及び検索支援システム
JP4161171B2 (ja) 情報分類装置、方法及びプログラム
JP2007018285A (ja) 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム
US20040006460A1 (en) System and method for problem solution support, and medium storing a program therefor
EP1209599A2 (en) Group forming system, group forming apparatus, group forming method, program, and medium
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
CN112035758A (zh) 音乐推送方法、装置、电子设备以及存储介质
US20130124571A1 (en) Keyword acquiring device, content providing system, keyword acquiring method, a computer-readable recording medium and content providing method
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
CN113407775B (zh) 视频搜索方法、装置及电子设备
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
WO2010124513A1 (zh) 功能实时联想型交互系统及方法
JP4231570B2 (ja) 学習用データ処理装置
JP4194741B2 (ja) 画面読み上げソフトを使用する利用者に向けたWebページ案内サーバー及び方法
JP5973945B2 (ja) 歌詞置換サーバ、及び歌詞置換プログラム
JPH10322478A (ja) 音声によるハイパーテキストアクセス装置
JP2008268507A (ja) 楽曲情報付与サーバ、端末、及び楽曲情報付与システム
US20040125132A1 (en) Method, apparatus and program for supplying content-related information
JP2002157270A (ja) 興味記事配信システム及び興味記事配信方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080625

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080708

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees