JP5165033B2

JP5165033B2 - 通信テキスト分類方法及び装置

Info

Publication number: JP5165033B2
Application number: JP2010181192A
Authority: JP
Inventors: エデンタイ; グレイツァーエリヤフ; クリッチマンヤキル; フュクスミカエル
Original assignee: バズメトリクスエルティーディー
Priority date: 2009-08-14
Filing date: 2010-08-13
Publication date: 2013-03-21
Anticipated expiration: 2030-08-13
Also published as: AU2010212373A1; US20130138430A1; EP2287750A2; JP2011040069A; US20110040837A1; EP2287750A3; EP2287750B1; US8909645B2; US8458154B2

Description

本発明はテキスト、特に通信テキストを分類する方法及び装置に関する。

インターネットが意見交換の場として活用されていることの影響で、インターネット上での通信を解析して有用な情報を得たい、という需要が生まれている。特に、企業は、討論フォーラム、インスタントメッセージングサービス、電子メール等を初めとするインターネット上のメッセージ交換メディアで、自社事業や自社製品がどのように採り上げられているかを知りたがっている。企業がそうした情報を獲得する手段としては、例えばメッセージへの分類子付与がある。これは、そのメッセージに表れている感情等に基づき諸メッセージを分類する、といった手段である。付与されている感情分類子を総括的に調べれば、それらのメッセージの内容をより的確に捉えることができよう。

米国特許第５９２０８５４号明細書米国特許第５９８３２１６号明細書米国特許第６６４０２１８号明細書（Ｂ１）米国特許出願公開第２００４／００５９７０８号明細書（Ａ１）米国特許出願公開第２００４／０１９９４９８号明細書（Ａ１）米国特許出願公開第２００６／０２２４５５２号明細書（Ａ１）

"Informetion Theory", from Wikipedia, 8/11/ 2010, [online] Internet URL: http://en.wikipedia.org/wiki/Shannon#information#theory

ただ、多数の文書を分類、解析する作業を人間がマニュアルで行うことは、実際問題としては非常に難しいことである。

この点に鑑み、情報処理技術で通信テキストを分類する方法を開発した。この方法では、例えば、分類済である少数のトレーニング用メッセージに基づきトレーニングし、その結果を適用して多数の未分類メッセージを分類する。その分類で得られるリコール及びプレシジョンは高い。リコールとは収集される関連文書が全項目数に対して占める個数比率（回収率）のことであり、プレシジョンとは正しく分類された文書が占める個数比率（精度）のことである。

テキスト文書分類システムの例を示すブロック図である。図１に示したトレーナの一例構成を示すブロック図である。図１に示した分類器の一例構成を示すブロック図である。その実行で図１及び図２中のトレーナが実現される機械可読命令群の例を示すフローチャートである。その実行で図１中の分類器に係る分類手順が実現される機械可読命令群の例を示すフローチャートである。その実行で図３中の索引発生器が実現される機械可読命令群の例を示すフローチャートである。その実行で文書の分類結果が提示されるされる機械可読命令群の例を示すフローチャートである。その実行でユーザ発の誤分類指摘が反映される機械可読命令群の例を示すフローチャートである。図７に例示した機械可読命令群との連携実行で、ユーザが指定した特徴の影響を排除して分類結果を作成させる機械可読命令群の例を示すフローチャートである。文別スコアとバケットの関係例を示す図である。文別索引、バケット別索引及びそれらを保存させうるデータ構造の例を示す図である。バケット別索引、代表値及びそれらを保存させうるデータ構造の例を示す図である。本願で例示したシステム、装置又は方法を実現又は実行する際に使用されるプロセッサプラットフォーム、即ち図４〜図９に示した機械可読命令群又はその一部の実行場所又はプログラミング先となるプロセッサプラットフォームの例を示す模式図である。

図１に、高いリコール及びプレシジョンが得られるテキスト文書分類システムの一例ブロック構成を示す。大まかに述べると、本システム１００では、マニュアルにて分類済の文書群に基づき分類モデルをトレーニングする。その分類モデルは、受領した一群の受領済入力文書の分類に使用される。その分類の結果には索引を付与する。本システム１００のユーザがサーチを実行したときには、サーチ結果及び関連する分類データを併せて提示する。以下、ここで概説した全体動作を踏まえつつ、本システム１００のより詳細な構成及び形態に関し、例示によって説明することにする。

まず、本システム１００は、図示の通りトレーナ１０４、データストレージ１０６、分類器１０８及びサーチエンジン１１２を備えている。

トレーナ１０４は、図示の通り、マニュアルでの分類が済んでいる文書等、事前に分類されている文書１０２を受領し、分類モデル(classification model)を出力してデータストレージ１０６内に保存する。図２に示すように、このトレーナ１０４は特徴抽出器２０２、特徴選出器２０４及びモデル発生器２０６を備えている。特徴抽出器２０２は、事前分類済文書１０２を受領してそれらから特徴を抽出し、その特徴に基づき図１の如く特徴辞書(feature dictionary)を生成・拡充する。例えば、文書内の語やその組合せ（例えば句）を特徴として使用する。それに加え又はそれに代えて、１個又は複数個の語にブール演算子を付したブール条件式を特徴として使用してもよい。ブール演算子には、
＆ … ＡＮＤ … 配下の諸条件が全て真のときに真
＾ … ＯＲ … 配下の諸条件のうち少なくとも１個が真のときに真
！ … ＮＯＴ … 配下の条件が真でないときに真
（ｘ，ｙ） … 第１語がｘ回超ｙ回未満生起した後に第２語が生起すると真
等があり、特徴抽出器２０２ではグループス法に則り且つブール条件式を用いグループ化特徴(grouped feature)を生成する。グループ化特徴は文書における語同士の関係又はパターンを示すものであり、グループス法では諸条件の階層関係に基づき語やより下位のブール条件式を相互連結することでそうしたグループ化特徴を生成する。

例えば代名詞についてのグループ化特徴としては「＾ｐｒｏｎ，ｈｅ，ｈｅｈａｓ，ｈｅｉｓ，ｈｅｗｉｌｌ，ｈｅｗｏｕｌｄ，ｈｅ’ｄ，ｈｅｈａｄ，ｈｅ’ｌｌ，ｈｅ’ｓ，ｈｅｓ，ｉ，ｉａｍ，ｉｈａｄ，ｉｈａｖｅ，ｉｗｉｌｌ，ｉｗｏｕｌｄ，ｉ’ｄ，ｉ’ｌｌ，ｉ’ｍ，ｉ’ｖｅ，ｉｖｅ，ｓｈｅ，ｓｈｅｈａｄ，ｓｈｅｉｓ，ｓｈｅｗｉｌｌ，ｓｈｅｗｏｕｌｄ，ｓｈｅ’ｄ，ｓｈｅ’ｌｌ，ｓｈｅ’ｓ，ｓｈｅｓ，ｔｈｅｙ，ｔｈｅｙａｒｅ，ｔｈｅｙ’ｒｅ，ｗｅ，ｗｅａｒｅ，ｗｅ’ｒｅ，ｙｏｕ，ｙｏｕａｒｅ，ｙｏｕ’ｒｅ，ｙｏｕｒｅ」、比較語についてのグループ化特徴としては「＾ｃｏｍｐａｒｉｓｏｎ＿ｗｏｒｄｓ，ａｃｃｅｐｔｆｏｒ，ａｃｔｉｎｇｌｉｋｅ，ａｆｔｅｒ，ａｈｅａｄｏｆ，ａｌｔｅｒｎａｔｉｖｅ，ａｎｙ，ａｎｙｐｒｏｂｌｅｍ，ａｎｙｐｒｏｂｌｅｍｓ，ａｒｇｕｅ，ａｓｇｏｏｄａｓ，ａｓｍｕｃｈ，ａｓｍｕｃｈ，ａｓｗｅｌｌ，ａｔｌｅａｓｔ，ａｘｃｅｐｔ，ｂｅａｔ，ｂｅａｔｉｎｇ，ｂｅｆｏｒｅ，ｂｕｔ，ｃｏｍｐａｒｅ，ｃｏｍｐａｒｅｄ，ｃｏｍｐａｒｉｓｏｎ，ｃｏｍｐｅｔｅ，ｃｏｍｐｅｔｅｉｎｇ，ｃｏｍｐｅｔｉｎｇ，ｅｃｃｅｐｔｆｏｒ，ｅｖｅｎｃｌｏｓｅ，ｅｖｅｎｉｆ，ｅｖｅｎｔｈｏｕｇｈ，ｅｖｅｎｔｈｏｕｇｈ，ｅｘｃｅｐｔ，ｈａｒｄｌｙ，ｈａｓｉｔｇｏｔｔｅｎ，ｈａｖｅｎ’ｔｎｏｔｉｃｅｄ，ｈａｖｅｎｔｎｏｔｉｃｅｄ，ｉｎａｎｄｏｕｔ，ｉｎｓｔｅａｄ，ｌｅａｓｔ，ｌｅｓｓ，ｍｉｓｔａｋｅ，ｍｏｄｅｒａｔｅ，ｍｏｒｅ，ｎｅｖｅｒ，ｎｏｐｒｏｂｌｅｍ，ｎｏｐｒｏｂｌｅｍｓ，ｎｏｒ，ｏｔｈｅｒｗｉｓｅ，ｒａｔｈｅｒ，ｒｅｌｉａｂｉｌｉｔｙｉｓｓｕｅ，ｒｅｌｉａｂｉｌｉｔｙｉｓｓｕｅｓ，ｓｈｏｕｌｄｈａｖｅ，ｓｏｎｏｔｏｒｉｏｕｓ，ｓｕｐｐｏｓｅ，ｓｕｐｐｏｓｅｄ，ｔｈｏｕｇｈ，ｕｎｔｉｌ，ｖｓ，ｗｈｉｌｅ，ｗｈｙｃａｎ’ｔ，ｗｏｕｌｄｈａｖｅ」が生成されうる。誰かが“ｔｈｅｙｗｉｓｈｔｈｅｙｈａｄｓｏｍｅｔｈｉｎｇ”と述べたことを認識するためのグループ化特徴は、語「ｗｉｓｈ」の後に別の語が１回だけ生起してから語「ｈａｄ」が生起すると真になる「＆ｗｉｓｈ＿ｈａｄ，ｗｉｓｈ，ｈａｄ（０，２）」で表すことができる。

この例にて特徴抽出器２０２により生成される特徴辞書は、分類子毎に求めた特徴別の生起回数を示す情報を含んでいる。分類子(classification mode)は個々の文書乃至メッセージに割り当てられる分類子であり、例えばその文書内に表現されている感情を表す「肯定的」「否定的」「中間的」「関心外」といった分類子を使用することができる。特徴辞書には対象分野（カスタマ技術、栄養、ゲーミング等）のコード名即ち串(vertical)を登録することができ、またその串毎に生起回数計数値を登録することもできる。都合４個の分類子（例えば「肯定的」「否定的」「中間的」「関心外」）がある場合、特徴辞書は、例えば、特徴毎に１本の行があり、個々の行に各分類子の生起回数が各１個ずつ登録された構成になる。表１に２個の特徴がエントリされた特徴辞書の例を示す。

その特徴抽出器２０２によって特徴辞書が生成された後、この例では、トレーナ１０４に設けられている特徴選出器２０４によって、その辞書に登録されている特徴のうち幾種類かが解析対象として選出される。このとき、その生起回数が多い特徴を選出することで、辞書サイズを削減し且つ分類時に解析しなければならない特徴の個数を減らすことができる。そのため、特徴選出器２０４では、分類子同士を分別できるようシャノンの情報理論に基づき、例えば約８０００個の特徴をその生起回数が多い方から選出する。なお、これは一例であり、特徴選出個数や特徴選出手法は任意に定めることができる。特徴選出器２０４は、こうして改訂した特徴辞書をモデル発生器２０６に供給する。

モデル発生器２０６は、特徴選出器２０４によって改訂された特徴辞書をその特徴選出器２０４から受領し、使用に耐える分類モデルをその辞書に基づき準備する。例えば、その辞書に登録されている値を調整し、分類子に対して決定論的となる特徴が生じないようにする。より具体的には、どの分類子か、どの特徴かを問わず、０値の生起回数を全て０．５に差し替える。これにより、確率値が０になること、ひいてはその分類子がある特定の特徴によって統計的に排除されることを、防ぐことができる。モデル発生器２０６は、こうして調整した改訂版の特徴辞書を、分類モデルとして使用できるようデータストレージ１０６内に保存する。なお、図示例では特徴辞書が図１に示すフォーマット等のテキストファイルとして保存されるが、特徴辞書の保存は、辞書保存に適する様々なフォーマット乃至データ構造で行うことができる。

トレーニングが完了した後、図１中の分類器１０８は、トレーナ１０４によってデータストレージ１０６内に保存された分類モデルにアクセスし、入力されてくる種々の文書１１０を分類する。それら入力文書１１０の例はインターネット上で電子的に伝達される文書、例えば討論フォーラムに投稿された電子メッセージであるが、分類子による分類が可能なものであればその種類は問わない。この例の場合、分類器１０８は図３に示す如く特徴抽出器３０４、統計値発生器３０６及び索引発生器３０８を備えている。

特徴抽出器３０４は、例えば、個々の文書を解析することで、その文書内の個々の文から特徴を抽出する。統計値発生器３０６は、例えば、個々の文にその分類子が割り当てられる蓋然性を示す確率の値を分類子毎に１個ずつ求め、そうして求まった一組の確率値を出力する。確率値導出手順については後に図５を参照して例示説明する。索引発生器３０８は、例えば、それらの統計データをバケット化して索引付けを行い、得られた索引をデータストレージ１０６内に保存する。索引を作成することで、統計データの保存に費やされる時間及びスペースを節約することができる。保存された情報は、後刻、質問が実行され結果の提示が求められたときに、読み出して利用することができる。統計データをバケット化し索引を付ける手法については後に図５及び図６を参照して例示説明する。

分類器１０８による索引の保存から暫し時間が経過した後、図１に示す如くユーザが質問事項１１４を入力すると、それらはサーチエンジン１１２に送られる。サーチエンジン１１２は、例えば、入力文書１１０をサーチしてその結果をユーザ向けに提示する。ユーザは、それを受けてメッセージの分類解析を要求することができる。例えば、返ってきたサーチ結果が膨大であった場合、ユーザは、自分が提出した質問事項に関し人々が何を述べているかを大まかにつかむため、各分類子が何個のメッセージに割り当てられているかを解明する分類解析を要求することができる。サーチエンジン１１２は、データストレージ１０６内に保存されている索引を利用し、その解析の結果を提示する。例えば、サーチ結果中にリストアップされているメッセージに対する各分類子割当個数又は比率を、折れ線グラフ、棒グラフ、円グラフ等のグラフにして表示させる。ユーザは、提示される解析結果を参照して分類を指定し、その分類に係る分類子が割り当てられているメッセージの提示を要求すること、例えば「否定的」意見に係る分類子が割り当てられているメッセージ全ての提示を要求することができる。サーチエンジン１１２は、例えば、この要求に応じ該当するメッセージのリスト、例えば自信指標に従いソートされたメッセージリストを提示する。自信指標は、そのメッセージがその分類に該当することに関しサーチエンジン１１２がどの程度の自信を持っているかを示す数値である。サーチエンジン１１２により実行されるサーチ手順については後に図７を参照して例示説明する。

データストレージ１０６は、例えば、データの保存に使用できる任意形態のストレージである。このストレージ１０６としては、データベース、有形メモリ、レジスタ、データ構造、その任意の組合せ等のデータストレージ構造を使用することができる。また、そうしたデータストレージ構造を複数個使用してストレージ１０６を形成し、索引、分類用の特徴辞書等、本システム１００で使用されるデータを保存させることもできる。

次に、その実行により本システム１００の諸要素又はその一部が実現される機械可読命令群の例について、フローチャートである図４〜図９を参照して説明する。

これから例示する各種の機械可読命令群は、対応するフローチャートによる記載に従い、１個又は複数個のプログラム、ルーチン又は手順で実現することができる。また、その実行には、（ａ）図１３に例示するプロセッサプラットフォーム１３００内のマイクロプロセッサ１３０５等のプロセッサ、（ｂ）コントローラ、（ｃ）その他の任意且つ相応なデバイス、或いはそれらの組合せを使用することができる。それらのプログラム乃至プログラム群は有形媒体に格納されたソフトウェア、例えばフラッシュメモリ、ＣＤ−ＲＯＭ、フロッピー（登録商標）ディスク、ハードディスク、ＤＶＤ（登録商標）、プロセッサ１３０５に係るメモリ等に格納されたソフトウェア、といった形態で提供することができる。或いは、当該プログラム乃至プログラム群の一部又は全部を、マイクロプロセッサ１３０５以外のデバイスで実行することや、ファームウェア、或いはＡＳＩＣ（application specific integrated circuit）、ＰＬＤ（programmable logic device）、ＦＰＬＤ（field programmable logic device）、ディスクリート論理回路等の専用ハードウェアで実現することも可能である。例えば、例示したトレーナ１０４、分類器１０８、サーチエンジン１１２等、本システム１００を構成するどの部材も、ソフトウェア、ハードウェア、ファームウェア、その任意の組合せ等の形態にて、個別に、数個まとめて、或いは全て一体にして、実現することができる。図４〜図９にその流れを示す手順の一部又は全体をマニュアル的な形態で実現してもよい。

また、念のために述べると、トレーナ１０４、分類器１０８、サーチエンジン１１２、特徴抽出器２０２，３０２、特徴選出器２０４、モデル発生器２０６、統計値発生器３０４及び索引発生器３０８のうち少なくとも１個は、メモリ、ＤＶＤ、ＣＤ等を初めとする有形媒体の形態をとるものものである。別紙特許請求の範囲に記載されている請求項が、純粋にソフトウェア的な構成を包含すると読めるか否かを問わない。更に、図示例のトレーナ１０４、分類器１０８及びサーチエンジン１１２は、図示及び説明したデータ構造、要素、手順乃至デバイスでも、それ以外のデータ構造、要素、手順乃至デバイスでも、或いはそれらの任意な組合せでも実現することができる。使用するデータ構造、要素、手順乃至デバイスの個数は１個でも複数個でもよい。

更に、フローチャートたる図４〜図９を参照して説明する機械可読命令群は、本願記載の方法及び装置を実施する手法の一例に係るものであり、それ以外も本願記載の方法及び装置を実施可能な手法は数多くある。例えば、図４〜図９に示す流れとはステップの実行順を違えることもできるし、幾つかのステップを内容変更、削除、結合又は分割することもできる。

図４に、図１及び図２中のトレーナを実現する手順の例をそのフローチャートにより示す。この図の手順では、まず、特徴抽出器２０２が事前分類済文書を受領する（ステップ４０２）。例えば、既にマニュアル又は他の分類システムで分類されており、その文書に相応しい分類子が求まっている文書を受領する。次に、特徴抽出器２０２がそれらの事前分類済文書から特徴を抽出し（ステップ４０４）、抽出した特徴を分類用の特徴辞書に追加登録する（ステップ４０６）。即ち、その事前分類済文書から特徴が見つかるたびに、その文書向けの分類子（例えば文書受領時に指定された分類子）に係る計数値のうち、特徴辞書内でその特徴に関連付けられているものをインクリメントする。例えば、ある文書に相応しい分類子が受領当初から“分類子その１”と定まっている場合、“分類子その１”についての計数値をインクリメントする。従って、全ての文書を解析することで、分類子毎の計数値を特徴別に求めることができる。それらの計数値は、それぞれ、事前分類によりその分類子が相応しいとされた文書内にその特徴が生起する回数を表している。その次は、例えば、特徴選出器２０４が、特徴辞書内の特徴のうちその生起回数が多いものを存置させる（ステップ４０８）。即ち、生起回数が多い特徴を抽出し改訂版の特徴辞書として保存することか、或いは生起回数が少ない特徴を特徴辞書から削除することで、改訂版の特徴辞書を作成する。次いで、モデル発生器２０６が、例えば、特徴別の計数値のうち０値のものを別の小さな数値（０．５等）へと差し替え（ステップ４１０）、分類子毎に確率値を求めて保存する（ステップ４１２）。即ち、例えば「肯定的」との分類子が割り当てられている文書の個数を、例えば「肯定的」「否定的」「中間的」「関心外」等の分類子が割り当てられている文書の合計総数で除算することで、メッセージに「肯定的」の分類子が割り当てられる確率を求める。モデル発生器２０６は、こうして生成した分類用の特徴辞書を、分類モデルとして図１中のデータストレージ１０６内に保存する（ステップ４１４）。

図５に、図１中の分類器１０８に係る分類手順を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず、特徴抽出器３０４が付索対象文書を受領し（ステップ５０２）、その文書に先んじて解析が済んでいる文の個数を分類テーブルに登録する（ステップ５０４）。即ち、文書が連綿と保存されるデータ構造の場合、そのデータ構造における文書の保存位置を、その文書に先行してそのデータ構造内に保存されている文の個数で特定することができるので、その文書に先行する文の個数をデータストレージ内に保存しておくと爾後はその文書を迅速に探し出せるようになる。次に、その文書に備わる特徴を特徴抽出器３０４が抽出し（ステップ５０６）、統計値発生器３０６が特徴毎に一組の確率値を導出する（ステップ５０８）。即ち、その特徴に関し、その文書にその分類子が割り当てられる確率の値を分類子毎に都合一組導出する。例えば、１個又は複数個の文からなるメッセージがある分類子に属する確率値を次の要領で求める。

まず、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にある特徴が生起する確率は、条件付確率
Ｐ（特徴｜分類子）＝（その分類子に関するその特徴の生起回数）／（その分類子に関する諸特徴の合計生起回数）
で与えられる。

従って、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にｎ個の特徴を有するメッセージが生起する確率は、条件付確率
Ｐ（メッセージ｜分類子）＝ΠＰ（第ｉ特徴｜分類子）
で与えられる。この式中、Πはｉ＝１〜ｎについての乗積である。

他方、ある特定の分類子が割り当てられた文書内に解析対象メッセージが生起する蓋然性を示す確率スコアは、ベイズの定理に従い結合確率
Ｐ（メッセージ∩分類子）＝Ｐ（メッセージ｜分類子）Ｐ（分類子）
として与えられる。その値は、ある特定のメッセージにある特定の分類子が割り当てられる蓋然性を表している。なお、分類子生起確率Ｐ（分類子）は総確率、或いは関連する串におけるその分類子の生起確率である。

この確率スコアは、乗積される特徴の個数が多数になると、値が小さすぎてその保存が難しいほどになる可能性がある。そのため、統計値発生器３０６では例えば対数空間を利用する。即ち、個々のメッセージについて、その分類子の最終的な確率スコアを次の式
ｌｏｇ［Ｐ（メッセージ｜分類子）］
＝ｌｏｇ［（ΠＰ（第ｉ特徴｜分類子））Ｐ（分類子）］
＝Σｌｏｇ［Ｐ（第ｉ特徴｜分類子）］＋ｌｏｇ［Ｐ（分類子）］
に従い計算する。この式中、Πはｉ＝１〜ｎについての乗積、Σはｉ＝１〜ｎについての総和である。

この計算は、分類子毎に確率スコアが得られるよう分類子毎に実行する。その際、最大の確率スコアを呈する分類子を求めることで、個々の文に係る分類子を特定することができる。更に、特定した分類子に係る確率スコアをその次に蓋然性の高い分類子についての確率スコアで除算することで、自信指標が求まる。この自信指標の値が０に近いほど、分類子の特定結果をより強く信頼することができる。

こうして統計値発生器３０６で発生させた統計データは、例えば、索引付与のため索引発生器３０８へと供給される（ステップ５１０）。

なお、図５に例示した手順は単一のメッセージについての統計解析手順である。複数個の受領済メッセージ乃至文書を解析するにはこの手順を繰返し実行すればよい。統計データの供給（ステップ５１０）は、個々のメッセージ乃至文書が解析されるたびに行ってもよいし、全てのメッセージ乃至文書が解析されてから行ってもよい。また、文書で使用される言語が変わるたびに、即ち新たな言語（イタリア語、ヘブライ語、ドイツ語、英語等）についてのモデルがデータストレージ１０６に追加されるたびに、図５の手順を実行してもよい。好適なことに、図１に示したシステムは、どのような言語で記述された文書でも稼働させることができる。その言語の向けの特徴辞書乃至分類用モデルが作成されていればよい。データの解析も文書上の言語に関わりなく同じ手順で実行することができ、またその言語に関わりなく一貫した結果を得ることができる。

図６に、図３中の索引発生器３０８を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず索引発生器３０８が統計値発生器３０６から統計データを受領し（ステップ６０２）、その統計データに含まれる分類子毎の確率スコア即ち図５に示した手順で算出した確率スコアの値に従い、全ての文を対象に、それら分類子毎の確率スコアをソートする（ステップ６０４）。このソートにより、確率スコアを分類子毎にソートしたリスト（分類子が４個なら４個のリスト）が得られる。次いで、個々のリストを複数個のバケットに分割する。例えば、個々のリストをそのサイズが互いに等しい２５６個のバケットに分割する（ステップ６０６）。更に、バケット毎に、そのバケットに属する確率スコア全ての平均値を求め、それをそのバケットの初期代表値とする（ステップ６０８）。そのバケットに属する種々の確率スコア（対数値）を近似的に代表できればよいので、平均値以外の値を初期代表値にすることもできる。例えば、中央値、最大値、最小値等といった種類の値を、バケットに属する確率スコアの初期代表値にすることができよう。次いで、バケット境界を移動させて（ステップ６１０）バケット内確率スコアの平均値を再計算することにより（ステップ６１２）、それらバケット内確率スコアについての有効な代表値を獲得する。例えば、そのバケットに属する確率スコアがその平均値に対し有している偏差又は差分を計算し、その偏差又は差分が減るようバケット境界を調整する（例えば確率スコア１個分だけ特定方向に境界を移動させる）。あるバケットの境界を調整するとその隣のバケットにも必然的に変化が生じるので、バケット境界の調整は、隣のバケットにおける偏差又は差分の増大分が、現在調整中のバケットにおける偏差又は差分の減少分を上回っていないことを、確かめながら行うとよい。また、ステップ６１０及び６１２は繰り返して実行することができる。例えば、バケットの代表値が修正されるよう３回ほどステップ６１０及び６１２を繰り返すようにしてもよい。或いは、調整がもはや意味をなさなくなるまで又はその調整による改善分がしきい値を上回らなくなるまで、ステップ６１０及び６１２を繰り返すようにしてもよい。いずれにせよ、バケット毎に確率スコアの代表値を求めることで、個々のバケットをそのバケットの代表値に対応付けるリスト乃至テーブルを保存することや、保存されている分類子毎にバケット識別子たる０〜２５５等の番号を割り当てることができる。浮動小数点形式の確率スコアに比べ、この番号は少ない桁数（例えば二進で８ビット）で保存可能である。

分類子毎にバケットを調整した後は、分類子毎に、個々の文にバケット番号を割り当て（ステップ６１４）、割り当てられたバケット番号を図１中のデータストレージ１０６内の索引部に保存する（ステップ６１６）。そして、バケット毎の最終的な平均値も保存する（ステップ６１８）。

図７に、文書の分類結果を提示する手順の例をそのフローチャートにより示す。この図の手順では、まずサーチエンジン１１２がユーザから質問事項例えば製品名の入力を受け付ける（ステップ７０２）。サーチエンジン１１２は、索引中にその質問事項例えば製品名が含まれている文を探索し、データ構造内でその（又はそれらの）文が占めている位置を特定する（ステップ７０３）。文の位置は、現在の文書に先んずる文の個数（図５中のステップ５０４にて保存された値）を用い特定する。サーチエンジン１１２は、次いで、先に保存しておいた索引中のバケット識別子のうち、探索した文及びそれに続く２個の文に係るものを取得する（ステップ７０４）。サーチエンジン１１２は、更に、取得したバケット識別子を、図６中のステップ６１８で保存した翻訳テーブルを用い代表値へと翻訳する（ステップ７０５）。例えば、そのバケットに属する確率スコアの代表値である平均値へと、そのバケット識別子を翻訳する。サーチエンジン１１２は、次いで、翻訳で得られた代表値を文書毎に総和する（ステップ７０６）。なお、探索した文に係る代表値のみを取得するようにしてもよいし、先行又は後続する幾つかの文を含めて総和するようにしてもよい。更には、索引を利用せず、質問受領時に分類計算を実行する等の手段で分類用のスコアを決定するようにしてもよい。

サーチエンジン１１２は、文書毎に、分類子間で確率スコアの総和を比較する。即ち、分類子のうち確率スコアの総和が最大のものをその文書向けの分類子として選択する（ステップ７１２）。次に、選択した分類子についての確率スコア総和を、その次に確率スコア総和が大きな別の分類子についての確率スコア総和で除算することにより、文書毎に自信指標を算出する（ステップ７１４）。次いで、その自信指標に従い文書をソートし、自信指標が最も小さいもの、即ちその分類に最も信頼がおけるものをリストの冒頭に据える（ステップ７１６）。サーチエンジン１１２は、更に、自信指標に従いソートされた分類結果を質問結果と共に提示する（ステップ７１８）。その提示は様々な形態で行うことができる。例えば、結果のリストを分類データ無しで表示させ、ユーザからの指示に応じ分類データを表示させるようにしてもよい。或いは、分類子毎の文書数を示すグラフを表示させ、分類子を指定するユーザ発の指示に応じその分類子に係るメッセージを表示させるようにしてもよい。

この結果表示を受け、ユーザは、概要データを眺め、個別の文書、メッセージ、文等に係る分類データを眺め、或いはその双方を眺める。個別の文書、メッセージ又は文に係る分類データが表示されているとき、ユーザは、分類計算の結果を修正することができる。図８にその修正手順の例を示す。

図８に、ユーザが指摘した誤分類への対処を実現する機械可読命令群の例をフローチャートにより示す。この図の手順では、まず誤分類との指摘が保存されているか否かをサーチエンジン１１２が判別する（ステップ８０２）。例えば、分類結果が誤りであることを発見したとき、ユーザはそのことを入力して保存させることや、そのメッセージに相応しい分類を入力して保存させることができる。サーチエンジン１１２は、そうした誤分類指摘が保存されていない場合、暫く待って再び誤分類指摘の有無を判別する。例えば、そうした誤分類指摘有無判別を所定時間毎に実行する。

誤分類との指摘が保存されている場合（ステップ８０２）、サーチエンジン１１２はそのうち最先に保存されたものを処理対象として選択し（ステップ８０４）、誤分類とされた分類子に係る特徴別の計数値を減ずる（ステップ８０６）。但し、いずれであれ特徴別の確率が０になって統計的に排除される分類子が生じるのを防ぐため、特徴別の計数値が０．５未満に下がらないように制限する。サーチエンジン１１２は、次いで、正しい分類先とされた分類子に係る特徴別の計数値を増加させる（ステップ８０８）。こうして索引に保存されている計数値が調整されることで、分類システム側は分類の誤りを学ぶことができる。そして、その誤分類指摘を削除した上でステップ８０２に戻り、処理すべき別の誤分類があるか否かを判別する（ステップ８１０）。

図９に、ユーザが指定した特徴の影響を排除して分類結果を作成させるため、図７に例示した機械可読命令と併せ実行される機械可読命令群の例をそのフローチャートにより示す。ユーザが排除対象として指定する特徴の例は製品名、例えば一般に製品についての否定的意見を示す特徴に関連付けられている語「ｂａｄ」を含む製品名「ＢａｄＤｅｖｉｃｅ」である。この図の手順では、図７中のステップ７０６が実行された後、そうした除外対象特徴の指定を受けたときに（ステップ９０２）、サーチエンジン１１２がその特徴に係る確率値を求め、その特徴の影響が排除されるよう対数値の確率スコアを減ずる（ステップ９０４）。その後はステップ７０８に移行してサーチ結果提示の手順が継続される。これにより、現在実行中のサーチに関し、その基礎となる辞書を改変することなく、指定された特徴の影響を排除して確率値を求めることができる。

図１０に文別スコアとバケットの関係の例を示す。この例では、一組の文別索引１００２が諸文書内の一組の文に割り当てられている。文書乃至文書群内でこの索引付けの対象となる文の個数は任意であるが、この図ではある１個の文書内で連なっている２８個の文が対象になる場合を例示している。また、分類子その１についてのスコア１００４は文毎に計算されており、対応する文に分類子その１が割り当てられる確率の対数値を表している。その値は例えば図５に示した要領で計算することができる。更に、個々の文別スコア１００４の保存用スペースが簡略化されるよう、一組のバケット１００６及び１００８が作成されている。即ち、個々のスコアを浮動小数点形式で保存すると保存用スペースが嵩んでしまうため、より桁数が小さな索引、例えば整数値のバケット識別子を個々のバケット１００６，１００８に割り当て、その索引を保存するようにしている。

また、図中のバケット１００６は例えばステップ６０２〜６０６に係る命令群の実行で作成されたものであり、そのいずれにも同数のスコア１００４が属している。図中の平均値は例えばステップ６０８に係る命令群の実行で導出された値であり、対応するバケット１００６に属するスコア１００４の平均値を表している。従って、その所属先のバケット１００６の識別子でスコア１００４を代表することができ、またその識別子を代表値（図示例では平均値）に翻訳することができる。

更に、図中のバケット１００８は例えばステップ６１０〜６１８に係る命令群の実行で作成されたものであり、バケット境界の調整等の処理が施されている。バケット境界の調整、例えばバケット内平均確率スコアに対するバケット内確率スコアの偏差を減らす処理が施されているため、その平均値は、そのバケット１００８に属するスコア１００４をより密接に代表するものとなっている。例えば、図中のバケット１００８では、第２バケットに第８文及び第９文のみが属し、且つ第３バケットに第１０文〜第１５文が属することとなるよう、第２，第３バケット間の境界が動かされており、それに伴い当該平均値が再計算されている。即ち、第２バケットの代表値（ここでは平均値）がそのバケット内のスコア１００４をより密接に反映したものとなるよう、バケット１００８ではその境界が調整されている。具体的には、第２バケット内平均スコアに対する第２バケット内スコアの偏差の総和が、バケット１００６では｜５．２４−５．０３｜＋｜５．１２−５．０３｜＋｜４．９９−５．０３｜＋｜４．７６−５．０３｜＝０．６１、バケット１００８では０．１２となっている。即ち、バケット境界が動かされた結果、第２バケット内スコア平均値が同バケット内スコアをより密接に代表するものになっている。更なる調整を実行すること、例えば第２バケットの境界移動で第１バケットを改変することも可能である。また、どのような場合にバケット境界を調整するかは任意に決めることができる。例えば、スコアの偏差がしきい値以下となるまで、指数的、対数的等々の傾向でバケット境界を調整するようにしてもよい。更に、最初のバケット境界設定がうまくいったと認められる場合に、バケット境界の調整を行わないようにしてもよい。

図１１に、文別索引１１０２、バケット別索引１１０４及びそれらを保存させうるデータ構造の例を示す。この図に示す索引１１０２及び１１０４は、図１０に示した関係から導出されたものである。好適なことに、これらの索引１１０２及び１１０４は、個々の文別スコア全てを保存する場合に比べ、より少量のメモリ消費で保存することができる。これは、索引１１０４がより小サイズのデータタイプで保存可能なためである。

図１２に、バケット別索引１２０２、代表値１２０４及びそれらを保存させうるデータ構造の例を示す。この図のデータ構造は一種のルックアップテーブルとして使用することができる。具体的には、図１１に示した索引１１０２に相当するバケット別索引１２０２を代表値１２０４、即ちその索引１２０２に係るバケットに属していた諸文のスコアを近似する数値へと翻訳することができる。図示例の場合、索引１１０２（図１１）の個数が代表値１２０４の個数の４倍であるので、図１２に示すデータ構造を保存するのに必要なメモリ量は、索引１１０２毎に実際の確率スコアを保存する場合の約１／４倍で済む。

図１３に、本願で例示したシステム１００や本願記載の他の装置の一部又は全体が実現されるように使用乃至プログラミングしうるプロセッサプラットフォーム１３００の例を模式的に示す。このプラットフォーム１３００は、例えば、汎用プロセッサ、プロセッサコア、マイクロコントローラ等を１個又は複数個用いて実現することが可能である。また、このプラットフォーム１３００は、他の機能を有するデバイスの一部として実現すること、例えば携帯電話等のハンドヘルドデバイスに備わる処理能力を利用して実現することも可能である。

この図のプロセッサプラットフォーム１３００は、１個又は複数個の汎用プログラマブルプロセッサ１３０５を備えている。このプロセッサ１３０５は、ランダムアクセスメモリ（ＲＡＭ）１３１５、リードオンリメモリ（ＲＯＭ）１３２０等、自分のメインメモリ内に存するコーディング済命令１３１０等を実行するものであり、プロセッサコア、プロセッサ、マイクロコントローラ等、様々な種類の処理ユニットで実現することができる。プロセッサ１３０５は、本願で例示した手順を体現する機械可読命令群を含め様々な命令を実行できるよう構成されており、ＲＯＭ１３２０、ＲＡＭ１３１５等といったメインメモリにバス１３２５経由で接続されている。ＲＡＭ１３１５としてはＤＲＡＭ、ＳＤＲＡＭ等といったＲＡＭデバイスを使用することができ、ＲＯＭ１３２０としてはフラッシュメモリ等任意のメモリデバイスを使用することができる。メモリ１３１５及び１３２０へのアクセスは図示しないメモリコントローラで制御することができる。

プロセッサプラットフォーム１３００は、更にインタフェース回路１３３０を備えている。この回路１３３０は、ＵＳＢ（登録商標）インタフェース、Ｂｌｕｅｔｏｏｔｈ（登録商標）インタフェース、外部メモリインタフェース、シリアルポート、汎用入出力インタフェース等、任意のインタフェース規格に従い構成することができる。また、この回路１３３０には、１個又は複数個の入力デバイス１３３５及び１個又は複数個の出力デバイス１３４０が接続されている。

以上、本発明の技術的範囲に属する方法、装置及び産品について説明したが、本発明によってカバーされる範囲はそれらに留まるものではなく、別紙特許請求の範囲に文理的に或いは均等論の許に包含されうる方法、装置及び産品は皆、本発明の技術的範囲に属している。

Claims

分類器にて実行される、電子メッセージの解析方法であって、
前記分類器が、
個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第１のバケットに割り振るステップと、
ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第２のバケットに割り振るステップと、
第１のバケットに割り振られているメッセージについて確率値の平均値を求めるステップと、
第１のバケットと第２のバケットの境界を移動させるステップと、
境界移動を受け、第１のバケットに割り振られているメッセージについて確率値の平均値を求め直すステップと、
平均値に対する第１のバケット内の各確率値の偏差が閾値以下となるまで、境界を移動させるステップ及び確率値の平均値を求め直すステップを繰り返すステップと、
最後に求め直された平均値を、第１のバケットの代表値とするステップと、
最後に求め直された平均値を有形メモリ内に保存するステップと、
第１のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第１のバケットに割り振られていることを示す情報をその有形メモリ内に保存するステップと、
を実行する方法。
請求項１記載の方法であって、第１のバケットに係る上掲の平均値に加え、
第２のバケットに割り振られているメッセージについても平均値を求めるステップと、
その平均値をも上記有形メモリ内に保存するステップと、
を有する方法。
請求項１記載の方法であって、バケット識別子とそのバケットにおける、最初に求め直された平均値とを関連付けるデータ構造を使用して第１のバケットに係る、最初に求め直された平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する方法。
請求項１記載の方法であって、感情に基づく分類子を使用する方法。
請求項１記載の方法であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する方法。
請求項１記載の方法であって、
あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
を有する方法。
命令群が保存されている機械可読媒体であって、保存されている命令群が、マシンに
個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第１のバケットに割り振るステップと、
ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第２のバケットに割り振るステップと、
第１のバケットに割り振られているメッセージについて確率値の平均値を求めるステップと、
第１のバケットと第２のバケットの境界を移動させるステップと、
境界移動を受け、第１のバケットに割り振られているメッセージについて確率値の平均値を求め直すステップと、
平均値に対する第１のバケット内の各確率値の偏差が閾値以下となるまで、境界を移動させるステップ及び確率値の平均値を求め直すステップを繰り返すステップと、
最後に求め直された平均値を、第１のバケットの代表値とするステップと、
最後に求め直された平均値を有形メモリ内に保存するステップと、
第１のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第１のバケットに割り振られていることを示す情報を上記有形メモリ内に保存するステップと、
を実行させる命令群である機械可読媒体。
請求項７記載の機械可読媒体であって、保存されている命令群が、
第１のバケットに係る上掲の平均値に加え、第２のバケットに割り振られているメッセージについても平均値を求めるステップと、
その平均値をも上記有形メモリ内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
請求項７記載の機械可読媒体であって、保存されている命令群が、バケット識別子とそのバケットにおける、最初に求め直された平均値とを関連付けるデータ構造を使用して第１のバケットに係る、最初に求め直された平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存させる命令群を含む機械可読媒体。
請求項７記載の機械可読媒体であって、感情に基づく分類子を使用する機械可読媒体。
請求項７記載の機械可読媒体であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する機械可読媒体。
請求項７記載の機械可読媒体であって、保存されている命令群が、
あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
電子メッセージを解析する装置であって、
あるメッセージ群に関し個々のメッセージにある特定の分類子が割り当てられる確率を示す一組の確率値を求める統計値発生器と、
有形メモリと、
一組の確率値に基づきメッセージ群をソートし、ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第１のバケットに割り振り、ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第２のバケットに割り振り、第１のバケットに割り振られているメッセージについて平均値を求め、第１のバケットと第２のバケットの境界を移動させ、その境界移動を受け、第１のバケットに割り振られているメッセージについて確率値の平均値を求め直し、平均値に対する第１のバケット内の各確率値の偏差が閾値以下となるまで、境界を移動させるステップ及び確率値の平均値を求め直すステップを繰り返し、最後に求め直された平均値を、第１のバケットの代表値とし、最後に求め直された平均値を上記有形メモリ内に保存し、第１のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第１のバケットに割り振られていることを示す情報を当該有形メモリ内に保存する索引発生器と、
を備える装置。
請求項１３記載の装置であって、上記索引発生器が、第１のバケットに係る上掲の平均値に加え、第２のバケットに割り振られているメッセージについても平均値を求め、その平均値をも上記有形メモリ内に保存する装置。
請求項１３記載の装置であって、バケット識別子とそのバケットにおける、最初に求め直された平均値とを関連付けるデータ構造を使用して第１のバケットに係る、最初に求め直された平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する装置。
請求項１３記載の装置であって、感情に基づく分類子を使用する装置。
請求項１３記載の装置であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する装置。
請求項１３記載の装置であって、あるデータ構造が形成されるように上記一組のメッセージを保存し、そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存する装置。