JP5165033B2 - 通信テキスト分類方法及び装置 - Google Patents

通信テキスト分類方法及び装置 Download PDF

Info

Publication number
JP5165033B2
JP5165033B2 JP2010181192A JP2010181192A JP5165033B2 JP 5165033 B2 JP5165033 B2 JP 5165033B2 JP 2010181192 A JP2010181192 A JP 2010181192A JP 2010181192 A JP2010181192 A JP 2010181192A JP 5165033 B2 JP5165033 B2 JP 5165033B2
Authority
JP
Japan
Prior art keywords
bucket
messages
message
average value
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010181192A
Other languages
English (en)
Other versions
JP2011040069A (ja
Inventor
エデン タイ
グレイツァー エリヤフ
クリッチマン ヤキル
フュクス ミカエル
Original Assignee
バズメトリクス エル ティー ディー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バズメトリクス エル ティー ディー filed Critical バズメトリクス エル ティー ディー
Publication of JP2011040069A publication Critical patent/JP2011040069A/ja
Application granted granted Critical
Publication of JP5165033B2 publication Critical patent/JP5165033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明はテキスト、特に通信テキストを分類する方法及び装置に関する。
インターネットが意見交換の場として活用されていることの影響で、インターネット上での通信を解析して有用な情報を得たい、という需要が生まれている。特に、企業は、討論フォーラム、インスタントメッセージングサービス、電子メール等を初めとするインターネット上のメッセージ交換メディアで、自社事業や自社製品がどのように採り上げられているかを知りたがっている。企業がそうした情報を獲得する手段としては、例えばメッセージへの分類子付与がある。これは、そのメッセージに表れている感情等に基づき諸メッセージを分類する、といった手段である。付与されている感情分類子を総括的に調べれば、それらのメッセージの内容をより的確に捉えることができよう。
米国特許第5920854号明細書 米国特許第5983216号明細書 米国特許第6640218号明細書(B1) 米国特許出願公開第2004/0059708号明細書(A1) 米国特許出願公開第2004/0199498号明細書(A1) 米国特許出願公開第2006/0224552号明細書(A1)
"Informetion Theory", from Wikipedia, 8/11/ 2010, [online] Internet URL: http://en.wikipedia.org/wiki/Shannon#information#theory
ただ、多数の文書を分類、解析する作業を人間がマニュアルで行うことは、実際問題としては非常に難しいことである。
この点に鑑み、情報処理技術で通信テキストを分類する方法を開発した。この方法では、例えば、分類済である少数のトレーニング用メッセージに基づきトレーニングし、その結果を適用して多数の未分類メッセージを分類する。その分類で得られるリコール及びプレシジョンは高い。リコールとは収集される関連文書が全項目数に対して占める個数比率(回収率)のことであり、プレシジョンとは正しく分類された文書が占める個数比率(精度)のことである。
テキスト文書分類システムの例を示すブロック図である。 図1に示したトレーナの一例構成を示すブロック図である。 図1に示した分類器の一例構成を示すブロック図である。 その実行で図1及び図2中のトレーナが実現される機械可読命令群の例を示すフローチャートである。 その実行で図1中の分類器に係る分類手順が実現される機械可読命令群の例を示すフローチャートである。 その実行で図3中の索引発生器が実現される機械可読命令群の例を示すフローチャートである。 その実行で文書の分類結果が提示されるされる機械可読命令群の例を示すフローチャートである。 その実行でユーザ発の誤分類指摘が反映される機械可読命令群の例を示すフローチャートである。 図7に例示した機械可読命令群との連携実行で、ユーザが指定した特徴の影響を排除して分類結果を作成させる機械可読命令群の例を示すフローチャートである。 文別スコアとバケットの関係例を示す図である。 文別索引、バケット別索引及びそれらを保存させうるデータ構造の例を示す図である。 バケット別索引、代表値及びそれらを保存させうるデータ構造の例を示す図である。 本願で例示したシステム、装置又は方法を実現又は実行する際に使用されるプロセッサプラットフォーム、即ち図4〜図9に示した機械可読命令群又はその一部の実行場所又はプログラミング先となるプロセッサプラットフォームの例を示す模式図である。
図1に、高いリコール及びプレシジョンが得られるテキスト文書分類システムの一例ブロック構成を示す。大まかに述べると、本システム100では、マニュアルにて分類済の文書群に基づき分類モデルをトレーニングする。その分類モデルは、受領した一群の受領済入力文書の分類に使用される。その分類の結果には索引を付与する。本システム100のユーザがサーチを実行したときには、サーチ結果及び関連する分類データを併せて提示する。以下、ここで概説した全体動作を踏まえつつ、本システム100のより詳細な構成及び形態に関し、例示によって説明することにする。
まず、本システム100は、図示の通りトレーナ104、データストレージ106、分類器108及びサーチエンジン112を備えている。
トレーナ104は、図示の通り、マニュアルでの分類が済んでいる文書等、事前に分類されている文書102を受領し、分類モデル(classification model)を出力してデータストレージ106内に保存する。図2に示すように、このトレーナ104は特徴抽出器202、特徴選出器204及びモデル発生器206を備えている。特徴抽出器202は、事前分類済文書102を受領してそれらから特徴を抽出し、その特徴に基づき図1の如く特徴辞書(feature dictionary)を生成・拡充する。例えば、文書内の語やその組合せ(例えば句)を特徴として使用する。それに加え又はそれに代えて、1個又は複数個の語にブール演算子を付したブール条件式を特徴として使用してもよい。ブール演算子には、
& … AND … 配下の諸条件が全て真のときに真
^ … OR … 配下の諸条件のうち少なくとも1個が真のときに真
! … NOT … 配下の条件が真でないときに真
(x,y) … 第1語がx回超y回未満生起した後に第2語が生起すると真
等があり、特徴抽出器202ではグループス法に則り且つブール条件式を用いグループ化特徴(grouped feature)を生成する。グループ化特徴は文書における語同士の関係又はパターンを示すものであり、グループス法では諸条件の階層関係に基づき語やより下位のブール条件式を相互連結することでそうしたグループ化特徴を生成する。
例えば代名詞についてのグループ化特徴としては「^pron,he,he has,he is,he will,he would,he’d,he had,he’ll,he’s,hes,i,i am,i had,i have,i will,i would,i’d,i’ll,i’m,i’ve,ive,she,she had,she is,she will,she would,she’d,she’ll,she’s,shes,they,they are,they’re,we,we are,we’re,you,you are,you’re,youre」、比較語についてのグループ化特徴としては「^comparison_words,accept for,acting like,after,ahead of,alternative,any,any problem,any problems,argue,as good as,as much,as much,as well,atleast,axcept,beat,beating,before,but,compare,compared,comparison,compete,competeing,competing,eccept for,even close,even if,even though,eventhough,except,hardly,has it gotten,haven’t noticed,havent noticed,in and out,instead,least,less,mistake,moderate,more,never,no problem,no problems,nor,otherwise,rather,reliability issue,reliability issues,should have,so notorious,suppose,supposed,though,until,vs,while,why can’t,would have」が生成されうる。誰かが“they wish they had something”と述べたことを認識するためのグループ化特徴は、語「wish」の後に別の語が1回だけ生起してから語「had」が生起すると真になる「&wish_had,wish,had(0,2)」で表すことができる。
この例にて特徴抽出器202により生成される特徴辞書は、分類子毎に求めた特徴別の生起回数を示す情報を含んでいる。分類子(classification mode)は個々の文書乃至メッセージに割り当てられる分類子であり、例えばその文書内に表現されている感情を表す「肯定的」「否定的」「中間的」「関心外」といった分類子を使用することができる。特徴辞書には対象分野(カスタマ技術、栄養、ゲーミング等)のコード名即ち串(vertical)を登録することができ、またその串毎に生起回数計数値を登録することもできる。都合4個の分類子(例えば「肯定的」「否定的」「中間的」「関心外」)がある場合、特徴辞書は、例えば、特徴毎に1本の行があり、個々の行に各分類子の生起回数が各1個ずつ登録された構成になる。表1に2個の特徴がエントリされた特徴辞書の例を示す。
Figure 0005165033
その特徴抽出器202によって特徴辞書が生成された後、この例では、トレーナ104に設けられている特徴選出器204によって、その辞書に登録されている特徴のうち幾種類かが解析対象として選出される。このとき、その生起回数が多い特徴を選出することで、辞書サイズを削減し且つ分類時に解析しなければならない特徴の個数を減らすことができる。そのため、特徴選出器204では、分類子同士を分別できるようシャノンの情報理論に基づき、例えば約8000個の特徴をその生起回数が多い方から選出する。なお、これは一例であり、特徴選出個数や特徴選出手法は任意に定めることができる。特徴選出器204は、こうして改訂した特徴辞書をモデル発生器206に供給する。
モデル発生器206は、特徴選出器204によって改訂された特徴辞書をその特徴選出器204から受領し、使用に耐える分類モデルをその辞書に基づき準備する。例えば、その辞書に登録されている値を調整し、分類子に対して決定論的となる特徴が生じないようにする。より具体的には、どの分類子か、どの特徴かを問わず、0値の生起回数を全て0.5に差し替える。これにより、確率値が0になること、ひいてはその分類子がある特定の特徴によって統計的に排除されることを、防ぐことができる。モデル発生器206は、こうして調整した改訂版の特徴辞書を、分類モデルとして使用できるようデータストレージ106内に保存する。なお、図示例では特徴辞書が図1に示すフォーマット等のテキストファイルとして保存されるが、特徴辞書の保存は、辞書保存に適する様々なフォーマット乃至データ構造で行うことができる。
トレーニングが完了した後、図1中の分類器108は、トレーナ104によってデータストレージ106内に保存された分類モデルにアクセスし、入力されてくる種々の文書110を分類する。それら入力文書110の例はインターネット上で電子的に伝達される文書、例えば討論フォーラムに投稿された電子メッセージであるが、分類子による分類が可能なものであればその種類は問わない。この例の場合、分類器108は図3に示す如く特徴抽出器304、統計値発生器306及び索引発生器308を備えている。
特徴抽出器304は、例えば、個々の文書を解析することで、その文書内の個々の文から特徴を抽出する。統計値発生器306は、例えば、個々の文にその分類子が割り当てられる蓋然性を示す確率の値を分類子毎に1個ずつ求め、そうして求まった一組の確率値を出力する。確率値導出手順については後に図5を参照して例示説明する。索引発生器308は、例えば、それらの統計データをバケット化して索引付けを行い、得られた索引をデータストレージ106内に保存する。索引を作成することで、統計データの保存に費やされる時間及びスペースを節約することができる。保存された情報は、後刻、質問が実行され結果の提示が求められたときに、読み出して利用することができる。統計データをバケット化し索引を付ける手法については後に図5及び図6を参照して例示説明する。
分類器108による索引の保存から暫し時間が経過した後、図1に示す如くユーザが質問事項114を入力すると、それらはサーチエンジン112に送られる。サーチエンジン112は、例えば、入力文書110をサーチしてその結果をユーザ向けに提示する。ユーザは、それを受けてメッセージの分類解析を要求することができる。例えば、返ってきたサーチ結果が膨大であった場合、ユーザは、自分が提出した質問事項に関し人々が何を述べているかを大まかにつかむため、各分類子が何個のメッセージに割り当てられているかを解明する分類解析を要求することができる。サーチエンジン112は、データストレージ106内に保存されている索引を利用し、その解析の結果を提示する。例えば、サーチ結果中にリストアップされているメッセージに対する各分類子割当個数又は比率を、折れ線グラフ、棒グラフ、円グラフ等のグラフにして表示させる。ユーザは、提示される解析結果を参照して分類を指定し、その分類に係る分類子が割り当てられているメッセージの提示を要求すること、例えば「否定的」意見に係る分類子が割り当てられているメッセージ全ての提示を要求することができる。サーチエンジン112は、例えば、この要求に応じ該当するメッセージのリスト、例えば自信指標に従いソートされたメッセージリストを提示する。自信指標は、そのメッセージがその分類に該当することに関しサーチエンジン112がどの程度の自信を持っているかを示す数値である。サーチエンジン112により実行されるサーチ手順については後に図7を参照して例示説明する。
データストレージ106は、例えば、データの保存に使用できる任意形態のストレージである。このストレージ106としては、データベース、有形メモリ、レジスタ、データ構造、その任意の組合せ等のデータストレージ構造を使用することができる。また、そうしたデータストレージ構造を複数個使用してストレージ106を形成し、索引、分類用の特徴辞書等、本システム100で使用されるデータを保存させることもできる。
次に、その実行により本システム100の諸要素又はその一部が実現される機械可読命令群の例について、フローチャートである図4〜図9を参照して説明する。
これから例示する各種の機械可読命令群は、対応するフローチャートによる記載に従い、1個又は複数個のプログラム、ルーチン又は手順で実現することができる。また、その実行には、(a)図13に例示するプロセッサプラットフォーム1300内のマイクロプロセッサ1305等のプロセッサ、(b)コントローラ、(c)その他の任意且つ相応なデバイス、或いはそれらの組合せを使用することができる。それらのプログラム乃至プログラム群は有形媒体に格納されたソフトウェア、例えばフラッシュメモリ、CD−ROM、フロッピー(登録商標)ディスク、ハードディスク、DVD(登録商標)、プロセッサ1305に係るメモリ等に格納されたソフトウェア、といった形態で提供することができる。或いは、当該プログラム乃至プログラム群の一部又は全部を、マイクロプロセッサ1305以外のデバイスで実行することや、ファームウェア、或いはASIC(application specific integrated circuit)、PLD(programmable logic device)、FPLD(field programmable logic device)、ディスクリート論理回路等の専用ハードウェアで実現することも可能である。例えば、例示したトレーナ104、分類器108、サーチエンジン112等、本システム100を構成するどの部材も、ソフトウェア、ハードウェア、ファームウェア、その任意の組合せ等の形態にて、個別に、数個まとめて、或いは全て一体にして、実現することができる。図4〜図9にその流れを示す手順の一部又は全体をマニュアル的な形態で実現してもよい。
また、念のために述べると、トレーナ104、分類器108、サーチエンジン112、特徴抽出器202,302、特徴選出器204、モデル発生器206、統計値発生器304及び索引発生器308のうち少なくとも1個は、メモリ、DVD、CD等を初めとする有形媒体の形態をとるものものである。別紙特許請求の範囲に記載されている請求項が、純粋にソフトウェア的な構成を包含すると読めるか否かを問わない。更に、図示例のトレーナ104、分類器108及びサーチエンジン112は、図示及び説明したデータ構造、要素、手順乃至デバイスでも、それ以外のデータ構造、要素、手順乃至デバイスでも、或いはそれらの任意な組合せでも実現することができる。使用するデータ構造、要素、手順乃至デバイスの個数は1個でも複数個でもよい。
更に、フローチャートたる図4〜図9を参照して説明する機械可読命令群は、本願記載の方法及び装置を実施する手法の一例に係るものであり、それ以外も本願記載の方法及び装置を実施可能な手法は数多くある。例えば、図4〜図9に示す流れとはステップの実行順を違えることもできるし、幾つかのステップを内容変更、削除、結合又は分割することもできる。
図4に、図1及び図2中のトレーナを実現する手順の例をそのフローチャートにより示す。この図の手順では、まず、特徴抽出器202が事前分類済文書を受領する(ステップ402)。例えば、既にマニュアル又は他の分類システムで分類されており、その文書に相応しい分類子が求まっている文書を受領する。次に、特徴抽出器202がそれらの事前分類済文書から特徴を抽出し(ステップ404)、抽出した特徴を分類用の特徴辞書に追加登録する(ステップ406)。即ち、その事前分類済文書から特徴が見つかるたびに、その文書向けの分類子(例えば文書受領時に指定された分類子)に係る計数値のうち、特徴辞書内でその特徴に関連付けられているものをインクリメントする。例えば、ある文書に相応しい分類子が受領当初から“分類子その1”と定まっている場合、“分類子その1”についての計数値をインクリメントする。従って、全ての文書を解析することで、分類子毎の計数値を特徴別に求めることができる。それらの計数値は、それぞれ、事前分類によりその分類子が相応しいとされた文書内にその特徴が生起する回数を表している。その次は、例えば、特徴選出器204が、特徴辞書内の特徴のうちその生起回数が多いものを存置させる(ステップ408)。即ち、生起回数が多い特徴を抽出し改訂版の特徴辞書として保存することか、或いは生起回数が少ない特徴を特徴辞書から削除することで、改訂版の特徴辞書を作成する。次いで、モデル発生器206が、例えば、特徴別の計数値のうち0値のものを別の小さな数値(0.5等)へと差し替え(ステップ410)、分類子毎に確率値を求めて保存する(ステップ412)。即ち、例えば「肯定的」との分類子が割り当てられている文書の個数を、例えば「肯定的」「否定的」「中間的」「関心外」等の分類子が割り当てられている文書の合計総数で除算することで、メッセージに「肯定的」の分類子が割り当てられる確率を求める。モデル発生器206は、こうして生成した分類用の特徴辞書を、分類モデルとして図1中のデータストレージ106内に保存する(ステップ414)。
図5に、図1中の分類器108に係る分類手順を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず、特徴抽出器304が付索対象文書を受領し(ステップ502)、その文書に先んじて解析が済んでいる文の個数を分類テーブルに登録する(ステップ504)。即ち、文書が連綿と保存されるデータ構造の場合、そのデータ構造における文書の保存位置を、その文書に先行してそのデータ構造内に保存されている文の個数で特定することができるので、その文書に先行する文の個数をデータストレージ内に保存しておくと爾後はその文書を迅速に探し出せるようになる。次に、その文書に備わる特徴を特徴抽出器304が抽出し(ステップ506)、統計値発生器306が特徴毎に一組の確率値を導出する(ステップ508)。即ち、その特徴に関し、その文書にその分類子が割り当てられる確率の値を分類子毎に都合一組導出する。例えば、1個又は複数個の文からなるメッセージがある分類子に属する確率値を次の要領で求める。
まず、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にある特徴が生起する確率は、条件付確率
P(特徴|分類子)=(その分類子に関するその特徴の生起回数)/(その分類子に関する諸特徴の合計生起回数)
で与えられる。
従って、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にn個の特徴を有するメッセージが生起する確率は、条件付確率
P(メッセージ|分類子)=ΠP(第i特徴|分類子)
で与えられる。この式中、Πはi=1〜nについての乗積である。
他方、ある特定の分類子が割り当てられた文書内に解析対象メッセージが生起する蓋然性を示す確率スコアは、ベイズの定理に従い結合確率
P(メッセージ∩分類子)=P(メッセージ|分類子)P(分類子)
として与えられる。その値は、ある特定のメッセージにある特定の分類子が割り当てられる蓋然性を表している。なお、分類子生起確率P(分類子)は総確率、或いは関連する串におけるその分類子の生起確率である。
この確率スコアは、乗積される特徴の個数が多数になると、値が小さすぎてその保存が難しいほどになる可能性がある。そのため、統計値発生器306では例えば対数空間を利用する。即ち、個々のメッセージについて、その分類子の最終的な確率スコアを次の式
log[P(メッセージ|分類子)]
=log[(ΠP(第i特徴|分類子))P(分類子)]
=Σlog[P(第i特徴|分類子)]+log[P(分類子)]
に従い計算する。この式中、Πはi=1〜nについての乗積、Σはi=1〜nについての総和である。
この計算は、分類子毎に確率スコアが得られるよう分類子毎に実行する。その際、最大の確率スコアを呈する分類子を求めることで、個々の文に係る分類子を特定することができる。更に、特定した分類子に係る確率スコアをその次に蓋然性の高い分類子についての確率スコアで除算することで、自信指標が求まる。この自信指標の値が0に近いほど、分類子の特定結果をより強く信頼することができる。
こうして統計値発生器306で発生させた統計データは、例えば、索引付与のため索引発生器308へと供給される(ステップ510)。
なお、図5に例示した手順は単一のメッセージについての統計解析手順である。複数個の受領済メッセージ乃至文書を解析するにはこの手順を繰返し実行すればよい。統計データの供給(ステップ510)は、個々のメッセージ乃至文書が解析されるたびに行ってもよいし、全てのメッセージ乃至文書が解析されてから行ってもよい。また、文書で使用される言語が変わるたびに、即ち新たな言語(イタリア語、ヘブライ語、ドイツ語、英語等)についてのモデルがデータストレージ106に追加されるたびに、図5の手順を実行してもよい。好適なことに、図1に示したシステムは、どのような言語で記述された文書でも稼働させることができる。その言語の向けの特徴辞書乃至分類用モデルが作成されていればよい。データの解析も文書上の言語に関わりなく同じ手順で実行することができ、またその言語に関わりなく一貫した結果を得ることができる。
図6に、図3中の索引発生器308を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず索引発生器308が統計値発生器306から統計データを受領し(ステップ602)、その統計データに含まれる分類子毎の確率スコア即ち図5に示した手順で算出した確率スコアの値に従い、全ての文を対象に、それら分類子毎の確率スコアをソートする(ステップ604)。このソートにより、確率スコアを分類子毎にソートしたリスト(分類子が4個なら4個のリスト)が得られる。次いで、個々のリストを複数個のバケットに分割する。例えば、個々のリストをそのサイズが互いに等しい256個のバケットに分割する(ステップ606)。更に、バケット毎に、そのバケットに属する確率スコア全ての平均値を求め、それをそのバケットの初期代表値とする(ステップ608)。そのバケットに属する種々の確率スコア(対数値)を近似的に代表できればよいので、平均値以外の値を初期代表値にすることもできる。例えば、中央値、最大値、最小値等といった種類の値を、バケットに属する確率スコアの初期代表値にすることができよう。次いで、バケット境界を移動させて(ステップ610)バケット内確率スコアの平均値を再計算することにより(ステップ612)、それらバケット内確率スコアについての有効な代表値を獲得する。例えば、そのバケットに属する確率スコアがその平均値に対し有している偏差又は差分を計算し、その偏差又は差分が減るようバケット境界を調整する(例えば確率スコア1個分だけ特定方向に境界を移動させる)。あるバケットの境界を調整するとその隣のバケットにも必然的に変化が生じるので、バケット境界の調整は、隣のバケットにおける偏差又は差分の増大分が、現在調整中のバケットにおける偏差又は差分の減少分を上回っていないことを、確かめながら行うとよい。また、ステップ610及び612は繰り返して実行することができる。例えば、バケットの代表値が修正されるよう3回ほどステップ610及び612を繰り返すようにしてもよい。或いは、調整がもはや意味をなさなくなるまで又はその調整による改善分がしきい値を上回らなくなるまで、ステップ610及び612を繰り返すようにしてもよい。いずれにせよ、バケット毎に確率スコアの代表値を求めることで、個々のバケットをそのバケットの代表値に対応付けるリスト乃至テーブルを保存することや、保存されている分類子毎にバケット識別子たる0〜255等の番号を割り当てることができる。浮動小数点形式の確率スコアに比べ、この番号は少ない桁数(例えば二進で8ビット)で保存可能である。
分類子毎にバケットを調整した後は、分類子毎に、個々の文にバケット番号を割り当て(ステップ614)、割り当てられたバケット番号を図1中のデータストレージ106内の索引部に保存する(ステップ616)。そして、バケット毎の最終的な平均値も保存する(ステップ618)。
図7に、文書の分類結果を提示する手順の例をそのフローチャートにより示す。この図の手順では、まずサーチエンジン112がユーザから質問事項例えば製品名の入力を受け付ける(ステップ702)。サーチエンジン112は、索引中にその質問事項例えば製品名が含まれている文を探索し、データ構造内でその(又はそれらの)文が占めている位置を特定する(ステップ703)。文の位置は、現在の文書に先んずる文の個数(図5中のステップ504にて保存された値)を用い特定する。サーチエンジン112は、次いで、先に保存しておいた索引中のバケット識別子のうち、探索した文及びそれに続く2個の文に係るものを取得する(ステップ704)。サーチエンジン112は、更に、取得したバケット識別子を、図6中のステップ61で保存した翻訳テーブルを用い代表値へと翻訳する(ステップ705)。例えば、そのバケットに属する確率スコアの代表値である平均値へと、そのバケット識別子を翻訳する。サーチエンジン112は、次いで、翻訳で得られた代表値を文書毎に総和する(ステップ706)。なお、探索した文に係る代表値のみを取得するようにしてもよいし、先行又は後続する幾つかの文を含めて総和するようにしてもよい。更には、索引を利用せず、質問受領時に分類計算を実行する等の手段で分類用のスコアを決定するようにしてもよい。
サーチエンジン112は、文書毎に、分類子間で確率スコアの総和を比較する。即ち、分類子のうち確率スコアの総和が最大のものをその文書向けの分類子として選択する(ステップ712)。次に、選択した分類子についての確率スコア総和を、その次に確率スコア総和が大きな別の分類子についての確率スコア総和で除算することにより、文書毎に自信指標を算出する(ステップ714)。次いで、その自信指標に従い文書をソートし、自信指標が最も小さいもの、即ちその分類に最も信頼がおけるものをリストの冒頭に据える(ステップ716)。サーチエンジン112は、更に、自信指標に従いソートされた分類結果を質問結果と共に提示する(ステップ718)。その提示は様々な形態で行うことができる。例えば、結果のリストを分類データ無しで表示させ、ユーザからの指示に応じ分類データを表示させるようにしてもよい。或いは、分類子毎の文書数を示すグラフを表示させ、分類子を指定するユーザ発の指示に応じその分類子に係るメッセージを表示させるようにしてもよい。
この結果表示を受け、ユーザは、概要データを眺め、個別の文書、メッセージ、文等に係る分類データを眺め、或いはその双方を眺める。個別の文書、メッセージ又は文に係る分類データが表示されているとき、ユーザは、分類計算の結果を修正することができる。図8にその修正手順の例を示す。
図8に、ユーザが指摘した誤分類への対処を実現する機械可読命令群の例をフローチャートにより示す。この図の手順では、まず誤分類との指摘が保存されているか否かをサーチエンジン112が判別する(ステップ802)。例えば、分類結果が誤りであることを発見したとき、ユーザはそのことを入力して保存させることや、そのメッセージに相応しい分類を入力して保存させることができる。サーチエンジン112は、そうした誤分類指摘が保存されていない場合、暫く待って再び誤分類指摘の有無を判別する。例えば、そうした誤分類指摘有無判別を所定時間毎に実行する。
誤分類との指摘が保存されている場合(ステップ802)、サーチエンジン112はそのうち最先に保存されたものを処理対象として選択し(ステップ804)、誤分類とされた分類子に係る特徴別の計数値を減ずる(ステップ806)。但し、いずれであれ特徴別の確率が0になって統計的に排除される分類子が生じるのを防ぐため、特徴別の計数値が0.5未満に下がらないように制限する。サーチエンジン112は、次いで、正しい分類先とされた分類子に係る特徴別の計数値を増加させる(ステップ808)。こうして索引に保存されている計数値が調整されることで、分類システム側は分類の誤りを学ぶことができる。そして、その誤分類指摘を削除した上でステップ802に戻り、処理すべき別の誤分類があるか否かを判別する(ステップ810)
図9に、ユーザが指定した特徴の影響を排除して分類結果を作成させるため、図7に例示した機械可読命令と併せ実行される機械可読命令群の例をそのフローチャートにより示す。ユーザが排除対象として指定する特徴の例は製品名、例えば一般に製品についての否定的意見を示す特徴に関連付けられている語「bad」を含む製品名「Bad Device」である。この図の手順では、図7中のステップ706が実行された後、そうした除外対象特徴の指定を受けたときに(ステップ902)、サーチエンジン112がその特徴に係る確率値を求め、その特徴の影響が排除されるよう対数値の確率スコアを減ずる(ステップ904)。その後はステップ708に移行してサーチ結果提示の手順が継続される。これにより、現在実行中のサーチに関し、その基礎となる辞書を改変することなく、指定された特徴の影響を排除して確率値を求めることができる。
図10に文別スコアとバケットの関係の例を示す。この例では、一組の文別索引1002が諸文書内の一組の文に割り当てられている。文書乃至文書群内でこの索引付けの対象となる文の個数は任意であるが、この図ではある1個の文書内で連なっている28個の文が対象になる場合を例示している。また、分類子その1についてのスコア1004は文毎に計算されており、対応する文に分類子その1が割り当てられる確率の対数値を表している。その値は例えば図5に示した要領で計算することができる。更に、個々の文別スコア1004の保存用スペースが簡略化されるよう、一組のバケット1006及び1008が作成されている。即ち、個々のスコアを浮動小数点形式で保存すると保存用スペースが嵩んでしまうため、より桁数が小さな索引、例えば整数値のバケット識別子を個々のバケット1006,1008に割り当て、その索引を保存するようにしている。
また、図中のバケット1006は例えばステップ602〜606に係る命令群の実行で作成されたものであり、そのいずれにも同数のスコア1004が属している。図中の平均値は例えばステップ608に係る命令群の実行で導出された値であり、対応するバケット1006に属するスコア1004の平均値を表している。従って、その所属先のバケット1006の識別子でスコア1004を代表することができ、またその識別子を代表値(図示例では平均値)に翻訳することができる。
更に、図中のバケット1008は例えばステップ610〜618に係る命令群の実行で作成されたものであり、バケット境界の調整等の処理が施されている。バケット境界の調整、例えばバケット内平均確率スコアに対するバケット内確率スコアの偏差を減らす処理が施されているため、その平均値は、そのバケット1008に属するスコア1004をより密接に代表するものとなっている。例えば、図中のバケット1008では、第2バケットに第8文及び第9文のみが属し、且つ第3バケットに第10文〜第15文が属することとなるよう、第2,第3バケット間の境界が動かされており、それに伴い当該平均値が再計算されている。即ち、第2バケットの代表値(ここでは平均値)がそのバケット内のスコア1004をより密接に反映したものとなるよう、バケット1008ではその境界が調整されている。具体的には、第2バケット内平均スコアに対する第2バケット内スコアの偏差の総和が、バケット1006では|5.24−5.03|+|5.12−5.03|+|4.99−5.03|+|4.76−5.03|=0.61、バケット1008では0.12となっている。即ち、バケット境界が動かされた結果、第2バケット内スコア平均値が同バケット内スコアをより密接に代表するものになっている。更なる調整を実行すること、例えば第2バケットの境界移動で第1バケットを改変することも可能である。また、どのような場合にバケット境界を調整するかは任意に決めることができる。例えば、スコアの偏差がしきい値以下となるまで、指数的、対数的等々の傾向でバケット境界を調整するようにしてもよい。更に、最初のバケット境界設定がうまくいったと認められる場合に、バケット境界の調整を行わないようにしてもよい。
図11に、文別索引1102、バケット別索引1104及びそれらを保存させうるデータ構造の例を示す。この図に示す索引1102及び1104は、図10に示した関係から導出されたものである。好適なことに、これらの索引1102及び1104は、個々の文別スコア全てを保存する場合に比べ、より少量のメモリ消費で保存することができる。これは、索引1104がより小サイズのデータタイプで保存可能なためである。
図12に、バケット別索引1202、代表値1204及びそれらを保存させうるデータ構造の例を示す。この図のデータ構造は一種のルックアップテーブルとして使用することができる。具体的には、図11に示した索引1102に相当するバケット別索引1202を代表値1204、即ちその索引1202に係るバケットに属していた諸文のスコアを近似する数値へと翻訳することができる。図示例の場合、索引1102(図11)の個数が代表値1204の個数の倍であるので、図12に示すデータ構造を保存するのに必要なメモリ量は、索引1102毎に実際の確率スコアを保存する場合の約1/倍で済む。
図13に、本願で例示したシステム100や本願記載の他の装置の一部又は全体が実現されるように使用乃至プログラミングしうるプロセッサプラットフォーム1300の例を模式的に示す。このプラットフォーム1300は、例えば、汎用プロセッサ、プロセッサコア、マイクロコントローラ等を1個又は複数個用いて実現することが可能である。また、このプラットフォーム1300は、他の機能を有するデバイスの一部として実現すること、例えば携帯電話等のハンドヘルドデバイスに備わる処理能力を利用して実現することも可能である。
この図のプロセッサプラットフォーム1300は、1個又は複数個の汎用プログラマブルプロセッサ1305を備えている。このプロセッサ1305は、ランダムアクセスメモリ(RAM)1315、リードオンリメモリ(ROM)1320等、自分のメインメモリ内に存するコーディング済命令1310等を実行するものであり、プロセッサコア、プロセッサ、マイクロコントローラ等、様々な種類の処理ユニットで実現することができる。プロセッサ1305は、本願で例示した手順を体現する機械可読命令群を含め様々な命令を実行できるよう構成されており、ROM1320、RAM1315等といったメインメモリにバス1325経由で接続されている。RAM1315としてはDRAM、SDRAM等といったRAMデバイスを使用することができ、ROM1320としてはフラッシュメモリ等任意のメモリデバイスを使用することができる。メモリ1315及び1320へのアクセスは図示しないメモリコントローラで制御することができる。
プロセッサプラットフォーム1300は、更にインタフェース回路1330を備えている。この回路1330は、USB(登録商標)インタフェース、Bluetooth(登録商標)インタフェース、外部メモリインタフェース、シリアルポート、汎用入出力インタフェース等、任意のインタフェース規格に従い構成することができる。また、この回路1330には、1個又は複数個の入力デバイス1335及び1個又は複数個の出力デバイス1340が接続されている。
以上、本発明の技術的範囲に属する方法、装置及び産品について説明したが、本発明によってカバーされる範囲はそれらに留まるものではなく、別紙特許請求の範囲に文理的に或いは均等論の許に包含されうる方法、装置及び産品は皆、本発明の技術的範囲に属している。

Claims (18)

  1. 分類器にて実行される、電子メッセージの解析方法であって、
    前記分類器が、
    個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
    ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振るステップと、
    ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振るステップと、
    第1のバケットに割り振られているメッセージについて確率値の平均値を求めるステップと、
    第1のバケットと第2のバケットの境界を移動させるステップと、
    境界移動を受け、第1のバケットに割り振られているメッセージについて確率値の平均値を求め直すステップと、
    平均値に対する第1のバケット内の各確率値の偏差が閾値以下となるまで、境界を移動させるステップ及び確率値の平均値を求め直すステップを繰り返すステップと、
    最後に求め直された平均値を、第1のバケットの代表値とするステップと、
    最後に求め直された平均値を有形メモリ内に保存するステップと、
    第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報をその有形メモリ内に保存するステップと、
    実行する方法。
  2. 請求項1記載の方法であって、第1のバケットに係る上掲の平均値に加え、
    第2のバケットに割り振られているメッセージについても平均値を求めるステップと、
    その平均値をも上記有形メモリ内に保存するステップと、
    を有する方法。
  3. 請求項1記載の方法であって、バケット識別子とそのバケットにおける、最初に求め直された平均値とを関連付けるデータ構造を使用して第1のバケットに係る、最初に求め直された平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する方法。
  4. 請求項1記載の方法であって、感情に基づく分類子を使用する方法。
  5. 請求項1記載の方法であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する方法。
  6. 請求項1記載の方法であって
    あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
    そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
    を有する方法。
  7. 命令群が保存されている機械可読媒体であって、保存されている命令群が、マシンに
    個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
    ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振るステップと、
    ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振るステップと、
    第1のバケットに割り振られているメッセージについて確率値の平均値を求めるステップと、
    第1のバケットと第2のバケットの境界を移動させるステップと、
    境界移動を受け、第1のバケットに割り振られているメッセージについて確率値の平均値を求め直すステップと、
    平均値に対する第1のバケット内の各確率値の偏差が閾値以下となるまで、境界を移動させるステップ及び確率値の平均値を求め直すステップを繰り返すステップと、
    最後に求め直された平均値を、第1のバケットの代表値とするステップと、
    最後に求め直された平均値を有形メモリ内に保存するステップと、
    第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報を上記有形メモリ内に保存するステップと、
    を実行させる命令群である機械可読媒体。
  8. 請求項7記載の機械可読媒体であって、保存されている命令群が
    第1のバケットに係る上掲の平均値に加え、第2のバケットに割り振られているメッセージについても平均値を求めるステップと、
    その平均値をも上記有形メモリ内に保存するステップと、
    を実行させる命令群を含む機械可読媒体。
  9. 請求項記載の機械可読媒体であって、保存されている命令群が、バケット識別子とそのバケットにおける、最初に求め直された平均値とを関連付けるデータ構造を使用して第1のバケットに係る、最初に求め直された平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存させる命令群を含む機械可読媒体。
  10. 請求項記載の機械可読媒体であって、感情に基づく分類子を使用する機械可読媒体。
  11. 請求項記載の機械可読媒体であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する機械可読媒体。
  12. 請求項記載の機械可読媒体であって、保存されている命令群が、
    あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
    そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
    を実行させる命令群を含む機械可読媒体。
  13. 電子メッセージを解析する装置であって、
    あるメッセージ群に関し個々のメッセージにある特定の分類子が割り当てられる確率を示す一組の確率値を求める統計値発生器と、
    有形メモリと、
    一組の確率値に基づきメッセージ群をソートし、ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振り、ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振り、第1のバケットに割り振られているメッセージについて平均値を求め、第1のバケットと第2のバケットの境界を移動させ、その境界移動を受け、第1のバケットに割り振られているメッセージについて確率値の平均値を求め直し、平均値に対する第1のバケット内の各確率値の偏差が閾値以下となるまで、境界を移動させるステップ及び確率値の平均値を求め直すステップを繰り返し、最後に求め直された平均値を、第1のバケットの代表値とし、最後に求め直された平均値を上記有形メモリ内に保存し、第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報を当該有形メモリ内に保存する索引発生器と、
    を備える装置。
  14. 請求項13記載の装置であって、上記索引発生器が、第1のバケットに係る上掲の平均値に加え、第2のバケットに割り振られているメッセージについても平均値を求め、その平均値をも上記有形メモリ内に保存する装置。
  15. 請求項13記載の装置であって、バケット識別子とそのバケットにおける、最初に求め直された平均値とを関連付けるデータ構造を使用して第1のバケットに係る、最初に求め直された平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する装置。
  16. 請求項13記載の装置であって、感情に基づく分類子を使用する装置。
  17. 請求項13記載の装置であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する装置。
  18. 請求項13記載の装置であって、あるデータ構造が形成されるように上記一組のメッセージを保存し、そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存する装置。
JP2010181192A 2009-08-14 2010-08-13 通信テキスト分類方法及び装置 Active JP5165033B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US23404209P 2009-08-14 2009-08-14
US61/234,042 2009-08-14
US12/577,099 2009-10-09
US12/577,099 US8458154B2 (en) 2009-08-14 2009-10-09 Methods and apparatus to classify text communications

Publications (2)

Publication Number Publication Date
JP2011040069A JP2011040069A (ja) 2011-02-24
JP5165033B2 true JP5165033B2 (ja) 2013-03-21

Family

ID=43064505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010181192A Active JP5165033B2 (ja) 2009-08-14 2010-08-13 通信テキスト分類方法及び装置

Country Status (4)

Country Link
US (2) US8458154B2 (ja)
EP (1) EP2287750B1 (ja)
JP (1) JP5165033B2 (ja)
AU (1) AU2010212373A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458154B2 (en) 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
WO2012061252A2 (en) 2010-11-04 2012-05-10 Dw Associates, Llc. Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context
US8996359B2 (en) 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US8952796B1 (en) 2011-06-28 2015-02-10 Dw Associates, Llc Enactive perception device
US9269353B1 (en) 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
US9020807B2 (en) 2012-01-18 2015-04-28 Dw Associates, Llc Format for displaying text analytics results
US9667513B1 (en) 2012-01-24 2017-05-30 Dw Associates, Llc Real-time autonomous organization
US9256836B2 (en) 2012-10-31 2016-02-09 Open Text Corporation Reconfigurable model for auto-classification system and method
US20140370920A1 (en) * 2012-11-15 2014-12-18 Google Inc. Systems and methods for generating and employing an index associating geographic locations with geographic objects
US20140207786A1 (en) * 2013-01-22 2014-07-24 Equivio Ltd. System and methods for computerized information governance of electronic documents
US9298814B2 (en) 2013-03-15 2016-03-29 Maritz Holdings Inc. Systems and methods for classifying electronic documents
US11928606B2 (en) 2013-03-15 2024-03-12 TSG Technologies, LLC Systems and methods for classifying electronic documents
US10521807B2 (en) 2013-09-05 2019-12-31 TSG Technologies, LLC Methods and systems for determining a risk of an emotional response of an audience
US11288328B2 (en) 2014-10-22 2022-03-29 Narrative Science Inc. Interactive and conversational data exploration
US10318884B2 (en) * 2015-08-25 2019-06-11 Fuji Xerox Co., Ltd. Venue link detection for social media messages
US10354188B2 (en) 2016-08-02 2019-07-16 Microsoft Technology Licensing, Llc Extracting facts from unstructured information
US10318564B2 (en) 2015-09-28 2019-06-11 Microsoft Technology Licensing, Llc Domain-specific unstructured text retrieval
JP6041331B1 (ja) * 2016-02-26 2016-12-07 国立大学法人山口大学 情報処理装置と情報処理プログラム並びに情報処理方法
FI20165240A (fi) * 2016-03-22 2017-09-23 Utopia Analytics Oy Menetelmä, järjestelmä ja väline sisällön moderointiin
US11042708B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language generation
US10963649B1 (en) 2018-01-17 2021-03-30 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and configuration-driven analytics
US11030408B1 (en) 2018-02-19 2021-06-08 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing using named entity reduction
US11232270B1 (en) 2018-06-28 2022-01-25 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to numeric style features
CN109376419B (zh) * 2018-10-16 2023-12-22 北京字节跳动网络技术有限公司 一种数据模型的生成方法、装置、电子设备及可读介质
US11341330B1 (en) 2019-01-28 2022-05-24 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding with term discovery
CN110569361B (zh) * 2019-09-06 2021-10-19 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN113569091A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 视频数据的处理方法、装置
CN112966109B (zh) * 2021-03-09 2023-04-18 北京邮电大学 一种多层级的中文文本的分类方法及其系统
CN112765359B (zh) * 2021-04-07 2021-06-18 成都数联铭品科技有限公司 一种基于少样本的文本分类方法
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification
US20230017384A1 (en) * 2021-07-15 2023-01-19 DryvIQ, Inc. Systems and methods for machine learning classification-based automated remediations and handling of data items

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442778A (en) 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6581058B1 (en) * 1998-05-22 2003-06-17 Microsoft Corporation Scalable system for clustering of large databases having mixed data attributes
JP2000285140A (ja) 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6185524B1 (en) * 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
US6640218B1 (en) 2000-06-02 2003-10-28 Lycos, Inc. Estimating the usefulness of an item in a collection of information
JP3820878B2 (ja) 2000-12-06 2006-09-13 日本電気株式会社 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
US6938053B2 (en) * 2001-03-02 2005-08-30 Vality Technology Incorporated Categorization based on record linkage theory
US6612905B2 (en) 2001-04-23 2003-09-02 Phuong Van Nguyen Silicon wafer polishing holder and method of use thereof
JP2003285140A (ja) 2002-03-27 2003-10-07 Kooee:Kk 鋳型の造型装置および造型方法
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
JP3767516B2 (ja) 2002-05-09 2006-04-19 日本電気株式会社 典型文分析方法、装置および記録媒体
US7051023B2 (en) 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US20070244690A1 (en) * 2003-11-21 2007-10-18 Koninklijke Philips Electronic, N.V. Clustering of Text for Structuring of Text Documents and Training of Language Models
US8346593B2 (en) * 2004-06-30 2013-01-01 Experian Marketing Solutions, Inc. System, method, and software for prediction of attitudinal and message responsiveness
US7624006B2 (en) * 2004-09-15 2009-11-24 Microsoft Corporation Conditional maximum likelihood estimation of naïve bayes probability models
JP4742619B2 (ja) * 2005-02-28 2011-08-10 富士ゼロックス株式会社 情報処理システム、プログラム及び情報処理方法
US7788087B2 (en) 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
US7613664B2 (en) 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
US8745055B2 (en) 2006-09-28 2014-06-03 Symantec Operating Corporation Clustering system and method
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US7996210B2 (en) 2007-04-24 2011-08-09 The Research Foundation Of The State University Of New York Large-scale sentiment analysis
US7802009B2 (en) * 2007-06-26 2010-09-21 Microsoft Corporation Automatic reverse engineering of message formats from network traces
JP2009151390A (ja) 2007-12-18 2009-07-09 Fuji Xerox Co Ltd 情報分析装置、及び情報分析プログラム
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US20100257117A1 (en) * 2009-04-03 2010-10-07 Bulloons.Com Ltd. Predictions based on analysis of online electronic messages
US8204838B2 (en) * 2009-04-10 2012-06-19 Microsoft Corporation Scalable clustering
WO2010144618A1 (en) * 2009-06-09 2010-12-16 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
US8458154B2 (en) 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications

Also Published As

Publication number Publication date
AU2010212373A1 (en) 2011-03-03
US20130138430A1 (en) 2013-05-30
EP2287750A2 (en) 2011-02-23
JP2011040069A (ja) 2011-02-24
US20110040837A1 (en) 2011-02-17
EP2287750A3 (en) 2011-04-20
EP2287750B1 (en) 2018-10-03
US8909645B2 (en) 2014-12-09
US8458154B2 (en) 2013-06-04

Similar Documents

Publication Publication Date Title
JP5165033B2 (ja) 通信テキスト分類方法及び装置
CN106095996B (zh) 用于文本分类的方法
US11501210B1 (en) Adjusting confidence thresholds based on review and ML outputs
US9886669B2 (en) Interactive visualization of machine-learning performance
US9898464B2 (en) Information extraction supporting apparatus and method
CN109271520B (zh) 数据提取方法、数据提取装置、存储介质和电子设备
WO2019041520A1 (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN107767273B (zh) 基于社交数据的资产配置方法、电子装置及介质
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN113570380A (zh) 基于语义分析的业务投诉处理方法、装置、设备及计算机可读存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
US20200302541A1 (en) Resource processing method, storage medium, and computer device
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115827867A (zh) 文本类型的检测方法及装置
JP5640796B2 (ja) 名寄せ支援処理装置、方法及びプログラム
CN110543636B (zh) 一种对话系统的训练数据选择方法
CN113590673A (zh) 基于区块链深度学习的数据热度统计方法
CN111444315A (zh) 纠错词组候选项的筛选方法、装置、设备及存储介质
CN113656393B (zh) 数据处理方法、装置、电子设备以及存储介质
US11861512B1 (en) Determining content to present for human review
US11928558B1 (en) Providing content reviews based on AI/ML output
Chu et al. Machine learning documentation initiative
CN114943226A (zh) 用户意图识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250