JP2011048821A - 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置 - Google Patents

相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置 Download PDF

Info

Publication number
JP2011048821A
JP2011048821A JP2010178449A JP2010178449A JP2011048821A JP 2011048821 A JP2011048821 A JP 2011048821A JP 2010178449 A JP2010178449 A JP 2010178449A JP 2010178449 A JP2010178449 A JP 2010178449A JP 2011048821 A JP2011048821 A JP 2011048821A
Authority
JP
Japan
Prior art keywords
phrase
phrases
word
relative frequency
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010178449A
Other languages
English (en)
Other versions
JP5160601B2 (ja
Inventor
Tal Eden
エデン タル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Buzzmetrics Ltd
Original Assignee
Buzzmetrics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Buzzmetrics Ltd filed Critical Buzzmetrics Ltd
Publication of JP2011048821A publication Critical patent/JP2011048821A/ja
Application granted granted Critical
Publication of JP5160601B2 publication Critical patent/JP5160601B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】電子文書内のフレーズを特定する。
【解決手段】例示的なシステム、方法、プロセス、及び装置が、電子文書内のフレーズを特定する。一以上のフレーズ辞書が、一以上の電子文書のコンテンツから生成される。相対頻度値が、一以上のフレーズ辞書の各々における各フレーズに対して生成される。あるフレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。一以上のフレーズが、閾値と各フレーズに対して生成された相対頻度値とに少なくとも部分的に基づいて選択される。選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値が、ユーザに対するグラフィック表示のために出力される。
【選択図】図1

Description

本開示は、一般的には電子文書におけるデータマイニングに関しており、より具体的には、電子文書におけるフレーズの相対頻度を決定する方法及び装置に関する。
様々なパブリックネットワーク(例えばワールドワイドウエブ及びインターネット)並びにプライベートネットワーク(例えば企業のイントラネット)が、様々な電子的にアクセス可能且つ検索可能なコンテンツを参照者に提供する。消費者及びビジネスユーザの両方が、製品及びサービスについての情報を見つけるためにこのコンテンツにアクセスすることができる。
小売り組織、サービス提供者、及び製品製造者はしばしば、購買者のショッピング行動、振舞い、意見、及び/又は、習慣に関心がある。調査、講評、ブログなどを含む、オンラインで入手可能な情報は、このような購買者の特徴についての洞察を提供する。
米国特許6640218号明細書 米国特許5983216号明細書
いくつかの例では、電子文書内のフレーズを特定する、コンピュータで実装された方法が提供される。このコンピュータで実装された方法は、少なくとも一つの話題に関する複数のワード及びフレーズを含む電子文書を受領するステップを含む。一以上のフレーズ辞書が、その電子文書のコンテンツから生成される。相対頻度値が、一以上のフレーズ辞書の各々における各フレーズに対して生成される。あるフレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。一以上のフレーズが、少なくとも部分的には閾値と各フレーズに対して生成された相対頻度値とに基づいて選択される。選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値が、ユーザに対するグラフィック表示のために出力される。
いくつかの例では、電子文書フレーズマイニング装置が提供される。この装置は、電子文書のコンテンツを複数のスピーチ部分に分離する構文解析器を含む。スピーチ部分は、一以上のフレーズを含む。構文解析器は、電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する。フレーズ値計算器が、各フレーズ辞書における各フレーズに対する相対頻度値を生成する。フレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。ソーターが、少なくとも部分的には、閾値と各フレーズに対して生成された相対頻度値とに基づいて、一以上のフレーズを選択する。出力部は、選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値を、ユーザに対するグラフィック表示のために出力する。
いくつかの例では、有形のコンピュータ読み取り可能記憶媒体が提供され、この記憶媒体は、処理機械によって実行されると電子メッセージフレーズマイニングシステムを実装する命令を含む。実装されるシステムは、一以上の電子メッセージのコレクションのコンテンツを複数のスピーチ部分に分離する構文解析器を含む。スピーチ部分は、一以上のフレーズを含む。構文解析器は、電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する。フレーズ値計算器が、各フレーズ辞書における各フレーズに対する相対頻度値を生成する。フレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。ソーターが、少なくとも部分的には、閾値と各フレーズに対して生成された相対頻度値とに基づいて、一以上のフレーズを選択する。出力部は、選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値を、ユーザに対するグラフィック表示のために出力する。
ウエブサイトのような一以上の電子データソースから電子文書データを収集する例示的な装置のブロック図である。 電子文書におけるワードの頻度及びワード間の関係の視覚的表現を提供する例示的なタグ又は話題クラウドを描く図である。 電子文書における情報をダウンロードして処理する例示的なシステムである。 例示的な電子文書処理システムのブロック図である。 電子メッセージ及び/又は他の電子文書におけるフレーズを特定し、あるフレーズに関連する頻度を決定する例示的なフレーズマイニングシステムのブロック図である。 一以上の電子メッセージ及び/又は文書において相対頻度に基づくフレーズマイニングを行うために実行され得る例示的な機械読み取り可能な命令の流れ図表現である。 ここに記述された図1、図3、図4、及び/又は図5の例示的な装置及び/又はシステムのいくつか又は全てを実装するために図6の例示的な命令を実行し得る例示的なプロセッサシステムのブロック図である。
本願は、参照により全体的にここに援用される2009年8月7日付けで出願された「相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置」という名称の米国予備特許出願第61/232,102号の優先権の享受を主張する。
以下では、例示的な方法、システム、製造品、及び他の構成要素の中でもハードウエア上で実行されるソフトウエアを含む装置を開示するが、そのような方法、システム、製造品、及び装置が単に例示的なものであり、制約的とみなされるべきではないことに留意されたい。例えば、これらのハードウエア及びソフトウエア要素のいくつか又は全てが、排他的にハードウエアに、排他的にソフトウエアに、排他的にファームウエアに、又はハードウエア、ソフトウエア、及びファームウエアの任意の組み合わせで実装されることが企図される。したがって、以下では例示的な方法、システム、製造品、及び装置が記述されるが、提供される例は、そのような方法、システム、製造品、及び装置を実装するための唯一の方法ではない。
電子文書のコレクションを処理するために、例示的な方法、プロセス、装置、システム、製造品、及び機械読み取り可能な媒体が使用されることができる。例えば、電子文書のコレクション(例えば記憶された及び/又はワールドワイドウエブを介して利用可能な)は、ある電子メッセージを求めて検索されることができる。電子メッセージ文書のような文書は、ユーザの意見、姿勢、レビューなどを表すウエブ上で見出される情報から収集されることができる。オンラインニュースグループ、議論グループ、フォーラム、チャットサイト、インターネットブログ、レビュー又は意見ページなどが、処理されてレビューされるべき電子メッセージのために、マイニングされることができる。アイデア、製品、及び/又はメッセージに関する人々の意見、姿勢、及び/又は他のフィードバックは、情報のみを提供するため、及び/又はキーワード又はフレーズ検索結果と共に情報を提供するために、収集されて分析されることができる。
例は、ニールセン・バズメトリックス・インターナショナル(Nielsen BuzzMetrics International)によって提供されるバズ・インサイト・ツール(Buzz Insight Tools)及び/又はマイ・バズメトリックス(My BuzzMetrics)・ツールとともに実装されることができる。例えば、相対頻度フレーズマイニングは、ユーザが、例えばソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真などを含む広範囲の消費者生成媒体(consumer−generated media,CGM)から、あるブランド又は組織について語られていることをモニタし分析することを可能にするカスタム化可能なブランドモニタリング及び分析ダッシュボードの一部として、提供されてよい。
図1は、例えばソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真などを含む消費者生成媒体(CGM)及び/又は消費者増強媒体(consumer−fortified media,CFM)ソースのような一以上の電子データソースから電子文書データを収集するための例示的な装置100のブロック図である。この装置100は、コレクタ110、プロセッサ120、及び出力部130を含む。コレクタ110は、データをプロセッサ120及び/又はデータストレージ140に提供する。データストレージ140は、データをプロセッサ120に提供する。いくつかの例では、データストレージ140はまた、データをプロセッサ120から受領することもできる。プロセッサ120は、処理されたデータを、ユーザ及び/又は他のシステムへの出力のために出力部130に提供する。コレクタ110、プロセッサ120、及び出力部130は、一以上の記憶された規則及び/又は優先度150(例えば、ユーザに特有の、ユーザグループに特有の、主題に特有の、及び/又はシステムに特有の優先度)に従って動作する。コレクタ110、プロセッサ120、出力部130、データストレージ140、及び規則/優先度150は、別個の装置、ソフトウエア、及び/又はファームウエアとして実装されることができ、あるいは、組み合わされることができる。
コレクタ110はデータを収集するように構成される。収集されるデータは、電子コンテンツ160の一以上のソースを介して利用可能な電子文書に見出されるデータを含むが、これに限定されるものではない。収集されたデータは、一以上の話題に関連した複数のワード及びフレーズを含む。電子コンテンツは、例えば、人々がニュースを報告し且つ/又は彼らの視点や感情を表現するウエブサイトのようなソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真、非オンライン電子コンテンツなどのようなCGM及び/又はCFMを含むことができる。例えば、インターネットユーザは、新製品、サービス、プログラムなどに関する彼らの視点を表現し得る。ある例では、コレクタ110は、スパイダーネットワーク(spider network)におけるクローラ(crawler)としてプログラムされ、CGM/CFMのあるグループにおける新しいデータを検出するように構成される。
ある例では、コレクタ110は、一以上のプログラム(例えばスクリプト)、ならびに規則/優先度150からの規則及び/又は優先度を利用して、ウエブサイトのようなCGM/CFMから情報を特定して収集する。例えば、スクリプトならびに関連する規則及び/又は優先度は、前もって選択されたウエブサイトの特定のページのどの部分が、サイトを運営する会社のロゴのような特定のコンテンツを有しているか、及びどの部分が動的コンテンツを含んでいるか、ウエブサイトのチャットルームにおけるユーザのメッセージの連続した流れのような話題の又は姿勢のデータを含んでいるかを、規定することができる。他の例では、スクリプトは、コレクタ110によって行われる、ウエブページまたはページの一部の現在のコンテンツと、同じページ又はページの部分から以前にダウンロードしたデータと、の間の比較を規定し得る。
コレクタ110は、連続的に、定期的に、イベントに反応して、ユーザによる手作業の開始に反応して、などのような任意の仕方で、電子コンテンツを収集するように構成されることができる。いくつかの例では、特定のウエブサイト、ウエブサイトのグループ又はタイプ、主題などに対して、収集のスケジュール又は頻度が構成されることができる。
プロセッサ120は、収集された電子データを処理する。プロセッサ120は、コレクタ110によって収集された電子データを、コレクタ110から直接に、及び/又はデータストレージ140から、受け取ることができる。プロセッサ120は、電子データを構文解析し、解析された電子データのコンテンツ分析を実行し、電子データをマイニングし、結果として得られたデータ分析及び/又は例えば他の出力を提供する。これらの技法は一以上のアルゴリズムを実装し得る。一以上のアルゴリズムは、ニューラルネットワーク、規則低減、決定ツリー、パターン分析、テキスト及び言語学的分析技法、又は任意の他の関連するアルゴリズムを含むが、これらに限定されるものではない。
出力部130は、プロセッサ120から情報を受け取って、処理された電子データに基づいて、その情報を出力する。出力された情報は、ウエブブラウザに基づくアプリケーション、スプレッドシート、テキスト文書、スライドプレゼンテーション、マルチメディアファイルなどを介して、ユーザにグラフィック的に提示されることができる。
装置100の構成要素のいくらか又は全ては、ソフトウエア、ハードウエア、及び/又はファームウエアに別個に、及び/又は任意の数の組み合わせによって、実装できる。例えば、一以上の集積回路、ディスクリート半導体部品、及び/又は受動電子部品を使用することができる。これより、例えば、コレクタ110、プロセッサ120、出力部130、データストレージ140、及び規則/優先度150、又はそれらの一部を含む装置100の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ(programmable processore)、特定用途向け集積回路(application specific integrated circuit(s),ASIC(s))、プログラマブル論理デバイス(programmable logic device(s),PLD(s))、フィールドプログラマブル論理デバイス(Field Programmable Logic Device(s),FPLD(s))などを使用して、実装できる。コレクタ110、プロセッサ120、出力部130、データストレージ140、及び規則/優先度150、又はそれらの一部を含む装置100の構成要素のいくらかは、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム(例えば図7の例示的なプロセッサシステム710)によって実行可能な命令、コード、及び/又は他のソフトウエア及び/又はファームウエアなどを使用して、実装してもよい。添付の特許請求項のいずれかが純粋にソフトウエア及び/又はファームウエア実装をカバーすると読まれるとき、コレクタ110、プロセッサ120、出力部130、データストレージ140、及び規則/優先度150の少なくとも一つは、ソフトウエア及び/又はファームウエアを記憶するメモリ、DVD、CDなどのような有形の媒体を含むと、ここに明示的に規定される。
いくらかの例では、プロセッサ120は、文書のコーパスから、意味のあるフレーズを比較的短時間でマイニングする。現存しているツールは意味のあるフレーズをそれらの出現頻度に従って導出するが、この方法には欠点がある。なぜなら、フレーズの高い出現頻度は、そのフレーズが意味のあるものであることを必ずしも示さないからである。頻度分析では、頻度分析器を使用して、最も高頻度のワード、フレーズ、著者の数、独特の著者、及び/又は時間フレームに対する分布のようなパラメータに関する統計値を提供する。頻度分析器は、ワード、フレーズなどをカウントするためにカウンタを利用することができる。カウンタは生データを提供し、これがそれから頻度分析器によって処理されて、統計データを生成する。頻度分析は、例えば、絶対頻度及び/又は相対頻度に関するものであることができる。絶対頻度は、フレーズの全出現回数である。相対頻度は、絶対頻度をワードの全出現回数で正規化したもの(割り算したもの)である。あるいは、又は加えて、相対頻度は、フレーズの出現数を、フレーズ内の各ワードの出現回数の倍数で割り算し、その結果のn乗根を取ることによって決定される。このとき、nは、測定されているフレーズ内のワードの数である。あるいは、又は加えて、シャノンの情報理論を適用して、以下の式、
にしたがった同時出現確率の分析に基づいて、合成項の増分値を計算することができる。
概念分析では、電子文書データ内のある概念に関連しているフレーズを見出すために、概念分析器(例えばプロセッサ120内に実装される)が使用され得る。概念分析は、単一ワードフレーズ及び関連する複数ワードフレーズに適応する。概念分析器は、コレクション内の全てのワード又はフレーズをスキャンし、関連スコアをそれらの各々に割り当てて、調査されている概念に対するそのワード又はフレーズの関連性を示すことができる。
いくつかの例では、意味がある(例えば、ある閾値を超える関連スコアを有している)と特定された関連フレーズは、ワード及び/又はフレーズ間の距離が頻度及び/又は関係の度合いを示すマトリックスに配置されることができる。このマトリックスは、図2に描かれているように、描かれた表現の中央に分析された概念/フレーズがあり、関連フレーズがそれを取り囲んでいる視覚的インターフェース(例えばマイニングされた電子文書に関連するタグ又は記述を視覚的に描いているタグクラウド)の中に配置されることができる。
図2は、電子文書内のワードの頻度及びワード間の関係の視覚的な描写を与える例示的なワード又は話題クラウド200を描いている。ある例では、フレーズが同様に表現されることができる。図2のグラフィック描写は、異なるサイズ、色、及び/又は向きのワードを含み、例えばワードの頻度及び関係を示す。いくつかの例では、ワード間の距離が、一つの電子文書又は電子文書のセットにおけるそれらの関係及び/又は密接さを示すことができる。
図2の例示的なクラウド200に示されるように、一以上のデータエントリーフィールド、プルダウンメニューなど210は、ユーザが、重要なワード及び/又はフレーズを特定するために文書コレクションが検索されるべき一以上の日付及び/又はデータの範囲を特定することを可能にする。ユーザはまた、生成されるべきレポート220のタイプも特定することができる。例えば、図2に示されるように、ワードクラウド230が、特定の日付範囲(例えば最近の90日間)に渡ってマイニングされたワード及び/又はフレーズデータから生成される。一以上の報告フォーマット(例えば表、スプレッドシード、など)が、追加として又は代替として特定されることができる。凡例240及び/又は他の表示が図2の例では与えられて、見ている人に、例えばワード/フレーズクラウド230の色がどのように顕著さ又は相対頻度に対応しているか(例えば高い対低い)を表す。
いくつかの例では、検索入力には、ワードクラウド230の出力とともに一以上の検索用語の入力用に、インターフェース200が設けられる。いくつかの例では、ユーザは、クラウド230内のワード又はフレーズをクリックするか、又は他の方法で選択して、選択されたワード又はフレーズを求めて文書コレクションを検索することができる。いくつかの例では、ユーザは、クラウド230内のワード又はフレーズをクリックするか、又は他の方法で選択して、文書コレクション内の選択されたワード又はフレーズに関する付加的な情報(例えば、絶対頻度値、相対頻度値、一以上の文書におけるそのワード又はフレーズの出現のサンプリング、ワード又はフレーズが見出された文書の特定、など)を見ることができる。
図3は、電子文書の情報をダウンロードして処理する例示的なシステム300である。このシステム300は、上述した装置100の実装の例である。この例示的なシステム300では、例えば、ソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真、非オンライン電子コンテンツ、ネットワークがアクセス可能なファイル転送及び/または記憶場所などを含むCGM及び/又はCFMのような電子文書の一以上のソース310が、処理され報告されるべきコンテンツを含む電子メッセージを求めてマイニングされる。このシステム300は、ダウンローダ322、カテゴライザ326、データマイナー328、フレーズプロセッサ330、及び規則/優先度332を含むプロセッサ320を含み、電子コンテンツを獲得して分析する。例えば、ウエブページは、ハイパーテキスト転送プロトコル(html)及び/又はファイル転送プロトコル(ftp)を使用してダウンローダ322によってダウンロードされ、それから構文解析器324によって構文解析されて、電子文書内の情報を抽出することができる。
電子文書は構文解析されて、文書内のテキスト(及びメタデータ)が抽出されて特定される。構文解析器324は、ダウンロードされたウエブページをeXtensible Markup Language(XML)ツリーとして表し、電子文書から関連する情報を抽出するためにスクリプト(例えば、特定のウエブサイト、ウエブサイトのグループ、ウエブサイトのタイプ、などのためにカスタム化されたスクリプト)を適用することができる。例えば、Extensible Style sheet Language Transformation(XSLT)言語を使用して、XML文書を他のXML文書に変換することができる。XSLTスクリプトは、ユーザのカスタム化に基づいて、関連しないデータを無視することができる。
いくつかの例では、各電子文書及び/又は電子文書の一部は、カテゴライザ326によってカテゴリに分類されることができる。カテゴライザ326は構文解析器324のコンテンツにアクセスして、解析されたテキストを、例えば電子テキストのコンテンツに従って分類する。コンテンツに基づくカテゴリ分類は、解析された英数字テキスト及び/又はマルチメディアコンテンツを、話題、著者、題目、スタイル、日付、年齢、性別、グループ、心情(例えば、ポジティブな取扱、ネガティブな取扱、中立など)などのような一以上のカテゴリに基づいて分類することを含む。カテゴリ分類は、ユーザの優先度、システムの優先度、グループの優先度などのような記憶された規則/優先度322に(全体的に又は部分的に)基づくことができる。いくつかの例では、収集され、解析され、カテゴリ分類された電子情報に関連した統計が生成される。
図示する例では、統計はデータマイナー328によって生成される。データマイナー328は、一以上のパラメータ、優先度、及び/又はその他の基準に従ってカテゴリ分類されたデータをマイニングして、ユーザに例えば、分析、傾向の検出、及び/又は組織化された出力を提供する。データマイナー328は、電子データにおける概念分析を提供して、例えば、ワード及び/又はフレーズと概念との間の関係を特定する。描かれている例のデータマイナー328はまた、例えば概念に対する関係を有するワード及び/又はフレーズの間の相関を測定する。
電子文書情報に関連する電子文書情報及び/又は分析は、データストレージ340に記憶される。データストレージ340は、少なくとも一時的に電子メッセージ情報及び/又は関連する分析を記憶するために、ランダムアクセスメモリ、リードオンリーメモリ(例えばROM、EPROM、又はEEPROM)、フラッシュメモリ、CD、DVD、ハードディスクドライブなどを使用して、実装されることができる。
解析された電子文書情報は、データマイナー328からフレーズプロセッサ330に渡されることができ、及び/又は、データストレージ340からフレーズプロセッサ330に取り出されることができる。以下にさらに記述されるように、フレーズプロセッサ330は、受け取った電子データにおける一以上のフレーズに対して、絶対的及び/又は相対的な頻度を決定する。
出力データは、出力部350に渡されるか、及び/又は出力部350によって取り出される。出力350は、例えば、ウエブに基づくアプリケーション及び/又はグラフィカルユーザインターフェースとして実装されることができて、情報を表示し、情報に対するユーザの相互作用を容易化する。いくつかの例では、出力部350は一以上のグラフィックツールを含み、例えば、電子コンテンツ情報を探求して且つ/又は分析する。図示する例では、グラフィックツールはウエブアプリケーションとして設けられて、ワールドワードウエブ及び/又はプライベートネットワークを介したユーザの試験及び探索をリモートに容易化する。
電子文書処理システム300の構成要素の任意のもの又は全てが、ソフトウエア、ハードウエア、及び/又はファームウエアに別個に、及び/又は任意の数の組み合わせとして、実装されることができる。例えば、一以上の集積回路、ディスクリート半導体部品、及び/又は受動電子部品が使用されることができる。これより、例えば、プロセッサ320、ダウンローダ322、カテゴライザ326、データマイナー328、フレーズプロセッサ330、及び/又は規則/優先度332、データストレージ340、及び/又は出力350、あるいはそれらの一部を含むシステム300の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ、特定用途向け集積回路(ASIC(s))、プログラマブル論理デバイス(PLD(s))、フィールドプログラマブル論理デバイス(FPLD(s))などを使用して、実装されることができる。プロセッサ320、ダウンローダ322、カテゴライザ326、データマイナー328、フレーズプロセッサ330、規則/優先度332、データストレージ340、及び/又は出力350、又はそれらの一部を含むシステム300のいくらか又は全ては、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム(例えば図7の例示的なプロセッサシステム710)によって実行可能な命令、コード、及び/又は他のソフトウエア及び/又はファームウエアなどを使用して、実装されることができる。添付の特許請求項のいずれかが純粋にソフトウエア及び/又はファームウエア実装をカバーすると読まれるとき、プロセッサ320、ダウンローダ322、カテゴライザ326、データマイナー328、フレーズプロセッサ330、データストレージ340、及び出力350の少なくとも一つは、ソフトウエア及び/又はファームウエアを記憶するメモリ、DVD、CDなどのような有形の媒体を含むと、ここに明示的に規定される。
図4は、例示的な電子文書処理システム400のブロック図である。処理システム400は、検索アプリケーション410及び検索エンジン420を含む。検索アプリケーション410は、検索エンジンGUI(グラフィカルユーザインターフェース)414及び分析出力部416を含む。検索アプリケーション410は、一以上の用語を含むユーザ質問(query)412を受け取る。ユーザ質問412は、例えば、人間のユーザによって生成されることができ、且つ/又は、ソフトウエアプログラム及び/又はコンピュータシステムによって生成されることができる。処理システム400は、上述した図1の装置100及び/又は図3のシステム300の一部として、及び/又はそれに関連した製品として、実装されることができる。例えば、検索アプリケーション410はGUI350の一部として実装されることができ、検索エンジン420はプロセッサ320の一部として実装されることができる。CGM/CFMからの電子コンテンツ310のような電子コンテンツは、例えば処理のために、検索エンジン420に与えられることができる。
質問412内の一以上の用語が、例えば、人間のユーザによってGUI414を介して提供され、且つ/又は、外部システム及び/又はアプリケーションから入力される。いくつかの例では、検索用語は、検索エンジン420からGUI414を介して転送される。検索アプリケーション410は、ネットワーク通信及びディスプレーを有するパーソナルコンピュータ、モバイル装置、マルチメディアプレーヤー、携帯個人端末などによって実装されることができる。GUI414は、例えば、ブラウジングプログラム(例えば、マイクロソフト(登録商標)のインターネット・エクスプローラー(商標)ブラウザ、ネットスケープ・ナビゲータ(商標)ブラウザ、モジラ・ファイアフォックス(商標)ブラウザ、オペラ・ブラウザ、携帯装置ブラウザ、など)、マルチメディアアプリケーション、及び/又はカスタムビューワーを介して、実装されることができる。
検索エンジン420は、文書抽出器422、文書サンプラー424、及び/又はフレーズマイナー426を含む。検索エンジン420は、プロセッサ、ならびにプロセッサと通信するランダムアクセスメモリ、リードオンリーメモリ(例えばROM、EPROM、又はEEPROM)、フラッシュメモリ、ハードディスクドライブ、及び/又はそのほかの電子ストレージのようなコンピュータ読み出し可能な媒体を介して、実装されることができる。プロセッサは、インテル社又はAMD社から入手可能なプロセッサのような、数多くのプロセッサ及び/又は特定用途向け集積回路のいずれかであることができる。
文書抽出器422は、広範囲の利用可能な電子文書から、関連する文書を抽出する。電子文書は、話題、心情、キーワード、及び/又はフレーズ、著者、題目、ソースなどのような一以上の基準に従って、抽出される。文書メタデータは、例えば文書検索及び抽出に関連して、調べられ、生成され、及び/又は記憶される。文書抽出器422は、例えば、ワールドワードウエブ、プライベートネットワーク、及び/又は記憶された電子文書のコレクション(例えば文書の私企業データベース)を検索することができる。いくつかの例では、ウエブサービスを使用して、電子文書のウエブに基づく検索を実行することができる。
文書サンプラー424は、抽出された文書のサンプルを収集する。例えば、文書サンプラー424は、文書抽出器422から、抽出された文書のランダムな、擬似ランダムな、及び/又は特定のサンプルを収集する。文書サンプラー424は、例えば1000個の文書というような閾値又は定量的パラメータに従って、抽出された文書をサンプルとして収集できる。
サンプルとして収集された、抽出された文書は、フレーズを文書サンプルからマイニングするために、文書サンプラー424からフレーズマイナー426に渡される。フレーズマイナー426は、サンプルとして収集された文書内に一以上のフレーズを特定する。フレーズは、一以上の規則及び/又は基準に基づいて特定されることができる。例えば、フレーズマイナー426は、語彙分析規則に基づいて電子文書内のフレーズを特定し、文書からワードの並びを特定する。いくつかの例では、文書は、フレーズマイナー426によって、最初に文に構文解析されて、それから各文内の一以上のフレーズに解析される。フレーズマイナー426は、例えば、フレーズを特定するために文の間の及び/又は文の中の句読点を利用する。フレーズは、例えば、一以上のキーワードに基づいて特定されることができる。ある例では、一以上のキーワードがフレーズマイナー426に提供されて、フレーズ内のキーワードの一以上を特定するように、フレーズマイナー426に指示及び/又は訓練する。代名詞、冠詞、前置句などは廃棄されることができ、及び/又は、例えばフレーズの間の境界を特定するために使用されることができる。ある例では、特定されたフレーズは可変長を有することができる(例えば2ワードフレーズ、3ワードフレーズ、4ワードフレーズ、5ワードフレーズ、など)。
以下にさらに論じるように、フレーズマイナー426は、電子文書内の特定されたフレーズを処理して、文書内でのフレーズの頻度(例えば、絶対頻度及び/又は相対頻度)を決定する。フレーズマイナー426はまた、例えばサンプリングされた文書間でのフレーズの頻度を決定することもできる。
結果は、検索エンジン420から検索アプリケーション410に提供される。例えば、検索エンジン420は、フレーズマイニング出力及び/又はその他の電子文書分析を、文書検索結果とともに分析出力部416に提供する。分析出力部416は、供給された検索結果及び関連する分析を、GUI414を介してユーザに提供する。例えば、電子文書検索結果、及び文書からマイニングされたフレーズは、フレーズ及びそれらの頻度を示す検索結果に関連したグラフを介して、提示されることができる。フレーズ頻度及び/又はその他の分析はまた、例えば検索結果を深く掘り下げることによって、アクセスされることもできる。これより、ユーザは、例えば、文書検索結果にアクセスし、ならびに文書からマイニングされたフレーズを見て、且つそれらの相対及び/又は絶対頻度の指標を見ることができる。
電子文書処理システム400の構成要素の任意のもの又は全てが、ソフトウエア、ハードウエア、及び/又はファームウエアに別個に、及び/又は任意の数の組み合わせとして、実装されることができる。例えば、一以上の集積回路、ディスクリート半導体部品、及び/又は受動電子部品が使用されることができる。これより、例えば、システム400の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ、特定用途向け集積回路(ASIC(s))、プログラマブル論理デバイス(PLD(s))、フィールドプログラマブル論理デバイス(FPLD(s))などを使用して、実装されることができる。システム400のいくらか又は全ては、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム(例えば図7の例示的なプロセッサシステム710)によって実行可能な命令、コード、及び/又は他のソフトウエア及び/又はファームウエアなどを使用して、実装されることができる。添付の特許請求項のいずれかが純粋にソフトウエア及び/又はファームウエア実装をカバーすると読まれるとき、検索アプリケーション410、検索エンジンインターフェース414、分析出力416、検索エンジン420、文書抽出器422、文書サンプラー424、及びフレーズマイナー426の少なくとも一つは、ソフトウエア及び/又はファームウエアを記憶するメモリ、DVD、CDなどのような有形の媒体を含むと、ここに明示的に規定される。
図5は、電子メッセージ及び/又はその他の電子文書内のフレーズを特定し、フレーズに関連する頻度を決定する例示的なフレーズマイニングシステム500のブロック図である。このフレーズマイニングシステム500は、フレーズ構文解析器510、辞書520、フレーズ値計算器530、ソーター540、フレーズリスト結合器550、及び出力部560を含む。
フレーズマイニングシステム500は、フレーズ処理のために一以上の電子文書の入力505を受け取る。フレーズマイニングシステム500は、例えば検索エンジン402のような文書検索エンジンから、入力505を受け取ることができる。入力505文書は構文解析器510に渡されて、それが、各文書を一以上の語彙規則、優先度、キーワードなどに従って分析し、各文書505内の興味のある一以上のフレーズを特定する。
例えば、フレーズのリストが、ダウンロードされた文書サンプルから生成されることができる(文書コーパスが1000個の文書よりも大きいと、500〜1000個のメッセージ)。各メッセージは、以下の文字、すなわち、.!,?;\r\n\tを使用して、文又はスピーチ部分に分割される。以下の文字、すなわち、.!?@#$%^&*´:;()\n−,+[]_<>〜=/”\r\tは、各スピーチ部分から除去される。
特定されたフレーズは、一以上のフレーズ辞書520を構築するために使用される。フレーズ辞書520は、(例えば、5ワードのフレーズを1ワード辞書、2ワード辞書、3ワード辞書、4ワード辞書、及び5ワード辞書に分割することによって)一つまたはそれ以上のサブフレーズも含むことができる。
例えば、4ワードを有するフレーズ「I love this case(私はこのケースを愛する)」について、4つの辞書(例えばハッシュテーブル)が、収集された全てのスピーチ部分から生成される。辞書520は、スピーチ部分からのフレーズと、収集されたスピーチ部分にフレーズが何回現れるかを示すカウンタとを含む。例えば、スピーチ部分が「I love this cat(私はこの猫を愛する)」であれば、以下の用語「I love(私は愛する)」「love this(これを愛する)」「this cat(この猫)」が2ワード辞書に追加される。完了時には、各辞書520は、あるフレーズを項目として含み、且つ各フレーズが電子メッセージ内に現れる回数を値として含む。
辞書520内のフレーズは、それからフレーズ値計算器530によって調べられて、各フレーズに対する値を決定する。フレーズに対する値は、相対頻度、絶対頻度、キーワードなどのような様々な基準に基づくことができる。フレーズ値計算器530は、文書内及び/又は複数の文書に亘る各フレーズに対して一以上のアルゴリズム及び/又は計量値を与えて、そのフレーズに関連する値を決定する。
例えば、フレーズ値計算器530は、その絶対頻度よりも、むしろフレーズの相対頻度を決定するために使用されることができる。フレーズ値計算器530は、フレーズに含まれるワードの頻度に対するフレーズの頻度を考慮に入れる計量値に従って、フレーズを処理する。この計量値に従って各フレーズに対する値が計算された後に、最高の値を有するフレーズが決定されて、文書及び/又は文書のコレクションにおいて最も意味のあるものであると決定される。
フレーズ値計算器530は、各フレーズに対する値を、以下のように計算する。例えば、フレーズがワードとしてword1、waord2、word3、……、word(n)を含むならば、そのときには、2、3、4、5ワード辞書におけるフレーズの各々から決定されるその値は、
となる。ここで、nは、フレーズ内のワード数に対応する。フレーズ全体の頻度は、フレーズ内の各々の個別のワードの頻度と比較される。freq(phrase)は、対応するワード辞書から取られる(例えば、1ワード辞書、2ワード辞書、……、nワード辞書)一方で、個別のワードの頻度は1ワード辞書から取られる。
例えば、フレーズ値計算器530は、2つの以下のフレーズ、「Elton John(エルトン・ジョン)」及び「John is(ジョンは…である)」の値を計算することができる。「John is」というフレーズは、より普通のフレーズであるかもしれないが、このフレーズは、より低い値に関連されるであろう。なぜなら、「is(である)」は非常に一般的なワードであり、「Elton(エルトン)」はそれほど一般的なワードではないからである。これより、「John is」というフレーズに対して計算される値の水準は高く、このフレーズに対する値全体は低い。値全体のn乗根は、nワード長(例えば2ワード、3ワード、4ワード、5ワードなど)であるフレーズに対して計算される。(式1)によって決定されるこの計量値の使用は、フレーズソーター540が任意の長さのフレーズの値を比較することを許容する。(式1)を使用して、フレーズ値計算器530は、フレーズに含まれるワードの頻度に対するフレーズの頻度を考慮に入れることができる。加えて、フレーズ値計算器530は、(式1)を使用して、異なる長さのフレーズを比較することができる。式1を使用して、フレーズ値計算器530は、例えば探索エンジンを補う高性能を提供することができる。
例えば、「Elton John is good(エルトン・ジョンは良い)」が25回現れ、「Elton」が文書に50回現れ、「John(ジョン)」が文書に100回現れ、「is」が文書に400回現れ、「good(良い)」が文書に200回現れる場合、「Elton John is good」に対する値を計算すると、以下の式
をもたらす結果となる。
フレーズ値が計算された後、フレーズ値計算器530は、フレーズ及び値をソーター540に提供する。ソーター540は、各辞書520から、ある数のフレーズ及び値をセーブする。例えば、フレーズ値計算器530は、2ワード辞書から上位600個のフレーズ及び値をセーブし、3ワード辞書から上位300個のフレーズ及び値をセーブし、4ワード辞書から上位200個のフレーズ及び値をセーブし、5ワード辞書から上位100個のフレーズ及び値をセーブする。
フレーズソーター540は、ワード数の昇順にフレーズリストをレビューして、より大きなフレーズに組み込まれたサブフレーズを除去する。例えば、ソーター540は、2ワードフレーズリストを処理する。あるフレーズが3ワードリストのフレーズの一つに含まれると、その2ワードフレーズはリストから除去される(例えば、「I love cats(私は猫を愛する)」が3ワードリストに現れると、「I love」が2ワードリストから除去される)。ソーター540は3ワードフレーズリストをレビューして、4ワードフレーズの一部であるあらゆるフレーズを除去する。ソーター540は4ワードフレーズリストをレビューして、それが5ワードリストの一部であるならばフレーズを除去する、などである。
ソーター540は、結果として得られたフレーズリスト及び値を、フレーズ結合器550に提供する。結合器550は、結果のリストを結合して新しいリストにする。結合器550は、新しいリストを、フレーズ値計算器530からの対応するフレーズ値に従ってソートする。結合器550は、最初のN個のフレーズをリストから選択し、選択されたフレーズを、検索された電子文書における最も意味のあるフレーズとして特定する。選択されたN個のフレーズは、検索エンジン出力GUI及び/又はその他の分析アプリケーションに対する出力部560として提供される。例えば、フレーズ(及び関連する値)は、GUIのみを介して、及び/又は電子メッセージ検索結果とともに、表示のためにユーザに出力されることができる。あるいは、又は加えて、結果は記憶されることができ、及び/又は、さらなる処理のために他のアプリケーション/システムに転送されることができる。
フレーズマイニングシステム500の構成要素の任意のもの又は全てが、ソフトウエア、ハードウエア、及び/又はファームウエアに別個に、及び/又は任意の数の組み合わせとして、実装されることができる。例えば、一以上の集積回路、ディスクリート半導体部品、及び/又は受動電子部品が使用されることができる。これより、例えば、システム500の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ、特定用途向け集積回路(ASIC(s))、プログラマブル論理デバイス(PLD(s))、フィールドプログラマブル論理デバイス(FPLD(s))などを使用して、実装されることができる。システム500のいくらか又は全ては、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム(例えば図7の例示的なプロセッサシステム710)によって実行可能な命令、コード、及び/又は他のソフトウエア及び/又はファームウエアなどを使用して、実装されることができる。添付の特許請求項のいずれかが純粋にソフトウエア及び/又はファームウエア実装をカバーすると読まれるとき、フレーズ構文解析器510、辞書520、フレーズ値計算器530、ソーター540、フレーズリスト結合器550、及び出力部560の少なくとも一つは、ソフトウエア及び/又はファームウエアを記憶するメモリ、DVD、CDなどのような有形の媒体を含むと、ここに明示的に規定される。
図6は、一以上の電子メッセージ及び/又は文書における相対頻度に基づくフレーズマイニング600を行うために実行され得る例示的な機械読み取り可能な命令の流れ図表示である。610で、電子文書のサンプルが取り出される。例えば、500〜1000個のメッセージのサンプルがレビューのためにダウンロードされる。文書コーパスが1000個の文書よりも小さいと、コーパス全体がレビューされることができる。
620で、各メッセージは文又はスピーチ部分に分割される。例えば、各メッセージは、以下の文字、すなわち、.!,?;\r\n\tを使用して、文又はスピーチ部分に分割される。加えて、例えば、以下の文字、すなわち、.!?@#$%^&*´:;()\n−,+[]_<>〜=/”\r\tは、各スピーチ部分から除去される。
630で、一以上の辞書が、収集されたスピーチ部分から構築される。各辞書は、ある数のワードを有するフレーズのリストと、収集されたスピーチ部分におけるそのフレーズの出現回数とを有する。例えば、5つの辞書(例えばハッシュテーブル)が、収集されたスピーチ部分から生成されることができて、これは、1ワード辞書、2ワード辞書、3ワード辞書、4ワード辞書、及び5ワード辞書を含む。例えば、スピーチ部分が「I love this cat」であれば、以下の用語「I love」「love this」「this cat」が2ワード辞書に追加される。フレーズ辞書が生成された後に、各辞書は、フレーズを項目として、且つ各フレーズが現れる数を対応する値として含む。
640で、相対頻度値が、フレーズ辞書の各々における各フレーズに対して計算される。例えば、2、3、4、5ワード辞書におけるフレーズの各々に対して、以下の値、
が計算される。ここで、phrase=word1 word2 … word nである。例えば、freq(phrase)は、2、3、4、又は5ワード辞書から取られ、freq(word i)は1ワード辞書から取られる。
650で、数多くのフレーズ及び値が各辞書に対して保持される。例えば、2ワード辞書から上位600個のフレーズ及び値がセーブされ、3ワード辞書から上位300個のフレーズ及び値がセーブされ、4ワード辞書から上位200個のフレーズ及び値がセーブされ、5ワード辞書から上位100個のフレーズ及び値がセーブされる。
660で、各リストがレビューされて、リスト内の他のフレーズに組み込まれたフレーズが除去される。例えば、2ワードフレーズリストがレビューされて、3ワードリストのフレーズの一つに含まれるフレーズを除去する。例えば、「I love cats」が3ワードリストに現れると、「I love」が2ワードリストから除去される。3ワードフレーズリストがレビューされて、それが4ワードリストの一部であるならば、フレーズを除去する。同様に、4ワードリストが除去されて、それが5ワードフレーズの一部であるならばフレーズが除去される。
670で、ワードリストが結合されて、全ての残りのフレーズを含む新しいリストとされる。680で、このリストが、上記で決定されたフレーズ相対頻度値に従ってソートされる。690で、リストからの最初のN個のフレーズが、調べられているスピーチ部分からの最も意味のあるフレーズとして使用される。これらのN個のフレーズは、グラフィックインターフェースを介してユーザに表示され、メモリにセーブされ、さらなる使用のために他のシステム及び/又はアプリケーションにルートされることができる。N個のフレーズは、単独で、及び/又は、文書コーパスからの一以上の用語に従って検索結果とともに、出力されることができる。
図6は、それぞれ図4及び図5の例示的な文書プロセッサ400及び/又はフレーズマイナー500を使用するような電子文書検索及びデータマイニングを提供するために実行されることができる機械読み取り可能且つ実行可能な命令またはプロセスの流れ図表示である。図6の例示的なプロセスは、プロセッサ、コントローラ、及び/又は任意の他の適切な処理装置を使用して、実行されることができる。例えば、図6の例示的なプロセスは、プロセッサ(例えば図7のプロセッサ712)に関連したフラッシュメモリ、リードオンリーメモリ(ROM)、及び/又はランダムアクセスメモリ(RAM)のような有形の媒体に記憶されたコード化された命令に実装されることができる。あるいは、図6の例示的なプロセスのあるもの又は全てが、特定用途向け集積回路(ASIC(s))、プログラマブル論理デバイス(PLD(s))、フィールドプログラマブル論理デバイス(FPLD(s))、ディスクリートロジック、ハードウエア、ファームウエアなどの任意の組み合わせを使用して、実装されることができる。また、図6の例示的なプロセスのあるもの又は全てが、マニュアルで、あるいは、前述の技法の任意のものの組み合わせ、例えば、ファームウエア、ソフトウエア、ディスクリートロジック、及び/又はハードウエアの任意の組み合わせとして、実装されることができる。さらに、図6の例示的なプロセスは図6の流れ図を参照して記述されているが、図6の方法を実装する他の方法が使用されることができる。例えば、ブロックの実行順序は変更され得て、及び/又は、記述されたブロックのいくつかは、変更、除去、細分、又は組み合わせられ得る。あるいは、図6の例示的なプロセスの任意のもの又は全ては、順番に、及び/又は、たとえば個別の処理スレッドによって並列に、実行されることができる。
図7は、ここに記述された図1、図3、図4、及び/図5の例示的な装置及び/又はシステムのいくらか又は全てを実装するために、図6の例示的な命令を実行し得る例示的なプロセッサシステムの流れ図である。図7に示されるように、プロセッサシステム710は、配線バス714に結合されたプロセッサ712を含む。プロセッサ712はレジスタセット又はレジスタ空間716を含み、これは、図7では全体的にオンチップに描かれているが、あるいは、全体的に又は部分的にオフチップに配置され、且つ専用電気接続を介して及び/又は配線バス714を介してプロセッサ712に直接的に結合されることができる。プロセッサ712は、任意の適切なプロセッサ、処理ユニット、又はマイクロプロセッサであり得る。図7には示されていないが、システム710は、マルチプロセッサシステムであり得て、これより、プロセッサ712に同一又は類似であり且つ配線バス714に通信的に結合される一以上の付加的なプロセッサを含み得る。
図7のプロセッサ712はチップセット718に結合され、これはメモリコントローラ720及び入力/出力(I/O)コントローラ722を含む。良く知られているように、チップセットは典型的に、I/O及びメモリ管理機能、ならびにチップセット718に結合された一以上のプロセッサによってアクセス可能または使用される複数の汎用及び/又は専用レジスタ、タイマなどを提供する。メモリコントローラ720は、プロセッサ712(又は、複数のプロセッサがあるならば複数のプロセッサ)がシステムメモリ724及びマスストレージメモリ(mass storage memory)725にアクセスすることを可能にする機能を実行する。
システムメモリ724は、例えばスタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、フラッシュメモリ、リードオンリーメモリ(ROM)などのような任意の所望のタイプの揮発性及び/又は不揮発性メモリを含み得る。マスストレージメモリ725は、ハードディスクドライブ、光学ドライブ、テープストレージ装置などを含む任意の所望のタイプのマスストレージ装置を含み得る。
I/Oコントローラ722は、プロセッサ712がI/Oバス722を介して周辺入力/出力(I/O)装置726及び728ならびにネットワークインターフェース730と通信することを可能にする機能を実行する。I/O装置726及び728は、例えばキーボード、ビデオディスプレー又はモニタ、マウスなどのような任意の所望のタイプのI/O装置であり得る。ネットワークインターフェース730は、例えば、プロセッサシステム710が他のプロセッサシステムと通信することを可能にするイーサネット(登録商標)装置、非同期転送モード(ATM)装置、802.11装置、DSLモデム、ケーブルモデム、セルラーモデムなどであり得る。
メモリコントローラ720及びI/Oコントローラ722は、図7にはチップセット718内の別個の機能性ブロックとして描かれているが、これらのブロックによって実行される機能は、単一の半導体回路内に一体化され得て、又は、2つ又はそれ以上の別個の集積回路を使用して実装され得る。
ある方法、装置、及び製造品がここに記述されてきたが、本特許のカバー範囲は、それらに限定されない。反対に、本特許は、文字通り又は均等の指針の下で添付の特許請求項の範囲内に公正に含まれる全ての方法、装置、及び製造品をカバーする。

Claims (23)

  1. 電子文書内のフレーズを特定するコンピュータ実装された方法であって、
    少なくとも一つの話題に関する複数のワード及びフレーズを含む電子文書を受領するステップと、
    前記電子文書のコンテンツから一以上のフレーズ辞書を生成するステップと、
    前記一以上のフレーズ辞書の各々の各フレーズに対して、相対頻度値を生成するステップであって、前記フレーズに対する前記相対頻度値が、少なくとも部分的に、前記電子文書における前記フレーズの頻度と前記フレーズ内の個別のワードそれぞれの頻度との間の比較に基づく、ステップと、
    閾値と各フレーズに対して生成された前記相対頻度値とに少なくとも部分的に基づいて、一以上のフレーズを選択するステップと、
    前記選択された一以上のフレーズ、及び前記選択された一以上のフレーズの各々に関連した前記相対頻度値を、ユーザに対するグラフィック表示のために出力するステップと、
    を包含する、方法。
  2. 獲得ステップがさらに、複数の電子文書を獲得するステップと、フレーズマイニングのために前記複数の電子文書のサブセットをサンプリングするステップと、をさらに備える、請求項1に記載のコンピュータ実装された方法。
  3. 前記相対頻度の生成ステップがさらに、各フレーズに対する前記相対頻度値を、少なくとも部分的に、
    に基づいて生成するステップを含み、phrase=word1 word2 … word nであり、フレーズの頻度は、nワード辞書から決定され、前記フレーズにおける個別のword1からword nのそれぞれの頻度は、1ワード辞書から決定される、請求項1に記載のコンピュータ実装された方法。
  4. 前記一以上のフレーズと前記相対頻度値との出力ステップがさらに、前記電子文書の自動分析を駆動する、請求項1に記載のコンピュータ実装された方法。
  5. 前記電子文書のコンテンツをスピーチ部分に分割するステップと、前記スピーチ部分から前記一以上のフレーズ辞書を生成するステップと、をさらに包含する、請求項1に記載のコンピュータ実装された方法。
  6. 前記一以上のフレーズならびに前記対応する前記相対頻度値をレビューして、相対頻度値を有する他のより大きなフレーズ内に組み込まれたフレーズを除去するステップをさらに包含する、請求項1に記載のコンピュータ実装された方法。
  7. 残る一以上のフレーズ及び相対頻度値を結合して単一のリストにするステップと、前記リストを相対頻度値に基づいてソートするステップと、をさらに包含する、請求項6に記載のコンピュータ実装された方法。
  8. 電子文書フレーズマイニング装置であって、
    電子文書のコンテンツを複数のスピーチ部分に分離する構文解析器であって、前記スピーチ部分が一以上のフレーズを含み、前記構文解析器が、前記電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する、構文解析器と、
    各フレーズ辞書における相対頻度値を生成するフレーズ値計算器であって、フレーズに対する前記相対頻度値が、少なくとも部分的に、前記電子文書における前記フレーズの頻度と前記フレーズ内の個別のワードそれぞれの頻度との間の比較に基づく、フレーズ値計算器と、
    閾値と各フレーズに対して生成された前記相対頻度値とに少なくとも部分的に基づいて、一以上のフレーズを選択するソーターと、
    前記選択された一以上のフレーズ、及び前記選択された一以上のフレーズの各々に関連した前記相対頻度値を、ユーザに対するグラフィック表示のために出力する出力部と、
    を包含する、装置。
  9. 前記構文解析器が、1ワードフレーズ辞書とnワードフレーズ辞書とを含む複数のフレーズ辞書を生成し、nは特定の辞書におけるワード数に対応し、最大のnは、前記電子文書における前記構文解析器によって特定された最長のフレーズにおけるワード数に対応する、請求項8に記載の装置。
  10. 前記複数のフレーズ辞書が、1ワードフレーズ辞書と2ワードフレーズ辞書と3ワードフレーズ辞書と4ワードフレーズ辞書と5ワードフレーズ辞書とを含む、請求項9に記載の装置。
  11. 複数の電子文書を獲得し、フレーズマイニングのために前記複数の電子文書のサブセットをサンプリングする文書サンプラーをさらに備える、請求項8に記載の装置。
  12. 前記フレーズ値計算器が、各フレーズに対する前記相対頻度値を、少なくとも部分的に
    に基づいて生成し、phrase=word1 word2 … word nであり、フレーズの頻度は、nワード辞書から決定され、前記フレーズにおける個別のword1からword nのそれぞれの頻度は、1ワード辞書から決定される、請求項8に記載の装置。
  13. 前記出力部が、前記選択された一以上のフレーズと前記相対頻度値とを出力して、前記電子文書の自動分析を駆動する、請求項8に記載の装置。
  14. 前記一以上のフレーズならびに前記対応する前記相対頻度値をレビューして、相対頻度値を有する他のより大きなフレーズ内に組み込まれたフレーズを除去するソーターをさらに備える、請求項8に記載の装置。
  15. 前記ソーターからの残る一以上のフレーズ及び相対頻度値を結合して単一のリストにし、前記リストを相対頻度値に基づいてソートする結合器をさらに備える、請求項14に記載の装置。
  16. 処理機械によって実行された場合に、
    電子文書のコンテンツを複数のスピーチ部分に分離する構文解析器であって、前記スピーチ部分が一以上のフレーズを含み、前記構文解析器が、前記電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する、構文解析器と、
    各フレーズ辞書における相対頻度値を生成するフレーズ値計算器であって、フレーズに対する前記相対頻度値が、少なくとも部分的に、前記電子文書における前記フレーズの頻度と前記フレーズ内の個別のワードそれぞれの頻度との間の比較に基づく、フレーズ値計算器と、
    閾値と各フレーズに対して生成された前記相対頻度値とに少なくとも部分的に基づいて、一以上のフレーズを選択するソーターと、
    前記選択された一以上のフレーズ、及び前記選択された一以上のフレーズの各々に関連した前記相対頻度値を、ユーザに対するグラフィック表示のために出力する出力部と、
    を備える電子メッセージフレームマイニングシステムを実装する命令を含む、コンピュータ読み取り可能記憶媒体。
  17. 前記構文解析器が、1ワードフレーズ辞書とnワードフレーズ辞書とを含む複数のフレーズ辞書を生成し、nは特定の辞書におけるワード数に対応し、最大のnは、前記電子文書における前記構文解析器によって特定された最長のフレーズにおけるワード数に対応する、請求項16に記載のコンピュータ読み取り可能記憶媒体。
  18. 前記複数のフレーズ辞書が、1ワードフレーズ辞書と2ワードフレーズ辞書と3ワードフレーズ辞書と4ワードフレーズ辞書と5ワードフレーズ辞書とを含む、請求項16に記載のコンピュータ読み取り可能記憶媒体。
  19. 複数の電子文書を獲得し、フレーズマイニングのために前記複数の電子文書のサブセットをサンプリングする文書サンプラーをさらに備える、請求項16に記載のコンピュータ読み取り可能記憶媒体。
  20. 前記フレーズ値計算器が、各フレーズに対する前記相対頻度値を、少なくとも部分的に、
    に基づいて生成し、phrase=word1 word2 … word nであり、フレーズの頻度は、nワード辞書から決定され、前記フレーズにおける個別のword1からword nのそれぞれの頻度は、1ワード辞書から決定される、請求項16に記載のコンピュータ読み取り可能記憶媒体。
  21. 前記出力部が、前記選択された一以上のフレーズと前記相対頻度値とを出力して、前記電子文書の自動分析を駆動する、請求項16に記載のコンピュータ読み取り可能記憶媒体。
  22. 前記一以上のフレーズならびに前記対応する前記相対頻度値をレビューして、相対頻度値を有する他のより大きなフレーズ内に組み込まれたフレーズを除去するソーターをさらに備える、請求項16に記載のコンピュータ読み取り可能記憶媒体。
  23. 前記ソーターからの残る一以上のフレーズ及び相対頻度値を結合して単一のリストにし、前記リストを相対頻度値に基づいてソートする結合器をさらに備える、請求項22に記載のコンピュータ読み取り可能記憶媒体。
JP2010178449A 2009-08-07 2010-08-09 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置 Expired - Fee Related JP5160601B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US23210209P 2009-08-07 2009-08-07
US61/232,102 2009-08-07
US12/540,198 US20110035211A1 (en) 2009-08-07 2009-08-12 Systems, methods and apparatus for relative frequency based phrase mining
US12/540,198 2009-08-12

Publications (2)

Publication Number Publication Date
JP2011048821A true JP2011048821A (ja) 2011-03-10
JP5160601B2 JP5160601B2 (ja) 2013-03-13

Family

ID=42941361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010178449A Expired - Fee Related JP5160601B2 (ja) 2009-08-07 2010-08-09 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置

Country Status (4)

Country Link
US (1) US20110035211A1 (ja)
EP (1) EP2282271A1 (ja)
JP (1) JP5160601B2 (ja)
AU (1) AU2010210014B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026686A (ja) * 2019-08-08 2021-02-22 株式会社スタジアム 文字表示装置、文字表示方法、及びプログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254071A1 (en) * 2009-12-17 2012-10-04 Nec Corporation Text mining system, text mining method and recording medium
US8429170B2 (en) * 2010-02-05 2013-04-23 Yahoo! Inc. System and method for discovering story trends in real time from user generated content
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
US20120166278A1 (en) * 2010-12-10 2012-06-28 Macgregor Malcolm Methods and systems for creating self-learning, contextually relevant, targeted, marketing campaigns, in real time and predictive modes
US9215506B2 (en) * 2011-03-31 2015-12-15 Tivo Inc. Phrase-based communication system
US8949330B2 (en) * 2011-08-24 2015-02-03 Venkata Ramana Chennamadhavuni Systems and methods for automated recommendations for social media
KR101855147B1 (ko) * 2011-10-06 2018-05-09 삼성전자 주식회사 사용자 선호도 분석 방법 및 그를 위한 디바이스
US9519706B2 (en) * 2011-11-29 2016-12-13 International Business Machines Corporation Multiple rule development support for text analytics
US8818788B1 (en) * 2012-02-01 2014-08-26 Bazaarvoice, Inc. System, method and computer program product for identifying words within collection of text applicable to specific sentiment
US9208145B2 (en) * 2012-05-07 2015-12-08 Educational Testing Service Computer-implemented systems and methods for non-monotonic recognition of phrasal terms
US20140125676A1 (en) * 2012-10-22 2014-05-08 University Of Massachusetts Feature Type Spectrum Technique
US9501469B2 (en) 2012-11-21 2016-11-22 University Of Massachusetts Analogy finder
US20140214479A1 (en) * 2013-01-25 2014-07-31 Accenture Global Services Lmited Behavior management and expense insight system
IL224482B (en) * 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
US9767157B2 (en) * 2013-03-15 2017-09-19 Google Inc. Predicting site quality
US9230547B2 (en) 2013-07-10 2016-01-05 Datascription Llc Metadata extraction of non-transcribed video and audio streams
US20150019206A1 (en) * 2013-07-10 2015-01-15 Datascription Llc Metadata extraction of non-transcribed video and audio streams
US10521807B2 (en) 2013-09-05 2019-12-31 TSG Technologies, LLC Methods and systems for determining a risk of an emotional response of an audience
US9450771B2 (en) 2013-11-20 2016-09-20 Blab, Inc. Determining information inter-relationships from distributed group discussions
US10652127B2 (en) 2014-10-03 2020-05-12 The Nielsen Company (Us), Llc Fusing online media monitoring data with secondary online data feeds to generate ratings data for online media exposure
US10552462B1 (en) * 2014-10-28 2020-02-04 Veritas Technologies Llc Systems and methods for tokenizing user-annotated names
RU2580424C1 (ru) 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
CN106021572B (zh) * 2016-05-31 2019-05-31 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
US10997225B2 (en) 2018-03-20 2021-05-04 The Boeing Company Predictive query processing for complex system lifecycle management
WO2019182593A1 (en) * 2018-03-22 2019-09-26 Equifax, Inc. Text classification using automatically generated seed data
US11966686B2 (en) * 2019-06-17 2024-04-23 The Boeing Company Synthetic intelligent extraction of relevant solutions for lifecycle management of complex systems
JP7396171B2 (ja) 2020-03-31 2023-12-12 住友金属鉱山株式会社 鉱石スラリーを調製する処理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0877178A (ja) * 1994-09-01 1996-03-22 Ibm Japan Ltd 情報検索システム及び方法
JP2003505778A (ja) * 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
JP2009048482A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 情報抽出装置、情報抽出方法、及び情報抽出プログラム
US7503000B1 (en) * 2000-07-31 2009-03-10 International Business Machines Corporation Method for generation of an N-word phrase dictionary from a text corpus

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6597809B1 (en) * 1999-03-19 2003-07-22 Raf Technology, Inc. Rollup functions for efficient storage presentation and analysis of data
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
WO2005101236A2 (en) * 2004-04-06 2005-10-27 Educational Testing Service Lexical association metric for knowledge-free extraction of phrasal terms
US7613664B2 (en) * 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
DK1900103T3 (da) * 2005-06-16 2011-08-15 Firooz Ghassabian Datainputsystem
GB0513225D0 (en) * 2005-06-29 2005-08-03 Ibm Method and system for building and contracting a linguistic dictionary
US7512596B2 (en) * 2005-08-01 2009-03-31 Business Objects Americas Processor for fast phrase searching
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8180630B2 (en) * 2008-06-06 2012-05-15 Zi Corporation Of Canada, Inc. Systems and methods for an automated personalized dictionary generator for portable devices
US8180627B2 (en) * 2008-07-02 2012-05-15 Siemens Aktiengesellschaft Method and an apparatus for clustering process models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0877178A (ja) * 1994-09-01 1996-03-22 Ibm Japan Ltd 情報検索システム及び方法
JP2003505778A (ja) * 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
US7503000B1 (en) * 2000-07-31 2009-03-10 International Business Machines Corporation Method for generation of an N-word phrase dictionary from a text corpus
JP2009048482A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 情報抽出装置、情報抽出方法、及び情報抽出プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200100888004; 長野 徹 外2名: '"テキストマイニングのための情報抽出"' 情報処理学会研究報告 第2000巻,第91号, 20000927, p.31-38, 社団法人情報処理学会 *
CSNG200200099009; 安部 潤一郎 外3名: '"テキストデータからの高速データマイニング-探索的文書ブラウジングとウェブデータへの応用-"' 人工知能学会誌 第15巻,第4号, 20000701, p.618-628, 社団法人人工知能学会 *
CSNG200801043018; 山田 篤: '"社会安全のためのトレーサビリティ-I テキストマイニングと社会活動のトレース"' 画像電子学会誌 第37巻,第6号, 20081125, p.1055-1058, 画像電子学会 *
JPN6012026787; 安部 潤一郎 外3名: '"テキストデータからの高速データマイニング-探索的文書ブラウジングとウェブデータへの応用-"' 人工知能学会誌 第15巻,第4号, 20000701, p.618-628, 社団法人人工知能学会 *
JPN6012026788; 山田 篤: '"社会安全のためのトレーサビリティ-I テキストマイニングと社会活動のトレース"' 画像電子学会誌 第37巻,第6号, 20081125, p.1055-1058, 画像電子学会 *
JPN6012026791; 長野 徹 外2名: '"テキストマイニングのための情報抽出"' 情報処理学会研究報告 第2000巻,第91号, 20000927, p.31-38, 社団法人情報処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026686A (ja) * 2019-08-08 2021-02-22 株式会社スタジアム 文字表示装置、文字表示方法、及びプログラム

Also Published As

Publication number Publication date
AU2010210014B2 (en) 2012-06-14
US20110035211A1 (en) 2011-02-10
JP5160601B2 (ja) 2013-03-13
AU2010210014A1 (en) 2011-02-24
EP2282271A1 (en) 2011-02-09

Similar Documents

Publication Publication Date Title
JP5160601B2 (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
US20180260860A1 (en) A computer-implemented method and system for analyzing and evaluating user reviews
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
US11783132B2 (en) Technologies for dynamically creating representations for regulations
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
US10810245B2 (en) Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Quasthoff et al. Building large resources for text mining: The Leipzig Corpora Collection
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
Pandya et al. Mated: metadata-assisted twitter event detection system
CN109933775B (zh) Ugc内容处理方法及装置
Kanakaraj et al. NLP based intelligent news search engine using information extraction from e-newspapers
JP2012104051A (ja) 文書インデックス作成装置
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Kosa et al. Cross-evaluation of automated term extraction tools
Krilavičius et al. News media analysis using focused crawl and natural language processing: case of Lithuanian news websites
Kuzár Clustering on social web
JP5187187B2 (ja) 体験情報検索システム
US20140236940A1 (en) System and method for organizing search results
US20100287136A1 (en) Method and system for the recognition and tracking of entities as they become famous
CN111382331A (zh) 一种基于大数据的处理舆情话题的方法、装置和系统
US9779074B2 (en) Relevancy of communications about unstructured information
Vanetik et al. Real-World Events Discovering with TWIST
JP2018147411A (ja) データ処理装置、データ処理方法、データ処理システム及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120827

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121212

R150 Certificate of patent or registration of utility model

Ref document number: 5160601

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees