JP2013544397A - キーワード抽出に関するシステム及び方法 - Google Patents

キーワード抽出に関するシステム及び方法 Download PDF

Info

Publication number
JP2013544397A
JP2013544397A JP2013537776A JP2013537776A JP2013544397A JP 2013544397 A JP2013544397 A JP 2013544397A JP 2013537776 A JP2013537776 A JP 2013537776A JP 2013537776 A JP2013537776 A JP 2013537776A JP 2013544397 A JP2013544397 A JP 2013544397A
Authority
JP
Japan
Prior art keywords
candidate
computer system
pool
candidate pool
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013537776A
Other languages
English (en)
Other versions
JP2013544397A5 (ja
JP5990178B2 (ja
Inventor
ゾフィア スタンキーウィッチ,
聡 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of JP2013544397A publication Critical patent/JP2013544397A/ja
Publication of JP2013544397A5 publication Critical patent/JP2013544397A5/ja
Application granted granted Critical
Publication of JP5990178B2 publication Critical patent/JP5990178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

例示的な一態様は、(a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、候補キーワードの第1及び第2のセットを第1の候補プールに結合する前処理部と、(b)少なくとも第1の候補プールを記述するデータを前処理部から受信して第2の候補プールを生成する候補抽出部と、(c)少なくとも第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について第2の候補プールを分析する特徴抽出部と、(d)少なくとも第2の候補プールを記述するデータと関連データとを特徴抽出部から受信し、第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定する分類部とを備えるコンピュータシステムを含む。
【選択図】図1

Description

序文
キーワード抽出は、通常は、ウェブページの内容に合致する広告がページテキストから自動的に選択されたキーワードに基づいて選ばれる、文脈的広告システムの中核的な構成要素としての機能を果たす。そのウェブページに関連し、ユーザにとって興味深いと思われる広告を表示するためには、そのテキスト中に存在する多くの特徴が評価されて、どのキーワードがそのページの内容を的確に反映するかに関する決定を行う必要がある。
本明細書に記載の例示的な一実施形態では、キーワード抽出システムはページのurlを入力として取り、上位キーワード候補としてシステムによってランク付けされた10個のキーワード語句を返す。本システムはまずウェブページテキストを処理し、その構造を使用して、キーワード候補プールの役割を果たす語句を抽出する。次いで、各語句はウェブページ上の頻度、テキスト中の位置、大文字使用、及びその言語構造(たとえば、それが名詞句を構成するかどうか)などの特徴のセットによって説明され得る。人間が注釈を付けたキーワードを有するサンプルウェブページのコレクションに基づき、本システムは、候補語句が「良い」キーワードである可能性が高いかどうかの決定にこれらの特徴がいかに寄与するかを学習する。この方式でトレーニングされた後には、本システムは、前に見ていない(すなわち、トレーニングセットになかった)ウェブページ上のキーワードを識別するために使用することができる。
既存のキーワード抽出システムの大多数は、tf−idfなどの統計的頻度測定を使用する情報検索モデルに依存する。例示的なシステム実施形態は、性能を改善するために、自然言語処理技法を使用することによってこの手法を改善する。一又は複数の例示的な実施形態では、語句構造に敏感な新しいキーワード候補抽出方法を使用し、より優れた機械学習結果をもたらす追加の言語的特徴を含み得る。
ここで、tf−idf重み(語出現頻度―逆文書頻度)は、情報検索及びテキストマイニングでしばしば使用される重みである。この重みは、単語がコレクション又はコーパス中の文書にとってどの程度重要かを評価するために使用される統計的測定である。その重要性は、その単語が文書中に現れる回数に比例して増すが、コーパス中のその単語の頻度によってオフセットされる。
例示的な一態様は、(a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、候補キーワードの第1及び第2のセットを第1の候補プールに結合する前処理部と、(b)少なくとも第1の候補プールを記述するデータを前処理部から受信して第2の候補プールを生成する候補抽出部と、(c)少なくとも第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について第2の候補プールを分析する特徴抽出部と、(d)少なくとも第2の候補プールを記述するデータと関連データとを特徴抽出部から受信し、第2の候補プール中の各候補が1次又は2次キーワードである尤度を判定する分類部とを備えるコンピュータシステムを含む。
一又は複数の例示的な実施形態で、及びそれらの組合せで、(1)言語処理の少なくとも一部はトークナイザ及びパーサによって実行され、(2)言語処理の少なくとも一部はトークナイザ、パーサ、品詞タグ付けプログラム、及び固有表現タグ付けプログラムによって実行され、(3)言語処理の少なくとも一部はトークナイザによって実行され、(4)言語処理の少なくとも一部はパーサによって実行され、(5)言語処理の少なくとも一部は品詞タグ付けプログラムによって実行され、(6)言語処理の少なくとも一部は固有表現タグ付けプログラムによって実行され、(7)候補キーワードの第1のセットはメタデータテキストを含み、(8)第2の候補プールは名詞句及び名詞列を含み、(9)第2の候補プールは名詞句、名詞列、及びnグラムを含み、(10)一般的特徴は頻度、文書中の位置、及び大文字使用のうちの一又は複数を含み、(11)言語的特徴は品詞、語句構造、及び固有表現情報のうちの一又は複数に関連し、(12)一般的特徴は頻度特徴を含み、頻度特徴はウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含み、(13)各候補が1次又は2次キーワードである尤度の判定は注釈付きトレーニングデータに基づき、(14)各候補が1次又は2次キーワードである尤度の判定は、複数の注釈者からの注釈入力を結合することによって作成されるトレーニングデータに基づき、各注釈は1次キーワードと2次キーワードの区別を含み、(15)一般的特徴は頻度、文書中の位置、及び大文字使用を含み、言語的特徴は品詞、語句構造、及び固有表現情報に関連し、そして/あるいは、(16)一般的特徴は頻度特徴を含み、頻度特徴はウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含み、言語的特徴は品詞、語句構造、及び固有表現情報に関連する。
もう一つの態様は、コンピュータ処理システムによって実装されるステップを含む方法を含み、当該ステップは、(a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、(b)少なくとも第1の候補プールについて説明するデータを受信して第2の候補プールを生成するステップと、(c)少なくとも第2の候補プールについて説明するデータを受信し、一般的特徴及び言語的特徴について第2の候補プールを分析するステップと、(d)少なくとも第2の候補プールについて説明するデータと関連データとを特徴抽出部から受信し、第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップとを含む。
もう一つの態様は、(a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、(b)少なくとも第1の候補プールについて説明するデータを受信して第2の候補プールを生成するステップと、(c)少なくとも第2の候補プールについて説明するデータを受信し、一般的特徴及び言語的特徴について第2の候補プールを分析するステップと、(d)少なくとも第2の候補プールについて説明するデータと関連データとを特徴抽出部から受信し、第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップとを含むステップ群を実行するように動作可能なソフトウェアを格納した、コンピュータ読み取り可能な記録媒体を備える。
本明細書で提供される説明及び図面から、他の態様及び実施形態が当業者には明らかとなろう。
例示的な一実施形態の処理の概要を示す図である。 例示的な一実施形態が実装され得るコンピュータシステムを示す図である。
選ばれた例示的な実施形態の詳細な説明
コンピュータで実装される例示的な実施形態の概要を図1に示す。各構成要素は本明細書の残りの節でさらに詳細に説明される。
例示的な前処理部
例示的な一実施形態では、潜在的なキーワード語句がそのページから選択され得る前に、そのページのプレーンテキストがHTML形式から抽出されてもよい。順に、このテキストをさらに処理することで、キーワード抽出システムに有用であり得るその構造に関する情報を取得することができる。本システムの前処理部は、好ましくは、ウェブページテキストの抽出並びにタグ付け及び書式付けを実行して、後に続く候補語句選択及び特徴抽出の段階のための適切な入力を提供する。
その前処理段階で、まず、定型的な内容を除去してそのページの主要なテキスト本体のみを保存するBoilerPipe(たとえば[9]を参照)を使用して、ウェブページから内容テキストを抽出してもよい。本体テキストに加えて、タイトル、メタ記述、メタキーワードなどのヘッダ情報を抽出し、BoilerPipe出力と結合することで、さらなる処理のためのプレーンテキスト入力を作成してもよい。
次いで、ページテキストはトークン化され、そのトークナイザ出力は品詞タグ付けプログラム(たとえば[18]を参照)及びパーサ(たとえば[13]を参照)に渡される。キーワードは名詞句を構成する傾向があるので、そのテキスト中で名詞句を見つけるためにパーサ出力を使用してもよい。チャンカではなくてパーサの使用は、キーワード候補抽出を改良するために、基本的名詞句のかたまりに対するものとして、階層的語句構造のより肌理の細かい情報を取得したいという要望によって動機付けられ得る。
個人名又は組織名などの固有表現(「NE」)は有用なキーワードとなり得るので、固有表現もウェブページテキストから抽出してもよい。二つの異なるNEシステム(たとえば[18],[4]を参照)を、エンティティタイプの大きなセットを網羅するために用いるのが好ましい。
例示的な候補抽出部
候補抽出は、潜在的なキーワードであり、且つ所与の語句がキーワードである尤度を推定する分類器の入力として使用することができる語句を選択するために用いてもよい。加えて、例示的な分類器が語句をトレーニングしている間に、候補抽出の精度の向上は、キーワードではありそうにない単語の組合せをフィルタリングするのに役立ち、良くないトレーニングサンプルの量を減らし、ひいては、良いトレーニングデータと悪いトレーニングデータとの比率を改善する(キーワード抽出タスクは、良いラベルデータが殆どなく、良いサンプルと悪いサンプルの間の不均衡を有する)。
例示的な一実施形態で、キーワード抽出方法は以下のように行われる。まず、基底候補セットが、構文解析されたテキストからすべての名詞句を再帰的に抽出することによって形成される。次いで、名詞のみから成るすべての候補部分列(左から右に抽出された)が候補セットに追加される(たとえば、「最高のニクソン・カメラ・アクセサリ」が候補である場合、「ニクソン・カメラ・アクセサリ」、「カメラ・アクセサリ」及び「アクセサリ」がその候補セットに追加されることになる)。そして、候補セットは、候補語句から抽出されたすべてのユニグラム、バイグラム、及びトライグラムにより増補される。
候補セットについて、最頻出の英単語のストップリストに対するフィルタをかけてもよい。ストップワードを含むユニグラム又はバイグラムを候補セットから取り除くのが好ましい。しかし、その真ん中にストップリスト内の単語を含むより長い語句は保持してもよい。
例示的なキーワード分類部
どの候補語句がキーワードであるかを識別するために、例示的な一実施形態では、入力(候補語句の特徴)を使用してその語句がキーワードである確率を推定する分類器を使用し、出力ラベル(キーワード又は非キーワード)をその語句に割り当てる。特徴入力をキーワードラベルにマップする分類機能は、監視された機械学習を使用して取得してもよい。すなわち、本マッピングは、「正しい」出力ラベルが注釈者によって提供されたデータセットに基づく分類器システムによって学習され得る。
例示的なシステムの分類器をトレーニングするために、最大エントロピー(ME)モデルを用いてもよい(これはときにロジスティック回帰モデルと呼ばれる。その紹介については[11]を参照)。MEモデルは、トレーニングデータから制約条件を導出し、そのトレーニングセットによって網羅されない場合に最大エントロピーの分配を仮定する。そのME分類器の入力は、各特徴に関連付けられた重みを学習するためにそのモデルによって使用される、各キーワード候補の値のベクトルで構成される。新しい入力データが与えられると、トレーニングされた分類器は、語句が、候補語句の入力値を与えられたキーワードである確率を計算することができる。
入力値
Figure 2013544397

を与えられたラベルcの確率は以下の公式により計算することができる。
Figure 2013544397

ここで、fは共同特徴(入力ベクトル及びラベルの関数)であり、αはその特徴に割り当てられた重みである。
最大エントロピー分類器をトレーニングするために、自然言語ツールキット(Natural Language Toolkit(NLTK)。[1]を参照)で提供されるPythonライブラリを使用することができる。CGはトレーニング方法として用いることができる。しかし、そのアルゴリズムは一意解に収束するので、トレーニング方法の選択は分類器の性能に影響せず、他のトレーニング方法が本明細書に記載の本発明の範囲を逸脱することなく使用可能であることが当業者に理解されよう。たとえば、サポート・ベクトル・マシン(rbfカーネル)([8]を参照)が使用可能であるが、MEモデルを使用して得られる結果に比べた改善は本発明者によって発見されなかった。
ここで、CGは共役勾配法のことであり、これは、分類器ライブラリ内のトレーニング方法の一つとして提供されるスパース1次方程式系を解くための標準反復法である。CGはPython及びNLTKでインストールされるサイパイ(scipy)パッケージ(http://www.scipy.org/)を必要とする。
良いトレーニングデータと悪いトレーニングデータとの不均衡(すなわち、トレーニングデータ内の候補語句の大部分が通常はキーワードではない)のために、分類器によって割り当てられたラベル(キーワード又は非キーワード)を使用しないことを選択してもよいが、その代わりに、たとえば所与のウェブページ内で最も高い確率を有する10個の候補を選択して、確率のスコアに直接基づいて候補をランク付けすることができる。
例示的な特徴
特徴値のセットは各キーワード候補について計算されて分類器への入力として使用することができる。特徴の選択は分類器の性能で重要な役割を果たす。その特徴は、(a)一般的、非言語的特徴と、(b)言語的特徴の二つのタイプに分けることができる。一般的特徴は、[17]に記載のシステムによって使用される特徴と同様でもよく、頻度、文書中の位置、及び大文字使用などの情報を含む。言語的特徴は品詞、語句構造、及び固有表現情報を使用する。二つのタイプの特徴について以下にさらに詳しく説明する。
Figure 2013544397
例示的な一般的特徴
例示的な頻度特徴
頻度特徴は、TFxIDFと同様の情報を提供する。頻度特徴は、文書内の関連語出現頻度と語出現頻度のログとの他にDF(文書コレクション中の頻度)とログDF値とを含んでもよい。DF値は、Google Ngramコーパスからの頻度を使用して概算してもよい。好ましくは、ユニグラム及びバイグラムの頻度情報のみが、DFを計算するために使用される。2単語よりも長い候補語句については、その語句内のすべてのバイグラムのDFの平均値をDF値として用いてもよい。平均値は、異なる長さの語句についての値の似た範囲を得るために使用することができる。また、ブログのコレクション全体について計算されたDF値をGoogle Ngramコーパスからの頻度の代わりに用いてもよい。
ここで、TFxIDFは語出現頻度−逆文書頻度のことをいい、用語の相対的重要性を評価するために情報検索で使用される標準スコアである。これは、文書のコレクション内のその全体的頻度によって相殺された所与の文書内の用語の頻度に基づく。tf及びidfの標準的公式は以下の通りである。
tfi,j=ni,j/Σk,j
ここで、ni,jは、文書j内の考察される用語iの出現回数である。
idf=log(|D|/|d:t∈d|)
これは、コレクション内のすべての文書の数のログを、用語iを含む文書の数で割ったものである。
2.タイトル
候補語句がその文書のタイトル中にあるかどうか。
3.大文字使用
大文字で書かれた単語は、所与の文書中の重要な用語としてマークされた固有名詞又は単語を含む。例示的な大文字使用の特徴は、キーワード候補内のすべての単語が大文字で書かれているかどうか、及び、候補語句内の少なくとも一つの単語が大文字で書かれているかどうか、である。
4.位置
文書内でキーワード候補が最初に出現する相対的な位置であり、単語の数で数える。たとえば、文書が20個の単語を有し、候補語句の最初の単語がその文書中の5番目の単語である場合には、位置=5/20=0.25である。
5.長さ
候補語句中の単語の数。
6.URL
候補語句がページurl内にあるかどうか。
7.Wikiトラフィック
ウィキペディア・トラフィックの統計値に基づく特徴を、頻出する探索/照会項目としてキーワード候補の人気を反映するために用いてもよい。この特徴のセットは、候補語句がウィキペディアのタイトル(リダイレクトを含む)であるかどうかと、その候補語句のトラフィック数字(その候補がウィキペディアのタイトルでない場合には0)とを含み得る。トラフィック統計値は、一定期間(たとえば、2010年6月中の20日間)に亘って集められた1時間当たりのウィキペディアのログに基づくものであってもよい。
例示的な言語的特徴
1.名詞句
その候補が名詞句である又は名詞句を含むかどうか。
2.名詞
その候補語句が少なくとも一つの名詞を含むかどうか、及び、その候補語句が名詞のみから成るかどうか。
3.POSタグ
その候補語句に割り当てられた品詞タグの列。
4.固有表現
キーワード候補が固有表現であるかどうか、キーワード候補が、固有表現及びその候補に割り当てられた固有表現タグを含むかどうか(その候補語句がNEでない場合には「0」)。
5.PMI
自己相互情報量(Pointwise mutual information(PMI))は、語句がコロケーションである可能性が高いかどうかを反映する。候補語句のPMIスコアは以下のように計算することができる。
バイグラムについては、
PMI(w,w)=log{P(w,w)/P(w)*P(w)}
ただし、P(w)は単語又は語句の相対的頻度である。
単一の単語については、
PMI=log{1/P(w)}
2単語よりも長い候補語句については、PMIは、その語句内のすべてのバイグラムのPMIスコアの平均値に設定してもよい。
例示的な評価及びデータ
例示的なトレーニングデータ
トレーニングデータは、たとえば500個のウェブページ(ブログページのコーパスから無作為に選択されたもの。[3]を参照)を含んでもよい。注釈者は、ブログページから抽出されたプレーンテキストを提示され、そのページの内容を最もよく表すキーワードを選択するように指示され得る。ヘッダからのメタ情報は注釈付きテキストに含まれないのが好ましい。単一のページについて選択することができるキーワードの数には制限を設けないのが好ましい。追加のページについても、注釈を付け、トレーニングに使用されないテストセットとして除外することができる。
注釈者間の合意及び最も理想的な基準(golden standard)
各ページについて、キーワードは2人の注釈者によって選ばれるのが好ましい。しかし、このタスクへの注釈者間の合意は高くなくてもよい(たとえば、一実装形態では、注釈者のカッパスコアは0.49であった)。低いカッパスコアの要因としては次のことが考えられる。第1に、注釈者が、部分的にのみ一致する同様の語句にタグを付けることがある。第2に、選択可能なキーワードの最大数が指定されていないときに、一人の注釈者が、所与のテキストについてもう一人よりも多くのキーワードを選択することを選ぶことがある。
ここで、コーエンのカッパ係数は、分類タスクでの注釈者間の合意を測定するために一般に使用される統計的測定である。カッパは、{P(A)−P(E)}/{1−P(E)}で計算され、ここで、P(A)はコーダ間で観測された合意であり、P(E)はコーダが偶然合意した確率である。0.6〜0.7を上回るカッパスコアは「実質的合意」として考えられる。
単独の注釈者に依存しない最も理想的な基準(Golden Standard(GS))を作成するために、両方の注釈者からの出力を結合してもよい。キーワードに注釈を付けるとき、注釈者はそのキーワードが「1次キーワード」であるか「2次キーワード」であるかも選択するように指示され得る。1次キーワードは、文書の主題又は中心思想をとらえたキーワードとして規定することができる。2次キーワードは、その文書に関する追加のキー情報(たとえば、その事象が起きた位置、追加のものではあるが重要な、記述された数字など)を提供する重要な語句として規定することができる。両方の注釈者の選択を正確に反映するキーワードセットを作成するために、GSで以下のキーワードを保持することができる。
1.(一人の注釈者又は双方によって)1次としてマークを付けられたすべてのキーワード。
2.両方の注釈者によって選択された2次キーワード。
3.一人のみによって選択されたが、他方の注釈者によって選択された1次キーワードに部分的に一致する、2次キーワード。
GSを使用する例示的な一実施形態では、各注釈者と標準との間のカッパスコアは、注釈者1については0.75で注釈者2については0.74であった。1次及び2次キーワードの詳細な合意統計値を下記の表2に示す。
Figure 2013544397
例示的な候補抽出部
上記のように、例示的な一実施形態では、基底候補セットとして名詞句を使用するが、その名詞句から抽出された名詞列とユニグラム、バイグラム、及びトライグラムで候補プールを増補する。
起こり得るすべての候補語句をテキストから取得する一つの従来の手法では、その候補セット内の長さn(通常は3〜5)までのすべてのnグラムを含む。このnグラム方法の重大な欠点は、それが、意味のある語句でない及び/又は潜在的キーワードでなさそうな単語列の形で、かなりのノイズをもたらすことである。したがってnグラム方法は低い精度に悩まされる。
従来の一代替方法では、候補を抽出するために言語構造のキューを使用する。キーワードは名詞句である傾向があるので、テキストからのすべての名詞句が候補プールを形成するために使用され得る。しかし、この方法では再現率がnグラム抽出方法よりも著しく低く、これは多くの潜在的なキーワードが候補セットに含まれないことを意味する。
nグラム及び名詞句戦略の精度、再現率、及びF測定が本発明者により例示的な一実施形態の抽出方法と比較された。言い換えれば、本発明者は、さらなる分類段階なしに、キーワードを選択するための唯一の方法としてそれぞれの手法が使用された場合にそれがどの程度効果的であるかを評価した。結果は以下の表3に要約される。
Figure 2013544397
表3に示すように、nグラム手法の再現率は80%を超えるが、それはまた、その3つの方法のうちで精度が最も低い(すなわち、候補セットがかなりの量のノイズを含む)。候補として名詞句を抽出することは精度が上がる点で有利だが、この方法では再現率が非常に低く(わずか26%)、潜在的なキーワードを見落とす蓋然性が高い。
対照的に、本発明の方法の例示的な一実施形態は、名詞句を抽出することに比べて再現率を改善する。この手法の再現率はnグラム方法と同程度であるが、精度はより高くなる。異なる手法が分類器の性能とどのように結合するかの評価結果を以下に述べる。
分類器の性能
システム性能全体を評価するために、本発明のシステムによって達成される結果が[17]に基づいて基準値と比較された。基準値システムで、候補抽出方法はnグラム方法であり、特徴は(NP/名詞特徴の単純なセットを加えた)一般的非言語的特徴で構成される。(a)結合された候補抽出方法の使用と(b)分類段階での言語的特徴の追加とでシステム性能がどのように変わったかを分析した。
基準値に対して本発明のシステムを比較する際には以下の二つの評価測定を用いた。
1.R精度(上位n個の結果のうちいくつの候補がキーワードであるか。ここで、nはページ上に有り得るキーワードの総数)。
2.上位10個のスコア(R精度に似ているが、上位10個の結果で切り捨てる。すなわち、すべてのn>10が10にセットされる)。
上位10個のスコアを有する候補がキーワード出力として選択されるときにどのように分類器が抽出システムとして機能するかの推定を上位10個の測定が提供するので、その測定を評価に用いた。システム性能は、分類器トレーニングでは決して使用されなかった100個のウェブページの提出されたテストセットでテストされ(表4を参照)、そして、相互検証テストは、500ページのトレーニングセットで行われた(それぞれが約50個の文書の10倍。表5を参照)。
Figure 2013544397
Figure 2013544397
基準値と本発明のシステムとの結果の差は統計的に重要である(相互検証結果への対応のある両側t検定によれば、p=0.0001)。基準値に対する相対的な改善は12.55%である。
関連実施形態
所与のウェブページについて文脈的に適切な広告を選択する二つの好ましい手法がある。一つの手法は、広告プールへのウェブページテキストの直接の突き合わせを含む。もう一方の手法では、そのページと広告の間の突き合わせが中間キーワード抽出ステップを含む。各手法の例を以下に示す。
キーワード抽出
1.KEA[5]
2.GenEx[15]、[14]
3.Yih他[17]
4.Hulth[7]、[6]
5.その他:[10]、[16]
文脈的広告
1.Broder他[2]
2.Ribeiro−Neto他[12]。
本明細書に記載のいくつかの例示的なシステム及び方法の実施形態では、キーワード抽出は(a)ウェブページからのテキスト抽出、並びに、品詞タグ付け及び構文解析などの言語的処理を含む前処理と、(b)キーワード候補語句の抽出と、(c)監視された機械学習を使用する候補分類とを含むのが好ましい。
本発明のシステム及び方法は、候補選択及び特徴抽出段階の両方で、言語的情報の使用による性能の改善を達成することができる。例示的な一実施形態は、階層的語句構造を使用する候補選択を含み、よりノイズの少ない候補プールをもたらす。分類に使用できる特徴は品詞や固有表現情報などの言語的特徴も含み、分類器の性能の改善をもたらす。
実施形態は、当業者には明らかであろうコンピュータ構成要素及びコンピュータ実装ステップを含む。たとえば、計算及び通信は電子的に実行でき、結果をグラフィカルユーザインターフェースを用いて表示することができる。
そのような例示的なシステムを図2に示す。コンピュータ100はネットワーク110を介してサーバ130と通信する。複数のデータソース120,121もネットワーク110を介してサーバ130、プロセッサ150、及び/又は、情報を計算及び/又は送信するように動作可能な他の構成要素と通信する。一又は複数のサーバ130は、一又は複数の記憶装置140、一又は複数のプロセッサ150、及びソフトウェア160に結合され得る。
本明細書に記載の計算及び同等のものは、一実施形態では、完全に電子的に実行される。当業者には明らかなように、他の構成要素及び構成要素の組合せもまた、本明細書に記載の処理データ又は他の計算をサポートするために使用できる。サーバ130は、一又は複数のプロセッサ150とのデータ通信と、記憶装置140からのデータ通信と、コンピュータ100への通信とを円滑に進めることができる。プロセッサ150は、一時的な情報又は他の情報を記憶するために使用することができるローカル又はネットワークストレージ(図示せず)を任意で含んでもよいし、それと通信してもよい。ソフトウェア160は、コンピュータ100またはプロセッサ150でローカルにインストールされてもよいし、及び/又は、計算と適用とを容易にするために中央でサポートされてもよい。
説明を容易にするために、本発明のあらゆるステップ又は要素がコンピュータシステムの部分として本明細書に記載されているわけではないが、各ステップ又は要素は対応するコンピュータシステム又はソフトウェア構成要素を有してもよいことは当業者に理解されよう。したがって、そのようなコンピュータシステム及び/又はソフトウェア構成要素は、それらの対応するステップ又は要素(すなわち、それらの機能性)について説明することによって可能にされ、本発明の範囲内にある。
さらに、コンピュータシステムが特定の機能を実行するためのプロセッサを有するものとして説明又は特許請求される場合、そのような使用は、単一のプロセッサが、たとえば、さまざまなプロセッサに委託されたタスクのいくつか又はすべてを実行するシステムを除外するものとして解釈されるべきではないことが当業者に理解されよう。すなわち、本明細書及び/又は特許請求の範囲で指定されるプロセッサの任意の組合せ又はすべては同一のプロセッサでもよい。そのようなすべての組合せは本発明の範囲内である。
別の方法として、又は組み合わせて、処理及び意思決定はデジタル信号プロセッサ回路又は特定用途向け集積回路などの機能的に同等の回路によって実行可能である。
ループ及び変数の初期化と一時的数値変数の使用などの多数のルーチンプログラム要素は本明細書には記載されていない。さらに、特段の指示のない限り、記載されるステップの特定の順番は説明のみを目的とし、一般に、本発明の範囲から逸脱することなしに変更することができることが、当業者に理解されよう。特段の記述のない限り、本明細書に記載のプロセスは順序付けされていない。すなわち、そのプロセスは任意の妥当な順番で実行することができる。
本明細書に記載のすべてのステップは、実行可能な場合、ソフトウェアによる実装が可能であることが当業者に理解されよう。さらに、そのようなソフトウェアは非一時的なコンピュータ可読媒体に格納可能であり、一又は複数のコンピュータプロセッサによって実行可能であることが、当業者に理解されよう。
本発明は、本明細書で概説される例示的な態様の実施形態とともに説明されているが、多数の代替、修正、及び変更が当業者には明らかとなろう。したがって、本明細書に記載するような本発明の例示的な態様及び実施形態は例示的なであって限定ではない。さまざまな変更本発明の趣旨及び範囲を逸脱することなしに行われ得る。
参考文献
[1]Bird,Steven,Edward Loper及びEwan Klein。Natural Language Processing with Python。O’Reilly Media Inc.、2009。
[2]Broder,Andrei及びFontoura,Marcus及びJosifovski,Vanja及びRiedel,Lance。A semantic approach to contextual advertising。SIGIR’07:Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval、ページ559〜566、New York,NY,USA、2007。ACM。
[3]Kevin Burton及びAkshay Java及びIan Soboroff。ICWSM 2009 Spinn3r Dataset。San Jose,CA、2009。
[4]Finkel,Jenny Rose及びGrenager,Trond及びManning,Christopher。Incorporating non−local information into information extraction systems by Gibbs sampling。ACL ’05:Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics、ページ363〜370、Morristown,NJ,USA、2005。Association for Computational Linguistics。
[5]Frank,Eibe及びPaynter,Gordon W.及びWitten,Ian H.及びGutwin,Carl及びNevill−Manning,Craig G.。Domain−specific keyphrase extraction。IJCAI’99:Proceedings of the 16th international joint conference on Artificial intelligence、ページ668〜673、San Francisco,CA,USA、1999。Morgan Kaufmann Publishers Inc.。
[6]Hulth,Anette。Automatic Keyword Extraction。Combining Machine Learning and Natural Language Processing。Verlag Dr. Muller、2008。
[7]Hulth,Anette。Improved automatic keyword extraction given more linguistic knowledge。Proceedings of the 2003 conference on Empirical methods in natural language processing、ページ216〜223、Morristown,NJ,USA、2003。Association for Computational Linguistics。
[8]Joachims,Thorsten。Making large−scale support vector machine learning practical。:169〜184、1999。
[9]Kohlschiitter,Christian及びFankhauser,Peter及びNejdl,Wolfgang。Boilerplate detection using shallow text features。WSDM ’10:Proceedings of the third ACM international conference on Web search and data mining、ページ441〜450、New York,NY,USA、2010。ACM。
[10]Matsuo,Y.及びIshizuka,M.。Keyword Extraction from a Document using Word Co−occurrence Statistical Information。Transactions of the Japanese Society for Artificial Intelligence、17:217〜223、2002。
[11]Adwait Ratnaparkhi。A Simple Introduction to Maximum Entropy Models for Natural Language Processing。Technical report,IRCS、1997。
[12]Ribeiro−Neto,Berthier及びCristo,Marco及びGolgher,Paulo B.及びSilva de Moura,Edleno。Impedance coupling in content−targeted advertising。SIGIR ’05:Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval、ページ496〜503、New York,NY,USA、2005。ACM。
[13]Sekine,Satoshi及びRalph Grishman。A corpus based probabilistic grammar with only two non−terminals。Fourth International Workshop on Parsing Technology,1995。
[14]Turney,Peter D.。Coherent keyphrase extraction via web mining。IJCAI’03:Proceedings of the 18th international joint conference on Artificial intelligence、ページ434〜439、San Francisco,CA,USA、2003。Morgan Kaufmann Publishers Inc.。
[15]Turney,Peter D.。Learning Algorithms for Keyphrase Extraction。Inf. Retr.、2(4):303〜336、2000。
[16]Wu,Xiaoyuan及びBolivar,Alvaro。Keyword extraction for contextual advertisement。WWW ’08:Proceeding of the 17th international conference on World Wide Web、ページ1195〜1196、New York,NY,USA、2008。ACM。
[17]Yih,Wen−tau及びGoodman,Joshua及びCarvalho,Vitor R.。Finding advertising keywords on web pages。WWW’06:Proceedings of the 15th international conference on World Wide Web、ページ213〜222、New York,NY,USA、2006。ACM。
[18]OAK System,http://nlp.cs.nyu.edu/oak/。

Claims (19)

  1. (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合する前処理部と、
    (b)少なくとも前記第1の候補プールを記述するデータを前記前処理部から受信して第2の候補プールを生成する候補抽出部と、
    (c)少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析する特徴抽出部と、
    (d)少なくとも前記第2の候補プールを記述する前記データと関連データとを前記特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定する分類部と
    を備えるコンピュータシステム。
  2. 前記言語処理の少なくとも一部がトークナイザ及びパーサによって実行される、
    請求項1に記載のコンピュータシステム。
  3. 前記言語処理の少なくとも一部がトークナイザ、パーサ、品詞タグ付けプログラム、及び固有表現タグ付けプログラムによって実行される、
    請求項1に記載のコンピュータシステム。
  4. 前記言語処理の少なくとも一部がトークナイザによって実行される、
    請求項1に記載のコンピュータシステム。
  5. 前記言語処理の少なくとも一部がパーサによって実行される、
    請求項1に記載のコンピュータシステム。
  6. 前記言語処理の少なくとも一部が品詞タグ付けプログラムによって実行される、
    請求項1に記載のコンピュータシステム。
  7. 前記言語処理の少なくとも一部が固有表現タグ付けプログラムによって実行される、
    請求項1に記載のコンピュータシステム。
  8. 前記候補キーワードの第1のセットがメタデータテキストを含む、
    請求項1に記載のコンピュータシステム。
  9. 前記第2の候補プールが名詞句及び名詞列を含む、
    請求項1に記載のコンピュータシステム。
  10. 前記第2の候補プールが名詞句、名詞列、及びnグラムを含む、
    請求項1に記載のコンピュータシステム。
  11. 前記一般的特徴が頻度、文書中の位置、及び大文字使用のうちの一又は複数を含む、
    請求項1に記載のコンピュータシステム。
  12. 前記言語的特徴が品詞、語句構造、及び固有表現情報のうちの一又は複数に関連する、
    請求項1に記載のコンピュータシステム。
  13. 前記一般的特徴が頻度特徴を含み、前記頻度特徴が前記ウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含む、
    請求項1に記載のコンピュータシステム。
  14. 各候補が1次又は2次キーワードである尤度の前記判定が注釈付きトレーニングデータに基づく、
    請求項1に記載のコンピュータシステム。
  15. 各候補が1次又は2次キーワードである尤度の前記判定が、複数の注釈者からの注釈入力を結合することによって作成されたトレーニングデータに基づき、各注釈が1次キーワードと2次キーワードとの間の区別を含む、
    請求項1に記載のコンピュータシステム。
  16. 前記一般的特徴が頻度、文書中の位置、及び大文字使用を含み、前記言語的特徴が品詞、語句構造、及び固有表現情報に関連する、
    請求項1に記載のコンピュータシステム。
  17. 前記一般的特徴が頻度特徴を含み、前記頻度特徴が前記ウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含み、前記言語的特徴が品詞、語句構造、及び固有表現情報に関連する、
    請求項1に記載のコンピュータシステム。
  18. コンピュータ処理システムによって実装されるステップを含む方法であって、
    (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、
    (b)少なくとも前記第1の候補プールを記述するデータを受信して第2の候補プールを生成するステップと、
    (c)少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析するステップと、
    (d)少なくとも前記第2の候補プールを記述する前記データと関連データとを特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップと
    を含む方法。
  19. (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、
    (b)少なくとも前記第1の候補プールを記述するデータを受信して第2の候補プールを生成するステップと、
    (c)少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析するステップと、
    (d)少なくとも前記第2の候補プールを記述する前記データと関連データとを特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップと
    を含むステップを実行するように動作可能なソフトウェアを格納する、コンピュータ読み取り可能な記憶媒体。
JP2013537776A 2010-11-05 2011-11-02 キーワード抽出に関するシステム及び方法 Active JP5990178B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US41039210P 2010-11-05 2010-11-05
US61/410,392 2010-11-05
PCT/US2011/058899 WO2012061462A1 (en) 2010-11-05 2011-11-02 Systems and methods regarding keyword extraction

Publications (3)

Publication Number Publication Date
JP2013544397A true JP2013544397A (ja) 2013-12-12
JP2013544397A5 JP2013544397A5 (ja) 2014-09-25
JP5990178B2 JP5990178B2 (ja) 2016-09-07

Family

ID=46020615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013537776A Active JP5990178B2 (ja) 2010-11-05 2011-11-02 キーワード抽出に関するシステム及び方法

Country Status (6)

Country Link
US (1) US8874568B2 (ja)
EP (1) EP2635965A4 (ja)
JP (1) JP5990178B2 (ja)
KR (1) KR101672579B1 (ja)
CN (1) CN103201718A (ja)
WO (1) WO2012061462A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018509664A (ja) * 2015-12-31 2018-04-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120076414A1 (en) * 2010-09-27 2012-03-29 Microsoft Corporation External Image Based Summarization Techniques
US8732014B2 (en) * 2010-12-20 2014-05-20 Yahoo! Inc. Automatic classification of display ads using ad images and landing pages
US8898163B2 (en) 2011-02-11 2014-11-25 International Business Machines Corporation Real-time information mining
US9558267B2 (en) * 2011-02-11 2017-01-31 International Business Machines Corporation Real-time data mining
US8983826B2 (en) * 2011-06-30 2015-03-17 Palo Alto Research Center Incorporated Method and system for extracting shadow entities from emails
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
US9613125B2 (en) * 2012-10-11 2017-04-04 Nuance Communications, Inc. Data store organizing data using semantic classification
US9292797B2 (en) 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
EP3011473A1 (en) * 2013-06-21 2016-04-27 Hewlett-Packard Development Company, L.P. Topic based classification of documents
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
US10552459B2 (en) * 2013-10-31 2020-02-04 Micro Focus Llc Classifying a document using patterns
CN104679768B (zh) * 2013-11-29 2019-08-09 百度在线网络技术(北京)有限公司 从文档中提取关键词的方法和设备
US9384287B2 (en) 2014-01-15 2016-07-05 Sap Portals Isreal Ltd. Methods, apparatus, systems and computer readable media for use in keyword extraction
US8924338B1 (en) 2014-06-11 2014-12-30 Fmr Llc Automated predictive tag management system
KR101624909B1 (ko) * 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
US10169374B2 (en) * 2015-08-21 2019-01-01 Adobe Systems Incorporated Image searches using image frame context
US10140314B2 (en) * 2015-08-21 2018-11-27 Adobe Systems Incorporated Previews for contextual searches
KR101708444B1 (ko) * 2015-11-16 2017-02-22 주식회사 위버플 키워드 및 자산 가격 관련성 평가 방법 및 그 장치
US10558785B2 (en) 2016-01-27 2020-02-11 International Business Machines Corporation Variable list based caching of patient information for evaluation of patient rules
US10528702B2 (en) 2016-02-02 2020-01-07 International Business Machines Corporation Multi-modal communication with patients based on historical analysis
US10565309B2 (en) * 2016-02-17 2020-02-18 International Business Machines Corporation Interpreting the meaning of clinical values in electronic medical records
US10937526B2 (en) 2016-02-17 2021-03-02 International Business Machines Corporation Cognitive evaluation of assessment questions and answers to determine patient characteristics
US11037658B2 (en) 2016-02-17 2021-06-15 International Business Machines Corporation Clinical condition based cohort identification and evaluation
US10685089B2 (en) 2016-02-17 2020-06-16 International Business Machines Corporation Modifying patient communications based on simulation of vendor communications
US10282356B2 (en) 2016-03-07 2019-05-07 International Business Machines Corporation Evaluating quality of annotation
CN107203542A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 词组提取方法及装置
US10311388B2 (en) 2016-03-22 2019-06-04 International Business Machines Corporation Optimization of patient care team based on correlation of patient characteristics and care provider characteristics
US10923231B2 (en) 2016-03-23 2021-02-16 International Business Machines Corporation Dynamic selection and sequencing of healthcare assessments for patients
CN105912524B (zh) * 2016-04-09 2019-08-20 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
RU2619193C1 (ru) 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
US10318562B2 (en) 2016-07-27 2019-06-11 Google Llc Triggering application information
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
CN108073568B (zh) * 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
US9965460B1 (en) * 2016-12-29 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Keyword extraction for relationship maps
CN107248927B (zh) * 2017-05-02 2020-06-09 华为技术有限公司 故障定位模型的生成方法、故障定位方法和装置
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
US10417268B2 (en) * 2017-09-22 2019-09-17 Druva Technologies Pte. Ltd. Keyphrase extraction system and method
US20200273447A1 (en) * 2017-10-24 2020-08-27 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for key phrase spotting
US11216452B2 (en) * 2017-11-01 2022-01-04 Sap Se Systems and methods for disparate data source aggregation, self-adjusting data model and API
KR102019194B1 (ko) 2017-11-22 2019-09-06 주식회사 와이즈넛 문서 내 핵심 키워드 추출 시스템 및 방법
WO2019135403A1 (ja) * 2018-01-05 2019-07-11 国立大学法人九州工業大学 ラベル付与装置、ラベル付与方法、及びプログラム
US20190272071A1 (en) * 2018-03-02 2019-09-05 International Business Machines Corporation Automatic generation of a hierarchically layered collaboratively edited document view
US10831803B2 (en) * 2018-07-26 2020-11-10 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for true product word recognition
US11238850B2 (en) 2018-10-31 2022-02-01 Walmart Apollo, Llc Systems and methods for e-commerce API orchestration using natural language interfaces
US11195524B2 (en) * 2018-10-31 2021-12-07 Walmart Apollo, Llc System and method for contextual search query revision
US11404058B2 (en) 2018-10-31 2022-08-02 Walmart Apollo, Llc System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions
US11183176B2 (en) 2018-10-31 2021-11-23 Walmart Apollo, Llc Systems and methods for server-less voice applications
CN109977397B (zh) * 2019-02-18 2022-11-15 广州市诚毅科技软件开发有限公司 基于词性组合的新闻热点提取方法、系统及存储介质
US12118314B2 (en) * 2019-05-31 2024-10-15 Nec Corporation Parameter learning apparatus, parameter learning method, and computer readable recording medium
US11250214B2 (en) 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
US11874882B2 (en) * 2019-07-02 2024-01-16 Microsoft Technology Licensing, Llc Extracting key phrase candidates from documents and producing topical authority ranking
CN110362827B (zh) * 2019-07-11 2024-05-14 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
CN110377725B (zh) * 2019-07-12 2021-09-24 深圳新度博望科技有限公司 数据生成方法、装置、计算机设备及存储介质
CN110516237B (zh) * 2019-08-15 2022-12-09 重庆长安汽车股份有限公司 短文本短语提取方法、系统及存储介质
CN110781662B (zh) * 2019-10-21 2022-02-01 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN113703588A (zh) * 2020-05-20 2021-11-26 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US10878174B1 (en) * 2020-06-24 2020-12-29 Starmind Ag Advanced text tagging using key phrase extraction and key phrase generation
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
KR102639979B1 (ko) * 2020-12-08 2024-02-22 주식회사 카카오엔터프라이즈 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램
JP7525421B2 (ja) 2021-02-10 2024-07-30 株式会社カネカ 多種部材の位置検出ロボットビジョンシステムを有する物品の製造装置
US11379763B1 (en) 2021-08-10 2022-07-05 Starmind Ag Ontology-based technology platform for mapping and filtering skills, job titles, and expertise topics
KR102334236B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
KR102334255B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
CN114398968B (zh) * 2022-01-06 2022-09-20 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN115204146B (zh) * 2022-07-28 2023-06-27 平安科技(深圳)有限公司 关键词抽取方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765018A (ja) * 1993-08-31 1995-03-10 Matsushita Electric Ind Co Ltd キーワード自動抽出装置
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
JP2005085285A (ja) * 2003-09-10 2005-03-31 Microsoft Corp ペンベースのコンピューティングシステムでの注釈の管理
JP2006146705A (ja) * 2004-11-22 2006-06-08 Mitsubishi Electric Corp 構造化文書曖昧照合装置及びそのプログラム
US20070112764A1 (en) * 2005-03-24 2007-05-17 Microsoft Corporation Web document keyword and phrase extraction
JP2007257390A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 新たな複合語を抽出するシステム
JP2008065417A (ja) * 2006-09-05 2008-03-21 Hottolink Inc 連想語群検索装置、システム及びコンテンツマッチ型広告システム
JP2009271794A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 検索システム
JP2010204866A (ja) * 2009-03-02 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 重要キーワード抽出装置及び方法及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US7519588B2 (en) 2005-06-20 2009-04-14 Efficient Frontier Keyword characterization and application
US8380721B2 (en) * 2006-01-18 2013-02-19 Netseer, Inc. System and method for context-based knowledge search, tagging, collaboration, management, and advertisement
US8341112B2 (en) * 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US8001105B2 (en) * 2006-06-09 2011-08-16 Ebay Inc. System and method for keyword extraction and contextual advertisement generation
JP3983265B1 (ja) * 2006-09-27 2007-09-26 沖電気工業株式会社 辞書作成支援システム、方法及びプログラム
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
US20090254512A1 (en) * 2008-04-03 2009-10-08 Yahoo! Inc. Ad matching by augmenting a search query with knowledge obtained through search engine results
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8768960B2 (en) 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
US20100281025A1 (en) * 2009-05-04 2010-11-04 Motorola, Inc. Method and system for recommendation of content items
WO2011035389A1 (en) * 2009-09-26 2011-03-31 Hamish Ogilvy Document analysis and association system and method
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765018A (ja) * 1993-08-31 1995-03-10 Matsushita Electric Ind Co Ltd キーワード自動抽出装置
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
JP2005085285A (ja) * 2003-09-10 2005-03-31 Microsoft Corp ペンベースのコンピューティングシステムでの注釈の管理
JP2006146705A (ja) * 2004-11-22 2006-06-08 Mitsubishi Electric Corp 構造化文書曖昧照合装置及びそのプログラム
US20070112764A1 (en) * 2005-03-24 2007-05-17 Microsoft Corporation Web document keyword and phrase extraction
JP2007257390A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 新たな複合語を抽出するシステム
JP2008065417A (ja) * 2006-09-05 2008-03-21 Hottolink Inc 連想語群検索装置、システム及びコンテンツマッチ型広告システム
JP2009271794A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 検索システム
JP2010204866A (ja) * 2009-03-02 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 重要キーワード抽出装置及び方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015052737; 上村 卓史、外2名: 'ウェブ閲覧における効率的なキーワード抽出とその利用' データベースとWeb情報システムに関するシンポジウム 情報処理学会シンポジウムシリーズ 第2007巻,第3号, 20071220, p.1-9, 社団法人情報処理学会 *
JPN6016030049; 斎藤 一、外3名: 'キーワード地図構造モデリングによるグループ学習支援システムの構築' 電子情報通信学会技術研究報告 第103巻,第217号, 20030717, p.1-4, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018509664A (ja) * 2015-12-31 2018-04-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
US10565253B2 (en) 2015-12-31 2020-02-18 Baidu Online Network Technology (Beijing) Co., Ltd. Model generation method, word weighting method, device, apparatus, and computer storage medium

Also Published As

Publication number Publication date
EP2635965A4 (en) 2016-08-10
US8874568B2 (en) 2014-10-28
US20120117092A1 (en) 2012-05-10
WO2012061462A1 (en) 2012-05-10
EP2635965A1 (en) 2013-09-11
JP5990178B2 (ja) 2016-09-07
KR101672579B1 (ko) 2016-11-03
KR20130142124A (ko) 2013-12-27
CN103201718A (zh) 2013-07-10

Similar Documents

Publication Publication Date Title
JP5990178B2 (ja) キーワード抽出に関するシステム及び方法
US8073877B2 (en) Scalable semi-structured named entity detection
US10198491B1 (en) Computerized systems and methods for extracting and storing information regarding entities
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US8819047B2 (en) Fact verification engine
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Fan et al. Using syntactic and semantic relation analysis in question answering
US8856119B2 (en) Holistic disambiguation for entity name spotting
US20130198195A1 (en) System and method for identifying one or more resumes based on a search query using weighted formal concept analysis
US20130007020A1 (en) Method and system of extracting concepts and relationships from texts
JP2007087401A (ja) インデクシングシステム、インデクシング方法、質問テンプレート生成システム、質問テンプレート生成方法、及びプログラム
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
US20160062967A1 (en) System and method for measuring sentiment of text in context
Echeverry-Correa et al. Topic identification techniques applied to dynamic language model adaptation for automatic speech recognition
Bendersky et al. Joint annotation of search queries
Das et al. Temporal analysis of sentiment events–a visual realization and tracking
Sadeghi et al. Automatic identification of light stop words for Persian information retrieval systems
Jayasiriwardene et al. Keyword extraction from Tweets using NLP tools for collecting relevant news
Figueroa et al. Contextual language models for ranking answers to natural language definition questions
Klang et al. Linking, searching, and visualizing entities in wikipedia
KR20140056715A (ko) 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법
Ojokoh et al. Online question answering system
US20240046039A1 (en) Method for News Mapping and Apparatus for Performing the Method
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method
US20240070396A1 (en) Method for Determining Candidate Company Related to News and Apparatus for Performing the Method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160812

R150 Certificate of patent or registration of utility model

Ref document number: 5990178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250