JP4934115B2 - キーワード抽出装置、方法及びプログラム - Google Patents

キーワード抽出装置、方法及びプログラム

Info

Publication number
JP4934115B2
JP4934115B2 JP2008205896A JP2008205896A JP4934115B2 JP 4934115 B2 JP4934115 B2 JP 4934115B2 JP 2008205896 A JP2008205896 A JP 2008205896A JP 2008205896 A JP2008205896 A JP 2008205896A JP 4934115 B2 JP4934115 B2 JP 4934115B2
Authority
JP
Japan
Prior art keywords
noun
score
keyword
text
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008205896A
Other languages
English (en)
Other versions
JP2010040020A (ja
Inventor
毅司 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008205896A priority Critical patent/JP4934115B2/ja
Publication of JP2010040020A publication Critical patent/JP2010040020A/ja
Application granted granted Critical
Publication of JP4934115B2 publication Critical patent/JP4934115B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワード抽出装置、方法及びプログラムに関する。さらに、詳細には、データベースに蓄積されたデータあるいはインターネットを介して取得されるデータなど、様々な文書データの分類に有効なキーワードの効率的な抽出を可能としたキーワード抽出装置,方法及びプログラムに関する。
パソコンやインターネットの普及、あるいは電子ファイリング技術の発展等に伴い、電子化された大量の文書データを利用可能な環境が整いつつあるが、一方で膨大な情報の中から重要なキーワードを自動的に抽出するシステムの必要性が生じている。
データベースに蓄積された文書データあるいはインターネットを介して取得される文書データなどを分類する手法として、これまでに、様々な手法が提案されている。例えば、文書データに含まれる特徴となる複数のキーワードを選択し、その分布や出現位置などを解析し、この解析結果に基づいて分類を行う手法が広く知られている。
文書データの分類処理を行う際に重要なのが、「分類を行うのに有効な単語」、すなわち、キーワードの選定である。従来から知られるキーワード選定手法を大きく分類すると、以下の(1)〜(3)の3つの手法に分類される。
(1)辞書データを用いるキーワード選定手法
辞書データを用いるキーワード選定手法は、あらかじめ文書データの分類に有効と考えられる単語群を辞書データとして登録し、登録された単語をキーワードとして用いる手法である。この辞書データをキーワードとして利用する手法は、例えば特許文献1、特許文献2に記載されている。
(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法
分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法は、分類対象の文書データに含まれる文書の文法に基づいた形態素解析、あるいは独自の文法ルールによる解析を行い、その結果として抽出される単語をキーワードまたはその候補として用いる手法である。この手法は、例えば特許文献3、特許文献4に記載されている。
(3)分類対象の文書データの総比較によるキーワード選定手法
分類対象の文書データの総比較によるキーワード選定手法は、分類対象とる様々な文書データ各々の総比較を行い、様々な単語の出現頻度やその組み合わせデータを解析し、その解析結果に基づいてキーワードまたはキーワード候補を抽出する手法である。この手法は、例えば特許文献5に記載されている。
上述したように、キーワードの抽出手法としては、様々な手法が既に提案されている。しかし、例えば上述の「(1)辞書データを用いるキーワード選定手法」は、前提となる辞書を作成するのに専門的な知識と時間がかかる上に、作成された辞書は、想定外の分野の文章に関しては十分な効果をあげないという問題がある。例えば特定の専門分野、例えば医療や金融といった専門分野の文書の分類に有効なキーワードが不十分となったり、あるいは、新しく出現してきた単語に対する対応ができないといった問題がある。
また、「(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法」は、文法ルールを定型処理化するのに専門的な知識が必要である上に、想定外の言語や、文法的に成立しない自由形式の文章に対して十分な効果をあげないという問題点がある。
さらに、「(3)分類対象の文書データの総比較によるキーワード選定手法」は、処理対象となる文書データ量が増えると、その比較の処理にかかる時間が指数的に増え、処理効率が低下するという問題があり、また、日本語であれば文書中に頻出する「です」「ます」など、分類に有効な単語以外の語句が抽出されてしまうといという問題点がある。
この問題点を解決しようとするアルゴリズムに、tf・idf(Term Frequency − Inverse Document Frequency、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズム)がある(後述する)。
特開2002−215647号公報 特開2002−108888号公報 特開2003−36261号公報 特開2002−245061号公報 特開2001−22752号公報
本発明は、このような状況に鑑みてなされたものであり、上述した従来のキーワード抽
出手法における問題点を解決したキーワード抽出装置、方法及びプログラムを提供することを目的とする。
具体的には、前提となる知識(辞書、文法データ)を使用せず、自由形式(含、多言語)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することを可能としたキーワード抽出サーバ及び方法及びプログラムを提供することを目的とする。
(1)入力されたテキストを句読点で分割する分割手段と、
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算手段と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断手段と、を備えることを特徴とするキーワード抽出装置。
(1)に係る発明によれば、入力されたテキストから名詞を抽出し、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの(テキスト中の)文に跨って出現したかを示す出現頻度との比を基にキーワードの判断を実行する。
このようにして、(1)に係る発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。
すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。
(2)前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記スコアとすることを特徴とする(1)に記載のキーワード抽出装置。
(2)に係る発明によれば、(1)において抽出した名詞について、名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を基にキーワードの判断を実行する。
このようにして、(2)に係る発明によれば、文字数、対数演算、テキスト中での名詞の出現頻度、文の総数及び比の演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。
(3)インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
前記判断手段によって前記キーワードであると判断された前記名詞の中で最も前記スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(1)または(2)に記載のキーワード抽出装置。
(3)に係る発明によれば、前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞及び前記名詞の両方が含まれる検索件数とを検索し、それらの検索件数に基づいて、(1)に係わるキーワード候補となった名詞について補正を実行する。
このようにして、(3)に係る発明によれば、補正係数(スコアB)の効果(スコア(スコアA)の値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数(スコアB)が大きくなり、スコアAの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数(スコアB)が小さくなる。)によって、キーワード性が低い語は、補正スコア(スコアC)が小さな値となり、キーワードとして判断されないように適切に演算処理されることが可能となる。
(4)前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
前記判断手段は、前記補正スコアと前記スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(3)に記載のキーワード抽出装置。
(4)に係る発明によれば、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値に基づいて前記名詞をキーワードとするか否かを判断することを実行する。
このようにして、(4)に係る発明によれば、検索件数と検索件数文字数、乗算演算、平方根演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。
(5)入力されたテキストを句読点で分割する分割工程と、
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算工程と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断工程と、を備えることを特徴とするキーワード抽出方法。
(1)に係る発明によれば、入力されたテキストから名詞を抽出し、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの(テキスト中の)文に跨って出現したかを示す出現頻度との比を基にキーワードの判断を実行する。
このようにして、(1)に係る発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。
すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。
(6)(5)に記載の方法をコンピュータに実行させることを特徴とするプログラム。
このような構成によれば、当該プログラムをコンピュータに実行させることにより、(5)と同様の効果が期待できる。
本発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。
以下、本発明の実施形態について図を参照しながら説明する。
[システム全体構成]
図1には、本実施形態に係るキーワード抽出サーバ10と、ユーザ端末30とから構成される情報処理システム1を示す。なお、図1においては、情報処理システム1は、キーワード抽出サーバ10と、ユーザ端末30とがそれぞれ一つずつで示されているが、これに限られず、それぞれ複数台で構成されていてもい。
キーワード抽出サーバ10は、図2に示すように、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380及び半導体メモリ390を備える。なお、ハードディスク370、光ディスクドライブ380及び半導体メモリ390はまとめて記憶装置410と呼ばれる。
制御部300は、キーワード抽出サーバ10を統括的に制御する部分であり、ハードディスク370に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F330は、キーワード抽出サーバ10が、ネットワークを介してユーザ端末30等の他の装置と情報を送受信する場合のネットワーク・アダプタである。
BIOS350は、キーワード抽出サーバ10の起動時にCPU310が実行するブートプログラムや、キーワード抽出サーバ10のハードウェアに依存するプログラム等を記録する。
I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。
ハードディスク370は、本ハードウェアをキーワード抽出サーバ10として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル等を記憶する。なお、キーワード抽出サーバ10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラム又はデータを読み取り、I/Oコントローラ360を介してメインメモリ340又はハードディスク370に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、キーワード抽出サーバ10は、記憶装置410、制御部300等を備えた情報処理装置により構成される。
また、本発明に係るキーワード抽出サーバ10は、上述のような構成を有することにより、ユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有している。
ここで、当該機能を発揮するための構成について、図3に示す機能ブロック図を用いて説明する。キーワード抽出サーバ10は、分割部11と、形態素抽出部12と、名詞抽出部13と、演算部14と、判断部15と、選択部16と、検索部17と、補正係数演算部18、補正スコア演算部19と、文字情報データベース(DB)20とを備える。
分割部11は、ユーザ端末30から直接入力されたテキスト、文字情報データベース20に既に記憶されているテキスト、放送局(図示せず)において放送された番組の中で発せられた音声情報に基づいて作成された文字情報としてのテキスト、音声情報として入力された情報を音声分析して文字情報化したテキスト、画像情報から作成されたテキスト(OCR等含む)等のテキスト(英語、日本語等の言語の種類には限定されない)を句読点等の区切り記号で分割する機能を有する。
形態素抽出部12は、分割部11により分割された分割部分について形態素を抽出する。形態素の抽出には形態素解析手法を利用する。例えば、tf・idf(Term Frequency − Inverse Document Frequency、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズム)の一部のアルゴリズムを利用して文字情報から複数の形態素を抽出する機能を有する。
名詞抽出部13は、形態素抽出部12により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する機能を有する。
判断部15は、名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する機能を有する。
具体的には、名詞wに関するスコアAをスコアA(w)とすると
Figure 0004934115
で示され、式中、|w|は単語wの文字数であり、tf(w)は単語wのテキスト中での出現頻度(テキスト中に何回出現したかを示す)、sf(w)は単語wの文中での出現頻度(いくつの文に跨って出現したかを示す)、Nはテキスト中の文の総数を示す。
演算部14は式(1)に基づいてスコアAを演算する。
判断部15は、演算部14における式(1)演算の結果であるスコアAに基づいて、名詞wをキーワードとするか否かを判断する機能を有する。
判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能である。
ここで抽出するキーワードは、問題の解明や内容を理解する上で、重要な手がかりとなる語である。また、情報検索においては検索の手がかりとして使用する語句となるものである。
選択部16は、判断部15によってキーワードであると判断された名詞の中で最もスコアが大きい最大スコア名詞を選択する機能を有する。
検索部17は、最大スコア名詞と名詞抽出部13において抽出された名詞とをキーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず)において検索し、最大スコア名詞の検索件数、名詞の検索件数及び最大スコア名詞及び名詞の両方が含まれる検索件数とを検索し調査する機能を有する。
補正係数算部18は、最大スコア名詞の検索件数、名詞の検索件数及び最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する機能を有する。
具体的には、名詞wに関する補正係数BをスコアB(w)とすると
Figure 0004934115
で示され、式中、WmaxAはスコアAが最も大きい名詞を示し、|WmaxA&W|は|WmaxA|と名詞wとのAND検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|WmaxA|は名詞WmaxAの単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|W|は名詞Wの単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示す。
補正スコア演算部19は、補正係数と演算部14において演算されたスコアとに基づいて、補正スコアを演算する機能を有する。
具体的には、名詞wに関するスコアAをスコアA(w)、名詞wに関する補正係数BをスコアB(w)、名詞wに関する補正スコアを補正スコアC(w)とすると、
Figure 0004934115
で示される。
判断部15は、補正スコアに基づいて、前記名詞をキーワードとするか否かを判断する。判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能であり、以下に記述する本実施形態では、一例として10を基準に10よりも大きいスコアAを持つ名詞をキーワードと判断することも可能である。
このような構成によれば、本発明に関わるキーワード抽出サーバ10はユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数(検索によってヒットした件数)による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。
すなわち、従来技術の一例であるtf・idfと比較した場合に、tf・idfではキーワード性が高い単語であっても、他の記事によく出現すればキーワード候補の名詞としてのスコアが小さくなってしまうというtf・idfの欠点を本発明では効率よく補正することができるという有利な効果がある。
また、従来技術の一例であるtf・idfと比較した場合に、tf・idfではキーワード性が低くなってしまう名詞であっても、他の記事にあまり出現しなければスコアが大きくなってしまうというtf・idfの欠点を本発明では効率よく補正することができるという有利な効果がある。
[処理手順]
ここで、本発明を適用した場合において実現され得る具体的な処理手順について、図4に示すフローチャートを参照して説明する。なお、以下に示す処理手順は、一例であってこれ以外にも実現され得る処理手順は無数に存在する。
ステップS1において、キーワード抽出サーバ10の分割部11は、ユーザ端末30から直接入力されたテキスト、文字情報データベース20に既に記憶されているテキスト、その他外部機器(図示せず)から入力されたテキスト(英語、日本語等の言語の種類には限定されない)を句読点等の区切り記号で分割する。
ステップS2において、キーワード抽出サーバ10の形態素抽出部12は分割部11により分割された分割部分から意味をもった最小の音形である形態素を抽出する。
ステップS3において、キーワード抽出サーバ10の名詞抽出部13は、形態素抽出部12によって抽出された形態素についてその形態素が名詞であるか否かを判定し、名詞であると判定された形態素を抽出する。
ステップS4において、キーワード抽出サーバ10の演算部14は、ステップS3において抽出された名詞である形態素についてキーワードになり得るかの判断基準を示すスコアAを演算する。
スコアAは上述した式(1)に基づいて演算される。
ステップS5において、ステップS4において演算されたスコアAが予め定められた値よりも大きい場合には、キーワード抽出サーバ10の判断部15は、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断する。一例として、スコアAの値が10前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断することが可能である。
ステップS6において、キーワード抽出サーバ10の選択部16は、ステップS5において判断されたキーワードの中で最もスコアAの値が大きい最大スコア名詞を選択する。
ステップS7において、キーワード抽出サーバ10の検索部17は、ステップS6において選択された最大スコア名詞について、文字情報データベース20において検索を実行し、ヒット件数を最大スコア名詞の検索件数(|WmaxA|)とする。また、他のキーワード候補の名詞(W)について、文字情報データベース20において検索を実行し、ヒット件数をキーワード候補名詞の検索件数(|W|)とする
さらに、キーワード抽出サーバ10の検索部17は、最大スコア名詞及び他のキーワード候補名詞の両方が含まれる情報を文字情報データベース20において検索し、ヒットする検索件数(|WmaxA&W|)を求める。
ステップS8において、キーワード抽出サーバ10の補正係数算部18は、ステップS7において検索された|WmaxA|、|W|及び|WmaxA&W|に基づいてスコアAの補正係数(スコアB(w))を演算する。補正係数(スコアB(w))は上述した式(2)に基づいて演算される。
ステップS9において、キーワード抽出サーバ10の補正スコア演算部19は、ステップS8において演算された補正係数(スコアB(w))とステップS4において演算されたスコアA(w)とに基づいて、名詞wに関する補正スコアである補正スコアC(w)を演算する。
ステップS10において、キーワード抽出サーバ10の判断部15は、ステップS9において演算された名詞wに関する補正スコアC(w)が予め定められた値よりも大きい場合には、その補正スコアC(w)の値を示すワード(名詞)をキーワードと判断する。一例として、補正スコアC(w)の値が10前後よりも大きい場合に、その補正スコアC(w)の値を示すワード(名詞)をキーワードと判断することが可能である。
このような構成によれば、本発明に関わるキーワード抽出サーバ10はユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数(検索によってヒットした件数)による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。
[キーワードの特定方法]
また、キーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図5に示されるように以下の文章の場合に名詞抽出部13で抽出された名詞「デジカメ」、「カメラ」、「大写し」及び「グニャン」について本実施形態による補正スコアC(w)、スコアA(w)、スコアB(w)及び従来技術の一例であるtf・idfスコアについて演算過程を図6に示し、演算結果を図7に示し説明する。
以上の入力されたテキストからキーワード抽出サーバ10が、キーワード候補として判断した名詞が「デジカメ」、「カメラ」、「大写し」及び「グニャン」である場合について演算過程を示した図6を参照しつつ説明する。
キーワード候補として判断した名詞が「デジカメ」の場合に、スコアA(w)を求めようとする場合には、log(|デジカメ|+1)*tf(デジカメ)*log(N/(sf(デジカメ)+1))を演算する必要がある(式(1)より)。
式中、|デジカメ|は単語デジカメの文字数であるので、上記入力されたテキストから4となり、log(|デジカメ|+1)はlog(5)となる。
また、tf(デジカメ)は単語デジカメのテキスト中での出現頻度(テキスト中に何回出現したかを示す)ので、上記入力されたテキストから4となり、tf(デジカメ)は4となる。
さらに、sf(デジカメ)は単語デジカメの文中での出現頻度(いくつの文に跨って出現したかを示す)を示すので、上記入力されたテキストからsf(デジカメ)は4となる。また、Nはテキスト中の文の総数を示すので、上記入力されたテキストからNは22となる。
したがって、log(デジカメ/(sf(デジカメ)+1))は、log(22/(4+1))となる。
以上の結果、スコアA(デジカメ)の値は12.0502になる。一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、デジカメは上記入力されたテキストのキーワードとすることができる。
次に、キーワード候補として判断した名詞が「グニャン」の場合に、スコアA(w)を求めようとする場合には、デジカメの場合と同様にlog(|グニャン|+1)*tf(グニャン)*log(N/(sf(グニャン)+1))を演算する必要がある(式(1)より)。
式中、|グニャン|は単語デジカメの文字数であるので、上記入力されたテキストから4となり、log(|グニャン|+1)はlog(5)となる。
また、tf(グニャン)は単語デジカメのテキスト中での出現頻度(テキスト中に何回出現したかを示す)ので、上記入力されたテキストから2となり、tf(グニャン)は2となる。
さらに、sf(グニャン)は単語デジカメの文中での出現頻度(いくつの文に跨って出現したかを示す)を示すので、上記入力されたテキストからsf(グニャン)は1となる。また、Nはテキスト中の文の総数を示すので、上記入力されたテキストからNは22となる。
したがって、log(グニャン/(sf(グニャン)+1))は、log(22/(1+1))となる。
以上の結果、スコアA(グニャン)の値は10.0928になる。一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、グニャンは上記入力されたテキストのキーワードとすることができる。
同様に、キーワード候補として判断した名詞が「カメラ」の場合には、スコアA(カメラ)の値は6.8896になり、キーワード候補として判断した名詞が「大写し」の場合には、スコアA(大写し)の値は4.3467になる。
一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、「カメラ」及び「大写し」は上記入力されたテキストのキーワードとはなりにくい。
また、スコアAだけの場合であっても、「デジカメ」のスコアAの値が、「グニャン」のスコアAの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。
次に、名詞「デジカメ」及び名詞「グニャン」の補正係数(スコアB)を演算する。
スコアB(w)は|WmaxA&W|と(|WmaxA|*|W|)1/2との除算演算によって求められる((式2)より)。
式中、WmaxAはスコアAが最も大きい名詞「デジカメ」を示し、|WmaxA&W|は「デジカメ」と名詞「デジカメ」または名詞「グニャン」とのAND検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|WmaxA|は名詞「デジカメ」の単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|W|は名詞「デジカメ」または名詞「グニャン」の単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示す。
名詞「デジカメ」の場合には、|WmaxA&W|と(|WmaxA|*|W|)1/2とは同じ値となるので、スコアB(デジカメ)は1となる(図6及び図7参照)。
名詞「グニャン」の場合には、|WmaxA&W|すなわち|デジカメ&グニャン|が24件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|グニャン|が727件ヒットした。
その結果、名詞「グニャン」のスコアB(グニャン)は24/(113,000,000*727)1/2となり、おおよそ0.0001となる(図6および7参照)。
同様に名詞「カメラ」の場合には、|WmaxA&W|すなわち|デジカメ&カメラ|が40,8000,000件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|カメラ|が310,000,000件ヒットした。
その結果名詞「カメラ」のスコアB(カメラ)は40,800,000/(113,000,000*310,000,000)1/2となり、おおよそ0.21(0.2141となる(図6及び図7参照)。
同様に名詞「大写し」の場合には、|WmaxA&W|すなわち|デジカメ&大写し|が32,800件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|大写し|が333,000件ヒットした。
その結果名詞「大写し」のスコアB(カメラ)は32,800/(113,000,000*333,000)1/2となり、おおよそ0.006(0.0056となる(図6及び図7参照)。
次に、これらの結果から、補正スコア(スコアC)を演算する。
補正スコア(スコアC)は式(3)で示されるように、補正係数(スコアB)とスコアAとを乗算演算した値であるので、名詞「デジカメ」の補正スコア(スコアC(デジカメ))は、12.0502*1=12.0502となり、名詞「カメラ」の補正スコア(スコアC(カメラ))は、6.8896*0.2141=1.4751となり、名詞「大写し」の補正スコア(スコアC(大写し))は、4.3467*0.0056=0.0243となり、名詞「グニャン」の補正スコア(スコアC(グニャン))は、10.0928*0.0001=0.001となる(図6及び図7参照)。
これらの結果、スコアA単独の値でキーワードを判断しようとした場合には、名詞「デジタルカメラ」のスコアA(デジタルカメラ)値と名詞「グニャン」のスコアA(グニャン)値は大きな値(例えば10以上)となるので、名詞「デジタルカメラ」と名詞「グニャン」とがキーワードとして判断される可能性があった。
しかし、補正係数(スコアB)によれば、名詞「グニャン」のスコアB(グニャン)値は、0.0001と非常に小さくなり、キーワードとしては不適切であることを補正係数(スコアB)によって、数字で的確に示すことが可能となった。
この結果、補正スコア(スコアC)によって、キーワードとして適切と考えられる名詞「デジカメ」の補正スコア(スコアC)値が大きな値(例えば10以上)となる。したがって、数式と検索による高速な処理が可能となる補正スコア(スコアC)によって、分類に有効な名詞(キーワード)のみを容易に抽出することができるキーワード抽出サーバ及び方法及びプログラムを提供することができる。
また、tf(Term Frequency)・idf(Inverse Document Frequency)の値を図7に参考として示す。
tfは、あるターム(本実施形態においては、名詞「デジカメ」、「カメラ」、「大写し」、「グニャン」を示す)が文書に高い頻度で出現すればそのタームはその文書を特徴付ける単語と考えられることからtfの値は大きくなる(その文書中での出現頻度を示す。)
また、idfは、文書の頻度を示す。前述のtfが大きければそのタームが重要な意味を持つが、例えば「こと」というような名詞は文書中に比較的に高頻度で出現するが特定の文書を特徴付けることにはならない。したがって、複数の文書におけるそのタームの出現頻度df(Document Frequency)の逆数(idf)をとって、dfの値が小さいもの(文書を特徴付けるタームである可能性が高い)ほどidfが大きくなるようにし、文書を特徴付ける単語を抽出するようにする。
具体的には、下記式(4)で演算される。
Figure 0004934115
で示され、式中、tf(w)は単語wのテキスト中での出現頻度(テキスト中に何回出現したかを示す)、df(w)は単語wの文書集合中での出現頻度(いくつの文書に出現したかを示す)、Nは文書集合に含まれる文書の総数を示す。
ここで、名詞「デジカメ」の場合にはtf(デジカメ)が4となり、df(デジカメ)が97,200,000となり、Nが19,200,000,000(Web文書の総数とみなされる数)となるので、tf・idf値は21.1638になる。
また、名詞「グニャン」の場合にはtf(グニャン)が2となり、df(グニャン)が727となり、Nが19,200,000,000(Web文書の総数とみなされる数))となるので、tf・idf値は34.1785になる。
同様に、名詞「大写し」の場合にはtf・idf値は10.5224になり、名詞「カメラ」の場合にはtf・idf値は8.5419となる。
ここで、「カメラ」と「大写し」とを比較すると、tf・idfでは、「カメラ」のようにキーワード性が高い語であっても、他の記事(文書)によく出現するために、低いスコア(値)になっていることがわかる。
また、tf・idfでは、「大写し」のようにキーワード性が低い語であっても、他の記事(文書)にはあまり出現しないために、高いスコア(値)になっていることがわかる。
しかし、本実施形態では、「カメラ」と「大写し」を比較した場合には、「カメラ」の方が高いスコア(「カメラ」の補正スコア(スコアC(カメラ)は8.54、「大写し」の補正スコア(スコアC(大写し)は0.02)となっていて、キーワード候補が適切に判断されていることが確認される。
さらに、tf・idfでは、「グニャン」のようにキーワード性が低い語であっても、他の記事(文書)にあまり出現しないために、高いスコア(値)になっていることがわかる。
しかし、本実施形態では、補正係数(スコアB)の効果(スコアAの値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数(スコアB)が大きくなり、スコアAの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数(スコアB)が小さくなる。)によって、「グニャン」のようにキーワード性が低い語は、補正スコア(スコアC)が小さな値となって、キーワードとして判断されないように適切に演算処理される。
また、スコアAだけの場合であっても、「デジカメ」のスコアAの値が、「グニャン」のスコアAの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。
[他のキーワードの特定方法]
さらに、他のキーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図8に示される文章の場合に名詞抽出部13で抽出された名詞「地震」、「災害」、「震度」及び「余震」について本実施形態によるスコアA(w)、補正係数であるスコアB(w)、補正スコアであるスコアC(w)について演算し、その演算結果について説明する。
キーワード候補として判断した名詞が「災害」の場合には、スコアA(w)は3.54、補正係数(スコアB)は0.29、補正スコア(スコアC)は1.03となる。
また、キーワード候補として判断した名詞が「地震」の場合には、スコアA(w)は7.24、補正係数(スコアB)は1.0、補正スコア(スコアC)は7.24となる。
また、キーワード候補として判断した名詞が「震度」の場合には、スコアA(w)は3.54、補正係数(スコアB)は0.27、補正スコア(スコアC)は0.94となる。
また、キーワード候補として判断した名詞が「余震」の場合には、スコアA(w)は4.28、補正係数(スコアB)は0.15、補正スコア(スコアC)は0.66となる。
以上のキーワード候補とした名詞「地震」、「災害」、「震度」及び「余震」についてスコアA(w)を演算すると、「地震」が最も大きな値となる。
「地震」という名詞は、地震が発生した場合など、特別な場合に使用されることが多いため専門性の高い語だと言える。したがって、「地震」はキーワード候補としてふさわしい名詞と考えられる。
補正係数であるスコアB(w)は、スコアA(w)が最も大きな値を有する名詞に基づいて演算されるので、「地震」という名詞と共起する「災害」、「震度」、「余震」に対して、スコアB(w)のスコア値が高くなる。
さらに、補正スコアであるスコアC(w)は補正係数であるスコアB(w)の演算結果を利用するので(式(3)参照)、「災害」、「震度」、「余震」の補正スコア値は大きな値となり、専門性の高い語からキーワードを適切に抽出することが可能であることが示される。
以上、この例を分析すると、スコアAの計算により、スコアAが最も大きい単語が「地震」となる。「地震」という語は、地震が起こったときなど、特別な場合に使われることが多いため、専門性が高い語だといえる。そのため、スコアBの計算により、地震とよく共起する「災害」、「震度」、「余震」に高いスコアが付く。スコアCの計算では、スコアBの計算結果を利用するため、「災害」、「震度」、「余震」に高いスコアが付くことがわかる。
[変形例]
新聞記事、雑誌記事、あるいはニュース情報等の情報源からキーワードを抽出したい場合がある。この場合にも、新聞記事、雑誌記事、あるいはニュース情報等の情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によってキーワードを抽出することができる。キーワードはスコアA、またはスコアCの値が高い値から選択することができる。
また、静止画または動画等の画像情報に関連したキーワードを抽出したい場合がある。
この場合には対象となる画像情報のURLをキーワード抽出サーバ10が検索し、検索結果の上位の記事情報(タイトル及びスニペットを含む。)をテキストとしてキーワード抽出サーバ10が取得する。
対象となる画像情報のURLを紹介している記事の周辺には、関連するワードも出現していることが考えられるためである。
キーワード抽出サーバ10が検索し、取得した検索結果の上位の記事情報(タイトル及びスニペットを含む。)から、キーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によって画像情報のキーワードを抽出することができる。キーワードはスコアA、またはスコアCの値が高い値から選択することができる。
また、記事情報に検索インデックスを付与したい場合がある。この場合にも、記事情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によってキーワードを抽出することができる。
この場合、検索インデックスとするキーワードは複数選択することができ、スコアA、またはスコアCの値が高いワードから順番に検索インデックスとすることができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
なお、本実施形態においては、サーバ10は、ハードディスク370及び光ディスクドライブ380を有する構成として説明したが、これに限られず、これらの駆動系を有さない構成、いわゆるゼロスピンドルによる構成であってもい。このような構成の場合には、ハードディスク370に記憶される内容は、大容量の半導体メモリ390に記憶される。
本実施形態に係るサーバと、ユーザ端末とから構成される情報処理システムを示す図である。 本発明に係るサーバの構成を示すブロック図である。 本実施形態に係るサーバの機能的な構成を示す機能ブロック図である。 本実施形態に係るサーバによる処理手順についての説明に供するフローチャートである。 本実施形態に係る入力テキストの一例を示す図である。 本実施形態に係るスコアの演算例を示す図である。 本実施形態に係るスコアの演算結果例を示す図である。 本実施形態に係る他の入力テキストの一例を示す図である。
符号の説明
1 情報処理システム
10 キーワード抽出サーバ
11 分割部
12 形態素抽出部
13 名詞抽出部
14 演算部
15 判断部
16 選択部
17 検索部
18 補正係数演算部
19 補正スコア演算部
20 文字情報データベース(DB)
30 ユーザ端末

Claims (5)

  1. インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
    インターネットにおいて送受信された文字情報を記憶した前記文字情報データベースと異なる外部データベースと、
    前記文字情報データベースから読み出されたテキストを句読点で分割する分割手段と、
    前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
    前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
    前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしての基準スコアを演算する演算手段と、
    前記演算の結果である前記基準スコアに基づいて、前記名詞をキーワード候補とするか否かを判断する判断手段と、
    前記判断手段によって前記キーワード候補であると判断された前記名詞の中で最も前記基準スコアが大きい最大スコア名詞を選択する選択手段と、
    前記最大スコア名詞と前記名詞とを前記外部データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数を検索し調査する検索手段と、
    前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
    前記補正係数と前記演算手段によって演算された前記基準スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
    前記判断手段は、前記補正スコアと判断基準値とを比較して、前記キーワード候補と判断された前記名詞をキーワードとするか否かを判断することを特徴とするキーワード抽出装置。
  2. 前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記基準スコアとすることを特徴とする請求項1に記載のキーワード抽出装置。
  3. 前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
    前記判断手段は、前記補正スコアと前記基準スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする請求項1に記載のキーワード抽出装置。
  4. インターネットにおいて送受信された文字情報を記憶した文字情報データベースから読み出されたテキストを句読点で分割する分割工程と、
    前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
    前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
    前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしての基準スコアを演算する演算工程と、
    前記演算の結果である前記基準スコアに基づいて、前記名詞をキーワード候補とするか否かを判断する判断工程と、
    前記判断工程において前記キーワード候補であると判断された前記名詞の中で最も前記基準スコアが大きい最大スコア名詞を選択する選択工程と、
    前記最大スコア名詞と前記名詞とを、インターネットにおいて送受信された文字情報を記憶した前記文字情報データベースと異なる外部データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数を検索し調査する検索工程と、
    前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算工程と、
    前記補正係数と前記演算工程において演算された前記基準スコアとに基づいて、補正スコアを演算する補正スコア演算工程とを備え、
    前記判断工程では、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とするキーワード抽出方法。
  5. 請求項4に記載の方法をコンピュータに実行させることを特徴とするプログラム。
JP2008205896A 2008-08-08 2008-08-08 キーワード抽出装置、方法及びプログラム Expired - Fee Related JP4934115B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008205896A JP4934115B2 (ja) 2008-08-08 2008-08-08 キーワード抽出装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008205896A JP4934115B2 (ja) 2008-08-08 2008-08-08 キーワード抽出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010040020A JP2010040020A (ja) 2010-02-18
JP4934115B2 true JP4934115B2 (ja) 2012-05-16

Family

ID=42012454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008205896A Expired - Fee Related JP4934115B2 (ja) 2008-08-08 2008-08-08 キーワード抽出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4934115B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101122436B1 (ko) * 2010-09-30 2012-03-09 엔에이치엔(주) 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치
CN104573055B (zh) * 2015-01-21 2017-11-03 南京烽火星空通信发展有限公司 一种网络账号快速检索的分词方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235105A (en) * 1991-07-12 1993-08-10 Hoechst Aktiengesellschaft Process for the production of pure 3,3',4,4'-tetraamino-biphenyl
JP2003162540A (ja) * 2001-11-28 2003-06-06 Seiko Epson Corp データ検索装置およびデータ検索方法
JP2003281159A (ja) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム
JP4534666B2 (ja) * 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム

Also Published As

Publication number Publication date
JP2010040020A (ja) 2010-02-18

Similar Documents

Publication Publication Date Title
TWI536181B (zh) 在多語文本中的語言識別
US8280721B2 (en) Efficiently representing word sense probabilities
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
US9754022B2 (en) System and method for language sensitive contextual searching
US8812504B2 (en) Keyword presentation apparatus and method
US8204736B2 (en) Access to multilingual textual resources
JP2011118689A (ja) 検索方法及びシステム
KR20150007647A (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Silveira et al. Combining a double clustering approach with sentence simplification to produce highly informative multi-document summaries
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
CN113743090B (zh) 一种关键词提取方法及装置
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP6106489B2 (ja) 語義解析装置、及びプログラム
Nwesri Effective retrieval techniques for Arabic text
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JPH10254900A (ja) 自動文書要約装置及び方法
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120217

R150 Certificate of patent or registration of utility model

Ref document number: 4934115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A072 Dismissal of procedure

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20120710

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350