JP2015060581A - キーワード抽出装置、方法およびプログラム - Google Patents
キーワード抽出装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2015060581A JP2015060581A JP2013196232A JP2013196232A JP2015060581A JP 2015060581 A JP2015060581 A JP 2015060581A JP 2013196232 A JP2013196232 A JP 2013196232A JP 2013196232 A JP2013196232 A JP 2013196232A JP 2015060581 A JP2015060581 A JP 2015060581A
- Authority
- JP
- Japan
- Prior art keywords
- document
- annotation
- keyword
- user
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】ユーザの意向を反映したキーワードを提示できる。【解決手段】本実施形態に係る文書作成支援装置は、分離部、第1抽出部、第2抽出部、生成部、計算部、第1更新部および第2更新部を含む。分離部は、ユーザの意図を表現する第1アノテーションが文字列に付与された複数の文書のそれぞれについて、第1アノテーションと該文書とを分離する。第1抽出部は、文書から一般用語を抽出する。第2抽出部は、文書からユーザ用語として抽出する。生成部は、文書どうしをクラスタリングして、1以上の文書クラスタを生成する。計算部は、文書クラスタに含まれるキーワードに対するユーザからの第2アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する。第1更新部は、前記特徴量から前記第2アノテーションが付与されたキーワードの前記スコアを更新する。第2更新部は、更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る。【選択図】図1
Description
本発明の実施形態は、キーワード抽出装置、方法およびプログラムに関する。
近年、電子化文書の利用機会が増えている。電子化文書の利用形態や対象コンテンツも、従来の机上PCによる企業内文書内の閲覧などに留まらず、可搬性のあるタブレットやスマートフォンなどで、一般公開されているブログやレビューサイト、掲示板など、様々な情報に簡単にアクセスできる。
一方で、膨大な文書の中から、自分が探している文書やコンテンツにアクセスするための工夫が必要となる。例えば、カレンダー表示と連動して時系列で文書へのリンクを提示したり、タグクラウドと呼ばれるキーワードをいくつか提示することで読み手の興味を惹いたり、さらには、ユーザコメントや関連記事を併記することで、別文書や参考リンク先への導入を図る手段などがある。
特に、キーワードを提示する場合において、検索の手がかり語や要約的な表示のために、ユーザが閲覧したウェブ文書や、ユーザが作成および管理しているオフィス文書などからキーワードを提示する手段がいくつか知られており、例えば文書中の一般用語および専門用語のそれぞれについてキーワードと抽出する手法がある。
しかし、下線や囲みといったユーザからの指示を示すアノテーションが明示的になされた場合は、これらのアノテーションを反映することができない。また、このようなユーザがアクセスした文書集合を対象とする場合には、大規模なウェブ文書集合を扱う場合と異なり、絞り込みのキーワードや、閲覧時には気づかなかったキーワードを発見的に提示することが、単純な頻度情報の活用では困難である。
文書数が少ないため、ユーザの嗜好や興味と異なるキーワードが提示された場合に、その差分が目立つほか、提示されるキーワードが追加または削除される文書集合の内容に強く依存して更新されるために、検索起点としてのキーワードが不定となり、アクセスしたい文書へのパスが失われてしまう場合がある。
しかし、下線や囲みといったユーザからの指示を示すアノテーションが明示的になされた場合は、これらのアノテーションを反映することができない。また、このようなユーザがアクセスした文書集合を対象とする場合には、大規模なウェブ文書集合を扱う場合と異なり、絞り込みのキーワードや、閲覧時には気づかなかったキーワードを発見的に提示することが、単純な頻度情報の活用では困難である。
文書数が少ないため、ユーザの嗜好や興味と異なるキーワードが提示された場合に、その差分が目立つほか、提示されるキーワードが追加または削除される文書集合の内容に強く依存して更新されるために、検索起点としてのキーワードが不定となり、アクセスしたい文書へのパスが失われてしまう場合がある。
本開示は、上述の課題を解決するためになされたものであり、ユーザの意向を反映したキーワードを提示できるキーワード抽出装置、方法およびプログラムを提供することを目的とする。
本実施形態に係るコンテンツ作成支援装置は、分離部、第1抽出部、第2抽出部、生成部、計算部、第1更新部および第2更新部を含む。分離部は、ユーザの意図を表現する第1アノテーションが文字列に付与された複数の文書のそれぞれについて、該第1アノテーションと該文書とを分離する。第1抽出部は、前記文書から、予め定義された品詞情報に基づいて一般用語を抽出する。第2抽出部は、前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出する。生成部は、前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、1以上の文書クラスタを生成する。計算部は、前記文書クラスタに含まれるキーワードに対するユーザからの第2アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する。第1更新部は、前記特徴量から前記第2アノテーションが付与されたキーワードの前記スコアを更新する。第2更新部は、更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る。
以下、図面を参照しながら本実施形態に係るキーワード抽出装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態に係るキーワード抽出装置について図1のブロック図を参照して説明する。
本実施形態に係るキーワード抽出装置100は、分離部101、形態素解析部102、一般用語抽出部103、アノテーション特徴抽出部104、ユーザ語彙抽出部105、クラスタ生成部106、ユーザ指示取得部107、キーワードスコア更新部108、クラスタ更新部109およびキーワード出力部110を含む。
本実施形態に係るキーワード抽出装置100は、分離部101、形態素解析部102、一般用語抽出部103、アノテーション特徴抽出部104、ユーザ語彙抽出部105、クラスタ生成部106、ユーザ指示取得部107、キーワードスコア更新部108、クラスタ更新部109およびキーワード出力部110を含む。
分離部101は、入力文書を受け取り、文書と入力文書に付与されたユーザからのアノテーション(第1アノテーションともいう)とを分離する。入力文書は、web上から収集したweb文書にユーザがアノテーションを付した文書でもよいし、文書作成ソフトなどで作成した文書にユーザがアノテーションを付した文書でもよい。
アノテーションとは、ユーザが主に手書きした下線や囲み、削除線、コメントなどユーザの意図を表現するストロークである。下線や囲みの場合は重要度を高くする強調指示であり、削除線の場合は重要度を低くする削除指示であると想定できる。なお、手書きに限らずアプリケーションにより囲みや下線などを付与する場合も同様に処理することができる。
また、アノテーションの指定方法は、ペンやポインティングデバイスによる操作に限らず、タブレット型機器などでのタッチパネル上での操作として、該当単語に対するダブルタップや長押しによる強調、スワイプによる削除、といった手段によっても同様に処理することができる。
形態素解析部102は、分離部101から入力文書を受け取り、入力文書中の文字列に対して形態素解析を行う。
一般用語抽出部103は、形態素解析部102から形態素解析された入力文書を受け取り、入力文書から一般用語を抽出する。一般用語の抽出処理は、例えば、予め品詞情報などが定義された辞書を参照して、名詞のうち特定の属性が付与されている形態素、およびカナ未知語などを一般用語として抽出すればよい。
アノテーション特徴抽出部104は、分離部101からアノテーションを受け取り、文書中のどこにどのようなアノテーションが付与されているかを、アノテーションの種類に応じてそれぞれ特徴量を抽出する。また、後述のユーザ指示取得部107から、後述のキーワードリストに対して付与されたユーザからのアノテーション(第2アノテーションともいう)を受け取る場合は、このアノテーションに対しても同様に特徴量を抽出する。
ユーザ語彙抽出部105は、形態素解析部102から形態素解析された入力文書を受け取り、形態素パターンの出現頻度を算出し、出現頻度に基づいて抽出した複合語をユーザ用語として取得する。ユーザ用語は、例えばユーザが所属する組織で共通して用いられる造語や略語を含む。また、入力文書において文字列にアノテーションが付されていた場合は、アノテーションが付された文字列や、追記されたコメントの文字列もユーザ用語として抽出する。
クラスタ生成部106は、一般用語抽出部103から一般用語を、ユーザ語彙抽出部105からユーザ用語をそれぞれ取得し、一般用語とユーザ用語とをキーワードとして、文書クラスタリングを行い、1以上の文書クラスタを生成する。文書クラスタリングの詳細については後述する。
ユーザ指示取得部107は、ユーザインタフェースを介してユーザからのアノテーションを取得する。
キーワードスコア更新部108は、クラスタ生成部106から文書クラスタを、アノテーション特徴抽出部104からアノテーションの特徴量をそれぞれ受け取る。キーワードスコア更新部108は、アノテーションの特徴量に基づいて、文書クラスタの文書に含まれるキーワードのスコアを更新する。
クラスタ更新部109は、キーワードスコア更新部108から文書クラスタと更新されたキーワードのスコアを受け取り、更新されたスコアに応じて文書クラスタを更新し、更新クラスタを得る。
キーワード出力部110は、クラスタ生成部106で生成された文書クラスタに基づいてキーワードリストを出力する。また、ユーザによりキーワードリストにアノテーションが付与された場合、キーワード出力部110は、クラスタ更新部109から更新された文書クラスタを受け取り、文書クラスタに対応するキーワードを出力する。キーワードの出力例については図4を参照して後述する。
キーワード出力部110は、クラスタ生成部106で生成された文書クラスタに基づいてキーワードリストを出力する。また、ユーザによりキーワードリストにアノテーションが付与された場合、キーワード出力部110は、クラスタ更新部109から更新された文書クラスタを受け取り、文書クラスタに対応するキーワードを出力する。キーワードの出力例については図4を参照して後述する。
次に、キーワード抽出装置100の動作について図2のフローチャートを参照して説明する。
ステップS201では、分離部101が、複数の入力文書のそれぞれについて、文書とアノテーションとを分離する。
ステップS202では、形態素解析部102が、文書に対して形態素解析を行う。形態素解析を行なった結果、形態素単位の文字列に品詞情報が付与される。
ステップS203では、一般用語抽出部103が、一般用語辞書として予め登録される一般用語のリストを参照し、品詞情報が付された文字列から一般用語を抽出する。
ステップS201では、分離部101が、複数の入力文書のそれぞれについて、文書とアノテーションとを分離する。
ステップS202では、形態素解析部102が、文書に対して形態素解析を行う。形態素解析を行なった結果、形態素単位の文字列に品詞情報が付与される。
ステップS203では、一般用語抽出部103が、一般用語辞書として予め登録される一般用語のリストを参照し、品詞情報が付された文字列から一般用語を抽出する。
ステップS204では、ユーザ語彙抽出部105が、形態素解析された結果に基づいて、名詞および未知語が隣接する組み合わせの文字列を複合語とみなして、複合語のそれぞれ出現頻度をカウントし、各複合語をユーザ用語として判定するための判定値を算出する。
具体的には、複合語の判定値として式(1)を用いてMC−Valueを計算する。
MC−Value(CN)=length(CN)×(n(CN)−t(CN)/c(CN))・・・(1)
CN:複合名詞
length(CN):CNの長さ(構成単名詞数)
n(CN):コーパスにおけるCNの出現回数
t(CN):CNを含む、現在対象のCNより長い複合名詞の出現回数
c(CN):CNを含む、現在対象のCNより長い複合名詞の異なり出現回数
なお、MC−valueの代わりに、C−valueの値を判定値として用いてもよい。
具体的には、複合語の判定値として式(1)を用いてMC−Valueを計算する。
MC−Value(CN)=length(CN)×(n(CN)−t(CN)/c(CN))・・・(1)
CN:複合名詞
length(CN):CNの長さ(構成単名詞数)
n(CN):コーパスにおけるCNの出現回数
t(CN):CNを含む、現在対象のCNより長い複合名詞の出現回数
c(CN):CNを含む、現在対象のCNより長い複合名詞の異なり出現回数
なお、MC−valueの代わりに、C−valueの値を判定値として用いてもよい。
ステップS205では、ユーザ語彙抽出部105が、式(1)により算出された判定値の高い順に、複合語をユーザ用語として得る。
ステップS206では、アノテーション特徴抽出部104が、入力文書にアノテーションが付与されているかどうかを判定する。入力文書にアノテーションが付与されている場合、ステップS207に進み、入力文書にアノテーションが付与されていない場合、ステップS208に進む。
ステップS207では、アノテーション特徴抽出部104が、アノテーションが付された文字列を、ユーザ用語に追加する。例えば、文書中に手書きインターフェースにより描かれた丸または四角などの囲みがある場合、囲みの内部にある文字列をユーザ用語とすればよく、マーカーや下線が引かれている場合は、マーカーまたは下線が重畳された文章または単語等の文字列をユーザ用語とすればよい。また、文書にオーバーラップして描かれたコメントがあれば、コメントを文字認識してユーザ用語としてもよい。
ステップS208では、クラスタ生成部106が、一般用語とユーザ用語とに基づいて、文書をクラスタリングし、文書クラスタを生成する。文書をクラスタリングする手法としては、例えば、一般用語とユーザ用語とをキーワードとして、キーワードのスコアを算出する。その後、キーワードのスコアに基づいて、文書間の相関度が閾値以上となる文書どうしをクラスタリングして、文書を分類すればよい。なお、文書をクラスタリングについては、一般的なクラスタリングの手法を用いればよい。
ステップS209では、キーワード出力部110が、文書クラスタに含まれるキーワードのうち、代表的なキーワードとしてキーワードリストを提示する。
ステップS210では、ユーザ指示取得部107が、キーワードに対して、ユーザからの指示があるかどうかを判定する。ユーザからの指示、すなわちアノテーションがある場合、ステップS211に進み、ユーザからアノテーションがない場合、ステップS212に進む。
ステップS211では、キーワードスコア更新部108が、アノテーションに基づいて、キーワードのスコアを更新する。
ステップS213では、クラスタ更新部109が、更新されたキーワードのスコアに応じて文書クラスタを更新する。
ステップS214では、キーワード出力部110が、更新されたキーワードを含むキーワードリストを出力する。以上でキーワード抽出装置100の動作を終了する。
次に、文書に付与されるアノテーションの一例について図3を参照して説明する。
図3は、アノテーションの一例であり、ウェブ文書上の記事に対して、下線を引いた結果である。図3では、「ストリーマ」に下線を引いた例である。また、Web文書に対して、「Inazuma」という複合語に丸を囲んだり、「HDD+SDDデュアルドライブ」に下線を引いたり、「オーガニック」や「ロハス雑貨」に下線を引いた例である。このようにアノテーションが付与された文字列も、ユーザ用語とする。
次に、文書に付与されるアノテーションの一例について図3を参照して説明する。
図3は、アノテーションの一例であり、ウェブ文書上の記事に対して、下線を引いた結果である。図3では、「ストリーマ」に下線を引いた例である。また、Web文書に対して、「Inazuma」という複合語に丸を囲んだり、「HDD+SDDデュアルドライブ」に下線を引いたり、「オーガニック」や「ロハス雑貨」に下線を引いた例である。このようにアノテーションが付与された文字列も、ユーザ用語とする。
次に、文書とキーワードとの対応関係の一例について図4を参照して説明する。
図4の例では、文書Aから文書Gまでの文書についてクラスタリングする場合であり、テーブル400は、キーワード401と文書402との対応関係を示す。キーワード401は、一般用語とユーザ用語とに含まれる文字列である。文書402は、アノテーションを含む文書である。
図4の例では、文書Aから文書Gまでの文書についてクラスタリングする場合であり、テーブル400は、キーワード401と文書402との対応関係を示す。キーワード401は、一般用語とユーザ用語とに含まれる文字列である。文書402は、アノテーションを含む文書である。
具体的には、文書402「文書A」には、キーワード401として「ダウンロード」、「インストール」および「バックアップ」が対応付けられる。また、それぞれのキーワードの文書A中のスコアが「3」、「2」および「1」である。
スコアは、例えば以下の式(2)に基づいて計算すればよい。
スコア=出現統計量+アノテーションバイアス値・・・(2)
なお、出現統計量は、単に文書中の出現回数でもよいし、TF/IDF値などを用いてもよい。アノテーションバイアス値は、アノテーションの種類に応じて設定される特徴量である。ここでは、文書中の出現回数とする。すなわち、文書Aには、ダウンロードが3回、インストールが2回、バックアップが1回出現したことがわかる。
スコア=出現統計量+アノテーションバイアス値・・・(2)
なお、出現統計量は、単に文書中の出現回数でもよいし、TF/IDF値などを用いてもよい。アノテーションバイアス値は、アノテーションの種類に応じて設定される特徴量である。ここでは、文書中の出現回数とする。すなわち、文書Aには、ダウンロードが3回、インストールが2回、バックアップが1回出現したことがわかる。
これらの値を基づいて文書間の類似度を算出する。類似度の算出は、例えばコサイン類似度を用いて算出すればよく、具体的には、文書Aと文書Bとの類似度を算出する場合は、文書Aおよび文書Bに含まれるキーワードをベクトル表記することで、コサイン類似度を算出する。
文書Aのベクトルは、Vec(A)={3,2,0,0,0,0,0,0,0,0,1,0,0,0,0}と表すことができ、文書Bのベクトルは、Vec(A)={0,0,3,2,2,0,0,0,0,0,1,0,0,0,0}と表すことができる。よって、コサイン類似度は、cos(vec(A),vec(B))=vec(A)・vec(B)/|A||B|を用いて計算すればよい。ここで、「・」は内積を示し、「| |」は、絶対値を示す。
この場合は、コサイン類似度として、1/(sqrt(9+4+1)*sqrt(9+4+4+1))=1/sqrt(14)*sqrt(18)≒0.063を得ることができる。
上述のようにコサイン類似度を各文書間で算出し、k−means法などによりクラスタとしてまとめることで文書のクラスタを生成することができる。
なお、複数の文書クラスタから、スコアの値が大きい順に取り出したキーワードを、そのクラスタの代表語として設定する。
次に、文書クラスタの一例について図5を参照して説明する。
図5は、キーワードやスコアに応じて、文書間の距離を定義し、文書間の類似度に基づいてクラスタリングした結果を示すテーブル500であり、ID501と代表語502とを含む。
図5は、キーワードやスコアに応じて、文書間の距離を定義し、文書間の類似度に基づいてクラスタリングした結果を示すテーブル500であり、ID501と代表語502とを含む。
ID501は、文書クラスタの識別子である。代表語502は、各文書クラスタに含まれるキーワードの代表語を示す。
具体的には、{ダウンロード、インストール}、{シングルチャネル動作、デュアルチャネル動作、メモリ}、{バッテリー充電、ステレオスピーカー、抗菌コーティング、タイルキーボード}、{アメリカ合衆国}、{バックアップ、磁気テープ、ストリーマ}、{ナチュラル、キャビネット}がそれぞれ、文書クラスタを代表する代表語となる。
次に、キーワード出力部110から出力されるキーワードリストの一例について図6を参照して説明する。
図6は、キーワードの代表語をタグクラウド600として表示した表示例である。このタグクラウド600の表示では、スコアの大きい順に文字の大きさを変えて表示する。
図6は、キーワードの代表語をタグクラウド600として表示した表示例である。このタグクラウド600の表示では、スコアの大きい順に文字の大きさを変えて表示する。
なお、ユーザ語彙抽出部105におけるユーザ用語の抽出結果によって得られたユーザ用語については、スコアを式(1)に基づき算定すればよいが、一般用語抽出部103から出力された単語に関しては、スコアが明示的に得られていない。そこで、一般用語の抽出手法に応じたスコアを事前定義しておく。ここでは、例えば「名詞」としてさらに詳細なプロパティ情報(人名、組織名等)が付与されている場合に、一般的な「名詞」よりも高いスコアを付与するなどの前処理を適用したものとする。
または、ユーザ語彙抽出部105で得られたスコア情報を考慮して、固定数の一般用語が含まれるように調整した値を、一般用語の抽出結果から得られるキーワードに対して付与するといった前処理を適用すればよい。
次に、ユーザ指示取得部が取得するアノテーションの一例について図7を参照して説明する。
図7は、文書クラスタの代表語のタグクラウド700を表示した一例であり、文書クラスタごとに代表語が区別されて表示される。ここでは、横1列に表示される代表語が、1つの文書クラスタから得られる代表語である。
図7は、文書クラスタの代表語のタグクラウド700を表示した一例であり、文書クラスタごとに代表語が区別されて表示される。ここでは、横1列に表示される代表語が、1つの文書クラスタから得られる代表語である。
また、タグクラウド表示されている代表語に対して、ユーザが囲みや「×(バツ)」記号のアノテーションを付与される。
図7の例では、代表語「HDD+SDDデュアルドライブ」に対してバツ記号が付けられている。この場合は、ユーザがこのキーワードが不要であると考えている場合が想定されるので、バツ記号が付けられた「HDD+SDDデュアルドライブ」は、該当するクラスタの代表語から削除したり、またはスコアを低下させる、例えば、最低値にしたり、0や負値にするなどのバイアスをかけたり、表示には出さないなどのフラグを立てるといったデータを内部的に持たせればよい。
また、代表語「放電 主雷撃」に対して囲みがある。この場合は、ユーザがこのキーワードが重要であると考えている場合が想定されるので、囲まれたキーワードのスコアを上昇させたり、アンカー的な用途として、特定のフラグを立てたり、スコアを該当クラスタ内で表示用の閾値を下回らないような値に設定するなどの処理を行えばよい。また、タグクラウド上で囲まれたキーワードを、いわゆるピン留めすることで、常時表示させるようにしてもよい。
さらに、代表語「ダウンロード」「メモリ」「アメリカ合衆国」に対して囲みがある。このように文書クラスタが異なる複数の代表語が囲まれている場合は、代表語どうしを関連付ける関連付け指示であると考えられるので、同じ文書クラスタとして選択されるように、単語の共起度を上昇させるといった処理をしてもよい。
以下、図7に示す代表語「ストリーマ」が、他の文書クラスタの代表語「落雷」と関連付けられた場合を例に、文書クラスタの更新処理の具体例を説明する。
キーワードスコア更新部108のキーワード更新処理の一例について図8を参照して説明する。
図8は、更新された文書ごとのキーワードの関係を示すテーブル800である。図3の文書に加え、新たに文書Gおよび文書Hを追加し、2種類の異なるアノテーションがキーワードに付された場合を想定する。
図8は、更新された文書ごとのキーワードの関係を示すテーブル800である。図3の文書に加え、新たに文書Gおよび文書Hを追加し、2種類の異なるアノテーションがキーワードに付された場合を想定する。
ここで、アノテーションが付与されたキーワードのスコアは、式(2)のように、アノテーションバイアス値が加わって算出される。図7の例では、アノテーションバイアス値(特徴量)として、「Ann(p)」が乗算される。ここでpは、正の整数である。アノテーションバイアス値は、アノテーションの違いに応じて異なる値が割り当てられる。
例えば、“文字列を丸で囲む”というアノテーション操作に対して“10”が、また、“アンダーラインを引く”(=Ann(2))の操作に対して“5”が割り当てられるとする。
この結果、文書C中に出現する単語「Inazuma」のスコアが1×10=10であるので「10」となり、また、文書G中に出現する単語「ストリーマ」のスコアは「5」に、更に、文書Hに出現する「オーガニック」および「ロハス」のスコアは、それぞれ「5」に更新される。
これらの値は事前に固定してもよいし、蓄積された文書集合から得られる単語の統計情報によって、動的に更新されてもよい。
次に、更新された文書クラスタの代表語の一例について図9を参照して説明する。
図9に示すテーブル900では、更新された特徴量に基づいて、代表語が更新される。例えば、新たに「Inazuma」や「HDD+SDDデュアルドライブ」が追加されている他、ID5にも新たに、「オーガニック」、「ロハス」といった単語が新規追加された状況を示している。
図9に示すテーブル900では、更新された特徴量に基づいて、代表語が更新される。例えば、新たに「Inazuma」や「HDD+SDDデュアルドライブ」が追加されている他、ID5にも新たに、「オーガニック」、「ロハス」といった単語が新規追加された状況を示している。
ID4に存在していた「ストリーマ」というキーワードが、今回のアノテーションにより、文書クラスタ内のキーワードのスコアが更新され、「ストリーマ」が新たにID6の文書クラスタに紐付けられる。
次に、キーワード出力部110から出力される更新されたキーワードリストの一例について図10を参照して説明する。
図10は、更新された文書クラスタに基づいて代表語をタグクラウド1000で表示する一例である。
図10は、更新された文書クラスタに基づいて代表語をタグクラウド1000で表示する一例である。
図10に示すタグクラウド1000は、クラスタの特徴を、視覚的に横のつながりとしてもたせている。また、アノテーションの違いにより、その他のキーワードとフォントカラーを変更するなどの効果を付与している。
また、これらの代表語は、更に、常に表示される(表示上のピン留め)などの機能と連動するなどの区別もあるものとする。また、新規にされたクラスタに関しては、より詳しいコンテキスト情報を示すため、表示されるキーワードの閾値を下げて多めに表示するなどの効果が施されている。
以上に示した本実施形態によれば、ユーザがアノテーションを付与した文書に基づいて、文書をクラスタリングし、文書群の代表語を表示することで、ユーザが収集および閲覧した文書の傾向に応じたキーワードを提示することができ、新規文書の登録傾向に応じた新しいキーワードだけではなく、ユーザが重要としたキーワードを明示的に保持することができる。また、キーワードに対するユーザのアノテーションを参照し、キーワードの特徴量を更新して更新したキーワードを表示することで、ユーザの意向を反映したキーワードリストを出力することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したキーワード抽出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態のキーワード抽出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・キーワード抽出装置、101・・・分離部、102・・・形態素解析部、103・・・一般用語抽出部、104・・・アノテーション特徴抽出部、105・・・ユーザ語彙抽出部、106・・・クラスタ生成部、107・・・ユーザ指示取得部、108・・・キーワードスコア更新部、109・・・クラスタ更新部、110・・・キーワード出力部、400,500,800,900・・・テーブル、401・・・キーワード、402・・・文書、501・・・ID、502・・・代表語、600,700,1000・・・タグクラウド。
Claims (6)
- ユーザの意図を表現する第1アノテーションが文字列に付与された複数の文書のそれぞれについて、該第1アノテーションと該文書とを分離する分離部と、
前記文書から、予め定義された品詞情報に基づいて一般用語を抽出する第1抽出部と、
前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出する第2抽出部と、
前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、1以上の文書クラスタを生成する生成部と、
前記文書クラスタに含まれるキーワードに対するユーザからの第2アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する計算部と、
前記特徴量から前記第2アノテーションが付与されたキーワードの前記スコアを更新する第1更新部と、
更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る第2更新部と、を具備することを特徴とするキーワード抽出装置。 - 前記更新クラスタの文書クラスタごとに代表的なキーワードである代表語を抽出し、該代表語を前記文書クラスタごとに分類して提示する出力部を、さらに具備し、
前記第2アノテーションは、前記キーワードに対して、重要度を低くする削除指示、該重要度を高くする強調指示、前記代表語どうしを関連付ける関連付け指示を含む指示を含み、
前記第1更新部は、前記指示に応じた前記特徴量を用いて前記スコアを更新することを特徴とする請求項1に記載のキーワード抽出装置。 - 前記計算部は、前記第1アノテーションの種類に応じて前記特徴量を計算し、
前記生成部は、前記スコアを算出する場合に、前記第1アノテーションの種類に応じた前記特徴量を用いて前記スコアを算出することを特徴とする請求項1または請求項2に記載のキーワード抽出装置。 - 前記出力部は、前記第2アノテーションが前記強調指示である場合、該第2アノテーションが付与された代表語を強調表示するか、または常に表示する表示方式とすることを特徴とする請求項2に記載のキーワード抽出装置。
- ユーザの意図を表現する第1アノテーションが文字列に付与された複数の文書のそれぞれについて、該第1アノテーションと該文書とを分離し、
前記文書から、予め定義された品詞情報に基づいて一般用語を抽出し、
前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出し、
前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、1以上の文書クラスタを生成し、
前記文書クラスタに含まれるキーワードに対するユーザからの第2アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算し、
前記特徴量から前記第2アノテーションが付与されたキーワードの前記スコアを更新し、
更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得ることを特徴とするキーワード抽出方法。 - コンピュータを、
ユーザの意図を表現する第1アノテーションが文字列に付与された複数の文書のそれぞれについて、該第1アノテーションと該文書とを分離する分離手段と、
前記文書から、予め定義された品詞情報に基づいて一般用語を抽出する第1抽出手段と、
前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出する第2抽出手段と、
前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、1以上の文書クラスタを生成する生成手段と、
前記文書クラスタに含まれるキーワードに対するユーザからの第2アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する計算手段と、
前記特徴量から前記第2アノテーションが付与されたキーワードの前記スコアを更新する第1更新手段と、
更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る第2更新手段として機能させるためのキーワード抽出プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013196232A JP2015060581A (ja) | 2013-09-20 | 2013-09-20 | キーワード抽出装置、方法およびプログラム |
CN201410466362.XA CN104462170A (zh) | 2013-09-20 | 2014-09-12 | 关键词提取装置、方法以及程序 |
US14/489,832 US20150088491A1 (en) | 2013-09-20 | 2014-09-18 | Keyword extraction apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013196232A JP2015060581A (ja) | 2013-09-20 | 2013-09-20 | キーワード抽出装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015060581A true JP2015060581A (ja) | 2015-03-30 |
Family
ID=52691706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013196232A Pending JP2015060581A (ja) | 2013-09-20 | 2013-09-20 | キーワード抽出装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150088491A1 (ja) |
JP (1) | JP2015060581A (ja) |
CN (1) | CN104462170A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606875B2 (en) | 2014-09-16 | 2020-03-31 | Kabushiki Kaisha Toshiba | Search support apparatus and method |
WO2022097408A1 (ja) * | 2020-11-04 | 2022-05-12 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置及び画像形成装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965460B1 (en) * | 2016-12-29 | 2018-05-08 | Konica Minolta Laboratory U.S.A., Inc. | Keyword extraction for relationship maps |
US10678832B2 (en) * | 2017-09-29 | 2020-06-09 | Apple Inc. | Search index utilizing clusters of semantically similar phrases |
US11269755B2 (en) | 2018-03-19 | 2022-03-08 | Humanity X Technologies | Social media monitoring system and method |
US10963491B2 (en) | 2018-03-29 | 2021-03-30 | The Boeing Company | Structures maintenance mapper |
CN110705279A (zh) * | 2018-07-10 | 2020-01-17 | 株式会社理光 | 一种词汇表的选择方法、装置及计算机可读存储介质 |
CN109511000B (zh) * | 2018-11-06 | 2021-10-15 | 武汉斗鱼网络科技有限公司 | 弹幕类别确定方法、装置、设备及存储介质 |
JP7512159B2 (ja) * | 2020-10-07 | 2024-07-08 | 株式会社東芝 | 文書検索装置、方法、プログラムおよび学習装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
US7062498B2 (en) * | 2001-11-02 | 2006-06-13 | Thomson Legal Regulatory Global Ag | Systems, methods, and software for classifying text from judicial opinions and other documents |
AU2003282342A1 (en) * | 2002-11-13 | 2004-06-03 | Kenneth, Nadav | Method and system for using query information to enhance categorization and navigation within the whole knowledge base |
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
US8429184B2 (en) * | 2005-12-05 | 2013-04-23 | Collarity Inc. | Generation of refinement terms for search queries |
KR100816934B1 (ko) * | 2006-04-13 | 2008-03-26 | 엘지전자 주식회사 | 문서검색 결과를 이용한 군집화 시스템 및 그 방법 |
US8442972B2 (en) * | 2006-10-11 | 2013-05-14 | Collarity, Inc. | Negative associations for search results ranking and refinement |
US8209605B2 (en) * | 2006-12-13 | 2012-06-26 | Pado Metaware Ab | Method and system for facilitating the examination of documents |
US8676815B2 (en) * | 2008-05-07 | 2014-03-18 | City University Of Hong Kong | Suffix tree similarity measure for document clustering |
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
CN101877837B (zh) * | 2009-04-30 | 2013-11-06 | 华为技术有限公司 | 一种短信过滤的方法和装置 |
US8977620B1 (en) * | 2011-12-27 | 2015-03-10 | Google Inc. | Method and system for document classification |
US9002848B1 (en) * | 2011-12-27 | 2015-04-07 | Google Inc. | Automatic incremental labeling of document clusters |
CN103688256A (zh) * | 2012-01-20 | 2014-03-26 | 华为技术有限公司 | 基于评论信息确定视频质量参数的方法、装置和系统 |
-
2013
- 2013-09-20 JP JP2013196232A patent/JP2015060581A/ja active Pending
-
2014
- 2014-09-12 CN CN201410466362.XA patent/CN104462170A/zh active Pending
- 2014-09-18 US US14/489,832 patent/US20150088491A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606875B2 (en) | 2014-09-16 | 2020-03-31 | Kabushiki Kaisha Toshiba | Search support apparatus and method |
WO2022097408A1 (ja) * | 2020-11-04 | 2022-05-12 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置及び画像形成装置 |
JP7517462B2 (ja) | 2020-11-04 | 2024-07-17 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置及び画像形成装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104462170A (zh) | 2015-03-25 |
US20150088491A1 (en) | 2015-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015060581A (ja) | キーワード抽出装置、方法およびプログラム | |
US9864741B2 (en) | Automated collective term and phrase index | |
US9904727B2 (en) | Document retrieval/identification using topics | |
JP5512489B2 (ja) | ファイル管理装置及びファイル管理方法 | |
Chen et al. | Mining user requirements to facilitate mobile app quality upgrades with big data | |
US20160299955A1 (en) | Text mining system and tool | |
US10936806B2 (en) | Document processing apparatus, method, and program | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
JP2004280574A (ja) | 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体 | |
CN111133429A (zh) | 提取表达以供自然语言处理 | |
TWI396983B (zh) | 名詞標記裝置、名詞標記方法及其電腦程式產品 | |
JP2011238159A (ja) | 計算機システム | |
JP2018185716A (ja) | データ処理システム、データ処理方法、およびデータ構造 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
Alam et al. | Comparing named entity recognition on transcriptions and written texts | |
Groza et al. | Reference information extraction and processing using random conditional fields | |
CN102207947A (zh) | 一种直接引语素材库的生成方法 | |
JP5903171B2 (ja) | データ加工システムおよびデータ加工方法 | |
JP2021101375A (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JP2011138365A (ja) | 用語抽出装置、方法及び用語辞書のデータ構造 | |
JP2009140113A (ja) | 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム | |
Liang et al. | New word detection and tagging on Chinese Twitter stream | |
JP2021089473A (ja) | 文書処理プログラム、文書処理装置、及び文書処理方法 | |
CN104516941A (zh) | 相关文档检索装置、方法及程序 | |
JP2019204299A (ja) | 検索処理装置およびプログラム |