JP6789755B2

JP6789755B2 - 抽出装置、抽出方法および抽出プログラム

Info

Publication number: JP6789755B2
Application number: JP2016206155A
Authority: JP
Inventors: 正嗣志立; 伸裕鍜治; 伸幸清水; 山下　達雄; 達雄山下
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2020-11-25
Anticipated expiration: 2036-10-20
Also published as: JP2018067193A

Description

本発明は、抽出装置、抽出方法および抽出プログラムに関する。

従来、文章の解析を行う技術が知られている。このような解析技術の一例として、インターネット上に存在する単語の中から、辞書に登録されていない単語を抽出し、抽出した単語を新たな単語、すなわち新語として辞書に登録する技術が知られている。

特開２０１４−０７１５４１号公報特開２００５−２４２８４９号公報特開２００４−３１８４８０号公報特開２００３−１６７８９４号公報

しかしながら、上記の方法では、利用者が意味を知りたいと所望する新語を適切に抽出できるとは限らなかった。

例えば、新語を抽出する手法として、所定期間内における投稿回数が所定の閾値を超えた単語を抽出する手法が考えられる。しかしながら、このような手法では、単に話題となっている単語であって、利用者が意味を知っている既存の単語を新語として抽出する恐れがある。一方、辞書に掲載されていない単語を抽出した場合には、意味が自明な略語等の単語を新語として抽出する恐れがある。

本願は、上記に鑑みてなされたものであって、利用者が意味を知りたいと所望する新語の抽出精度を向上させることを目的とする。

本願に係る抽出装置は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第１の抽出部と、前記単語に対する利用者の興味の度合いに基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する第２の抽出部とを有することを特徴とする。

実施形態の一態様によれば、利用者が意味を知りたいと所望する新語の抽出精度を向上させる。

図１は、実施形態に係る抽出装置が実行する抽出処理の一例を示す図である。図２は、実施形態に係る抽出装置の構成例を示す図である。図３は、実施形態に係る使用頻度データベースに登録される情報の一例を示す図である。図４は、実施形態に係る意味検索頻度データベースに登録される情報の一例を示す図である。図５は、実施形態に係る新語データベースに登録される情報の一例を示す図である。図６は、実施形態に係る端末装置が分野を考慮して新語を抽出する処理の一例を示す図である。図７は、実施形態にかかる抽出装置が実行する抽出処理の流れの一例を示すフローチャートである。図８は、ハードウェア構成の一例を示す図である。

以下に、本願に係る抽出装置、抽出方法および抽出プログラムを実施するための形態（以下、「実施形態」と記載する。）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法および抽出プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［実施形態］
〔１−１．抽出装置の一例〕
まず、図１を用いて、抽出装置が実行する抽出処理の一例について説明する。図１は、実施形態に係る抽出装置が実行する抽出処理の一例を示す図である。図１では、抽出装置１０は、インターネット等の所定のネットワークＮを介して、ＳＮＳ（Social Networking Service）サーバ１００、検索サーバ２００および端末装置３００（例えば、図２を参照）と通信可能である。なお、抽出装置１０は、任意の数のＳＮＳサーバ１００や任意の数の検索サーバ２００、任意の数の端末装置３００と通信可能であってよい。

ＳＮＳサーバ１００は、各種ＳＮＳに関するサービスを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。また、ＳＮＳサーバ１００は、ブログ、マイクロブログ、ウェブページ、メッセージ、静止画像、動画像、音声等といった各種コンテンツの投稿を受付けると、受付けたコンテンツを公開することで、コンテンツに関する各種の情報を世間一般に拡散させることができる。なお、以下の説明では、ＳＮＳサーバ１００は、少なくとも、利用者が投稿したテキストを他の利用者へと公開するものとする。

検索サーバ２００は、インターネット等のネットワーク上に投稿されたコンテンツの検索を行う検索サービスを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、検索サーバ２００は、利用者が使用する端末装置３００から検索クエリを受信すると、受信した検索クエリと関連性が高いウェブコンテンツを検索し、検索結果を端末装置３００へと配信する。なお、検索サーバ２００は、少なくとも、利用者が入力したテキストを検索クエリとする検索サービスを提供するものとする。また、検索サーバ２００は、利用者が入力した検索クエリのログを管理する機能を有するものとする。

抽出装置１０は、インターネット等のネットワーク上から、既存の辞書に登録されていない新たな単語、すなわち、新語を抽出する抽出処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、抽出装置１０は、ＳＮＳサーバ１００から、利用者の投稿を取得し、検索サーバ２００から、利用者が入力した検索クエリのログを取得する。また、抽出装置１０は、取得した投稿や検索クエリのログから、形態素解析等の技術を用いて、利用者が入力した単語を取得する。そして、抽出装置１０は、後述した抽出処理を実行することで、利用者が入力した単語の中から新語を抽出し、抽出した新語を辞書に登録する。

このように抽出装置１０が抽出した新語は、任意の処理に用いられる。例えば、抽出装置１０は、辞書に登録した新語の意味をインターネット上から取得し、取得した新語の意味を新語とともに辞書に登録する。そして、抽出装置１０は、利用者からある単語の意味を問い合わせる問合せ要求を受付けた場合は、その単語と対応付けられた意味を辞書から抽出し、抽出した意味を利用者に提供するといったオンライン辞書サービスを提供する。

〔１−２．新語について〕
ここで、抽出装置１０が抽出する「新語」とは、抽出装置１０が記憶する辞書に登録されていない単語、すなわち、単に新規な単語を示すものに限定されるものではない。例えば、「新語」とは、あるコンテンツにおけるキャラクター名等、流行によって利用者の目に留まる頻度が高くなり、利用者が意味を知りたがっている単語を含むものである。また、「新語」とは、ある分野の利用者のみが使用する略語等の使用される頻度が高くなることで、他の分野の利用者が目にする可能性が高くなった単語のうち、利用者が意味を知りたがっている単語や、利用者が意味を類推し辛い単語を含む概念である。

また、「新語」とは、例えば「尊い」等、文字列として新規な単語ではないものの、過去に使用されていた用法とは異なる用法で使用される頻度が高くなったことで、利用者が新たな用法（すなわち、意味）を知りたがっている単語や、利用者が意味を類推し辛い単語を含む概念である。また、「新語」とは、単純に新規な単語ではなく、いままで一部の利用者が使用していたが、流行等によって他の利用者が目にする頻度が上昇し、他の利用者が意味を知りたがっている単語等を含む概念である。

また、「新語」とは、例えば、ネットジャーゴン等、一部の利用者が使用している単語のうち、他の利用者が意味を知りたがっている単語を含む概念である。すなわち、抽出装置１０が抽出する「新語」とは、単純に文字列が新規な単語という概念ではなく、インターネット上で使用されている単語のうち、一部の利用者が意味を理解した状態で使用する単語であって、他の利用者が目にする頻度が所定の閾値を超え、意味を知りたがっている単語を含む概念である。

〔１−３．抽出処理について〕
ここで、従来技術では、所定期間内における投稿回数が所定の閾値を超えた単語を新語として抽出する手法が考えられる。しかしながら、このような手法では、単に話題となっている単語を新語とするので、新規ではない単語であって多くの利用者が意味を知っている単語を新語として抽出する恐れがある。また、辞書に掲載されていない単語を抽出した場合には、例えば、地名の略語とイベントの略語とをつなげた略語等、一目で多くの利用者が意味を類推可能な単語を新語として抽出する恐れがある。このため、従来技術では、一部の利用者が意味を理解した状態で使用する単語であって、他の利用者が目にする頻度が所定の閾値を超え、意味を知りたがっている単語を「新語」として抽出することができない。

このような「新語」が存在する場合、多くの利用者は、意味を知りたがると予測される。しかしながら、このような「新語」を精度良く抽出できない場合は、利用者から意味の問い合わせを受ける前に、「新語」や「新語」の意味を辞書に登録することができず、オンライン辞書サービスにおいて利用者に意味の提供を行うことができない。

そこで、抽出装置１０は、以下の抽出処理を実行する。まず、抽出装置１０は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置１０は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を新語として抽出する。

例えば、抽出装置１０は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語（以下、「入力単語」と総称する。）の中から、登録候補となる単語を抽出する。より具体的には、抽出装置１０は、ＳＮＳサーバ１００に利用者が投稿したテキストに含まれる単語や、検索サーバ２００から受信した検索クエリのログに含まれる単語の中から、登録候補となる単語を抽出する。そして、抽出装置１０は、利用者の興味の度合いに基づいて、登録候補となる単語の中から新語を抽出する。

〔１−４．使用頻度について〕
ここで、抽出装置１０は、入力単語が使用される頻度に基づいて、登録候補となる単語を入力単語の中から抽出する。例えば、抽出処理を実行する日時を基準とした過去１月の範囲を第１の期間とし、第１の期間よりも過去１月の期間を第２の期間とし、第２の期間よりも過去１月の期間を第３の期間とする。なお、各期間の長さは、１月のみならず、任意の期間（例えば、数日或いは数時間等）が採用可能であり、期間ごとに異なる長さの期間が設定されてもよい。

ここで、抽出処理を実行する直近の期間である、第１の期間の間、入力単語が登録されたり検索されたりした頻度（以下、「使用頻度」と記載する。）が所定の閾値を超え、かつ、第２の期間または第３の期間の間、入力単語の使用頻度が所定の閾値よりも低い場合は、入力単語が直近の期間で急に使用され始めたと推定することができる。このように、所定の期間における使用頻度が所定の閾値よりも低いが、直近の期間において急に使用され始めた単語は、新語である可能性が高いと推定される。

そこで、抽出装置１０は、登録候補となる単語として、所定の期間における使用頻度が所定の閾値よりも低い単語を抽出する。より具体的には、抽出装置１０は、登録候補となる単語として、抽出処理を行う日時を基準として、ある一定期間の間、使用頻度が上昇しているが、その期間よりも前には、あまり使用されていなかった（若しくは、まったく使用されていなかった）単語を新語の候補として抽出する。例えば、抽出装置１０は、登録候補となる単語として、第１の期間における使用頻度が第１の閾値よりも低く、かつ、第１の期間よりも後の第２の期間における使用頻度が第２の閾値よりも高い単語を入力単語から抽出する。

ここで、第１の閾値と第２の閾値とは、同じ使用頻度を示す値であってもよく、異なる使用頻度を示す値であってもよい。このような処理の結果、抽出装置１０は、抽出処理を実行する日時を基準として、ある期間の間は使用されていなかったが、最近使用され始めている単語を新語の候補として抽出することができる。

なお、抽出装置１０は、入力単語の使用頻度に基づいて、登録候補となる単語を抽出するのであれば、任意の条件を用いてよい。例えば、抽出装置１０は、第１の期間における使用頻度が所定の閾値を超える場合や、使用頻度の増加量が所定の閾値を超える場合には、入力単語が頻繁に使用されている単語（いわゆる、バズワード）であるとして、登録候補として抽出してもよい。

〔１−５．使用態様について〕
また、抽出装置１０は、単語の使用態様に基づいて、登録候補となる単語を入力単語から抽出してもよい。例えば、抽出装置１０は、第１の期間における使用頻度が所定の閾値を超える単語や、使用頻度の増加量が所定の閾値を超える単語を抽出する。また、抽出装置１０は、抽出した単語を含む文章や単語の説明文であって、第１の期間よりも前の期間に投稿された説明文と、第１の期間の間に投稿された説明文とをそれぞれ収集する。また、抽出装置１０は、形態素解析やｔｆ−ｉｄｆ（Term Frequency-Inverse Document Frequency）、ｗ２ｖ（word2vector）等の技術を用いて、第１の期間よりも前の期間に投稿された説明文における単語の用法（例えば、意味）と、第１の期間に投稿された説明文における単語の用法とを比較する。

そして、抽出装置１０は、第１の期間よりも前の期間に投稿された説明文における単語の用法と、第１の期間に投稿された説明文における単語の用法とが異なる場合には、単語が最近使われていない意味で持ちいられている単語であると判定し、登録候補として抽出する。なお、抽出装置１０は、第１の期間よりも前の期間に投稿された説明文における単語の用法と、第１の期間に投稿された説明文における単語の用法とが同一または類似する場合には、登録候補として抽出せずともよい。

すなわち、抽出装置１０は、抽出処理の実行日時において、文字列として最近使われていなかった単語や、最近使われていなかった用法で用いられている単語を、登録候補として、使用頻度や使用態様に基づいて抽出する。なお、抽出装置１０は、使用頻度と使用態様とを組み合わせて用いてもよい。例えば、抽出装置１０は、過去に所定の閾値よりも多い使用頻度で使用されていたが、最近は使用頻度が所定の閾値を越えていなかった単語であって、過去に使用されていた際の使用態様と、最近の使用態様とが異なる単語を、登録候補として抽出してもよい。

〔１−６．周辺語の利用について〕
ここで、抽出装置１０は、単語とともに用いられる単語、すなわち、文脈上の周辺語を考慮して、登録候補となる単語を抽出してもよい。例えば、抽出装置１０は、ある単語について、第１の期間（例えば、処理日時の１月前から処理日時迄）における周辺語と、第２の期間（例えば、処理日時の１年前から処理日時の１月前迄）における周辺語とが異なる場合は、最近用いられていなかった用法で単語が使用されていると判定し、登録候補となる単語としてもよい。

〔１−７．利用者の興味の度合いについて〕
また、抽出装置１０は、登録候補となる単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から新語を抽出する。ここで、登録候補となる単語に対する利用者の興味の度合いとは、例えば、利用者が登録候補となる単語の意味をどれくらい知りたがっているか、登録候補となる単語が有する意味の推測がそれくらい困難であるか等を示す情報である。

例えば、ある単語が存在する場合に、その単語の意味を他の利用者に質問する内容の投稿や、その投稿が閲覧された回数、その投稿に対する評価の内容（例えば、「いいね！」等）、「○○とは？」等といった単語の意味を検索する検索クエリが入力された回数等、単語の意味を問い合わせる各種の行為が行われた頻度（以下、「意味検索頻度」と記載する。）は、単語の意味を利用者がどれくらい知りたがっているかの指標となる。例えば、ある単語の意味検索頻度が所定の閾値を超える場合には、単語に対する利用者の興味が高いといった推定や、単語の文字列から意味の推定が困難であるといった推定が可能である。また、単語の意味検索頻度が所定の閾値を下回る場合には、単語に対する利用者の興味が低いといった推定や、単語の文字列から意味の推定が容易であるといった推定が可能である。

ここで、過去においてはあまり使用されていなかったが、直近１週間において使用頻度が上層した単語や、使用されるようになった単語、過去において使用された後で、あまり使用されなくなり、直近１週間において異なる用法で使用されるようになった単語等は、新語である可能性が高い。しかしながら、このような単語の中には、推定が容易な略語等、利用者が辞書で調べる必要が無い単語も含まれる。また、利用者の興味があまり高くない場合は、単語の意味を調べる必要があまりないとも考えられる。

そこで、抽出装置１０は、利用者の興味の度合いとして、単語の意味を検索または質問するための検索クエリが入力された回数に基づく意味検索頻度を取得する。なお、抽出装置１０は、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、投稿に対する評価の内容の少なくともいずれか１つに基づく意味検索頻度を取得してもよい。そして、抽出装置１０は、取得した意味検索頻度に基づいて、登録候補となる単語の中から新語として登録する単語を抽出する。

例えば、抽出装置１０は、直近１週間において、単語の意味を検索または質問するための検索クエリが入力された回数、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、投稿に対する評価の内容の少なくともいずれか１つに基づいて、意味検索頻度の値を算出する。より具体的には、抽出装置１０は、一定期間ごとに、「○○とは？」等といった単語の意味を検索または質問するための検索クエリが入力された頻度を算出する。そして、抽出装置１０は、算出した頻度が所定の閾値を超える場合は、利用者が単語に興味があると判定し、その単語を新語として抽出する。

〔１−８．モデルの構築について〕
ここで、抽出装置１０は、「○○とは？」等といった意味を検索する検索クエリや投稿の出現回数や出現頻度等を素性として、登録候補となる単語の中から新語として登録する単語を抽出するモデルの構築を行ってもよい。例えば、抽出装置１０は、検索クエリのログを入力すると、登録候補となる単語について、その単語の意味を検索する検索クエリが入力された頻度を算出し、算出した頻度が所定の閾値よりも高い場合には、その単語を新語とする旨を出力するモデルの構築や学習を行ってもよい。

なお、抽出装置１０は、検索ログ以外にも、単語の意味を質問する投稿が行われた頻度や、その投稿が閲覧された頻度、投稿に対して好意的な評価が行われた頻度等から、利用者が単語（若しくは、単語の意味）に興味を持っていると推定される場合は、単語を新語とする旨を出力するモデルの構築や学習を行ってもよい。すなわち、抽出装置１０は、利用者の単語に対する興味の度合いに基づいて、登録候補となる単語の中から、利用者の興味が所定の閾値よりも高いと推定される単語を特定するのであれば、任意のデータから任意の情報を出力するモデルの構築や学習を行ってよい。

〔１−９．分野を考慮した新語の抽出について〕
ここで、抽出装置１０は、単語が使用されている分野に基づいて、新語を抽出してもよい。すなわち、抽出装置１０は、単語が使用されている分野と、単語に興味を有する分野とが異なる場合には、単語を新語として抽出してもよい。例えば、アニメに興味がある利用者間において使用頻度が高い単語や、使用態様が変化した単語を登録候補として抽出したとしても、アニメに興味が無い利用者がその単語に興味を有さない場合には、新語として登録してもあまり意味がないと考えられる。同様に、医療分野等において使用頻度が高い単語や、使用態様が変化した単語を登録候補として抽出したとしても、医療分野以外の利用者がその単語に興味を有さない場合には、新語として登録してもあまり意味がないと考えられる。

そこで、抽出装置１０は、第１の分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置１０は、第１の分野とは異なる第２の分野における利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出してもよい。

例えば、抽出装置１０は、単語を検索クエリとして入力した利用者や単語を含むテキストを投稿した利用者の年齢、性別、住所等といったデモグラフィック属性や好みなどといったサイコグラフィック属性等を収集する。そして、抽出装置１０は、単語ごとに、所定の分野に属する利用者による使用頻度または使用態様を特定し、特定した使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。すなわち、抽出装置１０は、所定の第１の分野に属する利用者による使用頻度や使用態様を、第１の分野における使用頻度や使用態様として特定する。

続いて、抽出装置１０は、登録候補となる単語の意味を検索する検索クエリを入力した利用者の属性や、単語の意味を質問する投稿を行った利用者、投稿を閲覧した利用者、投稿を評価した利用者等の属性に基づいて、その単語に興味を有する利用者が属する分野を特定する。例えば、抽出装置１０は、各利用者の属性から、各利用者が属する分野を推定し、推定した分野のうち最も数が多い分野（すなわち、質問等を行った利用者が最も多い分野）を第２の分野として特定する。

そして、抽出装置１０は、登録候補となる単語のうち、意味検索頻度が所定の閾値を超える単語であって、第１の分野と第２の分野とが異なる分野である単語を新語として抽出する。例えば、抽出装置１０は、単語の使用頻度が所定の閾値を超える分野と、単語の意味を検索または質問する頻度が所定の閾値を超える分野とが異なる単語を、新語として抽出する。

例えば、抽出装置１０は、医療分野の業務に従事する利用者や、医療分野に興味がある利用者による使用頻度が所定の閾値を超える単語を登録候補として抽出する。そして、抽出装置１０は、アニメ好きの利用者が、抽出した単語の意味の検索や質問を頻繁に行っていた場合には、その単語を新語として抽出する。

なお、抽出装置１０は、単語が所定の閾値を超える頻度で使用されている利用者の分野と、単語に興味を有する利用者の分野とが異なる場合に、単語を新語とするのであれば、上述した処理以外にも、任意の処理を実行して良い。例えば、抽出装置１０は、利用者の属性から利用者が属する分野を特定し、特定した分野を考慮して、登録候補となる単語の中から新語とする単語を抽出するように、上述したモデルの構成や学習を行ってもよい。

〔１−１０．抽出処理の一例について〕
次に、図１を用いて、抽出装置１０が実行する抽出処理の一例について説明する。例えば、ＳＮＳサーバ１００から、投稿された単語を取得する（ステップＳ１）。また、抽出装置１０は、検索サーバ２００から、検索クエリの履歴を取得する（ステップＳ２）。

このような場合、抽出装置１０は、投稿された単語や、検索クエリの履歴から、入力単語を特定する。そして、抽出装置１０は、所定の期間内における使用頻度に基づいて、登録候補となる単語を入力単語から抽出する（ステップＳ３）。例えば、図１に示す例では、抽出装置１０は、投稿された単語や検索クエリの履歴から、入力単語として、単語＃１〜＃３を特定する。このような場合、抽出装置１０は、抽出処理の実行日時を基準日時として、一月ごとに、単語＃１〜＃３が投稿された回数や検索クエリとして入力された回数に基づく使用頻度を算出する。

例えば、抽出装置１０は、基準日時から１月前までの期間＃１、基準日時の２月前から１月前までの期間＃２、基準日時の３月前から２月前までの期間＃３等を設定する。続いて、抽出装置１０は、期間＃１において全単語が入力または検索された回数、投稿総数、若しくは検索総数等に対して、単語＃１が入力または検索された回数に基づき、期間＃１において単語＃１が使用された頻度を示す使用頻度＃１−１を算出する。同様に、抽出装置１０は、期間＃２における単語＃１の使用頻度＃１−２、期間＃３における単語＃１の使用頻度＃１−３を算出する。また、抽出装置１０は、期間＃１〜＃３における単語＃２の使用頻度＃２−１〜＃２−３、単語＃３の使用頻度＃３−１〜＃３−３を算出する。そして、抽出装置１０は、算出した使用頻度＃１−１〜＃１−３、使用頻度＃２−１〜＃２−３、使用頻度＃３−１〜＃３−３に基づいて、単語＃１〜＃３の中から、登録候補となる単語を抽出する。

例えば、図１中（Ａ）に示す例では、縦軸を使用頻度とし、横軸を期間として、各単語＃１〜＃３の使用頻度＃１−１〜＃１−３、使用頻度＃２−１〜＃２−３、使用頻度＃３−１〜＃３−３の推移を示すグラフを記載した。かかるグラフに示されるように、単語＃１の使用頻度が過去に所定の閾値Ｃ１よりも多く使用され、その後における使用頻度が閾値Ｃ１よりも低くなったが、その後、使用頻度が閾値Ｃ１よりも高くなった場合には、利用者が単語＃１を新たな用法で使用し始めた可能性がある。このため、抽出装置１０は、例えば、単語＃１の最新の使用頻度＃１−１が所定の閾値Ｃ１を超えており、かつ、使用頻度＃１−２が所定の閾値Ｃ１よりも低い場合は、単語＃１を登録候補として抽出する。

なお、例えば、抽出装置１０は、単語＃１の最新の使用頻度＃１−１が所定の閾値Ｃ１を超えており、使用頻度＃１−２が所定の閾値Ｃ２よりも低く、かつ、使用頻度＃１−３が所定の閾値Ｃ１を超えている場合は、期間＃１における単語＃１の用法と、期間＃３における単語＃１の用法とを比較する。すなわち、抽出装置１０は、単語＃１の用法が変化したか否かを判定する。そして、抽出装置１０は、期間＃１における単語＃１の用法と、期間＃３における単語＃１の用法とが変化した場合は、単語＃１を登録候補として抽出してもよい。

また、図１中（Ａ）に示す例では、単語＃２の使用頻度が過去に所定の閾値Ｃ１よりも多く使用されていたものの、徐々に使用頻度が低下し、期間＃１においては所定の閾値Ｃ１を下回っている。このような単語＃２は、過去に流行した結果、既に利用者が意味を知っている可能性が高い。そこで、抽出装置１０は、単語＃２の使用頻度＃２−３、＃２−２、＃２−１が徐々に減少した場合は、単語＃２を登録候補として抽出しない。

また、図１中（Ａ）に示す例では、単語＃３の使用頻度が期間＃２から徐々に上昇し、期間＃１では、使用頻度が所定の閾値Ｃ１を上回っている。このような単語＃３は、新たに使用が行われた単語である可能性が高い。そこで、抽出装置１０は、単語＃３の使用頻度＃３−３、＃３−２、＃３−１が徐々に情報している場合は、単語＃３を登録候補として抽出する。

続いて、抽出装置１０は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語から新語を抽出する（ステップＳ４）。例えば、抽出装置１０は、単語＃１が登録候補として抽出された場合、期間＃１〜＃３において「単語＃１とは？」等といった意味を検索する検索クエリの出現頻度や、意味を問い合わせる投稿が閲覧された回数等に基づく意味検索頻度＃１−１〜＃１−３を算出する。また、抽出装置１０は、単語＃３が登録候補として抽出された場合、期間＃１〜＃３において「単語＃３とは？」等といった意味を検索する検索クエリの出現頻度や、意味を問い合わせる投稿が閲覧された回数等に基づく意味検索頻度＃３−１〜＃３−３を算出する。なお、図１に示す例では、意味検索頻度＃１−１、＃３−１以外の表示を省略した。

すなわち、抽出装置１０は、基準日時から所定の期間の間における、登録候補となる単語の意味検索頻度を算出する。そして、抽出装置１０は、算出した意味検索頻度に基づいて、利用者の興味が所定の閾値を超えると推定される単語を特定し、特定した単語を新語として抽出する。

例えば、図１中（Ｂ）に示す例では、縦軸を意味検索頻度とし、横軸を期間として、単語＃１、単語＃３の意味検索頻度＃１−１〜＃１〜３、＃３−１〜＃３−３の推移を示すグラフを記載した。かかるグラフに示されるように、単語＃１については、過去（期間＃３）において意味検索頻度＃１−３が所定の閾値Ｃ２を超えているが、その後、意味検索頻度＃１−２、＃１−１が所定の閾値Ｃ２を下回っている。このような場合、単語＃１は、各利用者が意味を知っており、興味を有していないと推定される。このため、抽出装置１０は、単語＃１を新語として抽出しない。

一方、図１中（Ｂ）に示す例では、単語＃３の意味検索頻度が期間＃２から徐々に上昇し、期間＃１において所定の閾値Ｃ２を超えている。このような場合、単語＃３は、各利用者が意味を検索している、すなわち、各利用者が興味を有している単語であると推定される。このため、抽出装置１０は、単語＃３を新語として抽出する。

その後、抽出装置１０は、新語の意味を取得し、新語と意味とを対応付けて登録する（ステップＳ５）。例えば、抽出装置１０は、ネットワーク上に投稿された情報から、新語として抽出した単語＃３の意味＃３を検索する。ここで、抽出装置１０は、期間＃１において投稿された情報等、基準となる日時から所定の範囲内に収まる日時に投稿された情報から意味を検索するのが望ましい。そして、抽出装置１０は、単語＃３と意味＃３とを対応付けて所定のデータベース（例えば、新語データベース３３）に登録する。この結果、抽出装置１０は、最近使われていなかった単語であって、利用者が意味を知りたがっている単語（興味を有する単語）を新語とし、かかる新語の意味を利用者に提供するオンライン辞書サービスを提供することができる。

〔２．抽出装置の構成〕
以下、上記した抽出処理を実現する抽出装置１０が有する機能構成の一例について説明する。図２は、実施形態に係る抽出装置の構成例を示す図である。図２に示すように、抽出装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、ＳＮＳサーバ１００や検索サーバ２００との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、使用頻度データベース３１、意味検索頻度データベース３２、および新語データベース３３（以下、「各データベース３１〜３３」と総称する場合がある）を記憶する。

使用頻度データベース３１には、単語の使用頻度が格納される。例えば、図３は、実施形態に係る使用頻度データベースに登録される情報の一例を示す図である。図３に示すように、使用頻度データベース３１には、「単語」、「期間＃１」、「期間＃２」、および「期間＃３」といった項目を有する情報が登録される。ここで、「単語」とは、検索クエリや投稿されたテキストから抽出された単語である。また、使用頻度データベース３１には、「期間＃１」〜「期間＃３」として、抽出処理を実行する日時を基準とする各期間における使用頻度が登録される。なお、各期間のうち、「期間＃１」が最も基準とする日時に近い期間であるものとする。また、各期間は、同一の長さの期間が設定される必要はない。

例えば、図３に示す例では、使用頻度データベース３１には、単語「単語＃１」、期間＃１「使用頻度＃１−１」、期間＃２「使用頻度＃１−２」、および期間＃３「使用頻度＃１−３」が対応付けて登録されている。このような情報は、例えば、期間＃１における「単語＃１」の使用頻度が「使用頻度＃１−１」であり、期間＃２における使用頻度が「使用頻度＃１−２」であり、期間＃３における使用頻度が「使用頻度＃１−３」である旨を示す。

なお、図３に示す例では、「単語＃１」や「使用頻度＃１−１」といった概念的な値について記載したが、実際には、単語として抽出された単語のテキストデータや、使用頻度を示す数値等が登録されることとなる。

図２に戻り、説明を続ける。意味検索頻度データベース３２には、単語の意味検索頻度が登録される。例えば、図４は、実施形態に係る意味検索頻度データベースに登録される情報の一例を示す図である。図４に示すように、意味検索頻度データベース３２には、「単語」、「期間＃１」、「期間＃２」、および「期間＃３」といった項目を有する情報が登録される。ここで、図４に示すように、意味検索頻度データベース３２には、「期間＃１」〜「期間＃３」として、抽出処理を実行する日時を基準とする各期間における意味検索頻度が登録される。なお、図３と同様に、各期間のうち、「期間＃１」が最も基準とする日時に近い期間であるものとし、各期間は、同一の長さの期間が設定される必要はない。

例えば、図４に示す例では、意味検索頻度データベース３２には、単語「単語＃１」、期間＃１「意味検索頻度＃１−１」、期間＃２「意味検索頻度＃１−２」、および期間＃３「意味検索頻度＃１−３」が対応付けて登録されている。このような情報は、例えば、期間＃１における「単語＃１」の意味検索頻度が「意味検索頻度＃１−１」であり、期間＃２における意味検索頻度が「意味検索頻度＃１−２」であり、期間＃３における意味検索頻度が「意味検索頻度＃１−３」である旨を示す。

なお、図４に示す例では、「単語＃１」や「意味検索頻度＃１−１」といった概念的な値について記載したが、実際には、単語として抽出された単語のテキストデータや、意味検索頻度を示す数値等が登録されることとなる。

図２に戻り、説明を続ける。新語データベース３３には、新語が新語の意味と対応付けて登録される。例えば、図５は、実施形態に係る新語データベースに登録される情報の一例を示す図である。図５に示すように、新語データベース３３には、「新語ＩＤ（Identifier）」、「単語」、および「意味」といった項目を有する情報が登録される。ここで、「新語ＩＤ」とは、新語を識別するための識別子である。また、「単語」とは、新語として抽出された単語のテキストデータである。また、「意味」とは、対応付けられた単語、すなわち、新語として抽出された単語がどのような意味で用いられているかを示す情報である。

例えば、図５に示す例では、新語データベース３３には、新語ＩＤ「新語＃１」、単語「単語＃３」、および意味「意味＃３」とが対応付けて登録されている。このような情報は、新語ＩＤ「新語＃１」が示す新語として、単語「単語＃３」が登録されており、かかる単語「単語＃３」が意味「意味＃３」を有する単語として使用されている旨を示す。

なお、図５に示す例では、「新語＃１」や「意味＃３」といった概念的な値について記載したが、実際には、新語を識別するための数値や文字列、意味を説明するための文章等が登録されることとなる。

図２に戻り、説明を続ける。制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、抽出装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

図２に示すように、制御部４０は、取得部４１、解析部４２、第１抽出部４３、第２抽出部４４、登録部４５および提供部４６を有する。取得部４１は、単語を取得する。例えば、取得部４１は、ＳＮＳサーバ１００から利用者が投稿したテキストを、投稿日時とともに取得する。このような場合、取得部４１は、形態素解析等の技術を用いて、テキストから単語を抽出し、抽出した単語と対応する投稿日時とを解析部４２に出力する。

同様に、取得部４１は、検索サーバ２００から検索クエリのログを検索クエリの入力日時とともに取得する。このような場合、取得部４１は、検索クエリから単語を抽出し、抽出した単語と対応する入力日時とを解析部４２に出力する。

解析部４２は、単語の投稿日時や入力日時を解析し、単語の使用頻度や意味検索頻度を期間ごとに特定する。例えば、解析部４２は、単語と期間との組合せごとに、投稿された回数や入力された回数を計数し、計数した回数に基づいて、使用頻度を算出する。例えば、解析部４２は、期間＃１において全単語が投稿または入力された回数に対し、単語＃１が投稿または入力された回数の割合を使用頻度＃１−１として算出する。そして、解析部４２は、算出した使用頻度を単語と期間との組と対応付けて使用頻度データベース３１に登録する。

また、例えば、解析部４２は、「○○とは？」等といった意味を検索する検索クエリや意味を質問する投稿が行われた回数を単語と期間との組合せごとに計数し、計数した回数に基づいて、意味検索頻度を算出する。例えば、解析部４２は、全単語について、期間＃１の間に意味を検索する検索クエリや意味を質問する投稿が行われた回数に対し、単語＃１について期間＃１の間に意味を検索する検索クエリや意味を質問する投稿が行われた回数の頻度を意味検索頻度＃１−１として算出する。そして、解析部４２は、算出した意味検索頻度を単語と期間との組と対応付けて意味検索頻度データベース３２に登録する。

なお、解析部４２は、意味を質問する投稿の閲覧数や意味を質問する投稿に対するポジティブな評価が行われた回数等を考慮して、意味検索頻度を算出してもよい。例えば、解析部４２は、全単語について期間＃１の間に意味を検索する検索クエリや意味を質問する投稿が行われた回数と、意味を質問する投稿の閲覧数と、意味を質問する投稿に対するポジティブな評価が行われた回数との和に対し、単語＃１の意味を検索する検索クエリや意味を質問する投稿が行われた回数と、意味を質問する投稿の閲覧数と、意味を質問する投稿に対するポジティブな評価が行われた回数との和の割合を意味検索頻度としてもよい。

第１抽出部４３は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する。より具体的には、第１抽出部４３は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語の中から、登録候補となる単語を抽出する。

例えば、第１抽出部４３は、使用頻度データベース３１を参照し、所定の期間における使用頻度の値が所定の閾値よりも低い単語を抽出する。より具体的な例を挙げると、第１抽出部４３は、第１の期間における使用頻度が第１の閾値よりも低く、かつ、第１の期間よりも後の第２の期間における使用頻度が第２の閾値よりも高い単語を抽出する。

第１抽出部４３が実行する処理の一例について説明する。例えば、第１抽出部４３は、使用頻度データベース３１を参照し、処理対象として単語＃１を選択する。このような場合、第１抽出部４３は、最新の期間である期間＃１における使用頻度＃１−１〜＃１−３の値が所定の条件を満たしているか否かを判定し、満たしている場合には、単語＃１を登録候補となる単語として第２抽出部４４に通知する。

例えば、第１抽出部４３は、使用頻度＃１−１の値が所定の閾値を超えている場合は、期間＃２における使用頻度＃１−２または期間＃３における使用頻度＃１−３が所定の閾値を下回っているかを判定する。すなわち、第１抽出部４３は、単語＃１の使用頻度＃１−１〜＃１−３に基づいて、単語＃１が最近まで使用されていなかった単語であるか否かを判定する。そして、第１抽出部４３は、期間＃２における使用頻度＃１−２または期間＃３における使用頻度＃１−３が所定の閾値を下回っている場合は、単語＃１を登録対象の候補として第２抽出部４４に通知する。一方、第１抽出部４３は、期間＃２における使用頻度＃１−２および期間＃３における使用頻度＃１−３が所定の閾値を上回っている場合は、単語＃１が定常的に使用されている単語であると判定し、登録対象の候補から除外する。なお、第１抽出部４３は、使用頻度データベース３１に登録された全ての単語について、上述した処理を実行することとなる。

なお、第１抽出部４３は、上述した処理以外にも、各単語の期間ごとにおける使用頻度に基づいて、単語を登録対象の候補とするか否かを判定してもよい。例えば、第１抽出部４３は、基準となる日時（例えば、抽出処理の日時）から所定の期間の間の使用頻度が所定の閾値を超えており、かつ、その期間よりも前の期間において使用頻度が所定の閾値を下回っているのであれば、さらに前の期間において使用頻度が所定の閾値を上回っていたとしても、その単語を最近使用されていなかった単語として登録対象の候補としてよい。

また、例えば、第１抽出部４３は、使用頻度＃１−１が所定の閾値を超え、使用頻度＃１−２が所定の閾値を下回り、かつ、使用頻度＃１−３が所定の閾値を超える場合は、使用頻度が所定の閾値を超えた期間＃１および期間＃３の間に投稿されたテキストを収集する。また、第１抽出部４３は、収集されたテキストに含まれる単語＃１の意味解析や、単語＃１の周辺語の解析を行うことで、期間＃１の間における単語＃１の意味と期間＃３の間における単語＃１の意味とが変化したか否かを判定する。そして、第１抽出部４３は、期間＃１の間における単語＃１の意味と期間＃３の間における単語＃１の意味とが変化した場合は、単語＃１を登録対象の候補、すなわち、新語の候補として第２抽出部４４に通知する。

第２抽出部４４は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。例えば、第２抽出部４４は、単語に対する利用者の興味の度合いとして、単語の意味を検索または質問するための検索クエリが入力された回数に基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。より具体的には、第２抽出部４４は、単語に対する利用者の興味の度合いとして、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、または投稿に対する評価の内容の少なくともいずれかに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。例えば、第２抽出部４４は、単語の意味を検索または質問するための検索クエリが入力された回数に基づく意味検索頻度の値に基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。

第２抽出部４４が実行する処理の一例について説明する。例えば、第２抽出部４４は、登録候補となる単語の通知を第１抽出部４３から受付ける。このような場合、第２抽出部４４は、受付けた単語の意味検索頻度を意味検索頻度データベース３２から抽出する。そして、第２抽出部４４は、抽出した意味検索頻度が所定の条件を満たすか否かを判定し、満たすと判定した場合は、受付けた単語を新語として登録部４５に通知する。

例えば、第２抽出部４４は、単語＃１を受付けた場合は、単語＃１の意味検索頻度＃１−１〜＃１−３を意味検索頻度データベース３２から抽出する。そして、第２抽出部４４は、例えば、期間＃１における意味検索頻度＃１−１の値が所定の閾値を超えているか否かを判定する。すなわち、第２抽出部４４は、直近の期間において利用者が単語＃１に興味を持ち、意味を検索しているか否かを判定する。そして、第２抽出部４４は、意味検索頻度＃１−１の値が所定の閾値を超えている場合は、単語＃１を新語として登録部４５に通知し、意味検索頻度＃１−１の値が所定の閾値を下回る場合は、単語＃１を新語とはせずに、他の単語についての処理を実行する。

なお、第２抽出部４４は、例えば、意味検索頻度＃１−１〜＃１−３の変遷に基づいて、単語＃１が新語であるか否かを判定してもよい。例えば、第２抽出部４４は、意味検索頻度＃１−１〜＃１−３の合計（すなわち、利用者の興味の積分値）が所定の閾値を超えるか否かに基づいて、単語＃１が新語であるか否かを判定してもよい。すなわち、第２抽出部４４は、利用者がどれくらい興味を有しているかに基づいて、登録候補となる単語の中から新語とする単語を抽出するのであれば、任意の条件の元、登録単語を抽出してよい。

登録部４５は、新語を意味と共に新語データベース３３に登録する。例えば、登録部４５は、第２抽出部４４から新語となる単語を受付けた場合は、インターネット上に投稿された各種の情報の中から、直近の所定の期間に投稿された情報を解析し、受付けた単語の意味を特定する。そして、登録部４５は、特定した意味を単語と対応付けて新語データベース３３に登録する。なお、登録部４５は、新語となる単語を利用者に提示し、意味を入力されることで、単語の意味を特定してもよい。

提供部４６は、新語の意味を利用者に提供する。例えば、提供部４６は、端末装置３００から単語を受付けた場合は、受付けた単語と対応付けられた意味を新語データベース３３から抽出する。そして、提供部４６は、抽出した意味を端末装置３００へと通知することで、新語の意味を利用者に提供することができる。

〔３．分野を考慮した処理について〕
ここで、第１抽出部４３および第２抽出部４４は、分野を考慮した処理を実行してもよい。例えば、第１抽出部４３は、第１分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。そして、第２抽出部４４は、第１分野とは異なる第２分野における利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出してもよい。

例えば、取得部４１は、検索クエリや投稿を行った利用者の属性を合わせて取得する。このような場合、解析部４２は、利用者の属性に基づいて、その利用者が入力した単語がどの分野で用いられているかを判定し、単語と単語が用いられている分野との組ごとに、各期間における使用頻度および意味検索頻度を算出する。

このような場合、第１抽出部４３は、単語と分野との組のうち、各期間の使用頻度が所定の条件を満たす組を登録候補として抽出する。例えば、第１抽出部４３は、単語＃１と分野＃１との組を抽出する。このような場合、第２抽出部４４は、単語＃１が含まれる組であって、分野＃１を含まない組の意味検索頻度を参照し、単語＃１に対して分野＃１とは異なる分野において利用者が興味を有しているか否かを判定する。なお、例えば、第２抽出部４４は、分野＃１とは類似しない分野と単語＃１との組の意味検索頻度を参照してもよい。そして、第２抽出部４４は、単語＃１に対して分野＃１とは異なる分野において利用者が興味を有していると判定した場合は、単語＃１を新語とする。

ここで、抽出装置１０は、単語＃１を頻繁に使用する分野以外の分野において、利用者が単語＃１に興味を有しているか否かを判定してもよい。例えば、第１抽出部４３は、分野＃１および分野＃２における単語＃１の使用頻度が所定の閾値を超える場合は、単語＃１と分野＃１および分野＃２の組を抽出する。このような場合、第２抽出部４４は、単語＃１が含まれる組であって、分野＃１および分野＃２と類似しない分野＃３において、単語＃１に対し、利用者が興味を有しているか否かを判定してもよい。

例えば、図６は、実施形態に係る端末装置が分野を考慮して新語を抽出する処理の一例を示す図である。なお、図６に示す例では、単語＃４および単語＃５について、ある期間における使用頻度と意味検索頻度とを、第１分野〜第３分野のそれぞれについてプロットしたグラフを記載した。

例えば、図６に示すように、単語＃４の使用頻度は、第１分野において所定の閾値Ｃ１を超えているものの、第２分野および第３分野では閾値Ｃ１を超えていない。一方、単語＃４の意味検索頻度は、第１分野および第２分野では所定の閾値Ｃ２を下回るものの、第３分野では意味検索頻度が所定の閾値Ｃ２を上回っている。このような場合、第１分野で使用されている単語＃４に対し、第３分野の利用者が興味を有していると推定される。そこで、抽出装置１０は、単語＃４を新語として抽出する。

一方、図６に示すように、単語＃５の使用頻度は、第２分野において所定の閾値Ｃ１を超えているものの、第１分野および第３分野では閾値Ｃ１を超えていない。また、単語＃５の意味検索頻度は、第１分野および第３分野で所定の閾値Ｃ２を下回り、第２分野で意味検索頻度が所定の閾値Ｃ２を上回っている。このような場合、単語＃５は、第２分野に属する利用者が良く使用し、意味の検索を行っている単語、すなわち、専門用語であると推定される。このような専門用語は、新語としてはふさわしくないと考えられる。そこで、抽出装置１０は、単語＃５を新語からは除外する。

〔４．付与処理の流れの一例〕
続いて、図７を用いて、抽出装置１０が実行する付与処理の流れについて説明する。図７は、実施形態にかかる抽出装置が実行する抽出処理の流れの一例を示すフローチャートである。例えば、抽出装置１０は、投稿された単語を収集し（ステップＳ１０１）、検索ログを収集する（ステップＳ１０２）。そして、抽出装置１０は、所定の期間内における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する（ステップＳ１０３）。また、抽出装置１０は、登録候補となる単語に対する利用者の興味の度合いに基づいて、新語とする単語を抽出する（ステップＳ１０４）。そして、抽出装置１０は、抽出した単語を新語として辞書に登録し（ステップＳ１０５）、処理を終了する。

〔５．変形例〕
上記では、抽出装置１０による付与処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、抽出装置１０が実行する抽出処理のバリエーションについて説明する。

〔５−１．辞書を考慮した処理〕
例えば、抽出装置１０は、既存の辞書を考慮した抽出処理を実行してもよい。例えば、抽出装置１０は、入力単語が既存の辞書に登録されているか否かを判定し、登録されている場合には、新語ではないと判定してもよい。また、抽出装置１０は、意味解析技術や周辺語を用いた処理等により、入力単語が既存の辞書に登録されている意味で使用されているか否かを判定し、入力単語が既存の辞書に登録されている意味で使用されていると判定した場合には、新語ではないと判定してもよい。また、抽出装置１０は、病名等といった専門用語の辞書を用いて、入力単語が専門用語であるか否かを判定し、専門用語である場合は、新語ではないと判定してもよい。

〔５−２．新語について〕
ここで、抽出装置１０は、任意の単語を新語として抽出してもよい。例えば、抽出装置１０は、キャラクターの名称や、ゲームや映画等の名称、リメイク作品のタイトル等を新語として抽出してもよい。また、抽出装置１０は、過去に使用された単語またはかかる単語の略語や変形後であって、意味が変化した単語を新語としてもよい。

〔５−３．新語の提供について〕
ここで、抽出装置１０によって抽出された新語は、上述したオンライン辞書サービス以外にも、任意のサービスに用いられてよい。例えば、抽出装置１０は、抽出した新語のうち、使用頻度が所定の閾値を超える新語を意味とともに利用者に対して提供することで、話題になっている新語やその新語の意味を提供するサジェストサービスを提供してもよい。

〔５−４．装置構成〕
抽出装置１０は、端末装置３００と情報の送受信を行うフロントエンドサーバと、上述した抽出処理を実行するバックエンドサーバにより実現されてもよい。このような場合、バックエンドサーバは、取得部４１、解析部４２、第１抽出部４３、第２抽出部４４、および登録部４５を有する情報処理装置により実現される。また、フロントエンドサーバは、提供部４６を有する情報処理装置により実現される。なお、例えば、バックエンドサーバは、取得部４１および解析部４２を有するデータベース生成サーバ、第１抽出部４３を有する第１抽出サーバ、および第２抽出部４４を有する第２抽出サーバが協調して動作することで実現されてもよい。

また、抽出装置１０は、また、記憶部３０に格納された各データベース３１〜３２は、抽出装置１０の内部ではなく、例えば、外部のストレージサーバ等に格納されていてもよい。

〔５−５．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔６．プログラム〕
また、上述してきた実施形態に係る抽出装置１０は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が抽出装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔７．効果〕
上述したように、抽出装置１０は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置１０は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このように、抽出装置１０は、単に使用頻度が高い単語ではなく、それまであまり使われていなかった単語や使用態様が過去とは変化した単語であって、利用者が興味を有する単語を新語として抽出する。このため、抽出装置１０は、利用者が意味を知りたいと所望する新語の抽出精度を向上させることができる。

また、抽出装置１０は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語、すなわち、入力単語の中から、登録候補となる単語を抽出する。このため、抽出装置１０は、新語が生じやすいインターネット上における入力単語の中から、新語をいち早く抽出することができる。

また、抽出装置１０は、登録候補となる単語として、所定の期間における使用頻度が所定の閾値よりも低い単語を抽出する。例えば、抽出装置１０は、登録候補となる単語として、第１の期間における使用頻度が第１の閾値よりも低く、かつ、第１の期間よりも後の第２の期間における使用頻度が第２の閾値よりも高い単語を抽出する。このため、例えば、抽出装置１０は、直近の第１期間まではあまり使用されていなかったが、直近の第１期間から使用頻度が上昇した単語、すなわち、最近使用されていなかった単語を新語の候補として抽出することができる。

また、抽出装置１０は、単語に対する利用者の興味の度合いとして、単語の意味を検索または質問するための検索クエリが入力された回数に基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このため、抽出装置１０は、意味の推測が多くの人にとって困難であると推定される単語や、意味に対する利用者の興味が強い単語を新語として抽出することができる。

また、抽出装置１０は、単語に対する利用者の興味の度合いとして、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、または投稿に対する評価の内容の少なくともいずれかに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このため、抽出装置１０は、利用者の興味を反映する各種の情報に基づき、新語を抽出するので、新語の抽出精度を向上させることができる。

また、抽出装置１０は、第１の分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置１０は、第１の分野とは異なる第２の分野における利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このため、抽出装置１０は、ある分野に属する利用者の使用頻度が高い単語であって、異なる分野に属する利用者からの興味が強い単語を新語として抽出することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。

１０抽出装置
２０通信部
３０記憶部
３１使用頻度データベース
３２意味検索頻度データベース
３３新語データベース
４０制御部
４１取得部
４２解析部
４３第１抽出部
４４第２抽出部
４５登録部
４６提供部
１００ＳＮＳサーバ
２００検索サーバ
３００端末装置

Claims

所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第１の抽出部と、
前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第２の抽出部と
を有することを特徴とする抽出装置。
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第１の抽出部と、
前記登録候補となる単語のうち、第１期間における使用態様と、当該第１期間よりも後の第２期間における使用態様とが異なる単語を登録対象として抽出する第２の抽出部と
を有することを特徴とする抽出装置。
前記第１の抽出部は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語の中から、前記登録候補となる単語を抽出する
ことを特徴とする請求項１または２に記載の抽出装置。
前記第１の抽出部は、前記登録候補となる単語として、所定の期間における使用頻度が所定の閾値よりも低い単語を抽出する
ことを特徴とする請求項１または２に記載の抽出装置。
前記第１の抽出部は、前記登録候補となる単語として、第１の期間における使用頻度が第１の閾値よりも低く、かつ、前記第１の期間よりも後の第２の期間における使用頻度が第２の閾値よりも高い単語を抽出する
ことを特徴とする請求項１〜４のうちいずれか１つに記載の抽出装置。
前記第２の抽出部は、さらに、前記単語の意味を質問する内容の投稿が行われた回数、当該投稿の閲覧回数、または当該投稿に対する評価の内容の少なくともいずれかに基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する
ことを特徴とする請求項１〜５のうちいずれか１つに記載の抽出装置。
前記第１の抽出部は、第１の分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出し、
前記第２の抽出部は、前記第１の分野とは異なる第２の分野における利用者による入力態様に基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する
ことを特徴とする請求項１〜６のうちいずれか１つに記載の抽出装置。
抽出装置が実行する抽出方法であって、
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第１の抽出工程と、
前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第２の抽出工程と
を含むことを特徴とする抽出方法。
コンピュータに
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第１の抽出手順と、
前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第２の抽出手順と
を実行させるための抽出プログラム。
抽出装置が実行する抽出方法であって、
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第１の抽出工程と、
前記登録候補となる単語のうち、第１期間における使用態様と、当該第１期間よりも後の第２期間における使用態様とが異なる単語を登録対象として抽出する第２の抽出工程と
を含むことを特徴とする抽出方法。
コンピュータに
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第１の抽出手順と、
前記登録候補となる単語のうち、第１期間における使用態様と、当該第１期間よりも後の第２期間における使用態様とが異なる単語を登録対象として抽出する第２の抽出手順と
を実行させるための抽出プログラム。