JP6789755B2 - 抽出装置、抽出方法および抽出プログラム - Google Patents

抽出装置、抽出方法および抽出プログラム Download PDF

Info

Publication number
JP6789755B2
JP6789755B2 JP2016206155A JP2016206155A JP6789755B2 JP 6789755 B2 JP6789755 B2 JP 6789755B2 JP 2016206155 A JP2016206155 A JP 2016206155A JP 2016206155 A JP2016206155 A JP 2016206155A JP 6789755 B2 JP6789755 B2 JP 6789755B2
Authority
JP
Japan
Prior art keywords
word
words
extraction
period
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016206155A
Other languages
English (en)
Other versions
JP2018067193A (ja
Inventor
正嗣 志立
正嗣 志立
伸裕 鍜治
伸裕 鍜治
伸幸 清水
伸幸 清水
山下 達雄
達雄 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016206155A priority Critical patent/JP6789755B2/ja
Publication of JP2018067193A publication Critical patent/JP2018067193A/ja
Application granted granted Critical
Publication of JP6789755B2 publication Critical patent/JP6789755B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、抽出装置、抽出方法および抽出プログラムに関する。
従来、文章の解析を行う技術が知られている。このような解析技術の一例として、インターネット上に存在する単語の中から、辞書に登録されていない単語を抽出し、抽出した単語を新たな単語、すなわち新語として辞書に登録する技術が知られている。
特開2014−071541号公報 特開2005−242849号公報 特開2004−318480号公報 特開2003−167894号公報
しかしながら、上記の方法では、利用者が意味を知りたいと所望する新語を適切に抽出できるとは限らなかった。
例えば、新語を抽出する手法として、所定期間内における投稿回数が所定の閾値を超えた単語を抽出する手法が考えられる。しかしながら、このような手法では、単に話題となっている単語であって、利用者が意味を知っている既存の単語を新語として抽出する恐れがある。一方、辞書に掲載されていない単語を抽出した場合には、意味が自明な略語等の単語を新語として抽出する恐れがある。
本願は、上記に鑑みてなされたものであって、利用者が意味を知りたいと所望する新語の抽出精度を向上させることを目的とする。
本願に係る抽出装置は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出部と、前記単語に対する利用者の興味の度合いに基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する第2の抽出部とを有することを特徴とする。
実施形態の一態様によれば、利用者が意味を知りたいと所望する新語の抽出精度を向上させる。
図1は、実施形態に係る抽出装置が実行する抽出処理の一例を示す図である。 図2は、実施形態に係る抽出装置の構成例を示す図である。 図3は、実施形態に係る使用頻度データベースに登録される情報の一例を示す図である。 図4は、実施形態に係る意味検索頻度データベースに登録される情報の一例を示す図である。 図5は、実施形態に係る新語データベースに登録される情報の一例を示す図である。 図6は、実施形態に係る端末装置が分野を考慮して新語を抽出する処理の一例を示す図である。 図7は、実施形態にかかる抽出装置が実行する抽出処理の流れの一例を示すフローチャートである。 図8は、ハードウェア構成の一例を示す図である。
以下に、本願に係る抽出装置、抽出方法および抽出プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法および抽出プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1−1.抽出装置の一例〕
まず、図1を用いて、抽出装置が実行する抽出処理の一例について説明する。図1は、実施形態に係る抽出装置が実行する抽出処理の一例を示す図である。図1では、抽出装置10は、インターネット等の所定のネットワークNを介して、SNS(Social Networking Service)サーバ100、検索サーバ200および端末装置300(例えば、図2を参照)と通信可能である。なお、抽出装置10は、任意の数のSNSサーバ100や任意の数の検索サーバ200、任意の数の端末装置300と通信可能であってよい。
SNSサーバ100は、各種SNSに関するサービスを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。また、SNSサーバ100は、ブログ、マイクロブログ、ウェブページ、メッセージ、静止画像、動画像、音声等といった各種コンテンツの投稿を受付けると、受付けたコンテンツを公開することで、コンテンツに関する各種の情報を世間一般に拡散させることができる。なお、以下の説明では、SNSサーバ100は、少なくとも、利用者が投稿したテキストを他の利用者へと公開するものとする。
検索サーバ200は、インターネット等のネットワーク上に投稿されたコンテンツの検索を行う検索サービスを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、検索サーバ200は、利用者が使用する端末装置300から検索クエリを受信すると、受信した検索クエリと関連性が高いウェブコンテンツを検索し、検索結果を端末装置300へと配信する。なお、検索サーバ200は、少なくとも、利用者が入力したテキストを検索クエリとする検索サービスを提供するものとする。また、検索サーバ200は、利用者が入力した検索クエリのログを管理する機能を有するものとする。
抽出装置10は、インターネット等のネットワーク上から、既存の辞書に登録されていない新たな単語、すなわち、新語を抽出する抽出処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、抽出装置10は、SNSサーバ100から、利用者の投稿を取得し、検索サーバ200から、利用者が入力した検索クエリのログを取得する。また、抽出装置10は、取得した投稿や検索クエリのログから、形態素解析等の技術を用いて、利用者が入力した単語を取得する。そして、抽出装置10は、後述した抽出処理を実行することで、利用者が入力した単語の中から新語を抽出し、抽出した新語を辞書に登録する。
このように抽出装置10が抽出した新語は、任意の処理に用いられる。例えば、抽出装置10は、辞書に登録した新語の意味をインターネット上から取得し、取得した新語の意味を新語とともに辞書に登録する。そして、抽出装置10は、利用者からある単語の意味を問い合わせる問合せ要求を受付けた場合は、その単語と対応付けられた意味を辞書から抽出し、抽出した意味を利用者に提供するといったオンライン辞書サービスを提供する。
〔1−2.新語について〕
ここで、抽出装置10が抽出する「新語」とは、抽出装置10が記憶する辞書に登録されていない単語、すなわち、単に新規な単語を示すものに限定されるものではない。例えば、「新語」とは、あるコンテンツにおけるキャラクター名等、流行によって利用者の目に留まる頻度が高くなり、利用者が意味を知りたがっている単語を含むものである。また、「新語」とは、ある分野の利用者のみが使用する略語等の使用される頻度が高くなることで、他の分野の利用者が目にする可能性が高くなった単語のうち、利用者が意味を知りたがっている単語や、利用者が意味を類推し辛い単語を含む概念である。
また、「新語」とは、例えば「尊い」等、文字列として新規な単語ではないものの、過去に使用されていた用法とは異なる用法で使用される頻度が高くなったことで、利用者が新たな用法(すなわち、意味)を知りたがっている単語や、利用者が意味を類推し辛い単語を含む概念である。また、「新語」とは、単純に新規な単語ではなく、いままで一部の利用者が使用していたが、流行等によって他の利用者が目にする頻度が上昇し、他の利用者が意味を知りたがっている単語等を含む概念である。
また、「新語」とは、例えば、ネットジャーゴン等、一部の利用者が使用している単語のうち、他の利用者が意味を知りたがっている単語を含む概念である。すなわち、抽出装置10が抽出する「新語」とは、単純に文字列が新規な単語という概念ではなく、インターネット上で使用されている単語のうち、一部の利用者が意味を理解した状態で使用する単語であって、他の利用者が目にする頻度が所定の閾値を超え、意味を知りたがっている単語を含む概念である。
〔1−3.抽出処理について〕
ここで、従来技術では、所定期間内における投稿回数が所定の閾値を超えた単語を新語として抽出する手法が考えられる。しかしながら、このような手法では、単に話題となっている単語を新語とするので、新規ではない単語であって多くの利用者が意味を知っている単語を新語として抽出する恐れがある。また、辞書に掲載されていない単語を抽出した場合には、例えば、地名の略語とイベントの略語とをつなげた略語等、一目で多くの利用者が意味を類推可能な単語を新語として抽出する恐れがある。このため、従来技術では、一部の利用者が意味を理解した状態で使用する単語であって、他の利用者が目にする頻度が所定の閾値を超え、意味を知りたがっている単語を「新語」として抽出することができない。
このような「新語」が存在する場合、多くの利用者は、意味を知りたがると予測される。しかしながら、このような「新語」を精度良く抽出できない場合は、利用者から意味の問い合わせを受ける前に、「新語」や「新語」の意味を辞書に登録することができず、オンライン辞書サービスにおいて利用者に意味の提供を行うことができない。
そこで、抽出装置10は、以下の抽出処理を実行する。まず、抽出装置10は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置10は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を新語として抽出する。
例えば、抽出装置10は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語(以下、「入力単語」と総称する。)の中から、登録候補となる単語を抽出する。より具体的には、抽出装置10は、SNSサーバ100に利用者が投稿したテキストに含まれる単語や、検索サーバ200から受信した検索クエリのログに含まれる単語の中から、登録候補となる単語を抽出する。そして、抽出装置10は、利用者の興味の度合いに基づいて、登録候補となる単語の中から新語を抽出する。
〔1−4.使用頻度について〕
ここで、抽出装置10は、入力単語が使用される頻度に基づいて、登録候補となる単語を入力単語の中から抽出する。例えば、抽出処理を実行する日時を基準とした過去1月の範囲を第1の期間とし、第1の期間よりも過去1月の期間を第2の期間とし、第2の期間よりも過去1月の期間を第3の期間とする。なお、各期間の長さは、1月のみならず、任意の期間(例えば、数日或いは数時間等)が採用可能であり、期間ごとに異なる長さの期間が設定されてもよい。
ここで、抽出処理を実行する直近の期間である、第1の期間の間、入力単語が登録されたり検索されたりした頻度(以下、「使用頻度」と記載する。)が所定の閾値を超え、かつ、第2の期間または第3の期間の間、入力単語の使用頻度が所定の閾値よりも低い場合は、入力単語が直近の期間で急に使用され始めたと推定することができる。このように、所定の期間における使用頻度が所定の閾値よりも低いが、直近の期間において急に使用され始めた単語は、新語である可能性が高いと推定される。
そこで、抽出装置10は、登録候補となる単語として、所定の期間における使用頻度が所定の閾値よりも低い単語を抽出する。より具体的には、抽出装置10は、登録候補となる単語として、抽出処理を行う日時を基準として、ある一定期間の間、使用頻度が上昇しているが、その期間よりも前には、あまり使用されていなかった(若しくは、まったく使用されていなかった)単語を新語の候補として抽出する。例えば、抽出装置10は、登録候補となる単語として、第1の期間における使用頻度が第1の閾値よりも低く、かつ、第1の期間よりも後の第2の期間における使用頻度が第2の閾値よりも高い単語を入力単語から抽出する。
ここで、第1の閾値と第2の閾値とは、同じ使用頻度を示す値であってもよく、異なる使用頻度を示す値であってもよい。このような処理の結果、抽出装置10は、抽出処理を実行する日時を基準として、ある期間の間は使用されていなかったが、最近使用され始めている単語を新語の候補として抽出することができる。
なお、抽出装置10は、入力単語の使用頻度に基づいて、登録候補となる単語を抽出するのであれば、任意の条件を用いてよい。例えば、抽出装置10は、第1の期間における使用頻度が所定の閾値を超える場合や、使用頻度の増加量が所定の閾値を超える場合には、入力単語が頻繁に使用されている単語(いわゆる、バズワード)であるとして、登録候補として抽出してもよい。
〔1−5.使用態様について〕
また、抽出装置10は、単語の使用態様に基づいて、登録候補となる単語を入力単語から抽出してもよい。例えば、抽出装置10は、第1の期間における使用頻度が所定の閾値を超える単語や、使用頻度の増加量が所定の閾値を超える単語を抽出する。また、抽出装置10は、抽出した単語を含む文章や単語の説明文であって、第1の期間よりも前の期間に投稿された説明文と、第1の期間の間に投稿された説明文とをそれぞれ収集する。また、抽出装置10は、形態素解析やtf−idf(Term Frequency-Inverse Document Frequency)、w2v(word2vector)等の技術を用いて、第1の期間よりも前の期間に投稿された説明文における単語の用法(例えば、意味)と、第1の期間に投稿された説明文における単語の用法とを比較する。
そして、抽出装置10は、第1の期間よりも前の期間に投稿された説明文における単語の用法と、第1の期間に投稿された説明文における単語の用法とが異なる場合には、単語が最近使われていない意味で持ちいられている単語であると判定し、登録候補として抽出する。なお、抽出装置10は、第1の期間よりも前の期間に投稿された説明文における単語の用法と、第1の期間に投稿された説明文における単語の用法とが同一または類似する場合には、登録候補として抽出せずともよい。
すなわち、抽出装置10は、抽出処理の実行日時において、文字列として最近使われていなかった単語や、最近使われていなかった用法で用いられている単語を、登録候補として、使用頻度や使用態様に基づいて抽出する。なお、抽出装置10は、使用頻度と使用態様とを組み合わせて用いてもよい。例えば、抽出装置10は、過去に所定の閾値よりも多い使用頻度で使用されていたが、最近は使用頻度が所定の閾値を越えていなかった単語であって、過去に使用されていた際の使用態様と、最近の使用態様とが異なる単語を、登録候補として抽出してもよい。
〔1−6.周辺語の利用について〕
ここで、抽出装置10は、単語とともに用いられる単語、すなわち、文脈上の周辺語を考慮して、登録候補となる単語を抽出してもよい。例えば、抽出装置10は、ある単語について、第1の期間(例えば、処理日時の1月前から処理日時迄)における周辺語と、第2の期間(例えば、処理日時の1年前から処理日時の1月前迄)における周辺語とが異なる場合は、最近用いられていなかった用法で単語が使用されていると判定し、登録候補となる単語としてもよい。
〔1−7.利用者の興味の度合いについて〕
また、抽出装置10は、登録候補となる単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から新語を抽出する。ここで、登録候補となる単語に対する利用者の興味の度合いとは、例えば、利用者が登録候補となる単語の意味をどれくらい知りたがっているか、登録候補となる単語が有する意味の推測がそれくらい困難であるか等を示す情報である。
例えば、ある単語が存在する場合に、その単語の意味を他の利用者に質問する内容の投稿や、その投稿が閲覧された回数、その投稿に対する評価の内容(例えば、「いいね!」等)、「○○とは?」等といった単語の意味を検索する検索クエリが入力された回数等、単語の意味を問い合わせる各種の行為が行われた頻度(以下、「意味検索頻度」と記載する。)は、単語の意味を利用者がどれくらい知りたがっているかの指標となる。例えば、ある単語の意味検索頻度が所定の閾値を超える場合には、単語に対する利用者の興味が高いといった推定や、単語の文字列から意味の推定が困難であるといった推定が可能である。また、単語の意味検索頻度が所定の閾値を下回る場合には、単語に対する利用者の興味が低いといった推定や、単語の文字列から意味の推定が容易であるといった推定が可能である。
ここで、過去においてはあまり使用されていなかったが、直近1週間において使用頻度が上層した単語や、使用されるようになった単語、過去において使用された後で、あまり使用されなくなり、直近1週間において異なる用法で使用されるようになった単語等は、新語である可能性が高い。しかしながら、このような単語の中には、推定が容易な略語等、利用者が辞書で調べる必要が無い単語も含まれる。また、利用者の興味があまり高くない場合は、単語の意味を調べる必要があまりないとも考えられる。
そこで、抽出装置10は、利用者の興味の度合いとして、単語の意味を検索または質問するための検索クエリが入力された回数に基づく意味検索頻度を取得する。なお、抽出装置10は、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、投稿に対する評価の内容の少なくともいずれか1つに基づく意味検索頻度を取得してもよい。そして、抽出装置10は、取得した意味検索頻度に基づいて、登録候補となる単語の中から新語として登録する単語を抽出する。
例えば、抽出装置10は、直近1週間において、単語の意味を検索または質問するための検索クエリが入力された回数、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、投稿に対する評価の内容の少なくともいずれか1つに基づいて、意味検索頻度の値を算出する。より具体的には、抽出装置10は、一定期間ごとに、「○○とは?」等といった単語の意味を検索または質問するための検索クエリが入力された頻度を算出する。そして、抽出装置10は、算出した頻度が所定の閾値を超える場合は、利用者が単語に興味があると判定し、その単語を新語として抽出する。
〔1−8.モデルの構築について〕
ここで、抽出装置10は、「○○とは?」等といった意味を検索する検索クエリや投稿の出現回数や出現頻度等を素性として、登録候補となる単語の中から新語として登録する単語を抽出するモデルの構築を行ってもよい。例えば、抽出装置10は、検索クエリのログを入力すると、登録候補となる単語について、その単語の意味を検索する検索クエリが入力された頻度を算出し、算出した頻度が所定の閾値よりも高い場合には、その単語を新語とする旨を出力するモデルの構築や学習を行ってもよい。
なお、抽出装置10は、検索ログ以外にも、単語の意味を質問する投稿が行われた頻度や、その投稿が閲覧された頻度、投稿に対して好意的な評価が行われた頻度等から、利用者が単語(若しくは、単語の意味)に興味を持っていると推定される場合は、単語を新語とする旨を出力するモデルの構築や学習を行ってもよい。すなわち、抽出装置10は、利用者の単語に対する興味の度合いに基づいて、登録候補となる単語の中から、利用者の興味が所定の閾値よりも高いと推定される単語を特定するのであれば、任意のデータから任意の情報を出力するモデルの構築や学習を行ってよい。
〔1−9.分野を考慮した新語の抽出について〕
ここで、抽出装置10は、単語が使用されている分野に基づいて、新語を抽出してもよい。すなわち、抽出装置10は、単語が使用されている分野と、単語に興味を有する分野とが異なる場合には、単語を新語として抽出してもよい。例えば、アニメに興味がある利用者間において使用頻度が高い単語や、使用態様が変化した単語を登録候補として抽出したとしても、アニメに興味が無い利用者がその単語に興味を有さない場合には、新語として登録してもあまり意味がないと考えられる。同様に、医療分野等において使用頻度が高い単語や、使用態様が変化した単語を登録候補として抽出したとしても、医療分野以外の利用者がその単語に興味を有さない場合には、新語として登録してもあまり意味がないと考えられる。
そこで、抽出装置10は、第1の分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置10は、第1の分野とは異なる第2の分野における利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出してもよい。
例えば、抽出装置10は、単語を検索クエリとして入力した利用者や単語を含むテキストを投稿した利用者の年齢、性別、住所等といったデモグラフィック属性や好みなどといったサイコグラフィック属性等を収集する。そして、抽出装置10は、単語ごとに、所定の分野に属する利用者による使用頻度または使用態様を特定し、特定した使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。すなわち、抽出装置10は、所定の第1の分野に属する利用者による使用頻度や使用態様を、第1の分野における使用頻度や使用態様として特定する。
続いて、抽出装置10は、登録候補となる単語の意味を検索する検索クエリを入力した利用者の属性や、単語の意味を質問する投稿を行った利用者、投稿を閲覧した利用者、投稿を評価した利用者等の属性に基づいて、その単語に興味を有する利用者が属する分野を特定する。例えば、抽出装置10は、各利用者の属性から、各利用者が属する分野を推定し、推定した分野のうち最も数が多い分野(すなわち、質問等を行った利用者が最も多い分野)を第2の分野として特定する。
そして、抽出装置10は、登録候補となる単語のうち、意味検索頻度が所定の閾値を超える単語であって、第1の分野と第2の分野とが異なる分野である単語を新語として抽出する。例えば、抽出装置10は、単語の使用頻度が所定の閾値を超える分野と、単語の意味を検索または質問する頻度が所定の閾値を超える分野とが異なる単語を、新語として抽出する。
例えば、抽出装置10は、医療分野の業務に従事する利用者や、医療分野に興味がある利用者による使用頻度が所定の閾値を超える単語を登録候補として抽出する。そして、抽出装置10は、アニメ好きの利用者が、抽出した単語の意味の検索や質問を頻繁に行っていた場合には、その単語を新語として抽出する。
なお、抽出装置10は、単語が所定の閾値を超える頻度で使用されている利用者の分野と、単語に興味を有する利用者の分野とが異なる場合に、単語を新語とするのであれば、上述した処理以外にも、任意の処理を実行して良い。例えば、抽出装置10は、利用者の属性から利用者が属する分野を特定し、特定した分野を考慮して、登録候補となる単語の中から新語とする単語を抽出するように、上述したモデルの構成や学習を行ってもよい。
〔1−10.抽出処理の一例について〕
次に、図1を用いて、抽出装置10が実行する抽出処理の一例について説明する。例えば、SNSサーバ100から、投稿された単語を取得する(ステップS1)。また、抽出装置10は、検索サーバ200から、検索クエリの履歴を取得する(ステップS2)。
このような場合、抽出装置10は、投稿された単語や、検索クエリの履歴から、入力単語を特定する。そして、抽出装置10は、所定の期間内における使用頻度に基づいて、登録候補となる単語を入力単語から抽出する(ステップS3)。例えば、図1に示す例では、抽出装置10は、投稿された単語や検索クエリの履歴から、入力単語として、単語#1〜#3を特定する。このような場合、抽出装置10は、抽出処理の実行日時を基準日時として、一月ごとに、単語#1〜#3が投稿された回数や検索クエリとして入力された回数に基づく使用頻度を算出する。
例えば、抽出装置10は、基準日時から1月前までの期間#1、基準日時の2月前から1月前までの期間#2、基準日時の3月前から2月前までの期間#3等を設定する。続いて、抽出装置10は、期間#1において全単語が入力または検索された回数、投稿総数、若しくは検索総数等に対して、単語#1が入力または検索された回数に基づき、期間#1において単語#1が使用された頻度を示す使用頻度#1−1を算出する。同様に、抽出装置10は、期間#2における単語#1の使用頻度#1−2、期間#3における単語#1の使用頻度#1−3を算出する。また、抽出装置10は、期間#1〜#3における単語#2の使用頻度#2−1〜#2−3、単語#3の使用頻度#3−1〜#3−3を算出する。そして、抽出装置10は、算出した使用頻度#1−1〜#1−3、使用頻度#2−1〜#2−3、使用頻度#3−1〜#3−3に基づいて、単語#1〜#3の中から、登録候補となる単語を抽出する。
例えば、図1中(A)に示す例では、縦軸を使用頻度とし、横軸を期間として、各単語#1〜#3の使用頻度#1−1〜#1−3、使用頻度#2−1〜#2−3、使用頻度#3−1〜#3−3の推移を示すグラフを記載した。かかるグラフに示されるように、単語#1の使用頻度が過去に所定の閾値C1よりも多く使用され、その後における使用頻度が閾値C1よりも低くなったが、その後、使用頻度が閾値C1よりも高くなった場合には、利用者が単語#1を新たな用法で使用し始めた可能性がある。このため、抽出装置10は、例えば、単語#1の最新の使用頻度#1−1が所定の閾値C1を超えており、かつ、使用頻度#1−2が所定の閾値C1よりも低い場合は、単語#1を登録候補として抽出する。
なお、例えば、抽出装置10は、単語#1の最新の使用頻度#1−1が所定の閾値C1を超えており、使用頻度#1−2が所定の閾値C2よりも低く、かつ、使用頻度#1−3が所定の閾値C1を超えている場合は、期間#1における単語#1の用法と、期間#3における単語#1の用法とを比較する。すなわち、抽出装置10は、単語#1の用法が変化したか否かを判定する。そして、抽出装置10は、期間#1における単語#1の用法と、期間#3における単語#1の用法とが変化した場合は、単語#1を登録候補として抽出してもよい。
また、図1中(A)に示す例では、単語#2の使用頻度が過去に所定の閾値C1よりも多く使用されていたものの、徐々に使用頻度が低下し、期間#1においては所定の閾値C1を下回っている。このような単語#2は、過去に流行した結果、既に利用者が意味を知っている可能性が高い。そこで、抽出装置10は、単語#2の使用頻度#2−3、#2−2、#2−1が徐々に減少した場合は、単語#2を登録候補として抽出しない。
また、図1中(A)に示す例では、単語#3の使用頻度が期間#2から徐々に上昇し、期間#1では、使用頻度が所定の閾値C1を上回っている。このような単語#3は、新たに使用が行われた単語である可能性が高い。そこで、抽出装置10は、単語#3の使用頻度#3−3、#3−2、#3−1が徐々に情報している場合は、単語#3を登録候補として抽出する。
続いて、抽出装置10は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語から新語を抽出する(ステップS4)。例えば、抽出装置10は、単語#1が登録候補として抽出された場合、期間#1〜#3において「単語#1とは?」等といった意味を検索する検索クエリの出現頻度や、意味を問い合わせる投稿が閲覧された回数等に基づく意味検索頻度#1−1〜#1−3を算出する。また、抽出装置10は、単語#3が登録候補として抽出された場合、期間#1〜#3において「単語#3とは?」等といった意味を検索する検索クエリの出現頻度や、意味を問い合わせる投稿が閲覧された回数等に基づく意味検索頻度#3−1〜#3−3を算出する。なお、図1に示す例では、意味検索頻度#1−1、#3−1以外の表示を省略した。
すなわち、抽出装置10は、基準日時から所定の期間の間における、登録候補となる単語の意味検索頻度を算出する。そして、抽出装置10は、算出した意味検索頻度に基づいて、利用者の興味が所定の閾値を超えると推定される単語を特定し、特定した単語を新語として抽出する。
例えば、図1中(B)に示す例では、縦軸を意味検索頻度とし、横軸を期間として、単語#1、単語#3の意味検索頻度#1−1〜#1〜3、#3−1〜#3−3の推移を示すグラフを記載した。かかるグラフに示されるように、単語#1については、過去(期間#3)において意味検索頻度#1−3が所定の閾値C2を超えているが、その後、意味検索頻度#1−2、#1−1が所定の閾値C2を下回っている。このような場合、単語#1は、各利用者が意味を知っており、興味を有していないと推定される。このため、抽出装置10は、単語#1を新語として抽出しない。
一方、図1中(B)に示す例では、単語#3の意味検索頻度が期間#2から徐々に上昇し、期間#1において所定の閾値C2を超えている。このような場合、単語#3は、各利用者が意味を検索している、すなわち、各利用者が興味を有している単語であると推定される。このため、抽出装置10は、単語#3を新語として抽出する。
その後、抽出装置10は、新語の意味を取得し、新語と意味とを対応付けて登録する(ステップS5)。例えば、抽出装置10は、ネットワーク上に投稿された情報から、新語として抽出した単語#3の意味#3を検索する。ここで、抽出装置10は、期間#1において投稿された情報等、基準となる日時から所定の範囲内に収まる日時に投稿された情報から意味を検索するのが望ましい。そして、抽出装置10は、単語#3と意味#3とを対応付けて所定のデータベース(例えば、新語データベース33)に登録する。この結果、抽出装置10は、最近使われていなかった単語であって、利用者が意味を知りたがっている単語(興味を有する単語)を新語とし、かかる新語の意味を利用者に提供するオンライン辞書サービスを提供することができる。
〔2.抽出装置の構成〕
以下、上記した抽出処理を実現する抽出装置10が有する機能構成の一例について説明する。図2は、実施形態に係る抽出装置の構成例を示す図である。図2に示すように、抽出装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、SNSサーバ100や検索サーバ200との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、使用頻度データベース31、意味検索頻度データベース32、および新語データベース33(以下、「各データベース31〜33」と総称する場合がある)を記憶する。
使用頻度データベース31には、単語の使用頻度が格納される。例えば、図3は、実施形態に係る使用頻度データベースに登録される情報の一例を示す図である。図3に示すように、使用頻度データベース31には、「単語」、「期間#1」、「期間#2」、および「期間#3」といった項目を有する情報が登録される。ここで、「単語」とは、検索クエリや投稿されたテキストから抽出された単語である。また、使用頻度データベース31には、「期間#1」〜「期間#3」として、抽出処理を実行する日時を基準とする各期間における使用頻度が登録される。なお、各期間のうち、「期間#1」が最も基準とする日時に近い期間であるものとする。また、各期間は、同一の長さの期間が設定される必要はない。
例えば、図3に示す例では、使用頻度データベース31には、単語「単語#1」、期間#1「使用頻度#1−1」、期間#2「使用頻度#1−2」、および期間#3「使用頻度#1−3」が対応付けて登録されている。このような情報は、例えば、期間#1における「単語#1」の使用頻度が「使用頻度#1−1」であり、期間#2における使用頻度が「使用頻度#1−2」であり、期間#3における使用頻度が「使用頻度#1−3」である旨を示す。
なお、図3に示す例では、「単語#1」や「使用頻度#1−1」といった概念的な値について記載したが、実際には、単語として抽出された単語のテキストデータや、使用頻度を示す数値等が登録されることとなる。
図2に戻り、説明を続ける。意味検索頻度データベース32には、単語の意味検索頻度が登録される。例えば、図4は、実施形態に係る意味検索頻度データベースに登録される情報の一例を示す図である。図4に示すように、意味検索頻度データベース32には、「単語」、「期間#1」、「期間#2」、および「期間#3」といった項目を有する情報が登録される。ここで、図4に示すように、意味検索頻度データベース32には、「期間#1」〜「期間#3」として、抽出処理を実行する日時を基準とする各期間における意味検索頻度が登録される。なお、図3と同様に、各期間のうち、「期間#1」が最も基準とする日時に近い期間であるものとし、各期間は、同一の長さの期間が設定される必要はない。
例えば、図4に示す例では、意味検索頻度データベース32には、単語「単語#1」、期間#1「意味検索頻度#1−1」、期間#2「意味検索頻度#1−2」、および期間#3「意味検索頻度#1−3」が対応付けて登録されている。このような情報は、例えば、期間#1における「単語#1」の意味検索頻度が「意味検索頻度#1−1」であり、期間#2における意味検索頻度が「意味検索頻度#1−2」であり、期間#3における意味検索頻度が「意味検索頻度#1−3」である旨を示す。
なお、図4に示す例では、「単語#1」や「意味検索頻度#1−1」といった概念的な値について記載したが、実際には、単語として抽出された単語のテキストデータや、意味検索頻度を示す数値等が登録されることとなる。
図2に戻り、説明を続ける。新語データベース33には、新語が新語の意味と対応付けて登録される。例えば、図5は、実施形態に係る新語データベースに登録される情報の一例を示す図である。図5に示すように、新語データベース33には、「新語ID(Identifier)」、「単語」、および「意味」といった項目を有する情報が登録される。ここで、「新語ID」とは、新語を識別するための識別子である。また、「単語」とは、新語として抽出された単語のテキストデータである。また、「意味」とは、対応付けられた単語、すなわち、新語として抽出された単語がどのような意味で用いられているかを示す情報である。
例えば、図5に示す例では、新語データベース33には、新語ID「新語#1」、単語「単語#3」、および意味「意味#3」とが対応付けて登録されている。このような情報は、新語ID「新語#1」が示す新語として、単語「単語#3」が登録されており、かかる単語「単語#3」が意味「意味#3」を有する単語として使用されている旨を示す。
なお、図5に示す例では、「新語#1」や「意味#3」といった概念的な値について記載したが、実際には、新語を識別するための数値や文字列、意味を説明するための文章等が登録されることとなる。
図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、抽出装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部40は、取得部41、解析部42、第1抽出部43、第2抽出部44、登録部45および提供部46を有する。取得部41は、単語を取得する。例えば、取得部41は、SNSサーバ100から利用者が投稿したテキストを、投稿日時とともに取得する。このような場合、取得部41は、形態素解析等の技術を用いて、テキストから単語を抽出し、抽出した単語と対応する投稿日時とを解析部42に出力する。
同様に、取得部41は、検索サーバ200から検索クエリのログを検索クエリの入力日時とともに取得する。このような場合、取得部41は、検索クエリから単語を抽出し、抽出した単語と対応する入力日時とを解析部42に出力する。
解析部42は、単語の投稿日時や入力日時を解析し、単語の使用頻度や意味検索頻度を期間ごとに特定する。例えば、解析部42は、単語と期間との組合せごとに、投稿された回数や入力された回数を計数し、計数した回数に基づいて、使用頻度を算出する。例えば、解析部42は、期間#1において全単語が投稿または入力された回数に対し、単語#1が投稿または入力された回数の割合を使用頻度#1−1として算出する。そして、解析部42は、算出した使用頻度を単語と期間との組と対応付けて使用頻度データベース31に登録する。
また、例えば、解析部42は、「○○とは?」等といった意味を検索する検索クエリや意味を質問する投稿が行われた回数を単語と期間との組合せごとに計数し、計数した回数に基づいて、意味検索頻度を算出する。例えば、解析部42は、全単語について、期間#1の間に意味を検索する検索クエリや意味を質問する投稿が行われた回数に対し、単語#1について期間#1の間に意味を検索する検索クエリや意味を質問する投稿が行われた回数の頻度を意味検索頻度#1−1として算出する。そして、解析部42は、算出した意味検索頻度を単語と期間との組と対応付けて意味検索頻度データベース32に登録する。
なお、解析部42は、意味を質問する投稿の閲覧数や意味を質問する投稿に対するポジティブな評価が行われた回数等を考慮して、意味検索頻度を算出してもよい。例えば、解析部42は、全単語について期間#1の間に意味を検索する検索クエリや意味を質問する投稿が行われた回数と、意味を質問する投稿の閲覧数と、意味を質問する投稿に対するポジティブな評価が行われた回数との和に対し、単語#1の意味を検索する検索クエリや意味を質問する投稿が行われた回数と、意味を質問する投稿の閲覧数と、意味を質問する投稿に対するポジティブな評価が行われた回数との和の割合を意味検索頻度としてもよい。
第1抽出部43は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する。より具体的には、第1抽出部43は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語の中から、登録候補となる単語を抽出する。
例えば、第1抽出部43は、使用頻度データベース31を参照し、所定の期間における使用頻度の値が所定の閾値よりも低い単語を抽出する。より具体的な例を挙げると、第1抽出部43は、第1の期間における使用頻度が第1の閾値よりも低く、かつ、第1の期間よりも後の第2の期間における使用頻度が第2の閾値よりも高い単語を抽出する。
第1抽出部43が実行する処理の一例について説明する。例えば、第1抽出部43は、使用頻度データベース31を参照し、処理対象として単語#1を選択する。このような場合、第1抽出部43は、最新の期間である期間#1における使用頻度#1−1〜#1−3の値が所定の条件を満たしているか否かを判定し、満たしている場合には、単語#1を登録候補となる単語として第2抽出部44に通知する。
例えば、第1抽出部43は、使用頻度#1−1の値が所定の閾値を超えている場合は、期間#2における使用頻度#1−2または期間#3における使用頻度#1−3が所定の閾値を下回っているかを判定する。すなわち、第1抽出部43は、単語#1の使用頻度#1−1〜#1−3に基づいて、単語#1が最近まで使用されていなかった単語であるか否かを判定する。そして、第1抽出部43は、期間#2における使用頻度#1−2または期間#3における使用頻度#1−3が所定の閾値を下回っている場合は、単語#1を登録対象の候補として第2抽出部44に通知する。一方、第1抽出部43は、期間#2における使用頻度#1−2および期間#3における使用頻度#1−3が所定の閾値を上回っている場合は、単語#1が定常的に使用されている単語であると判定し、登録対象の候補から除外する。なお、第1抽出部43は、使用頻度データベース31に登録された全ての単語について、上述した処理を実行することとなる。
なお、第1抽出部43は、上述した処理以外にも、各単語の期間ごとにおける使用頻度に基づいて、単語を登録対象の候補とするか否かを判定してもよい。例えば、第1抽出部43は、基準となる日時(例えば、抽出処理の日時)から所定の期間の間の使用頻度が所定の閾値を超えており、かつ、その期間よりも前の期間において使用頻度が所定の閾値を下回っているのであれば、さらに前の期間において使用頻度が所定の閾値を上回っていたとしても、その単語を最近使用されていなかった単語として登録対象の候補としてよい。
また、例えば、第1抽出部43は、使用頻度#1−1が所定の閾値を超え、使用頻度#1−2が所定の閾値を下回り、かつ、使用頻度#1−3が所定の閾値を超える場合は、使用頻度が所定の閾値を超えた期間#1および期間#3の間に投稿されたテキストを収集する。また、第1抽出部43は、収集されたテキストに含まれる単語#1の意味解析や、単語#1の周辺語の解析を行うことで、期間#1の間における単語#1の意味と期間#3の間における単語#1の意味とが変化したか否かを判定する。そして、第1抽出部43は、期間#1の間における単語#1の意味と期間#3の間における単語#1の意味とが変化した場合は、単語#1を登録対象の候補、すなわち、新語の候補として第2抽出部44に通知する。
第2抽出部44は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。例えば、第2抽出部44は、単語に対する利用者の興味の度合いとして、単語の意味を検索または質問するための検索クエリが入力された回数に基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。より具体的には、第2抽出部44は、単語に対する利用者の興味の度合いとして、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、または投稿に対する評価の内容の少なくともいずれかに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。例えば、第2抽出部44は、単語の意味を検索または質問するための検索クエリが入力された回数に基づく意味検索頻度の値に基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。
第2抽出部44が実行する処理の一例について説明する。例えば、第2抽出部44は、登録候補となる単語の通知を第1抽出部43から受付ける。このような場合、第2抽出部44は、受付けた単語の意味検索頻度を意味検索頻度データベース32から抽出する。そして、第2抽出部44は、抽出した意味検索頻度が所定の条件を満たすか否かを判定し、満たすと判定した場合は、受付けた単語を新語として登録部45に通知する。
例えば、第2抽出部44は、単語#1を受付けた場合は、単語#1の意味検索頻度#1−1〜#1−3を意味検索頻度データベース32から抽出する。そして、第2抽出部44は、例えば、期間#1における意味検索頻度#1−1の値が所定の閾値を超えているか否かを判定する。すなわち、第2抽出部44は、直近の期間において利用者が単語#1に興味を持ち、意味を検索しているか否かを判定する。そして、第2抽出部44は、意味検索頻度#1−1の値が所定の閾値を超えている場合は、単語#1を新語として登録部45に通知し、意味検索頻度#1−1の値が所定の閾値を下回る場合は、単語#1を新語とはせずに、他の単語についての処理を実行する。
なお、第2抽出部44は、例えば、意味検索頻度#1−1〜#1−3の変遷に基づいて、単語#1が新語であるか否かを判定してもよい。例えば、第2抽出部44は、意味検索頻度#1−1〜#1−3の合計(すなわち、利用者の興味の積分値)が所定の閾値を超えるか否かに基づいて、単語#1が新語であるか否かを判定してもよい。すなわち、第2抽出部44は、利用者がどれくらい興味を有しているかに基づいて、登録候補となる単語の中から新語とする単語を抽出するのであれば、任意の条件の元、登録単語を抽出してよい。
登録部45は、新語を意味と共に新語データベース33に登録する。例えば、登録部45は、第2抽出部44から新語となる単語を受付けた場合は、インターネット上に投稿された各種の情報の中から、直近の所定の期間に投稿された情報を解析し、受付けた単語の意味を特定する。そして、登録部45は、特定した意味を単語と対応付けて新語データベース33に登録する。なお、登録部45は、新語となる単語を利用者に提示し、意味を入力されることで、単語の意味を特定してもよい。
提供部46は、新語の意味を利用者に提供する。例えば、提供部46は、端末装置300から単語を受付けた場合は、受付けた単語と対応付けられた意味を新語データベース33から抽出する。そして、提供部46は、抽出した意味を端末装置300へと通知することで、新語の意味を利用者に提供することができる。
〔3.分野を考慮した処理について〕
ここで、第1抽出部43および第2抽出部44は、分野を考慮した処理を実行してもよい。例えば、第1抽出部43は、第1分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。そして、第2抽出部44は、第1分野とは異なる第2分野における利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出してもよい。
例えば、取得部41は、検索クエリや投稿を行った利用者の属性を合わせて取得する。このような場合、解析部42は、利用者の属性に基づいて、その利用者が入力した単語がどの分野で用いられているかを判定し、単語と単語が用いられている分野との組ごとに、各期間における使用頻度および意味検索頻度を算出する。
このような場合、第1抽出部43は、単語と分野との組のうち、各期間の使用頻度が所定の条件を満たす組を登録候補として抽出する。例えば、第1抽出部43は、単語#1と分野#1との組を抽出する。このような場合、第2抽出部44は、単語#1が含まれる組であって、分野#1を含まない組の意味検索頻度を参照し、単語#1に対して分野#1とは異なる分野において利用者が興味を有しているか否かを判定する。なお、例えば、第2抽出部44は、分野#1とは類似しない分野と単語#1との組の意味検索頻度を参照してもよい。そして、第2抽出部44は、単語#1に対して分野#1とは異なる分野において利用者が興味を有していると判定した場合は、単語#1を新語とする。
ここで、抽出装置10は、単語#1を頻繁に使用する分野以外の分野において、利用者が単語#1に興味を有しているか否かを判定してもよい。例えば、第1抽出部43は、分野#1および分野#2における単語#1の使用頻度が所定の閾値を超える場合は、単語#1と分野#1および分野#2の組を抽出する。このような場合、第2抽出部44は、単語#1が含まれる組であって、分野#1および分野#2と類似しない分野#3において、単語#1に対し、利用者が興味を有しているか否かを判定してもよい。
例えば、図6は、実施形態に係る端末装置が分野を考慮して新語を抽出する処理の一例を示す図である。なお、図6に示す例では、単語#4および単語#5について、ある期間における使用頻度と意味検索頻度とを、第1分野〜第3分野のそれぞれについてプロットしたグラフを記載した。
例えば、図6に示すように、単語#4の使用頻度は、第1分野において所定の閾値C1を超えているものの、第2分野および第3分野では閾値C1を超えていない。一方、単語#4の意味検索頻度は、第1分野および第2分野では所定の閾値C2を下回るものの、第3分野では意味検索頻度が所定の閾値C2を上回っている。このような場合、第1分野で使用されている単語#4に対し、第3分野の利用者が興味を有していると推定される。そこで、抽出装置10は、単語#4を新語として抽出する。
一方、図6に示すように、単語#5の使用頻度は、第2分野において所定の閾値C1を超えているものの、第1分野および第3分野では閾値C1を超えていない。また、単語#5の意味検索頻度は、第1分野および第3分野で所定の閾値C2を下回り、第2分野で意味検索頻度が所定の閾値C2を上回っている。このような場合、単語#5は、第2分野に属する利用者が良く使用し、意味の検索を行っている単語、すなわち、専門用語であると推定される。このような専門用語は、新語としてはふさわしくないと考えられる。そこで、抽出装置10は、単語#5を新語からは除外する。
〔4.付与処理の流れの一例〕
続いて、図7を用いて、抽出装置10が実行する付与処理の流れについて説明する。図7は、実施形態にかかる抽出装置が実行する抽出処理の流れの一例を示すフローチャートである。例えば、抽出装置10は、投稿された単語を収集し(ステップS101)、検索ログを収集する(ステップS102)。そして、抽出装置10は、所定の期間内における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する(ステップS103)。また、抽出装置10は、登録候補となる単語に対する利用者の興味の度合いに基づいて、新語とする単語を抽出する(ステップS104)。そして、抽出装置10は、抽出した単語を新語として辞書に登録し(ステップS105)、処理を終了する。
〔5.変形例〕
上記では、抽出装置10による付与処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、抽出装置10が実行する抽出処理のバリエーションについて説明する。
〔5−1.辞書を考慮した処理〕
例えば、抽出装置10は、既存の辞書を考慮した抽出処理を実行してもよい。例えば、抽出装置10は、入力単語が既存の辞書に登録されているか否かを判定し、登録されている場合には、新語ではないと判定してもよい。また、抽出装置10は、意味解析技術や周辺語を用いた処理等により、入力単語が既存の辞書に登録されている意味で使用されているか否かを判定し、入力単語が既存の辞書に登録されている意味で使用されていると判定した場合には、新語ではないと判定してもよい。また、抽出装置10は、病名等といった専門用語の辞書を用いて、入力単語が専門用語であるか否かを判定し、専門用語である場合は、新語ではないと判定してもよい。
〔5−2.新語について〕
ここで、抽出装置10は、任意の単語を新語として抽出してもよい。例えば、抽出装置10は、キャラクターの名称や、ゲームや映画等の名称、リメイク作品のタイトル等を新語として抽出してもよい。また、抽出装置10は、過去に使用された単語またはかかる単語の略語や変形後であって、意味が変化した単語を新語としてもよい。
〔5−3.新語の提供について〕
ここで、抽出装置10によって抽出された新語は、上述したオンライン辞書サービス以外にも、任意のサービスに用いられてよい。例えば、抽出装置10は、抽出した新語のうち、使用頻度が所定の閾値を超える新語を意味とともに利用者に対して提供することで、話題になっている新語やその新語の意味を提供するサジェストサービスを提供してもよい。
〔5−4.装置構成〕
抽出装置10は、端末装置300と情報の送受信を行うフロントエンドサーバと、上述した抽出処理を実行するバックエンドサーバにより実現されてもよい。このような場合、バックエンドサーバは、取得部41、解析部42、第1抽出部43、第2抽出部44、および登録部45を有する情報処理装置により実現される。また、フロントエンドサーバは、提供部46を有する情報処理装置により実現される。なお、例えば、バックエンドサーバは、取得部41および解析部42を有するデータベース生成サーバ、第1抽出部43を有する第1抽出サーバ、および第2抽出部44を有する第2抽出サーバが協調して動作することで実現されてもよい。
また、抽出装置10は、また、記憶部30に格納された各データベース31〜32は、抽出装置10の内部ではなく、例えば、外部のストレージサーバ等に格納されていてもよい。
〔5−5.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔6.プログラム〕
また、上述してきた実施形態に係る抽出装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が抽出装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
〔7.効果〕
上述したように、抽出装置10は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置10は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このように、抽出装置10は、単に使用頻度が高い単語ではなく、それまであまり使われていなかった単語や使用態様が過去とは変化した単語であって、利用者が興味を有する単語を新語として抽出する。このため、抽出装置10は、利用者が意味を知りたいと所望する新語の抽出精度を向上させることができる。
また、抽出装置10は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語、すなわち、入力単語の中から、登録候補となる単語を抽出する。このため、抽出装置10は、新語が生じやすいインターネット上における入力単語の中から、新語をいち早く抽出することができる。
また、抽出装置10は、登録候補となる単語として、所定の期間における使用頻度が所定の閾値よりも低い単語を抽出する。例えば、抽出装置10は、登録候補となる単語として、第1の期間における使用頻度が第1の閾値よりも低く、かつ、第1の期間よりも後の第2の期間における使用頻度が第2の閾値よりも高い単語を抽出する。このため、例えば、抽出装置10は、直近の第1期間まではあまり使用されていなかったが、直近の第1期間から使用頻度が上昇した単語、すなわち、最近使用されていなかった単語を新語の候補として抽出することができる。
また、抽出装置10は、単語に対する利用者の興味の度合いとして、単語の意味を検索または質問するための検索クエリが入力された回数に基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このため、抽出装置10は、意味の推測が多くの人にとって困難であると推定される単語や、意味に対する利用者の興味が強い単語を新語として抽出することができる。
また、抽出装置10は、単語に対する利用者の興味の度合いとして、単語の意味を質問する内容の投稿が行われた回数、投稿の閲覧回数、または投稿に対する評価の内容の少なくともいずれかに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このため、抽出装置10は、利用者の興味を反映する各種の情報に基づき、新語を抽出するので、新語の抽出精度を向上させることができる。
また、抽出装置10は、第1の分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置10は、第1の分野とは異なる第2の分野における利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このため、抽出装置10は、ある分野に属する利用者の使用頻度が高い単語であって、異なる分野に属する利用者からの興味が強い単語を新語として抽出することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。
10 抽出装置
20 通信部
30 記憶部
31 使用頻度データベース
32 意味検索頻度データベース
33 新語データベース
40 制御部
41 取得部
42 解析部
43 第1抽出部
44 第2抽出部
45 登録部
46 提供部
100 SNSサーバ
200 検索サーバ
300 端末装置

Claims (11)

  1. 所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出部と、
    前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第2の抽出部と
    を有することを特徴とする抽出装置。
  2. 所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出部と、
    前記登録候補となる単語のうち、第1期間における使用態様と、当該第1期間よりも後の第2期間における使用態様とが異なる単語を登録対象として抽出する第2の抽出部と
    を有することを特徴とする抽出装置。
  3. 前記第1の抽出部は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語の中から、前記登録候補となる単語を抽出する
    ことを特徴とする請求項1または2に記載の抽出装置。
  4. 前記第1の抽出部は、前記登録候補となる単語として、所定の期間における使用頻度が所定の閾値よりも低い単語を抽出する
    ことを特徴とする請求項1または2に記載の抽出装置。
  5. 前記第1の抽出部は、前記登録候補となる単語として、第1の期間における使用頻度が第1の閾値よりも低く、かつ、前記第1の期間よりも後の第2の期間における使用頻度が第2の閾値よりも高い単語を抽出する
    ことを特徴とする請求項1〜のうちいずれか1つに記載の抽出装置。
  6. 前記第2の抽出部は、さらに、前記単語の意味を質問する内容の投稿が行われた回数、当該投稿の閲覧回数、または当該投稿に対する評価の内容の少なくともいずれかに基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する
    ことを特徴とする請求項1〜5のうちいずれか1つに記載の抽出装置。
  7. 前記第1の抽出部は、第1の分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出し、
    前記第2の抽出部は、前記第1の分野とは異なる第2の分野における利用者による入力態様に基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する
    ことを特徴とする請求項1〜6のうちいずれか1つに記載の抽出装置。
  8. 抽出装置が実行する抽出方法であって、
    所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出工程と、
    前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第2の抽出工程と
    を含むことを特徴とする抽出方法。
  9. コンピュータに
    所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出手順と、
    前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第2の抽出手順と
    を実行させるための抽出プログラム。
  10. 抽出装置が実行する抽出方法であって、
    所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出工程と、
    前記登録候補となる単語のうち、第1期間における使用態様と、当該第1期間よりも後の第2期間における使用態様とが異なる単語を登録対象として抽出する第2の抽出工程と
    を含むことを特徴とする抽出方法。
  11. コンピュータに
    所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出手順と、
    前記登録候補となる単語のうち、第1期間における使用態様と、当該第1期間よりも後の第2期間における使用態様とが異なる単語を登録対象として抽出する第2の抽出手順と
    を実行させるための抽出プログラム。
JP2016206155A 2016-10-20 2016-10-20 抽出装置、抽出方法および抽出プログラム Active JP6789755B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016206155A JP6789755B2 (ja) 2016-10-20 2016-10-20 抽出装置、抽出方法および抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016206155A JP6789755B2 (ja) 2016-10-20 2016-10-20 抽出装置、抽出方法および抽出プログラム

Publications (2)

Publication Number Publication Date
JP2018067193A JP2018067193A (ja) 2018-04-26
JP6789755B2 true JP6789755B2 (ja) 2020-11-25

Family

ID=62086139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016206155A Active JP6789755B2 (ja) 2016-10-20 2016-10-20 抽出装置、抽出方法および抽出プログラム

Country Status (1)

Country Link
JP (1) JP6789755B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022012300A (ja) * 2020-07-01 2022-01-17 トヨタ自動車株式会社 情報処理装置、プログラム、及び、情報処理方法
JP7045515B1 (ja) 2021-07-19 2022-03-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
JP5341847B2 (ja) * 2010-09-13 2013-11-13 日本電信電話株式会社 検索クエリ推薦方法、検索クエリ推薦装置、検索クエリ推薦プログラム
JP6584795B2 (ja) * 2015-03-06 2019-10-02 株式会社東芝 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
JP6554841B2 (ja) * 2015-03-16 2019-08-07 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JP2018067193A (ja) 2018-04-26

Similar Documents

Publication Publication Date Title
US10902076B2 (en) Ranking and recommending hashtags
US10642938B2 (en) Artificial intelligence based method and apparatus for constructing comment graph
Nguyen et al. Real-time event detection for online behavioral analysis of big social data
EP2800015A1 (en) Content distribution
US20150006414A1 (en) Social network for employment search
JP6404106B2 (ja) コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法
WO2019237541A1 (zh) 联系人标签的确定方法、装置、终端设备及介质
JP6872851B2 (ja) 情報選択装置、情報選択方法および情報選択プログラム
US20160188601A1 (en) Method and systems of implementing a ranked health-content article feed
KR101491628B1 (ko) 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템
KR101735312B1 (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
JP2018045553A (ja) 選択装置、選択方法および選択プログラム
JP6526849B1 (ja) 推定装置、推定方法および推定プログラム
Kalloubi et al. Harnessing semantic features for large-scale content-based hashtag recommendations on microblogging platforms
JP6789755B2 (ja) 抽出装置、抽出方法および抽出プログラム
US20120290552A9 (en) System and method for search of sources and targets based on relative topicality specialization of the targets
JP2017068547A (ja) 情報提供装置、プログラム及び情報提供方法
KR20110053185A (ko) 사용자의 배경정보에 따른 컨텐츠의 트렌드 분석/검색 시스템 및 방법
JPWO2014050837A1 (ja) 判定装置、判定方法、及びプログラム
JP5102883B2 (ja) ユーザ発言抽出装置とその方法と、プログラム
JP6019156B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2017076376A (ja) 算出装置、算出方法および算出プログラム
JP2017151574A (ja) ユーザ情報処理サーバ及びユーザ情報の処理方法
JP6007300B1 (ja) 算出装置、算出方法および算出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201104

R150 Certificate of patent or registration of utility model

Ref document number: 6789755

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350