JP6789755B2 - 抽出装置、抽出方法および抽出プログラム - Google Patents
抽出装置、抽出方法および抽出プログラム Download PDFInfo
- Publication number
- JP6789755B2 JP6789755B2 JP2016206155A JP2016206155A JP6789755B2 JP 6789755 B2 JP6789755 B2 JP 6789755B2 JP 2016206155 A JP2016206155 A JP 2016206155A JP 2016206155 A JP2016206155 A JP 2016206155A JP 6789755 B2 JP6789755 B2 JP 6789755B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- extraction
- period
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 274
- 239000000284 extract Substances 0.000 claims description 86
- 238000000034 method Methods 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 230000010365 information processing Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
〔1−1.抽出装置の一例〕
まず、図1を用いて、抽出装置が実行する抽出処理の一例について説明する。図1は、実施形態に係る抽出装置が実行する抽出処理の一例を示す図である。図1では、抽出装置10は、インターネット等の所定のネットワークNを介して、SNS(Social Networking Service)サーバ100、検索サーバ200および端末装置300(例えば、図2を参照)と通信可能である。なお、抽出装置10は、任意の数のSNSサーバ100や任意の数の検索サーバ200、任意の数の端末装置300と通信可能であってよい。
ここで、抽出装置10が抽出する「新語」とは、抽出装置10が記憶する辞書に登録されていない単語、すなわち、単に新規な単語を示すものに限定されるものではない。例えば、「新語」とは、あるコンテンツにおけるキャラクター名等、流行によって利用者の目に留まる頻度が高くなり、利用者が意味を知りたがっている単語を含むものである。また、「新語」とは、ある分野の利用者のみが使用する略語等の使用される頻度が高くなることで、他の分野の利用者が目にする可能性が高くなった単語のうち、利用者が意味を知りたがっている単語や、利用者が意味を類推し辛い単語を含む概念である。
ここで、従来技術では、所定期間内における投稿回数が所定の閾値を超えた単語を新語として抽出する手法が考えられる。しかしながら、このような手法では、単に話題となっている単語を新語とするので、新規ではない単語であって多くの利用者が意味を知っている単語を新語として抽出する恐れがある。また、辞書に掲載されていない単語を抽出した場合には、例えば、地名の略語とイベントの略語とをつなげた略語等、一目で多くの利用者が意味を類推可能な単語を新語として抽出する恐れがある。このため、従来技術では、一部の利用者が意味を理解した状態で使用する単語であって、他の利用者が目にする頻度が所定の閾値を超え、意味を知りたがっている単語を「新語」として抽出することができない。
ここで、抽出装置10は、入力単語が使用される頻度に基づいて、登録候補となる単語を入力単語の中から抽出する。例えば、抽出処理を実行する日時を基準とした過去1月の範囲を第1の期間とし、第1の期間よりも過去1月の期間を第2の期間とし、第2の期間よりも過去1月の期間を第3の期間とする。なお、各期間の長さは、1月のみならず、任意の期間(例えば、数日或いは数時間等)が採用可能であり、期間ごとに異なる長さの期間が設定されてもよい。
また、抽出装置10は、単語の使用態様に基づいて、登録候補となる単語を入力単語から抽出してもよい。例えば、抽出装置10は、第1の期間における使用頻度が所定の閾値を超える単語や、使用頻度の増加量が所定の閾値を超える単語を抽出する。また、抽出装置10は、抽出した単語を含む文章や単語の説明文であって、第1の期間よりも前の期間に投稿された説明文と、第1の期間の間に投稿された説明文とをそれぞれ収集する。また、抽出装置10は、形態素解析やtf−idf(Term Frequency-Inverse Document Frequency)、w2v(word2vector)等の技術を用いて、第1の期間よりも前の期間に投稿された説明文における単語の用法(例えば、意味)と、第1の期間に投稿された説明文における単語の用法とを比較する。
ここで、抽出装置10は、単語とともに用いられる単語、すなわち、文脈上の周辺語を考慮して、登録候補となる単語を抽出してもよい。例えば、抽出装置10は、ある単語について、第1の期間(例えば、処理日時の1月前から処理日時迄)における周辺語と、第2の期間(例えば、処理日時の1年前から処理日時の1月前迄)における周辺語とが異なる場合は、最近用いられていなかった用法で単語が使用されていると判定し、登録候補となる単語としてもよい。
また、抽出装置10は、登録候補となる単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から新語を抽出する。ここで、登録候補となる単語に対する利用者の興味の度合いとは、例えば、利用者が登録候補となる単語の意味をどれくらい知りたがっているか、登録候補となる単語が有する意味の推測がそれくらい困難であるか等を示す情報である。
ここで、抽出装置10は、「○○とは?」等といった意味を検索する検索クエリや投稿の出現回数や出現頻度等を素性として、登録候補となる単語の中から新語として登録する単語を抽出するモデルの構築を行ってもよい。例えば、抽出装置10は、検索クエリのログを入力すると、登録候補となる単語について、その単語の意味を検索する検索クエリが入力された頻度を算出し、算出した頻度が所定の閾値よりも高い場合には、その単語を新語とする旨を出力するモデルの構築や学習を行ってもよい。
ここで、抽出装置10は、単語が使用されている分野に基づいて、新語を抽出してもよい。すなわち、抽出装置10は、単語が使用されている分野と、単語に興味を有する分野とが異なる場合には、単語を新語として抽出してもよい。例えば、アニメに興味がある利用者間において使用頻度が高い単語や、使用態様が変化した単語を登録候補として抽出したとしても、アニメに興味が無い利用者がその単語に興味を有さない場合には、新語として登録してもあまり意味がないと考えられる。同様に、医療分野等において使用頻度が高い単語や、使用態様が変化した単語を登録候補として抽出したとしても、医療分野以外の利用者がその単語に興味を有さない場合には、新語として登録してもあまり意味がないと考えられる。
次に、図1を用いて、抽出装置10が実行する抽出処理の一例について説明する。例えば、SNSサーバ100から、投稿された単語を取得する(ステップS1)。また、抽出装置10は、検索サーバ200から、検索クエリの履歴を取得する(ステップS2)。
以下、上記した抽出処理を実現する抽出装置10が有する機能構成の一例について説明する。図2は、実施形態に係る抽出装置の構成例を示す図である。図2に示すように、抽出装置10は、通信部20、記憶部30、および制御部40を有する。
ここで、第1抽出部43および第2抽出部44は、分野を考慮した処理を実行してもよい。例えば、第1抽出部43は、第1分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する。そして、第2抽出部44は、第1分野とは異なる第2分野における利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出してもよい。
続いて、図7を用いて、抽出装置10が実行する付与処理の流れについて説明する。図7は、実施形態にかかる抽出装置が実行する抽出処理の流れの一例を示すフローチャートである。例えば、抽出装置10は、投稿された単語を収集し(ステップS101)、検索ログを収集する(ステップS102)。そして、抽出装置10は、所定の期間内における使用頻度または使用態様に基づいて、登録候補となる単語を抽出する(ステップS103)。また、抽出装置10は、登録候補となる単語に対する利用者の興味の度合いに基づいて、新語とする単語を抽出する(ステップS104)。そして、抽出装置10は、抽出した単語を新語として辞書に登録し(ステップS105)、処理を終了する。
上記では、抽出装置10による付与処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、抽出装置10が実行する抽出処理のバリエーションについて説明する。
例えば、抽出装置10は、既存の辞書を考慮した抽出処理を実行してもよい。例えば、抽出装置10は、入力単語が既存の辞書に登録されているか否かを判定し、登録されている場合には、新語ではないと判定してもよい。また、抽出装置10は、意味解析技術や周辺語を用いた処理等により、入力単語が既存の辞書に登録されている意味で使用されているか否かを判定し、入力単語が既存の辞書に登録されている意味で使用されていると判定した場合には、新語ではないと判定してもよい。また、抽出装置10は、病名等といった専門用語の辞書を用いて、入力単語が専門用語であるか否かを判定し、専門用語である場合は、新語ではないと判定してもよい。
ここで、抽出装置10は、任意の単語を新語として抽出してもよい。例えば、抽出装置10は、キャラクターの名称や、ゲームや映画等の名称、リメイク作品のタイトル等を新語として抽出してもよい。また、抽出装置10は、過去に使用された単語またはかかる単語の略語や変形後であって、意味が変化した単語を新語としてもよい。
ここで、抽出装置10によって抽出された新語は、上述したオンライン辞書サービス以外にも、任意のサービスに用いられてよい。例えば、抽出装置10は、抽出した新語のうち、使用頻度が所定の閾値を超える新語を意味とともに利用者に対して提供することで、話題になっている新語やその新語の意味を提供するサジェストサービスを提供してもよい。
抽出装置10は、端末装置300と情報の送受信を行うフロントエンドサーバと、上述した抽出処理を実行するバックエンドサーバにより実現されてもよい。このような場合、バックエンドサーバは、取得部41、解析部42、第1抽出部43、第2抽出部44、および登録部45を有する情報処理装置により実現される。また、フロントエンドサーバは、提供部46を有する情報処理装置により実現される。なお、例えば、バックエンドサーバは、取得部41および解析部42を有するデータベース生成サーバ、第1抽出部43を有する第1抽出サーバ、および第2抽出部44を有する第2抽出サーバが協調して動作することで実現されてもよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述してきた実施形態に係る抽出装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、抽出装置10は、所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する。そして、抽出装置10は、単語に対する利用者の興味の度合いに基づいて、登録候補となる単語の中から登録対象とする単語を抽出する。このように、抽出装置10は、単に使用頻度が高い単語ではなく、それまであまり使われていなかった単語や使用態様が過去とは変化した単語であって、利用者が興味を有する単語を新語として抽出する。このため、抽出装置10は、利用者が意味を知りたいと所望する新語の抽出精度を向上させることができる。
20 通信部
30 記憶部
31 使用頻度データベース
32 意味検索頻度データベース
33 新語データベース
40 制御部
41 取得部
42 解析部
43 第1抽出部
44 第2抽出部
45 登録部
46 提供部
100 SNSサーバ
200 検索サーバ
300 端末装置
Claims (11)
- 所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出部と、
前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第2の抽出部と
を有することを特徴とする抽出装置。 - 所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出部と、
前記登録候補となる単語のうち、第1期間における使用態様と、当該第1期間よりも後の第2期間における使用態様とが異なる単語を登録対象として抽出する第2の抽出部と
を有することを特徴とする抽出装置。 - 前記第1の抽出部は、インターネット上に利用者が投稿した単語、または、利用者が入力した検索クエリに含まれる単語の中から、前記登録候補となる単語を抽出する
ことを特徴とする請求項1または2に記載の抽出装置。 - 前記第1の抽出部は、前記登録候補となる単語として、所定の期間における使用頻度が所定の閾値よりも低い単語を抽出する
ことを特徴とする請求項1または2に記載の抽出装置。 - 前記第1の抽出部は、前記登録候補となる単語として、第1の期間における使用頻度が第1の閾値よりも低く、かつ、前記第1の期間よりも後の第2の期間における使用頻度が第2の閾値よりも高い単語を抽出する
ことを特徴とする請求項1〜4のうちいずれか1つに記載の抽出装置。 - 前記第2の抽出部は、さらに、前記単語の意味を質問する内容の投稿が行われた回数、当該投稿の閲覧回数、または当該投稿に対する評価の内容の少なくともいずれかに基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する
ことを特徴とする請求項1〜5のうちいずれか1つに記載の抽出装置。 - 前記第1の抽出部は、第1の分野における使用頻度または使用態様に基づいて、登録候補となる単語を抽出し、
前記第2の抽出部は、前記第1の分野とは異なる第2の分野における利用者による入力態様に基づいて、前記登録候補となる単語の中から登録対象とする単語を抽出する
ことを特徴とする請求項1〜6のうちいずれか1つに記載の抽出装置。 - 抽出装置が実行する抽出方法であって、
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出工程と、
前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第2の抽出工程と
を含むことを特徴とする抽出方法。 - コンピュータに
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出手順と、
前記登録候補となる単語の意味を質問する内容の情報が入力された回数に基づいて、当該登録候補となる単語の中から登録対象とする単語を抽出する第2の抽出手順と
を実行させるための抽出プログラム。 - 抽出装置が実行する抽出方法であって、
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出工程と、
前記登録候補となる単語のうち、第1期間における使用態様と、当該第1期間よりも後の第2期間における使用態様とが異なる単語を登録対象として抽出する第2の抽出工程と
を含むことを特徴とする抽出方法。 - コンピュータに
所定の期間内における使用頻度、または、使用態様に基づいて、登録候補となる単語を抽出する第1の抽出手順と、
前記登録候補となる単語のうち、第1期間における使用態様と、当該第1期間よりも後の第2期間における使用態様とが異なる単語を登録対象として抽出する第2の抽出手順と
を実行させるための抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016206155A JP6789755B2 (ja) | 2016-10-20 | 2016-10-20 | 抽出装置、抽出方法および抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016206155A JP6789755B2 (ja) | 2016-10-20 | 2016-10-20 | 抽出装置、抽出方法および抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018067193A JP2018067193A (ja) | 2018-04-26 |
JP6789755B2 true JP6789755B2 (ja) | 2020-11-25 |
Family
ID=62086139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016206155A Active JP6789755B2 (ja) | 2016-10-20 | 2016-10-20 | 抽出装置、抽出方法および抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6789755B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022012300A (ja) * | 2020-07-01 | 2022-01-17 | トヨタ自動車株式会社 | 情報処理装置、プログラム、及び、情報処理方法 |
JP7045515B1 (ja) | 2021-07-19 | 2022-03-31 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
JP5341847B2 (ja) * | 2010-09-13 | 2013-11-13 | 日本電信電話株式会社 | 検索クエリ推薦方法、検索クエリ推薦装置、検索クエリ推薦プログラム |
JP6584795B2 (ja) * | 2015-03-06 | 2019-10-02 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
JP6554841B2 (ja) * | 2015-03-16 | 2019-08-07 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2016
- 2016-10-20 JP JP2016206155A patent/JP6789755B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018067193A (ja) | 2018-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902076B2 (en) | Ranking and recommending hashtags | |
US10642938B2 (en) | Artificial intelligence based method and apparatus for constructing comment graph | |
Nguyen et al. | Real-time event detection for online behavioral analysis of big social data | |
EP2800015A1 (en) | Content distribution | |
US20150006414A1 (en) | Social network for employment search | |
JP6404106B2 (ja) | コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法 | |
WO2019237541A1 (zh) | 联系人标签的确定方法、装置、终端设备及介质 | |
JP6872851B2 (ja) | 情報選択装置、情報選択方法および情報選択プログラム | |
US20160188601A1 (en) | Method and systems of implementing a ranked health-content article feed | |
KR101491628B1 (ko) | 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템 | |
KR101735312B1 (ko) | 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법 | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
JP2018045553A (ja) | 選択装置、選択方法および選択プログラム | |
JP6526849B1 (ja) | 推定装置、推定方法および推定プログラム | |
Kalloubi et al. | Harnessing semantic features for large-scale content-based hashtag recommendations on microblogging platforms | |
JP6789755B2 (ja) | 抽出装置、抽出方法および抽出プログラム | |
US20120290552A9 (en) | System and method for search of sources and targets based on relative topicality specialization of the targets | |
JP2017068547A (ja) | 情報提供装置、プログラム及び情報提供方法 | |
KR20110053185A (ko) | 사용자의 배경정보에 따른 컨텐츠의 트렌드 분석/검색 시스템 및 방법 | |
JPWO2014050837A1 (ja) | 判定装置、判定方法、及びプログラム | |
JP5102883B2 (ja) | ユーザ発言抽出装置とその方法と、プログラム | |
JP6019156B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP2017076376A (ja) | 算出装置、算出方法および算出プログラム | |
JP2017151574A (ja) | ユーザ情報処理サーバ及びユーザ情報の処理方法 | |
JP6007300B1 (ja) | 算出装置、算出方法および算出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6789755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |