JP2014002653A - 共起語を特定する装置およびプログラム - Google Patents
共起語を特定する装置およびプログラム Download PDFInfo
- Publication number
- JP2014002653A JP2014002653A JP2012138820A JP2012138820A JP2014002653A JP 2014002653 A JP2014002653 A JP 2014002653A JP 2012138820 A JP2012138820 A JP 2012138820A JP 2012138820 A JP2012138820 A JP 2012138820A JP 2014002653 A JP2014002653 A JP 2014002653A
- Authority
- JP
- Japan
- Prior art keywords
- data
- morpheme
- text
- keyword
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】形態素解析部122はテキストDBに記憶されたテキストデータを形態素解析し形態素データを生成して形態素DBに記憶する。共起語データ抽出部125は端末装置11から受信した検索キーワードと共に同じ文書に出現する形態素を共起語として特定し、検索キーワードと共起語と間の共起係数を算出する。その際、所定期間内に取得された形態素データが共起係数の算出に用いられる。関連度データ生成部126はテキストデータの各々に関し共起語の出現数に共起係数を乗じて合算し、テキストデータと検索キーワードの関連度を示す関連度データを生成する。関連度データ送信部127は関連度データに従いソートしたテキストデータを関連度データとともに端末装置11に送信する。
【選択図】図2
Description
以下に、図面を参照しながら本発明の実施形態について説明する。図1は本実施形態にかかるテキスト検索システム1の構成を示した図である。テキスト検索システム1はユーザが文章の検索に用いる端末装置11と、ユーザにより入力された検索キーワードを端末装置11から受信し、受信した検索キーワードに応じた複数のテキストデータを検索キーワードとの関連度を示す関連度データとともに端末装置11に送信するサーバ装置12を備えている。端末装置11とサーバ装置12はネットワーク9を介して互いに各種データの送受信を行う。
(計時部121)基準の時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する。
(形態素解析部122)サーバ装置12がインターネットを介して他のサーバ装置から取得してきたテキストデータが示すテキストを形態素解析手法に従い形態素に分割しそれらの形態素を示す形態素データを生成する。
(テキストデータ取得部123)インターネットを介して他のサーバ装置から定期的に新たに公開されたテキストデータを取得する。
(検索キーワードデータ受信部124)端末装置11から検索キーワードを示す検索キーワードデータを受信する。
(関連度データ生成部126)形態素解析部122により生成された形態素データおよび共起語データ抽出部125により生成された共起語データに基づき検索キーワードデータ受信部124により受信された検索キーワードデータとテキストデータ取得部123により取得されたテキストデータとの関連度を示す関連度データを生成する。
(関連度データ送信部127)関連度データ生成部126により生成された関連度データに従いテキストデータ取得部123により取得されたテキストデータをソートし、関連度データとともに端末装置11に送信する。
(記憶部128)各種データを記憶する。
(辞書DB)形態素解析部122が形態素解析を行う際に用いる辞書データを格納したDB(Database)。
(文法DB)形態素解析部122が形態素解析を行う際に用いる文法データを格納したDB。
(テキストDB)テキストデータ取得部123により取得されたテキストデータを格納するDB。
(形態素DB)形態素解析部122により生成された形態素データを格納するDB。
(共起語DB)共起語データ抽出部125により生成された共起語データを格納するDB。
上述した実施形態は本発明の一実施形態であり、本発明の技術的思想の範囲内において様々に変形可能である。以下にそれらの変形の例を示す。
Claims (6)
- 文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段と
を備える装置。 - 前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに記憶されている一のテキストデータ識別データに関し、前記形態素データ記憶手段において、前記一のキーワードデータに対応する共起語データとして前記共起語データ抽出手段により抽出された形態素データの各々に関し、前記一のテキストデータ識別データとともに記憶されている当該形態素データと同一の形態素データを、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データとして抽出し、前記共起語データ抽出手段により抽出された前記一のキーワードデータに対応する共起語データの各々の数と、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データの各々の数とに基づき、前記一のテキストデータと前記一のキーワードデータとの間の関連度を示す関連度データを生成する関連度データ生成手段
を備える請求項1に記載の装置。 - 前記関連度データ生成手段は、前記共起語データ抽出手段により抽出された共起語データの数に基づき所定の規則に従い定められるウェイトに従い、前記関連度データの生成において各共起語データに関する数の加重を行う
請求項2に記載の装置。 - 端末装置から前記一のキーワードデータもしくは前記一のキーワードデータを含むテキストデータを受信するキーワードデータ受信手段と、
前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、
前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段と
を備える請求項2または3に記載の装置。 - 前記関連度データ送信手段は、前記複数のテキストデータを、前記関連度データにより示される関連度に従った順序でソートした上で前記関連度データとともに前記端末装置に送信する
請求項4に記載の装置。 - コンピュータに、
文章を示すテキストデータを、時刻を示す時刻データとともに取得する処理と、
取得したテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する処理と、
前記形態素解析により複数のテキストデータの各々を分割して生成した形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに取得した時刻データとを記憶する処理と、
一のキーワードを示す一のキーワードデータに関し、所定の期間内の時刻を示す時刻データとともに記憶し、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに記憶しているテキストデータ識別データと同一のテキストデータ識別データとともに記憶している形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012138820A JP5964149B2 (ja) | 2012-06-20 | 2012-06-20 | 共起語を特定する装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012138820A JP5964149B2 (ja) | 2012-06-20 | 2012-06-20 | 共起語を特定する装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014002653A true JP2014002653A (ja) | 2014-01-09 |
JP5964149B2 JP5964149B2 (ja) | 2016-08-03 |
Family
ID=50035751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012138820A Expired - Fee Related JP5964149B2 (ja) | 2012-06-20 | 2012-06-20 | 共起語を特定する装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5964149B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016099694A (ja) * | 2014-11-19 | 2016-05-30 | Kddi株式会社 | ユーザの記憶が曖昧なレコードを検索する検索装置、プログラム及び方法 |
US9483462B2 (en) | 2014-08-19 | 2016-11-01 | International Business Machines Corporation | Generating training data for disambiguation |
JP2018151995A (ja) * | 2017-03-14 | 2018-09-27 | ヤフー株式会社 | 情報提供装置、情報提供方法、および情報提供プログラム |
JP2020095608A (ja) * | 2018-12-14 | 2020-06-18 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2021170309A (ja) * | 2020-04-15 | 2021-10-28 | 北京百度網訊科技有限公司 | トピック概念マイニング方法、装置、電子機器、記憶媒体及びプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1154355A2 (en) * | 2000-05-09 | 2001-11-14 | Hitachi, Ltd. | Document processing method, system and computer readable storage medium |
JP2002183175A (ja) * | 2000-12-08 | 2002-06-28 | Hitachi Ltd | テキストマイニング方法 |
JP2007018285A (ja) * | 2005-07-07 | 2007-01-25 | Cac:Kk | 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム |
JP2008040636A (ja) * | 2006-08-03 | 2008-02-21 | Toshiba Corp | キーワード提示装置、プログラムおよびキーワード提示方法 |
JP2009116457A (ja) * | 2007-11-02 | 2009-05-28 | Intec Systems Institute Inc | インターネットサイト情報分析方法と装置 |
WO2009096523A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
JP2010224823A (ja) * | 2009-03-23 | 2010-10-07 | Toshiba Corp | 共起表現抽出装置及び共起表現抽出方法 |
-
2012
- 2012-06-20 JP JP2012138820A patent/JP5964149B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1154355A2 (en) * | 2000-05-09 | 2001-11-14 | Hitachi, Ltd. | Document processing method, system and computer readable storage medium |
JP2001318939A (ja) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書処理方法及び装置並びにその処理プログラムを記憶した媒体 |
JP2002183175A (ja) * | 2000-12-08 | 2002-06-28 | Hitachi Ltd | テキストマイニング方法 |
JP2007018285A (ja) * | 2005-07-07 | 2007-01-25 | Cac:Kk | 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム |
JP2008040636A (ja) * | 2006-08-03 | 2008-02-21 | Toshiba Corp | キーワード提示装置、プログラムおよびキーワード提示方法 |
JP2009116457A (ja) * | 2007-11-02 | 2009-05-28 | Intec Systems Institute Inc | インターネットサイト情報分析方法と装置 |
WO2009096523A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
US20100318526A1 (en) * | 2008-01-30 | 2010-12-16 | Satoshi Nakazawa | Information analysis device, search system, information analysis method, and information analysis program |
JP2010224823A (ja) * | 2009-03-23 | 2010-10-07 | Toshiba Corp | 共起表現抽出装置及び共起表現抽出方法 |
Non-Patent Citations (1)
Title |
---|
志甫谷 匠 他: "トレンド分析及び推薦対象コミュニティ推定に基づく情報推薦システムの提案", 情報処理学会研究報告, vol. Vol.2009-DBS-149,No.24, JPN6016003340, 15 December 2009 (2009-12-15), JP, pages 1 - 7, ISSN: 0003341103 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9483462B2 (en) | 2014-08-19 | 2016-11-01 | International Business Machines Corporation | Generating training data for disambiguation |
JP2016099694A (ja) * | 2014-11-19 | 2016-05-30 | Kddi株式会社 | ユーザの記憶が曖昧なレコードを検索する検索装置、プログラム及び方法 |
JP2018151995A (ja) * | 2017-03-14 | 2018-09-27 | ヤフー株式会社 | 情報提供装置、情報提供方法、および情報提供プログラム |
JP2020095608A (ja) * | 2018-12-14 | 2020-06-18 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2021170309A (ja) * | 2020-04-15 | 2021-10-28 | 北京百度網訊科技有限公司 | トピック概念マイニング方法、装置、電子機器、記憶媒体及びプログラム |
JP7072034B2 (ja) | 2020-04-15 | 2022-05-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | トピック概念マイニング方法、装置、電子機器、記憶媒体及びプログラム |
US11651164B2 (en) | 2020-04-15 | 2023-05-16 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, device, equipment, and storage medium for mining topic concept |
Also Published As
Publication number | Publication date |
---|---|
JP5964149B2 (ja) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101506380B1 (ko) | 무한 브라우즈 | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
Pu et al. | Subject categorization of query terms for exploring Web users' search interests | |
JP5731250B2 (ja) | 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法 | |
KR101171405B1 (ko) | 검색 결과에서 배치 내용 정렬의 맞춤화 | |
US20070143300A1 (en) | System and method for monitoring evolution over time of temporal content | |
JP2002334106A (ja) | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 | |
JP2008234090A (ja) | 最新評判情報通知プログラム、記録媒体、装置及び方法 | |
JP2010055159A (ja) | 情報検索装置、情報検索方法、およびプログラム | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
KR20070089898A (ko) | 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치 | |
JP2009169924A (ja) | 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体 | |
KR20090003739A (ko) | 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 | |
JP6593873B2 (ja) | 情報分析装置及び情報分析方法 | |
JP2011108053A (ja) | ニュース記事評価システム | |
Strzelecki et al. | Direct answers in Google search results | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP2011103075A (ja) | 抜粋文抽出方法 | |
JPWO2007046445A1 (ja) | 検索装置及び検索方法 | |
Käki et al. | Findex: improving search result use through automatic filtering categories | |
KR101850853B1 (ko) | 빅데이터를 이용한 검색 방법 및 장치 | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
JP4796527B2 (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
KR101308821B1 (ko) | 검색엔진용 키워드 추출 시스템 및 추출 방법 | |
CN105740436B (zh) | 基于互联网搜索技术的文字作品推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5964149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |