JP6342678B2 - 関連データ生成装置、関連データ生成方法およびプログラム - Google Patents
関連データ生成装置、関連データ生成方法およびプログラム Download PDFInfo
- Publication number
- JP6342678B2 JP6342678B2 JP2014045088A JP2014045088A JP6342678B2 JP 6342678 B2 JP6342678 B2 JP 6342678B2 JP 2014045088 A JP2014045088 A JP 2014045088A JP 2014045088 A JP2014045088 A JP 2014045088A JP 6342678 B2 JP6342678 B2 JP 6342678B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- word
- data generation
- occurrence
- occurrence word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本実施形態に係る関連データ生成装置100を含む関連データ生成システムの概略構成の一例を示した図である。関連データ生成システムは、関連データ生成装置100と、SNS(Social Networking Service)サーバ1000と、ユーザ端末2000を有している。
次に、関連データ生成処理について説明する。図8は、関連データ生成処理の流れを示したフロー図である。関連データ生成処理は、関連データ生成装置100で実行されるバッチ処理により、定期的(例えば、1週間に1度)に行われる。
次に、本発明の第二実施形態に係る関連データ生成装置100について説明する。前述の第一実施形態では、投稿データ200内で所定のキーワード(例えば、POI名称)と共に用いられる共起語を通常関連語として関連データ500に格納したが、本実施形態に係る関連データ生成装置100は、所定のキーワードに類似する類似語を関連データ500に格納する。なお、関連データ生成装置100の基本的なハードウェア構成および機能ブロックについては前述の第一実施形態と同様であるため、これらの詳細な説明は省略する。
次に、本発明の第三実施形態に係る関連データ生成装置100について説明する。第三実施形態に係る関連データ生成装置100は、所定のキーワードで特定される対象(例えば、POIなど)のトレンド度を算出する。具体的には、本実施形態に係る関連データ生成装置100は、トレンド度データ生成部14を機能部として有し、トレンド度データ生成部14は、所定のキーワードと、前述の実施形態で生成した関連データ500とを用いて、キーワードで特定される対象のトレンド度を算出する。なお、関連データ生成装置100の基本的なハードウェア構成および機能ブロックについては前述の第一実施形態および第二実施形態と同様であるため、これらの詳細な説明は省略する。
2000・・・ユーザ端末、N・・・ネットワーク、
1・・・演算処理装置、2・・・記憶装置、3・・・通信装置、
4・・・入力装置、5・・・表示装置、6・・・CPU、7・・・RAM、
8・・・ROM、10・・・演算部、11・・・投稿データ取得部、
12・・・共起語データ生成部、13・・・関連データ生成部、
14・・・トレンド度データ生成部、15・・・表示情報生成部、20・・・記憶部、
40・・・通信部、200・・・投稿データ、300・・・POIデータ、400・・・期間別共起語データ、410、710・・・共起語データ、500・・・関連データ、700・・・キーワード別共起語データ、900・・・トレンド度データ
Claims (13)
- 相互に異なる複数の期間に投稿された投稿データのうち、各期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成部と、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第1の閾値よりも小さく、かつ、該出現頻度が第2の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部と、を備え、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第1の閾値よりも大きい場合、および
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第2の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第3の閾値よりも低く、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第3の閾値よりも大きい第4の閾値より高い場合、
前記共起語を通常関連語として関連データに格納する
ことを特徴とする関連データ生成装置。 - 請求項1に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度の高さに応じて大きい値となるスコアを算出し、該スコアを該共起語に対応する前記通常関連語のスコアとして前記関連データに格納する
ことを特徴とする関連データ生成装置。 - 請求項2に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記関連データに格納されている前記通常関連語のスコアよりも大きいスコアの前記共起語を、該通常関連語に代えて前記関連データに格納する
ことを特徴とする関連データ生成装置。 - 請求項2に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語と一致する前記通常関連語が前記関連データに登録されている場合、前記期間における該通常関連語の前記投稿データにおける出現頻度に基づいて、該通常関連語のスコアを算出し直す
ことを特徴とする関連データ生成装置。 - 請求項1に記載の関連データ生成装置であって、
前記共起語データ生成部は、
所定期間に投稿された前記投稿データに、相互に異なる少なくとも2つ以上の前記通常関連語の各々と共に用いられている語彙である共起語と、該共起語の前記投稿データにおける出現頻度とを格納した共起語データを生成し、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語と前記所定のキーワードとの類似度が第5の閾値よりも大きい場合、該共起語を関連語類似名として前記関連データに格納する
ことを特徴とする関連データ生成装置。 - 請求項5に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語と前記所定のキーワードとの類似度の高さに応じて大きい値となるスコアを算出し、該スコアを該共起語に対応する前記関連語類似名のスコアとして前記関連データに格納する
ことを特徴とする関連データ生成装置。 - 請求項5に記載の関連データ生成装置であって、
前記通常関連語を、前記所定のキーワードが示す対象と共に表示するための表示情報を生成する表示情報生成部をさらに備える
ことを特徴とする関連データ生成装置。 - 請求項5に記載の関連データ生成装置であって、
前記所定のキーワードまたは該キーワードが対応付けられた前記関連語類似名と、所定期間に投稿された前記投稿データに含まれる語彙とが一致する度合いを第1の一致度として算出し、
前記所定のキーワードに対応付けられた前記関連語類似名と、所定期間に投稿された前記投稿データに含まれる語彙とが一致する度合いを第2の一致度として算出し、
所定期間の全ての前記投稿データに対して算出した第1の一致度および第2の一致度を合算した値を該キーワードが示す対象のトレンド度として算出し、
前記トレンド度を前記所定のキーワードに対応付けて格納したトレンド度データを生成するトレンド度データ生成部をさらに備える
ことを特徴とする関連データ生成装置。 - 請求項8に記載の関連データ生成装置であって、
前記トレンド度データ生成部は、
前記所定のキーワードと前記投稿データに含まれている語彙とが一致する場合、所定値を前記第1の一致度に設定し、
前記所定のキーワードと前記投稿データに含まれている語彙とが一致しない場合、該キーワードに対応付けられた前記関連語類似名と該投稿データに含まれている語彙とが一致するか否かを判定し、
前記関連語類似名と前記投稿データに含まれている語彙とが一致する場合、前記所定値よりも小さい値であって、該語彙と一致した該関連語類似名のスコアを用いて前記第1の一致度を設定する
ことを特徴とする関連データ生成装置。 - 請求項8に記載の関連データ生成装置であって、
前記トレンド度データ生成部は、
前記通常関連語と前記投稿データに含まれている語彙とが一致する場合、該通常関連語に設定されているスコアに応じて異なる値を用いて前記第2の一致度を設定する
ことを特徴とする関連データ生成装置。 - 請求項8に記載の関連データ生成装置であって、
前記トレンド度を示す表示情報を生成する表示情報生成部をさらに備える
ことを特徴とする関連データ生成装置。 - 関連データ生成装置が実行する関連データ生成方法であって、
前記関連データ生成装置は、
相互に異なる複数の期間に投稿された投稿データのうち、各期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成ステップと、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第1の閾値よりも小さく、かつ、該出現頻度が第2の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成ステップと、を行い、
前記関連データ生成ステップでは、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第1の閾値よりも大きい場合、および
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第2の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第3の閾値よりも低く、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第3の閾値よりも大きい第4の閾値より高い場合、
前記共起語を通常関連語として関連データに格納する
ことを特徴とする関連データ生成方法。 - コンピュータを、関連データを生成する関連データ生成装置として機能させるプログラムであって、
前記コンピュータを、
相互に異なる複数の期間に投稿された投稿データのうち、各期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成部と、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第1の閾値よりも小さく、かつ、該出現頻度が第2の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部として機能させ、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第1の閾値よりも大きい場合、および
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第2の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第3の閾値よりも低く、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第3の閾値よりも大きい第4の閾値より高い場合、
前記共起語を通常関連語として関連データに格納する
ことを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014045088A JP6342678B2 (ja) | 2014-03-07 | 2014-03-07 | 関連データ生成装置、関連データ生成方法およびプログラム |
US14/637,773 US10157348B2 (en) | 2014-03-07 | 2015-03-04 | Related data generating apparatus, related data generating method, and program |
EP15157498.5A EP2919137A1 (en) | 2014-03-07 | 2015-03-04 | Related data generating apparatus, related data generating method, and program |
CN201510098066.3A CN104899241A (zh) | 2014-03-07 | 2015-03-05 | 关联数据生成装置和关联数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014045088A JP6342678B2 (ja) | 2014-03-07 | 2014-03-07 | 関連データ生成装置、関連データ生成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015170177A JP2015170177A (ja) | 2015-09-28 |
JP6342678B2 true JP6342678B2 (ja) | 2018-06-13 |
Family
ID=52669465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014045088A Active JP6342678B2 (ja) | 2014-03-07 | 2014-03-07 | 関連データ生成装置、関連データ生成方法およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10157348B2 (ja) |
EP (1) | EP2919137A1 (ja) |
JP (1) | JP6342678B2 (ja) |
CN (1) | CN104899241A (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019771B (zh) * | 2017-07-28 | 2021-08-13 | 北京国双科技有限公司 | 文本处理的方法及装置 |
CN107861945A (zh) * | 2017-11-01 | 2018-03-30 | 平安科技(深圳)有限公司 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
US10831994B2 (en) * | 2017-12-26 | 2020-11-10 | International Business Machines Corporation | Naming convention reconciler |
JP7091700B2 (ja) * | 2018-02-21 | 2022-06-28 | 富士通株式会社 | 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法 |
CN110309432B (zh) * | 2018-06-11 | 2024-06-07 | 腾讯科技(北京)有限公司 | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 |
JP7451917B2 (ja) * | 2019-09-26 | 2024-03-19 | 株式会社Jvcケンウッド | 情報提供装置、情報提供方法及びプログラム |
CN114817774B (zh) * | 2022-05-12 | 2023-08-22 | 中国人民解放军国防科技大学 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
CN115471302B (zh) * | 2022-11-14 | 2023-02-14 | 山东智豆数字科技有限公司 | 基于大数据分析的电子营销数据处理方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004361992A (ja) * | 2003-05-30 | 2004-12-24 | Toshiba Corp | 関連語抽出装置、関連語抽出方法及びプログラム |
JP2006146802A (ja) * | 2004-11-24 | 2006-06-08 | Mitsubishi Electric Corp | テキストマイニング装置およびテキストマイニング方法 |
WO2006073095A1 (ja) * | 2005-01-07 | 2006-07-13 | Matsushita Electric Industrial Co., Ltd. | 連想辞書作成装置 |
US7698328B2 (en) * | 2006-08-11 | 2010-04-13 | Apple Inc. | User-directed search refinement |
JP5311378B2 (ja) | 2008-06-26 | 2013-10-09 | 国立大学法人京都大学 | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
JP2011159205A (ja) * | 2010-02-03 | 2011-08-18 | Ntt Docomo Inc | 日記作成支援システム、日記作成支援方法 |
CN102214186B (zh) | 2010-04-07 | 2013-04-24 | 腾讯科技(深圳)有限公司 | 展示对象关系的方法和系统 |
US8606565B2 (en) * | 2010-11-10 | 2013-12-10 | Rakuten, Inc. | Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium |
JP5542729B2 (ja) * | 2011-04-13 | 2014-07-09 | 日本電信電話株式会社 | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム |
JP2013257747A (ja) * | 2012-06-13 | 2013-12-26 | Nippon Telegr & Teleph Corp <Ntt> | 自由時間推定装置、方法、及びプログラム |
CN102831185A (zh) | 2012-08-01 | 2012-12-19 | 北京百度网讯科技有限公司 | 一种词条推荐方法及装置 |
WO2014128253A1 (en) * | 2013-02-22 | 2014-08-28 | Adaptive Mobile Security Limited | System and method for embedded mobile (em)/machine to machine (m2m) security, pattern detection, mitigation |
US20140322687A1 (en) | 2013-04-29 | 2014-10-30 | Clinical Pattern Recognition Llc | Computer system for providing physical therapy methods |
-
2014
- 2014-03-07 JP JP2014045088A patent/JP6342678B2/ja active Active
-
2015
- 2015-03-04 EP EP15157498.5A patent/EP2919137A1/en not_active Withdrawn
- 2015-03-04 US US14/637,773 patent/US10157348B2/en active Active
- 2015-03-05 CN CN201510098066.3A patent/CN104899241A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN104899241A (zh) | 2015-09-09 |
JP2015170177A (ja) | 2015-09-28 |
US10157348B2 (en) | 2018-12-18 |
US20150254574A1 (en) | 2015-09-10 |
EP2919137A1 (en) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6342678B2 (ja) | 関連データ生成装置、関連データ生成方法およびプログラム | |
US11709829B2 (en) | Retrieving context from previous sessions | |
JP5432243B2 (ja) | メディアオブジェクト照会の送信および反応 | |
RU2670494C2 (ru) | Способ обработки поискового запроса, сервер и машиночитаемый носитель для его осуществления | |
US8495151B2 (en) | Methods and systems for determining email addresses | |
US8793270B2 (en) | System and method for providing personalized recommended word and computer readable recording medium recording program for implementing the method | |
US8321404B1 (en) | Dynamic query suggestion | |
US8386495B1 (en) | Augmented resource graph for scoring resources | |
KR101550327B1 (ko) | 소셜-그래프 정보에 기반한 구조화된 검색 질의 | |
US20140214711A1 (en) | Intelligent job recruitment system and method | |
US8538973B1 (en) | Directions-based ranking of places returned by local search queries | |
US8473293B1 (en) | Dictionary filtering using market data | |
US20110219299A1 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
US20120295633A1 (en) | Using user's social connection and information in web searching | |
JP2014532916A (ja) | ジオデータに対するユーザベースの事前対応型の内容訂正および強化 | |
CN102063194A (zh) | 用于供用户进行文字输入的方法、设备、服务器和系统 | |
US20180336529A1 (en) | Job posting standardization and deduplication | |
EP3002690A1 (en) | Dynamic summary generator | |
WO2017139247A1 (en) | Inconsistency detection and correction system | |
US20160092838A1 (en) | Job posting standardization and deduplication | |
CN109446417B (zh) | 一种智能化检索方法和装置 | |
CN103870501A (zh) | 一种自动匹配方法及装置 | |
CN107004167B (zh) | 公开招聘标准化和重复数据删除 | |
US10387838B2 (en) | Course ingestion and recommendation | |
WO2015065719A1 (en) | Computerized systems and methods for identifying a character string for a point of interest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180501 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180517 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6342678 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |