JP6468364B2 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents
情報処理装置、情報処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP6468364B2 JP6468364B2 JP2017552506A JP2017552506A JP6468364B2 JP 6468364 B2 JP6468364 B2 JP 6468364B2 JP 2017552506 A JP2017552506 A JP 2017552506A JP 2017552506 A JP2017552506 A JP 2017552506A JP 6468364 B2 JP6468364 B2 JP 6468364B2
- Authority
- JP
- Japan
- Prior art keywords
- terms
- distance
- weight
- term
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Description
本発明の第1の実施形態について説明する。
次に、本発明の第2の実施形態について説明する。本発明の第2の実施形態では、単語の真の重みは観測されず、ノイズによって分散される潜在的な変数であると仮定する。また、重みベクトルは、ノイズモデルに基づいて調整(推定)されると仮定する。
次に、本発明の第3の実施形態について説明する。本発明の第3の実施形態では、単語間の距離が単語の特徴ベクトルに基づき計算される。
次に、本発明の第4の実施形態について説明する。本発明の第4の実施形態では、第2の実施形態で述べたガウスプロセス(GP)モデルの近似を用いる。
101 CPU
102 記憶デバイス
103 通信デバイス
104 入力デバイス
105 出力デバイス
110 距離記憶部
120 調整部
130 分類部
140 距離計算部
Claims (7)
- 複数の用語の内の任意の二つの用語間の距離であって、同じクラスに属するテキストに当該二つの用語が現れる傾向がある場合に、当該二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段と、
前記複数の用語の重みを含み、テキストを表す重みベクトルにおける、前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と各他の用語間の距離、及び、各他の用語の重みに基づいて調整する調整手段と、
を備え、
前記調整手段は、用語間の距離から前記複数の用語についての共分散行列を計算し、当該共分散行列を用いて、最大事後確率推定に基づいて、前記重みベクトルから前記複数の用語の各々の潜在的な重みを推定することにより、前記重みベクトルの各用語の重みを調整し、
前記推定することは、前記複数の用語の各々の潜在的な重みを、前記複数の用語のサブセットであって、当該用語とサブセットの用語の各々との間の距離が、当該用語とサブセット以外の用語間の距離より小さくなるようなサブセットに限定した前記共分散行列を用いて、推定される、
情報処理システム。 - さらに、前記任意の二つの用語間の距離を、ローカルな単語ウィンドウに関するコンテキスト情報とトピックに関するコンテキスト情報の内の少なくとも一つを含む特徴ベクトルであって、当該二つの用語間の特徴ベクトル間の距離に基づいて計算する、距離計算手段を備える、
請求項1に記載の情報処理システム。 - 前記距離計算手段は、同じクラスに属するテキストに前記二つの用語が現れる傾向がある場合には当該二つの用語間の距離がより小さくなるように、当該二つの用語間の距離を修正する、
請求項2に記載の情報処理システム。 - 複数の用語の内の任意の二つの用語間の距離であって、同じクラスに属するテキストに当該二つの用語が現れる傾向がある場合に、当該二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段から、前記複数の用語の重みを含み、テキストを表す重みベクトルにおける各用語と他の用語間の距離を取得し、
前記重みベクトルにおける前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と各他の用語間の距離、及び、各他の用語の重みに基づいて調整することを備え、
前記調整することは、用語間の距離から前記複数の用語についての共分散行列を計算し、当該共分散行列を用いて、最大事後確率推定に基づいて、前記重みベクトルから前記複数の用語の各々の潜在的な重みを推定することにより、前記重みベクトルの各用語の重みを調整し、
前記推定することは、前記複数の用語の各々の潜在的な重みを、前記複数の用語のサブセットであって、当該用語とサブセットの用語の各々との間の距離が、当該用語とサブセット以外の用語間の距離より小さくなるようなサブセットに限定した前記共分散行列を用いて、推定する、
情報処理方法。 - さらに、ローカルな単語ウィンドウに関するコンテキスト情報とトピックに関するコンテキスト情報の内の少なくとも一つを含む特徴ベクトルであって、任意の二つの用語間の特徴ベクトル間の距離に基づいて、当該二つの用語間の距離を計算する、
請求項4に記載の情報処理方法。 - 前記計算において、同じクラスに属するテキストに前記二つの用語が現れる傾向がある場合には当該二つの用語間の距離がより小さくなるように、当該二つの用語間の距離を修正する、
請求項5に記載の情報処理方法。 - コンピュータに、
複数の用語の内の任意の二つの用語間の距離であって、同じクラスに属するテキストに当該二つの用語が現れる傾向がある場合に、当該二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段から、前記複数の用語の重みを含み、テキストを表す重みベクトルにおける各用語と他の用語間の距離を取得し、
前記重みベクトルにおける前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と各他の用語間の距離、及び、各他の用語の重みに基づいて調整することを備え、
前記調整することは、用語間の距離から前記複数の用語についての共分散行列を計算し、当該共分散行列を用いて、最大事後確率推定に基づいて、前記重みベクトルから前記複数の用語の各々の潜在的な重みを推定することにより、前記重みベクトルの各用語の重みを調整し、
前記推定することは、前記複数の用語の各々の潜在的な重みを、前記複数の用語のサブセットであって、当該用語とサブセットの用語の各々との間の距離が、当該用語とサブセット以外の用語間の距離より小さくなるようなサブセットに限定した前記共分散行列を用いて、推定する、
処理を実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/002242 WO2016170561A1 (en) | 2015-04-24 | 2015-04-24 | An information processing system and an information processing method for semantic enrichment of text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018517963A JP2018517963A (ja) | 2018-07-05 |
JP6468364B2 true JP6468364B2 (ja) | 2019-02-13 |
Family
ID=53189110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017552506A Active JP6468364B2 (ja) | 2015-04-24 | 2015-04-24 | 情報処理装置、情報処理方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10354010B2 (ja) |
JP (1) | JP6468364B2 (ja) |
WO (1) | WO2016170561A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228648B (zh) * | 2016-12-21 | 2022-03-15 | 伊姆西Ip控股有限责任公司 | 创建索引的方法和设备 |
CN110148428B (zh) * | 2019-05-27 | 2021-04-02 | 哈尔滨工业大学 | 一种基于子空间表示学习的声学事件识别方法 |
CN110472041B (zh) * | 2019-07-01 | 2021-08-03 | 浙江工业大学 | 一种面向客服在线质检的文本分类方法 |
CN111046169B (zh) * | 2019-12-24 | 2024-03-26 | 东软集团股份有限公司 | 一种主题词的提取方法、装置、设备及存储介质 |
CN113254658B (zh) * | 2021-07-07 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 文本信息处理方法、系统、介质和设备 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04233599A (ja) | 1990-12-28 | 1992-08-21 | Canon Inc | 音声認識方法及び装置 |
US7251637B1 (en) * | 1993-09-20 | 2007-07-31 | Fair Isaac Corporation | Context vector generation and retrieval |
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7133862B2 (en) * | 2001-08-13 | 2006-11-07 | Xerox Corporation | System with user directed enrichment and import/export control |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
EP1493118A1 (en) * | 2002-04-10 | 2005-01-05 | Accenture Global Services GmbH | Determination of attributes based on product descriptions |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
JP2004355371A (ja) * | 2003-05-29 | 2004-12-16 | Canon Inc | 文書分類装置、その方法及び記憶媒体 |
US20050033568A1 (en) * | 2003-08-08 | 2005-02-10 | Hong Yu | Methods and systems for extracting synonymous gene and protein terms from biological literature |
CN1856788A (zh) * | 2003-09-30 | 2006-11-01 | 株式会社Ipb | 类似率算出装置和类似率算出程序 |
JP4428036B2 (ja) * | 2003-12-02 | 2010-03-10 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法 |
US20070073745A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
US9600568B2 (en) * | 2006-01-23 | 2017-03-21 | Veritas Technologies Llc | Methods and systems for automatic evaluation of electronic discovery review and productions |
US7680341B2 (en) * | 2006-05-05 | 2010-03-16 | Xerox Corporation | Generic visual classification with gradient components-based dimensionality enhancement |
US7937397B2 (en) * | 2006-08-22 | 2011-05-03 | Fuji Xerox Co., Ltd. | Apparatus and method for term context modeling for information retrieval |
JP2010146171A (ja) | 2008-12-17 | 2010-07-01 | Nippon Hoso Kyokai <Nhk> | 表現補完装置およびコンピュータプログラム |
US9213687B2 (en) * | 2009-03-23 | 2015-12-15 | Lawrence Au | Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces |
US9009146B1 (en) * | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
US8166032B2 (en) * | 2009-04-09 | 2012-04-24 | MarketChorus, Inc. | System and method for sentiment-based text classification and relevancy ranking |
JP5440815B2 (ja) * | 2009-06-26 | 2014-03-12 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
US8874432B2 (en) * | 2010-04-28 | 2014-10-28 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
KR101811468B1 (ko) * | 2010-06-03 | 2017-12-21 | 톰슨 라이센싱 | 톱-k 처리를 이용한 의미 보강 |
US10198431B2 (en) * | 2010-09-28 | 2019-02-05 | Siemens Corporation | Information relation generation |
US9087043B2 (en) * | 2010-09-29 | 2015-07-21 | Rhonda Enterprises, Llc | Method, system, and computer readable medium for creating clusters of text in an electronic document |
JP5117590B2 (ja) * | 2011-03-23 | 2013-01-16 | 株式会社東芝 | 文書処理装置およびプログラム |
US8488916B2 (en) * | 2011-07-22 | 2013-07-16 | David S Terman | Knowledge acquisition nexus for facilitating concept capture and promoting time on task |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
US8868590B1 (en) * | 2011-11-17 | 2014-10-21 | Sri International | Method and system utilizing a personalized user model to develop a search request |
US20140067368A1 (en) * | 2012-08-29 | 2014-03-06 | Microsoft Corporation | Determining synonym-antonym polarity in term vectors |
JP6078380B2 (ja) | 2013-03-04 | 2017-02-08 | 日本放送協会 | 文書解析装置、及びプログラム |
US9424345B1 (en) * | 2013-09-25 | 2016-08-23 | Google Inc. | Contextual content distribution |
US10296823B2 (en) * | 2013-11-15 | 2019-05-21 | Intel Corporation | Methods, systems and computer program products for using a distributed associative memory base to determine data correlations and convergence therein |
US11017003B2 (en) * | 2013-12-12 | 2021-05-25 | Samuel S. Epstein | Methods and apparatuses for content preparation and/or selection |
US10157222B2 (en) * | 2013-12-12 | 2018-12-18 | Samuel S. Epstein | Methods and apparatuses for content preparation and/or selection |
WO2015162719A1 (ja) * | 2014-04-23 | 2015-10-29 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
US9378204B2 (en) * | 2014-05-22 | 2016-06-28 | International Business Machines Corporation | Context based synonym filtering for natural language processing systems |
WO2015188339A1 (en) * | 2014-06-12 | 2015-12-17 | Nokia Technologies Oy | Method, apparatus, computer program product and system for reputation generation |
GB201418018D0 (en) * | 2014-10-10 | 2014-11-26 | Workdigital Ltd | A system for, and method of, searching data records |
US9672206B2 (en) * | 2015-06-01 | 2017-06-06 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
-
2015
- 2015-04-24 WO PCT/JP2015/002242 patent/WO2016170561A1/en active Application Filing
- 2015-04-24 US US15/567,630 patent/US10354010B2/en active Active
- 2015-04-24 JP JP2017552506A patent/JP6468364B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018517963A (ja) | 2018-07-05 |
WO2016170561A1 (en) | 2016-10-27 |
US10354010B2 (en) | 2019-07-16 |
US20180137100A1 (en) | 2018-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6468364B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
CN109902706B (zh) | 推荐方法及装置 | |
CN106776673B (zh) | 多媒体文档概括 | |
US10489688B2 (en) | Personalized digital image aesthetics in a digital medium environment | |
Taddy | One-step estimator paths for concave regularization | |
Almaksour et al. | Improving premise structure in evolving takagi–sugeno neuro-fuzzy classifiers | |
WO2020114108A1 (zh) | 聚类结果的解释方法和装置 | |
CN111400615B (zh) | 一种资源推荐方法、装置、设备及存储介质 | |
JP6763426B2 (ja) | 情報処理システム、情報処理方法、及び、プログラム | |
JP6924571B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
JP6365032B2 (ja) | データ分類方法、データ分類プログラム、及び、データ分類装置 | |
JP5503633B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
Liu et al. | An experimental study on symbolic extreme learning machine | |
JPWO2016084326A1 (ja) | 情報処理システム、情報処理方法、及び、プログラム | |
WO2020179378A1 (ja) | 情報処理システム、情報処理方法および記録媒体 | |
CN112000788A (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
JP6099099B2 (ja) | 収束判定装置、方法、及びプログラム | |
EP1837807A1 (en) | Pattern recognition method | |
CN110543597B (zh) | 一种评分确定方法、装置及电子设备 | |
JP2016194912A (ja) | 混合モデルの選択方法及び装置 | |
Jiang et al. | A Bayesian Markov-switching model for sparse dynamic network estimation | |
JP2019109662A (ja) | 分類装置、データ構造、分類方法、およびプログラム | |
Endo et al. | Analysis of relationship between renyi entropy and marginal bayes error and its application to weighted naive bayes classifiers | |
JP7268347B2 (ja) | 識別装置、識別方法及びプログラム | |
JP5538354B2 (ja) | トピックモデル学習方法、装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181231 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6468364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |