JP2009129323A - 同義語抽出装置 - Google Patents
同義語抽出装置 Download PDFInfo
- Publication number
- JP2009129323A JP2009129323A JP2007305693A JP2007305693A JP2009129323A JP 2009129323 A JP2009129323 A JP 2009129323A JP 2007305693 A JP2007305693 A JP 2007305693A JP 2007305693 A JP2007305693 A JP 2007305693A JP 2009129323 A JP2009129323 A JP 2009129323A
- Authority
- JP
- Japan
- Prior art keywords
- word
- processing target
- words
- list
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】テキストから単語(処理対象単語)とその文脈となる単語(共起単語)の組を抽出し、共起単語をランダム行列によって射影し、射影した結果を集約して得られる圧縮文脈行列から得られる圧縮文脈の類似度から、単語間の類似度を判定する。
【選択図】図2
Description
P.P. Senellart, V. D. Blondel, Automatic discovery of similar words, Survey of Text Mining: Clustering, Classification, and Retrieval, M. W. Berry, Springer, (2003/08).
図1は、本発明の同義語抽出装置を実現する計算機システムのブロック図である。本実施の形態の同義語抽出装置は、CPU101、主メモリ102、入出力装置103及びディスク装置110を備える。
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 同義語抽出プログラム
113 テキスト
114 単語リスト
115 ランダム行列
116 圧縮文脈行列
117 形態素解析結果
Claims (3)
- プロセッサと、メモリと、外部記憶装置とを備え、
前記プロセッサは、テキストから当該テキストに含まれる処理対象単語の出現頻度を記録したリストを作成する処理、前記リストに含まれる処理対象単語の少なくとも一部に対応してランダム行列を生成する処理、前記リストに含まれる処理対象単語と共起する共起単語の組を前記テキストから抽出する処理、前記処理対象単語と共起する共起単語の組を前記ランダム行列によってランダム射影し、ランダム射影結果の和を計算することによって、前記処理対象単語の意味を表現するベクトルを計算する処理、前記ベクトル間の距離を計算することにより前記処理対象単語間で同義語の組を抽出する処理を実行し、
前記メモリ上に、前記処理対象単語の出現頻度を記録したリスト、前記ランダム行列及び前記処理対象単語の意味を表現するベクトルの計算結果が置かれていることを特徴とする同義語抽出装置。 - 請求項1記載の同義語抽出装置において、前記メモリ上に置かれる処理対象単語のリストに含まれる単語数Aが予め設定されており、全ての処理対象単語を含む全体単語リストが前記外部記憶装置に記憶され、前記全体単語リスト中の出現頻度順上位A個に含まれる処理対象単語が変化したとき、前記メモリ上に置かれる処理対象単語のリスト及び前記ランダム行列を前記全体単語リスト中の出現頻度順上位A個に含まれる処理対象単語に対応したものに変更することを特徴とする同義語抽出装置。
- プロセッサと、メモリと、インタフェースとを備え、
前記メモリは、テキストから当該テキストに含まれる処理対象単語の出現頻度を記録したリストを作成する処理、前記リストに含まれる処理対象単語の少なくとも一部に対応してランダム行列を生成する処理、前記リストに含まれる処理対象単語と共起する共起単語の組を前記テキストから抽出する処理、前記処理対象単語と共起する共起単語の組を前記ランダム行列によってランダム射影し、ランダム射影結果の和を計算することによって、前記処理対象単語の意味を表現する意味ベクトルを計算する処理を実行した結果得られた複数の処理対象単語に対応する意味ベクトルを保持し、
前記プロセッサは、前記インタフェースを介して受け付けた単語に対応する意味ベクトルと前記メモリ上に保持されている他の処理対象単語に対応する意味ベクトル間の距離を計算し、距離が近い処理対象単語を前記受け付けた単語の同義語として出力することを特徴とする同義語抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007305693A JP5079471B2 (ja) | 2007-11-27 | 2007-11-27 | 同義語抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007305693A JP5079471B2 (ja) | 2007-11-27 | 2007-11-27 | 同義語抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009129323A true JP2009129323A (ja) | 2009-06-11 |
JP5079471B2 JP5079471B2 (ja) | 2012-11-21 |
Family
ID=40820151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007305693A Expired - Fee Related JP5079471B2 (ja) | 2007-11-27 | 2007-11-27 | 同義語抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5079471B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010213230A (ja) * | 2009-03-12 | 2010-09-24 | Oki Electric Ind Co Ltd | 近似計算処理装置、近似ウェーブレット係数計算処理装置、及び近似ウェーブレット係数計算処理方法 |
JP2011175328A (ja) * | 2010-02-23 | 2011-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 意味属性推定装置、意味属性推定方法、意味属性推定プログラム |
JP2011258114A (ja) * | 2010-06-11 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 関連語計算装置、関連語計算方法及び関連語計算プログラム |
JP2013105210A (ja) * | 2011-11-10 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 単語属性推定装置及び方法及びプログラム |
WO2013150633A1 (ja) * | 2012-04-05 | 2013-10-10 | 株式会社日立製作所 | 文書処理システム、及び、文書処理方法 |
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
WO2014002774A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2018045658A (ja) * | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 判定装置および判定方法 |
WO2018190128A1 (ja) * | 2017-04-11 | 2018-10-18 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2019133478A (ja) * | 2018-01-31 | 2019-08-08 | 株式会社Fronteo | 計算機システム |
-
2007
- 2007-11-27 JP JP2007305693A patent/JP5079471B2/ja not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010213230A (ja) * | 2009-03-12 | 2010-09-24 | Oki Electric Ind Co Ltd | 近似計算処理装置、近似ウェーブレット係数計算処理装置、及び近似ウェーブレット係数計算処理方法 |
JP4735729B2 (ja) * | 2009-03-12 | 2011-07-27 | 沖電気工業株式会社 | 近似計算処理装置、近似ウェーブレット係数計算処理装置、及び近似ウェーブレット係数計算処理方法 |
JP2011175328A (ja) * | 2010-02-23 | 2011-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 意味属性推定装置、意味属性推定方法、意味属性推定プログラム |
JP2011258114A (ja) * | 2010-06-11 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 関連語計算装置、関連語計算方法及び関連語計算プログラム |
JP2013105210A (ja) * | 2011-11-10 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 単語属性推定装置及び方法及びプログラム |
WO2013150633A1 (ja) * | 2012-04-05 | 2013-10-10 | 株式会社日立製作所 | 文書処理システム、及び、文書処理方法 |
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
WO2014002774A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JPWO2014002776A1 (ja) * | 2012-06-25 | 2016-05-30 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2018045658A (ja) * | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 判定装置および判定方法 |
WO2018190128A1 (ja) * | 2017-04-11 | 2018-10-18 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JPWO2018190128A1 (ja) * | 2017-04-11 | 2020-02-27 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2019133478A (ja) * | 2018-01-31 | 2019-08-08 | 株式会社Fronteo | 計算機システム |
Also Published As
Publication number | Publication date |
---|---|
JP5079471B2 (ja) | 2012-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5079471B2 (ja) | 同義語抽出装置 | |
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
Manjari et al. | Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm | |
KR20190062391A (ko) | 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법 | |
US20230259563A1 (en) | System, Method and Computer Program Product for Protecting Derived Metadata When Updating Records within a Search Engine | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
Aggarwal et al. | Wikipedia-based distributional semantics for entity relatedness | |
Chen et al. | Polyuhk: A robust information extraction system for web personal names | |
Berdyugina et al. | Setting up context-sensitive real-time contradiction matrix of a given field using unstructured texts of patent contents and natural language processing | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
US8554696B2 (en) | Efficient computation of ontology affinity matrices | |
JP2009277099A (ja) | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
Dinov et al. | Natural language processing/text mining | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP2011159100A (ja) | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP5906810B2 (ja) | 全文検索装置、プログラム及び記録媒体 | |
Veretennikov | An efficient algorithm for three-component key index construction | |
Ramesh et al. | Extractive Text Summarization Using Graph Based Ranking Algorithm And Mean Shift Clustering | |
CN117851574A (zh) | 一种文本对话方法、装置及电子设备 | |
Meng et al. | IPKB: a digital library for invertebrate paleontology | |
Dais et al. | A Comparison on Techniques for Automatic Generation of Presentation Slides |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120829 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150907 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150907 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |