JP2013105210A - 単語属性推定装置及び方法及びプログラム - Google Patents
単語属性推定装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2013105210A JP2013105210A JP2011246844A JP2011246844A JP2013105210A JP 2013105210 A JP2013105210 A JP 2013105210A JP 2011246844 A JP2011246844 A JP 2011246844A JP 2011246844 A JP2011246844 A JP 2011246844A JP 2013105210 A JP2013105210 A JP 2013105210A
- Authority
- JP
- Japan
- Prior art keywords
- word
- synonym
- data
- category
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、入力単語と共起する単語のパターンを特徴パターンとして抽出し、入力された単語共起データから特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、入力単語及び各同類語に対し、共起する単語のパターンを特徴パターンとして抽出し、その特徴パターンを要素とし、その共起頻度を値とするベクトルを作成する。入力単語と各同類語候補との関連度を算出し、関連度の高いものを同類語として抽出する。同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、当該カテゴリを属性として付与した単語を属性付単語として出力する。
【選択図】 図1
Description
入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
前記特徴データ記憶部から前記特徴データを取得し、前記入力単語と前記同類語候補記憶手段の各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、を有する。
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む。
110 特徴パターンデータ作成部
120 同類語候補抽出部
130 特徴データ作成部
140 同類語抽出部
150 カテゴリ推定部
160 特徴パターンデータ記憶部
170 同類語候補データ記憶部
180 特徴データ記憶部
190 同類語データ記憶部
200 入力単語データ記憶部
300 単語共起データ記憶部
400 単語カテゴリデータ記憶部
500 属性付き単語データ記憶部
Claims (7)
- 他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置であって、
入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、
を備えたことを特徴とする単語属性推定装置。 - 前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定手段を更に有する
請求項1に記載の単語属性推定装置。 - 前記同類語抽出手段は、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む
請求項1または2に記載の単語属性推定装置。 - 属性が未知である単語に対し、付与すべき属性を推定する単語属性推定方法であって、
特徴パターンデータ作成手段が、入力単語データ記憶手段の入力単語データと単語共起データ記憶手段の単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成ステップと、
同類語候補抽出手段が、前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出ステップと、
特徴データ作成手段が、前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成ステップと、
同類語抽出手段が、前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出ステップと、
を行うことを特徴とする単語属性推定方法。 - カテゴリ推定手段が、前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定ステップを更に行う
請求項4に記載の単語属性推定方法。 - 前記同類語抽出ステップにおいて、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する
請求項4または5に記載の単語属性推定方法。 - コンピュータを、
請求項1乃至3のいずれか1項に記載の各手段として機能させるための単語属性推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011246844A JP5611173B2 (ja) | 2011-11-10 | 2011-11-10 | 単語属性推定装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011246844A JP5611173B2 (ja) | 2011-11-10 | 2011-11-10 | 単語属性推定装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013105210A true JP2013105210A (ja) | 2013-05-30 |
JP5611173B2 JP5611173B2 (ja) | 2014-10-22 |
Family
ID=48624726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011246844A Expired - Fee Related JP5611173B2 (ja) | 2011-11-10 | 2011-11-10 | 単語属性推定装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5611173B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015153013A (ja) * | 2014-02-12 | 2015-08-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
JP2016532173A (ja) * | 2013-09-29 | 2016-10-13 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム |
JP2017167986A (ja) * | 2016-03-17 | 2017-09-21 | ヤフー株式会社 | 判定装置、および判定方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1072982A2 (en) * | 1999-07-30 | 2001-01-31 | Matsushita Electric Industrial Co., Ltd. | Method and system for similar word extraction and document retrieval |
JP2004326479A (ja) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | 単語間類似度計算プログラム及び装置 |
JP2004334766A (ja) * | 2003-05-12 | 2004-11-25 | Oki Electric Ind Co Ltd | 単語分類装置、単語分類方法及び単語分類プログラム |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
JP2005326952A (ja) * | 2004-05-12 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 概念辞書への単語登録方法、装置、およびプログラム |
JP2009129323A (ja) * | 2007-11-27 | 2009-06-11 | Hitachi Ltd | 同義語抽出装置 |
JP2010267047A (ja) * | 2009-05-14 | 2010-11-25 | Ntt Data Corp | 類義語辞書構築装置及び方法、コンピュータプログラム |
JP2010277396A (ja) * | 2009-05-29 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体 |
-
2011
- 2011-11-10 JP JP2011246844A patent/JP5611173B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1072982A2 (en) * | 1999-07-30 | 2001-01-31 | Matsushita Electric Industrial Co., Ltd. | Method and system for similar word extraction and document retrieval |
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP2004326479A (ja) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | 単語間類似度計算プログラム及び装置 |
JP2004334766A (ja) * | 2003-05-12 | 2004-11-25 | Oki Electric Ind Co Ltd | 単語分類装置、単語分類方法及び単語分類プログラム |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
JP2005326952A (ja) * | 2004-05-12 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 概念辞書への単語登録方法、装置、およびプログラム |
JP2009129323A (ja) * | 2007-11-27 | 2009-06-11 | Hitachi Ltd | 同義語抽出装置 |
JP2010267047A (ja) * | 2009-05-14 | 2010-11-25 | Ntt Data Corp | 類義語辞書構築装置及び方法、コンピュータプログラム |
JP2010277396A (ja) * | 2009-05-29 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体 |
Non-Patent Citations (2)
Title |
---|
CSNG200401032009; 伊東 秀夫: '"類義語のオンライン検索"' 情報処理学会研究報告 第2002巻,第87号, 20020918, p.59-63, 社団法人情報処理学会 * |
JPN6014036259; 伊東 秀夫: '"類義語のオンライン検索"' 情報処理学会研究報告 第2002巻,第87号, 20020918, p.59-63, 社団法人情報処理学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016532173A (ja) * | 2013-09-29 | 2016-10-13 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム |
US10268758B2 (en) | 2013-09-29 | 2019-04-23 | Peking University Founder Group Co. Ltd. | Method and system of acquiring semantic information, keyword expansion and keyword search thereof |
JP2015153013A (ja) * | 2014-02-12 | 2015-08-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
US9792274B2 (en) | 2014-02-12 | 2017-10-17 | International Business Machines Corporation | Categorizing keywords |
US10606944B2 (en) | 2014-02-12 | 2020-03-31 | International Business Machines Corporation | Categorizing keywords |
JP2017167986A (ja) * | 2016-03-17 | 2017-09-21 | ヤフー株式会社 | 判定装置、および判定方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5611173B2 (ja) | 2014-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9280967B2 (en) | Apparatus and method for estimating utterance style of each sentence in documents, and non-transitory computer readable medium thereof | |
JP6850806B2 (ja) | 電子データ構造から属性を抽出するための注釈システム | |
CN103955547B (zh) | 发现论坛热帖的方法和系统 | |
CN104035917A (zh) | 一种基于语义空间映射的知识图谱管理方法和系统 | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
WO2018072501A1 (en) | Information extraction apparatus and method | |
JP6230725B2 (ja) | 因果関係分析装置、及び因果関係分析方法 | |
JP5611173B2 (ja) | 単語属性推定装置及び方法及びプログラム | |
JP4524640B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP5542729B2 (ja) | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
US10929446B2 (en) | Document search apparatus and method | |
JP6049201B2 (ja) | 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ | |
KR102351745B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법 | |
JP5291351B2 (ja) | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
KR20160086255A (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP5486525B2 (ja) | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム | |
JP2020013395A (ja) | 公開装置、公開方法および公開プログラム | |
JP7362577B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2006085634A (ja) | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム | |
JP5221751B2 (ja) | 著者行動推定装置、著者行動推定モデル学習装置、著者行動推定方法、著者行動推定モデル学習方法、及びプログラム | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5611173 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |