JP5611173B2 - 単語属性推定装置及び方法及びプログラム - Google Patents
単語属性推定装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5611173B2 JP5611173B2 JP2011246844A JP2011246844A JP5611173B2 JP 5611173 B2 JP5611173 B2 JP 5611173B2 JP 2011246844 A JP2011246844 A JP 2011246844A JP 2011246844 A JP2011246844 A JP 2011246844A JP 5611173 B2 JP5611173 B2 JP 5611173B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- synonym
- data
- category
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
前記特徴データ記憶部から前記特徴データを取得し、前記入力単語と前記同類語候補記憶手段の各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、を有する。
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む。
110 特徴パターンデータ作成部
120 同類語候補抽出部
130 特徴データ作成部
140 同類語抽出部
150 カテゴリ推定部
160 特徴パターンデータ記憶部
170 同類語候補データ記憶部
180 特徴データ記憶部
190 同類語データ記憶部
200 入力単語データ記憶部
300 単語共起データ記憶部
400 単語カテゴリデータ記憶部
500 属性付き単語データ記憶部
Claims (7)
- 他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置であって、
入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、
を備えたことを特徴とする単語属性推定装置。 - 前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定手段を更に有する
請求項1に記載の単語属性推定装置。 - 前記同類語抽出手段は、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む
請求項1または2に記載の単語属性推定装置。 - 属性が未知である単語に対し、付与すべき属性を推定する単語属性推定方法であって、
特徴パターンデータ作成手段が、入力単語データ記憶手段の入力単語データと単語共起データ記憶手段の単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成ステップと、
同類語候補抽出手段が、前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出ステップと、
特徴データ作成手段が、前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成ステップと、
同類語抽出手段が、前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出ステップと、
を行うことを特徴とする単語属性推定方法。 - カテゴリ推定手段が、前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定ステップを更に行う
請求項4に記載の単語属性推定方法。 - 前記同類語抽出ステップにおいて、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する
請求項4または5に記載の単語属性推定方法。 - コンピュータを、
請求項1乃至3のいずれか1項に記載の各手段として機能させるための単語属性推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011246844A JP5611173B2 (ja) | 2011-11-10 | 2011-11-10 | 単語属性推定装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011246844A JP5611173B2 (ja) | 2011-11-10 | 2011-11-10 | 単語属性推定装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013105210A JP2013105210A (ja) | 2013-05-30 |
JP5611173B2 true JP5611173B2 (ja) | 2014-10-22 |
Family
ID=48624726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011246844A Expired - Fee Related JP5611173B2 (ja) | 2011-11-10 | 2011-11-10 | 単語属性推定装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5611173B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516902A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 语义信息获取方法及其对应的关键词扩展方法和检索方法 |
JP6044963B2 (ja) | 2014-02-12 | 2016-12-14 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
JP6400037B2 (ja) * | 2016-03-17 | 2018-10-03 | ヤフー株式会社 | 判定装置、および判定方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP4055638B2 (ja) * | 2003-04-25 | 2008-03-05 | 株式会社日立製作所 | 文書処理装置 |
JP3847273B2 (ja) * | 2003-05-12 | 2006-11-22 | 沖電気工業株式会社 | 単語分類装置、単語分類方法及び単語分類プログラム |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
JP2005326952A (ja) * | 2004-05-12 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 概念辞書への単語登録方法、装置、およびプログラム |
JP5079471B2 (ja) * | 2007-11-27 | 2012-11-21 | 株式会社日立製作所 | 同義語抽出装置 |
JP5145288B2 (ja) * | 2009-05-14 | 2013-02-13 | 株式会社エヌ・ティ・ティ・データ | 類義語辞書構築装置及び方法、コンピュータプログラム |
JP2010277396A (ja) * | 2009-05-29 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体 |
-
2011
- 2011-11-10 JP JP2011246844A patent/JP5611173B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013105210A (ja) | 2013-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9280967B2 (en) | Apparatus and method for estimating utterance style of each sentence in documents, and non-transitory computer readable medium thereof | |
US8504492B2 (en) | Identification of attributes and values using multiple classifiers | |
JP5536875B2 (ja) | 同義語を識別し、同義語を使用して検索するための方法および装置 | |
JP6850806B2 (ja) | 電子データ構造から属性を抽出するための注釈システム | |
JP6505421B2 (ja) | 情報抽出支援装置、方法およびプログラム | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
WO2018072501A1 (en) | Information extraction apparatus and method | |
JP6558863B2 (ja) | モデル作成装置、推定装置、方法、及びプログラム | |
JP5611173B2 (ja) | 単語属性推定装置及び方法及びプログラム | |
JP5527548B2 (ja) | 情報分析装置、情報分析方法、及びプログラム | |
JP4524640B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP5542729B2 (ja) | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
JP2010198142A (ja) | 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム | |
US10929446B2 (en) | Document search apparatus and method | |
KR102351745B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법 | |
JP6049201B2 (ja) | 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ | |
KR20160086255A (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP2020013395A (ja) | 公開装置、公開方法および公開プログラム | |
JP5221751B2 (ja) | 著者行動推定装置、著者行動推定モデル学習装置、著者行動推定方法、著者行動推定モデル学習方法、及びプログラム | |
JP6040138B2 (ja) | 文書分類装置、文書分類方法および文書分類プログラム | |
JP2006085634A (ja) | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム | |
JP5486525B2 (ja) | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5611173 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |