JP2013254421A - 固有表現タイプ推定装置、方法、及びプログラム - Google Patents
固有表現タイプ推定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013254421A JP2013254421A JP2012130646A JP2012130646A JP2013254421A JP 2013254421 A JP2013254421 A JP 2013254421A JP 2012130646 A JP2012130646 A JP 2012130646A JP 2012130646 A JP2012130646 A JP 2012130646A JP 2013254421 A JP2013254421 A JP 2013254421A
- Authority
- JP
- Japan
- Prior art keywords
- headword
- type
- specific expression
- category
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】見出し語突合部26は、種辞書データベース24とカテゴリ付き辞書データベース25とにおいて、共通する見出し語を選択し、選択された見出し語の各々について、見出し語、カテゴリ、及び固有表現のタイプを対応付けたトリプルデータを生成する。固有表現タイプ学習部28は、生成されたトリプルデータの各々について、見出し語とカテゴリとのペアに関する特徴量を抽出し、各トリプルデータの特徴量と、各トリプルデータに含まれる固有表現のタイプとに基づいて、固有表現タイプ推定器を学習する。固有表現タイプ推定部29は、学習された固有表現タイプ推定器を用いて、カテゴリ付き辞書データベース25中の各見出し語について固有表現のタイプを推定する。
【選択図】図1
Description
固有表現のタグが付与されたデータと、見出し語にカテゴリが付与された辞書データとを元に、辞書データの見出し語に固有表現のタグを付与することで、固有表現の辞書を自動的に構築する。固有表現のタグが付与されたデータとは、単語とその固有表現タイプとの対応を取ることが可能なデータを指す。たとえば、少量の単語について固有表現タイプを手作業で付与したものや、上述した固有表現抽出技術の学習データなどを指す。これは、小規模な固有表現辞書であり、種(シード)となる辞書とも言える。このような辞書を「種辞書」と呼ぶ。たとえば、非特許文献2(橋本泰一、乾孝司、村上浩司、”拡張固有表現タグ付きコーパスの構築”、情報処理学会研究報告自然言語処理(NL)、Vol.2008 No.113、2008)には、固有表現抽出技術の学習データとして使うことのできる、コーパスについて記述されており、このコーパスは一般公開されている。
本発明の実施の形態では、拡張固有表現辞書の構築に、本発明を適用した場合を例に説明する。この拡張固有表現辞書は、見出し語の各々について、関根らの提唱する拡張固有表現の固有表現タイプが付与されたものである。拡張固有表現辞書であるので、固有表現のタイプは全部で200ある(図12、図13に示す拡張固有表現のリストを参照)。種辞書として、固有表現抽出技術のための学習データと、手作業で作成した単語とその拡張固有表現のペアとを統合したものを用いる。カテゴリ付きの辞書データとして、見出し語と見出し語のカテゴリが付与された辞書を用いる。このような辞書の一例として、Wikipedia等がある。
次に、本実施の形態に係る固有表現タイプ推定装置100の作用について説明する。まず、手動で作成した固有表現である単語と固有表現タイプとのペアの集合が固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力された、単語と固有表現タイプとのペアの集合が、手動作成ペア記憶部21へ格納される。また、固有表現タグ付きの言語データが固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力された、固有表現タグ付きの言語データが、固有表現タグ付きデータ記憶部22へ格納される。また、カテゴリ付き辞書データが固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力されたカテゴリ付き辞書データが、カテゴリ付き辞書データベース25へ格納される。
20 演算部
21 手動作成ペア記憶部
22 固有表現タグ付きデータ記憶部
23 種辞書作成部
24 種辞書データベース
25 カテゴリ付き辞書データベース
26 見出し語突合部
27 トリプルデータ記憶部
28 固有表現タイプ学習部
29 固有表現タイプ推定部
30 固有表現タイプ付き辞書データベース
100 固有表現タイプ推定装置
Claims (7)
- 固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成するトリプルデータ生成手段と、
前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習する固有表現タイプ学習手段と、
前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する固有表現タイプ推定手段と、
を含む固有表現タイプ推定装置。 - 前記特徴量抽出手段は、前記見出し語に対して形態素解析を行った結果に基づく特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項1記載の固有表現タイプ推定装置。
- 前記特徴量抽出手段は、前記見出し語に含まれる文字に関する特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項1又は2記載の固有表現タイプ推定装置。
- 前記特徴量抽出手段は、前記カテゴリに含まれる文字に関する特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項1〜請求項3の何れか1項記載の固有表現タイプ推定装置。
- 手動で対応付けられた前記固有表現と前記固有表現のタイプとのペアの集合、もしくは前記固有表現のタイプを示すタグが付与された固有表現を含む言語データに基づいて、前記固有表現と前記固有表現のタイプとを対応付けて前記種辞書に格納する種辞書作成手段を更に含む請求項1〜請求項4の何れか1項記載の固有表現タイプ推定装置。
- トリプルデータ生成手段、特徴量抽出手段、固有表現タイプ学習手段、及び固有表現タイプ推定手段を含む固有表現タイプ推定装置における固有表現タイプ推定方法であって、
前記トリプルデータ生成手段によって、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成し、
前記特徴量抽出手段によって、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出し、
前記固有表現タイプ学習手段によって、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習し、
前記固有表現タイプ推定手段によって、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する
固有表現タイプ推定方法。 - コンピュータを、請求項1〜請求項5の何れか1項記載の固有表現タイプ推定装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012130646A JP5604475B2 (ja) | 2012-06-08 | 2012-06-08 | 固有表現タイプ推定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012130646A JP5604475B2 (ja) | 2012-06-08 | 2012-06-08 | 固有表現タイプ推定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013254421A true JP2013254421A (ja) | 2013-12-19 |
JP5604475B2 JP5604475B2 (ja) | 2014-10-08 |
Family
ID=49951851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012130646A Active JP5604475B2 (ja) | 2012-06-08 | 2012-06-08 | 固有表現タイプ推定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5604475B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112585611A (zh) * | 2018-09-28 | 2021-03-30 | 株式会社东芝 | 固有表达提取装置、方法以及存储介质 |
WO2022172437A1 (ja) * | 2021-02-15 | 2022-08-18 | 日本電信電話株式会社 | 影響推定装置、影響推定方法、および、影響推定プログラム |
-
2012
- 2012-06-08 JP JP2012130646A patent/JP5604475B2/ja active Active
Non-Patent Citations (4)
Title |
---|
CSNG200800063016; 新納 浩幸,関根 聡: '拡張固有表現タガーの作成とその問題点の考察' 言語処理学会第12回年次大会発表論文集 , 20060313, p.105-p.108, 言語処理学会 * |
CSNG201000591001; 齋藤 邦子,今村 賢治: 'タグ信頼度に基づく半自動自己更新型固有表現抽出' 自然言語処理 第17巻 第4号 第17巻第4号【ISSN】1340-7619, 20100730, p.3-p.21, 言語処理学会 * |
JPN6014005417; 齋藤 邦子,今村 賢治: 'タグ信頼度に基づく半自動自己更新型固有表現抽出' 自然言語処理 第17巻 第4号 第17巻第4号【ISSN】1340-7619, 20100730, p.3-p.21, 言語処理学会 * |
JPN6014005419; 新納 浩幸,関根 聡: '拡張固有表現タガーの作成とその問題点の考察' 言語処理学会第12回年次大会発表論文集 , 20060313, p.105-p.108, 言語処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112585611A (zh) * | 2018-09-28 | 2021-03-30 | 株式会社东芝 | 固有表达提取装置、方法以及存储介质 |
WO2022172437A1 (ja) * | 2021-02-15 | 2022-08-18 | 日本電信電話株式会社 | 影響推定装置、影響推定方法、および、影響推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5604475B2 (ja) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10628528B2 (en) | System and method for domain-independent aspect level sentiment detection | |
Rathan et al. | Consumer insight mining: aspect based Twitter opinion mining of mobile phone reviews | |
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
Gooding et al. | CAMB at CWI shared task 2018: Complex word identification with ensemble-based voting | |
CN108885617B (zh) | 语句解析系统以及程序 | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
WO2020199600A1 (zh) | 情感极性分析方法及相关装置 | |
KR101851790B1 (ko) | 질문 데이터 세트 확장 장치 및 방법 | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
JP6062879B2 (ja) | モデル学習装置、方法及びプログラム | |
CN111353306A (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
Esparza et al. | Proposal of a Sentiment Analysis Model in Tweets for improvement of the teaching-learning process in the classroom using a corpus of subjectivity | |
Moradi et al. | A hybrid approach for Persian named entity recognition | |
JP2005181928A (ja) | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム | |
Tran et al. | Named entity recognition in Vietnamese documents | |
JP5604475B2 (ja) | 固有表現タイプ推定装置、方法、及びプログラム | |
Nandan et al. | SAP-RI: a constrained and supervised approach for aspect-based sentiment analysis | |
JP2013246795A (ja) | 固有表現抽出装置、方法、及びプログラム | |
CN113705198B (zh) | 场景图生成方法、装置、电子设备及存储介质 | |
JP2012141679A (ja) | 訓練データ獲得装置、訓練データ獲得方法、及びそのプログラム | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Wu et al. | Sentence extraction with topic modeling for question–answer pair generation | |
Ramadasa et al. | Analysis of the effectiveness of using google translations api for nlp of sinhalese | |
Charoenpornsawat et al. | Feature-based proper name identification in Thai |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140729 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140825 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5604475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |