JP5604475B2 - 固有表現タイプ推定装置、方法、及びプログラム - Google Patents
固有表現タイプ推定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5604475B2 JP5604475B2 JP2012130646A JP2012130646A JP5604475B2 JP 5604475 B2 JP5604475 B2 JP 5604475B2 JP 2012130646 A JP2012130646 A JP 2012130646A JP 2012130646 A JP2012130646 A JP 2012130646A JP 5604475 B2 JP5604475 B2 JP 5604475B2
- Authority
- JP
- Japan
- Prior art keywords
- headword
- type
- specific expression
- category
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
固有表現のタグが付与されたデータと、見出し語にカテゴリが付与された辞書データとを元に、辞書データの見出し語に固有表現のタグを付与することで、固有表現の辞書を自動的に構築する。固有表現のタグが付与されたデータとは、単語とその固有表現タイプとの対応を取ることが可能なデータを指す。たとえば、少量の単語について固有表現タイプを手作業で付与したものや、上述した固有表現抽出技術の学習データなどを指す。これは、小規模な固有表現辞書であり、種(シード)となる辞書とも言える。このような辞書を「種辞書」と呼ぶ。たとえば、非特許文献2(橋本泰一、乾孝司、村上浩司、”拡張固有表現タグ付きコーパスの構築”、情報処理学会研究報告自然言語処理(NL)、Vol.2008 No.113、2008)には、固有表現抽出技術の学習データとして使うことのできる、コーパスについて記述されており、このコーパスは一般公開されている。
本発明の実施の形態では、拡張固有表現辞書の構築に、本発明を適用した場合を例に説明する。この拡張固有表現辞書は、見出し語の各々について、関根らの提唱する拡張固有表現の固有表現タイプが付与されたものである。拡張固有表現辞書であるので、固有表現のタイプは全部で200ある(図12、図13に示す拡張固有表現のリストを参照)。種辞書として、固有表現抽出技術のための学習データと、手作業で作成した単語とその拡張固有表現のペアとを統合したものを用いる。カテゴリ付きの辞書データとして、見出し語と見出し語のカテゴリが付与された辞書を用いる。このような辞書の一例として、Wikipedia等がある。
次に、本実施の形態に係る固有表現タイプ推定装置100の作用について説明する。まず、手動で作成した固有表現である単語と固有表現タイプとのペアの集合が固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力された、単語と固有表現タイプとのペアの集合が、手動作成ペア記憶部21へ格納される。また、固有表現タグ付きの言語データが固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力された、固有表現タグ付きの言語データが、固有表現タグ付きデータ記憶部22へ格納される。また、カテゴリ付き辞書データが固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力されたカテゴリ付き辞書データが、カテゴリ付き辞書データベース25へ格納される。
20 演算部
21 手動作成ペア記憶部
22 固有表現タグ付きデータ記憶部
23 種辞書作成部
24 種辞書データベース
25 カテゴリ付き辞書データベース
26 見出し語突合部
27 トリプルデータ記憶部
28 固有表現タイプ学習部
29 固有表現タイプ推定部
30 固有表現タイプ付き辞書データベース
100 固有表現タイプ推定装置
Claims (4)
- 固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成するトリプルデータ生成手段と、
前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量として、前記見出し語に含まれる品詞に関する特徴量、前記見出し語に含まれる固有表現に関する特徴量、前記見出し語に含まれる単語に関する特徴量、前記見出し語に含まれる意味属性に関する特徴量、前記見出し語に含まれる文字に関する特徴量、及び前記カテゴリに含まれる文字に関する特徴量を要素とする特徴ベクトルを生成する特徴量抽出手段と、
前記特徴量抽出手段によって生成された各トリプルデータの前記特徴ベクトルと、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴ベクトルに対する前記固有表現のタイプを推定するための推定モデルを学習する固有表現タイプ学習手段と、
前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴ベクトルとに基づいて、前記見出し語について前記固有表現のタイプを推定する固有表現タイプ推定手段と、
を含む固有表現タイプ推定装置。 - 手動で対応付けられた前記固有表現と前記固有表現のタイプとのペアの集合、もしくは前記固有表現のタイプを示すタグが付与された固有表現を含む言語データに基づいて、前記固有表現と前記固有表現のタイプとを対応付けて前記種辞書に格納する種辞書作成手段を更に含む請求項1記載の固有表現タイプ推定装置。
- トリプルデータ生成手段、特徴量抽出手段、固有表現タイプ学習手段、及び固有表現タイプ推定手段を含む固有表現タイプ推定装置における固有表現タイプ推定方法であって、
前記トリプルデータ生成手段によって、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成し、
前記特徴量抽出手段によって、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量として、前記見出し語に含まれる品詞に関する特徴量、前記見出し語に含まれる固有表現に関する特徴量、前記見出し語に含まれる単語に関する特徴量、前記見出し語に含まれる意味属性に関する特徴量、前記見出し語に含まれる文字に関する特徴量、及び前記カテゴリに含まれる文字に関する特徴量を要素とする特徴ベクトルを生成し、
前記固有表現タイプ学習手段によって、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴ベクトルと、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴ベクトルに対する前記固有表現のタイプを推定するための推定モデルを学習し、
前記固有表現タイプ推定手段によって、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴ベクトルとに基づいて、前記見出し語について前記固有表現のタイプを推定する
固有表現タイプ推定方法。 - コンピュータを、請求項1又は2記載の固有表現タイプ推定装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012130646A JP5604475B2 (ja) | 2012-06-08 | 2012-06-08 | 固有表現タイプ推定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012130646A JP5604475B2 (ja) | 2012-06-08 | 2012-06-08 | 固有表現タイプ推定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013254421A JP2013254421A (ja) | 2013-12-19 |
JP5604475B2 true JP5604475B2 (ja) | 2014-10-08 |
Family
ID=49951851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012130646A Active JP5604475B2 (ja) | 2012-06-08 | 2012-06-08 | 固有表現タイプ推定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5604475B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7286291B2 (ja) * | 2018-09-28 | 2023-06-05 | 株式会社東芝 | 固有表現抽出装置、方法およびプログラム |
WO2022172437A1 (ja) * | 2021-02-15 | 2022-08-18 | 日本電信電話株式会社 | 影響推定装置、影響推定方法、および、影響推定プログラム |
JP7507733B2 (ja) * | 2021-08-20 | 2024-06-28 | Lineヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
-
2012
- 2012-06-08 JP JP2012130646A patent/JP5604475B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013254421A (ja) | 2013-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190005027A1 (en) | System and Method For Domain-Independent Aspect Level Sentiment Detection | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
CN108885617B (zh) | 语句解析系统以及程序 | |
CN105988990A (zh) | 用于汉语中的零指代消解的装置和方法以及模型训练方法 | |
WO2020199600A1 (zh) | 情感极性分析方法及相关装置 | |
JP6062879B2 (ja) | モデル学習装置、方法及びプログラム | |
CN111353306A (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
Kim et al. | Simplescience: Lexical simplification of scientific terminology | |
Esparza et al. | Proposal of a Sentiment Analysis Model in Tweets for improvement of the teaching-learning process in the classroom using a corpus of subjectivity | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP2005181928A (ja) | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム | |
CN113705198B (zh) | 场景图生成方法、装置、电子设备及存储介质 | |
JP5604475B2 (ja) | 固有表現タイプ推定装置、方法、及びプログラム | |
Tran et al. | Named entity recognition in Vietnamese documents | |
CN113157888A (zh) | 支持多知识来源的询问答复方法、装置和电子设备 | |
US20200175068A1 (en) | Method and system to extract domain concepts to create domain dictionaries and ontologies | |
Ramadasa et al. | Analysis of the effectiveness of using google translations api for nlp of sinhalese | |
Nandan et al. | SAP-RI: a constrained and supervised approach for aspect-based sentiment analysis | |
JP2013246795A (ja) | 固有表現抽出装置、方法、及びプログラム | |
JP2012141679A (ja) | 訓練データ獲得装置、訓練データ獲得方法、及びそのプログラム | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Wu et al. | Sentence extraction with topic modeling for question–answer pair generation | |
Munir et al. | Dependency parsing using the URDU. KON-TB treebank | |
JP5964916B2 (ja) | モデル学習装置、人物属性分類装置、方法、及びプログラム | |
JP2016009415A (ja) | 用語集作成支援システムおよび方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140729 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140825 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5604475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |