JP2013246795A - 固有表現抽出装置、方法、及びプログラム - Google Patents
固有表現抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013246795A JP2013246795A JP2012122359A JP2012122359A JP2013246795A JP 2013246795 A JP2013246795 A JP 2013246795A JP 2012122359 A JP2012122359 A JP 2012122359A JP 2012122359 A JP2012122359 A JP 2012122359A JP 2013246795 A JP2013246795 A JP 2013246795A
- Authority
- JP
- Japan
- Prior art keywords
- label
- word
- feature
- specific expression
- hierarchy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】素性生成部によって、形態素解析済みの入力文書に基づいて、入力文書中の各単語について、単語内の情報に関する特徴、及び単語の周辺脈に関する特徴を示す素性を算出する。個別モデル識別部によって、特定ラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを用いて、算出された各単語の素性に基づいて、入力文書中の各単語が、特定ラベルが付与された固有表現であるか否かを識別し、入力文書から、特定ラベルが付与された固有表現を抽出する。
【選択図】図12
Description
<発明の概要>
「ナイル川 / に / 行きたい」という文章と 「多摩川動物園 / に / 行きたい」という文章とに含まれる固有表現のラベルの区別を行うために、周辺文脈だけでなく、単語内の情報を素性として求める。例えば、単語「ナイル川」に対して、素性[単語内文字]={ナ,イ,ル,川}、素性[最初の文字]={ナ}、素性[最後の文字]={川}を用いて、単語「ナイル川」に対して、詳細な固有表現のラベルが付与された固有表現であるか否かを識別し、固有表現を精度よく抽出する。
本発明の第1の実施の形態では、全200ラベルに対してルート階層から第3階層までの階層構造が予め定義された拡張固有表現のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。
次に、第1の実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が、固有表現学習装置100に入力されると、固有表現学習装置100によって、入力された文書データの集合が、文書集合データベース21へ格納される。そして、固有表現学習装置100によって、図6に示す階層モデル学習処理ルーチンが実行される。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
特定のラベルのみを必要とする場合には、特定のラベルについてのみモデル化し、適用すれば良い。これを個別モデルと呼ぶ。全てのラベルをモデル化する必要がなく、単一クラスにおいてモデル化すればよいため、省メモリかつ高速な処理が可能となる。例えば、図8に示すように、拡張固有表現定義における末端の階層の1つのラベルのみを対象として、その場限りで必要な固有表現を高速に抽出する。
本発明の第2の実施の形態では、拡張固有表現定義における末端階層のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。
次に、本実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が固有表現学習装置200に入力されると、固有表現学習装置200によって、入力された文書データの集合が、文書集合データベース21へ格納される。そして、固有表現学習装置200によって、図13に示す個別モデル学習処理ルーチンが実行される。
次に、第3の実施の形態について説明する。なお、第1の実施の形態及び第2の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
本発明の第3の実施の形態に係る固有表現抽出システムでは、上記の第1の実施の形態と同様に、固有表現学習装置100によって、階層構造の各識別モデルを学習すると共に、上記の第2の実施の形態と同様に、固有表現学習装置200によって、末端階層の各ラベルの識別モデルを学習する。
20、60、220、260、360 演算部
21 文書集合データベース
22 第3階層分割部
23、28、33、61、66、71、223素性生成部
25 第2階層学習部
30 第1階層学習部
35 ルート階層学習部
63 ルート階層モデル記憶部
64 ルート階層識別部
65 第1階層分割部
68 第1階層モデル記憶部
69 第1階層識別部
70 第2階層分割部
73 第2階層モデル記憶部
74 第2階層識別部
75 抽出結果統合部
80 出力部
100、200固有表現学習装置
150、250、350 固有表現抽出装置
222 末端階層分割部
225 個別モデル学習部
263 個別モデル記憶部
264 個別モデル識別部
363 モデル切替部
364 階層モデル識別部
365 個別モデル識別部
Claims (7)
- 形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する素性算出手段と、
前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記ラベルが付与された固有表現を抽出する固有表現抽出手段と、
を含む固有表現抽出装置。 - 形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第1素性算出手段と、
前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出する第1固有表現抽出手段と、
前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第2素性算出手段と、
前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出する第2固有表現抽出手段と、
を含む固有表現抽出装置。 - ユーザからの入力に従って、前記階層構造の各階層のラベルが付与された固有表現を抽出するか、前記階層構造のラベルのうちの特定ラベルが付与された固有表現を抽出するかを判定する判定手段と、
前記判定手段によって、前記特定ラベルが付与された固有表現を抽出すると判定された場合に、前記単語が、前記特定ラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定ラベルが付与された固有表現を抽出する第3固有表現抽出手段と、
を更に含む請求項2記載の固有表現抽出装置。 - 前記単語内の情報に関する特徴を、前記単語内の各文字、前記単語の最初の文字、及び前記単語の最後の文字の少なくとも1つに関する特徴とした請求項1〜請求項3の何れか1項記載の固有表現抽出装置。
- 素性算出手段及び固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
前記素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記ラベルが付与された固有表現を抽出する
固有表現抽出方法。 - 第1素性算出手段、第1固有表現抽出手段、第2素性算出手段、及び第2固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
前記第1素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第1固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出し、
前記第2素性算出手段によって、前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第2固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出する
固有表現抽出方法。 - コンピュータを、請求項1〜請求項4の何れか1項記載の固有表現抽出装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012122359A JP5591870B2 (ja) | 2012-05-29 | 2012-05-29 | 固有表現抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012122359A JP5591870B2 (ja) | 2012-05-29 | 2012-05-29 | 固有表現抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013246795A true JP2013246795A (ja) | 2013-12-09 |
JP5591870B2 JP5591870B2 (ja) | 2014-09-17 |
Family
ID=49846473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012122359A Active JP5591870B2 (ja) | 2012-05-29 | 2012-05-29 | 固有表現抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5591870B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015170370A1 (ja) * | 2014-05-07 | 2015-11-12 | 株式会社日立製作所 | ラベル付与装置、ラベル付与方法 |
CN110929520A (zh) * | 2019-11-25 | 2020-03-27 | 北京明略软件系统有限公司 | 非命名实体对象抽取方法、装置、电子设备及存储介质 |
JP2021157282A (ja) * | 2020-03-25 | 2021-10-07 | 株式会社日立製作所 | ラベル付与モデル生成装置、及びラベル付与モデル生成方法 |
CN114595686A (zh) * | 2022-03-11 | 2022-06-07 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
-
2012
- 2012-05-29 JP JP2012122359A patent/JP5591870B2/ja active Active
Non-Patent Citations (6)
Title |
---|
CSNG200900025024; 岩倉 友哉,岡本 青史: 'ラベルなしデータを用いた素性増強による日本語固有表現抽出方法' 情報処理学会論文誌 論文誌ジャーナル Vol.49 No.10 [CD-ROM] 第49巻第10号【ISSN】1882-7837, 20081015, 3657-3669, 社団法人情報処理学会 * |
CSNG201000459213; 橋本 泰一,中村 俊一: '拡張固有表現タグ付きコーパスの構築 白書,書籍,Yahoo!知恵袋コアデータ' 言語処理学会第16回年次大会発表論文集 , 20100308, p.916-p.919, 言語処理学会 * |
CSNG201100237078; 南 和江,藤井 康寿,土屋 雅稔,中川 聖一: '大規模コーパスを用いた固有表現抽出手法の検討' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110307, p.328-p.331, 言語処理学会 * |
JPN6014003070; 橋本 泰一,中村 俊一: '拡張固有表現タグ付きコーパスの構築 白書,書籍,Yahoo!知恵袋コアデータ' 言語処理学会第16回年次大会発表論文集 , 20100308, p.916-p.919, 言語処理学会 * |
JPN6014003071; 南 和江,藤井 康寿,土屋 雅稔,中川 聖一: '大規模コーパスを用いた固有表現抽出手法の検討' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110307, p.328-p.331, 言語処理学会 * |
JPN6014003073; 岩倉 友哉,岡本 青史: 'ラベルなしデータを用いた素性増強による日本語固有表現抽出方法' 情報処理学会論文誌 論文誌ジャーナル Vol.49 No.10 [CD-ROM] 第49巻第10号【ISSN】1882-7837, 20081015, 3657-3669, 社団法人情報処理学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015170370A1 (ja) * | 2014-05-07 | 2015-11-12 | 株式会社日立製作所 | ラベル付与装置、ラベル付与方法 |
CN110929520A (zh) * | 2019-11-25 | 2020-03-27 | 北京明略软件系统有限公司 | 非命名实体对象抽取方法、装置、电子设备及存储介质 |
CN110929520B (zh) * | 2019-11-25 | 2023-12-08 | 北京明略软件系统有限公司 | 非命名实体对象抽取方法、装置、电子设备及存储介质 |
JP2021157282A (ja) * | 2020-03-25 | 2021-10-07 | 株式会社日立製作所 | ラベル付与モデル生成装置、及びラベル付与モデル生成方法 |
JP7364512B2 (ja) | 2020-03-25 | 2023-10-18 | 株式会社日立製作所 | ラベル付与モデル生成装置、及びラベル付与モデル生成方法 |
CN114595686A (zh) * | 2022-03-11 | 2022-06-07 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5591870B2 (ja) | 2014-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN106547739B (zh) | 一种文本语义相似度分析方法 | |
CN109933686B (zh) | 歌曲标签预测方法、装置、服务器及存储介质 | |
JP2004110161A (ja) | テキスト文比較装置 | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
CN110348017B (zh) | 一种文本实体检测方法、系统及相关组件 | |
JP6062879B2 (ja) | モデル学習装置、方法及びプログラム | |
JP5591870B2 (ja) | 固有表現抽出装置、方法、及びプログラム | |
JP2019185551A (ja) | アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法 | |
Jamatia et al. | Collecting and annotating indian social media code-mixed corpora | |
Sasidhar et al. | A survey on named entity recognition in Indian languages with particular reference to Telugu | |
Zarisheva et al. | Dialog act annotation for twitter conversations | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN114896971B (zh) | 一种特定前后缀否定词识别方法、装置及存储介质 | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
CN109242020A (zh) | 一种基于fastText和CRF的音乐领域命令理解方法 | |
JP6522446B2 (ja) | ラベル付与装置、方法およびプログラム | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Shalunts et al. | SentiSAIL: sentiment analysis in English, German and Russian | |
JP2012141679A (ja) | 訓練データ獲得装置、訓練データ獲得方法、及びそのプログラム | |
CN110263163A (zh) | 一种获取文本摘要的方法和装置 | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
JP2011129006A (ja) | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム | |
JP5604475B2 (ja) | 固有表現タイプ推定装置、方法、及びプログラム | |
Behera | Odia parts of speech tagging corpora: suitability of statistical models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140320 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5591870 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |