JP5591870B2 - 固有表現抽出装置、方法、及びプログラム - Google Patents
固有表現抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5591870B2 JP5591870B2 JP2012122359A JP2012122359A JP5591870B2 JP 5591870 B2 JP5591870 B2 JP 5591870B2 JP 2012122359 A JP2012122359 A JP 2012122359A JP 2012122359 A JP2012122359 A JP 2012122359A JP 5591870 B2 JP5591870 B2 JP 5591870B2
- Authority
- JP
- Japan
- Prior art keywords
- label
- hierarchy
- word
- feature
- specific expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<発明の概要>
「ナイル川 / に / 行きたい」という文章と 「多摩川動物園 / に / 行きたい」という文章とに含まれる固有表現のラベルの区別を行うために、周辺文脈だけでなく、単語内の情報を素性として求める。例えば、単語「ナイル川」に対して、素性[単語内文字]={ナ,イ,ル,川}、素性[最初の文字]={ナ}、素性[最後の文字]={川}を用いて、単語「ナイル川」に対して、詳細な固有表現のラベルが付与された固有表現であるか否かを識別し、固有表現を精度よく抽出する。
本発明の第1の実施の形態では、全200ラベルに対してルート階層から第3階層までの階層構造が予め定義された拡張固有表現のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。
次に、第1の実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が、固有表現学習装置100に入力されると、固有表現学習装置100によって、入力された文書データの集合が、文書集合データベース21へ格納される。そして、固有表現学習装置100によって、図6に示す階層モデル学習処理ルーチンが実行される。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
特定のラベルのみを必要とする場合には、特定のラベルについてのみモデル化し、適用すれば良い。これを個別モデルと呼ぶ。全てのラベルをモデル化する必要がなく、単一クラスにおいてモデル化すればよいため、省メモリかつ高速な処理が可能となる。例えば、図8に示すように、拡張固有表現定義における末端の階層の1つのラベルのみを対象として、その場限りで必要な固有表現を高速に抽出する。
本発明の第2の実施の形態では、拡張固有表現定義における末端階層のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。
次に、本実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が固有表現学習装置200に入力されると、固有表現学習装置200によって、入力された文書データの集合が、文書集合データベース21へ格納される。そして、固有表現学習装置200によって、図13に示す個別モデル学習処理ルーチンが実行される。
次に、第3の実施の形態について説明する。なお、第1の実施の形態及び第2の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
本発明の第3の実施の形態に係る固有表現抽出システムでは、上記の第1の実施の形態と同様に、固有表現学習装置100によって、階層構造の各識別モデルを学習すると共に、上記の第2の実施の形態と同様に、固有表現学習装置200によって、末端階層の各ラベルの識別モデルを学習する。
20、60、220、260、360 演算部
21 文書集合データベース
22 第3階層分割部
23、28、33、61、66、71、223素性生成部
25 第2階層学習部
30 第1階層学習部
35 ルート階層学習部
63 ルート階層モデル記憶部
64 ルート階層識別部
65 第1階層分割部
68 第1階層モデル記憶部
69 第1階層識別部
70 第2階層分割部
73 第2階層モデル記憶部
74 第2階層識別部
75 抽出結果統合部
80 出力部
100、200固有表現学習装置
150、250、350 固有表現抽出装置
222 末端階層分割部
225 個別モデル学習部
263 個別モデル記憶部
264 個別モデル識別部
363 モデル切替部
364 階層モデル識別部
365 個別モデル識別部
Claims (7)
- 形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する素性算出手段と、
前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する個別モデル記憶手段と、
前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する固有表現抽出手段と、
を含む固有表現抽出装置。 - 形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第1素性算出手段と、
前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶するルート階層モデル記憶手段と、
前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出する第1固有表現抽出手段と、
前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第2素性算出手段と、
前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々を記憶する第1階層モデル記憶手段と、
前記第1階層モデル記憶手段によって記憶された前記第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出する第2固有表現抽出手段と、
前記第2固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第2階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第3素性算出手段と、
前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第2階層のラベル毎に、前記ラベルの下層である第3階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第2階層識別モデルの各々を記憶する第2階層モデル記憶手段と、
前記第2階層モデル記憶手段によって記憶された前記第2階層識別モデルの各々と、前記第3素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第3階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第3階層の各ラベルが付与された固有表現を抽出する第3固有表現抽出手段と、
を含む固有表現抽出装置。 - ユーザからの入力に従って、前記階層構造の各階層のラベルが付与された固有表現を抽出するか、前記階層構造のラベルのうちの特定ラベルが付与された固有表現を抽出するかを判定する判定手段と、
前記判定手段によって、前記特定ラベルが付与された固有表現を抽出すると判定された場合に、前記単語が、前記特定ラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定ラベルが付与された固有表現を抽出する第4固有表現抽出手段と、
を更に含む請求項2記載の固有表現抽出装置。 - 前記単語内の情報に関する特徴を、前記単語内の各文字、前記単語の最初の文字、及び前記単語の最後の文字の少なくとも1つに関する特徴とした請求項1〜請求項3の何れか1項記載の固有表現抽出装置。
- 素性算出手段、個別モデル記憶手段、及び固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
前記素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する
固有表現抽出方法。 - 第1素性算出手段、ルート階層モデル記憶手段、第1固有表現抽出手段、第2素性算出手段、第1階層モデル記憶手段、第2固有表現抽出手段、第3素性算出手段、第2階層モデル記憶手段、及び第3固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
前記第1素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第1固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶する前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出し、
前記第2素性算出手段によって、前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第2固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々を記憶する前記第1階層モデル記憶手段によって記憶された前記第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出し、
前記第3素性算出手段によって、前記第2固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第2階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第3固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第2階層のラベル毎に、前記ラベルの下層である第3階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第2階層識別モデルの各々を記憶する前記第2階層モデル記憶手段によって記憶された前記第2階層識別モデルの各々と、前記第3素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第3階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第3階層の各ラベルが付与された固有表現を抽出する
固有表現抽出方法。 - コンピュータを、請求項1〜請求項4の何れか1項記載の固有表現抽出装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012122359A JP5591870B2 (ja) | 2012-05-29 | 2012-05-29 | 固有表現抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012122359A JP5591870B2 (ja) | 2012-05-29 | 2012-05-29 | 固有表現抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013246795A JP2013246795A (ja) | 2013-12-09 |
JP5591870B2 true JP5591870B2 (ja) | 2014-09-17 |
Family
ID=49846473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012122359A Active JP5591870B2 (ja) | 2012-05-29 | 2012-05-29 | 固有表現抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5591870B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015170370A1 (ja) * | 2014-05-07 | 2015-11-12 | 株式会社日立製作所 | ラベル付与装置、ラベル付与方法 |
CN110929520B (zh) * | 2019-11-25 | 2023-12-08 | 北京明略软件系统有限公司 | 非命名实体对象抽取方法、装置、电子设备及存储介质 |
JP7364512B2 (ja) * | 2020-03-25 | 2023-10-18 | 株式会社日立製作所 | ラベル付与モデル生成装置、及びラベル付与モデル生成方法 |
CN114595686B (zh) * | 2022-03-11 | 2023-02-03 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
-
2012
- 2012-05-29 JP JP2012122359A patent/JP5591870B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013246795A (ja) | 2013-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933686B (zh) | 歌曲标签预测方法、装置、服务器及存储介质 | |
CN108885617B (zh) | 语句解析系统以及程序 | |
JP2004110161A (ja) | テキスト文比較装置 | |
JP5591870B2 (ja) | 固有表現抽出装置、方法、及びプログラム | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
JP2017138655A (ja) | 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム | |
CN110348017B (zh) | 一种文本实体检测方法、系统及相关组件 | |
JP6062879B2 (ja) | モデル学習装置、方法及びプログラム | |
Jamatia et al. | Collecting and annotating indian social media code-mixed corpora | |
Sasidhar et al. | A survey on named entity recognition in Indian languages with particular reference to Telugu | |
Yeung et al. | Personalized text retrieval for learners of chinese as a foreign language | |
CN104035955B (zh) | 搜索方法和装置 | |
CN107870900B (zh) | 提供翻译文的方法、装置以及记录介质 | |
CN109242020A (zh) | 一种基于fastText和CRF的音乐领域命令理解方法 | |
US20120150530A1 (en) | Information processing device and display control method | |
JP6522446B2 (ja) | ラベル付与装置、方法およびプログラム | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2008225846A (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
CN110263163A (zh) | 一种获取文本摘要的方法和装置 | |
JP2012141679A (ja) | 訓練データ獲得装置、訓練データ獲得方法、及びそのプログラム | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
JP2011129006A (ja) | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム | |
JP5379813B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
Behera | Odia parts of speech tagging corpora: suitability of statistical models | |
Osoolian et al. | IUSTNLPLAB at SemEval-2024 Task 4: Multilingual Detection of Persuasion Techniques in Memes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140320 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5591870 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |