JP2011198051A - 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム - Google Patents
固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム Download PDFInfo
- Publication number
- JP2011198051A JP2011198051A JP2010064243A JP2010064243A JP2011198051A JP 2011198051 A JP2011198051 A JP 2011198051A JP 2010064243 A JP2010064243 A JP 2010064243A JP 2010064243 A JP2010064243 A JP 2010064243A JP 2011198051 A JP2011198051 A JP 2011198051A
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- character string
- class
- label
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】テキストを入力とし、形態素と係り受け解析結果と固有表現を出力するテキスト解析部1100と、形態素と固有表現を入力とし、トピックを抽出するトピック抽出部1210と、係り受け解析結果を入力とし、文構造を出力する文構造抽出部1220と、固有表現クラスを判定して出力するクラス判定部1230と、シソーラス1240と、文字列−固有表現クラス対データベース1250と、トピックと文構造と固有表現クラスを入力とし、ラベルスコアを出力とするラベルスコア計算部1300と、ラベルごとのラベルスコア計算に用いられるラベル判定モデル1310と、ラベルスコア最大値からラベルを判定するラベル判定部1400と、前記判定されたラベルと固有表現の組を出力する出力部1500とを備える。
【選択図】図1
Description
対数尤度比=aloga+blogb+clogc+dlogd−(a+b)log(a+b)−(a+c)log(a+c)−(b+d)log(b+d)−(c+d)log(c+d)+(a+b+c+d)log(a+b+c+d)
にて計算することができる。
Claims (9)
- 入力されたテキストの固有表現を抽出する固有表現抽出装置であって、
テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析部と、
任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力するトピック抽出部と、
係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出部と、
任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースと、
固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割部と、
文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算部と、
前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算部と、
前記ラベルスコア計算部が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定部と、を有すること
を特徴とする固有表現抽出装置。 - 任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成装置であって、
固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出部と、
前記対抽出部から出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割部と、
任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算部と、
前記文字列頻度計算部から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算部と、を有すること
を特徴とする文字列−固有表現クラス対データベース作成装置。 - 請求項1に記載の固有表現抽出装置であって、
前記文字列−固有表現クラス対データベースが、請求項2記載の文字列−固有表現クラス対データベース作成装置によって作成されること
を特徴とする固有表現抽出装置。 - 請求項1に記載の固有表現抽出装置であって、
請求項2記載の文字列−固有表現クラス対データベース作成装置をさらに備えること
を特徴とする固有表現抽出装置。 - 任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースとを用い、
入力されたテキストの固有表現を抽出する固有表現抽出方法であって、
テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析ステップと、
形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力するトピック抽出ステップと、
係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出ステップと、
固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割ステップと、
文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算ステップと、
前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算ステップと、
前記ラベルスコア計算ステップが出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定ステップと、を有すること
を特徴とする固有表現抽出方法。 - 任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成方法であって、
固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出ステップと、
前記対抽出ステップにて出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割ステップと、
任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算ステップと、
前記文字列頻度計算ステップにて出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算ステップと、を有すること
を特徴とする文字列−固有表現クラス対データベース作成方法。 - 請求項5に記載の固有表現抽出方法であって、
前記文字列−固有表現クラス対データベースが、請求項6記載の文字列−固有表現クラス対データベース作成方法によって作成されること
を特徴とする固有表現抽出方法。 - 請求項6記載の文字列−固有表現クラス対データベース作成方法によって前記文字列−固有表現クラス対データベースを作成し、請求項5に記載の固有表現抽出方法によって、入力されたテキストの固有表現のラベルを判定すること
を特徴とする固有表現抽出方法。 - コンピュータを請求項1乃至4の何れかに記載の固有表現抽出装置もしくは文字列−固有表現クラス対データベース作成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064243A JP5506482B2 (ja) | 2010-03-19 | 2010-03-19 | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064243A JP5506482B2 (ja) | 2010-03-19 | 2010-03-19 | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198051A true JP2011198051A (ja) | 2011-10-06 |
JP5506482B2 JP5506482B2 (ja) | 2014-05-28 |
Family
ID=44876163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064243A Active JP5506482B2 (ja) | 2010-03-19 | 2010-03-19 | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5506482B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
JP2014119977A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | デイリーワード抽出装置、方法、及びプログラム |
-
2010
- 2010-03-19 JP JP2010064243A patent/JP5506482B2/ja active Active
Non-Patent Citations (6)
Title |
---|
CSNG200400341005; 山田 寛康,工藤 拓,松本 裕治: 'Support Vector Machineを用いた日本語固有表現抽出' 情報処理学会論文誌 第43巻 第1号 第43巻 第1号【ISSN】0387-5806, 20020115, p.44-p.53, 社団法人情報処理学会 * |
CSNG200700701010; 渡邉 陽太郎,浅原 正幸,松本 裕治: 'HTMLの木構造を利用した条件付確率場による固有表現分類 Wikipediaからのシソーラス半自動構' 情報処理学会研究報告 Vol.2007 No.47 第2007巻 第47号【ISSN】0919-6072, p.73-p.78, 社団法人情報処理学会 * |
CSNG201000459004; 藤井 裕也,飯田 龍,徳永 健伸: 'Wikipedia記事を利用した曖昧性のある表現の固有表現クラス分類' 言語処理学会第16回年次大会発表論文集 , 20100308, p.15-p.18, 言語処理学会 * |
JPN6013046202; 藤井 裕也,飯田 龍,徳永 健伸: 'Wikipedia記事を利用した曖昧性のある表現の固有表現クラス分類' 言語処理学会第16回年次大会発表論文集 , 20100308, p.15-p.18, 言語処理学会 * |
JPN6013046203; 渡邉 陽太郎,浅原 正幸,松本 裕治: 'HTMLの木構造を利用した条件付確率場による固有表現分類 Wikipediaからのシソーラス半自動構' 情報処理学会研究報告 Vol.2007 No.47 第2007巻 第47号【ISSN】0919-6072, p.73-p.78, 社団法人情報処理学会 * |
JPN6013046204; 山田 寛康,工藤 拓,松本 裕治: 'Support Vector Machineを用いた日本語固有表現抽出' 情報処理学会論文誌 第43巻 第1号 第43巻 第1号【ISSN】0387-5806, 20020115, p.44-p.53, 社団法人情報処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
JP2014119977A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | デイリーワード抽出装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5506482B2 (ja) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496756B2 (en) | Sentence creation system | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN108874937B (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
JP6676110B2 (ja) | 発話文生成装置とその方法とプログラム | |
Eskander et al. | Foreign words and the automatic processing of Arabic social media text written in Roman script | |
Saloot et al. | An architecture for Malay Tweet normalization | |
CN106096664A (zh) | 一种基于社交网络数据的情感分析方法 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
Zheng et al. | Dynamic knowledge-base alignment for coreference resolution | |
Iosif et al. | From speaker identification to affective analysis: a multi-step system for analyzing children’s stories | |
Vīksna et al. | Sentiment analysis in Latvian and Russian: A survey | |
Chuan-An et al. | A unified RvNN framework for end-to-end chinese discourse parsing | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
Tran et al. | Webnlg 2020 challenge: Semantic template mining for generating references from rdf | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Agrawal et al. | Comparative analysis of NLP models for Google Meet Transcript summarization | |
KR101351555B1 (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
Ouda | QuranAnalysis: a semantic search and intelligence system for the Quran | |
Juncal-Martínez et al. | GTI at SemEval-2016 Task 4: Training a naive Bayes classifier using features of an unsupervised system | |
Shekhar et al. | Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants | |
Behera | Odia parts of speech tagging corpora: suitability of statistical models | |
Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders | |
Dandashi et al. | Arabic named entity recognition—a survey and analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110701 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5506482 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |