JP5506482B2 - 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム - Google Patents
固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム Download PDFInfo
- Publication number
- JP5506482B2 JP5506482B2 JP2010064243A JP2010064243A JP5506482B2 JP 5506482 B2 JP5506482 B2 JP 5506482B2 JP 2010064243 A JP2010064243 A JP 2010064243A JP 2010064243 A JP2010064243 A JP 2010064243A JP 5506482 B2 JP5506482 B2 JP 5506482B2
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- character string
- class
- expression
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
対数尤度比=aloga+blogb+clogc+dlogd−(a+b)log(a+b)−(a+c)log(a+c)−(b+d)log(b+d)−(c+d)log(c+d)+(a+b+c+d)log(a+b+c+d)
にて計算することができる。
Claims (10)
- 入力されたテキストの固有表現を抽出する固有表現抽出装置であって、
テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析部と、
任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力するトピック抽出部と、
係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出部と、
任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースと、
固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割部と、
文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算部と、
前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算部と、
前記ラベルスコア計算部が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定部と、を有すること
を特徴とする固有表現抽出装置。 - 任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成装置であって、
固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出部と、
前記対抽出部から出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割部と、
任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算部と、
前記文字列頻度計算部から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算部と、を有すること
を特徴とする文字列−固有表現クラス対データベース作成装置。 - 請求項1に記載の固有表現抽出装置であって、
前記文字列−固有表現クラス対データベースが、請求項2記載の文字列−固有表現クラス対データベース作成装置によって作成されること
を特徴とする固有表現抽出装置。 - 請求項1に記載の固有表現抽出装置であって、
請求項2記載の文字列−固有表現クラス対データベース作成装置をさらに備えること
を特徴とする固有表現抽出装置。 - 任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースとを用い、
入力されたテキストの固有表現を抽出する固有表現抽出装置が実行する固有表現抽出方法であって、
前記固有表現抽出装置のテキスト解析部が実行する、テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析ステップと、
前記固有表現抽出装置のトピック抽出部が実行する、形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力するトピック抽出ステップと、
前記固有表現抽出装置の文構造抽出部が実行する、係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出ステップと、
前記固有表現抽出装置の固有表現文字列分割部が実行する、固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割ステップと、
前記固有表現抽出装置の固有表現クラススコア計算部が実行する、文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算ステップと、
前記固有表現抽出装置のラベルスコア計算部が実行する、前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算ステップと、
前記固有表現抽出装置のラベル判定部が実行する、前記ラベルスコア計算ステップが出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定ステップと、を有すること
を特徴とする固有表現抽出方法。 - 任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成装置が実行する文字列−固有表現クラス対データベース作成方法であって、
前記文字列−固有表現クラス対データベース作成装置の対抽出部が実行する、固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出ステップと、
前記文字列−固有表現クラス対データベース作成装置の文字列分割部が実行する、前記対抽出ステップにて出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割ステップと、
前記文字列−固有表現クラス対データベース作成装置の文字列頻度計算部が実行する、任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算ステップと、
前記文字列−固有表現クラス対データベース作成装置のクラススコア計算部が実行する、前記文字列頻度計算ステップにて出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算ステップと、を有すること
を特徴とする文字列−固有表現クラス対データベース作成方法。 - 請求項5に記載の固有表現抽出方法であって、
前記文字列−固有表現クラス対データベースが、請求項6記載の文字列−固有表現クラス対データベース作成方法によって作成されること
を特徴とする固有表現抽出方法。 - 請求項6記載の文字列−固有表現クラス対データベース作成方法によって前記文字列−固有表現クラス対データベースを作成し、請求項5に記載の固有表現抽出方法によって、入力されたテキストの固有表現のラベルを判定すること
を特徴とする固有表現抽出方法。 - コンピュータを請求項1、3、4の何れかに記載の固有表現抽出装置として機能させるためのプログラム。
- コンピュータを請求項2に記載の文字列−固有表現クラス対データベース作成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064243A JP5506482B2 (ja) | 2010-03-19 | 2010-03-19 | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064243A JP5506482B2 (ja) | 2010-03-19 | 2010-03-19 | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198051A JP2011198051A (ja) | 2011-10-06 |
JP5506482B2 true JP5506482B2 (ja) | 2014-05-28 |
Family
ID=44876163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064243A Active JP5506482B2 (ja) | 2010-03-19 | 2010-03-19 | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5506482B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
JP5676552B2 (ja) * | 2012-12-17 | 2015-02-25 | 日本電信電話株式会社 | デイリーワード抽出装置、方法、及びプログラム |
-
2010
- 2010-03-19 JP JP2010064243A patent/JP5506482B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011198051A (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
US10496756B2 (en) | Sentence creation system | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Eskander et al. | Foreign words and the automatic processing of Arabic social media text written in Roman script | |
GB2555207A (en) | System and method for identifying passages in electronic documents | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
Zheng et al. | Dynamic knowledge-base alignment for coreference resolution | |
Gulati et al. | A novel technique for multidocument Hindi text summarization | |
Mercan et al. | Abstractive text summarization for resumes with cutting edge NLP transformers and LSTM | |
Jha et al. | Hsas: Hindi subjectivity analysis system | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Agrawal et al. | Comparative analysis of NLP models for Google Meet Transcript summarization | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Ouda | QuranAnalysis: a semantic search and intelligence system for the Quran | |
Chowdhury et al. | Detection of compatibility, proximity and expectancy of Bengali sentences using long short term memory | |
Zuhori et al. | Ontological knowledge extraction from natural language text | |
Juncal-Martínez et al. | GTI at SemEval-2016 Task 4: Training a naive Bayes classifier using features of an unsupervised system | |
Shekhar et al. | Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants | |
Behera | Odia parts of speech tagging corpora: suitability of statistical models | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
Dandashi et al. | Arabic named entity recognition—a survey and analysis | |
Shree et al. | A novel approach to Sandhi splitting at Character level for Kannada Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110701 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130917 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5506482 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |