JP2008198132A - 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 - Google Patents
固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 Download PDFInfo
- Publication number
- JP2008198132A JP2008198132A JP2007035434A JP2007035434A JP2008198132A JP 2008198132 A JP2008198132 A JP 2008198132A JP 2007035434 A JP2007035434 A JP 2007035434A JP 2007035434 A JP2007035434 A JP 2007035434A JP 2008198132 A JP2008198132 A JP 2008198132A
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- extraction
- expression extraction
- text data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 283
- 230000014509 gene expression Effects 0.000 title claims abstract description 231
- 238000000034 method Methods 0.000 claims description 52
- 239000000284 extract Substances 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Abstract
【解決手段】固有表現抽出装置は、各NE抽出器から取得した複数のNE抽出結果から単語(例えば、「山田」や「さん」など)をそれぞれ抽出する。そして、抽出した各単語について順番に処理をそれぞれ実行する。固有表現抽出装置は、抽出した各単語の中のどれか一つについて各NE抽出結果をそれぞれ順番にチェックしてNE候補分類を抽出する。NE候補分類を抽出した後、抽出したNE候補分類の各NE抽出結果における出現頻度を計数する。出現頻度を計数した後、出現頻度に応じたNE候補分類の順位を決定する。
【選択図】 図2
Description
まず最初に、以下に説明する実施例で用いる主要な用語を説明する。以下の実施例で用いる「NE」とは、固有表現(Named Entity)のことであり、例えば、固有名詞や数値表現がこれに該当する。なお、以下の実施例1では、固有名詞については「人名」や「場所」、数値表現については「日付」や「金額」、固有名詞や数値表現以外については「その他」というように、所定のNE分類候補を設定する。
次に、図1および図2を用いて、実施例1に係る固有表現抽出装置の概要および特徴を説明する。図1は、実施例1に係る固有表現抽出装置の概要および特徴を説明するための図であり、図2は、実施例1に係る辞書情報の構成例を示す図である。
次に、図3を用いて、実施例1に係る固有表現抽出装置の構成を説明する。図3は、実施例1に係る固有表現抽出装置の構成を示すブロック図である。
続いて、図7を用いて、実施例1に係る固有表現抽出装置の処理を説明する。図7は、実施例1に係る固有表現抽出装置の処理の流れを示すフローチャートである。
上述してきたように、実施例1によれば、NE(固有表現)抽出処理の結果得られるNE抽出結果を取得しておき、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を取得されたNE抽出結果に基づいて作成するので、多大な労力を要することなく、固有表現をテキストデータから抽出する手がかりを得るための辞書を簡易に作成することが可能である。
上述してきたように、実施例2によれば、テキストデータから固有表現を抽出するためのNE抽出モデルを、複数のNE抽出結果から作成された辞書情報を用いて新たに作成するので、テキストデータから固有表現を抽出する場合に、より信頼性の高い手がかりを得ることができる結果、テキストデータから固有表現を精度よく抽出することが可能である。
図3に示した固有表現抽出装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、固有表現抽出装置10の分散・統合の具体的形態は図示のものに限られず、辞書情報作成部14cをNE分類候補抽出機能、出現頻度計数機能およびNE分類候補順位決定機能にそれぞれ分散するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、固有表現抽出装置10にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
ところで、上記の実施例1または実施例2で説明した各種の処理(図7等参照)は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、図10を用いて、上記の実施例1または実施例2と同様の機能を有する固有表現抽出プログラムを実行するコンピュータの一例を説明する。図10は、固有表現抽出プログラムを実行するコンピュータを示す図である。
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手順と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手順により取得された固有表現抽出結果に基づいて作成する辞書情報作成手順と、
をコンピュータに実行させることを特徴とする固有表現抽出プログラム。
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得工程と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得工程により取得された固有表現抽出結果に基づいて作成する辞書情報作成工程と、
を含んだことを特徴とする固有表現抽出方法。
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手段と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手段により取得された固有表現抽出結果に基づいて作成する辞書情報作成手段と、
を備えたことを特徴とする固有表現抽出装置。
11 入力部
12 出力部
13 記憶部
13a 辞書情報記憶部
14 制御部
14a NE抽出器作成部
14b NE抽出処理実行部
14c 辞書情報作成部
20 コンピュータ
21 入力部
22 出力部
23 HDD(Hard Disk Drive)
24 RAM(Random Access Memory)
25 ROM(Read Only Memory)
26 CPU(Central Processing Unit)
30 バス
Claims (6)
- テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手順と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手順により取得された固有表現抽出結果に基づいて作成する辞書情報作成手順と、
をコンピュータに実行させることを特徴とする固有表現抽出プログラム。 - 前記抽出結果取得手順は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする請求項1に記載の固有表現抽出プログラム。
- 前記辞書情報作成手順は、前記抽出結果取得手順により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする請求項1または2に記載の固有表現抽出プログラム。
- テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させることを特徴とする請求項1〜3のいずれか一つに記載の固有表現抽出プログラム。
- テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得工程と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得工程により取得された固有表現抽出結果に基づいて作成する辞書情報作成工程と、
を含んだことを特徴とする固有表現抽出方法。 - テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手段と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手段により取得された固有表現抽出結果に基づいて作成する辞書情報作成手段と、
を備えたことを特徴とする固有表現抽出装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035434A JP5245255B2 (ja) | 2007-02-15 | 2007-02-15 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
US12/025,482 US20080201134A1 (en) | 2007-02-15 | 2008-02-04 | Computer-readable record medium in which named entity extraction program is recorded, named entity extraction method and named entity extraction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035434A JP5245255B2 (ja) | 2007-02-15 | 2007-02-15 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008198132A true JP2008198132A (ja) | 2008-08-28 |
JP5245255B2 JP5245255B2 (ja) | 2013-07-24 |
Family
ID=39707407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007035434A Expired - Fee Related JP5245255B2 (ja) | 2007-02-15 | 2007-02-15 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20080201134A1 (ja) |
JP (1) | JP5245255B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010157178A (ja) * | 2009-01-05 | 2010-07-15 | Internatl Business Mach Corp <Ibm> | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2010250642A (ja) * | 2009-04-17 | 2010-11-04 | Fujitsu Ltd | 規則処理方法及び装置 |
JP2010277415A (ja) * | 2009-05-29 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム |
JP2012118930A (ja) * | 2010-12-03 | 2012-06-21 | Fujitsu Ltd | 処理装置、処理方法、及び、プログラム |
JP2020034694A (ja) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | 対話方法、対話プログラム及び情報処理装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
WO2013174407A1 (de) * | 2012-05-24 | 2013-11-28 | Iqser Ip Ag | Erzeugung von anfragen an ein datenverarbeitendes system |
US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9031293B2 (en) * | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
CN107844477B (zh) * | 2017-10-25 | 2021-03-19 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
US11431519B1 (en) * | 2019-12-12 | 2022-08-30 | Wells Fargo Bank, N.A. | Rapid and efficient case opening from negative news |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2006330935A (ja) * | 2005-05-24 | 2006-12-07 | Fujitsu Ltd | 学習データ作成プログラム、学習データ作成方法および学習データ作成装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4200645B2 (ja) * | 2000-09-08 | 2008-12-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および記録媒体 |
-
2007
- 2007-02-15 JP JP2007035434A patent/JP5245255B2/ja not_active Expired - Fee Related
-
2008
- 2008-02-04 US US12/025,482 patent/US20080201134A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2006330935A (ja) * | 2005-05-24 | 2006-12-07 | Fujitsu Ltd | 学習データ作成プログラム、学習データ作成方法および学習データ作成装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010157178A (ja) * | 2009-01-05 | 2010-07-15 | Internatl Business Mach Corp <Ibm> | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP4701292B2 (ja) * | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
US8538745B2 (en) | 2009-01-05 | 2013-09-17 | International Business Machines Corporation | Creating a terms dictionary with named entities or terminologies included in text data |
JP2010250642A (ja) * | 2009-04-17 | 2010-11-04 | Fujitsu Ltd | 規則処理方法及び装置 |
JP2010277415A (ja) * | 2009-05-29 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム |
JP2012118930A (ja) * | 2010-12-03 | 2012-06-21 | Fujitsu Ltd | 処理装置、処理方法、及び、プログラム |
JP2020034694A (ja) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | 対話方法、対話プログラム及び情報処理装置 |
JP7124565B2 (ja) | 2018-08-29 | 2022-08-24 | 富士通株式会社 | 対話方法、対話プログラム及び情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20080201134A1 (en) | 2008-08-21 |
JP5245255B2 (ja) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5245255B2 (ja) | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 | |
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN105390049A (zh) | 电子装置和发音学习支援方法 | |
EP2309397A1 (en) | Device and method for supporting detection of mistranslation | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP5331023B2 (ja) | 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム | |
JP2009169689A (ja) | データ分類方法およびデータ処理装置 | |
JP2009217689A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN113705792A (zh) | 基于深度学习模型的个性化推荐方法、装置、设备及介质 | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
US9437020B2 (en) | System and method to check the correct rendering of a font | |
JP2018005403A (ja) | 課題推定装置、課題推定方法および課題推定プログラム | |
CN109284497B (zh) | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 | |
KR101781597B1 (ko) | 전자 출판물에 대한 정보를 생성하는 장치 및 방법 | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP2018163586A (ja) | 学習プログラム、学習方法および学習装置 | |
CN113704452A (zh) | 基于Bert模型的数据推荐方法、装置、设备及介质 | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP6656894B2 (ja) | 対訳辞書作成装置、対訳辞書作成方法およびプログラム | |
JP7131518B2 (ja) | 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム | |
JP5513985B2 (ja) | 文字列ベクトル生成装置、文字列ベクトル生成方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
US20230205997A1 (en) | Information processing apparatus, operation method of information processing apparatus, and operation program of information processing apparatus | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5245255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |