JP5245255B2 - 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 - Google Patents
固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 Download PDFInfo
- Publication number
- JP5245255B2 JP5245255B2 JP2007035434A JP2007035434A JP5245255B2 JP 5245255 B2 JP5245255 B2 JP 5245255B2 JP 2007035434 A JP2007035434 A JP 2007035434A JP 2007035434 A JP2007035434 A JP 2007035434A JP 5245255 B2 JP5245255 B2 JP 5245255B2
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- extraction
- information
- classification
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 277
- 230000014509 gene expression Effects 0.000 title claims description 217
- 238000000034 method Methods 0.000 claims description 43
- 239000000284 extract Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
まず最初に、以下に説明する実施例で用いる主要な用語を説明する。以下の実施例で用いる「NE」とは、固有表現(Named Entity)のことであり、例えば、固有名詞や数値表現がこれに該当する。なお、以下の実施例1では、固有名詞については「人名」や「場所」、数値表現については「日付」や「金額」、固有名詞や数値表現以外については「その他」というように、所定のNE分類候補を設定する。
次に、図1および図2を用いて、実施例1に係る固有表現抽出装置の概要および特徴を説明する。図1は、実施例1に係る固有表現抽出装置の概要および特徴を説明するための図であり、図2は、実施例1に係る辞書情報の構成例を示す図である。
次に、図3を用いて、実施例1に係る固有表現抽出装置の構成を説明する。図3は、実施例1に係る固有表現抽出装置の構成を示すブロック図である。
続いて、図7を用いて、実施例1に係る固有表現抽出装置の処理を説明する。図7は、実施例1に係る固有表現抽出装置の処理の流れを示すフローチャートである。
上述してきたように、実施例1によれば、NE(固有表現)抽出処理の結果得られるNE抽出結果を取得しておき、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を取得されたNE抽出結果に基づいて作成するので、多大な労力を要することなく、固有表現をテキストデータから抽出する手がかりを得るための辞書を簡易に作成することが可能である。
上述してきたように、実施例2によれば、テキストデータから固有表現を抽出するためのNE抽出モデルを、複数のNE抽出結果から作成された辞書情報を用いて新たに作成するので、テキストデータから固有表現を抽出する場合に、より信頼性の高い手がかりを得ることができる結果、テキストデータから固有表現を精度よく抽出することが可能である。
図3に示した固有表現抽出装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、固有表現抽出装置10の分散・統合の具体的形態は図示のものに限られず、辞書情報作成部14cをNE分類候補抽出機能、出現頻度計数機能およびNE分類候補順位決定機能にそれぞれ分散するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、固有表現抽出装置10にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
ところで、上記の実施例1または実施例2で説明した各種の処理(図7等参照)は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、図10を用いて、上記の実施例1または実施例2と同様の機能を有する固有表現抽出プログラムを実行するコンピュータの一例を説明する。図10は、固有表現抽出プログラムを実行するコンピュータを示す図である。
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手順と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手順により取得された固有表現抽出結果に基づいて作成する辞書情報作成手順と、
をコンピュータに実行させることを特徴とする固有表現抽出プログラム。
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得工程と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得工程により取得された固有表現抽出結果に基づいて作成する辞書情報作成工程と、
を含んだことを特徴とする固有表現抽出方法。
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手段と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手段により取得された固有表現抽出結果に基づいて作成する辞書情報作成手段と、
を備えたことを特徴とする固有表現抽出装置。
11 入力部
12 出力部
13 記憶部
13a 辞書情報記憶部
14 制御部
14a NE抽出器作成部
14b NE抽出処理実行部
14c 辞書情報作成部
20 コンピュータ
21 入力部
22 出力部
23 HDD(Hard Disk Drive)
24 RAM(Random Access Memory)
25 ROM(Read Only Memory)
26 CPU(Central Processing Unit)
30 バス
Claims (4)
- テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、
前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得手順と、
前記抽出結果取得手順により取得された各固有表現抽出結果の間でテキストデータ内の各単語ごとに前記固有表現抽出処理によって当該単語に付与された固有表現の分類候補のラベルが一致する度合いによって定まる一致度が所定の閾値以上であるか否かによって、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、前記固有表現抽出処理によって付与された固有表現としての分類候補のラベルを示す分類候補情報、全固有表現抽出結果における各分類候補のラベルの出現頻度を示す出現頻度情報、および、各分類候補のラベル間での出現頻度の高低を比較することによって各分類候補情報を順位付けした順位情報を採用するか否か決定し、前記一致度が前記閾値以上であることにより採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成手順と、
をコンピュータに実行させることを特徴とする固有表現抽出プログラム。 - テキストデータから固有表現を抽出するためのモデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させることを特徴とする請求項1に記載の固有表現抽出プログラム。
- コンピュータがテキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、
前記コンピュータが、
前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得工程と、
前記抽出結果取得工程により取得された各固有表現抽出結果の間でテキストデータ内の各単語ごとに前記固有表現抽出処理によって当該単語に付与された固有表現の分類候補のラベルが一致する度合いによって定まる一致度が所定の閾値以上であるか否かによって、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、前記固有表現抽出処理によって付与された固有表現としての分類候補のラベルを示す分類候補情報、全固有表現抽出結果における各分類候補のラベルの出現頻度を示す出現頻度情報、および、各分類候補のラベル間での出現頻度の高低を比較することによって各分類候補情報を順位付けした順位情報を採用するか否か決定し、前記一致度が前記閾値以上であることにより採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成工程と、
を含んだことを特徴とする固有表現抽出方法。 - テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、
前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得手段と、
前記抽出結果取得手段により取得された各固有表現抽出結果の間でテキストデータ内の各単語ごとに前記固有表現抽出処理によって当該単語に付与された固有表現の分類候補のラベルが一致する度合いによって定まる一致度が所定の閾値以上であるか否かによって、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、前記固有表現抽出処理によって付与された固有表現としての分類候補のラベルを示す分類候補情報、全固有表現抽出結果における各分類候補のラベルの出現頻度を示す出現頻度情報、および、各分類候補のラベル間での出現頻度の高低を比較することによって各分類候補情報を順位付けした順位情報を採用するか否か決定し、前記一致度が前記閾値以上であることにより採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成手段と、
を備えたことを特徴とする固有表現抽出装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035434A JP5245255B2 (ja) | 2007-02-15 | 2007-02-15 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
US12/025,482 US20080201134A1 (en) | 2007-02-15 | 2008-02-04 | Computer-readable record medium in which named entity extraction program is recorded, named entity extraction method and named entity extraction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035434A JP5245255B2 (ja) | 2007-02-15 | 2007-02-15 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008198132A JP2008198132A (ja) | 2008-08-28 |
JP5245255B2 true JP5245255B2 (ja) | 2013-07-24 |
Family
ID=39707407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007035434A Expired - Fee Related JP5245255B2 (ja) | 2007-02-15 | 2007-02-15 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20080201134A1 (ja) |
JP (1) | JP5245255B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844477A (zh) * | 2017-10-25 | 2018-03-27 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4701292B2 (ja) * | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP5458640B2 (ja) * | 2009-04-17 | 2014-04-02 | 富士通株式会社 | 規則処理方法及び装置 |
JP5308918B2 (ja) * | 2009-05-29 | 2013-10-09 | 日本電信電話株式会社 | キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム |
JP5703722B2 (ja) * | 2010-12-03 | 2015-04-22 | 富士通株式会社 | 処理装置、処理方法、及び、プログラム |
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
EP2856344A1 (de) * | 2012-05-24 | 2015-04-08 | IQser IP AG | Erzeugung von anfragen an ein datenverarbeitendes system |
US9031293B2 (en) * | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
JP7124565B2 (ja) * | 2018-08-29 | 2022-08-24 | 富士通株式会社 | 対話方法、対話プログラム及び情報処理装置 |
JP7358748B2 (ja) * | 2019-03-01 | 2023-10-11 | 富士通株式会社 | 学習方法、抽出方法、学習プログラムおよび情報処理装置 |
US11431519B1 (en) * | 2019-12-12 | 2022-08-30 | Wells Fargo Bank, N.A. | Rapid and efficient case opening from negative news |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4200645B2 (ja) * | 2000-09-08 | 2008-12-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および記録媒体 |
JP4005477B2 (ja) * | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2006330935A (ja) * | 2005-05-24 | 2006-12-07 | Fujitsu Ltd | 学習データ作成プログラム、学習データ作成方法および学習データ作成装置 |
-
2007
- 2007-02-15 JP JP2007035434A patent/JP5245255B2/ja not_active Expired - Fee Related
-
2008
- 2008-02-04 US US12/025,482 patent/US20080201134A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844477A (zh) * | 2017-10-25 | 2018-03-27 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
CN107844477B (zh) * | 2017-10-25 | 2021-03-19 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2008198132A (ja) | 2008-08-28 |
US20080201134A1 (en) | 2008-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5245255B2 (ja) | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 | |
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
EP3819785A1 (en) | Feature word determining method, apparatus, and server | |
KR101498331B1 (ko) | 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템 | |
CN110427486B (zh) | 身体病况文本的分类方法、装置及设备 | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN105390049A (zh) | 电子装置和发音学习支援方法 | |
KR102280490B1 (ko) | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 | |
CN113032253B (zh) | 测试数据特征提取方法、测试方法及相关装置 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN109284497B (zh) | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 | |
CN112613322A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN116955533A (zh) | 基于自然语言模型的文本翻译方法、装置和电子设备 | |
JP2018005403A (ja) | 課題推定装置、課題推定方法および課題推定プログラム | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
CN117520800A (zh) | 一种营养学文献模型训练方法、系统、电子设备及介质 | |
US9437020B2 (en) | System and method to check the correct rendering of a font | |
KR101781597B1 (ko) | 전자 출판물에 대한 정보를 생성하는 장치 및 방법 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
CN113378561A (zh) | 词语预测模板生成方法及装置 | |
CN113704452A (zh) | 基于Bert模型的数据推荐方法、装置、设备及介质 | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP2010267047A (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
CN110837843A (zh) | 信息分类方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5245255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |