JP2005173753A - 自然語辞書更新装置、更新方法、プログラム及び記録媒体 - Google Patents
自然語辞書更新装置、更新方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2005173753A JP2005173753A JP2003409843A JP2003409843A JP2005173753A JP 2005173753 A JP2005173753 A JP 2005173753A JP 2003409843 A JP2003409843 A JP 2003409843A JP 2003409843 A JP2003409843 A JP 2003409843A JP 2005173753 A JP2005173753 A JP 2005173753A
- Authority
- JP
- Japan
- Prior art keywords
- word
- text data
- natural language
- independent
- data structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】入力部1からの操作によりリソース取得部2は非固定のコーパスから自然言語コンテンツを取得し、言語解析部3でそのテキストデータの自立語毎に品詞属性と他の自立語との係り受け関係を解析し、言語データ計量部4で当該自立語と係り受け関係を有する他の自立語の出現頻度を計量する。テキストデータ構造生成部5で当該自立語と当該自立語と係り受け関係を有する他の自立語との関係を示すテキストデータ構造情報を生成・記憶する。未登録語属性推定部7は更新しようとする未登録語に品詞属性を仮付与する。未登録語評価部8は登録候補語に係るテキストデータ構造情報を渡され、テキストデータ構造情報を所定の評価基準を参照して評価し、辞書更新部9により品詞属性の仮付与を解いて登録候補語を登録語として更新する。
【選択図】図3
Description
抽出されたテキストデータの自立語毎に品詞属性と他の自立語との係り受け関係を解析する手段、解析された当該自立語と係り受け関係を有する他の自立語の出現頻度を取得する手段、当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との関係を示すテキストデータ構造情報を生成する手段、登録候補語に係るテキストデータ構造情報を取得する手段、取得されたテキストデータ構造情報を評価する手段、所定の評価が得られたとき登録候補語を登録語として更新する手段、として機能させるためのプログラムである。
請求項4に対応する効果:信頼度の高い登録語として更新することができるので、辞書データベースの質を高めることができる。
請求項6,7に対応する効果:文書処理装置等を容易に前記効果を奏する自然言語辞書更新装置として機能させることができる。
図1は本発明に係る自然語辞書を更新する概念の説明図である。図1において、自然語辞書自動更新装置100は、登録候補語81を登録確定語82としてシステム辞書83に登録し更新する。このためにリソース取得機構84、評価情報抽出機構85、登録候補語評価機構86を備えている。辞書自動更新装置100のリソース取得機構84は、ユーザーの任意のタイミングで、常時更新される非固定のコーパス88から自然言語コンテンツを、検索エンジンを介するなどネットワークを通して取得する。そして自然言語コンテンツのテキスト部分、即ちテキストコンテンツ89を言語解析、単語計量し評価に必要な言語情報を取得し記憶する。登録候補語81は過去の入力文書によりシステム辞書83に未登録の言語として記憶されているものである。評価機構86は評価に必要な言語情報と読み出し、自ら備えている評価基準を参照して登録候補語を評価し、一定の基準を超えているとき登録確定語82としてシステム辞書83に登録、更新を行う。なお、前記自然言語コンテンツはユーザーが予め検索条件を設定して取得してもよい。
書いた・・・・小説・・・・読む・・・・本、詩、心、平家物語
書いた・・・・手紙・・・・書く、見る、来る、持ってくる、頂く
のようになる。
図3は本発明に係る自然言語辞書更新装置を実現する処理部構成のブロック図を示す。この構成は、実際には、コンピュータのハードウエア、ソフトウエア資源を利用して実現される。図3において、入力部1はユーザーが予め自然言語コンテンツを取得するタイミングや検索条件などを設定し、実態はキーボードや音声入力など既存の入力手段である。リソース取得部2は非固定の自然言語コーパスからネットワークを介して常時更新される少なくとも自然言語を含むコンテンツを取得する。コンテンツの取得は自然言語を含む全てのコンテンツの取得を基本とし、ユーザーは任意で検索条件を設定し、検索条件に合致するコンテンツを取得する。検索にはYahoo(登録商標)など既存の検索エンジンを使用することができる。
なお、通常、文節は1つの自立語と0個以上の付属語で構成されるが、解析方法によっては、1文節に複数個の自立語が含まれるような結果を出す定義の仕方も存在する。
図4は変換されるテキストデータの言語要素の例を示す。変換されたテキストデータの各言語要素には、識別情報(ID)を付与し、そのリスト等により管理する。即ち、テキストは文IDリスト、文は文ID及び文節IDリスト、文節は文節ID、単語IDリスト、係り文節IDリスト、受け文節ID、係り受け関係(種類)、意図情報リスト、単語は単語ID、係り単語IDリスト、受け単語ID、係り受け関係(種類)等のテキストデータ構造管理情報により管理する。
図5はテキストデータ構造管理情報の例を示し、図6は係り受け解析と計量の結果に基く係り受け関係のテキストデータ構造情報を示し、この情報は登録候補語の評価情報となる。これらのテキストデータ構造管理情報及び評価情報はテキストデータ構造記憶部5aに記憶する。
図7は評価基準の例を示す図であり、図7(A)は、ヲ格連用修飾関係において受け品詞が動詞で90%以上のとき品詞属性を名詞とする、という基準Aであり、図7(B)は、ヲ格連用修飾関係において受け語の係り品詞が名詞で90%以上のとき品詞属性を名詞とする、という基準Bになっている。
Claims (7)
- 品詞属性が仮付与された自然言語の登録候補語を有する辞書の前記登録候補語を登録語として更新する手段を備えた自然語辞書更新装置において、
常時更新されるコーパスから自然言語コンテンツを取得する手段と、
取得された自然言語コンテンツからテキストデータを抽出する手段と、
抽出されたテキストデータの自立語毎に品詞属性と他の自立語との係り受け関係を解析する手段と、
解析された当該自立語と係り受け関係を有する他の自立語の出現頻度を計量する手段と、
当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との関係を示すテキストデータ構造情報を生成する手段と、
登録候補語に係るテキストデータ構造情報を取得する手段と、
取得されたテキストデータ構造情報を評価する手段と、
所定の評価が得られたとき登録候補語を登録語として更新する手段と、
を備えたことを特徴とする自然語辞書更新装置。 - 請求項1記載の自然語辞書更新装置において、
前記常時更新されるコーパスから自然言語コンテンツを取得する手段は、予め設定された検索条件によりインターネット回線を通して常時更新されるコーパスから自然言語コンテンツを取得することを特徴とする自然語辞書更新装置。 - 請求項1又は2記載の自然語辞書更新装置において、
前記取得されたテキストデータ構造情報を評価する手段は、当該自立語と係り受け関係にある他の自立語とその品詞属性及び出現頻度、又は当該自立語と係り受け関係にある他の自立語と、該自立語と同じ係り受け関係にあるその他の自立語と、その品詞属性及び出現頻度を、所定の評価基準と比較してテキストデータ構造情報を評価することを特徴とする自然言語辞書更新装置。 - 請求項3記載の自然語辞書更新装置において、
所定の評価が得られたとき登録候補語に係るテキストデータ構造情報の評価を繰り返し行う手段を備えたことを特徴とする自然言語辞書更新装置。 - 品詞属性が仮付与された自然言語の登録候補語を有する辞書の前記登録候補語を登録語として更新する自然語辞書更新方法において、
常時更新されるコーパスから自然言語コンテンツを取得する工程、
取得された自然言語コンテンツからテキストデータを抽出する工程、
抽出されたテキストデータの自立語毎に品詞属性と他の自立語との係り受け関係を解析する工程、
解析された当該自立語と係り受け関係を有する他の自立語の出現頻度を取得する工程、
当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との関係を示すテキストデータ構造情報を生成する工程、
登録候補語に係るテキストデータ構造情報を取得する工程、
取得されたテキストデータ構造情報を評価する工程、
所定の評価が得られたとき登録候補語を登録語として更新する工程、
を有することを特徴とする自然言語辞書更新方法。 - コンピュータを、
常時更新されるコーパスから自然言語コンテンツを取得する手段、
取得された自然言語コンテンツからテキストデータを抽出する手段、
抽出されたテキストデータの自立語毎に品詞属性と他の自立語との係り受け関係を解析する手段、
解析された当該自立語と係り受け関係を有する他の自立語の出現頻度を取得する手段、
当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との関係を示すテキストデータ構造情報を生成する手段、
登録候補語に係るテキストデータ構造情報を取得する手段、
取得されたテキストデータ構造情報を評価する手段、
所定の評価が得られたとき登録候補語を登録語として更新する手段、
として機能させるためのプログラム。 - 請求項6記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003409843A JP4059501B2 (ja) | 2003-12-09 | 2003-12-09 | 自然語辞書更新装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003409843A JP4059501B2 (ja) | 2003-12-09 | 2003-12-09 | 自然語辞書更新装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005173753A true JP2005173753A (ja) | 2005-06-30 |
JP4059501B2 JP4059501B2 (ja) | 2008-03-12 |
Family
ID=34731068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003409843A Expired - Fee Related JP4059501B2 (ja) | 2003-12-09 | 2003-12-09 | 自然語辞書更新装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4059501B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013257756A (ja) * | 2012-06-13 | 2013-12-26 | Hitachi Solutions Ltd | 文字情報の分析方法および情報分析装置並びにプログラム |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111427991A (zh) * | 2020-02-27 | 2020-07-17 | 彭炜明 | 面向汉语词汇学习的分级词表动态生成方法和系统 |
-
2003
- 2003-12-09 JP JP2003409843A patent/JP4059501B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013257756A (ja) * | 2012-06-13 | 2013-12-26 | Hitachi Solutions Ltd | 文字情報の分析方法および情報分析装置並びにプログラム |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111427991A (zh) * | 2020-02-27 | 2020-07-17 | 彭炜明 | 面向汉语词汇学习的分级词表动态生成方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JP4059501B2 (ja) | 2008-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
US5418717A (en) | Multiple score language processing system | |
US6876963B1 (en) | Machine translation method and apparatus capable of automatically switching dictionaries | |
KR20040044176A (ko) | 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 및장치 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
US20070011160A1 (en) | Literacy automation software | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR101757222B1 (ko) | 한글 문장에 대한 의역 문장 생성 방법 | |
JP2010102521A (ja) | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
KR100617319B1 (ko) | 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
US11520989B1 (en) | Natural language processing with keywords | |
KR100376931B1 (ko) | 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
Souter et al. | Using Parsed Corpora: A review of current practice | |
KR101092355B1 (ko) | 대용어 복원 방법 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
Gavhal et al. | Sentence Compression Using Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070910 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070926 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071126 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111228 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111228 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121228 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131228 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |