JP4059501B2 - 自然語辞書更新装置 - Google Patents
自然語辞書更新装置 Download PDFInfo
- Publication number
- JP4059501B2 JP4059501B2 JP2003409843A JP2003409843A JP4059501B2 JP 4059501 B2 JP4059501 B2 JP 4059501B2 JP 2003409843 A JP2003409843 A JP 2003409843A JP 2003409843 A JP2003409843 A JP 2003409843A JP 4059501 B2 JP4059501 B2 JP 4059501B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- natural language
- text data
- data structure
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
請求項4に対応する効果:信頼度の高い登録語として更新することができるので、辞書データベースの質を高めることができる。
図1は本発明に係る自然語辞書を更新する概念の説明図である。図1において、自然語辞書自動更新装置100は、登録候補語81を登録確定語82としてシステム辞書83に登録し更新する。このためにリソース取得機構84、評価情報抽出機構85、登録候補語評価機構86を備えている。辞書自動更新装置100のリソース取得機構84は、ユーザーの任意のタイミングで、常時更新される非固定のコーパス88から自然言語コンテンツを、検索エンジンを介するなどネットワークを通して取得する。そして自然言語コンテンツのテキスト部分、即ちテキストコンテンツ89を言語解析、単語計量し評価に必要な言語情報を取得し記憶する。登録候補語81は過去の入力文書によりシステム辞書83に未登録の言語として記憶されているものである。評価機構86は評価に必要な言語情報と読み出し、自ら備えている評価基準を参照して登録候補語を評価し、一定の基準を超えているとき登録確定語82としてシステム辞書83に登録、更新を行う。なお、前記自然言語コンテンツはユーザーが予め検索条件を設定して取得してもよい。
書いた・・・・小説・・・・読む・・・・本、詩、心、平家物語
書いた・・・・手紙・・・・書く、見る、来る、持ってくる、頂く
のようになる。
図3は本発明に係る自然語辞書更新装置を実現する処理部構成のブロック図を示す。この構成は、実際には、コンピュータのハードウエア、ソフトウエア資源を利用して実現される。図3において、入力部1はユーザーが予め自然言語コンテンツを取得するタイミングや検索条件などを設定し、実態はキーボードや音声入力など既存の入力手段である。リソース取得部2は非固定の自然言語コーパスからネットワークを介して常時更新される少なくとも自然言語を含むコンテンツを取得する。コンテンツの取得は自然言語を含む全てのコンテンツの取得を基本とし、ユーザーは任意で検索条件を設定し、検索条件に合致するコンテンツを取得する。検索にはYahoo(登録商標)など既存の検索エンジンを使用することができる。
なお、通常、文節は1つの自立語と0個以上の付属語で構成されるが、解析方法によっては、1文節に複数個の自立語が含まれるような結果を出す定義の仕方も存在する。
図4は変換されるテキストデータの言語要素の例を示す。変換されたテキストデータの各言語要素には、識別情報(ID)を付与し、そのリスト等により管理する。即ち、テキストは文IDリスト、文は文ID及び文節IDリスト、文節は文節ID、単語IDリスト、係り文節IDリスト、受け文節ID、係り受け関係(種類)、意図情報リスト、単語は単語ID、係り単語IDリスト、受け単語ID、係り受け関係(種類)等のテキストデータ構造管理情報により管理する。
図5はテキストデータ構造管理情報の例を示し、図6は係り受け解析と計量の結果に基く係り受け関係のテキストデータ構造情報を示し、この情報は登録候補語の評価情報となる。これらのテキストデータ構造管理情報及び評価情報はテキストデータ構造記憶部5aに記憶する。
図7は評価基準の例を示す図であり、図7(A)は、ヲ格連用修飾関係において受け品詞が動詞で90%以上のとき品詞属性を名詞とする、という基準Aであり、図7(B)は、ヲ格連用修飾関係において受け語の係り品詞が名詞で90%以上のとき品詞属性を名詞とする、という基準Bになっている。
Claims (5)
- 品詞属性が仮付与された自然言語の登録候補語を有する辞書の前記登録候補語を登録語として更新する手段を備えた自然語辞書更新装置において、
自然言語コンテンツを取得する手段と、
取得された自然言語コンテンツからテキストデータを抽出する手段と、
抽出されたテキストデータの自立語毎に、品詞属性と他の自立語との係り受け関係を解析する手段と、
前記解析する手段にて解析された、当該自立語と係り受け関係を有する他の自立語の出現頻度を計量する手段と、
当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との係り受け関係を示すテキストデータ構造情報を生成する手段と、
前記生成する手段にて生成されたテキストデータ構造情報と、評価基準とを記憶する手段と、
登録候補語に係るテキストデータ構造情報を前記記憶手段から読み出すことで取得する手段と、
前記記憶する手段から評価基準を読み出して、前記取得する手段にて取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段と、
前記評価する手段にて、評価基準を満たすとの評価が得られたとき、前記登録候補語を登録語として更新する手段と、
を備えたことを特徴とする自然語辞書更新装置。 - 請求項1記載の自然語辞書更新装置において、
前記自然言語コンテンツを取得する手段は、予め設定された検索条件によりインターネット回線を通して常時更新されるコーパスから自然言語コンテンツを取得することを特徴とする自然語辞書更新装置。 - 請求項1又は2記載の自然語辞書更新装置において、
前記取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段は、当該自立語と係り受け関係にある他の自立語とその品詞属性及び出現頻度、又は当該自立語と係り受け関係にある他の自立語と、該自立語と同じ係り受け関係にあるその他の自立語と、その品詞属性及び出現頻度を前記記憶する手段から読み出した評価基準と比較して、テキストデータ構造情報が前記評価基準を満たしているか否かを評価することを特徴とする自然語辞書更新装置。 - 請求項3記載の自然語辞書更新装置において、
前記評価基準を満たすとの評価が得られたとき登録候補語に係るテキストデータ構造情報の評価を繰り返し行う手段を備えたことを特徴とする自然語辞書更新装置。 - 請求項1乃至4のいずれか1項に記載の自然語辞書更新装置において、
前記評価基準は、単語と他の単語との係り受け関係と、単語の品詞属性と、単語の品詞属性の出現確率とを定義していることを特徴とする自然語辞書更新装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003409843A JP4059501B2 (ja) | 2003-12-09 | 2003-12-09 | 自然語辞書更新装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003409843A JP4059501B2 (ja) | 2003-12-09 | 2003-12-09 | 自然語辞書更新装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005173753A JP2005173753A (ja) | 2005-06-30 |
JP4059501B2 true JP4059501B2 (ja) | 2008-03-12 |
Family
ID=34731068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003409843A Expired - Fee Related JP4059501B2 (ja) | 2003-12-09 | 2003-12-09 | 自然語辞書更新装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4059501B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5941345B2 (ja) * | 2012-06-13 | 2016-06-29 | 株式会社日立ソリューションズ | 文字情報の分析方法および情報分析装置並びにプログラム |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111427991A (zh) * | 2020-02-27 | 2020-07-17 | 彭炜明 | 面向汉语词汇学习的分级词表动态生成方法和系统 |
-
2003
- 2003-12-09 JP JP2003409843A patent/JP4059501B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005173753A (ja) | 2005-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6813591B2 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム | |
US5418717A (en) | Multiple score language processing system | |
KR101031970B1 (ko) | 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 | |
US5680511A (en) | Systems and methods for word recognition | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN100361124C (zh) | 用于词分析的系统和方法 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2010102521A (ja) | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
KR100617319B1 (ko) | 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
KR20030006201A (ko) | 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템 | |
KR100376931B1 (ko) | 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
Souter et al. | Using Parsed Corpora: A review of current practice | |
Zavrel et al. | Feature-Rich Memory-Based Classification for Shallow NLP and Information Extraction. | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070910 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070926 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071126 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111228 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111228 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121228 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131228 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |