JP4059501B2 - 自然語辞書更新装置 - Google Patents

自然語辞書更新装置 Download PDF

Info

Publication number
JP4059501B2
JP4059501B2 JP2003409843A JP2003409843A JP4059501B2 JP 4059501 B2 JP4059501 B2 JP 4059501B2 JP 2003409843 A JP2003409843 A JP 2003409843A JP 2003409843 A JP2003409843 A JP 2003409843A JP 4059501 B2 JP4059501 B2 JP 4059501B2
Authority
JP
Japan
Prior art keywords
word
natural language
text data
data structure
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003409843A
Other languages
English (en)
Other versions
JP2005173753A (ja
Inventor
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003409843A priority Critical patent/JP4059501B2/ja
Publication of JP2005173753A publication Critical patent/JP2005173753A/ja
Application granted granted Critical
Publication of JP4059501B2 publication Critical patent/JP4059501B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、文書処理装置等の自然語辞書データベースの登録候補語を登録語として更新する自然語辞書更新装置に関する。
コンピュータの高速化、記憶装置の小型、大容量化が進展するにつれて文書の電子化が進み電子処理が一般化している。文書の電子処理の一環として電子辞書の構築があり、様々な種類の電子辞書が開発されている。
従来、公知の電子辞書として単語間の意味関係を表わす意味属性辞書がある。この辞書はインターネット上よりHTML文書を収集し、収集した文書より各文字列間の階層構造を抽出する。これはHTMLタグのパターンとそれに対応する意味階層構造をルールとして記述しておき、そのルールに基いて、ある上位概念(属性)の文字列に対して下位概念(値)の文字列を抽出することで行う。こうして抽出された上位概念(属性)と下位概念(値)を単語レベルで辞書に記述し、意味属性辞書を生成する。このときインターネットを介してHTML文書コーパスに接続すればHTML文書は日々更新されている生データなので、それに合せて辞書を更新させていくことで辞書の陳腐化が防げるというものである(特許文献1参照)。
特開2000-99515号公報
高度な文書処理には自然言語技術が利用され、これら技術においては多くの場合、単語辞書に代表される言語知識データベースが用いられる。新規語句は絶え間なく生成され、電子辞書側は既に保有している単語辞書に対して未知語の属性付与、最適概念範疇への設定と登録をし続ける必要がある。しかしながら、前記特許文献1には自然語辞書を更新することは述べられていない。特許文献1に記載の発明は、あくまでもHTML文書をベースにして文字列の階層構造(属性とその値)を抽出し、HTML文書の表現を上位概念(属性)の単語と下位概念(値)に解析し、これらを意味属性辞書データベースに記述する。従って、自然言語の未知語を解析し、最適概念範疇を設定して確定言語とした上で辞書登録することは行っていなかった。一般に自然言語の新しい表現(語句)が生まれたとき、その表現(語句)は既存の概念に加えられるか、或いは新しい概念として新規に辞書へ登録されるかのいずれかであるが、そのいずれにしても作業には専門知識が不可欠であり、誰でもできる作業ではない上に人手とコストがかかっていた。
本発明は、このような実状に鑑みてなされたものであり、自然言語の登録候補語(未登録語)の登録を人手を介することなく辞書データベースに登録することを目的とする。
請求項1の発明は、品詞属性が仮付与された自然言語の登録候補語を有する辞書の前記登録候補語を登録語として更新する手段を備えた自然語辞書更新装置において、自然言語コンテンツを取得する手段と、取得された自然言語コンテンツからテキストデータを抽出する手段と、抽出されたテキストデータの自立語毎に品詞属性と他の自立語との係り受け関係を解析する手段と、前記解析する手段にて解析された当該自立語と係り受け関係を有する他の自立語の出現頻度を計量する手段と、当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との係り受け関係を示すテキストデータ構造情報を生成する手段と、前記生成する手段にて生成されたテキストデータ構造情報と、評価基準とを記憶する手段と、登録候補語に係るテキストデータ構造情報を前記記憶手段から読み出すことで取得する手段と、前記記憶する手段から評価基準を読み出して、前記取得する手段にて取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段と、前記評価する手段にて、評価基準を満たすとの評価が得られたとき、前記登録候補語を登録語として更新する手段と、を備えたことを特徴とする自然語辞書更新装置である。
請求項2の発明は、請求項1記載の自然語辞書更新装置において、前記自然言語コンテンツを取得する手段は、予め設定された検索条件によりインターネット回線を通して常時更新されるコーパスから自然言語コンテンツを取得することを特徴とする自然語辞書更新装置である。
請求項3の発明は、請求項1又は2記載の自然語辞書更新装置において、前記取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段は、当該自立語と係り受け関係にある他の自立語とその品詞属性及び出現頻度、又は当該自立語と係り受け関係にある他の自立語と、該自立語と同じ係り受け関係にあるその他の自立語と、その品詞属性及び出現頻度を前記記憶する手段から読み出した評価基準と比較してテキストデータ構造情報が前記評価基準を満たしているか否かを評価することを特徴とする自然語辞書更新装置である。
請求項4の発明は、請求項3記載の自然語辞書更新装置において、前記評価基準を満たすとの評価が得られたとき登録候補語に係るテキストデータ構造情報の評価を繰り返し行う手段を備えたことを特徴とする自然語辞書更新装置である。
請求項5の発明は、請求項1乃至4のいずれか1項に記載の自然語辞書更新装置において、前記評価基準は、単語と他の単語との係り受け関係と、単語の品詞属性と、単語の品詞属性の出現確率とを定義していることを特徴とする自然語辞書更新装置である。
請求項1,2,3,5に対応する効果:自然言語の登録候補語(未登録語)の登録を人手を介することなく辞書データベースに登録することができる。
請求項4に対応する効果:信頼度の高い登録語として更新することができるので、辞書データベースの質を高めることができる
はじめに本発明に係る自然語辞書を更新する基本的な概念について説明する。
図1は本発明に係る自然語辞書を更新する概念の説明図である。図1において、自然語辞書自動更新装置100は、登録候補語81を登録確定語82としてシステム辞書83に登録し更新する。このためにリソース取得機構84、評価情報抽出機構85、登録候補語評価機構86を備えている。辞書自動更新装置100のリソース取得機構84は、ユーザーの任意のタイミングで、常時更新される非固定のコーパス88から自然言語コンテンツを、検索エンジンを介するなどネットワークを通して取得する。そして自然言語コンテンツのテキスト部分、即ちテキストコンテンツ89を言語解析、単語計量し評価に必要な言語情報を取得し記憶する。登録候補語81は過去の入力文書によりシステム辞書83に未登録の言語として記憶されているものである。評価機構86は評価に必要な言語情報と読み出し、自ら備えている評価基準を参照して登録候補語を評価し、一定の基準を超えているとき登録確定語82としてシステム辞書83に登録、更新を行う。なお、前記自然言語コンテンツはユーザーが予め検索条件を設定して取得してもよい。
このようにして登録候補語を登録確定語として登録するとき、リソース取得機構84は大量の言語データコーパスを取得し、評価情報抽出機構85で任意の語句と係り受け関係のある語句を抽出する。例えば語句「書いた」が抽出され、「書いた」の目的語が「小説」、「手紙」が大部分であったとする。更に「小説」を目的語(被係り受け語)とする動詞は、大多数が「読む」、「書く」であったとする。すると「手紙」も非常に似た係り受けパターンを示した。これを整理すると、
書いた・・・・小説・・・・読む・・・・本、詩、心、平家物語
書いた・・・・手紙・・・・書く、見る、来る、持ってくる、頂く
のようになる。
図2は係り単語と受け単語の関係の例を示す図であり、図中、係り単語「読む」の受け単語は、「文」、「詩」、「本」、「書物」、「小説」、「新聞」、「手紙」であり、係り単語「書く」の受け単語は、「小説」、「新聞」、「手紙」、「黒板」、「辞表」、「記録」、「ノート」、「雑誌」である。図2から明らかなように係り単語の品詞は動詞であり、受け単語の品詞は名詞である。ここで「辞表」がシステム辞書83に未登録の登録候補語であったとすると、図2の単語関係例から「辞表」の品詞属性は名詞であることが導き出せる。このように関連付けされた言語データが大量にあれば、品詞推定モデルが構築でき、更に常時更新される大量の自然言語コーパスを利用し、語句を評価することで信頼度の高い、最新辞書の自動更新が可能になる。
次に、本発明の実施形態としての自然語辞書更新装置について図3乃至図8を参照して詳細に説明する。
図3は本発明に係る自然語辞書更新装置を実現する処理部構成のブロック図を示す。この構成は、実際には、コンピュータのハードウエア、ソフトウエア資源を利用して実現される。図3において、入力部1はユーザーが予め自然言語コンテンツを取得するタイミングや検索条件などを設定し、実態はキーボードや音声入力など既存の入力手段である。リソース取得部2は非固定の自然言語コーパスからネットワークを介して常時更新される少なくとも自然言語を含むコンテンツを取得する。コンテンツの取得は自然言語を含む全てのコンテンツの取得を基本とし、ユーザーは任意で検索条件を設定し、検索条件に合致するコンテンツを取得する。検索にはYahoo(登録商標)など既存の検索エンジンを使用することができる。
言語解析部3は形態素解析と係り受け解析を行う。形態素解析は、形態素解析用辞書を用いて自然言語コンテンツのテキスト部分を単語毎に区切り、各単語に品詞属性を仮付与する処理であり、その処理には、最長一致法、コスト最小法、用例検索法等の既存の手法を用いることができる。係り受け解析は、係り受け処理の1単位である文節を生成し、文節と文節がどのような関係にあるかを同定するが、本実施形態では、文節には必ず1つだけしか自立語を含まないように文節を生成する解析方法を使用する。解析した言語データを言語解析用辞書バッファ3aに記憶する。
なお、通常、文節は1つの自立語と0個以上の付属語で構成されるが、解析方法によっては、1文節に複数個の自立語が含まれるような結果を出す定義の仕方も存在する。
言語データ計量部4は、取得した全コンテンツについて解析が終了したとき、解析された言語データの各パーツの計量をする。本実施形態においては登録候補語の評価情報とするために、各自立語と係り受けを持つ自立語の出現頻度と品詞の頻度を計量する。この結果、例えば単語「辞表」と係り受け関係を持つ自立語とその出現頻度は、動詞「書く」29、「受け入れる」21、「入れる」12のように計量され、また単語「書く」と係り受けを持つ自立語とその出現頻度は、名詞「新聞」5、名詞「手紙」30、未登録語「辞表」29、サ変名詞「記録」6のように計量される。更に、係り受け関係の有無だけでなく、係り受け関係の種類も併せて記録し、それ毎に自立語を計量する。例えば、動詞「書く」と名詞「新聞」、「手紙」、「辞表」、サ変名詞「記録」とはヲ格連用修飾関係の係り受け、などである。この係り受け解析と計量の結果は、次に述べるテキストデータ構造情報の一部として記憶管理される。
テキストデータ構造生成部5は、上述の言語解析結果や計量結果を後工程で検索可能な構造に変換する。即ち、テキストデータ構造は、自然言語コンテンツのテキスト部分を文1、文2、文3とし、更に文1を文節1、文節2、文節3、文節4、文節5とし、更に又、文節1を単語1、単語2、単語3のような言語要素に変換することにより生成される。
図4は変換されるテキストデータの言語要素の例を示す。変換されたテキストデータの各言語要素には、識別情報(ID)を付与し、そのリスト等により管理する。即ち、テキストは文IDリスト、文は文ID及び文節IDリスト、文節は文節ID、単語IDリスト、係り文節IDリスト、受け文節ID、係り受け関係(種類)、意図情報リスト、単語は単語ID、係り単語IDリスト、受け単語ID、係り受け関係(種類)等のテキストデータ構造管理情報により管理する。
図5はテキストデータ構造管理情報の例を示し、図6は係り受け解析と計量の結果に基く係り受け関係のテキストデータ構造情報を示し、この情報は登録候補語の評価情報となる。これらのテキストデータ構造管理情報及び評価情報はテキストデータ構造記憶部5aに記憶する。
テキストデータ構造検索部6は後述する未登録語評価部8に提供するために、テキストデータ構造記憶部5aにアクセスして登録候補語のテキストデータ構造情報(評価情報)を検索する。
未登録語属性推定部7は登録候補語(未登録語)の品詞属性を推定し、推定した品詞属性を登録候補語に仮付与する。品詞属性の推定は、既存のnグラム統計を用いる方法、述語文法を利用する方法などにより実施することができる。品詞属性が仮付与された登録候補語は不図示のバッファに記憶される。なお、このバッファは後述する評価結果記憶部9aを共用するようにしてもよい。
未登録語評価部8は、登録候補語について、当該登録候補語に係るテキストデータ構造情報(評価情報)をテキストデータ構造検索部6から取得し、取得したテキストデータ構造情報が評価基準をクリヤするか否かをチェックし、評価基準をクリヤすれば登録候補語を登録語として確定する。即ち、未登録語評価部8は、本例の場合、先頭順位にある単語「辞表」、推定属性「名詞」について、テキストデータ構造検索部6から単語「辞表」、推定属性「名詞」に係るテキストデータ構造情報を取得する。本実施形態では、テキストデータ構造記憶部5aに、図6(A)及び図6(B)で示される辞表に係るテキストデータ構造情報が存在するので、この情報が取得される。
未登録語評価部8は評価基準バッファ8aに評価基準を記憶している。
図7は評価基準の例を示す図であり、図7(A)は、ヲ格連用修飾関係において受け品詞が動詞で90%以上のとき品詞属性を名詞とする、という基準Aであり、図7(B)は、ヲ格連用修飾関係において受け語の係り品詞が名詞で90%以上のとき品詞属性を名詞とする、という基準Bになっている。
従って未登録語評価部8は、テキストデータ構造記憶部5aから検索された単語「辞表」と係り関係にある自立語「書く」、「受け入れる」、「入れる」(これらは全て動詞)の出現頻度を、評価基準Aと比較すると、ヲ格連用修飾関係で受け語(「書く」、「受け入れる」、「入れる」)の品詞が動詞である割合が90%以上であるという条件をクリアしているので、登録候補語「辞表」の品詞属性を名詞として登録確定語とし、確信度を1ポイント加算する。
或いは本実施形態では、ヲ格連用修飾関係にある「書く」、「受け入れる」、「入れる」と同じ係り受け関係にある自立語「新聞」「手紙」「辞表」「荷物」「手紙」サ変名詞「記録」(これらは全て名詞)の出現頻度を、評価基準Bと比較すると、ヲ格連用修飾関係で受け語(「書く」「受け入れる」)の係り品詞が名詞である割合が90%以上であるという条件をクリアしているので、登録候補語「辞表」の品詞属性を名詞として登録確定語とし、確信度を1ポイント加算する。評価基準をクリアしないときは、登録確定語とすることなく次ぎの登録候補語について同じ処理を行う。
辞書更新部9は、登録候補語の評価が終了し、確信度がユーザーの設定したしきい値n以上の登録候補語が存在するときは、その登録候補語をシステム辞書(評価結果記憶部8a)に登録しシステム辞書を更新する。本実施形態ではシステム辞書の更新は、登録が確定するとすぐに辞書登録することを基本(n=1)としたが、更に登録確定語の確信度を高めるためにユーザーの選択により評価を複数回(n)回繰返し、確信度が所定の基準を満たしたとき登録・更新することができる。
制御部10は、コンピュータのハードウエア、ソフトウエア資源により上述の各処理部が実現され、各処理が実行されるように制御する。
図8は、以上述べた各処理部が自然語辞書を自動更新する動作の手順を示すフロー図である。以下、図8を参照して自然語辞書の自動更新動作を説明する。自然語辞書自動更新装置は、動作の開始により自然言語コンテンツの入力待ち状態となり、入力部1からユーザーの任意のタイミング、予め設定された検索条件でリソース取得部2が自然言語コンテンツを取得し(S1)、テキスト部が取得されるまでこの動作を行う(S2)。テキスト部が取得されると(S2,Y)、これを一旦バッファに記憶し(S3)、言語解析部3で形態素解析、係り受け解析を全テキストについて終了するまで行い(S4,S5,S6)、解析結果を言語解析用辞書(バッファ)3aに格納する。次に、言語データ計量部4によりこの係り受け解析結果を用いて任意の単語と係り受け関係にある単語の出現頻度を、言語データのパーツ(単語、品詞等)毎に計量する(S7)。計量が終了したとき、テキストデータ構造生成部5により計量結果を用いてテキストデータ構造を生成し(S8)、このテキストデータ構造を記憶部5aに格納する(S9)。
続いて制御部10により未登録語(登録候補語)と推定属性が先頭から呼出され(S10)、テキストデータ構造検索部6がテキストデータ構造記憶部5aにアクセスすることにより登録候補語に係るテキストデータ構造が該記憶部に存在するか否かをチェックし(S11)、存在するときは(S11,Y)、テキストデータ構造の内、係り受け関係にある単語とその品詞属性並びに頻度を取得し、未登録語評価部8に渡す(S12)。なお、登録候補語の推定属性は未登録語属性推定部7により予め付与されている。
未登録語評価部8において、渡された係り受け関係にある単語とその品詞属性並びに出現頻度が評価基準をクリアするか否かが判断され(S13,S14)、クリアしている場合においては確信度ポイントを加算し(S15)、次ぎの未登録語を呼び出し、最終の未登録語に到達するまで上述の評価処理を繰返す(S16)。
最終の未登録語に到達したとき制御部10は確信度ポイントがn以上の登録候補語の登録を行うため、再び登録候補語を呼び出し(S17)、確信度ポイントがn以上の登録候補語か否かをチェックする(S18)。確信度ポイントがn以上の登録候補語のときはその登録候補語をシステム辞書に登録し辞書を更新し(S19,S20)、初期の入力待ち状態に移動する。確信度ポイントがn以上の登録候補語が存在しないとき(S18,N)、初期の入力待ち状態に戻る。
以上述べた自然語辞書の自動更新を実行させるために、前記処理手順を汎用のプログラム言語によりコンピュータプログラムとして記述し、かつ、このプログラムをフレキシブルディスク、CD−ROM、DVD-ROM、MO等の任意の記録媒体に記録し、これを読み取らせることで本発明に係る自然語辞書の自動更新を容易に実施することができる。本プログラムは、記録媒体に記録する以外に、インターネット、イントラネット等の任意のネットワークを介して、文書処理装置等のコンピュータに直接読み取らせることも可能である。
以上のように本発明に係る自然語辞書更新装置は、文書処理装置や画像形成装置等が備える電子辞書データベースの更新において有用であり、特に信頼度の高い登録語の電子辞書データベースの更新に用いるのに適している。
本発明に係る自然語辞書を更新する概念の説明図である。 係り単語と受け単語の関係の例を示す図である。 本発明に係る自然語辞書更新装置を実現する処理部構成のブロック図である。 変換されるテキストデータの言語要素の例を示す図である。 テキストデータ構造管理情報の例を示す図である。 係り受け解析と計量の結果に基く係り受け関係のテキストデータ構造情報を示す図である。 評価基準の例を示す図である。 自然語辞書を自動更新する動作のフロー図である。
符号の説明
1・・入力部、2・・リソース取得部、3・・言語解析部、4・・言語データ計量部、5・・テキストデータ構造生成部、6・・テキストデータ構造検索部、7・・未登録語属性推定部、8・・未登録語評価部、9・・辞書更新部、10・・制御部。

Claims (5)

  1. 品詞属性が仮付与された自然言語の登録候補語を有する辞書の前記登録候補語を登録語として更新する手段を備えた自然語辞書更新装置において、
    自然言語コンテンツを取得する手段と、
    取得された自然言語コンテンツからテキストデータを抽出する手段と、
    抽出されたテキストデータの自立語毎に、品詞属性と他の自立語との係り受け関係を解析する手段と、
    前記解析する手段にて解析された、当該自立語と係り受け関係を有する他の自立語の出現頻度を計量する手段と、
    当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との係り受け関係を示すテキストデータ構造情報を生成する手段と、
    前記生成する手段にて生成されたテキストデータ構造情報と、評価基準とを記憶する手段と、
    登録候補語に係るテキストデータ構造情報を前記記憶手段から読み出すことで取得する手段と、
    前記記憶する手段から評価基準を読み出して、前記取得する手段にて取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段と、
    前記評価する手段にて、評価基準を満たすとの評価が得られたとき、前記登録候補語を登録語として更新する手段と、
    を備えたことを特徴とする自然語辞書更新装置。
  2. 請求項1記載の自然語辞書更新装置において、
    前記自然言語コンテンツを取得する手段は、予め設定された検索条件によりインターネット回線を通して常時更新されるコーパスから自然言語コンテンツを取得することを特徴とする自然語辞書更新装置。
  3. 請求項1又は2記載の自然語辞書更新装置において、
    前記取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段は、当該自立語と係り受け関係にある他の自立語とその品詞属性及び出現頻度、又は当該自立語と係り受け関係にある他の自立語と、該自立語と同じ係り受け関係にあるその他の自立語と、その品詞属性及び出現頻度を前記記憶する手段から読み出した評価基準と比較して、テキストデータ構造情報が前記評価基準を満たしているか否かを評価することを特徴とする自然語辞書更新装置。
  4. 請求項3記載の自然語辞書更新装置において、
    前記評価基準を満たすとの評価が得られたとき登録候補語に係るテキストデータ構造情報の評価を繰り返し行う手段を備えたことを特徴とする自然語辞書更新装置。
  5. 請求項1乃至4のいずれか1項に記載の自然語辞書更新装置において、
    前記評価基準は、単語と他の単語との係り受け関係と、単語の品詞属性と、単語の品詞属性の出現確率とを定義していることを特徴とする自然語辞書更新装置。
JP2003409843A 2003-12-09 2003-12-09 自然語辞書更新装置 Expired - Fee Related JP4059501B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003409843A JP4059501B2 (ja) 2003-12-09 2003-12-09 自然語辞書更新装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003409843A JP4059501B2 (ja) 2003-12-09 2003-12-09 自然語辞書更新装置

Publications (2)

Publication Number Publication Date
JP2005173753A JP2005173753A (ja) 2005-06-30
JP4059501B2 true JP4059501B2 (ja) 2008-03-12

Family

ID=34731068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003409843A Expired - Fee Related JP4059501B2 (ja) 2003-12-09 2003-12-09 自然語辞書更新装置

Country Status (1)

Country Link
JP (1) JP4059501B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5941345B2 (ja) * 2012-06-13 2016-06-29 株式会社日立ソリューションズ 文字情報の分析方法および情報分析装置並びにプログラム
CN111209746B (zh) * 2019-12-30 2024-01-30 航天信息股份有限公司 自然语言处理方法、装置、存储介质及电子设备
CN111427991A (zh) * 2020-02-27 2020-07-17 彭炜明 面向汉语词汇学习的分级词表动态生成方法和系统

Also Published As

Publication number Publication date
JP2005173753A (ja) 2005-06-30

Similar Documents

Publication Publication Date Title
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
US5418717A (en) Multiple score language processing system
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
US5680511A (en) Systems and methods for word recognition
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
JP2011118689A (ja) 検索方法及びシステム
CN100361124C (zh) 用于词分析的系统和方法
JP2006227823A (ja) 情報処理装置及びその制御方法
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2010102521A (ja) 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
JP4059501B2 (ja) 自然語辞書更新装置
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
Souter et al. Using Parsed Corpora: A review of current practice
Zavrel et al. Feature-Rich Memory-Based Classification for Shallow NLP and Information Extraction.
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071126

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071217

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111228

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111228

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131228

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees