JP4468608B2 - Semantic information estimation device, semantic information estimation method, and program - Google Patents
Semantic information estimation device, semantic information estimation method, and program Download PDFInfo
- Publication number
- JP4468608B2 JP4468608B2 JP2001131379A JP2001131379A JP4468608B2 JP 4468608 B2 JP4468608 B2 JP 4468608B2 JP 2001131379 A JP2001131379 A JP 2001131379A JP 2001131379 A JP2001131379 A JP 2001131379A JP 4468608 B2 JP4468608 B2 JP 4468608B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- semantic information
- occurrence
- character string
- occurrence pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、意味情報推定装置、意味情報推定方法、及びプログラムに関する。
【0002】
【従来の技術】
いわゆる言語処理に用いられる単語辞書には、単語の表記や読み、活用等の情報に加え、単語の意味(分類)に関する情報が登録されている。このように単語辞書に登録された単語の意味情報は、文書検索処理や文書分類処理の際に非常に有効となる。
【0003】
ところで、大規模な文書データベース中から所定の文書を検索する際には、キーワードによる検索が一般的である。このようなキーワードによる文書検索においては、実際には、例えばOA機器を製造販売するメーカーである「○×電気」という特定のキーワードにより検索する場合に加え、「○×電気」よりも上位の概念にあたる「OA機器メーカー」といったキーワードにより検索する場合もある。
【0004】
しかしながら、通常の文書では、企業名である「○×電気」等の固有名詞はあっても、「○×電気」の上位概念を表すことば(「OA機器メーカー」)は表現されないのが普通である。
【0005】
そこで、このような問題を解決するための一つの方策として、企業名等の固有名詞に対し、その企業が属する業種等の意味的な情報を付与する方法がある。しかし、このような意味や知識に関する情報の単語辞書への付与や単語辞書の作成は、かなりの労力、知識、技術を要するものである。そのため、意味や知識に関する各種情報の単語辞書への付与等については、様々な手法が考えられている。
【0006】
知識情報の効率的な獲得手法としては、自然言語文を解析し、特定の対象に対してデータベース登録を行なうものが特開平6−223109号公報において開示されている。
【0007】
また、構文情報によって単語を推定するものとしては、構文情報を用いて単語間の関係を含む情報を一定形式で抽出する手法が、特開平7−85071号公報において開示されている。特開平7−85071号公報において開示されている技術によれば、構文情報を用いて単語間の関係を含む情報を一定形式で抽出する際に、未登録語の単語とその意味を推定している。例えば、「○×電気がスパッタリング装置を開発した」という表現について、「○×電気」が未知の単語であっても、共起する「装置を開発した」という表現から装置開発者として認識する方法を提案している。
【0008】
【発明が解決しようとする課題】
しかしながら、特開平6−223109号公報に開示されている技術によれば、単語辞書にある程度の意味情報が予め登録されていることが前提とされている。すなわち、対象領域の意味とこれに対応付けられる表現とを予め規定しておく必要があり、この設定自体、非常に労力を要するものとなっている。
【0009】
また、特開平7−85071号公報に開示されている技術によれば、構文解析規則を用いた詳細な構文解析を行なって情報を獲得しているが、構文解析自体難しい技術であり、単語が未登録である場合や意味情報がない場合に解析自体が難しいことがある。また、この方法では、例えば「○×電気が通信装置を開発した」という文においても同様な結果が得られるものの、どのような装置を開発する者であるかといった詳細な意味情報まではわからない。
【0010】
本発明の目的は、人手や構文解析等の技術を用いずに、単語辞書に登録された単語に対してその単語の意味情報を自動的に付与することである。
【0011】
本発明の目的は、入力された文書の情報を利用し、単語辞書に未登録の単語とその意味情報とを自動的に獲得することである。
【0012】
【課題を解決するための手段】
請求項1記載の発明の意味情報推定装置は、単語の表記を複数記憶する単語辞書記憶手段と、前記単語辞書記憶手段に記憶されている1の単語の表記の少なくとも一部を構成する文字列と共通する共通文字列を、前記1の単語以外の単語の表記の中から検索し、前記共通文字列が所定数以上検索された場合に、前記共通文字列を、前記共通文字列を含む表記の単語の意味情報として推定する意味推定手段と、前記意味推定手段により推定された前記意味情報を、前記共通文字列を含む単語の表記に対応付けて前記単語辞書記憶手段に記憶させる意味情報格納手段と、共起する単語間の関係を規定した第1共起パタンと、当該第1共起パタンの各単語の意味情報とを、対応付けて記憶するとともに、前記第1共起パタンのいずれかの単語と他の単語との階層関係又は関連付け関係を規定した第2共起パタンと、当該第2共起パタンの前記他の単語の意味情報とを、対応付けて記憶する共起パタン辞書記憶手段と、入力部から文書の入力を受付ける文書受付手段と、前記文書受付手段により受付けられた前記文書の中から、前記共起パタン辞書記憶手段に記憶されている前記第1共起パタンを満足する各単語を抽出する共起情報抽出手段と、を備え、前記意味情報格納手段は、更に、前記共起情報抽出手段により抽出された前記各単語の表記と、前記共起パタン辞書記憶手段に記憶されている当該単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させるとともに、前記共起情報抽出手段により抽出された前記各単語のいずれかの単語と他の単語との階層関係又は関連付け関係が前記共起パタン辞書記憶手段に記憶されている前記第2共起パタンに規定されている場合には、前記他の単語の表記と、前記共起パタン辞書記憶手段に記憶されている前記他の単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させる。
【0013】
したがって、単語において共通する文字列は共通する概念を表す可能性が高いことから、これを利用することで簡単に意味を付与することが可能になる。これにより、人手や構文解析等の技術を用いずに単語辞書に登録された単語に対してその単語の意味情報を自動的に付与することが可能になる。また、文書に出現した共起パタンを利用することで単語辞書に未登録の単語とその意味情報とを自動的に獲得することが可能になる。また、共起パタンを関連付け、あるいは階層的に記述することにより、パタン記述の労力を削減することが可能になる。また、関連付けされることにより、未登録の語があっても関連する既知の情報をもとに意味情報を推定することが可能になる。更に、関連付けられた共起パタンによって、意味情報だけでなく、意味情報同士を関連付けすることが可能になるので、より詳細な意味情報を推定することが可能になる。
【0014】
請求項2記載の発明は、請求項1記載の意味情報推定装置において、前記意味推定手段は、前記1の単語以外の単語の表記の末部分の文字列又は先頭部分の文字列の中から、前記共通文字列を検索する。
【0015】
したがって、共通する文字列位置を制限することにより、より精度の高い意味推定が可能になる。
【0026】
請求項3記載の発明の意味情報推定方法は、意味推定手段が、単語の表記を複数記憶する単語辞書記憶手段に記憶されている1の単語の表記の少なくとも一部を構成する文字列と共通する共通文字列を、前記1の単語以外の単語の表記の中から検索し、前記共通文字列が所定数以上検索された場合に、前記共通文字列を、前記共通文字列を含む表記の単語の意味情報として推定する意味推定工程と、 意味情報格納手段が、前記意味推定工程により推定された前記意味情報を、前記共通文字列を含む単語の表記に対応付けて前記単語辞書記憶手段に記憶させる第1意味情報格納工程と、文書受付手段が、入力部から文書の入力を受付ける文書受付工程と、共起情報抽出手段が、前記文書受付工程により受付けられた前記文書の中から、共起する単語間の関係を規定した第1共起パタンと当該第1共起パタンの各単語の意味情報とを対応付けて記憶するとともに、前記第1共起パタンのいずれかの単語と他の単語との階層関係又は関連付け関係を規定した第2共起パタンと当該第2共起パタンの前記他の単語の意味情報とを対応付けて記憶する共起パタン辞書記憶手段に記憶されている前記第1共起パタンを満足する各単語を抽出する共起情報抽出工程と、前記意味情報格納手段が、更に、前記共起情報抽出工程により抽出された前記各単語の表記と、前記共起パタン辞書記憶手段に記憶されている当該単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させるとともに、前記共起情報抽出工程により抽出された前記各単語のいずれかの単語と他の単語との階層関係又は関連付け関係が前記共起パタン辞書記憶手段に記憶されている前記第2共起パタンに規定されている場合には、前記他の単語の表記と、前記共起パタン辞書記憶手段に記憶されている前記他の単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させる第2意味情報格納工程と、を含んでなる。
【0027】
したがって、単語において共通する文字列は共通する概念を表す可能性が高いことから、これを利用することで簡単に意味を付与することが可能になる。これにより、人手や構文解析等の技術を用いずに単語辞書に登録された単語に対してその単語の意味情報を自動的に付与することが可能になる。また、文書に出現した共起パタンを利用することで単語辞書に未登録の単語とその意味情報とを自動的に獲得することが可能になる。また、共起パタンを関連付け、あるいは階層的に記述することにより、パタン記述の労力を削減することが可能になる。また、関連付けされることにより、未登録の語があっても関連する既知の情報をもとに意味情報を推定することが可能になる。更に、関連付けられた共起パタンによって、意味情報だけでなく、意味情報同士を関連付けすることが可能になるので、より詳細な意味情報を推定することが可能になる。
【0028】
請求項4記載の発明は、請求項3記載の意味情報推定方法において、前記意味推定工程では、前記意味推定手段が、前記1の単語以外の単語の表記の末部分の文字列又は先頭部分の文字列の中から、前記共通文字列を検索する。
【0029】
したがって、共通する文字列位置を制限することにより、より精度の高い意味推定が可能になる。
【0040】
請求項5記載の発明のプログラムは、単語の意味情報の推定をコンピュータに実行させるためのプログラムであって、前記コンピュータに、単語の表記を複数記憶する単語辞書記憶手段に記憶されている1の単語の表記の少なくとも一部を構成する文字列と共通する共通文字列を、前記1の単語以外の単語の表記の中から検索し、前記共通文字列が所定数以上検索された場合に、前記共通文字列を、前記共通文字列を含む表記の単語の意味情報として推定する意味推定機能と、前記意味推定機能により推定された前記意味情報を、前記共通文字列を含む単語の表記に対応付けて前記単語辞書記憶手段に記憶させる第1意味情報格納機能と、入力部から文書の入力を受付ける文書受付機能と、前記文書受付機能により受付けられた前記文書の中から、共起する単語間の関係を規定した第1共起パタンと当該第1共起パタンの各単語の意味情報とを対応付けて記憶するとともに、前記第1共起パタンのいずれかの単語と他の単語との階層関係又は関連付け関係を規定した第2共起パタンと当該第2共起パタンの前記他の単語の意味情報とを対応付けて記憶する共起パタン辞書記憶手段に記憶されている前記第1共起パタンを満足する各単語を抽出する共起情報抽出機能と、前記共起情報抽出機能により抽出された前記各単語の表記と、前記共起パタン辞書記憶手段に記憶されている当該単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させるとともに、前記共起情報抽出機能により抽出された前記各単語のいずれかの単語と他の単語との階層関係又は関連付け関係が前記共起パタン辞書記憶手段に記憶されている前記第2共起パタンに規定されている場合には、前記他の単語の表記と、前記共起パタン辞書記憶手段に記憶されている前記他の単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させる第2意味情報格納機能と、を実行させる。
【0041】
したがって、単語において共通する文字列は共通する概念を表す可能性が高いことから、これを利用することで簡単に意味を付与することが可能になる。これにより、人手や構文解析等の技術を用いずに単語辞書に登録された単語に対してその単語の意味情報を自動的に付与することが可能になる。また、文書に出現した共起パタンを利用することで単語辞書に未登録の単語とその意味情報とを自動的に獲得することが可能になる。また、共起パタンを関連付け、あるいは階層的に記述することにより、パタン記述の労力を削減することが可能になる。また、関連付けされることにより、未登録の語があっても関連する既知の情報をもとに意味情報を推定することが可能になる。更に、関連付けられた共起パタンによって、意味情報だけでなく、意味情報同士を関連付けすることが可能になるので、より詳細な意味情報を推定することが可能になる。
【0042】
請求項6記載の発明は、請求項5記載のプログラムにおいて、前記意味推定機能は、前記1の単語以外の単語の表記の末部分の文字列又は先頭部分の文字列の中から、前記共通文字列を検索する。
【0043】
したがって、共通する文字列位置を制限することにより、より精度の高い意味推定が可能になる。
【0056】
【発明の実施の形態】
本発明の第一の実施の形態を図1ないし図5に基づいて説明する。
【0057】
図1は、意味情報推定装置1のハードウェア構成を概略的に示すブロック図である。図1に示すように、意味情報推定装置1は、この意味情報推定装置1の各部を集中的に制御するCPU(Central Processing Unit)2を備えており、このCPU2には、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)3と、各種データを書換え可能に記憶するRAM(Random Access Memory)4とがバス5で接続されている。さらにバス5には、外部記憶となるHDD(Hard Disk Drive)6と、CD(Compact Disc)−ROM7を読み取るCD−ROMドライブ8と、意味情報推定装置1とネットワーク9との通信を司る通信制御装置10と、入力部として機能するキーボードやマウスなどの入力装置11と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)などの出力装置12とが、図示しないI/Oを介して接続されている。
【0058】
RAM4は、各種データを書換え可能に記憶する性質を有していることから、CPU2の作業エリアとして機能し、例えば入力バッファ、解析バッファ等の役割を果たす。
【0059】
また、HDD6には、各種のプログラムを格納するプログラムファイルのほか、単語の表記及び意味情報が格納される単語辞書13が格納されている。本実施の形態の単語辞書13には、図2に示すように、初期状態としては例えば企業等の名称(単語の表記)のみが格納されている。
【0060】
図1に示すCD−ROM7は、この発明の記憶媒体を実施するものであり、所定のプログラムが記憶されている。CPU2は、CD−ROM7に記憶されているプログラムをCD−ROMドライブ8で読み取り、HDD6にインストールする。これにより、意味情報推定装置1は、後述するような各種の処理を行なうことが可能な状態となる。
【0061】
なお、記憶媒体としては、CD−ROM7のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フロッピーディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いることができる。また、通信制御装置10を介してインターネットなどのネットワーク9からプログラムをダウンロードし、HDD6にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、ワープロソフトなど所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
【0062】
次に、意味情報推定装置1のCPU2がプログラムに基づいて実行する各種処理の内容について説明する。本発明の意味情報推定装置1は概略的には単語の意味情報を推定するものであって、図3に示すように、CPU2がプログラムに基づいて動作することで、意味情報推定装置1には単語辞書13に基づいて単語の意味情報を推定する機能を発揮する意味情報推定部14が形成される。
【0063】
次に、本実施の形態の意味情報推定部14における意味情報推定処理の流れについて図4を参照して説明する。図4に示すように、本実施の形態の意味情報推定処理は、単語辞書13に登録されている各単語の中で未処理の単語が有る場合には(ステップS1のY)、ステップS2に進み、当該単語を単語辞書13中の他の単語と文字列比較し、共通文字列があればその文字列を記憶し、その文字列に対応付けられたカウンタを1カウントアップするとともに、単語辞書13中の照合した文字列部分をマークする。なお、照合時にすでに照合したマークが共通文字列と完全一致する場合は重複カウントをさけるためにカウントしない。ここに、意味推定手段の機能が実行される。
【0064】
一方、単語辞書13に登録されている各単語の中で未処理の単語がなくなった場合、つまり単語辞書13に登録されている全ての単語についての処理が終了した場合には(ステップS1のN)、ステップS3に進み、共通文字列のカウントが一定数以上であるときに、この共通文字列を意味情報として、当該文字列を持つ単語辞書13中の単語にこの意味情報を付与する。なお、一定数は単語辞書13の語数等によって変更できる。ここに、意味情報格納手段の機能が実行される。
【0065】
上記の意味情報推定処理について具体例を用いて説明する。ここでは、図2に示した単語辞書13の各単語を順に処理するものとして以下において説明する。
【0066】
まず、「AA商事」について処理する。「AA商事」と単語辞書13中の他の単語の共通文字列を検索する。この場合、「AA商事」は、「BBB商事」及び「ZZZ商事」に対して「商事」という単語で共通するので、「商事」という語を共通文字列としてカウント“2”として記憶する。このとき、単語辞書13中の「AA商事」「BBB商事」「ZZZ商事」の「商事」部分をカウント済みとしてマークしておく。
【0067】
続く、「BBB商事」「ZZZ商事」についても、「商事」が共通するが、カウント済みなので、カウントアップしない。
【0068】
次に、「XYビール」について処理する。「XYビール」と単語辞書13中の他の単語の共通文字列を検索する。この場合、「XYビール」は、「YYYビール」に対して「ビール」という単語で共通するので、「ビール」という語を共通文字列としてカウント“1”として記憶する。このとき、単語辞書13中の「XYビール」「YYYビール」の「ビール」部分をカウント済みとしてマークしておく。
【0069】
続く、「YYYビール」についても、「ビール」が共通するが、カウント済みなので、カウントアップしない。
【0070】
単語辞書13に登録されている全ての単語について終了すると、共通文字列のカウントを調べ、例えばカウント“1”以上のものを、意味情報とし、この共通文字列(「商事」「ビール」)を単語辞書13の各単語の表記に対応付けて付与する。
【0071】
ここで、図5は意味情報推定部14の処理によって意味情報が付与された単語辞書13の一例を示す説明図である。図5に示すように、企業等の名称に対して、それぞれの業種分野が意味情報として付与されている。
【0072】
ここに、単語において共通する文字列は共通する概念を表す可能性が高いことから、これを利用することで簡単に意味を付与することができるので、人手や構文解析等の技術を用いずに単語辞書13に登録された単語に対してその単語の意味情報を自動的に付与することができる。
【0073】
次に、本発明の第二の実施の形態を図6ないし図8に基づいて説明する。なお、前述した実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、第一の実施の形態で説明した意味情報推定装置1の意味情報推定部14における意味情報推定処理の変形例である。
【0074】
本実施の形態の意味情報推定部14における意味情報推定処理の流れについて図6を参照して説明する。図6に示すように、本実施の形態の意味情報推定処理は、単語辞書13に登録されている各単語の中で未処理の単語が有る場合には(ステップS11のY)、ステップS12に進み、当該単語を単語辞書13中の他の単語と文字列比較し、共通文字列が単語末か単語頭に位置する場合に、その共通文字列を記憶し、その文字列に対応付けられたカウンタを1カウントアップするとともに、単語辞書13中の照合した文字列部分をマークする。なお、照合時にすでに照合したマークが共通文字列と完全一致する場合は重複カウントをさけるためにカウントしない。
【0075】
一方、単語辞書13に登録されている各単語の中で未処理の単語がなくなった場合、つまり単語辞書13に登録されている全ての単語についての処理が終了した場合には(ステップS11のN)、ステップS13に進み、共通文字列のカウントが一定数以上であるときに、この共通文字列を意味情報として、当該文字列を持つ単語辞書13中の単語にこの意味情報を付与する。なお、一定数は単語辞書13の語数等によって変更できる。
【0076】
つまり、本実施の形態の意味情報推定処理は、第一の実施の形態の意味情報推定処理と比較して、共通する文字かどうかを判定する際に照合する単語での共通文字列の位置を単語末か単語頭に制限した点が異なるものである。
【0077】
上記の意味情報推定処理について具体例を用いて説明する。ここでは、図7に示した単語辞書13の各単語を順に処理するものとして以下において説明する。
【0078】
まず、「(株)○○」について処理する。「(株)○○」と単語辞書13中の他の単語の共通文字列を検索する。この場合、「(株)○○」は、「(株)××証券」及び「(株)AA証券」に対して「(株)」という単語で共通するので、「(株)」という語を共通文字列としてカウント“2”として記憶する。このとき、単語辞書13中の「(株)○○」「(株)××証券」「(株)AA証券」の「(株)」部分をカウント済みとしてマークしておく。
【0079】
次に、「(株)××証券」について処理する。「(株)××証券」と単語辞書13中の他の単語の共通文字列を検索する。この場合、「(株)××証券」は、「(株)AA証券」に対して「証券」という単語で共通するので、「証券」という語を共通文字列としてカウント“1”として記憶する。
【0080】
続く、「(株)AA証券」については、「(株)」及び「証券」が共通するが、カウント済みなので、カウントアップしない。
【0081】
次に、「XYビール」について処理する。「XYビール」と単語辞書13中の他の単語の共通文字列を検索する。この場合、「XYビール」は、「ZZZビール」に対して「ビール」という単語で共通するので、「ビール」という語を共通文字列としてカウント“1”として記憶する。このとき、単語辞書13中の「XYビール」「ZZZビール」の「ビール」部分をカウント済みとしてマークしておく。
【0082】
続く、「ZZZビール」についても、「ビール」が共通するが、カウント済みなので、カウントアップしない。
【0083】
単語辞書13に登録されている全ての単語について終了すると、共通文字列のカウントを調べ、例えばカウント“1”以上のものを、意味情報とし、この共通文字列(「(株)」「証券」「ビール」)を単語辞書13の各単語の表記に対応付けて付与する。
【0084】
ここで、図8は意味情報推定部14の処理によって意味情報が付与された単語辞書13の一例を示す説明図である。図8に示すように、共通文字列を単語末に制限することで、企業等の名称に対して、ものの概念を表す語句の上位分類にあたる語句だけを抽出することができる。ここでは、「ビール」「証券」という業種分野が意味情報として付与されている。また、共通文字列を単語頭に制限することで、企業等の名称に対して、「(株)」といった語全体の意味を特徴付ける表現を抽出できる。ここでは、「(株)」という会社形態が意味情報として付与されている。
【0085】
ここに、共通する文字列位置を制限することにより、より精度の高い意味推定を実現することができる。
【0086】
次に、本発明の第三の実施の形態を図9ないし図11に基づいて説明する。なお、前述した実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、第一の実施の形態で説明した意味情報推定装置1の意味情報推定部14におけるの意味情報推定処理の変形例である。本実施の形態は、第一の実施の形態及び第二の実施の形態で説明したような単語辞書13に意味情報が全くない状態とは異なり、単語辞書13に意味情報が未登録の単語がいくつかある場合や単語を新規に登録した場合の意味情報推定処理である。
【0087】
本実施の形態の意味情報推定部14における意味情報推定処理の流れについて図9を参照して説明する。図9に示すように、本実施の形態の意味情報推定処理は、単語辞書13中に意味情報が未登録の単語が有る場合には(ステップS21のY)、ステップS22に進み、当該単語を単語辞書13中の他の単語と文字列比較し、共通文字列があればその文字列を記憶し、その文字列に対応付けられたカウンタを1カウントアップする。ここに、第二意味推定手段の機能が実行される。
【0088】
一方、意味情報が未登録の単語が単語辞書13中からなくなった場合には(ステップS21のN)、ステップS23に進み、カウントが一定数以上である共通文字列、もしくは、その共通文字列をもつ単語の意味情報を、当該文字列を持つ単語辞書13中の単語に付与する。なお、一定数は単語辞書13の語数等によって変更できる。ここに、第二意味情報格納手段の機能が実行される。
【0089】
上記の意味情報推定処理について具体例を用いて説明する。ここでは、図10に示した単語辞書13の単語を処理するものとして以下において説明する。
【0090】
単語辞書13中には意味情報が未登録の単語(「ZZZ商事」「XYZビール」)が有ることから、まず、「ZZZ商事」について処理する。「ZZZ商事」と単語辞書13中の他の単語の共通文字列を検索する。この場合、「ZZZ商事」は、「AA商事」及び「BBB商事」に対して「商事」という単語で共通するので、「商事」という語を共通文字列としてカウント“2”として記憶する。
【0091】
次に、「XYZビール」について処理する。「XYZビール」と単語辞書13中の他の単語の共通文字列を検索する。この場合、「XYZビール」は、「XYビール」に対して「ビール」という単語で共通するので、「ビール」という語を共通文字列としてカウント“1”として記憶する。
【0092】
単語辞書13中の意味情報が未登録の単語(「ZZZ商事」「XYZビール」)について共通文字列を調べ終わった後、共通文字列のカウントを調べ、例えばカウント“1”以上のものを、意味未登録の単語の意味情報とし、この共通文字列(「商事」「ビール」)を単語辞書13の各単語の表記に対応付けて付与する。
【0093】
ここで、図11は意味情報推定部14の処理によって意味情報が付与された単語辞書13の一例を示す説明図である。図11に示すように、意味情報が未登録であった単語に対して、それぞれの業種分野が意味情報として付与されている。
【0094】
ここに、意味情報を持たない未登録の語について、既存の辞書情報から自動的に意味情報を推定することができる。
【0095】
なお、本実施の形態においては、意味情報が未登録の単語が単語辞書13中に有る場合について説明したが、単語自体を新規に登録した場合も同様に処理することが可能である。
【0096】
次に、本発明の第四の実施の形態を図12ないし図15に基づいて説明する。なお、前述した実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、第一の実施の形態ないし第三の実施の形態で説明したような単語辞書13中の単語の意味情報を単語辞書13に基づいて推定するものではなく、入力装置11等を介して入力された文書から単語の意味情報を推定するものである。
【0097】
ここで、図12は本実施の形態の意味情報推定装置1の機能ブロック図である。図12に示すように、CPU2がプログラムに基づいて動作することで、意味情報推定装置1には共起情報抽出部15及び意味情報推定部16が形成される。共起情報抽出手段を実現する共起情報抽出部15は、概略的には、入力装置11等を介して入力された文書に対して共起パタン辞書17(図13参照)を用いて、文書中から該当する表現を抽出するものである。共起パタン辞書17は、図13に示すように、文書中から抽出する共起表現の組(共起パタン)を記述したものである。図13に示す例では、表記や品詞によって共起表現が指定されている。一方、意味情報推定部16は、概略的には、共起情報抽出部15により抽出された該当する表現に対して、単語辞書13にその単語自体が未登録あるいは意味情報が未登録の場合に、単語とその単語の意味情報とを登録するものである。
【0098】
まず、共起情報抽出部15における処理について説明する。共起情報抽出部15は、入力文書中の所定の単語の後に単語辞書13に未登録の単語または名詞の連続が存在し、かつ、その後に助詞が存在する場合に、未登録の単語または連続する名詞に対し、その所定の単語を意味情報として付与するものである。つまり、図13に示す共起パタン辞書17の例においては、入力文書中の「パソコン」という単語の後の未登録の単語または連続する名詞(図13では下線部分:共起単語)に対して、意味情報として「パソコン」及び「メーカー」を付与したものである。なお、共起単語ごとにテーブル等を用いて別の意味情報を付与することも可能である。また、ここでは入力文書は形態素解析などで解析していても、解析していなくてもよい。形態素解析をしない場合は、単語辞書13によって品詞を特定する。
【0099】
次に、意味情報推定部16における処理について説明する。ここで、図14は本実施の形態の意味情報推定部16における意味情報推定処理の流れを示すフローチャートである。図14に示すように、意味情報推定部16の意味情報推定処理は、共起パタン辞書17の共起パタンを一つずつ順に入力文書と照合し(ステップS31:文書受付手段)、共起パタン中の所定の共起単語(図13では下線部分)が、単語辞書13中において未登録または意味情報が未登録の場合(ステップS32のY,ステップS33のY)、共起パタン辞書17の指示にしたがい意味情報を付与、あるいは共起パタン辞書17の記述を別表現に変換して付与する(ステップS34)。これらステップS32〜S34の処理は、すべての共起パタンについて行なわれる。
【0100】
上記の意味情報推定処理について具体例を用いて説明する。ここでは、例えば入力文書中に「大手メーカー○○電気がパソコンAシリーズを発売した」という表現があった場合について考える。
【0101】
まず、図13に示した共起パタン辞書17の共起パタンに基づき、前方に「パソコン」があり、後方に未登録の単語または連続する名詞(共起単語)があり、その後ろに助詞があるかどうかを調べる。ここでは、「パソコンAシリーズを」が該当する。次に、共起パタン辞書17に基づき、「Aシリーズ」を意味情報「パソコン」として抽出する。これを単語辞書13で検索し、未登録の場合には、図15に示すように単語辞書13に登録する。
【0102】
続いて、図13に示した共起パタン辞書17の共起パタンに基づき、前方に「メーカー」があり、後方に未登録の単語または連続する名詞(共起単語)があり、その後ろに助詞があるかどうかを調べる。ここでは、「メーカー○○電気が」が該当する。次に、共起パタン辞書17に基づき、「○○電気」を意味情報「メーカー」として抽出する。これを単語辞書13で検索し、未登録の場合には単語辞書13に「○○電気」を登録し、さらに意味情報として「メーカー」を登録する。
【0103】
ここに、文書に出現した共起情報を利用することで単語辞書13に未登録の単語とその意味情報とを自動的に獲得することができる。特に、語構成の情報を利用することで、より確実にその意味を獲得することができる。
【0104】
次に、本発明の第五の実施の形態を図16ないし図20に基づいて説明する。なお、前述した実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、第四の実施の形態で説明した意味情報推定装置1の共起情報抽出部15及び意味情報推定部16における処理の変形例である。
【0105】
本実施の形態の単語辞書13には、図16に示すように、単語とその単語の意味情報とが格納されている。
【0106】
次に、本実施の形態の共起情報抽出部15において用いられる共起パタン辞書17について説明する。本実施の形態の共起パタン辞書17は、図17に示すように、照合する共起パタンと共起パタン内の語の意味関係とを記述したものである。なお、共起パタン内の語の意味関係は、上位または下位の関係でもその他の関係でもよい。また、図17に示す例では、“( )”はその意味関係を持つ語を示し、“[ ]”は語の表記自体を指定している。ここで、“[X|Y]”は、XまたはYのどちらでも良いことを意味したものである。
【0107】
加えて、本実施の形態の共起パタン辞書17においては、図17に示すように、共起パタン内での階層あるいは関連付けをした記述を行なえるようになっている。図17に示す例では、「(A):(B)(C)」の場合には、「(B)」「(C)」の連鎖全体で意味「(A)」を表しうることを示している。なお、「(名称:名詞連続or未登録語)」は、名称を意味する表現が名詞の連続か未登録の単語によって構成されることを表しており、照合の際の一致の条件とされている。以上により、共起パタン内の表現のうち、複数単語が組み合わされてできる表現について、例えば単語内の内部的な構成単語の連鎖等の場合、これを分けて記述できるので、記述しやすくなる。図17に示す例では、共起パタンのうち「(商品)」で示された商品を意味する単語について、(製品)(名称:名詞連続or未登録語)といった組み合わせで表現されうることを示している。
【0108】
次に、意味情報推定部16における処理について説明する。ここで、図18は本実施の形態の意味情報推定部16における意味情報推定処理の流れを示すフローチャートである。図18に示すように、意味情報推定部16の意味情報推定処理は、入力文書中の表現を順に照合するものであって、入力文書中に共起パタン辞書17の共起パタンがあるかどうかを調べるものである。その際、入力文書中に意味関係を持つ語“( )”が有れば、“( )”による意味も含めた照合を行ない(ステップS42)、入力文書中に共起パタン辞書17の共起パタンがなければ(ステップS42のN)、ステップS43に進んで意味部分“( )”を除いた照合を行なう。
【0109】
入力文書中に共起パタン辞書17の共起パタンがある場合には(ステップS43のY)、ステップS44に進み、意味部分“( )”について共起パタン中の他の共起パタンで規定があるかどうかを調べる。そして、他の共起パタンで規定がある場合には、意味部分“( )”とその該当文字列とを他の共起パタンで照合する。
【0110】
意味部分“( )”とその該当文字列とを他の共起パタンで照合した場合には(ステップS44のY)、一致した共起パタンのうちもっとも未照合の少ない共起パタンを選択し(ステップS45)、未照合部分が“1”であれば(ステップS46のY)、未照合部分をその意味と認定し、一致した共起パタンと該当文字列(語)とを記憶する(ステップS47)。
【0111】
また、入力文書中に共起パタン辞書17の共起パタンが有る場合にも(ステップS42のY)、一致した共起パタンと該当文字列(語)とを記憶する(ステップS47)。
【0112】
一方、入力文書中に共起パタン辞書17の共起パタンがない場合(ステップS43のN)、意味部分“( )”とその該当文字列とを他の共起パタンで照合しない場合(ステップS44のN)、未照合部分が“1”でない場合には(ステップS46のY)、ステップS41に戻る。
【0113】
これらステップS42〜S47の処理は、入力文書中のすべての表現パタンについて行なわれる。
【0114】
入力文書中のすべての表現パタンについて処理が終わると(ステップS41のN)、一致した共起パタンと該当文字列(語)と意味とに基づき、対応する共起パタン辞書17の意味関係の記述を単語辞書13に書き加える(ステップS48)。
【0115】
上記の意味情報推定処理について具体例を用いて説明する。ここでは、例えば入力文書中に
「○○電気がパソコンAシリーズを発売した」
「○○電気がスパッタリング装置を開発した」
という表現があった場合について考える。
【0116】
まず、図17に示した共起パタン辞書17の共起パタンに基づき、「○○電気がパソコンAシリーズを発売した」についての照合を行なう。図17に示した共起パタン辞書17の先頭の共起パタン「(メーカー)が(商品)を発売」について、意味“( )”も含めた照合を行ない、次に意味“( )”以外の部分だけでの照合を行なう。ここでは、意味部分(メーカー)(商品)以外が一致することになる。
【0117】
意味“( )”が規定された部分は一致かどうか不明であるので、それぞれの意味について他の共起パタン辞書17に規定があるかどうか調べる。(商品)については、「(商品):(製品)(名称:名詞連続or未登録語)」という共起パタンが共起パタン辞書17にあり、該当部分の「パソコンAシリーズ」と照合する。図16に示した単語辞書13には「パソコン」が意味「製品」として登録されていることから、「(商品):(製品)(名称:名詞連続or未登録語)」という共起パタンが適用され、「パソコンAシリーズ」は(製品)(名称)として認識され、この部分全体を(商品)と確認することができる。つまり、共起パタン辞書17の先頭の共起パタン「(メーカー)が(商品)を発売」では、(商品)部分が一致することになる。
【0118】
一方、残る「(メーカー)」については、図16に示した単語辞書13に文字列の一致条件がない。この例では、共起パタン辞書17の先頭の共起パタン「(メーカー)が(商品)を発売」が最も良く照合され、かつ未照合部分が“1”であることから、共起パタン辞書17の先頭の共起パタン「(メーカー)が(商品)を発売」を照合したとみなし、未照合部分である「○○電気」を(メーカー)として推定し、単語辞書13には未登録である「○○電気」を意味「メーカー」、「Aシリーズ」を意味「名称」として認定し、照合した共起パタンとその単語とを記憶する。
【0119】
次に、「○○電気がスパッタリング装置を開発した」についての照合を行なう。図17に示した共起パタン辞書17の二番目の共起パタン「(メーカー)が(技術)を開発」について、意味“( )”も含めた照合を行ない、次に意味“( )”以外の部分だけでの照合を行なう。ここでは、意味部分(メーカー)(技術)以外が一致することになる。
【0120】
意味“( )”が規定された部分は一致かどうか不明であるので、それぞれの意味について他の共起パタン辞書17に規定があるかどうか調べる。(技術)については、「(技術):(技術)|(技術)[装置|システム]」という共起パタンが共起パタン辞書17にあり、該当部分の「スパッタリング装置」と照合する。「(技術):(技術)|(技術)[装置|システム]」という共起パタンが適用され、「スパッタリング装置」は(技術)[装置|システム]として認識され、この部分全体を(技術)と確認することができる。つまり、共起パタン辞書17の二番目の共起パタン「(メーカー)が(技術)を開発」では、(技術)部分が一致することになる。
【0121】
一方、残る「(メーカー)」については、図16に示した単語辞書13に文字列の一致条件がない。この例では、共起パタン辞書17の二番目の共起パタン「(メーカー)が(技術)を開発」が最も良く照合され、かつ未照合部分が“1”であることから、共起パタン辞書17の二番目の共起パタン「(メーカー)が(技術)を開発」を照合したとみなし、未照合部分である「○○電気」を(メーカー)として推定し、単語辞書13には未登録である「○○電気」を意味「メーカー」、「スパッタリング」を意味「技術」として認定し、照合した共起パタンとその単語とを記憶する。
【0122】
すべての共起パタンを照合した後、照合された共起パタンについて、単語辞書13中の語に意味情報が付与される。ここでは「○○電気」という語について意味「メーカー」、「Aシリーズ」という語について意味「名称」、「スパッタリング」という語について意味「技術」を図19に示すように単語辞書13に登録することができる。なお、意味関係については、目的に応じて関連付けの順番の変更(例えば、メーカーを図19中左側にする)が可能である。また、図20に示すように、単語辞書13自体に意味付与することも可能である。
【0123】
以上のように、共起パタンによって単語自体や単語の意味が未登録であっても、共起する表現によってそれらが推測でき、また意味同士が関連つけられているので、詳細な照合と、照合結果から詳細な意味情報を推定することができる。
【0124】
ここに、共起パタンを関連付け、あるいは階層的に記述することにより、パタン記述の労力を削減することができる。また、関連付けされることにより、未登録の語があっても関連する既知の情報をもとに意味情報を推定することができる。また、関連付けられた共起パタンによって、意味情報だけでなく、意味情報同士を関連付けすることができるので、より詳細な意味情報を推定することができる。
【0125】
【発明の効果】
請求項1,3,5記載の発明によれば、単語において共通する文字列は共通する概念を表す可能性が高いことから、これを利用することで簡単に意味を付与することができるので、人手や構文解析等の技術を用いずに単語辞書に登録された単語に対してその単語の意味情報を自動的に付与することができる。また、文書に出現した共起パタンを利用することで単語辞書に未登録の単語とその意味情報とを自動的に獲得することができる。また、共起パタンを関連付け、あるいは階層的に記述することにより、パタン記述の労力を削減することができる。また、関連付けされることにより、未登録の語があっても関連する既知の情報をもとに意味情報を推定することができる。更に、関連付けられた共起パタンによって、意味情報だけでなく、意味情報同士を関連付けすることが可能になるので、より詳細な意味情報を推定することが可能になる。
【0126】
請求項2,4,6記載の発明によれば、共通する文字列位置を制限することにより、より精度の高い意味推定を実現することができる。
【図面の簡単な説明】
【図1】本発明の第一の実施の形態の意味情報推定装置のハードウェア構成を概略的に示すブロック図である。
【図2】単語辞書の初期状態を示す説明図である。
【図3】意味情報推定装置の機能ブロック図である。
【図4】意味情報推定処理の流れを概略的に示すフローチャートである。
【図5】意味情報が付与された単語辞書を示す説明図である。
【図6】本発明の第二の実施の形態の意味情報推定装置における意味情報推定処理の流れを概略的に示すフローチャートである。
【図7】単語辞書の初期状態を示す説明図である。
【図8】意味情報が付与された単語辞書を示す説明図である。
【図9】本発明の第三の実施の形態の意味情報推定装置における意味情報推定処理の流れを概略的に示すフローチャートである。
【図10】単語辞書の初期状態を示す説明図である。
【図11】意味情報が付与された単語辞書を示す説明図である。
【図12】本発明の第四の実施の形態の意味情報推定装置の機能ブロック図である。
【図13】共起パタン辞書を示す説明図である。
【図14】意味情報推定処理の流れを概略的に示すフローチャートである。
【図15】意味情報が付与された単語辞書を示す説明図である。
【図16】本発明の第五の実施の形態の意味情報推定装置の単語辞書の初期状態を示す説明図である。
【図17】共起パタン辞書を示す説明図である。
【図18】意味情報推定処理の流れを概略的に示すフローチャートである。
【図19】意味情報が付与された単語辞書を示す説明図である。
【図20】意味情報が付与された単語辞書の別の一例を示す説明図である。
【符号の説明】
1 意味情報推定装置
7 記憶媒体
11 入力部
13 単語辞書
17 共起パタン辞書[0001]
BACKGROUND OF THE INVENTION
The present invention provides a semantic information estimation device, a semantic information estimation method,And programsAbout.
[0002]
[Prior art]
In a word dictionary used for so-called language processing, information on the meaning (classification) of words is registered in addition to information on notation, reading, and utilization of words. Thus, the meaning information of the words registered in the word dictionary is very effective at the time of document search processing and document classification processing.
[0003]
By the way, when searching for a predetermined document from a large-scale document database, a search using a keyword is common. In such a document search using keywords, in actuality, for example, in addition to a case where a search is performed using a specific keyword “Ox Electric” which is a manufacturer that manufactures and sells OA equipment, a concept higher than “Ox Electric” is used. There is a case where the search is performed by a keyword such as “OA device manufacturer”.
[0004]
However, in ordinary documents, although there is a proper noun such as “○ × Electricity” which is the company name, it is normal that the word representing the superordinate concept of “○ × Electricity” (“OA equipment manufacturer”) is not expressed. is there.
[0005]
Therefore, as one measure for solving such a problem, there is a method of giving semantic information such as a business type to which the company belongs to a proper noun such as a company name. However, the assignment of information related to meaning and knowledge to the word dictionary and the creation of the word dictionary require considerable labor, knowledge, and technology. For this reason, various methods have been considered for giving various information related to meaning and knowledge to the word dictionary.
[0006]
Japanese Patent Laid-Open No. 6-223109 discloses an efficient method for acquiring knowledge information by analyzing a natural language sentence and registering a database for a specific object.
[0007]
Japanese Patent Laid-Open No. 7-85071 discloses a method for extracting information including a relationship between words using syntax information in a fixed format as a method for estimating a word based on syntax information. According to the technique disclosed in Japanese Patent Laid-Open No. 7-85071, when extracting information including relations between words in a certain format using syntax information, the words of unregistered words and their meanings are estimated. Yes. For example, with respect to the expression “XX Electric has developed a sputtering device”, even if “XX Electric” is an unknown word, the method of recognizing as a device developer from the co-occurring expression “Developing the device” Has proposed.
[0008]
[Problems to be solved by the invention]
However, according to the technique disclosed in Japanese Patent Laid-Open No. 6-223109, it is assumed that a certain amount of semantic information is registered in advance in the word dictionary. That is, it is necessary to preliminarily define the meaning of the target area and the expression associated therewith, and this setting itself is very labor intensive.
[0009]
In addition, according to the technique disclosed in Japanese Patent Laid-Open No. 7-85071, information is obtained by performing detailed syntax analysis using syntax analysis rules. The analysis itself may be difficult if it is not registered or if there is no semantic information. Further, in this method, for example, a similar result can be obtained in a sentence “XX electricity has developed a communication device”, but detailed semantic information such as what device is developed is not known.
[0010]
An object of the present invention is to automatically assign semantic information of a word to a word registered in a word dictionary without using a technique such as manual operation or syntax analysis.
[0011]
An object of the present invention is to automatically acquire a word not registered in a word dictionary and its semantic information by using input document information.
[0012]
[Means for Solving the Problems]
The semantic information estimation apparatus according to
[0013]
Therefore, since it is highly likely that character strings that are common in words represent a common concept, it is possible to easily give meaning by using this. As a result, it becomes possible to automatically give semantic information of a word to a word registered in the word dictionary without using a technique such as manpower or syntax analysis.Further, by using the co-occurrence pattern appearing in the document, it becomes possible to automatically acquire a word not registered in the word dictionary and its semantic information. In addition, it is possible to reduce the labor of pattern description by associating or hierarchically describing the co-occurrence patterns. Further, by being associated, even if there is an unregistered word, it is possible to estimate semantic information based on related known information. Furthermore, since the associated co-occurrence patterns allow not only semantic information but also semantic information to be associated with each other, more detailed semantic information can be estimated.
[0014]
According to a second aspect of the present invention, in the semantic information estimation device according to the first aspect, the semantic estimation means includes:The common character string is searched from the last character string or the first character string of the notation of the word other than the one word..
[0015]
Therefore, by limiting the common character string positions, more accurate meaning estimation can be performed.
[0026]
Claim3The semantic information estimation method according to the invention is characterized in that the common character common to the character string constituting at least a part of the notation of one word stored in the word dictionary storage means in which the meaning estimation means stores a plurality of word expressions. When a string is searched from notations of words other than the one word and the common character string is searched for a predetermined number or more, the common character string is used as the meaning information of the notation word including the common character string. And a semantic information storage unit that stores the semantic information estimated in the semantic estimation step in the word dictionary storage unit in association with a word notation including the common character string.FirstSemantic information storage process;A document receiving unit that receives a document input from the input unit; and a co-occurrence information extracting unit that defines a relationship between co-occurring words from the documents received in the document receiving step. One co-occurrence pattern and semantic information of each word of the first co-occurrence pattern are stored in association with each other, and a hierarchical relationship or an association relationship between any one word of the first co-occurrence pattern and another word is defined. Each word satisfying the first co-occurrence pattern stored in the co-occurrence pattern dictionary storage means for storing the second co-occurrence pattern and the semantic information of the other words of the second co-occurrence pattern in association with each other A co-occurrence information extracting step for extracting the word, and the semantic information storage means further includes the notation of each word extracted by the co-occurrence information extraction step and the word stored in the co-occurrence pattern dictionary storage means. The semantic information of The word dictionary storage means associates and stores the hierarchical relationship or association relation between any one of the words extracted by the co-occurrence information extraction step and another word, and the co-occurrence pattern dictionary storage means. If the second co-occurrence pattern stored in is defined in the second co-occurrence pattern, the notation of the other word and the semantic information of the other word stored in the co-occurrence pattern dictionary storage means A second semantic information storage step of storing the word dictionary storage means in association with each other;Comprising.
[0027]
Therefore, since it is highly likely that character strings that are common in words represent a common concept, it is possible to easily give meaning by using this. As a result, it becomes possible to automatically give semantic information of a word to a word registered in the word dictionary without using a technique such as manpower or syntax analysis.Further, by using the co-occurrence pattern appearing in the document, it becomes possible to automatically acquire a word not registered in the word dictionary and its semantic information. In addition, it is possible to reduce the labor of pattern description by associating or hierarchically describing the co-occurrence patterns. Further, by being associated, even if there is an unregistered word, it is possible to estimate semantic information based on related known information. Furthermore, since the associated co-occurrence patterns allow not only semantic information but also semantic information to be associated with each other, more detailed semantic information can be estimated.
[0028]
Claim4The described invention is claimed.3In the semantic information estimation method described above, in the semantic estimation step, the semantic estimation means calculates the common character string from the last character string or the first character string of words other than the one word. Search for.
[0029]
Therefore, by limiting the common character string positions, more accurate meaning estimation can be performed.
[0040]
Claim5The program of the invention described is a program for causing a computer to estimate word semantic information, and the computer uses one word notation stored in word dictionary storage means for storing a plurality of word notations in the computer. When a common character string that is common to at least a part of the character string is searched from notations of words other than the one word, and the common character string is searched for a predetermined number or more, the common character string Is estimated as semantic information of a notation word including the common character string, and the semantic information estimated by the meaning estimation function is associated with the notation of the word including the common character string. Store in dictionary storageFirstSemantic information storage function,A document reception function for receiving a document input from the input unit; a first co-occurrence pattern that defines a relationship between co-occurring words from the documents received by the document reception function; and a first co-occurrence pattern The second co-occurrence pattern and the second co-occurrence pattern defining the hierarchical relationship or the association relationship between any word of the first co-occurrence pattern and other words while storing the semantic information of each word in association with each other A co-occurrence information extraction function for extracting each word satisfying the first co-occurrence pattern stored in the co-occurrence pattern dictionary storage means for storing the semantic information of the other words of the pattern in association with each other; The notation of each word extracted by the occurrence information extraction function and the semantic information of the word stored in the co-occurrence pattern dictionary storage unit are stored in the word dictionary storage unit in association with each other, and Co-occurrence information When the second co-occurrence pattern stored in the co-occurrence pattern dictionary storage unit defines a hierarchical relationship or an association relationship between any one of the words extracted by the output function and another word The second semantic information storage for storing the notation of the other word and the semantic information of the other word stored in the co-occurrence pattern dictionary storage means in association with each other in the word dictionary storage means Function andIs executed.
[0041]
Therefore, since it is highly likely that character strings that are common in words represent a common concept, it is possible to easily give meaning by using this. As a result, it becomes possible to automatically give semantic information of a word to a word registered in the word dictionary without using a technique such as manpower or syntax analysis.Further, by using the co-occurrence pattern appearing in the document, it becomes possible to automatically acquire a word not registered in the word dictionary and its semantic information. In addition, it is possible to reduce the labor of pattern description by associating or hierarchically describing the co-occurrence patterns. Further, by being associated, even if there is an unregistered word, it is possible to estimate semantic information based on related known information. Furthermore, since the associated co-occurrence patterns allow not only semantic information but also semantic information to be associated with each other, more detailed semantic information can be estimated.
[0042]
Claim6The described invention is claimed.5In the program described above, the meaning estimation function searches for the common character string from the last character string or the first character string in the notation of the word other than the one word.
[0043]
Therefore, by limiting the common character string positions, more accurate meaning estimation can be performed.
[0056]
DETAILED DESCRIPTION OF THE INVENTION
A first embodiment of the present invention will be described with reference to FIGS.
[0057]
FIG. 1 is a block diagram schematically showing a hardware configuration of the semantic
[0058]
Since the
[0059]
The HDD 6 stores a
[0060]
A CD-ROM 7 shown in FIG. 1 implements the storage medium of the present invention, and stores a predetermined program. The
[0061]
As the storage medium, not only the CD-ROM 7 but also various types of media such as semiconductor memory such as various optical disks such as DVD, various magnetic disks such as various magneto-optical disks and floppy disks, and the like can be used. Alternatively, the program may be downloaded from the network 9 such as the Internet via the communication control device 10 and installed in the HDD 6. In this case, the storage device storing the program in the server on the transmission side is also a storage medium of the present invention. Note that the program may operate on a predetermined OS (Operating System), in which case the OS may execute a part of various processes described later, or a word processor. It may be included as part of a group of program files that constitute predetermined application software such as software or an OS.
[0062]
Next, the contents of various processes executed by the
[0063]
Next, the flow of semantic information estimation processing in the semantic information estimation unit 14 of the present embodiment will be described with reference to FIG. As shown in FIG. 4, the semantic information estimation processing according to the present embodiment performs processing in step S2 when there is an unprocessed word among the words registered in the word dictionary 13 (Y in step S1). The word is compared with other words in the
[0064]
On the other hand, when there is no unprocessed word among the words registered in the
[0065]
The semantic information estimation process will be described using a specific example. Here, description will be given below assuming that each word in the
[0066]
First, “AA Trading” is processed. A common character string of “AA Trading” and other words in the
[0067]
“BBB Shoji” and “ZZZ Shoji” are also common to “Shosho” but are not counted up because they have already been counted.
[0068]
Next, “XY beer” is processed. A common character string of “XY beer” and other words in the
[0069]
The following “YYY beer” is also common to “beer”, but since it has already been counted, it does not count up.
[0070]
When all the words registered in the
[0071]
Here, FIG. 5 is an explanatory diagram showing an example of the
[0072]
Here, since there is a high possibility that character strings that are common in words represent common concepts, it is possible to easily give meaning by using this, so without using techniques such as manual labor and syntax analysis. The semantic information of the word can be automatically given to the word registered in the
[0073]
Next, a second embodiment of the present invention will be described with reference to FIGS. Note that the same parts as those of the above-described embodiment are denoted by the same reference numerals, and description thereof is omitted. This embodiment is a modification of the semantic information estimation process in the semantic information estimation unit 14 of the semantic
[0074]
The flow of the semantic information estimation process in the semantic information estimation unit 14 of the present embodiment will be described with reference to FIG. As shown in FIG. 6, the semantic information estimation processing of the present embodiment is performed in step S12 when there is an unprocessed word among the words registered in the word dictionary 13 (Y in step S11). Proceed, compare the word with another word in the
[0075]
On the other hand, when there is no unprocessed word among the words registered in the
[0076]
That is, the semantic information estimation process of the present embodiment is compared with the semantic information estimation process of the first embodiment to determine the position of the common character string in the word to be collated when determining whether or not it is a common character. The difference is that it is restricted to the end of the word or the beginning of the word.
[0077]
The semantic information estimation process will be described using a specific example. Here, description will be made below assuming that each word in the
[0078]
First, “(stock) XX” is processed. A common character string of “(stock) XX” and other words in the
[0079]
Next, “(stock) xx securities” is processed. A common character string of “(stock) XX securities” and other words in the
[0080]
Regarding “(AA) Securities”, “(stock)” and “securities” are common, but they are not counted up because they have already been counted.
[0081]
Next, “XY beer” is processed. A common character string of “XY beer” and other words in the
[0082]
As for “ZZZ beer”, “beer” is common, but it is not counted up because it has already been counted.
[0083]
When all the words registered in the
[0084]
Here, FIG. 8 is an explanatory diagram showing an example of the
[0085]
Here, by limiting the common character string positions, more accurate meaning estimation can be realized.
[0086]
Next, a third embodiment of the present invention will be described with reference to FIGS. Note that the same parts as those of the above-described embodiment are denoted by the same reference numerals, and description thereof is omitted. This embodiment is a modification of the semantic information estimation process in the semantic information estimation unit 14 of the semantic
[0087]
The flow of the semantic information estimation process in the semantic information estimation unit 14 of the present embodiment will be described with reference to FIG. As shown in FIG. 9, when there is a word whose semantic information is not registered in the word dictionary 13 (Y in step S21), the semantic information estimation process of the present embodiment proceeds to step S22, and the word is Character strings are compared with other words in the
[0088]
On the other hand, when the word whose semantic information is not registered disappears from the word dictionary 13 (N in Step S21), the process proceeds to Step S23, and the common character string whose count is a certain number or more, or the common character string is selected. The semantic information of the possessed word is assigned to the word in the
[0089]
The semantic information estimation process will be described using a specific example. Here, a description will be given below assuming that the words in the
[0090]
Since there is a word (“ZZZ Shoji” “XYZ Beer”) whose semantic information is not registered in the
[0091]
Next, “XYZ beer” is processed. A common character string of “XYZ beer” and other words in the
[0092]
After checking the common character string for the word whose semantic information in the
[0093]
Here, FIG. 11 is an explanatory diagram showing an example of the
[0094]
Here, semantic information can be automatically estimated from existing dictionary information for an unregistered word having no semantic information.
[0095]
In the present embodiment, the case where there is a word in the
[0096]
Next, a fourth embodiment of the present invention will be described with reference to FIGS. Note that the same parts as those of the above-described embodiment are denoted by the same reference numerals, and description thereof is omitted. This embodiment does not estimate the semantic information of words in the
[0097]
Here, FIG. 12 is a functional block diagram of the semantic
[0098]
First, the process in the co-occurrence
[0099]
Next, processing in the semantic
[0100]
The semantic information estimation process will be described using a specific example. Here, for example, consider a case where there is an expression “Large maker XX Electric has released PC A series” in the input document.
[0101]
First, based on the co-occurrence pattern of the
[0102]
Subsequently, based on the co-occurrence pattern of the
[0103]
Here, by using the co-occurrence information appearing in the document, it is possible to automatically acquire a word not registered in the
[0104]
Next, a fifth embodiment of the present invention will be described with reference to FIGS. Note that the same parts as those of the above-described embodiment are denoted by the same reference numerals, and description thereof is omitted. This embodiment is a modification of the processing in the co-occurrence
[0105]
In the
[0106]
Next, the
[0107]
In addition, in the
[0108]
Next, processing in the semantic
[0109]
If there is a co-occurrence pattern in the
[0110]
When the semantic part “()” and the corresponding character string are collated with other co-occurrence patterns (Y in step S44), the co-occurrence pattern with the least unmatched co-occurrence patterns is selected ( If the unmatched part is “1” (step S46: Y in step S46), the unmatched part is recognized as the meaning, and the matched co-occurrence pattern and the corresponding character string (word) are stored (step S47). ).
[0111]
Also, when the co-occurrence pattern of the
[0112]
On the other hand, when there is no co-occurrence pattern of the
[0113]
The processes in steps S42 to S47 are performed for all the expression patterns in the input document.
[0114]
When the processing is completed for all the expression patterns in the input document (N in step S41), the description of the semantic relationship of the corresponding
[0115]
The semantic information estimation process will be described using a specific example. Here, for example, in the input document
"XX Electric has released PC A series"
"XX Electric has developed a sputtering system"
Consider the case where there is an expression.
[0116]
First, based on the co-occurrence pattern of the
[0117]
Since it is unclear whether or not the portion in which the meaning “()” is defined is coincident, whether or not the other
[0118]
On the other hand, for the remaining “(maker)”, there is no character string matching condition in the
[0119]
Next, collation is performed on “XX Electric has developed a sputtering system”. The second co-occurrence pattern “(maker) develops (technology)” in the
[0120]
Since it is unclear whether or not the portion in which the meaning “()” is defined is coincident, whether or not the other
[0121]
On the other hand, for the remaining “(maker)”, there is no character string matching condition in the
[0122]
After all the co-occurrence patterns are collated, semantic information is given to the words in the
[0123]
As mentioned above, even if the word itself and the meaning of the word are not registered by the co-occurrence pattern, they can be guessed by the co-occurring expression and the meanings are related to each other. Detailed semantic information can be estimated from the results.
[0124]
Here, it is possible to reduce the labor of pattern description by associating or hierarchically describing the co-occurrence patterns. Further, by being associated, even if there is an unregistered word, it is possible to estimate semantic information based on related known information. Moreover, since not only the semantic information but also the semantic information can be associated with each other by the associated co-occurrence pattern, more detailed semantic information can be estimated.
[0125]
【The invention's effect】
[0126]
[Brief description of the drawings]
FIG. 1 is a block diagram schematically showing a hardware configuration of a semantic information estimation apparatus according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram showing an initial state of a word dictionary.
FIG. 3 is a functional block diagram of a semantic information estimation apparatus.
FIG. 4 is a flowchart schematically showing a flow of semantic information estimation processing.
FIG. 5 is an explanatory diagram showing a word dictionary to which semantic information is assigned.
FIG. 6 is a flowchart schematically showing a flow of semantic information estimation processing in the semantic information estimation apparatus according to the second embodiment of the present invention.
FIG. 7 is an explanatory diagram showing an initial state of a word dictionary.
FIG. 8 is an explanatory diagram showing a word dictionary to which semantic information is assigned.
FIG. 9 is a flowchart schematically showing a flow of semantic information estimation processing in the semantic information estimation apparatus according to the third embodiment of the present invention;
FIG. 10 is an explanatory diagram showing an initial state of a word dictionary.
FIG. 11 is an explanatory diagram showing a word dictionary to which semantic information is assigned.
FIG. 12 is a functional block diagram of a semantic information estimation apparatus according to a fourth embodiment of this invention.
FIG. 13 is an explanatory diagram showing a co-occurrence pattern dictionary.
FIG. 14 is a flowchart schematically showing a flow of semantic information estimation processing.
FIG. 15 is an explanatory diagram showing a word dictionary to which semantic information is assigned.
FIG. 16 is an explanatory diagram showing an initial state of a word dictionary of the semantic information estimation apparatus according to the fifth embodiment of the present invention.
FIG. 17 is an explanatory diagram showing a co-occurrence pattern dictionary.
FIG. 18 is a flowchart schematically showing a flow of semantic information estimation processing.
FIG. 19 is an explanatory diagram showing a word dictionary to which semantic information is assigned.
FIG. 20 is an explanatory diagram showing another example of a word dictionary to which semantic information is assigned.
[Explanation of symbols]
1 Semantic information estimation device
7 Storage media
11 Input section
13 word dictionary
17 Co-occurrence pattern dictionary
Claims (6)
前記単語辞書記憶手段に記憶されている1の単語の表記の少なくとも一部を構成する文字列と共通する共通文字列を、前記1の単語以外の単語の表記の中から検索し、前記共通文字列が所定数以上検索された場合に、前記共通文字列を、前記共通文字列を含む表記の単語の意味情報として推定する意味推定手段と、
前記意味推定手段により推定された前記意味情報を、前記共通文字列を含む単語の表記に対応付けて前記単語辞書記憶手段に記憶させる意味情報格納手段と、
共起する単語間の関係を規定した第1共起パタンと、当該第1共起パタンの各単語の意味情報とを、対応付けて記憶するとともに、前記第1共起パタンのいずれかの単語と他の単語との階層関係又は関連付け関係を規定した第2共起パタンと、当該第2共起パタンの前記他の単語の意味情報とを、対応付けて記憶する共起パタン辞書記憶手段と、
入力部から文書の入力を受付ける文書受付手段と、
前記文書受付手段により受付けられた前記文書の中から、前記共起パタン辞書記憶手段に記憶されている前記第1共起パタンを満足する各単語を抽出する共起情報抽出手段と、
を備え、
前記意味情報格納手段は、更に、前記共起情報抽出手段により抽出された前記各単語の表記と、前記共起パタン辞書記憶手段に記憶されている当該単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させるとともに、前記共起情報抽出手段により抽出された前記各単語のいずれかの単語と他の単語との階層関係又は関連付け関係が前記共起パタン辞書記憶手段に記憶されている前記第2共起パタンに規定されている場合には、前記他の単語の表記と、前記共起パタン辞書記憶手段に記憶されている前記他の単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させる意味情報推定装置。Word dictionary storage means for storing a plurality of word expressions;
A common character string common to a character string constituting at least a part of a notation of one word stored in the word dictionary storage unit is searched from notation of words other than the one word, and the common character Meaning estimating means for estimating the common character string as semantic information of a notation word including the common character string when a predetermined number or more of columns are searched,
Semantic information storage means for storing the semantic information estimated by the semantic estimation means in the word dictionary storage means in association with the notation of the word including the common character string;
The first co-occurrence pattern defining the relationship between co-occurring words and the semantic information of each word of the first co-occurrence pattern are stored in association with each other, and any word of the first co-occurrence pattern A co-occurrence pattern dictionary storage means for storing a second co-occurrence pattern that defines a hierarchical relationship or an association relationship between the second co-occurrence word and another word, and semantic information of the other word of the second co-occurrence pattern in association with each other ,
A document receiving means for receiving a document input from the input unit;
Co-occurrence information extracting means for extracting each word satisfying the first co-occurrence pattern stored in the co-occurrence pattern dictionary storage means from the documents received by the document receiving means;
With
The semantic information storage means further associates the notation of each word extracted by the co-occurrence information extraction means with the semantic information of the word stored in the co-occurrence pattern dictionary storage means. While being stored in the word dictionary storage unit, a hierarchical relationship or association relationship between any one of the words extracted by the co-occurrence information extraction unit and another word is stored in the co-occurrence pattern dictionary storage unit. If the second co-occurrence pattern is defined, the notation of the other word is associated with the semantic information of the other word stored in the co-occurrence pattern dictionary storage means. Semantic information estimation device stored in the word dictionary storage means .
意味情報格納手段が、前記意味推定工程により推定された前記意味情報を、前記共通文字列を含む単語の表記に対応付けて前記単語辞書記憶手段に記憶させる第1意味情報格納工程と、
文書受付手段が、入力部から文書の入力を受付ける文書受付工程と、
共起情報抽出手段が、前記文書受付工程により受付けられた前記文書の中から、共起する単語間の関係を規定した第1共起パタンと当該第1共起パタンの各単語の意味情報とを対応付けて記憶するとともに、前記第1共起パタンのいずれかの単語と他の単語との階層関係又は関連付け関係を規定した第2共起パタンと当該第2共起パタンの前記他の単語の意味情報とを対応付けて記憶する共起パタン辞書記憶手段に記憶されている前記第1共起パタンを満足する各単語を抽出する共起情報抽出工程と、
前記意味情報格納手段が、更に、前記共起情報抽出工程により抽出された前記各単語の表記と、前記共起パタン辞書記憶手段に記憶されている当該単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させるとともに、前記共起情報抽出工程により抽出された前記各単語のいずれかの単語と他の単語との階層関係又は関連付け関係が前記共起パタン辞書記憶手段に記憶されている前記第2共起パタンに規定されている場合には、前記他の単語の表記と、前記共起パタン辞書記憶手段に記憶されている前記他の単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させる第2意味情報格納工程と、
を含んでなる意味情報推定方法。A word other than the one word is a common character string common to a character string constituting at least a part of the notation of one word stored in a word dictionary storage means for storing a plurality of word expressions. When the common character string is searched for a predetermined number or more, the meaning estimation step of estimating the common character string as semantic information of a notation word including the common character string,
Semantic information storage means, said semantic information estimated by the meaning estimation step, a first semantic information storage step of storing in said word dictionary storage means in association with the representation of the word containing the common character string,
A document accepting step in which the document accepting means accepts an input of a document from the input unit;
A co-occurrence information extracting unit includes a first co-occurrence pattern that defines a relationship between co-occurring words from the documents received by the document receiving step, and semantic information of each word of the first co-occurrence pattern; Are stored in association with each other, and the second co-occurrence pattern defining the hierarchical relationship or the association relationship between any word of the first co-occurrence pattern and the other word and the other word of the second co-occurrence pattern A co-occurrence information extracting step of extracting each word satisfying the first co-occurrence pattern stored in the co-occurrence pattern dictionary storing means for storing the semantic information in association with each other;
The semantic information storage means further associates the notation of each word extracted by the co-occurrence information extraction step with the semantic information of the word stored in the co-occurrence pattern dictionary storage means. While being stored in the word dictionary storage means, a hierarchical relationship or association relationship between any one of the words extracted by the co-occurrence information extraction step and other words is stored in the co-occurrence pattern dictionary storage means. If the second co-occurrence pattern is defined, the notation of the other word is associated with the semantic information of the other word stored in the co-occurrence pattern dictionary storage means. A second semantic information storage step for storing in the word dictionary storage means,
A semantic information estimation method comprising:
単語の表記を複数記憶する単語辞書記憶手段に記憶されている1の単語の表記の少なくとも一部を構成する文字列と共通する共通文字列を、前記1の単語以外の単語の表記の中から検索し、前記共通文字列が所定数以上検索された場合に、前記共通文字列を、前記共通文字列を含む表記の単語の意味情報として推定する意味推定機能と、
前記意味推定機能により推定された前記意味情報を、前記共通文字列を含む単語の表記に対応付けて前記単語辞書記憶手段に記憶させる第1意味情報格納機能と、
入力部から文書の入力を受付ける文書受付機能と、
前記文書受付機能により受付けられた前記文書の中から、共起する単語間の関係を規定した第1共起パタンと当該第1共起パタンの各単語の意味情報とを対応付けて記憶するとともに、前記第1共起パタンのいずれかの単語と他の単語との階層関係又は関連付け関係を規定した第2共起パタンと当該第2共起パタンの前記他の単語の意味情報とを対応付けて記憶する共起パタン辞書記憶手段に記憶されている前記第1共起パタンを満足する各単語を抽出する共起情報抽出機能と、
前記共起情報抽出機能により抽出された前記各単語の表記と、前記共起パタン辞書記憶手段に記憶されている当該単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させるとともに、前記共起情報抽出機能により抽出された前記各単語のいずれかの単語と他の単語との階層関係又は関連付け関係が前記共起パタン辞書記憶手段に記憶されている前記第2共起パタンに規定されている場合には、前記他の単語の表記と、前記共起パタン辞書記憶手段に記憶されている前記他の単語の前記意味情報とを、対応付けて前記単語辞書記憶手段に記憶させる第2意味情報格納機能と、
を実行させるためのプログラム。A program for causing a computer to estimate word semantic information, wherein the computer
A common character string common to a character string constituting at least a part of one word notation stored in the word dictionary storage means for storing a plurality of word notations is selected from the word notations other than the one word. A semantic estimation function that searches and estimates the common character string as semantic information of a notation word including the common character string when the predetermined number or more of the common character strings are searched;
A first semantic information storage function for storing the semantic information estimated by the semantic estimation function in the word dictionary storage unit in association with a notation of a word including the common character string;
A document reception function for receiving input of a document from the input unit;
The first co-occurrence pattern defining the relationship between co-occurring words and the semantic information of each word of the first co-occurrence pattern are stored in association with each other from the documents received by the document receiving function. The second co-occurrence pattern defining the hierarchical relationship or the association relationship between any one word of the first co-occurrence pattern and another word is associated with the semantic information of the other word of the second co-occurrence pattern. A co-occurrence information extracting function for extracting each word satisfying the first co-occurrence pattern stored in the co-occurrence pattern dictionary storing means;
The notation of each word extracted by the co-occurrence information extraction function and the semantic information of the word stored in the co-occurrence pattern dictionary storage unit are stored in the word dictionary storage unit in association with each other. In the second co-occurrence pattern, a hierarchical relationship or association relationship between any one of the words extracted by the co-occurrence information extraction function and another word is stored in the co-occurrence pattern dictionary storage unit. If defined, the notation of the other word and the semantic information of the other word stored in the co-occurrence pattern dictionary storage unit are stored in the word dictionary storage unit in association with each other. A second semantic information storage function;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001131379A JP4468608B2 (en) | 2001-04-27 | 2001-04-27 | Semantic information estimation device, semantic information estimation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001131379A JP4468608B2 (en) | 2001-04-27 | 2001-04-27 | Semantic information estimation device, semantic information estimation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002328943A JP2002328943A (en) | 2002-11-15 |
JP4468608B2 true JP4468608B2 (en) | 2010-05-26 |
Family
ID=18979579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001131379A Expired - Fee Related JP4468608B2 (en) | 2001-04-27 | 2001-04-27 | Semantic information estimation device, semantic information estimation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4468608B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148939A (en) * | 2005-11-29 | 2007-06-14 | Kyocera Corp | Communication device and communication method |
JP5057525B2 (en) * | 2009-02-23 | 2012-10-24 | 日本電信電話株式会社 | Word vector generation device, word vector generation method, program, and recording medium |
CN112562849B (en) * | 2020-12-08 | 2023-11-17 | 中国科学技术大学 | Clinical automatic diagnosis method and system based on hierarchical structure and co-occurrence structure |
-
2001
- 2001-04-27 JP JP2001131379A patent/JP4468608B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002328943A (en) | 2002-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6098034A (en) | Method for standardizing phrasing in a document | |
JP3579204B2 (en) | Document summarizing apparatus and method | |
JP4654745B2 (en) | Question answering system, data retrieval method, and computer program | |
US7831608B2 (en) | Service identification in legacy source code using structured and unstructured analyses | |
US20090222395A1 (en) | Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction | |
JP2008152760A (en) | Machine-assisted translation tool | |
JP2004348591A (en) | Document search method and device thereof | |
CN109101551B (en) | Question-answer knowledge base construction method and device | |
KR20050058189A (en) | Learning and using generalized string patterns for information extraction | |
JP2006073012A (en) | System and method of managing information by answering question defined beforehand of number decided beforehand | |
US20050071365A1 (en) | Method for keyword correlation analysis | |
CN109376202A (en) | NLP-based enterprise supply relationship automatic extraction and analysis method | |
JP5204244B2 (en) | Apparatus and method for supporting detection of mistranslation | |
JP2020113129A (en) | Document evaluation device, document evaluation method, and program | |
US20090234852A1 (en) | Sub-linear approximate string match | |
JP5204203B2 (en) | Example translation system, example translation method, and example translation program | |
Gupta et al. | Designing and development of stemmer of Dogri using unsupervised learning | |
Bajestan et al. | DErivCELEX: Development and evaluation of a German derivational morphology lexicon based on CELEX | |
JP7103763B2 (en) | Information processing system and information processing method | |
JP4431759B2 (en) | Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program | |
JP4468608B2 (en) | Semantic information estimation device, semantic information estimation method, and program | |
JPH1145274A (en) | Extension method for key word using co-occurrence between words and computer readable recording medium recording program for making computer execute respective processes of the method | |
JP4361299B2 (en) | Evaluation expression extraction apparatus, program, and storage medium | |
JP2008225846A (en) | Word meaning tag application device and method, program, and recording medium | |
WO2015177861A1 (en) | Device and method for generating training data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040930 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090421 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100223 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100225 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140305 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |