JP4007661B2 - 自然言語統計データベース装置 - Google Patents

自然言語統計データベース装置 Download PDF

Info

Publication number
JP4007661B2
JP4007661B2 JP35065197A JP35065197A JP4007661B2 JP 4007661 B2 JP4007661 B2 JP 4007661B2 JP 35065197 A JP35065197 A JP 35065197A JP 35065197 A JP35065197 A JP 35065197A JP 4007661 B2 JP4007661 B2 JP 4007661B2
Authority
JP
Japan
Prior art keywords
sentence
gram data
gram
data
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35065197A
Other languages
English (en)
Other versions
JPH11184866A (ja
Inventor
篤司 池野
毅至 福居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP35065197A priority Critical patent/JP4007661B2/ja
Publication of JPH11184866A publication Critical patent/JPH11184866A/ja
Application granted granted Critical
Publication of JP4007661B2 publication Critical patent/JP4007661B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一連の文章から文字列に関する統計データ(N−gramデータ)を抽出して格納する自然言語統計データベース装置に関し、例えば、統計データを利用して文の形態素を自動的に解析する形態素解析装置が利用し得るものである。
【0002】
【従来の技術】
文献1『長尾眞、森信介著、「大規模日本語テキストのnグラム統計の作り方と語句の自動抽出」、情報処理学会研究報告自然言語処理96−1、1993年7月』
文献2『特開平7−271792号公報』
文献3『特願平9−68300号明細書及び図面(公開されていないが文献と呼ぶ)』
日本語文などの自然言語文を処理する自然言語処理装置(例えば、機械翻訳装置や質疑応答装置やコンピュータ援用の教育装置等)においては、自然言語文に対して、最初に形態素解析を行う。近年、形態素辞書を使用せず、その代わりに、形態素境界や各形態素の品詞情報を保持したタグ付きコーパス(大量のテキストデータ)から学習した統計データに基づく形態素解析装置が研究され始めている(例えば、上記文献2及び文献3)。
【0003】
このような統計データの一つに、N個の文字の順次でなる文字列の出現頻度を示すN−gram統計(場合によっては、N−gramデータと呼ぶ)があり、大量のテキストデータが与えられたときに、N−gramデータを計算する手法が研究されている(例えば、上記文献1)
上記文献1のN−gramデータの計算手法は、テキスト全体を一つの文字列と見なし、各文字を先頭としてテキスト最後尾の文字を末尾とする部分文字列を想定し、これをソートすることで、隣接する部分文字列の一致する文字数をカウントしたデータからN−gram統計を得るという方法であり、高速処理を意図したものである。
【0004】
【発明が解決しようとする課題】
しかしながら、上記文献1のN−gramデータの計算手法は、テキストの途中に存在する文頭や文末に対する考慮がなされておらず、文頭や文末に係るN−gramデータも他の位置のN−gramデータと同様に形成するものである。そのため、文頭や文末に係るN−gramデータの種類数が多くなり、文頭や文末に係るN−gramデータの各々の頻度が少なく、このようにして形成されたN−gramデータを形態素解析への統計モデルとして適用した場合には、形態素解析結果の精度を低くする。
【0005】
例えば、(1)「…した。今日…」と、(2)「…する。今日…」というテキストの3−gramデータを調べたときに、(1)のテキスト部分からは「た。今」が取り出され、(2)のテキスト部分からは「る。今」が取り出されるので、3−gramデータのテーブルでは全く別の見出しであることになってしまい、出現頻度が変わってくる。
【0006】
実際には、「今」は文頭から始まっているのであるから、前文の末尾とは文字列としてのつながりはないので、『(文頭)+今』という見出しが(1)のテキスト部分からも(2)のテキスト部分からも取り出されるのが好ましい。
【0007】
つまり、上記文献1のN−gramデータの計算手法では、計算を簡単にする手段としてテキスト全体を一つの文字列と見なしたときに、もともと文頭や文末であったことの情報が減じていることになる。
【0008】
また、上記文献1のN−gramデータの計算手法では、テキストが非常に大きいときはテキストを分割してソートし、最後にソート済み部分文字列を比較しながらデータをマージする方法を取っているが、N−gramデータだけが必要な場合(形態素解析への適用時など)、部分文字列データそのものをマージする方法には無駄が多いということができる。
【0009】
そのため、大量のテキストデータから精度の高いN−gramデータを効率良く抽出して格納する自然言語統計データベース装置が求められている。
【0010】
【課題を解決するための手段】
かかる課題を解決するため、本発明は、複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置において、(1)入力テキストファイルの先頭と末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加して上記N−gramデータ処理手段に与える特殊文字付加手段と、(2)テキストファイルを複数に分割する、上記特殊文字付加手段の前段又は後段に設けられたファイル分割手段と、(3)上記N−gramデータ処理手段によって得られた分割テキストファイル毎のN−gramデータを統合して上記N−gramデータ記憶手段に格納するデータ統合手段と、(4)入力テキストファイル中の文と文との切れ目を挟む所定文字数の文間文字列を分離する文間文字列分離手段と、(5)分離された文間文字列からN−gramデータを作成する文間N−gramデータ作成手段と、(6)この文間N−gramデータ作成手段によって作成されたN−gramデータを、上記データ統合手段によるN−gramデータに統合して上記N−gramデータ記憶手段に格納する第2のデータ統合手段とを有し、(7)上記N−gramデータ処理手段が分割したテキストファイル毎にN−gramデータを作成するものであり、(8)上記N−gramデータ記憶手段には、上記データ統合手段から出力された特殊文字を含む文頭、文末に係るN−gramデータと、上記文間N−gramデータ作成手段から出力された特殊文字を含まない文頭、文末に係るN−gramデータとが格納されることを特徴とする。
【0011】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による自然言語統計データベース装置の第1の実施形態を図面を参照しながら詳述する。
【0012】
この第1の実施形態の自然言語統計データベース装置は、大量のテキストデータからN−gramデータを抽出して格納するまでに特徴を有し、格納した後のN−gramデータの用途(例えば形態素解析)は問わないものであり、格納した後のN−gramデータの取り出し方法には特徴がないものである。
【0013】
(A−1)第1の実施形態の構成
第1の実施形態の自然言語統計データベース装置は、ワークステーションやパソコンなどの情報処理装置上で実現されるものであるが、機能的には、図1に示す機能ブロック図で表すことができる。
【0014】
図1において、第1の実施形態の自然言語統計データベース装置は、ファイル分割部1、特殊文字付加部2、文結合部3、N−gramデータ処理部4、データ統合部5及びN−gramデータテーブル6からなる。
【0015】
なお、以降の説明では、入力されるテキストは1行1文であるものとする。テキストファイルのフォーマットがそのようになっていない場合には、文区切り文字(句点など)が存在する位置を文の終りと見なして処理を行うものとする。ここで、処理に供するテキストファイルは、ハードディスク装置などの大容量の記憶装置に記憶されているものである。また、N−gramデータの文字数Nの値は、当該装置の起動時に指定されるようになされている。
【0016】
ファイル分割部1は、テキストファイルを受けとり、ファイルサイズが閾値サイズより大きい場合のみ適当なサイズに分割し、特殊文字付加部2に分割したテキストファイルを一つずつ送るものである。ファイル分割部1は、ファイルサイズが閾値サイズ以下の場合には、入力されたテキストファイルを特殊文字付加部2にそのまま送るものである。ファイル分割部1は、分割を行った場合には、分割したことと、分割した数の情報をデータ統合部5に送る。
【0017】
特殊文字付加部2は、ファイル分割部1から受け取ったテキストファイルを、各文に分離しながら各文の先頭に特殊文字を付加し、1文ずつ文結合部3に送るものである。付加する文字の数は、求めたいN−gramの文字数であるNから1引いた値である。また、特殊文字付加部2は、テキストファイルの最後の文には末尾にも特殊文字を付加する。付加する特殊文字としては、通常の文章で出現することがほとんど考えられない文字を適用する。例えば、文字「#」を適用する。
【0018】
文結合部3は、特殊文字付加部2から特殊文字を付加された文を受け取って最後の文がくるまで結合し、結合結果の文字列をN−gramデータ処理部4に送るものである。
【0019】
N−gramデータ処理部4は、例えば、上記文献1に記載されている手法によって、N−gramデータを求め、結果をデータ統合部5に送るものである。すなわち、結合結果の文字列(M文字とする)を構成する各文字を先頭として、テキスト最後尾の文字を末尾とする計M−N+1個の部分文字列を想定し、これらをソートし、隣接する部分文字列の先頭側のN文字が一致する文字数をカウントしたデータからN−gramデータを得る。
【0020】
N−gramデータの例(Nが3の場合)を図5に示す。N−gramデータは文字数Nの文字列を見出しとし、出現頻度を値に持つデータである。
【0021】
データ統合部5は、ファイル分割部1からファイル入力時に分割した旨の情報がきている場合には、N−gramデータ処理部4から送られてくるデータを分割されたファイル数だけ受け取って、見出しの一致するデータの出現頻度値を加算して一つのデータに統合してN−gramデータテーブル6に格納するものである。一方、データ統合部5は、ファイル分割部1からファイル入力時に分割した旨の情報が与えられていない場合には、N−gramデータ処理部4から送られてくるデータをそのままN−gramデータテーブル6に格納するものである。
【0022】
N−gramデータテーブル6は、図5に例示するように、N−gramデータを格納するものである。
【0023】
(A−2)第1の実施形態の動作
次に、ファイル分割部1からN−gramデータ処理部4までの動作を図2のフローチャートを参照しながら説明する。
【0024】
まず、対象となるテキストファイルのデータを分割するかどうかを判断する(ステップ201)。ファイル分割部1は、分割可否判断に供する予め定められている閾値サイズ(又は文字数)を保持しており、対象となるファイルサイズとこの閾値サイズとの比較により、分割の可否を判断する。
【0025】
対象となるファイルサイズが閾値サイズを超えた場合に分割を行う(ステップ202)。分割を行う場合、分割されたファイルサイズがほぼ均等になるように分割する。また、分割後の各ファイルのサイズが、上記閾値サイズを超えないように分割数を調節する。さらに、分割は行の途中で行わない。すなわち、文の途中で分割されることはない。
【0026】
ステップ202において分割した場合には、データ統合部5に対して分割数のデータを送付し、分割されたファイルの最初の部分(テキスト)を送付対象としてセットし、ステップ203に進む。分割が行われない場合にはそのままステップ203に進む。
【0027】
ステップ203において、実際に対象テキスト(分割されていない場合はファイル全体が対象テキストとなる)を特殊文字付加部2に送付する。
【0028】
次に、ステップ204において、テキストの各文を対象として特殊文字を付加し、結合して一つの文字列にする。この処理の詳細については後述する。
【0029】
その後、ステップ204において生成された文字列を用いて、N−gramデータをカウントし、結果をデータ統合部5に送付する(ステップ205)。N−gramデータのカウントにあたっては、上記文献1に記載されている手法を用いるものとするので、ここでの説明は省略する。
【0030】
そして、入力テキストファイルが分割されていて、次のテキストがまだ存在しているかどうかをチェックする(ステップ206)。次のテキストが残っていた場合には、ステップ207で次のテキストを対象テキストにセットし、上述したステップ203に戻る。次のテキストがもうない(今処理をしたテキストが最後であった)場合には、一連の処理を終了する。
【0031】
以下、ステップ204の動作の詳細について図3のフローチャートを参照しながら説明する。すなわち、特殊文字付加部2と文結合部3の動作について説明する。
【0032】
まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。
【0033】
次に、対象文の文頭にN−1個の特殊文字を付加し、文字列メモリの末尾に追加する(ステップ302)。上述したように、Nの値はシステム起動時に指定されるものとする。
【0034】
その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。最後の文ではなかった場合には、次の文を対象にセットして(ステップ305)、上述したステップ302に戻る。一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、一連の処理を終了する。これによってテキストの一番末尾も正しくN−gramデータがとれるようになる。
【0035】
ステップ302に移行したときの対象文を「今日は…」とし、特殊文字を「#」、N=3とすると、処理結果は「##今日は…」となる。文を結合して一つの文字列にしてしまっても、このようにすることによって、文頭から「今日は…」で始まるような文からは、全て「##今」の3−gramデータが得られることになる。また、文は結合されていくので、前文の文末に次の文の先頭のN−1個の特殊文字が連結することになり、結果的に各文の文末にも特殊文字を付加したことになる。
【0036】
次に、データ統合部5の動作について、図4のフローチャートを参照しながら説明する。
【0037】
まず、入力テキストファイルが分割されたかどうかの情報が、ファイル分割部1から送られてきているかどうかを確認する(ステップ401)。
【0038】
分割されたという情報がきていなければ、入力ファイルは分割されておらずデータを統合する必要はないので、N−gramデータを受け付けたら(ステップ406)、ステップ405で、当該データをそのままN−gramデータテーブル6に出力格納して処理を終了する。
【0039】
これに対して、分割されたという情報がきていれば、N−gramデータを受け付け(ステップ402)、その各見出しに対して、既に保持しているN−gramデータの見出しに同じものがあれば、既存データの頻度値に、新規データの頻度値を加算し、既に保持しているN−gramデータの見出しに同じものがなければ、見出しと値のペアを追加する(ステップ403)。
【0040】
次に、ファイル分割部1から受け取った分割数の情報と同一回数、N−gramデータを受け付けたかどうか(つまり入力ファイル全体の処理結果を受け取ったかどうか)を確認する(ステップ404)。
【0041】
分割数の分だけ受け取った場合には、統合されたN−gramデータをN−gramデータテーブル6に出力格納して処理を終了する(ステップ405)。一方、まだ分割数まで受け取っていない場合には、上述したステップ402に戻ってデータを受け付ける。
【0042】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、多数の文を有するテキストファイル(文字列)をからN−gramデータを求めるにつき、各文に文頭又は文末に係る特殊文字を付加した後に、各文を結合し直した後に、N−gramデータを求めるようにしたので、文末、文頭近傍のN文字のカウントが正しく行うことができ、精度の高い統計データ(N−gramデータ)を得ることができる。
【0043】
また、第1の実施形態によれば、分割されたテキストファイルのそれぞれから求めた複数のN−gramデータを受け取り、同一見出しのデータの値を加算し、それ以外のものはテーブルに追加するようにしたので、文字列をソートしたものを統合するより速くN−gramデータが得ることができ、統計データを効率良く得ることができる。
【0044】
(A−4)第1の実施形態の変形実施形態
上記第1の実施形態では、ファイル分割部1による処理の後で、テキストファイルに対して文区切り処理するものを示したが、ファイル分割部1による処理の前に入力テキストファイルに対して文区切り処理する形態であっても良い。
【0045】
また、特殊文字付加部2、文結合部3、N−gramデータ処理部4の全て、あるいはN−gramデータ処理部4のみを、複数設けて、分割されたテキストの各々を同時に並行処理する形態であっても良い。
【0046】
さらに、第1の実施形態では、特殊文字を付加された文字列の結合を、文字列メモリを利用して行うものを示したが、実際にはポインタによって位置を指す方法で実現しても良い。
【0047】
また、第1の実施形態では、N−gramデータが見出しと頻度でなるものを示したが、頻度を確率情報に変換したものであっても良い。一般には、N−gramデータの場合、先頭のN−1文字が同じ複数の見出しの確率の総和が1になるように確率情報化される。
【0048】
さらに、第1の実施形態では、N−gramデータテーブル6に、起動時に指定されたNに係るN−gramデータに格納するものであったが、様々なNの値に対するデータを全て一つのテーブルとして保持するようにしても良い。
【0049】
(B)第2の実施形態
以下、本発明による自然言語統計データベース装置の第2の実施形態を図面を参照しながら詳述する。
【0050】
この第2の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、格納した後のN−gramデータの取り出し方法にも特徴を有するものである。
【0051】
(B−1)第2の実施形態の構成
図6は、第2の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、図1との同一、対応部分には同一符号を付して示している。
【0052】
図6において、第2の実施形態の自然言語統計データベース装置は、第1の実施形態と同様なファイル分割部1、特殊文字付加部2、文結合部3、N−gramデータ処理部4、データ統合部5及びN−gramデータテーブル6に加えて、特殊文字変換部7を有する。
【0053】
ファイル分割部1、特殊文字付加部2、文結合部3、N−gramデータ処理部4、データ統合部5及びN−gramデータテーブル6は、第1の実施形態と同じであるので、その説明は省略する。
【0054】
特殊文字変換部7は、例えば形態素解析装置などのN−gramデータを適用する応用装置から、ある見出しに対するデータの参照要求があったとき、文頭、文末などの指定があれば、当該装置の特殊文字に合わせて要求された見出しを変換して、N−gramデータテーブル6内のデータとマッチングをとり、その頻度値を、応用装置に返すものである。
【0055】
(B−2)第2の実施形態の動作
動作上、第2の実施形態が第1の実施形態と異なるのは特殊文字変換部7の動作だけであるので、以下では、特殊文字変換部7の動作を図7のフローチャートを参照しながら説明する。
【0056】
まず、応用装置からデータ参照要求を受け付け(ステップ701)、要求された見出しの中に、「文頭」又は「文末」の指定があるかどうかをチェックする(ステップ702)。
【0057】
指定がない場合は、ステップ704で、N−gramデータテーブル6から、見出しのマッチするものの頻度値を取得し(ステップ704)、応用装置に値を送って(ステップ705)、一連の処理を終了する。
【0058】
一方、指定があった場合、そのままではN−gramデータテーブル6の見出しとマッチしないので、「文頭」、「文末」の指定を特殊文字に変換する(ステップ703)。その後、ステップ704で、N−gramデータテーブル6から、見出しのマッチするものの頻度値を取得し(ステップ704)、応用装置に値を送って(ステップ705)、一連の処理を終了する。
【0059】
ここで、ステップ703の変換時に生成される特殊文字の数は、以下の式で決定される。
【0060】
生成特殊文字数=N−(「文頭」、「文末」以外の指定文字数)
例えば、N=3で、要求が『文頭+「今」』に対するものであった場合、「文頭」、「文末」以外の指定文字数は1なので、生成される特殊文字の数は2になる。よって2個の特殊文字が「今」の前に付加されることになる。特殊文字が「#」であったとすると、要求見出しは、『##今』に変換される。
【0061】
(B−3)第2の実施形態の効果
第2の実施形態によっても、第1の実施形態と同様な効果を奏することができる。さらに、第2の実施形態によれば、応用装置からのデータ参照要求の見出しの中の「文頭」、「文末」指定を、データテーブル6に合わせた特殊文字に変換するようにしたので、応用装置は特殊文字の種類を意識しなくて良く、当該自然言語統計データベース装置の応用性が高くなる。
【0062】
(B−4)第2の実施形態の変形実施形態
上記第1の実施形態についての変形実施形態は、第2の実施形態の変形実施形態ともなり得る。
【0063】
なお、N−gramデータテーブル6が様々なNについてのN−gramデータを格納しているものである場合、応用装置から「文頭」、「文末」について、何文字の特殊文字を生成すればよいかが、知らされるようにすれば良い。
【0064】
上記第2の実施形態では、「文頭」、「文末」という符号が応用装置から与えられるものを示したが、当該自然言語統計データベース装置とは異なる特殊文字で「文頭」、「文末」を表す見出しが与えられるものであっても良い。この場合、その特殊文字を、当該自然言語統計データベース装置での特殊文字に変換してデータテーブル6を参照するようにすれば良く、変換文字数を考慮する処理は不要となる。
【0065】
(C)第3の実施形態
以下、本発明による自然言語統計データベース装置の第3の実施形態を図面を参照しながら詳述する。
【0066】
第3の実施形態の自然言語統計データベース装置も、機能ブロック図で表すと、第1の実施形態に係る図1で表すことができる。
【0067】
しかし、第3の実施形態の自然言語統計データベース装置は、特殊文字付加部2及び文結合部3の機能が第1の実施形態のものと多少異なっている。
【0068】
すなわち、第3の実施形態の特殊文字付加部2及び文結合部3はそれぞれ、基本的には、文頭又は文末に特殊文字を付加する機能、特殊文字を付加された文を結合する機能を担うものであるが、この第3の実施形態の場合、括弧種類は問わないが、文の途中に表れる開き括弧の直後にも特殊文字を付加し、そのような開き括弧の直後に付加された特殊文字をも有する文を結合する機能をも担っている。
【0069】
この第3の実施形態は、開き括弧の直後の文字部分は、文頭と同様に取り扱って良いという点に鑑みてなされている。
【0070】
上述から明らかなように、第3の実施形態の自然言語統計データベース装置は、動作上も、特殊文字付加部2及び文結合部3による特殊文字の付加及び文結合動作(図2のステップ204参照)が第1の実施形態とは異なっている。
【0071】
そこで、以下では、第3の実施形態の特殊文字付加部2及び文結合部3の動作を、図8のフローチャートを参照しながら説明する。なお、図8は、第1の実施形態に係る図3に置き換えられるものであり、図3との同一、対応ステップには同一符号を付して示している。
【0072】
まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。
【0073】
次に、対象文の文頭にN−1個の特殊文字を付加した後(ステップ801)、これから文字列メモリに格納しようとする文字列部分の中に開き括弧があるか否かを確認する(ステップ802)。開き括弧がある場合には、開き括弧までを文字列メモリの末尾に追加し(ステップ803)、上述したステップ801に戻る。このときのステップ801においては、開き括弧の直後に特殊文字が付加されることになる。
【0074】
このようなステップ801〜803でなる処理ループは、処理対象の文に含まれている開き括弧の個数に応じて繰り返され、開き括弧の直後に特殊文字が付加される。
【0075】
処理対象の文に1個も開き括弧がない場合や、ステップ801〜803でなる処理ループを繰り返したことにより、これから文字列メモリに格納しようとする文字列部分の中に開き括弧がなくなった場合には、ステップ802で否定結果が得られ、この場合には、処理対象の文の未だ文字列メモリに格納されていない文字列を文字列メモリの末尾に追加する(ステップ804)。
【0076】
その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。最後の文ではなかった場合には、次の文を対象にセットして(ステップ305)、上述したステップ801に戻る。一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、一連の処理を終了する。
【0077】
この第3の実施形態においても、第1の実施形態と同様な効果を奏することができる。これに加えて、文頭と同様に取り扱うことができる開き括弧の直後にも、特殊文字を付加してN−gramデータを作成するようにしたので、データ精度の一段の向上を期待できる。
【0078】
なお、この第3の実施形態についても、第1の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。
【0079】
また、この第3の実施形態の特徴的な技術思想(開き括弧直後に特殊文字を挿入する)と、第2の実施形態の特徴的な技術思想(応用装置は「文頭」、「文末」などという形で見出しを指定できる)とを組み合わせることもできる。
【0080】
(D)第4の実施形態
以下、本発明による自然言語統計データベース装置の第4の実施形態を図面を参照しながら簡単に説明する。
【0081】
図9は、第4の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。
【0082】
図9及び図1の比較から明らかなように、この第4の実施形態は、第1の実施形態の構成に加えて、特殊文字指定部12を有するものであり、この特殊文字指定部12以外の構成要素は第1の実施形態と同様に機能するものである(正確に言えば、特殊文字付加部2も多少異なる)。
【0083】
特殊文字指定部12は、外部から、特殊文字付加部2が付加動作する特殊文字の種類を取り込み、それを特殊文字付加部2に指定するものである。外部がユーザである場合には、例えば、複数の特殊文字候補をメニュー表示させてその中から選択させることで指定を受け付けたり、コード番号の入力などで特殊文字を受け付けたりする。また、外部が、N−gramデータテーブル6を利用する応用装置である場合には、例えば、コード番号として受け付けたりする。
【0084】
この第4の実施形態の特殊文字付加部2は、文頭や文末などに、特殊文字指定部12が指定した文字種の特殊文字を付加する。
【0085】
この第4の実施形態においても、第1の実施形態と同様な効果を奏することができる。これに加えて、特殊文字の文字種を指定できるので、各種の応用装置に対応し易いという効果をも奏する。
【0086】
なお、この第4の実施形態についても、第1〜第3の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。
【0087】
(E)第5の実施形態
以下、本発明による自然言語統計データベース装置の第5の実施形態を図面を参照しながら詳述する。
【0088】
この第5の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、相前後する文にまたがる文字列のN−gramデータも作成可能としたという特徴を有するものである。
【0089】
(E−1)第5の実施形態の構成
図10は、第5の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。
【0090】
図10及び図1の比較から明らかなように、この第5の実施形態は、第1の実施形態の構成に加えて、文間N−gramカウント部8を有するものであり、この文間N−gramカウント部8以外の構成要素は第1の実施形態と同様に機能するものである(正確に言えば、特殊文字付加部2及びデータ統合部5も多少異なる)。
【0091】
この第5の実施形態の特殊文字付加部2も、基本的には、文頭又は文末に特殊文字を付加する機能を有するものであるが、さらに、相前後する文にまたがる文字列、言い換えると、前の文の文末の所定文字数(N−1文字)でなる文字列と、その次の文の文頭の所定文字数(N−1文字)でなる文字列とを文間N−gramカウント部8に与える機能をも担っているものである。
【0092】
文間N−gramカウント部8は、特殊文字付加部2から与えられた相前後する文にまたがる文字列から、N−gramデータ(頻度情報を含む)を作成するものである。この文間N−gramカウント部8によるN−gramデータの作成は、対象とする文字列が短いので、上記文献1に記載の手法による必要はなく、例えば、文字列からN文字部分の切り出し、同一見出しのカウント方法を適用すれば良い。
【0093】
この第5の実施形態のデータ統合部5は、N−gramデータ処理部4からの分割ファイル間のN−gramデータの統合だけでなく、文間N−gramカウント部8からのN−gramデータの統合も行い、統合後のN−gramデータをN−gramデータテーブル6に格納するものである。
【0094】
(E−2)第5の実施形態の動作
上述のように、第5の実施形態は、相前後する文にまたがる文字列のN−gramデータも作成可能としたことに特徴を有するものであり、この特徴との関係で、特殊文字付加部2(及び文結合部3)の動作、及び、データ統合部5の動作が第1の実施形態とは異なっている。
【0095】
ここで、データ統合部5の動作はデータを統合するだけであるので、その説明は省略し、以下では、特殊文字付加部2(及び文結合部3)の動作と、第1の実施形態では存在していない文間N−gramカウント部8の動作を順に説明する。
【0096】
まず、第5の実施形態における特殊文字付加部2及び文結合部3による特殊文字の付加及び文結合動作(図2のステップ204参照)を、図11のフローチャートを参照しながら説明する。
【0097】
まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。
【0098】
次に、対象文の文頭にN−1個の特殊文字を付加し、文字列メモリの末尾に追加する(ステップ302)。その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。
【0099】
最後の文でなかった場合には、文末のN−1文字をコピーして文間N−gramカウント部8に送付した後(ステップ1101)、次の文を対象にセットし(ステップ305)、さらに、セットした文の文頭のN−1文字をコピーして文間N−gramカウント部8に送付して上述したステップ302に戻る(ステップ1102)。
【0100】
一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、文間N−gramカウント部8にテキスト最後であることを通知して(ステップ1103)、一連の処理を終了する。
【0101】
次に、文間N−gramカウント部8の動作を、図12のフローチャートを参照しながら説明する。
【0102】
まず、特殊文字付加部2から、テキスト最後の通知が与えられたか否かを判定する(ステップ1201)。
【0103】
テキスト最後の通知が与えられていなければ、特殊文字付加部2から、文末のN−1文字と文頭のN−1文字とを受け取り(ステップ1202)、これらの2種類の文字列を結合した後、結合文字列からN文字の部分文字列を、その先頭側から1文字ずつずらしながら切り出し(N−1組の文字列が切り出される)、切り出した文字列(N−gram;見出し)をそれぞれカウントする(ステップ1203)。その後、各見出しに対して、既に内部保持しているN−gramデータの見出しに同じものがあれば、既存データの頻度値に、新規データの頻度値を加算し、既に保持しているN−gramデータの見出しに同じものがなければ、見出しと頻度値のペアを追加する(ステップ1204)。そして、上述したステップ1201に戻る。
【0104】
ステップ1201の判定において、特殊文字付加部2から、テキスト最後の通知が与えられたという結果を得ると、内部保持しているN−gramデータをデータ統合部5に送付して一連の動作を終了する。
【0105】
(E−3)第5の実施形態の効果
この第5の実施形態においても、第1の実施形態と同様な効果を奏することができる。これに加えて、入力テキストファイルにおける文間においては、特殊文字を含む文頭や文末用のN−gramデータだけでなく、特殊文字を含まない文末から文頭に至るN−gramデータも作成することができ、多様なN−gramデータも作成、格納することができる。その結果、応用装置の自由度を高めることができる。
【0106】
(E−4)第5の実施形態の変形実施形態
なお、この第5の実施形態についても、第1〜第4の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。
【0107】
また、第2〜第4の実施形態の特徴とこの第5の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。
【0108】
(F)第6の実施形態
以下、本発明による自然言語統計データベース装置の第6の実施形態を図面を参照しながら詳述する。
【0109】
この第6の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、括弧内文字列を除去してからN−gramデータを作成可能としたという特徴を有するものである。
【0110】
(F−1)第6の実施形態の構成
図13は、第6の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。
【0111】
図13及び図1の比較から明らかなように、この第6の実施形態は、第1の実施形態の構成に加えて、括弧内文字列除去部9をファイル分割部1及び特殊文字付加部2間に有するものであり、この括弧内文字列除去部9以外の構成要素は第1の実施形態と同様に機能するものである。
【0112】
括弧内文字列除去部9は、ファイル分割部1からのテキストファイルの各文に、1組の括弧(開き括弧及び閉じ括弧)で挟まれた文字列があった場合に、その文字列を除去するものである。
【0113】
括弧の前の文字列又は括弧の後の文字列は、括弧内の文字列とは意味などが関連する単語や句の関係にはあるが、括弧の前後の文字の出現の関連性は明確に存在するとは言い難い。そこで、この第6の実施形態では、N−gramデータの作成には括弧及び括弧内の文字列は使用しないこととし、括弧内文字列除去部9を設けたものである。
【0114】
(F−2)第6の実施形態の動作
以下、この第6の実施形態で新たに設けられた括弧内文字列除去部9の動作を説明する。
【0115】
なお、この第6の実施形態の場合、括弧内文字列除去部9、特殊文字付加部2及び文結合部3は、融合した形で形成されているので、括弧内文字列除去部9、特殊文字付加部2及び文結合部3の動作を、図14のフローチャートを参照しながら説明する。また、図14は、括弧内にさらに括弧がある入れ子構造は存在しないことを前提としている。さらに、図14は、第1の実施形態に係る図3に置き換えられるものであり、図3との同一、対応ステップには同一符号を付して示している。
【0116】
まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。
【0117】
次に、対象文の文頭にN−1個の特殊文字を付加した後(ステップ1401)、これから文字列メモリに格納しようとする文字列部分の中に開き括弧があるか否かを確認する(ステップ1402)。開き括弧がある場合には、開き括弧直前までの文字列を文字列メモリの末尾に追加し(ステップ1403)、これ以降の文字列に閉じ括弧があるか否かを確認する(ステップ1404)。閉じ括弧があれば、開き括弧から閉じ括弧の間を読み飛ばして(ステップ1405)上述したステップ1402に戻る。
【0118】
上述したステップ1402において、開き括弧が存在しないという結果を得た場合や、上述したステップ1404において、閉じ括弧が存在しないという結果を得た場合には、処理対象の文の未だ文字列メモリに格納されていない文字列(読み飛ばされたものを除く)を文字列メモリの末尾に追加する(ステップ1406)。
【0119】
その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。最後の文ではなかった場合には、次の文を処理対象にセットして(ステップ305)、上述したステップ1401に戻る。一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、一連の処理を終了する。
【0120】
(F−3)第6の実施形態の効果
この第6の実施形態によっても、第1の実施形態と同様な効果を奏することができる。これに加えて、入力テキストファイルにおける括弧の影響を除いたN−gramデータも作成することができるという効果を奏する。
【0121】
(F−4)第6の実施形態の変形実施形態
なお、この第6の実施形態についても、第1、第2、第4、第5の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。
【0122】
また、第1、第2、第4、第5の実施形態の特徴とこの第6の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。
【0123】
(G)第7の実施形態
以下、本発明による自然言語統計データベース装置の第7の実施形態を図面を参照しながら簡単に説明する。
【0124】
図15は、第7の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図13との同一、対応部分には同一符号を付して示している。
【0125】
図15及び図13の比較から明らかなように、この第7の実施形態は、第6の実施形態の構成に加えて、括弧内N−gramカウント部10を有するものであり、この括弧内N−gramカウント部10と、括弧内文字列除去部9以外の構成要素は第1の実施形態と同様に機能するものである。
【0126】
第7の実施形態の括弧内文字列除去部9は、1文に含まれている1組の括弧で挟まれた文字列(括弧を含む)を除去して特殊文字付加部2に与えると共に、除去した文字列のうち、括弧を除いた文字列を括弧内N−gramカウント部10に与えるものである。
【0127】
括弧内N−gramカウント部10は、括弧内文字列除去部9から与えられた文字列に対して、第5の実施形態の文間N−gramカウント部8と同様にして、N−gramデータを作成してデータ統合部5に与えるものである。
【0128】
図16は、この第7の実施形態における括弧内文字列除去部9、特殊文字付加部2及び文結合部3の動作を示すフローチャートであり、上述した第6の実施形態に係る図14のフローチャートとの同一ステップには同一符号を付して示している。
【0129】
図14と異なる点は、ステップ1405の処理に代えて、ステップ1601の処理を実行している点であり、その他は、図14と同一である。ステップ1601の処理は、開き括弧から閉じ括弧の間を読み飛ばしながら、括弧以外の文字列を括弧内N−gramカウント部10に送付処理である。すなわち、第6の実施形態では、1組の括弧内の文字列を単に除去するものであったが、この第7の実施形態は、括弧内N−gramカウント部10に除去した文字列を送付し、これにより、括弧内文字列に対するN−gramデータの作成を実行できるようにしている。
【0130】
この第7の実施形態によっても、第1の実施形態と同様な効果を奏することができる。これに加えて、入力テキストファイルにおける括弧の影響を除いたN−gramデータを作成することができ、しかも、括弧内文字列を1文と見なして得たN−gramデータも作成することができる。
【0131】
なお、この第7の実施形態についても、第1〜第5の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。
【0132】
また、第1〜第5の実施形態の特徴とこの第7の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。
【0133】
(H)第8の実施形態
以下、本発明による自然言語統計データベース装置の第8の実施形態を図面を参照しながら詳述する。
【0134】
この第8の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、文区切りに係るN−gramデータの中から、文区切り面から妥当でないものを検出して文区切り記号の前の文字列をユーザに提示するという特徴を有するものである。
【0135】
(H−1)第8の実施形態の構成
図17は、第8の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。
【0136】
図17及び図1の比較から明らかなように、この第8の実施形態は、第1の実施形態の構成に加えて、文区切り妥当性判定部11を有するものであり、この文区切り妥当性判定部11以外の構成要素は第1の実施形態と同様に機能するものである。なお、この第8の実施形態の場合、データ統合部5は、N−gramデータテーブル6に対するN−gramデータの格納が完了したときに、文区切り妥当性判定部11の処理を起動するようになされている。
【0137】
文区切り妥当性判定部11は、N−gramデータテーブル6に格納されているN−gramデータの中から文区切りに係るN−gramデータを検出し、さらに、その中から、文区切り面から妥当でないものを検出して文区切り記号の前の文字列をユーザに提示するものである。
【0138】
図示はしていないが、N−gramデータテーブル6に対する編集手段を設ければ、ユーザは提示された文字列を確認し、必要ならば、その文字列に係るN−gramデータを削除することができる。一般に、データテーブルに対する編集手段は各種のものが適用されており、そのような編集手段をN−gramデータテーブル6に対する編集手段として適用すれば良い。
【0139】
(H−2)第8の実施形態の動作
文区切り妥当性判定部11での動作以外は、第1の実施形態と同様であるので、その説明は省略し、以下では、文区切り妥当性判定部11の動作を図18のフローチャートを参照しながら説明する。なお、図18は、Nが3の場合の表現で記載している。
【0140】
まず、N−gramデータテーブル6から、N番目の文字種が特殊文字である全てのN−gramデータ(頻度値を含む)を取得する(ステップ1801)。すなわち、任意の文字を「?」で表し、Nが3であると、「??#」に係るN−gramデータを取得する。
【0141】
この処理で取得されるN−gramデータの大半は、N−1番目の文字種も特殊文字「#」か、N−1番目の文字種が「。」や「.」などの文区切り文字である。これは、テキストファイルを1文1行にする際に、文区切り文字を検出して1文と判断することが多く、各文に対して、上述したような特殊文字を付加してN−gramデータを作成しているためである。
【0142】
その後、取得したN−gramデータについて、N−1番目の文字種が同じN−gramデータの頻度値(又は確率)を比較する(ステップ1802)。ここで、比較は、頻度値がある程度以上のものだけで行うようにしても良い。すなわち、頻度値が余りに少ないものは、N−1番目の文字種が「。」や「.」などの文区切り文字でないことが多いためである。
【0143】
このような比較の結果、相対的に頻度値(又は確率)が小さいN−gramデータがあるか否かを判断する(ステップ1803)。このようなN−gramデータがなければ、一連の処理を直ちに終了する。一方、相対的に頻度値(又は確率)が小さいN−gramデータがあれば、そのN−gramデータから特殊文字を除いた文字列(又はN−gramデータそのもの)をユーザに提示して(ステップ1804)、一連の処理を終了する。特殊文字の意味をユーザが理解していることは少ないので、N−gramデータから特殊文字を除いた文字列をユーザに提示することが好ましい。
【0144】
例えば、項目や段落の見出しに見出し番号(例えば、「1.1.1」)が含まれているようなテキストファイルであれば、N−gramデータ中に、「1.#」というN−gramデータも出現するが、これは文末用(文区切り用)のN−gramデータとしては妥当でないが、文区切り文字を含んでいる。これの相対的な出現頻度は少なく、「1.」をユーザに提示して、このN−gramデータの取り扱い(削除や残存)をユーザに決定させることが好ましい。
【0145】
(H−3)第8の実施形態の効果
この第8の実施形態によっても、第1の実施形態と同様な効果を奏することができる。これに加えて、文区切り文字を含みながら、文区切り用のN−gramデータとして妥当出ないと思われるものをユーザに提示するようにしたので、その取り扱いをユーザが決定することができるという効果を奏する。
【0146】
(H−4)第8の実施形態の変形実施形態
なお、この第8の実施形態についても、第1〜第7の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。
【0147】
また、第2〜第7の実施形態の特徴とこの第8の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。
【0148】
(I)他の実施形態
本発明の自然言語統計データベース装置は、その用途はいかなるものであっても良く、種々の自然言語処理装置に適用できるものである。また、種々の自然言語処理装置は、本発明の自然言語統計データベース装置で形成されたN−gramデータテーブル(第2の実施形態の場合は特殊文字変換部を含む)だけを取り込んで利用するものであっても良い。
【0149】
また、本発明の自然言語統計データベース装置に係る自然言語も日本語に限定されるものではなく、他の言語の入力文を対象としたものであっても良い。
【0150】
さらに、N−gramデータ処理部としては、複数の文を結合したテキストファイルから、文を分割処理することなくN−gramデータを作成できるものであれば、上記文献1に記載の手法に従うものに限定されるものではない。
【0151】
さらにまた、上記各実施形態では、N−gramデータが単なる文字列と頻度情報とでなるものであったが、文字列部分が、品詞情報などをタグとして付加されている拡張文字の文字列であっても良い。特許請求の範囲での「文字」の用語は、「拡張文字」を含む概念とする。
【0152】
【発明の効果】
以上のように、本発明によれば、複数の文を有するテキストファイルから、文を分割することなく、N個の文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置において、入力テキストファイルの先頭と末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加してN−gramデータ処理手段に与える特殊文字付加手段を有するので、大量のテキストデータから精度の高いN−gramデータを効率良く抽出して格納することができる。
【図面の簡単な説明】
【図1】第1の実施形態の機能的構成を示すブロック図である。
【図2】第1の実施形態のファイル分割部〜N−gramデータ処理部の動作を示すフローチャートである。
【図3】第1の実施形態の特殊文字付加部及び文結合部の動作を示すフローチャートである。
【図4】第1の実施形態のデータ統合部の動作を示すフローチャートである。
【図5】第1の実施形態のN−gramデータ例を示す説明図である。
【図6】第2の実施形態の機能的構成を示すブロック図である。
【図7】第2の実施形態の特殊文字変換部の動作を示すフローチャートである。
【図8】第3の実施形態の特殊文字付加部及び文結合部の動作を示すフローチャートである。
【図9】第4の実施形態の機能的構成を示すブロック図である。
【図10】第5の実施形態の機能的構成を示すブロック図である。
【図11】第5の実施形態の特殊文字付加部及び文結合部の動作を示すフローチャートである。
【図12】第5の実施形態の文間N−gramカウント部の動作を示すフローチャートである。
【図13】第6の実施形態の機能的構成を示すブロック図である。
【図14】第6の実施形態の括弧内文字列除去部〜文結合部の動作を示すフローチャートである。
【図15】第7の実施形態の機能的構成を示すブロック図である。
【図16】第7の実施形態の括弧内文字列除去部〜文結合部の動作を示すフローチャートである。
【図17】第8の実施形態の機能的構成を示すブロック図である。
【図18】第8の実施形態の文区切り妥当性判定部11の動作を示すフローチャートである。
【符号の説明】
1…ファイル分割部、2…特殊文字付加部、3…文結合部、4…N−gramデータ処理部、5…データ統合部、6…N−gramデータテーブル、7…特殊文字変換部、8…文間N−gramカウント部、9…括弧内文字列除去部、10…括弧内N−gramカウント部、11…文区切り妥当性判定部、12…特殊文字指定部。

Claims (7)

  1. 複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置において、
    入力テキストファイルの先頭と末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加して上記N−gramデータ処理手段に与える特殊文字付加手段と、
    テキストファイルを複数に分割する、上記特殊文字付加手段の前段又は後段に設けられたファイル分割手段と、
    上記N−gramデータ処理手段によって得られた分割テキストファイル毎のN−gramデータを統合して上記N−gramデータ記憶手段に格納するデータ統合手段と、
    入力テキストファイル中の文と文との切れ目を挟む所定文字数の文間文字列を分離する文間文字列分離手段と、
    分離された文間文字列からN−gramデータを作成する文間N−gramデータ作成手段と、
    この文間N−gramデータ作成手段によって作成されたN−gramデータを、上記データ統合手段によるN−gramデータに統合して上記N−gramデータ記憶手段に格納する第2のデータ統合手段とを有し、
    上記N−gramデータ処理手段が分割したテキストファイル毎にN−gramデータを作成するものであり、
    上記N−gramデータ記憶手段には、上記データ統合手段から出力された特殊文字を含む文頭、文末に係るN−gramデータと、上記文間N−gramデータ作成手段から出力された特殊文字を含まない文頭、文末に係るN−gramデータとが格納される
    ことを特徴とする自然言語統計データベース装置。
  2. 外部からの文頭又は文末のN−gramデータの要求に対し、その要求が、上記N−gramデータ記憶手段に格納されている特殊文字を含むN−gramデータの形式でない場合に、要求に係る文頭又は文末を規定する部分を特殊文字に変換して上記N−gramデータ記憶手段をアクセスする特殊文字変換手段をさらに有することを特徴とする請求項1に記載の自然言語統計データベース装置。
  3. 上記特殊文字付加手段に、付加する特殊文字を指定する特殊文字指定手段をさらに有することを特徴とする請求項1又は2に記載の自然言語統計データベース装置。
  4. 上記N−gramデータ記憶手段に格納されている、N番目の文字が特殊文字であって、N−1番目の文字が同一の複数のN−gramデータの頻度情報の相対的関係から、文区切り用のN−gramデータとして妥当性が弱いものを検出して出力する文区切り妥当性判定手段をさらに有することを特徴とする請求項1〜のいずれかに記載の自然言語統計データベース装置。
  5. 上記特殊文字付加手段は、開き括弧の直後にもN−1文字の特殊文字を付加するものであることを特徴とする請求項1〜のいずれかに記載の自然言語統計データベース装置。
  6. テキストファイルの各文に、1組の括弧で挟まれた文字列があった場合に、括弧を含めその文字列を除去する括弧内文字列除去手段を、上記N−gramデータ処理手段より前のいずれかの位置にさらに有することを請求項1〜のいずれかに記載の自然言語統計データベース装置。
  7. 上記括弧内文字列除去手段により除去された文字列の括弧を除外した括弧内文字列からN−gramデータを作成する括弧内N−gramデータ作成手段と、
    この括弧内N−gramデータ作成手段によって作成されたN−gramデータを、上記第2のデータ統合手段によるN−gramデータに統合して上記N−gramデータ記憶手段に格納する第3のデータ統合手段と
    をさらに有することを特徴とする請求項に記載の自然言語統計データベース装置。
JP35065197A 1997-12-19 1997-12-19 自然言語統計データベース装置 Expired - Fee Related JP4007661B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35065197A JP4007661B2 (ja) 1997-12-19 1997-12-19 自然言語統計データベース装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35065197A JP4007661B2 (ja) 1997-12-19 1997-12-19 自然言語統計データベース装置

Publications (2)

Publication Number Publication Date
JPH11184866A JPH11184866A (ja) 1999-07-09
JP4007661B2 true JP4007661B2 (ja) 2007-11-14

Family

ID=18411936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35065197A Expired - Fee Related JP4007661B2 (ja) 1997-12-19 1997-12-19 自然言語統計データベース装置

Country Status (1)

Country Link
JP (1) JP4007661B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4054632B2 (ja) * 2002-08-13 2008-02-27 キヤノン株式会社 データ処理装置、データ処理方法およびそのプログラム

Also Published As

Publication number Publication date
JPH11184866A (ja) 1999-07-09

Similar Documents

Publication Publication Date Title
US6353840B2 (en) User-defined search template for extracting information from documents
US6415250B1 (en) System and method for identifying language using morphologically-based techniques
KR100912502B1 (ko) Pdf 파일을 대상으로 하는 자동 번역 방법
US6665668B1 (en) Document retrieval method and system and computer readable storage medium
JP3220560B2 (ja) 機械翻訳装置
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
US7346488B2 (en) Automatic translator and computer-readable storage medium having automatic translation program recorded thereon
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP2002157241A (ja) 辞書作成装置
JP4007661B2 (ja) 自然言語統計データベース装置
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JPH0877196A (ja) 文書情報抽出装置
JP5123350B2 (ja) テストケース作成システム、方法およびプログラム
JPH10214268A (ja) 文書検索方法および装置
JPH0883280A (ja) 文書処理装置
JP3966086B2 (ja) 文書処理装置および方法
TW482962B (en) Method of automatic extracting for key features in digital document
JPS61248160A (ja) 文書情報登録方式
JPH0474259A (ja) 文書要約装置
JP2004287992A (ja) 文書情報処理装置並びにプログラム
JP2592995B2 (ja) 文節切出し装置
JPH10293811A (ja) 文書認識装置及び方法並びにプログラム記憶媒体
JP2575947B2 (ja) 文節切出し装置
JP2002297587A (ja) 言語解析用データ作成方法、言語解析方法及び前記方法に用いるプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070828

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees