JPH11184866A - 自然言語統計データベース装置 - Google Patents

自然言語統計データベース装置

Info

Publication number
JPH11184866A
JPH11184866A JP9350651A JP35065197A JPH11184866A JP H11184866 A JPH11184866 A JP H11184866A JP 9350651 A JP9350651 A JP 9350651A JP 35065197 A JP35065197 A JP 35065197A JP H11184866 A JPH11184866 A JP H11184866A
Authority
JP
Japan
Prior art keywords
data
sentence
gram
character
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9350651A
Other languages
English (en)
Other versions
JP4007661B2 (ja
Inventor
Tokuji Ikeno
篤司 池野
Takashi Fukui
毅至 福居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP35065197A priority Critical patent/JP4007661B2/ja
Publication of JPH11184866A publication Critical patent/JPH11184866A/ja
Application granted granted Critical
Publication of JP4007661B2 publication Critical patent/JP4007661B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 大量のテキストデータから精度の高いN−g
ramデータを効率良く抽出して格納する。 【解決手段】 複数の文を有するテキストファイルか
ら、文を分割することなく、文字数Nの文字列とその頻
度情報とでなるN−gramデータを作成するN−gr
amデータ処理手段と、作成されたN−gramデータ
を格納するN−gramデータ記憶手段とを有する自然
言語統計データベース装置に関する。入力テキストファ
イルの先頭と末尾にN−1文字の特殊文字を付加すると
共に、テキストファイル中の文と文との間にN−1文字
の特殊文字を付加してN−gramデータ処理手段に与
える特殊文字付加手段を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一連の文章から文
字列に関する統計データ(N−gramデータ)を抽出
して格納する自然言語統計データベース装置に関し、例
えば、統計データを利用して文の形態素を自動的に解析
する形態素解析装置が利用し得るものである。
【0002】
【従来の技術】文献1『長尾眞、森信介著、「大規模日
本語テキストのnグラム統計の作り方と語句の自動抽
出」、情報処理学会研究報告自然言語処理96−1、1
993年7月』 文献2『特開平7−271792号公報』 文献3『特願平9−68300号明細書及び図面(公開
されていないが文献と呼ぶ)』 日本語文などの自然言語文を処理する自然言語処理装置
(例えば、機械翻訳装置や質疑応答装置やコンピュータ
援用の教育装置等)においては、自然言語文に対して、
最初に形態素解析を行う。近年、形態素辞書を使用せ
ず、その代わりに、形態素境界や各形態素の品詞情報を
保持したタグ付きコーパス(大量のテキストデータ)か
ら学習した統計データに基づく形態素解析装置が研究さ
れ始めている(例えば、上記文献2及び文献3)。
【0003】このような統計データの一つに、N個の文
字の順次でなる文字列の出現頻度を示すN−gram統
計(場合によっては、N−gramデータと呼ぶ)があ
り、大量のテキストデータが与えられたときに、N−g
ramデータを計算する手法が研究されている(例え
ば、上記文献1) 上記文献1のN−gramデータの計算手法は、テキス
ト全体を一つの文字列と見なし、各文字を先頭としてテ
キスト最後尾の文字を末尾とする部分文字列を想定し、
これをソートすることで、隣接する部分文字列の一致す
る文字数をカウントしたデータからN−gram統計を
得るという方法であり、高速処理を意図したものであ
る。
【0004】
【発明が解決しようとする課題】しかしながら、上記文
献1のN−gramデータの計算手法は、テキストの途
中に存在する文頭や文末に対する考慮がなされておら
ず、文頭や文末に係るN−gramデータも他の位置の
N−gramデータと同様に形成するものである。その
ため、文頭や文末に係るN−gramデータの種類数が
多くなり、文頭や文末に係るN−gramデータの各々
の頻度が少なく、このようにして形成されたN−gra
mデータを形態素解析への統計モデルとして適用した場
合には、形態素解析結果の精度を低くする。
【0005】例えば、(1)「…した。今日…」と、
(2)「…する。今日…」というテキストの3−gra
mデータを調べたときに、(1)のテキスト部分からは
「た。今」が取り出され、(2)のテキスト部分からは
「る。今」が取り出されるので、3−gramデータの
テーブルでは全く別の見出しであることになってしま
い、出現頻度が変わってくる。
【0006】実際には、「今」は文頭から始まっている
のであるから、前文の末尾とは文字列としてのつながり
はないので、『(文頭)+今』という見出しが(1)の
テキスト部分からも(2)のテキスト部分からも取り出
されるのが好ましい。
【0007】つまり、上記文献1のN−gramデータ
の計算手法では、計算を簡単にする手段としてテキスト
全体を一つの文字列と見なしたときに、もともと文頭や
文末であったことの情報が減じていることになる。
【0008】また、上記文献1のN−gramデータの
計算手法では、テキストが非常に大きいときはテキスト
を分割してソートし、最後にソート済み部分文字列を比
較しながらデータをマージする方法を取っているが、N
−gramデータだけが必要な場合(形態素解析への適
用時など)、部分文字列データそのものをマージする方
法には無駄が多いということができる。
【0009】そのため、大量のテキストデータから精度
の高いN−gramデータを効率良く抽出して格納する
自然言語統計データベース装置が求められている。
【0010】
【課題を解決するための手段】かかる課題を解決するた
め、本発明は、複数の文を有するテキストファイルか
ら、文を分割することなく、文字数Nの文字列とその頻
度情報とでなるN−gramデータを作成するN−gr
amデータ処理手段と、作成されたN−gramデータ
を格納するN−gramデータ記憶手段とを有する自然
言語統計データベース装置において、入力テキストファ
イルの先頭と末尾にN−1文字の特殊文字を付加すると
共に、テキストファイル中の文と文との間にN−1文字
の特殊文字を付加して上記N−gramデータ処理手段
に与える特殊文字付加手段を有することを特徴とする。
【0011】
【発明の実施の形態】(A)第1の実施形態 以下、本発明による自然言語統計データベース装置の第
1の実施形態を図面を参照しながら詳述する。
【0012】この第1の実施形態の自然言語統計データ
ベース装置は、大量のテキストデータからN−gram
データを抽出して格納するまでに特徴を有し、格納した
後のN−gramデータの用途(例えば形態素解析)は
問わないものであり、格納した後のN−gramデータ
の取り出し方法には特徴がないものである。
【0013】(A−1)第1の実施形態の構成 第1の実施形態の自然言語統計データベース装置は、ワ
ークステーションやパソコンなどの情報処理装置上で実
現されるものであるが、機能的には、図1に示す機能ブ
ロック図で表すことができる。
【0014】図1において、第1の実施形態の自然言語
統計データベース装置は、ファイル分割部1、特殊文字
付加部2、文結合部3、N−gramデータ処理部4、
データ統合部5及びN−gramデータテーブル6から
なる。
【0015】なお、以降の説明では、入力されるテキス
トは1行1文であるものとする。テキストファイルのフ
ォーマットがそのようになっていない場合には、文区切
り文字(句点など)が存在する位置を文の終りと見なし
て処理を行うものとする。ここで、処理に供するテキス
トファイルは、ハードディスク装置などの大容量の記憶
装置に記憶されているものである。また、N−gram
データの文字数Nの値は、当該装置の起動時に指定され
るようになされている。
【0016】ファイル分割部1は、テキストファイルを
受けとり、ファイルサイズが閾値サイズより大きい場合
のみ適当なサイズに分割し、特殊文字付加部2に分割し
たテキストファイルを一つずつ送るものである。ファイ
ル分割部1は、ファイルサイズが閾値サイズ以下の場合
には、入力されたテキストファイルを特殊文字付加部2
にそのまま送るものである。ファイル分割部1は、分割
を行った場合には、分割したことと、分割した数の情報
をデータ統合部5に送る。
【0017】特殊文字付加部2は、ファイル分割部1か
ら受け取ったテキストファイルを、各文に分離しながら
各文の先頭に特殊文字を付加し、1文ずつ文結合部3に
送るものである。付加する文字の数は、求めたいN−g
ramの文字数であるNから1引いた値である。また、
特殊文字付加部2は、テキストファイルの最後の文には
末尾にも特殊文字を付加する。付加する特殊文字として
は、通常の文章で出現することがほとんど考えられない
文字を適用する。例えば、文字「#」を適用する。
【0018】文結合部3は、特殊文字付加部2から特殊
文字を付加された文を受け取って最後の文がくるまで結
合し、結合結果の文字列をN−gramデータ処理部4
に送るものである。
【0019】N−gramデータ処理部4は、例えば、
上記文献1に記載されている手法によって、N−gra
mデータを求め、結果をデータ統合部5に送るものであ
る。すなわち、結合結果の文字列(M文字とする)を構
成する各文字を先頭として、テキスト最後尾の文字を末
尾とする計M−N+1個の部分文字列を想定し、これら
をソートし、隣接する部分文字列の先頭側のN文字が一
致する文字数をカウントしたデータからN−gramデ
ータを得る。
【0020】N−gramデータの例(Nが3の場合)
を図5に示す。N−gramデータは文字数Nの文字列
を見出しとし、出現頻度を値に持つデータである。
【0021】データ統合部5は、ファイル分割部1から
ファイル入力時に分割した旨の情報がきている場合に
は、N−gramデータ処理部4から送られてくるデー
タを分割されたファイル数だけ受け取って、見出しの一
致するデータの出現頻度値を加算して一つのデータに統
合してN−gramデータテーブル6に格納するもので
ある。一方、データ統合部5は、ファイル分割部1から
ファイル入力時に分割した旨の情報が与えられていない
場合には、N−gramデータ処理部4から送られてく
るデータをそのままN−gramデータテーブル6に格
納するものである。
【0022】N−gramデータテーブル6は、図5に
例示するように、N−gramデータを格納するもので
ある。
【0023】(A−2)第1の実施形態の動作 次に、ファイル分割部1からN−gramデータ処理部
4までの動作を図2のフローチャートを参照しながら説
明する。
【0024】まず、対象となるテキストファイルのデー
タを分割するかどうかを判断する(ステップ201)。
ファイル分割部1は、分割可否判断に供する予め定めら
れている閾値サイズ(又は文字数)を保持しており、対
象となるファイルサイズとこの閾値サイズとの比較によ
り、分割の可否を判断する。
【0025】対象となるファイルサイズが閾値サイズを
超えた場合に分割を行う(ステップ202)。分割を行
う場合、分割されたファイルサイズがほぼ均等になるよ
うに分割する。また、分割後の各ファイルのサイズが、
上記閾値サイズを超えないように分割数を調節する。さ
らに、分割は行の途中で行わない。すなわち、文の途中
で分割されることはない。
【0026】ステップ202において分割した場合に
は、データ統合部5に対して分割数のデータを送付し、
分割されたファイルの最初の部分(テキスト)を送付対
象としてセットし、ステップ203に進む。分割が行わ
れない場合にはそのままステップ203に進む。
【0027】ステップ203において、実際に対象テキ
スト(分割されていない場合はファイル全体が対象テキ
ストとなる)を特殊文字付加部2に送付する。
【0028】次に、ステップ204において、テキスト
の各文を対象として特殊文字を付加し、結合して一つの
文字列にする。この処理の詳細については後述する。
【0029】その後、ステップ204において生成され
た文字列を用いて、N−gramデータをカウントし、
結果をデータ統合部5に送付する(ステップ205)。
N−gramデータのカウントにあたっては、上記文献
1に記載されている手法を用いるものとするので、ここ
での説明は省略する。
【0030】そして、入力テキストファイルが分割され
ていて、次のテキストがまだ存在しているかどうかをチ
ェックする(ステップ206)。次のテキストが残って
いた場合には、ステップ207で次のテキストを対象テ
キストにセットし、上述したステップ203に戻る。次
のテキストがもうない(今処理をしたテキストが最後で
あった)場合には、一連の処理を終了する。
【0031】以下、ステップ204の動作の詳細につい
て図3のフローチャートを参照しながら説明する。すな
わち、特殊文字付加部2と文結合部3の動作について説
明する。
【0032】まず、ファイル分割部1から送られてきた
テキストから、最初の文(最初の行)を処理対象にセッ
トし、文を結合するための文字列メモリを確保する(ス
テップ301)。
【0033】次に、対象文の文頭にN−1個の特殊文字
を付加し、文字列メモリの末尾に追加する(ステップ3
02)。上述したように、Nの値はシステム起動時に指
定されるものとする。
【0034】その後、現在の対象文が処理すべき最後の
文かどうか(他に処理する文が残っていないか)をチェ
ックする(ステップ303)。最後の文ではなかった場
合には、次の文を対象にセットして(ステップ30
5)、上述したステップ302に戻る。一方、最後の文
であった場合には、文字列メモリの末尾に特殊文字をN
−1個だけ追加し(ステップ304)、一連の処理を終
了する。これによってテキストの一番末尾も正しくN−
gramデータがとれるようになる。
【0035】ステップ302に移行したときの対象文を
「今日は…」とし、特殊文字を「#」、N=3とする
と、処理結果は「##今日は…」となる。文を結合して
一つの文字列にしてしまっても、このようにすることに
よって、文頭から「今日は…」で始まるような文から
は、全て「##今」の3−gramデータが得られるこ
とになる。また、文は結合されていくので、前文の文末
に次の文の先頭のN−1個の特殊文字が連結することに
なり、結果的に各文の文末にも特殊文字を付加したこと
になる。
【0036】次に、データ統合部5の動作について、図
4のフローチャートを参照しながら説明する。
【0037】まず、入力テキストファイルが分割された
かどうかの情報が、ファイル分割部1から送られてきて
いるかどうかを確認する(ステップ401)。
【0038】分割されたという情報がきていなければ、
入力ファイルは分割されておらずデータを統合する必要
はないので、N−gramデータを受け付けたら(ステ
ップ406)、ステップ405で、当該データをそのま
まN−gramデータテーブル6に出力格納して処理を
終了する。
【0039】これに対して、分割されたという情報がき
ていれば、N−gramデータを受け付け(ステップ4
02)、その各見出しに対して、既に保持しているN−
gramデータの見出しに同じものがあれば、既存デー
タの頻度値に、新規データの頻度値を加算し、既に保持
しているN−gramデータの見出しに同じものがなけ
れば、見出しと値のペアを追加する(ステップ40
3)。
【0040】次に、ファイル分割部1から受け取った分
割数の情報と同一回数、N−gramデータを受け付け
たかどうか(つまり入力ファイル全体の処理結果を受け
取ったかどうか)を確認する(ステップ404)。
【0041】分割数の分だけ受け取った場合には、統合
されたN−gramデータをN−gramデータテーブ
ル6に出力格納して処理を終了する(ステップ40
5)。一方、まだ分割数まで受け取っていない場合に
は、上述したステップ402に戻ってデータを受け付け
る。
【0042】(A−3)第1の実施形態の効果 以上のように、第1の実施形態によれば、多数の文を有
するテキストファイル(文字列)をからN−gramデ
ータを求めるにつき、各文に文頭又は文末に係る特殊文
字を付加した後に、各文を結合し直した後に、N−gr
amデータを求めるようにしたので、文末、文頭近傍の
N文字のカウントが正しく行うことができ、精度の高い
統計データ(N−gramデータ)を得ることができ
る。
【0043】また、第1の実施形態によれば、分割され
たテキストファイルのそれぞれから求めた複数のN−g
ramデータを受け取り、同一見出しのデータの値を加
算し、それ以外のものはテーブルに追加するようにした
ので、文字列をソートしたものを統合するより速くN−
gramデータが得ることができ、統計データを効率良
く得ることができる。
【0044】(A−4)第1の実施形態の変形実施形態 上記第1の実施形態では、ファイル分割部1による処理
の後で、テキストファイルに対して文区切り処理するも
のを示したが、ファイル分割部1による処理の前に入力
テキストファイルに対して文区切り処理する形態であっ
ても良い。
【0045】また、特殊文字付加部2、文結合部3、N
−gramデータ処理部4の全て、あるいはN−gra
mデータ処理部4のみを、複数設けて、分割されたテキ
ストの各々を同時に並行処理する形態であっても良い。
【0046】さらに、第1の実施形態では、特殊文字を
付加された文字列の結合を、文字列メモリを利用して行
うものを示したが、実際にはポインタによって位置を指
す方法で実現しても良い。
【0047】また、第1の実施形態では、N−gram
データが見出しと頻度でなるものを示したが、頻度を確
率情報に変換したものであっても良い。一般には、N−
gramデータの場合、先頭のN−1文字が同じ複数の
見出しの確率の総和が1になるように確率情報化され
る。
【0048】さらに、第1の実施形態では、N−gra
mデータテーブル6に、起動時に指定されたNに係るN
−gramデータに格納するものであったが、様々なN
の値に対するデータを全て一つのテーブルとして保持す
るようにしても良い。
【0049】(B)第2の実施形態 以下、本発明による自然言語統計データベース装置の第
2の実施形態を図面を参照しながら詳述する。
【0050】この第2の実施形態の自然言語統計データ
ベース装置は、第1の実施形態と同様な特徴に加えて、
格納した後のN−gramデータの取り出し方法にも特
徴を有するものである。
【0051】(B−1)第2の実施形態の構成 図6は、第2の実施形態の自然言語統計データベース装
置の構成を示す機能ブロック図であり、図1との同一、
対応部分には同一符号を付して示している。
【0052】図6において、第2の実施形態の自然言語
統計データベース装置は、第1の実施形態と同様なファ
イル分割部1、特殊文字付加部2、文結合部3、N−g
ramデータ処理部4、データ統合部5及びN−gra
mデータテーブル6に加えて、特殊文字変換部7を有す
る。
【0053】ファイル分割部1、特殊文字付加部2、文
結合部3、N−gramデータ処理部4、データ統合部
5及びN−gramデータテーブル6は、第1の実施形
態と同じであるので、その説明は省略する。
【0054】特殊文字変換部7は、例えば形態素解析装
置などのN−gramデータを適用する応用装置から、
ある見出しに対するデータの参照要求があったとき、文
頭、文末などの指定があれば、当該装置の特殊文字に合
わせて要求された見出しを変換して、N−gramデー
タテーブル6内のデータとマッチングをとり、その頻度
値を、応用装置に返すものである。
【0055】(B−2)第2の実施形態の動作 動作上、第2の実施形態が第1の実施形態と異なるのは
特殊文字変換部7の動作だけであるので、以下では、特
殊文字変換部7の動作を図7のフローチャートを参照し
ながら説明する。
【0056】まず、応用装置からデータ参照要求を受け
付け(ステップ701)、要求された見出しの中に、
「文頭」又は「文末」の指定があるかどうかをチェック
する(ステップ702)。
【0057】指定がない場合は、ステップ704で、N
−gramデータテーブル6から、見出しのマッチする
ものの頻度値を取得し(ステップ704)、応用装置に
値を送って(ステップ705)、一連の処理を終了す
る。
【0058】一方、指定があった場合、そのままではN
−gramデータテーブル6の見出しとマッチしないの
で、「文頭」、「文末」の指定を特殊文字に変換する
(ステップ703)。その後、ステップ704で、N−
gramデータテーブル6から、見出しのマッチするも
のの頻度値を取得し(ステップ704)、応用装置に値
を送って(ステップ705)、一連の処理を終了する。
【0059】ここで、ステップ703の変換時に生成さ
れる特殊文字の数は、以下の式で決定される。
【0060】生成特殊文字数=N−(「文頭」、「文
末」以外の指定文字数) 例えば、N=3で、要求が『文頭+「今」』に対するも
のであった場合、「文頭」、「文末」以外の指定文字数
は1なので、生成される特殊文字の数は2になる。よっ
て2個の特殊文字が「今」の前に付加されることにな
る。特殊文字が「#」であったとすると、要求見出し
は、『##今』に変換される。
【0061】(B−3)第2の実施形態の効果 第2の実施形態によっても、第1の実施形態と同様な効
果を奏することができる。さらに、第2の実施形態によ
れば、応用装置からのデータ参照要求の見出しの中の
「文頭」、「文末」指定を、データテーブル6に合わせ
た特殊文字に変換するようにしたので、応用装置は特殊
文字の種類を意識しなくて良く、当該自然言語統計デー
タベース装置の応用性が高くなる。
【0062】(B−4)第2の実施形態の変形実施形態 上記第1の実施形態についての変形実施形態は、第2の
実施形態の変形実施形態ともなり得る。
【0063】なお、N−gramデータテーブル6が様
々なNについてのN−gramデータを格納しているも
のである場合、応用装置から「文頭」、「文末」につい
て、何文字の特殊文字を生成すればよいかが、知らされ
るようにすれば良い。
【0064】上記第2の実施形態では、「文頭」、「文
末」という符号が応用装置から与えられるものを示した
が、当該自然言語統計データベース装置とは異なる特殊
文字で「文頭」、「文末」を表す見出しが与えられるも
のであっても良い。この場合、その特殊文字を、当該自
然言語統計データベース装置での特殊文字に変換してデ
ータテーブル6を参照するようにすれば良く、変換文字
数を考慮する処理は不要となる。
【0065】(C)第3の実施形態 以下、本発明による自然言語統計データベース装置の第
3の実施形態を図面を参照しながら詳述する。
【0066】第3の実施形態の自然言語統計データベー
ス装置も、機能ブロック図で表すと、第1の実施形態に
係る図1で表すことができる。
【0067】しかし、第3の実施形態の自然言語統計デ
ータベース装置は、特殊文字付加部2及び文結合部3の
機能が第1の実施形態のものと多少異なっている。
【0068】すなわち、第3の実施形態の特殊文字付加
部2及び文結合部3はそれぞれ、基本的には、文頭又は
文末に特殊文字を付加する機能、特殊文字を付加された
文を結合する機能を担うものであるが、この第3の実施
形態の場合、括弧種類は問わないが、文の途中に表れる
開き括弧の直後にも特殊文字を付加し、そのような開き
括弧の直後に付加された特殊文字をも有する文を結合す
る機能をも担っている。
【0069】この第3の実施形態は、開き括弧の直後の
文字部分は、文頭と同様に取り扱って良いという点に鑑
みてなされている。
【0070】上述から明らかなように、第3の実施形態
の自然言語統計データベース装置は、動作上も、特殊文
字付加部2及び文結合部3による特殊文字の付加及び文
結合動作(図2のステップ204参照)が第1の実施形
態とは異なっている。
【0071】そこで、以下では、第3の実施形態の特殊
文字付加部2及び文結合部3の動作を、図8のフローチ
ャートを参照しながら説明する。なお、図8は、第1の
実施形態に係る図3に置き換えられるものであり、図3
との同一、対応ステップには同一符号を付して示してい
る。
【0072】まず、ファイル分割部1から送られてきた
テキストから、最初の文(最初の行)を処理対象にセッ
トし、文を結合するための文字列メモリを確保する(ス
テップ301)。
【0073】次に、対象文の文頭にN−1個の特殊文字
を付加した後(ステップ801)、これから文字列メモ
リに格納しようとする文字列部分の中に開き括弧がある
か否かを確認する(ステップ802)。開き括弧がある
場合には、開き括弧までを文字列メモリの末尾に追加し
(ステップ803)、上述したステップ801に戻る。
このときのステップ801においては、開き括弧の直後
に特殊文字が付加されることになる。
【0074】このようなステップ801〜803でなる
処理ループは、処理対象の文に含まれている開き括弧の
個数に応じて繰り返され、開き括弧の直後に特殊文字が
付加される。
【0075】処理対象の文に1個も開き括弧がない場合
や、ステップ801〜803でなる処理ループを繰り返
したことにより、これから文字列メモリに格納しようと
する文字列部分の中に開き括弧がなくなった場合には、
ステップ802で否定結果が得られ、この場合には、処
理対象の文の未だ文字列メモリに格納されていない文字
列を文字列メモリの末尾に追加する(ステップ80
4)。
【0076】その後、現在の対象文が処理すべき最後の
文かどうか(他に処理する文が残っていないか)をチェ
ックする(ステップ303)。最後の文ではなかった場
合には、次の文を対象にセットして(ステップ30
5)、上述したステップ801に戻る。一方、最後の文
であった場合には、文字列メモリの末尾に特殊文字をN
−1個だけ追加し(ステップ304)、一連の処理を終
了する。
【0077】この第3の実施形態においても、第1の実
施形態と同様な効果を奏することができる。これに加え
て、文頭と同様に取り扱うことができる開き括弧の直後
にも、特殊文字を付加してN−gramデータを作成す
るようにしたので、データ精度の一段の向上を期待でき
る。
【0078】なお、この第3の実施形態についても、第
1の実施形態について説明した変形実施形態のうち、適
用可能なものを適用できることは勿論である。
【0079】また、この第3の実施形態の特徴的な技術
思想(開き括弧直後に特殊文字を挿入する)と、第2の
実施形態の特徴的な技術思想(応用装置は「文頭」、
「文末」などという形で見出しを指定できる)とを組み
合わせることもできる。
【0080】(D)第4の実施形態 以下、本発明による自然言語統計データベース装置の第
4の実施形態を図面を参照しながら簡単に説明する。
【0081】図9は、第4の実施形態の自然言語統計デ
ータベース装置の構成を示す機能ブロック図であり、上
述した図1との同一、対応部分には同一符号を付して示
している。
【0082】図9及び図1の比較から明らかなように、
この第4の実施形態は、第1の実施形態の構成に加え
て、特殊文字指定部12を有するものであり、この特殊
文字指定部12以外の構成要素は第1の実施形態と同様
に機能するものである(正確に言えば、特殊文字付加部
2も多少異なる)。
【0083】特殊文字指定部12は、外部から、特殊文
字付加部2が付加動作する特殊文字の種類を取り込み、
それを特殊文字付加部2に指定するものである。外部が
ユーザである場合には、例えば、複数の特殊文字候補を
メニュー表示させてその中から選択させることで指定を
受け付けたり、コード番号の入力などで特殊文字を受け
付けたりする。また、外部が、N−gramデータテー
ブル6を利用する応用装置である場合には、例えば、コ
ード番号として受け付けたりする。
【0084】この第4の実施形態の特殊文字付加部2
は、文頭や文末などに、特殊文字指定部12が指定した
文字種の特殊文字を付加する。
【0085】この第4の実施形態においても、第1の実
施形態と同様な効果を奏することができる。これに加え
て、特殊文字の文字種を指定できるので、各種の応用装
置に対応し易いという効果をも奏する。
【0086】なお、この第4の実施形態についても、第
1〜第3の実施形態について説明した変形実施形態のう
ち、適用可能なものを適用できることは勿論である。
【0087】(E)第5の実施形態 以下、本発明による自然言語統計データベース装置の第
5の実施形態を図面を参照しながら詳述する。
【0088】この第5の実施形態の自然言語統計データ
ベース装置は、第1の実施形態と同様な特徴に加えて、
相前後する文にまたがる文字列のN−gramデータも
作成可能としたという特徴を有するものである。
【0089】(E−1)第5の実施形態の構成 図10は、第5の実施形態の自然言語統計データベース
装置の構成を示す機能ブロック図であり、上述した図1
との同一、対応部分には同一符号を付して示している。
【0090】図10及び図1の比較から明らかなよう
に、この第5の実施形態は、第1の実施形態の構成に加
えて、文間N−gramカウント部8を有するものであ
り、この文間N−gramカウント部8以外の構成要素
は第1の実施形態と同様に機能するものである(正確に
言えば、特殊文字付加部2及びデータ統合部5も多少異
なる)。
【0091】この第5の実施形態の特殊文字付加部2
も、基本的には、文頭又は文末に特殊文字を付加する機
能を有するものであるが、さらに、相前後する文にまた
がる文字列、言い換えると、前の文の文末の所定文字数
(N−1文字)でなる文字列と、その次の文の文頭の所
定文字数(N−1文字)でなる文字列とを文間N−gr
amカウント部8に与える機能をも担っているものであ
る。
【0092】文間N−gramカウント部8は、特殊文
字付加部2から与えられた相前後する文にまたがる文字
列から、N−gramデータ(頻度情報を含む)を作成
するものである。この文間N−gramカウント部8に
よるN−gramデータの作成は、対象とする文字列が
短いので、上記文献1に記載の手法による必要はなく、
例えば、文字列からN文字部分の切り出し、同一見出し
のカウント方法を適用すれば良い。
【0093】この第5の実施形態のデータ統合部5は、
N−gramデータ処理部4からの分割ファイル間のN
−gramデータの統合だけでなく、文間N−gram
カウント部8からのN−gramデータの統合も行い、
統合後のN−gramデータをN−gramデータテー
ブル6に格納するものである。
【0094】(E−2)第5の実施形態の動作 上述のように、第5の実施形態は、相前後する文にまた
がる文字列のN−gramデータも作成可能としたこと
に特徴を有するものであり、この特徴との関係で、特殊
文字付加部2(及び文結合部3)の動作、及び、データ
統合部5の動作が第1の実施形態とは異なっている。
【0095】ここで、データ統合部5の動作はデータを
統合するだけであるので、その説明は省略し、以下で
は、特殊文字付加部2(及び文結合部3)の動作と、第
1の実施形態では存在していない文間N−gramカウ
ント部8の動作を順に説明する。
【0096】まず、第5の実施形態における特殊文字付
加部2及び文結合部3による特殊文字の付加及び文結合
動作(図2のステップ204参照)を、図11のフロー
チャートを参照しながら説明する。
【0097】まず、ファイル分割部1から送られてきた
テキストから、最初の文(最初の行)を処理対象にセッ
トし、文を結合するための文字列メモリを確保する(ス
テップ301)。
【0098】次に、対象文の文頭にN−1個の特殊文字
を付加し、文字列メモリの末尾に追加する(ステップ3
02)。その後、現在の対象文が処理すべき最後の文か
どうか(他に処理する文が残っていないか)をチェック
する(ステップ303)。
【0099】最後の文でなかった場合には、文末のN−
1文字をコピーして文間N−gramカウント部8に送
付した後(ステップ1101)、次の文を対象にセット
し(ステップ305)、さらに、セットした文の文頭の
N−1文字をコピーして文間N−gramカウント部8
に送付して上述したステップ302に戻る(ステップ1
102)。
【0100】一方、最後の文であった場合には、文字列
メモリの末尾に特殊文字をN−1個だけ追加し(ステッ
プ304)、文間N−gramカウント部8にテキスト
最後であることを通知して(ステップ1103)、一連
の処理を終了する。
【0101】次に、文間N−gramカウント部8の動
作を、図12のフローチャートを参照しながら説明す
る。
【0102】まず、特殊文字付加部2から、テキスト最
後の通知が与えられたか否かを判定する(ステップ12
01)。
【0103】テキスト最後の通知が与えられていなけれ
ば、特殊文字付加部2から、文末のN−1文字と文頭の
N−1文字とを受け取り(ステップ1202)、これら
の2種類の文字列を結合した後、結合文字列からN文字
の部分文字列を、その先頭側から1文字ずつずらしなが
ら切り出し(N−1組の文字列が切り出される)、切り
出した文字列(N−gram;見出し)をそれぞれカウ
ントする(ステップ1203)。その後、各見出しに対
して、既に内部保持しているN−gramデータの見出
しに同じものがあれば、既存データの頻度値に、新規デ
ータの頻度値を加算し、既に保持しているN−gram
データの見出しに同じものがなければ、見出しと頻度値
のペアを追加する(ステップ1204)。そして、上述
したステップ1201に戻る。
【0104】ステップ1201の判定において、特殊文
字付加部2から、テキスト最後の通知が与えられたとい
う結果を得ると、内部保持しているN−gramデータ
をデータ統合部5に送付して一連の動作を終了する。
【0105】(E−3)第5の実施形態の効果 この第5の実施形態においても、第1の実施形態と同様
な効果を奏することができる。これに加えて、入力テキ
ストファイルにおける文間においては、特殊文字を含む
文頭や文末用のN−gramデータだけでなく、特殊文
字を含まない文末から文頭に至るN−gramデータも
作成することができ、多様なN−gramデータも作
成、格納することができる。その結果、応用装置の自由
度を高めることができる。
【0106】(E−4)第5の実施形態の変形実施形態 なお、この第5の実施形態についても、第1〜第4の実
施形態について説明した変形実施形態のうち、適用可能
なものを適用できることは勿論である。
【0107】また、第2〜第4の実施形態の特徴とこの
第5の実施形態の特徴とを共に有するように自然言語統
計データベース装置を構成しても良い。
【0108】(F)第6の実施形態 以下、本発明による自然言語統計データベース装置の第
6の実施形態を図面を参照しながら詳述する。
【0109】この第6の実施形態の自然言語統計データ
ベース装置は、第1の実施形態と同様な特徴に加えて、
括弧内文字列を除去してからN−gramデータを作成
可能としたという特徴を有するものである。
【0110】(F−1)第6の実施形態の構成 図13は、第6の実施形態の自然言語統計データベース
装置の構成を示す機能ブロック図であり、上述した図1
との同一、対応部分には同一符号を付して示している。
【0111】図13及び図1の比較から明らかなよう
に、この第6の実施形態は、第1の実施形態の構成に加
えて、括弧内文字列除去部9をファイル分割部1及び特
殊文字付加部2間に有するものであり、この括弧内文字
列除去部9以外の構成要素は第1の実施形態と同様に機
能するものである。
【0112】括弧内文字列除去部9は、ファイル分割部
1からのテキストファイルの各文に、1組の括弧(開き
括弧及び閉じ括弧)で挟まれた文字列があった場合に、
その文字列を除去するものである。
【0113】括弧の前の文字列又は括弧の後の文字列
は、括弧内の文字列とは意味などが関連する単語や句の
関係にはあるが、括弧の前後の文字の出現の関連性は明
確に存在するとは言い難い。そこで、この第6の実施形
態では、N−gramデータの作成には括弧及び括弧内
の文字列は使用しないこととし、括弧内文字列除去部9
を設けたものである。
【0114】(F−2)第6の実施形態の動作 以下、この第6の実施形態で新たに設けられた括弧内文
字列除去部9の動作を説明する。
【0115】なお、この第6の実施形態の場合、括弧内
文字列除去部9、特殊文字付加部2及び文結合部3は、
融合した形で形成されているので、括弧内文字列除去部
9、特殊文字付加部2及び文結合部3の動作を、図14
のフローチャートを参照しながら説明する。また、図1
4は、括弧内にさらに括弧がある入れ子構造は存在しな
いことを前提としている。さらに、図14は、第1の実
施形態に係る図3に置き換えられるものであり、図3と
の同一、対応ステップには同一符号を付して示してい
る。
【0116】まず、ファイル分割部1から送られてきた
テキストから、最初の文(最初の行)を処理対象にセッ
トし、文を結合するための文字列メモリを確保する(ス
テップ301)。
【0117】次に、対象文の文頭にN−1個の特殊文字
を付加した後(ステップ1401)、これから文字列メ
モリに格納しようとする文字列部分の中に開き括弧があ
るか否かを確認する(ステップ1402)。開き括弧が
ある場合には、開き括弧直前までの文字列を文字列メモ
リの末尾に追加し(ステップ1403)、これ以降の文
字列に閉じ括弧があるか否かを確認する(ステップ14
04)。閉じ括弧があれば、開き括弧から閉じ括弧の間
を読み飛ばして(ステップ1405)上述したステップ
1402に戻る。
【0118】上述したステップ1402において、開き
括弧が存在しないという結果を得た場合や、上述したス
テップ1404において、閉じ括弧が存在しないという
結果を得た場合には、処理対象の文の未だ文字列メモリ
に格納されていない文字列(読み飛ばされたものを除
く)を文字列メモリの末尾に追加する(ステップ140
6)。
【0119】その後、現在の対象文が処理すべき最後の
文かどうか(他に処理する文が残っていないか)をチェ
ックする(ステップ303)。最後の文ではなかった場
合には、次の文を処理対象にセットして(ステップ30
5)、上述したステップ1401に戻る。一方、最後の
文であった場合には、文字列メモリの末尾に特殊文字を
N−1個だけ追加し(ステップ304)、一連の処理を
終了する。
【0120】(F−3)第6の実施形態の効果 この第6の実施形態によっても、第1の実施形態と同様
な効果を奏することができる。これに加えて、入力テキ
ストファイルにおける括弧の影響を除いたN−gram
データも作成することができるという効果を奏する。
【0121】(F−4)第6の実施形態の変形実施形態 なお、この第6の実施形態についても、第1、第2、第
4、第5の実施形態について説明した変形実施形態のう
ち、適用可能なものを適用できることは勿論である。
【0122】また、第1、第2、第4、第5の実施形態
の特徴とこの第6の実施形態の特徴とを共に有するよう
に自然言語統計データベース装置を構成しても良い。
【0123】(G)第7の実施形態 以下、本発明による自然言語統計データベース装置の第
7の実施形態を図面を参照しながら簡単に説明する。
【0124】図15は、第7の実施形態の自然言語統計
データベース装置の構成を示す機能ブロック図であり、
上述した図13との同一、対応部分には同一符号を付し
て示している。
【0125】図15及び図13の比較から明らかなよう
に、この第7の実施形態は、第6の実施形態の構成に加
えて、括弧内N−gramカウント部10を有するもの
であり、この括弧内N−gramカウント部10と、括
弧内文字列除去部9以外の構成要素は第1の実施形態と
同様に機能するものである。
【0126】第7の実施形態の括弧内文字列除去部9
は、1文に含まれている1組の括弧で挟まれた文字列
(括弧を含む)を除去して特殊文字付加部2に与えると
共に、除去した文字列のうち、括弧を除いた文字列を括
弧内N−gramカウント部10に与えるものである。
【0127】括弧内N−gramカウント部10は、括
弧内文字列除去部9から与えられた文字列に対して、第
5の実施形態の文間N−gramカウント部8と同様に
して、N−gramデータを作成してデータ統合部5に
与えるものである。
【0128】図16は、この第7の実施形態における括
弧内文字列除去部9、特殊文字付加部2及び文結合部3
の動作を示すフローチャートであり、上述した第6の実
施形態に係る図14のフローチャートとの同一ステップ
には同一符号を付して示している。
【0129】図14と異なる点は、ステップ1405の
処理に代えて、ステップ1601の処理を実行している
点であり、その他は、図14と同一である。ステップ1
601の処理は、開き括弧から閉じ括弧の間を読み飛ば
しながら、括弧以外の文字列を括弧内N−gramカウ
ント部10に送付処理である。すなわち、第6の実施形
態では、1組の括弧内の文字列を単に除去するものであ
ったが、この第7の実施形態は、括弧内N−gramカ
ウント部10に除去した文字列を送付し、これにより、
括弧内文字列に対するN−gramデータの作成を実行
できるようにしている。
【0130】この第7の実施形態によっても、第1の実
施形態と同様な効果を奏することができる。これに加え
て、入力テキストファイルにおける括弧の影響を除いた
N−gramデータを作成することができ、しかも、括
弧内文字列を1文と見なして得たN−gramデータも
作成することができる。
【0131】なお、この第7の実施形態についても、第
1〜第5の実施形態について説明した変形実施形態のう
ち、適用可能なものを適用できることは勿論である。
【0132】また、第1〜第5の実施形態の特徴とこの
第7の実施形態の特徴とを共に有するように自然言語統
計データベース装置を構成しても良い。
【0133】(H)第8の実施形態 以下、本発明による自然言語統計データベース装置の第
8の実施形態を図面を参照しながら詳述する。
【0134】この第8の実施形態の自然言語統計データ
ベース装置は、第1の実施形態と同様な特徴に加えて、
文区切りに係るN−gramデータの中から、文区切り
面から妥当でないものを検出して文区切り記号の前の文
字列をユーザに提示するという特徴を有するものであ
る。
【0135】(H−1)第8の実施形態の構成 図17は、第8の実施形態の自然言語統計データベース
装置の構成を示す機能ブロック図であり、上述した図1
との同一、対応部分には同一符号を付して示している。
【0136】図17及び図1の比較から明らかなよう
に、この第8の実施形態は、第1の実施形態の構成に加
えて、文区切り妥当性判定部11を有するものであり、
この文区切り妥当性判定部11以外の構成要素は第1の
実施形態と同様に機能するものである。なお、この第8
の実施形態の場合、データ統合部5は、N−gramデ
ータテーブル6に対するN−gramデータの格納が完
了したときに、文区切り妥当性判定部11の処理を起動
するようになされている。
【0137】文区切り妥当性判定部11は、N−gra
mデータテーブル6に格納されているN−gramデー
タの中から文区切りに係るN−gramデータを検出
し、さらに、その中から、文区切り面から妥当でないも
のを検出して文区切り記号の前の文字列をユーザに提示
するものである。
【0138】図示はしていないが、N−gramデータ
テーブル6に対する編集手段を設ければ、ユーザは提示
された文字列を確認し、必要ならば、その文字列に係る
N−gramデータを削除することができる。一般に、
データテーブルに対する編集手段は各種のものが適用さ
れており、そのような編集手段をN−gramデータテ
ーブル6に対する編集手段として適用すれば良い。
【0139】(H−2)第8の実施形態の動作 文区切り妥当性判定部11での動作以外は、第1の実施
形態と同様であるので、その説明は省略し、以下では、
文区切り妥当性判定部11の動作を図18のフローチャ
ートを参照しながら説明する。なお、図18は、Nが3
の場合の表現で記載している。
【0140】まず、N−gramデータテーブル6か
ら、N番目の文字種が特殊文字である全てのN−gra
mデータ(頻度値を含む)を取得する(ステップ180
1)。すなわち、任意の文字を「?」で表し、Nが3で
あると、「??#」に係るN−gramデータを取得す
る。
【0141】この処理で取得されるN−gramデータ
の大半は、N−1番目の文字種も特殊文字「#」か、N
−1番目の文字種が「。」や「.」などの文区切り文字
である。これは、テキストファイルを1文1行にする際
に、文区切り文字を検出して1文と判断することが多
く、各文に対して、上述したような特殊文字を付加して
N−gramデータを作成しているためである。
【0142】その後、取得したN−gramデータにつ
いて、N−1番目の文字種が同じN−gramデータの
頻度値(又は確率)を比較する(ステップ1802)。
ここで、比較は、頻度値がある程度以上のものだけで行
うようにしても良い。すなわち、頻度値が余りに少ない
ものは、N−1番目の文字種が「。」や「.」などの文
区切り文字でないことが多いためである。
【0143】このような比較の結果、相対的に頻度値
(又は確率)が小さいN−gramデータがあるか否か
を判断する(ステップ1803)。このようなN−gr
amデータがなければ、一連の処理を直ちに終了する。
一方、相対的に頻度値(又は確率)が小さいN−gra
mデータがあれば、そのN−gramデータから特殊文
字を除いた文字列(又はN−gramデータそのもの)
をユーザに提示して(ステップ1804)、一連の処理
を終了する。特殊文字の意味をユーザが理解しているこ
とは少ないので、N−gramデータから特殊文字を除
いた文字列をユーザに提示することが好ましい。
【0144】例えば、項目や段落の見出しに見出し番号
(例えば、「1.1.1」)が含まれているようなテキ
ストファイルであれば、N−gramデータ中に、
「1.#」というN−gramデータも出現するが、こ
れは文末用(文区切り用)のN−gramデータとして
は妥当でないが、文区切り文字を含んでいる。これの相
対的な出現頻度は少なく、「1.」をユーザに提示し
て、このN−gramデータの取り扱い(削除や残存)
をユーザに決定させることが好ましい。
【0145】(H−3)第8の実施形態の効果 この第8の実施形態によっても、第1の実施形態と同様
な効果を奏することができる。これに加えて、文区切り
文字を含みながら、文区切り用のN−gramデータと
して妥当出ないと思われるものをユーザに提示するよう
にしたので、その取り扱いをユーザが決定することがで
きるという効果を奏する。
【0146】(H−4)第8の実施形態の変形実施形態 なお、この第8の実施形態についても、第1〜第7の実
施形態について説明した変形実施形態のうち、適用可能
なものを適用できることは勿論である。
【0147】また、第2〜第7の実施形態の特徴とこの
第8の実施形態の特徴とを共に有するように自然言語統
計データベース装置を構成しても良い。
【0148】(I)他の実施形態 本発明の自然言語統計データベース装置は、その用途は
いかなるものであっても良く、種々の自然言語処理装置
に適用できるものである。また、種々の自然言語処理装
置は、本発明の自然言語統計データベース装置で形成さ
れたN−gramデータテーブル(第2の実施形態の場
合は特殊文字変換部を含む)だけを取り込んで利用する
ものであっても良い。
【0149】また、本発明の自然言語統計データベース
装置に係る自然言語も日本語に限定されるものではな
く、他の言語の入力文を対象としたものであっても良
い。
【0150】さらに、N−gramデータ処理部として
は、複数の文を結合したテキストファイルから、文を分
割処理することなくN−gramデータを作成できるも
のであれば、上記文献1に記載の手法に従うものに限定
されるものではない。
【0151】さらにまた、上記各実施形態では、N−g
ramデータが単なる文字列と頻度情報とでなるもので
あったが、文字列部分が、品詞情報などをタグとして付
加されている拡張文字の文字列であっても良い。特許請
求の範囲での「文字」の用語は、「拡張文字」を含む概
念とする。
【0152】
【発明の効果】以上のように、本発明によれば、複数の
文を有するテキストファイルから、文を分割することな
く、N個の文字列とその頻度情報とでなるN−gram
データを作成するN−gramデータ処理手段と、作成
されたN−gramデータを格納するN−gramデー
タ記憶手段とを有する自然言語統計データベース装置に
おいて、入力テキストファイルの先頭と末尾にN−1文
字の特殊文字を付加すると共に、テキストファイル中の
文と文との間にN−1文字の特殊文字を付加してN−g
ramデータ処理手段に与える特殊文字付加手段を有す
るので、大量のテキストデータから精度の高いN−gr
amデータを効率良く抽出して格納することができる。
【図面の簡単な説明】
【図1】第1の実施形態の機能的構成を示すブロック図
である。
【図2】第1の実施形態のファイル分割部〜N−gra
mデータ処理部の動作を示すフローチャートである。
【図3】第1の実施形態の特殊文字付加部及び文結合部
の動作を示すフローチャートである。
【図4】第1の実施形態のデータ統合部の動作を示すフ
ローチャートである。
【図5】第1の実施形態のN−gramデータ例を示す
説明図である。
【図6】第2の実施形態の機能的構成を示すブロック図
である。
【図7】第2の実施形態の特殊文字変換部の動作を示す
フローチャートである。
【図8】第3の実施形態の特殊文字付加部及び文結合部
の動作を示すフローチャートである。
【図9】第4の実施形態の機能的構成を示すブロック図
である。
【図10】第5の実施形態の機能的構成を示すブロック
図である。
【図11】第5の実施形態の特殊文字付加部及び文結合
部の動作を示すフローチャートである。
【図12】第5の実施形態の文間N−gramカウント
部の動作を示すフローチャートである。
【図13】第6の実施形態の機能的構成を示すブロック
図である。
【図14】第6の実施形態の括弧内文字列除去部〜文結
合部の動作を示すフローチャートである。
【図15】第7の実施形態の機能的構成を示すブロック
図である。
【図16】第7の実施形態の括弧内文字列除去部〜文結
合部の動作を示すフローチャートである。
【図17】第8の実施形態の機能的構成を示すブロック
図である。
【図18】第8の実施形態の文区切り妥当性判定部11
の動作を示すフローチャートである。
【符号の説明】
1…ファイル分割部、2…特殊文字付加部、3…文結合
部、4…N−gramデータ処理部、5…データ統合
部、6…N−gramデータテーブル、7…特殊文字変
換部、8…文間N−gramカウント部、9…括弧内文
字列除去部、10…括弧内N−gramカウント部、1
1…文区切り妥当性判定部、12…特殊文字指定部。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数の文を有するテキストファイルか
    ら、文を分割することなく、文字数Nの文字列とその頻
    度情報とでなるN−gramデータを作成するN−gr
    amデータ処理手段と、作成されたN−gramデータ
    を格納するN−gramデータ記憶手段とを有する自然
    言語統計データベース装置において、 入力テキストファイルの先頭と末尾にN−1文字の特殊
    文字を付加すると共に、テキストファイル中の文と文と
    の間にN−1文字の特殊文字を付加して上記N−gra
    mデータ処理手段に与える特殊文字付加手段を有するこ
    とを特徴とする自然言語統計データベース装置。
  2. 【請求項2】 テキストファイルを複数に分割する、上
    記特殊文字付加手段の前段又は後段に設けられたファイ
    ル分割手段と、 上記N−gramデータ処理手段によって得られた分割
    テキストファイル毎のN−gramデータを統合して上
    記N−gramデータ記憶手段に格納するデータ統合手
    段をさらに有することを特徴とする請求項1に記載の自
    然言語統計データベース装置。
  3. 【請求項3】 外部からの文頭又は文末のN−gram
    データの要求に対し、その要求が、上記N−gramデ
    ータ記憶手段に格納されている特殊文字を含むN−gr
    amデータの形式でない場合に、要求に係る文頭又は文
    末を規定する部分を特殊文字に変換して上記N−gra
    mデータ記憶手段をアクセスする特殊文字変換手段をさ
    らに有することを特徴とする請求項1又は2に記載の自
    然言語統計データベース装置。
  4. 【請求項4】 上記特殊文字付加手段に、付加する特殊
    文字を指定する特殊文字指定手段をさらに有することを
    特徴とする請求項1〜3のいずれかに記載の自然言語統
    計データベース装置。
  5. 【請求項5】 入力テキストファイル中の文と文との切
    れ目を挟む所定文字数の文間文字列を分離する文間文字
    列分離手段と、 分離された文間文字列からN−gramデータを作成す
    る文間N−gramデータ作成手段と、 この文間N−gramデータ作成手段によって作成され
    たN−gramデータを、上記N−gramデータ処理
    手段、又は、上記データ統合手段によるN−gramデ
    ータに統合して上記N−gramデータ記憶手段に格納
    する第2のデータ統合手段とをさらに有することを特徴
    とする請求項1〜4のいずれかに記載の自然言語統計デ
    ータベース装置。
  6. 【請求項6】 上記N−gramデータ記憶手段に格納
    されている、N番目の文字が特殊文字であって、N−1
    番目の文字が同一の複数のN−gramデータの頻度情
    報の相対的関係から、文区切り用のN−gramデータ
    として妥当性が弱いものを検出して出力する文区切り妥
    当性判定手段をさらに有することを特徴とする請求項1
    〜5のいずれかに記載の自然言語統計データベース装
    置。
  7. 【請求項7】 上記特殊文字付加手段は、開き括弧の直
    後にもN−1文字の特殊文字を付加するものであること
    を特徴とする請求項1〜6のいずれかに記載の自然言語
    統計データベース装置。
  8. 【請求項8】 テキストファイルの各文に、1組の括弧
    で挟まれた文字列があった場合に、括弧を含めその文字
    列を除去する括弧内文字列除去手段を、上記N−gra
    mデータ処理手段より前のいずれかの位置にさらに有す
    ることを請求項1〜6のいずれかに記載の自然言語統計
    データベース装置。
  9. 【請求項9】 上記括弧内文字列除去手段により除去さ
    れた文字列の括弧を除外した括弧内文字列からN−gr
    amデータを作成する括弧内N−gramデータ作成手
    段と、 この括弧内N−gramデータ作成手段によって作成さ
    れたN−gramデータを、上記N−gramデータ処
    理手段、上記データ統合手段、又は、上記第2のデータ
    統合手段によるN−gramデータに統合して上記N−
    gramデータ記憶手段に格納する第3のデータ統合手
    段とをさらに有することを特徴とする請求項8に記載の
    自然言語統計データベース装置。
JP35065197A 1997-12-19 1997-12-19 自然言語統計データベース装置 Expired - Fee Related JP4007661B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35065197A JP4007661B2 (ja) 1997-12-19 1997-12-19 自然言語統計データベース装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35065197A JP4007661B2 (ja) 1997-12-19 1997-12-19 自然言語統計データベース装置

Publications (2)

Publication Number Publication Date
JPH11184866A true JPH11184866A (ja) 1999-07-09
JP4007661B2 JP4007661B2 (ja) 2007-11-14

Family

ID=18411936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35065197A Expired - Fee Related JP4007661B2 (ja) 1997-12-19 1997-12-19 自然言語統計データベース装置

Country Status (1)

Country Link
JP (1) JP4007661B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078413A (ja) * 2002-08-13 2004-03-11 Canon Inc データ処理装置、データ処理方法およびそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078413A (ja) * 2002-08-13 2004-03-11 Canon Inc データ処理装置、データ処理方法およびそのプログラム

Also Published As

Publication number Publication date
JP4007661B2 (ja) 2007-11-14

Similar Documents

Publication Publication Date Title
US6353840B2 (en) User-defined search template for extracting information from documents
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
JP3220560B2 (ja) 機械翻訳装置
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
US6286014B1 (en) Method and apparatus for acquiring a file to be linked
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
US20100185438A1 (en) Method of creating a dictionary
US20040153312A1 (en) Speech recognition dictionary creation method and speech recognition dictionary creating device
JP4007661B2 (ja) 自然言語統計データベース装置
JPH10214268A (ja) 文書検索方法および装置
JPH0877196A (ja) 文書情報抽出装置
JP5123350B2 (ja) テストケース作成システム、方法およびプログラム
JPS61248160A (ja) 文書情報登録方式
RU172882U1 (ru) Устройство для автоматического перевода текста
JPH0883280A (ja) 文書処理装置
JPH0474259A (ja) 文書要約装置
JPH0561902A (ja) 機械翻訳システム
JP3924260B2 (ja) 節境界検出装置、機械翻訳装置及びコンピュータプログラム
JPH07152778A (ja) 文書検索装置
JPS6389976A (ja) 言語解析装置
JP2002183133A (ja) 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体
JPH0954781A (ja) 文書検索システム
JP2000029882A (ja) 要約文作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070828

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees