JP2000181916A - 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2000181916A
JP2000181916A JP10359709A JP35970998A JP2000181916A JP 2000181916 A JP2000181916 A JP 2000181916A JP 10359709 A JP10359709 A JP 10359709A JP 35970998 A JP35970998 A JP 35970998A JP 2000181916 A JP2000181916 A JP 2000181916A
Authority
JP
Japan
Prior art keywords
character type
block
line
character
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10359709A
Other languages
English (en)
Inventor
Kanji Uchino
寛治 内野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10359709A priority Critical patent/JP2000181916A/ja
Publication of JP2000181916A publication Critical patent/JP2000181916A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書解析の精度を向上させることができると
ともに、容易に文書の言語種およびブロック単位の機能
を判別することができる文書解析装置および方法ならび
に文書解析プログラムを記録したコンピュータ読み取り
可能な記録媒体を得ること。 【解決手段】 本発明は、複数行からなる文書ファイル
1 の文字種を文字単位で判定する文字単位文字種判定
部103と、上記文字単位の文字種の判定結果に基づい
て、同一文字種の連続性から行単位で文字種を判定する
行単位文字種判定部104と、上記行単位の文字種の判
定結果に基づいて、少なくとも同一の文字種の複数行を
1ブロックとしかつこのブロックの文字種を判定するブ
ロック単位文字種判定部105とを備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、たとえば、インタ
ーネットから収集した文書の解析に用いて好適な文書解
析装置および方法ならびに文書解析プログラムを記録し
たコンピュータ読み取り可能な記録媒体に関するもので
あり、特に、文書ファイルにおいてブロック単位で解析
を行うことができる文書解析装置および方法ならびに文
書解析プログラムを記録したコンピュータ読み取り可能
な記録媒体に関するものである。
【0002】従来より、大量の文書から重要語/関連語
などを抽出する自然言語処理においては、元となる文書
(たとえば、新聞、特許公報)が整形(機械可読化)さ
れたコーパスに対して処理が行われてきた。また、近時
においては、インターネットの急速な普及により、多種
多様な文書群を大量にしかも極めて短時間で収集可能と
なっている。このような背景から、大量の文書を用い
て、検索用のインデックスを作成したり、重要語/関連
語などを抽出したりする文書解析(自然言語処理)を効
率良く行う解析技術が求められている。
【0003】
【従来の技術】図20は、従来の文書検索装置1の構成
を示すブロック図である。この図において、文書ファイ
ルF1 〜F3 は、図示しないインターネットから収集可
能なものであり、電子化されたテキストのファイルであ
る。これらの文書ファイルF1〜F3 は、それぞれを構
成する文字を表す文字コードの集合であり、文書が日本
語である場合、上記文字コードとしては、JISコー
ド、シフトJISコード、EUC(Extended UNIX Cod
e:拡張UNIXコード)等が用いられる。
【0004】記憶部2は、上記文書ファイルF1
3 、後述する形態素解析データ、検索用のインデック
スデータ、辞書、言語モデル等を記憶する。文書ファイ
ル収集部3は、図示しないインターネットに接続されて
おり、上記文書ファイルF1 〜F 3 を収集した後、これ
らを記憶部2に記憶させる。
【0005】形態素解析部4は、記憶部2に記憶されて
いる文書ファイルF1 〜F3 をそれぞれファイル単位で
言語種判定し、文書ファイルF1 〜F3 のそれぞれにつ
いて判定された言語に適した形態素解析を上述した辞
書、言語モデル等を参照しつつ行う。ここで、言語種判
定とは、文書ファイルF1 〜F3 の各ファイルにおいて
用いられている言語の種類(たとえば、日本語、英語)
を判定することをいう。形態素解析とは、文がどのよう
な形態素(単語)で構成され、かつその形態素の品詞が
何であるのかを、辞書および言語モデルを参照しつつ解
析することをいう。たとえば、「今日は会社に行かなか
った」という日本文を形態素解析した場合には、つぎの
ような解析結果となる。 「今日」 副詞的名詞 「は」 係助詞 「会社」 名詞 「に」 格助詞 「行」 カ行5段動詞 「か」 未然形活用語尾 「な」 助動詞 「かっ」 形容詞連用形活用語尾 「た」 助動詞
【0006】また、形態素解析部4は、上記形態素解析
結果を記憶部2に記憶させる。インデックス生成部5
は、記憶部2に記憶された形態素解析結果から検索用の
インデックスを生成して、このインデックスデータを記
憶部2に記憶させる。
【0007】上記構成において、文書ファイル収集部3
は、インターネット(図示略)より文書ファイルF1
文書ファイルF2 および文書ファイルF3 を順次収集し
た後、これらを記憶部2に記憶させる。
【0008】つぎに、形態素解析部4は、たとえば、文
書ファイルF1 を記憶部2から読み出した後、文書ファ
イルF1 から得られる文書の言語種を判定する。具体的
には、形態素解析部4は、記憶部2に記憶されている辞
書、言語モデルに基づいて、言語(日本語、英語)の特
徴を示す語(日本語:ひらがな、カタカナ、英語:TH
E)が含まれる割合を求め、この割合によって当該文書
の言語種を判定する。たとえば、形態素解析部4は、当
該文書に「ひらがな、カタカナ」が5%以上含まれてい
る場合、当該文書の言語種を日本語として判定し、同様
にして「THE」が10%以上含まれている場合、当該
文書の言語種を英語として判定する。
【0009】つぎに、形態素解析部4は、上記文書ファ
イルF1 について判定された言語種(たとえば、日本
語)に適した形態素解析を、記憶部2に記憶されている
日本語用の辞書、言語モデル等を参照しつつ行った後、
形態素解析結果を記憶部2に記憶させる。そして、イン
デックス生成部5は、記憶部2に記憶された上記形態素
解析結果から検索用のインデックスを生成して、このイ
ンデックスデータを記憶部2に記憶させる。
【0010】
【発明が解決しようとする課題】ところで、前述したよ
うに文書ファイルF1 〜F3 の伝送媒体であるインター
ネットにおいては、世界中の多種多様な言語で書かれた
文書ファイルが存在するとともに、単一の言語で書かれ
た文書に他言語で書かれた文書がノイズ文書として1つ
の文書ファイルに紛れこむことがある。上記ノイズ文書
としては、上記他言語以外にも、アスキーアートのよう
な記号のみからなる部分または文書、uuencode
などでエンコードされた部分または文書、メールやニュ
ースのヘッダ部分、伝送路ノイズによって文字化けした
部分等が挙げられる。
【0011】一例として、図21は、文書ファイルF1
においてノイズ文書が紛れ込んだ場合の一例を示す図で
ある。この図からわかるように、文書ファイルF1 は、
英語の文書(1行目〜7行目)、中国語の文書(9行
目、11行目〜13行目)、日本語の文書(15行目お
よび16行目)、エンコードされた文書(18行目〜2
3行目)という複数種類の文書からなる。ここで、日本
語を目的言語とした場合は、文書ファイルF1 における
英語、中国語およびエンコードされた文書は、ノイズ文
書(非可読文書)に該当する。
【0012】ここで、従来の文書解析装置1において
は、文書解析(自然言語処理)対象である文書ファイル
1 〜F3 が整形された文書であることが大前提とされ
ている。すなわち、文書ファイルF1 〜F3 が単一の言
語(日本語または英語)で書かれた文書のファイルであ
ることが、正常動作の条件の一つとされている。
【0013】したがって、従来の文書解析装置1におい
ては、図21に示すようなノイズ文書を含む文書ファイ
ルF1 が入力された場合、文書解析結果の精度が低くな
ってしまう。すなわち、図21に示す文書ファイルF1
が文書解析装置1に入力されると、文書解析装置1は、
ファイル全体をたとえば英語と判定した後、この言語種
判定結果にしたがって、文書ファイルF1 の全体の文書
を英語として、形態素解析を行う。
【0014】この英語の形態素解析において、図21の
1行目から7行目までの英語文書については、正常に形
態素解析が行われるが、これら以外の行の中国語文書、
日本語文書およびエンコードされた文書については、形
態素解析が英語に基づいて行われるため、形態素解析結
果(文書解析)の精度がほぼゼロになってしまう。
【0015】また、従来の文書解析装置1においては、
文書ファイルF1 の言語種判別時および機能判別時に辞
書や大がかりな言語モデルが用いられているため、判別
手法が複雑になってしまうという問題があった。さら
に、従来の文書解析装置1においては、文書ファイルF
1 という1ファイル単位で文書の機能しか判別されない
ため、文書ファイルF1 におけるたとえばブロック(部
分)単位で機能判別を行うことができない。
【0016】本発明はこのような背景の下になされたも
ので、文書解析の精度を向上させることができるととも
に、容易に文書の言語種およびブロック単位の機能を判
別することができる文書解析装置および方法ならびに文
書解析プログラムを記録したコンピュータ読み取り可能
な記録媒体を提供することを目的とする。
【0017】
【課題を解決するための手段】上記目的を達成するため
に、請求項1にかかる文書解析装置は、複数行からなる
1ファイル単位の電子化文書に対して、各行毎に文字種
の連続性に基づいて行の文字種を判定して、各行と該各
行に対応する文字種との関係を表すテーブルを生成する
行単位文字種判定手段(後述する実施の形態1の行単位
文字種判定部104に相当)と、前記テーブルを参照し
て、前記1ファイルにおいて、少なくとも同種の文字種
からなる複数の行を1ブロックとするブロック化手段
(後述する実施の形態1のブロック単位文字種判定部1
05に相当)と、前記ブロック化手段によりブロック化
された各ブロックの文字種を前記テーブルに基づいて判
定するブロック単位文字種判定手段(後述する実施の形
態1のブロック単位文字種判定部105に相当)と、前
記各ブロックにおいて、非可読な文字種の当該ブロック
を抽出する抽出手段(後述する実施の形態1のブロック
単位文字種判定部105、文字種入力部106および出
力部107に相当)とを備えることを特徴とする。
【0018】この請求項1に記載の発明によれば、行単
位文字種判定手段により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化手
段により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定手段により各
ブロックの文字種が判定される。そして、抽出手段によ
り非可読な文字種の当該ブロックが抽出される。
【0019】このように請求項1に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0020】また、請求項1に記載の発明によれば、文
字種の連続性に基づいてブロック単位の文字種の判別が
行われるので、従来のような辞書や大がかりな言語モデ
ルを用いることなく容易に文字種の判別をブロック単位
で行うことができる。
【0021】請求項2にかかる文書解析装置は、複数行
からなる1ファイル単位の電子化文書に対して、各行毎
に文字種の連続性に基づいて行の文字種を判定して、各
行と該各行に対応する文字種との関係を表すテーブルを
生成する行単位文字種判定手段と、前記テーブルを参照
して、前記1ファイルにおいて、少なくとも同種の文字
種からなる複数の行を1ブロックとするブロック化手段
と、前記ブロック化手段によりブロック化された各ブロ
ックの文字種を前記テーブルに基づいて判定するブロッ
ク単位文字種判定手段と、前記各ブロックにおいて、非
可読な文字種の当該ブロックを判定する非可読判定手段
(後述する実施の形態1のブロック単位文字種判定部1
05に相当)と、前記各ブロックの中から、前記非可読
判定手段により判定されたブロック以外のブロックを可
読ブロックとして抽出する抽出手段(後述する実施の形
態1の文字種入力部106および出力部107に相当)
とを備えることを特徴とする。
【0022】この請求項2に記載の発明によれば、行単
位文字種判定手段により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化手
段により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定手段により各
ブロックの文字種が判定される。つぎに、可読判定手段
により非可読な文字種の当該ブロックが判定された後、
抽出手段により、上記非可読な文字種のブロック以外の
ブロックが可読ブロックとして抽出される。
【0023】このように請求項2に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0024】また、請求項2に記載の発明によれば、文
字種の連続性に基づいてブロック単位の文字種の判別が
行われるので、従来のような辞書や大がかりな言語モデ
ルを用いることなく容易に文字種の判別をブロック単位
で行うことができる。
【0025】請求項3にかかる文書解析装置は、複数行
からなる1ファイル単位の電子化文書に対して、各行毎
に文字種の連続性に基づいて行の文字種を判定して、各
行と該各行に対応する文字種との関係を表すテーブルを
生成する行単位文字種判定手段と、前記テーブルを参照
して、前記1ファイルにおいて、少なくとも同種の文字
種からなる複数の行を1ブロックとするブロック化手段
と、前記ブロック化手段によりブロック化された各ブロ
ックの文字種を前記テーブルに基づいて判定するブロッ
ク単位文字種判定手段と、文字種を指定する文字種指定
手段(後述すえう実施の形態1の文字種入力部106に
相当)と、前記各ブロックの中から、前記文字種指定手
段により指定された文字種のブロックを抽出する抽出手
段(後述する実施の形態1のブロック単位文字種判定部
105および出力部107に相当)とを備えることを特
徴とする。
【0026】この請求項3に記載の発明によれば、行単
位文字種判定手段により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化手
段により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定手段により各
ブロックの文字種が判定される。つぎに、非可読判定手
段により非可読な文字種の当該ブロックが判定された
後、抽出手段により、文字種指定手段により指定された
文字種のブロックが抽出される。
【0027】このように請求項3に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0028】また、請求項3に記載の発明によれば、文
字種の連続性に基づいてブロック単位の文字種の判別が
行われるので、従来のような辞書や大がかりな言語モデ
ルを用いることなく容易に文字種の判別をブロック単位
で行うことができる。
【0029】請求項4にかかる文書解析装置は、複数行
からなる1ファイル単位の電子化文書に対して、各行毎
に文字種の連続性に基づいて行の文字種を判定して、各
行と該各行に対応する文字種との関係を表すテーブルを
生成する行単位文字種判定手段と、前記テーブルを参照
して、前記1ファイルにおいて、少なくとも同種の文字
種からなる複数の行を1ブロックとするブロック化手段
と、前記ブロック化手段によりブロック化された各ブロ
ックの文字種を前記テーブルに基づいて判定するブロッ
ク単位文字種判定手段と、前記テーブルに基づいて、前
記各ブロック毎に記述されている言語種を判定する言語
種判定手段(後述する実施の形態2の言語判定部201
に相当)とを備えることを特徴とする。
【0030】この請求項4に記載の発明によれば、行単
位文字種判定手段により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化手
段により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定手段により各
ブロックの文字種が判定される。つぎに、言語種判定手
段によりテーブルに基づいて記述されている言語種が判
定される。
【0031】このように、請求項4に記載の発明によれ
ば、テーブル、すなわち文字種の連続性に基づいて、ブ
ロック単位で言語種を判別しているので、従来のような
辞書や大がかりな言語モデルを用いることなく容易に言
語種の判別をブロック単位で行うことができる。
【0032】請求項5にかかる文書解析装置は、請求項
4に記載の文書解析装置において、複数種の言語にそれ
ぞれ対応して設けられ、前記複数種の言語の文書に対し
て形態素解析をそれぞれ行う複数の形態素解析手段(後
述する実施の形態2の日本語形態素解析部204、英語
形態素解析部205および中国語形態素解析部206に
相当)と、前記言語種判定手段により判定された前記言
語種のブロックのデータを、当該言語種に対応する前記
形態素解析手段へ出力する出力手段(後述する実施の形
態2の出力部203に相当)とを備えることを特徴とす
る。
【0033】この請求項5に記載の発明によれば、出力
手段から形態素解析手段へ言語種判定手段により判定さ
れた言語種のブロックが出力されると、形態素解析手段
によりその言語種に適合した形態素解析が行われる。
【0034】このように請求項5に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて、しかも当該言語種に
適合した形態素解析が可能となるので、非可読ブロック
を含む電子化文書であってもさらに高い精度で文書解析
を行うことができる。
【0035】請求項6にかかる文書解析装置は、複数行
からなる1ファイル単位の電子化文書に対して、各行毎
に文字種の連続性に基づいて行の文字種を判定して、各
行と該各行に対応する文字種との関係を表すテーブルを
生成する行単位文字種判定手段と、前記テーブルを参照
して、前記1ファイルにおいて、少なくとも同種の文字
種からなる複数の行を1ブロックとするブロック化手段
と、前記ブロック化手段によりブロック化された各ブロ
ックの文字種を前記テーブルに基づいて判定するブロッ
ク単位文字種判定手段と、前記テーブルに基づいて、前
記各ブロックにおける機能を判定する機能判定手段(後
述する実施の形態3の機能判定部302に相当)とを備
えることを特徴とする。
【0036】この請求項6に記載の発明によれば、行単
位文字種判定手段により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化手
段により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定手段により各
ブロックの文字種が判定される。そして、機能判定手段
により当該ブロックにおける機能が判定される。
【0037】また、請求項6に記載の発明によれば、文
字種の連続性に基づいてブロック単位の文字種の判別を
行った後にこの判別結果に基づいてブロックの機能を判
別しているので、従来のような辞書や大がかりな言語モ
デルを用いることなく容易に機能の判別をブロック単位
で行うことができる。
【0038】請求項7にかかる文書解析方法は、複数行
からなる1ファイル単位の電子化文書に対して、各行毎
に文字種の連続性に基づいて行の文字種を判定して、各
行と該各行に対応する文字種との関係を表すテーブルを
生成する行単位文字種判定工程(後述する実施の形態1
のステップSA30に相当)と、前記テーブルを参照し
て、前記1ファイルにおいて、少なくとも同種の文字種
からなる複数の行を1ブロックとするブロック化工程
(後述する実施の形態1のステップSA40に相当)
と、前記ブロック化工程によりブロック化された各ブロ
ックの文字種を前記テーブルに基づいて判定するブロッ
ク単位文字種判定工程(後述する実施の形態1のステッ
プSA40に相当)と、前記各ブロックにおいて、非可
読な文字種の当該ブロックを抽出させる抽出工程(後述
する実施の形態1のステップSA40、ステップSA5
0およびステップSA60に相当)とを含むことを特徴
とする。
【0039】この請求項7に記載の発明によれば、行単
位文字種判定工程により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化工
程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。そして、抽出工程によ
り非可読な文字種の当該ブロックが抽出される。
【0040】このように請求項7に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0041】また、請求項7に記載の発明によれば、文
字種の連続性に基づいてブロック単位の文字種の判別が
行われるので、従来のような辞書や大がかりな言語モデ
ルを用いることなく容易に文字種の判別をブロック単位
で行うことができる。
【0042】請求項8にかかる文書解析方法は、複数行
からなる1ファイル単位の電子化文書に対して、各行毎
に文字種の連続性に基づいて行の文字種を判定して、各
行と該各行に対応する文字種との関係を表すテーブルを
生成する行単位文字種判定工程と、前記テーブルを参照
して、前記1ファイルにおいて、少なくとも同種の文字
種からなる複数の行を1ブロックとするブロック化工程
と、前記ブロック化工程によりブロック化された各ブロ
ックの文字種を前記テーブルに基づいて判定するブロッ
ク単位文字種判定工程と、前記各ブロックにおいて、非
可読な文字種の当該ブロックを判定させる非可読判定工
程(後述する実施の形態1のステップSA40に相当)
と、前記各ブロックの中から、前記非可読判定工程によ
り判定されたブロック以外のブロックを可読ブロックと
して抽出させる抽出工程(後述する実施の形態1のステ
ップSA40、ステップSA50およびステップSA6
0に相当)とを含むことを特徴とする。
【0043】この請求項8に記載の発明によれば、行単
位文字種判定工程により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化工
程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。つぎに、可読判定工程
により非可読な文字種の当該ブロックが判定された後、
抽出工程により、上記非可読な文字種のブロック以外の
ブロックが可読ブロックとして抽出される。
【0044】このように請求項8に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0045】また、請求項8に記載の発明によれば、文
字種の連続性に基づいてブロック単位の文字種の判別が
行われるので、従来のような辞書や大がかりな言語モデ
ルを用いることなく容易に文字種の判別をブロック単位
で行うことができる。
【0046】請求項9にかかる文書解析方法は、複数行
からなる1ファイル単位の電子化文書に対して、各行毎
に文字種の連続性に基づいて行の文字種を判定し、各行
と該各行に対応する文字種との関係を表すテーブルを生
成させる行単位文字種判定工程と、前記テーブルを参照
して、前記1ファイルにおいて、少なくとも同種の文字
種からなる複数の行を1ブロックとするブロック化工程
と、前記ブロック化工程によりブロック化された各ブロ
ックの文字種を前記テーブルに基づいて判定するブロッ
ク単位文字種判定工程と、文字種を指定する文字種指定
工程(後述する実施の形態1のステップSA50に相
当)と、前記各ブロックの中から、前記文字種指定工程
により指定された文字種のブロックを抽出する抽出工程
(後述する実施の形態1のステップSA40、ステップ
SA50およびステップSA60に相当)とを含むこと
を特徴とする。
【0047】この請求項9に記載の発明によれば、行単
位文字種判定工程により1ファイル単位の電子化文書に
対して、各行毎に文字種の連続性に基づいて行の文字種
が判定された後、各行と該各行に対応する文字種との関
係を表すテーブルが生成される。そして、ブロック化工
程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。つぎに、非可読判定工
程により非可読な文字種の当該ブロックが判定された
後、抽出工程により、文字種指定工程により指定された
文字種のブロックが抽出される。
【0048】このように請求項9に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0049】請求項10にかかる文書解析方法は、複数
行からなる1ファイル単位の電子化文書に対して、各行
毎に文字種の連続性に基づいて行の文字種を判定して、
各行と該各行に対応する文字種との関係を表すテーブル
を生成する行単位文字種判定工程と、前記テーブルを参
照して、前記1ファイルにおいて、少なくとも同種の文
字種からなる複数の行を1ブロックとするブロック化工
程と、前記ブロック化工程によりブロック化された各ブ
ロックの文字種を前記テーブルに基づいて判定するブロ
ック単位文字種判定工程と、前記テーブルに基づいて、
前記各ブロック毎に記述されている言語種を判定する言
語種判定工程(後述する実施の形態2のステップSB5
0に相当)とを含むことを特徴とする。
【0050】また、請求項10に記載の発明によれば、
文字種の連続性に基づいてブロック単位の文字種の判別
が行われるので、従来のような辞書や大がかりな言語モ
デルを用いることなく容易に文字種の判別をブロック単
位で行うことができる。
【0051】この請求項10に記載の発明によれば、行
単位文字種判定工程により1ファイル単位の電子化文書
に対して、各行毎に文字種の連続性に基づいて行の文字
種が判定された後、各行と該各行に対応する文字種との
関係を表すテーブルが生成される。そして、ブロック化
工程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。つぎに、言語種判定工
程によりテーブルに基づいて記述されている言語種が判
定される。
【0052】このように、請求項10に記載の発明によ
れば、テーブル、すなわち文字種の連続性に基づいて、
ブロック単位で言語種を判別しているので、従来のよう
な辞書や大がかりな言語モデルを用いることなく容易に
言語種の判別をブロック単位で行うことができる。
【0053】請求項11にかかる文書解析方法は、請求
項10に記載の文書解析方法において、前記言語種判定
工程により判定された前記言語種のブロックのデータに
基づいて、当該ブロックに対して当該言語種に適した形
態素解析を行わせる形態素解析工程(後述する実施の形
態2のステップSB70、ステップSB90およびステ
ップSB110に相当)とを含むことを特徴とする。
【0054】この請求項11に記載の発明によれば、形
態素解析工程においては、言語種判定工程により判定さ
れた言語種のブロックのデータに基づいて、当該ブロッ
クに対して当該言語種に適した形態素解析が行われる。
【0055】このように請求項11に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて、しかも当該言語種に
適合した形態素解析が可能となるので、非可読ブロック
を含む電子化文書であってもさらに高い精度で文書解析
を行うことができる。
【0056】請求項12にかかる文書解析方法は、複数
行からなる1ファイル単位の電子化文書に対して、各行
毎に文字種の連続性に基づいて行の文字種を判定して、
各行と該各行に対応する文字種との関係を表すテーブル
を生成する行単位文字種判定工程と、前記テーブルを参
照して、前記1ファイルにおいて、少なくとも同種の文
字種からなる複数の行を1ブロックとするブロック化工
程と、前記ブロック化工程によりブロック化された各ブ
ロックの文字種を前記テーブルに基づいて判定するブロ
ック単位文字種判定工程と、前記テーブルに基づいて、
前記各ブロックにおける機能を判定する機能判定工程
(後述する実施の形態3のステップSC60に相当)と
を含むことを特徴とする。
【0057】この請求項12に記載の発明によれば、行
単位文字種判定工程により1ファイル単位の電子化文書
に対して、各行毎に文字種の連続性に基づいて行の文字
種が判定された後、各行と該各行に対応する文字種との
関係を表すテーブルが生成される。そして、ブロック化
工程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。そして、機能判定工程
により当該ブロックにおける機能が判定される。
【0058】また、請求項12に記載の発明によれば、
文字種の連続性に基づいてブロック単位の文字種の判別
を行った後にこの判別結果に基づいてブロックの機能を
判別しているので、従来のような辞書や大がかりな言語
モデルを用いることなく容易に機能の判別をブロック単
位で行うことができる。
【0059】請求項13にかかる文書解析プログラムを
記録したコンピュータ読み取り可能な記録媒体は、複数
行からなる1ファイル単位の電子化文書に対して、各行
毎に文字種の連続性に基づいて行の文字種を判定させ、
各行と該各行に対応する文字種との関係を表すテーブル
を生成させる行単位文字種判定工程と、前記テーブルを
参照させ、前記1ファイルにおいて、少なくとも同種の
文字種からなる複数の行を1ブロックとさせるブロック
化工程と、前記ブロック化工程によりブロック化された
各ブロックの文字種を前記テーブルに基づいて判定させ
るブロック単位文字種判定工程と、前記各ブロックにお
いて、非可読な文字種の当該ブロックを抽出させる抽出
工程とをコンピュータに実行させるためのものである。
【0060】この請求項13に記載の発明によれば、行
単位文字種判定工程により1ファイル単位の電子化文書
に対して、各行毎に文字種の連続性に基づいて行の文字
種が判定された後、各行と該各行に対応する文字種との
関係を表すテーブルが生成される。そして、ブロック化
工程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。そして、抽出工程によ
り非可読な文字種の当該ブロックが抽出される。
【0061】このように請求項13に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0062】また、請求項13に記載の発明によれば、
文字種の連続性に基づいてブロック単位の文字種の判別
が行われるので、従来のような辞書や大がかりな言語モ
デルを用いることなく容易に文字種の判別をブロック単
位で行うことができる。
【0063】請求項14にかかる文書解析プログラムを
記録したコンピュータ読み取り可能な記録媒体は、複数
行からなる1ファイル単位の電子化文書に対して、各行
毎に文字種の連続性に基づいて行の文字種を判定させ、
各行と該各行に対応する文字種との関係を表すテーブル
を生成させる行単位文字種判定工程と、前記テーブルを
参照させ、前記1ファイルにおいて、少なくとも同種の
文字種からなる複数の行を1ブロックとさせるブロック
化工程と、前記ブロック化工程によりブロック化された
各ブロックの文字種を前記テーブルに基づいて判定させ
るブロック単位文字種判定工程と、前記各ブロックにお
いて、非可読な文字種の当該ブロックを判定させる非可
読判定工程と、前記各ブロックの中から、前記非可読判
定工程により判定されたブロック以外のブロックを可読
ブロックとして抽出させる抽出工程とをコンピュータに
実行させるためのものである。
【0064】この請求項14に記載の発明によれば、行
単位文字種判定工程により1ファイル単位の電子化文書
に対して、各行毎に文字種の連続性に基づいて行の文字
種が判定された後、各行と該各行に対応する文字種との
関係を表すテーブルが生成される。そして、ブロック化
工程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。つぎに、可読判定工程
により非可読な文字種の当該ブロックが判定された後、
抽出工程により、上記非可読な文字種のブロック以外の
ブロックが可読ブロックとして抽出される。
【0065】このように請求項14に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0066】また、請求項14に記載の発明によれば、
文字種の連続性に基づいてブロック単位の文字種の判別
が行われるので、従来のような辞書や大がかりな言語モ
デルを用いることなく容易に文字種の判別をブロック単
位で行うことができる。
【0067】請求項15にかかる文書解析プログラムを
記録したコンピュータ読み取り可能な記録媒体は、複数
行からなる1ファイル単位の電子化文書に対して、各行
毎に文字種の連続性に基づいて行の文字種を判定させ、
各行と該各行に対応する文字種との関係を表すテーブル
を生成させる行単位文字種判定工程と、前記テーブルを
参照させ、前記1ファイルにおいて、少なくとも同種の
文字種からなる複数の行を1ブロックとさせるブロック
化工程と、前記ブロック化工程によりブロック化された
各ブロックの文字種を前記テーブルに基づいて判定させ
るブロック単位文字種判定工程と、文字種を指定させる
文字種指定工程と、前記各ブロックの中から、前記文字
種指定工程により指定された文字種のブロックを抽出さ
せる抽出工程とをコンピュータに実行させるためのもの
である。
【0068】この請求項15に記載の発明によれば、行
単位文字種判定工程により1ファイル単位の電子化文書
に対して、各行毎に文字種の連続性に基づいて行の文字
種が判定された後、各行と該各行に対応する文字種との
関係を表すテーブルが生成される。そして、ブロック化
工程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。つぎに、非可読判定工
程により非可読な文字種の当該ブロックが判定された
後、抽出工程により、文字種指定工程により指定された
文字種のブロックが抽出される。
【0069】このように請求項15に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて文書解析が可能となる
ので、非可読ブロックを含む電子化文書であっても高い
精度で文書解析を行うことができる。
【0070】また、請求項15に記載の発明によれば、
文字種の連続性に基づいてブロック単位の文字種の判別
が行われるので、従来のような辞書や大がかりな言語モ
デルを用いることなく容易に文字種の判別をブロック単
位で行うことができる。
【0071】請求項16にかかる文書解析プログラムを
記録したコンピュータ読み取り可能な記録媒体は、複数
行からなる1ファイル単位の電子化文書に対して、各行
毎に文字種の連続性に基づいて行の文字種を判定させ、
各行と該各行に対応する文字種との関係を表すテーブル
を生成させる行単位文字種判定工程と、前記テーブルを
参照させ、前記1ファイルにおいて、少なくとも同種の
文字種からなる複数の行を1ブロックとさせるブロック
化工程と、前記ブロック化工程によりブロック化された
各ブロックの文字種を前記テーブルに基づいて判定させ
るブロック単位文字種判定工程と、前記テーブルに基づ
いて、前記各ブロック毎に記述されている言語種を判定
させる言語種判定工程とをコンピュータに実行させるた
めのものである。
【0072】この請求項16に記載の発明によれば、行
単位文字種判定工程により1ファイル単位の電子化文書
に対して、各行毎に文字種の連続性に基づいて行の文字
種が判定された後、各行と該各行に対応する文字種との
関係を表すテーブルが生成される。そして、ブロック化
工程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。つぎに、言語種判定工
程によりテーブルに基づいて記述されている言語種が判
定される。
【0073】このように、請求項16に記載の発明によ
れば、テーブル、すなわち文字種の連続性に基づいて、
ブロック単位で言語種を判別しているので、従来のよう
な辞書や大がかりな言語モデルを用いることなく容易に
言語種の判別をブロック単位で行うことができる。
【0074】請求項17にかかる文書解析プログラムを
記録したコンピュータ読み取り可能な記録媒体は、請求
項16に記載の文書解析プログラムを記録したコンピュ
ータ読み取り可能な記録媒体において、前記言語種判定
工程により判定された前記言語種のブロックのデータに
基づいて、当該ブロックに対して当該言語種に適した形
態素解析を行わせる形態素解析工程とを含むことを特徴
とする。
【0075】この請求項17に記載の発明によれば、形
態素解析工程においては、言語種判定工程により判定さ
れた言語種のブロックのデータに基づいて、当該ブロッ
クに対して当該言語種に適した形態素解析が行われる。
【0076】このように請求項17に記載の発明によれ
ば、1ファイル単位の電子化文書から非可読ブロックが
排除された可読ブロックを用いて、しかも当該言語種に
適合した形態素解析が可能となるので、非可読ブロック
を含む電子化文書であってもさらに高い精度で文書解析
を行うことができる。
【0077】請求項18にかかる文書解析プログラムを
記録したコンピュータ読み取り可能な記録媒体は、複数
行からなる1ファイル単位の電子化文書に対して、各行
毎に文字種の連続性に基づいて行の文字種を判定させ、
各行と該各行に対応する文字種との関係を表すテーブル
を生成させる行単位文字種判定工程と、前記テーブルを
参照させ、前記1ファイルにおいて、少なくとも同種の
文字種からなる複数の行を1ブロックとさせるブロック
化工程と、前記ブロック化工程によりブロック化された
各ブロックの文字種を前記テーブルに基づいて判定させ
るブロック単位文字種判定工程と、前記テーブルに基づ
いて、前記各ブロックにおける機能を判定させる機能判
定工程とをコンピュータに実行させるためのものであ
る。
【0078】この請求項18に記載の発明によれば、行
単位文字種判定工程により1ファイル単位の電子化文書
に対して、各行毎に文字種の連続性に基づいて行の文字
種が判定された後、各行と該各行に対応する文字種との
関係を表すテーブルが生成される。そして、ブロック化
工程により、テーブルが参照されて、1ファイルにおい
て、少なくとも同種の文字種からなる複数の行が1ブロ
ックとされた後、ブロック単位文字種判定工程により各
ブロックの文字種が判定される。そして、機能判定工程
により当該ブロックにおける機能が判定される。
【0079】また、請求項18に記載の発明によれば、
文字種の連続性に基づいてブロック単位の文字種の判別
を行った後にこの判別結果に基づいてブロックの機能を
判別しているので、従来のような辞書や大がかりな言語
モデルを用いることなく容易に機能の判別をブロック単
位で行うことができる。
【0080】
【発明の実施の形態】以下、図面を参照して本発明にか
かる文書解析装置および方法ならびに文書解析プログラ
ムを記録したコンピュータ読み取り可能な記録媒体の実
施の形態1〜3について詳述する。
【0081】(実施の形態1)図1は本発明の実施の形
態1による文書解析装置100の構成を示すブロック図
である。この図において、図20および図21の各部に
対応する部分には同一の符号を付ける。
【0082】図1に示す文書ファイルF1 〜F3 は、図
示しないインターネットから収集可能なものであり、電
子化されたテキストのファイルである。これらの文書フ
ァイルF1 〜F3 は、それぞれを構成する文字を表す文
字コードの集合であり、前述したように文書が日本語で
ある場合、上記文字コードとしては、JISコード、シ
フトJISコード、EUC(Extended UNIX Code:拡張
UNIXコード)等が用いられる。
【0083】ここで、上記文書ファイルF1 〜文書ファ
イルF3 を構成する文字の種類(以下、文字種と称す
る)には、つぎの(1A)項から(5A)項に列挙する
5種類がある。 (1A) 半角英数字/記号(具体例:A、B、1、
2、!、@、・・・ ) (2A) ひらがな(具体例:あ、い、・・・ ) (3A) カタカナ(具体例:ア、イ、・・・ ) (4A) 漢字(具体例:亜、伊、・・・ ) (5A) 制御文字(具体例:改行マーク、空白部分)
【0084】また、文書ファイルF1 〜文書ファイルF
3 を構成する文字を上述したEUCで表現した場合、各
文字種と対応する文字コード値とは、つぎの(1B)項
〜(5B)項に列挙するように対応付けられる。 (1B) 半角英数字/記号→文字コード値:0x21〜0x
7e (2B) ひらがな→文字コード値:上位バイトが0xa4
以上 (3B) カタカナ→文字コード値:上位バイトが0x5a
以上 (4B) 漢字→文字コード値:上位バイトが0xb0以上 (5B) 制御文字→文字コード値:0x00〜0x20
【0085】記憶部101は、上記文書ファイルF1
3 、文字配列テーブルT1 (図4参照)、行配列テー
ブルT2 (図6参照)、ブロックテーブルT3 (図9参
照)等を記憶する。なお、上記文字配列テーブルT1
行配列テーブルT2 およびブロックテーブルT3 の詳細
については後述する。
【0086】文字単位文字種判定部103は、文書ファ
イルF1 〜文書ファイルF3 から得られる文書における
文字種を1文字単位で判定する。具体的には、文字単位
文字種判定部103は、上述した(1B)項〜(5B)
項に列挙する文字種と文字コード値との対応関係にした
がって、上記文書における各文字の文字コード値から文
字種を判定する。また、文字単位文字種判定部103
は、上記文字種を判定したとき当該文字種が英数字/記
号であるとき文字種判定結果を英数字/記号Sとし、ま
た、当該文字種がひらがなまたはカタカナであるとき文
字種判定結果をひらがな/カタカナHとする。
【0087】同様にして、文字単位文字種判定部103
は、当該文字種が漢字であるとき文字種判定結果を漢字
Kとし、また当該文字種が制御文字であるとき文字種判
定結果を制御文字Cとする。なお、文字単位文字種判定
部103は、当該文字のコードが上述した(1B)項〜
(5B)項のいずれの文字コードにも該当しない場合に
は、文字種判定結果を不明とする。さらに、文字単位文
字種判定部103は、上記判定結果(英数字/記号S、
ひらがな/カタカナH、漢字Kおよび制御文字C)を図
4に示す文字配列テーブルT1 に登録する。この文字配
列テーブルT1は、図21に示す文書ファイルF1 から
得られる文書における各行毎に文字単位で文字種判定結
果(英数字/記号S等)が登録されたテーブルである。
【0088】行単位文字種判定部104は、文字配列テ
ーブルT1 (図4参照)に基づいて、各行単位で文字種
を判定するものであり、文字種判定結果を図6に示す行
配列テーブルT2 に登録する。具体的には、行単位文字
種判定部104は、図4に示す文字配列テーブルT1
り1行単位で文字種判定結果を読み出し、この1行分の
文字種判定結果において同一の文字種判定結果が連続す
るもののうち、最長の文字種判定結果を最長文字種と
し、かつこの最長文字種の文字列長を求めた後、これら
の最長文字種/文字列長を図6に示す行配列テーブルT
2 に登録する。
【0089】図6に示す例では、1行目の「S8」にお
いて「S」は、文書ファイルF1 (図21参照)におけ
る1行目の最長文字種が英数字/記号Sであり、「8」
は、この英数字/記号Sの文字列が8列連続しているこ
とを意味している。
【0090】図1に戻り、ブロック単位文字種判定部1
05は、図6に示す行配列テーブルT2 、ならびに図8
に示すブロック文字種判定条件およびその対応に基づい
て、文書ファイルF1 〜文書ファイルF3 から得られる
各文書におけるブロック単位の文字種を判定した後、こ
の文字種判定結果を図9に示すブロックテーブルT3
登録する。ここでいうブロックとは、図21に示すブロ
ックBL1 〜BL4 のような、文書ファイルF1 におい
て同一の文字種からなる複数行(または単一行)の文書
の集合をいう。
【0091】図21に示す例では、ブロックBL1 は、
1行目から7行目までの文書の集合であり、その文字種
判定結果が英数字/記号Sとされ、ブロックBL2 は、
9行目から13行目までの文書の集合であり、その文字
判定結果が漢字Kとされる。同様にして、ブロックBL
3 は、15行目および16行目の文書の集合であり、そ
の文字種判定結果がひらがな/カタカナHとされ、ブロ
ックBL4 は、18行目から23行目までの文書の集合
であり、その文字判定結果が英数字/記号Sとされる。
なお、ブロック単位文字種判定部105における文字種
判定については後に詳細に説明する。
【0092】図1に戻り、文字種入力部106は、上述
した英数字/記号S、ひらがな/カタカナH、漢字Kの
うち、ユーザが文書解析時に必要とされる文書の文字種
(以下、可読文字種と称する)、またはユーザが文書解
析時に不要とされる文書の文字種(以下、非可読文字種
と称する)を指定するための文字種指定データを入力す
るときに用いられるものである。
【0093】ここで、日本語の文書解析時において、上
記可読文字種は、ひらがな/カタカナHであり、他方非
可読文字種は、漢字K、英数字/記号Sである。また、
より具体的には、可読文字種の文書としては、文書ファ
イルF1 (図21参照)における日本語のブロックBL
3 が該当し、他方、非可読文字種の文書としては、文書
ファイルF1 における、日本語の文書解析にとって無意
味な漢字が連続した中国語のブロックBL2 や、無意味
な英数字/記号が連続した文字からなるブロックBL4
等が該当する。出力部107は、上記文字種入力部10
6より入力される文字種指定データにより指定される文
字種の文書を上述したブロック単位で文書ブロックデー
タD1 として、図示しない形態素解析部等へ出力する。
【0094】つぎに、上述した実施の形態1による文書
解析装置100の動作について、図2、図3、図5およ
び図7に示すフローチャートを参照しつつ説明する。図
1において、図示しない制御部より文書ファイル収集コ
マンドが入力されると。文書ファイル収集部102は、
図2に示すステップSA10へ進み、インターネット
(図示略)を伝送しているたとえば、文書ファイルF1
(図21参照)を収集した後、これを記憶部101へ記
憶させる。そして、文書ファイル収集部102は、文書
ファイルF1 の記憶動作を終えると、文字単位文字種判
定部103へその旨を表すデータを出力する。
【0095】これにより、文字単位文字種判定部103
は、ステップSA20へ進み、文書ファイルF1 (図2
1参照)から得られる文書に対して、文字単位の文字種
判定処理を実行する。
【0096】以下、この文字単位の文字種判定処理につ
いて図3に示すフローチャートに基づいて詳細に説明す
る。同図に示すステップSA21では、文書ファイル収
集部102は、まず、図21に示す文書ファイルF1
うち1行目における1文字目の文字(図21に示す例で
は、「D」)を読み込んだ後、ステップSA22へ進
む。
【0097】ステップSA22では、文字単位文字種判
定部103は、読み込んだ文字「D」の文字コード値を
チェックした後、この文字コード値から文字「D」の文
字種を判定する。この場合、文字単位文字種判定部10
3は、文字「D」の文字種判定結果を英数字/記号Sと
した後、ステップSA23へ進む。ステップSA23で
は、文字単位文字種判定部103は、ステップSA22
における文字種判定結果を図4に示す文字配列テーブル
1 に登録する。この場合、文字単位文字種判定部10
3は、ステップSA22における文字種判定結果(英数
字/記号S)を図4に示す1行目の1文字目の領域に登
録した後、ステップSA24へ進む。
【0098】ステップSA24では、文字単位文字種判
定部103は、当該行(この場合、1行目)の行末文字
(図21に示す例では、「0」)まで読み込んだか否か
を判断する。この場合、1行目における1文字目の文字
(「D」)しか読み込んでいないため、文字単位文字種
判定部103は、ステップSA24の判断結果を「N
O」として、ステップSA21へ戻り、上述した工程を
繰り返す。すなわち、ステップSA21〜ステップSA
23では、文字単位文字種判定部103は、図21に示
す1行目の2文字目以降の文字(「0」)を読み込んだ
後、当該文字の文字種判定を行う。そして、文字単位文
字種判定部103は、当該文字の文字種判定結果を上述
した工程と同様にして、図4に示す1行目の2文字以降
の領域に登録する。
【0099】そして、ここで、図21に示す1行目にお
ける行末文字(「a」)まで読み込まれたとすると、文
字単位文字種判定部103は、ステップSA24の判断
結果を「YES」として、ステップSA25へ進む。こ
の時点では、図4に示す文字配列テーブルT1 における
1行目には、「SSSSSCSSSS・・・ 」という文字
種判別結果が登録されている。
【0100】ステップSA25では、文字単位文字種判
定部103は、図21に示す文書ファイルF1 から得ら
れる文書における最終行(25行目)の行末文字まで読
み込まれたか否かを判断する。この場合、文字単位文字
種判定部103は、同判断結果を「NO」として、ステ
ップSA21へ戻り、上述した工程を繰り返す。すなわ
ち、ステップSA21〜ステップSA24では、文字単
位文字種判定部103は、2行目以降の各文字を順次読
み込み、当該文字の文字種判定結果を上述した工程と同
様にして、図4に示す2行目の1文字以降の領域に順次
登録する。
【0101】そして、ここで、図21に示す25行目
(最終行)における行末文字(改行マーク)まで読み込
まれたとすると、文字単位文字種判定部103は、ステ
ップSA25の判断結果を「YES」として、図2に示
すステップSA20へ戻る。この時点では、図4に示す
文字配列テーブルT1 には、同図に示すように各行毎に
1文字単位の文字種判定結果が登録されている。たとえ
ば、文字配列テーブルT1 において、7行目には図21
に示す英数字/記号等からなる7行目の文字列に対応す
る「SSSSSSSSSS・・・ 」という文字種判別結果
が、9行目には、図21に示す漢字等からなる9行目の
文字列に対応する「KKKCKK」という文字種判定結
果がそれぞれ登録されている。
【0102】また、文字配列テーブルT1 において、1
3行目には図21に示す漢字からなる13行目の文字列
に対応する「KKKK」という文字種判定結果が、15
行目および16行目には、漢字およびひらがな/カタカ
ナからなる15行目および16行目の文字列に対応する
「KKKHHH・・・ 」および「KKKHKK・・・ 」とい
う文字種判定結果がそれぞれ登録されている。
【0103】さらに、文字配列テーブルT1 において、
18行目〜23行目には、図21に示す英数字/記号の
みからなる文字列に対応する「SSSSS・・・ S」とい
う文字種判定結果がそれぞれ登録されている。そして、
文字単位文字種判定部103は、ステップSA20にお
ける文字単位の文字種判定処理を終えると、その旨を表
すデータを行単位文字種判定部104へ出力する。
【0104】これにより、行単位文字種判定部104
は、ステップSA30へ進み、文書ファイルF1 から得
られる文書に対して、行単位の文字種判定処理を実行す
る。以下、この行単位の文字種判定処理について、図5
に示すフローチャートを参照して詳細に説明する。同図
に示すステップSA31では、行単位文字種判定部10
4は、図4に示す文字配列テーブルT1 を記憶部101
から読み込んだ後、ステップSA32へ進む。
【0105】ステップSA32では、行単位文字種判定
部104は、まず、文字配列テーブルT1 における先頭
行(1行目)の文字配列のデータ(英数字/記号S、ひ
らがな/カタカナH等)を参照して、当該行において同
一文字種が連続する文字種群のうち、最長の文字種と当
該文字種の最長文字列長とを判定する。ただし、行単位
文字種判定部104は、当該行においてひらがな/カタ
カナHが1文字でも含まれていれば、該ひらがな/カタ
カナHを他の文字種に優先させる。
【0106】この場合、行単位文字種判定部104は、
文字配列テーブルT1 における1行目の文字配列の最長
文字種を英数字/記号S(図21:1行目「12:0
5:06」参照)と、該最長文字種の最長文字列長を
「8」として判定した後、ステップSA33へ進む。
【0107】ステップSA33では、行単位文字種判定
部104は、ステップSA32において判定した最長文
字種および最長文字列長を図6に示す行配列テーブルT
2 の当該行の領域に登録する。この場合、行単位文字種
判定部104は、図6に示す行配列テーブルT2 の1行
目の領域に「S8」を登録した後、ステップSA34へ
進む。上記「S8」において、「S」は最長文字種を、
「8」は最長文字列長をそれぞれ意味する。
【0108】ステップSA34では、行単位文字種判定
部104は、図4に示す文字配列テーブルT1 における
最終行(25行目)の文字配列を読み込んだか否かを判
断する。この場合、文字配列テーブルT1 における1行
目の文字配列しか読み込んでいないため、行単位文字種
判定部104は、ステップSA34の判断結果を「N
O」としてステップSA31へ戻り、上述した工程を繰
り返す。
【0109】すなわち、ステップSA31〜ステップS
A33では、行単位文字種判定部104、文字配列テー
ブルT1 における2行目以降の各文字配列を順次読み込
み、当該行単位の文字種判定結果を上述した工程と同様
にして、図6に示す行配列テーブルT2 における2行目
以降の領域に順次登録する。
【0110】そして、ここで、図21に示す25行目
(最終行)の文字配列まで読み込まれたとすると、行単
位文字種判定部104は、ステップSA34の判断結果
を「YES」として、図2に示すステップSA30へ戻
る。この時点では、図6には、同図に示すように各行単
位で最長文字種/文字列長が登録されている。
【0111】たとえば、行配列テーブルT2 において、
7行目には図21に示す7文字連続した英数字/記号に
対応する「S14」という行単位の文字種判別結果が、
9行目には、図21に示す3文字連続した漢字に対応す
る「K3」という文字種判定結果がそれぞれ登録されて
いる。また、行配列テーブルT2 において、13行目に
は図21に示す4文字連続した漢字に対応する「K4」
という文字種判定結果が、15行目および16行目に
は、12および8文字連続したひらがな/カタカナに対
応する「H12」および「H8」という文字種判定結果
がそれぞれ登録されている。
【0112】さらに、行配列テーブルT2 において、1
8行目〜23行目には、図21に示す44文字連続した
英数字/記号に対応する「S44」という文字種判定結
果がそれぞれ登録されている。そして、行単位文字種判
定部104は、ステップSA30における行単位の文字
種判定処理を終えると、その旨を表すデータをブロック
単位文字種判定部105出力する。
【0113】これにより、ブロック単位文字種判定部1
05は、ステップSA40へ進み、文書ファイルF1
ら得られる文書に対して、ブロック単位の文字種判定処
理を実行する。以下、このブロック単位の文字種判定処
理について、図7に示すフローチャートを参照して詳細
に説明する。同図に示すステップSA41では、ブロッ
ク単位文字種判定部105は、図6に示す行配列テーブ
ルT2 を記憶部101から読み込んだ後、ステップSA
42へ進む。
【0114】ステップSA42では、ブロック単位文字
種判定部105は、図6に示す行配列テーブルT2 にお
ける各行の最長文字種/文字列長(行単位の文字種判定
結果)を図8に示すブロック文字種判定条件に当てはめ
た後、ステップSA43へ進み当該条件における対応を
とる。ここで、図8に示すように、ブロック文字種判定
条件は、(文字種判定条件1)〜(文字種判定条件7)
という都合7つからなり、対応は、上記(文字種判定条
件1)〜(文字種判定条件7)に応じた(対応1)〜
(対応7)という都合7つからなる。
【0115】具体的には、(文字種判定条件1)は、行
配列テーブルT2 において最長文字種として英数字/記
号Sまたは漢字Kが2行以降連続する場合であり、この
(対応1)としては、図9に示すブロックテーブルT3
における英数字/記号Sまたは漢字Kの項にブロックの
先頭行および最終行を登録する。
【0116】また、(文字種判定条件2)は、行配列テ
ーブルT2 において最長文字種としてひらがな/カタカ
ナHが1行以降連続する場合であり、この(対応2)と
しては、図9に示すブロックテーブルT3 におけるひら
がな/カタカナHの項にブロックの先頭行および最終行
を登録する。
【0117】また、(文字種判定条件3)は、行配列テ
ーブルT2 において最初の行が英数字/記号Sまたは漢
字Kであって、かつその行以降の行において、ひらがな
/カタカナHが2行以上連続する場合であり、この(対
応3)としては、図9に示すブロックテーブルT3 にお
けるひらがな/カタカナHの項にブロックの先頭行およ
び最終行を登録する。
【0118】また、(文字種判定条件4)は、行配列テ
ーブルT2 において英数字/記号Sまたは漢字Kが1行
のみであって、かつ当該行の前後の行が共にひらがな/
カタカナHである場合であり、この(対応4)として
は、図9に示すブロックテーブルT3 におけるひらがな
/カタカナHの項に連続するブロックの先頭行および最
終行を登録する。
【0119】また、(文字種判定条件5)は、行配列テ
ーブルT2 において英数字/記号Sまたは漢字Kが1行
のみであって、かつ当該行の前後の行が共に制御文字C
である場合であり、この(対応5)としては、当該英数
字/記号Sまたは漢字Kと、当該行に隣接する隣接行の
最長文字種とが同一ならば、図9に示すブロックテーブ
ルT3 における隣接行の文字種の項に英数字/記号Sま
たは漢字Kを登録する。
【0120】さらに、(文字種判定条件6)は、行配列
テーブルT2 において英数字/記号Sまたは漢字Kが1
行のみであって、かつ上述した(条件4)および(条件
5)を満たさない場合であり、この(対応6)として
は、ブロックテーブルT3 における英数字/記号Sまた
は漢字Kの項に当該行を登録する。
【0121】加えて、(文字種判定条件7)は、行配列
テーブルT2 において制御文字Cがある場合であり、こ
の(対応7)としては、ブロックテーブルT3 における
制御文字Cの項に当該行、または制御文字Cが連続する
ときそのブロックの先頭行および最終行を登録する。
【0122】なお、行配列テーブルT2 において、上述
した(文字種判定条件1)〜(文字種判定条件7)に当
てはまらない行が存在した場合には、対応として、ブロ
ックテーブルT3 における不明の項に当該行を登録す
る。
【0123】そして、ブロック単位文字種判定部105
は、ステップSA44へ進み、行配列テーブルT2 にお
ける最終行(25行目)まで読み込んだか否かを判断
し、同判断結果が「NO」の場合、ステップSA41へ
戻り、上述した工程を繰り返す。そして、ここで、行配
列テーブルT2 における最終行(25行目)まで読み込
みが完了したものとすると、ブロック単位文字種判定部
105は、ステップSA44の判断結果を「YES」と
して、ステップSA40へ戻る。
【0124】この時点においては、図9に示すブロック
テーブルT3 において、ひらがな/カタカナHの項に
は、上述した(文字種判定条件2)の(対応2)として
図6に示す15行目および16行目(図21参照)が登
録されている。この16行目および17行目は、図21
に示すようにひらがな/カタカナのブロックBL3 とさ
れている。
【0125】同様にして、図9に示すブロックテーブル
3 において、漢字Kの項には、上述した(文字種判定
条件5)および(文字種判定条件1)の(対応1)およ
び(対応5)として図6に示す9行目および11行目〜
13行目(図21参照)が登録されている。この9行目
および11行目〜13行目は、図21に示すように漢字
KのブロックBL2 とされている。
【0126】また、図9に示すブロックテーブルT3
おいて、英数字/記号Sの項には、上述した(文字種判
定条件1)の(対応1)として図6に示す1行目〜7行
目および18行目〜23行目(図21参照)が登録され
ている。この1行目〜7行目および18行目〜23行目
は、図21に示すようにブロックBL1 およびブロック
BL4 とされている。
【0127】すなわち、ブロックテーブルT3 により、
図21に示す文書ファイルF1 は、英数字/記号の文書
からなるブロックBL1 、漢字の文書からなるブロック
BL 2 、ひらがな/カタカナの文書からなるブロックB
3 、および英数字/記号の文書からなるブロックBL
4 という具合にブロック化されたのである。
【0128】さらに、図9に示すブロックテーブルT3
において、制御文字Cの項には、上述した(文字種判定
条件7)の(対応7)として図6に示す8行目、10行
目、14行目、17行目、24行目および25行目が登
録されている。そして、ブロック単位文字種判定部10
5は、ステップSA40におけるブロック単位の文字種
判定処理を終えると、その旨を表すデータを出力部10
7へ出力する。
【0129】これにより、出力部107は、ステップS
A50へ進み、文字種入力部106より予め入力されて
いる文字種指定データに基づいて、出力すべきブロック
の文字種を設定する。この場合、文字種指定データによ
りひらがな/カタカナHが指定されていたものとする
と、出力部107は、上記ひらがな/カタカナHを設定
した後、ステップSA60へ進む。
【0130】ステップSA60では、出力部107は、
ブロックテーブルT3 を参照して、図21に示す文書フ
ァイルF1 において、ステップSA50で設定されたひ
らがな/カタカナHに対応するブロックとして、ブロッ
クBL3 を抽出する。このブロックBL3 の文書は、日
本語の文書解析における可読文書である。ついで、出力
部107は、上記ブロックBL3 に対応する文書ブロッ
クデータD1 を図示しない形態素解析部へ出力した後、
一連の処理を終了させる。
【0131】これにより、上記形態素解析部において
は、ノイズ文書(非可読文書)を含まない、可読文書の
ブロックBL3 (ひらがな/カタカナ:日本語)のみに
対して形態素解析を実行する。
【0132】なお、ステップSA50において、英数字
/記号Sが設定された場合には、出力部107は、ブロ
ックテーブルT3 を参照して、図21に示す文書ファイ
ルF 1 において、設定済みの英数字/記号Sに対応する
ブロックとして、ブロックBL1 およびブロックBL4
を選択した後、これらのブロックBL1 およびブロック
BL4 に対応する文書ブロックデータD1 を図示しない
形態素解析部へ出力する。
【0133】さらに、ステップSA50において、漢字
Kが設定された場合には、出力部107は、ブロックテ
ーブルT3 を参照して、図21に示す文書ファイルF1
において、設定済みの漢字Kに対応するブロックとし
て、ブロックBL2 を選択した後、このブロックBL2
に対応する文書ブロックデータD1 を図示しない形態素
解析部へ出力する。
【0134】以上説明したように、上述した実施の形態
1による文書解析装置100によれば、行単位文字種判
定部104により1つの文書ファイル(文書ファイルF
1 )において1行単位で文字種の連続性から文字種を判
別して、この判別結果を表す行配列テーブルT2 (図6
参照)を生成している。
【0135】さらに、上述した実施の形態1による文書
解析装置100によれば、上記行配列テーブルT2 を参
照して、この行配列テーブルT2 において図8に示す
(文字種判別条件1)〜(文字種判別条件7)のいずれ
かに該当するものを1ブロックとし、かつこのブロック
の文字種を判別しているので、1つの文書ファイルにお
いて可読文書のブロックと、非可読文書のブロックとい
う具合にブロック単位で可読文書であるか非可読文書で
あるかを容易に判別することができる。
【0136】したがって、上述した実施の形態1による
文書解析装置100によれば、1つの文書ファイルから
非可読文書のブロックが排除され、可読文書のブロック
が抽出されることにより、この可読文書のみのブロック
を用いて文書解析が可能となるので、ノイズ文書(非可
読文書)を含む文書ファイルであっても、高い精度で文
書解析を行うことができる。
【0137】また、上述した実施の形態1による文書解
析装置100によれば、文字種の連続性に着目して、1
行単位、ブロック単位の文字種の判別を行うように構成
したので、従来のような辞書や大がかりな言語モデルを
用いることなく、文書種の判別を容易に行うことができ
る。
【0138】(実施の形態2)図10は、本発明の実施
の形態2による文書解析装置200の構成を示すブロッ
ク図である。この図において、図1の各部に対応する部
分には同一の符号を付けてその説明を省略する。図10
においては、図1に示す文字種入力部106および出力
部107に代えて、言語判定部201、言語種入力部2
02、出力部203、日本語形態素解析部204、英語
形態素解析部205、中国語形態素解析部206および
インデックス生成部207が設けられている。
【0139】図10に示す言語判定部201は、記憶部
101に記憶された、文書ファイルF1 〜文書ファイル
3 にそれぞれ対応するブロックテーブルT3 (図9参
照)と、つぎの言語判定条件とから当該文書ファイルの
言語種を判定する。具体的には、言語判定部201は、
ブロックテーブルT3 (図9参照)においてひらがな/
カタカナHの項のみに行が登録されている場合、当該文
書ファイルの言語種を日本語と判定する。
【0140】同様にして、言語判定部201は、ブロッ
クテーブルT3 において英数字/記号Sの項のみに行が
登録されている場合、当該文書ファイルの言語種を英語
と判定する。さらに、言語判定部201は、ブロックテ
ーブルT3 において漢字K(および英数字/記号S)の
項のみに行が登録されている場合、当該文書ファイルの
言語種を中国語と判定する。
【0141】また、言語判定部201においては、ファ
イル単位に代えてブロック単位で言語種を判定するよう
にしてもよい。この場合、言語判定部201は、ファイ
ル単位の場合と同様にして、当該ブロックがひらがな/
カタカナHの行のみからなるとき、当該ブロックの言語
種を日本語と判定する。
【0142】同様にして、言語判定部201は、当該ブ
ロックが英数字/記号Sの行のみからなるとき、当該ブ
ロックの言語種を英語と判定する。さらに、言語判定部
201は、当該ブロックが漢字K(および英数字/記号
S)の行のみからなるとき、当該ブロックの言語種を中
国語と判定する。以下の説明においては、ブロック毎の
言語種判定の場合について詳述する。
【0143】言語種入力部202は、上述した日本語、
英語、中国語のうちのうち、ユーザが文書解析時に必要
とされる言語種を指定するための言語種指定データを入
力するときに用いられるものである。出力部203は、
上記言語種入力部202より入力された言語種指定デー
タにより指定される言語種の文書を上述したブロック単
位(またはファイル単位)で、日本語文書ブロックデー
タDJ 、英語文書ブロックデータDE および中国語文書
ブロックデータDC としてそれぞれ出力する。日本語形
態素解析部204は、出力部203より入力される日本
語文書ブロックデータDJ に対して日本語の形態素解析
を行い、解析結果を記憶部101に記憶させる。英語形
態素解析部205は、出力部203より入力される英語
文書ブロックデータDE に対して英語の形態素解析を行
い、解析結果を記憶部101に記憶させる。
【0144】また、中国語形態素解析部206は、出力
部203より入力される中国語文書ブロックデータDC
に対して中国語の形態素解析を行い、解析結果を記憶部
101に記憶させる。インデックス生成部207は、記
憶部101に記憶された言語種毎の形態素解析結果から
検索用のインデックスを生成して、このインデックスデ
ータを記憶部101に記憶させる。
【0145】つぎに、上述した実施の形態2による文書
解析装置200の動作について、図11に示すフローチ
ャートを参照して説明する。なお、図11に示すステッ
プSB10、ステップSB20、ステップSB30およ
びステップSB40の各工程は、前述した図2に示すス
テップSA10、ステップSA20、ステップSA30
およびステップSA40の各工程と同一であるためその
説明を省略する。
【0146】したがって、この場合、図21に示すよう
に文書ファイルF1 がブロックBL 1 〜ブロックBL4
にブロック化されているものとする。この状態で、図1
1に示すステップSB50においては、図10に示す言
語判定部201は、上述したブロック単位の言語種判定
条件を満たすか否かにより当該ブロックの言語種を判定
し、出力部203は、言語種入力部202により予め入
力された言語種指定データに基づいて出力すべきデータ
の言語種を設定する。
【0147】具体的には、言語判定部201は、図21
に示すブロックBL1 およびブロックBL4 の言語種と
して、英数字/記号Sの行のみからなるため、英語と判
定する。また、言語判定部201は、同図に示すブロッ
クBL2 の言語種として、漢字Kの行のみからなるめ、
中国語と判定する。同様にして、言語判定部201は、
同図に示すブロックBL3 の言語種として、ひらがな/
カタカナHの行のみからなるため、日本語と判定する。
【0148】続いて、出力部203は、上述した言語種
指定データにより指定された言語種(たとえば、日本
語)を設定した後、ステップSB60へ進む。ステップ
SB60では、出力部203は、指定された言語種が日
本語であるか否かを判断し、この場合、判断結果を「Y
ES」としてステップSB70へ進む。
【0149】ステップSB70では、出力部203は、
図21に示す文書ファイルF1 における日本語のブロッ
クBL3 を日本語文書ブロックデータDJ として日本語
形態素解析部204へ出力する。これにより、日本語形
態素解析部204においては、日本語文書ブロックデー
タDJ に対して日本語の形態素解析が行われた後、この
形態素解析結果は、記憶部101に記憶される。そし
て、さらに、インデックス生成部207は、上記日本語
の形態素解析結果に基づいて、インデックスを生成した
後、これを記憶部101に記憶させる。
【0150】また、上述した言語種指定データにより指
定された言語種が英語である場合、出力部203は、ス
テップSB60の判断結果を「NO」として、ステップ
SB80へ進む。ステップSB80では、出力部203
は、指定された言語種が英語であるか否かを判断し、こ
の場合、判断結果を「YES」としてステップSB90
へ進む。
【0151】ステップSB90では、出力部203は、
図21に示す文書ファイルF1 における英語のブロック
BL1 およびブロックBL4 を英語文書ブロックデータ
Eとして英語形態素解析部205へ出力する。これに
より、英語形態素解析部205においては、日本語形態
素解析部204と同様にして、英語文書ブロックデータ
E に対して英語の形態素解析が行われた後、この形態
素解析結果は、記憶部101に記憶される。そして、さ
らに、インデックス生成部207は、上記英語の形態素
解析結果に基づいて、インデックスを生成した後、これ
を記憶部101に記憶させる。
【0152】さらに、上述した言語種指定データにより
指定された言語種が中国語である場合、出力部203
は、ステップSB60およびSB80の各判断結果を共
に「NO」とした後、ステップSB100へ進む。ステ
ップSB100では、出力部203は、指定された言語
種が中国語であるか否かを判断し、この場合、判断結果
を「YES」としてステップSB110へ進む。
【0153】ステップSB110では、出力部203
は、図21に示す文書ファイルF1 における中国語のブ
ロックBL2 を中国語文書ブロックデータDC として中
国語形態素解析部206へ出力する。これにより、中国
語形態素解析部206においては、日本語形態素解析部
204と同様にして、中国語文書ブロックデータDC
対して中国語の形態素解析が行われた後、この形態素解
析結果は、記憶部101に記憶される。そして、さら
に、インデックス生成部207は、上記中国語の形態素
解析結果に基づいて、インデックスを生成した後、これ
を記憶部101に記憶させる。
【0154】以上説明したように、上述した実施の形態
2による文書解析装置200によれば、1行単位で文字
種の連続性から文字種を判別して、この判別結果に基づ
いて文書ファイル(文書ファイルF1 等)またはブロッ
ク単位で言語を判別しているので、従来のような辞書ま
たは大がかりな言語モデルを用いることなく、文字種の
連続性のみから容易に文書の言語をブロック単位(また
はファイル単位)で判別することができる。
【0155】(実施の形態3)図12は本発明の実施の
形態3による文書解析装置300の構成を示すブロック
図である。この図において、図1の各部に対応する部分
には同一の符号を付けその説明を省略する。図12にお
いては、図1に示す文字種入力部106および出力部1
07に代えて行単位文字種・文字列長判定部301、機
能判定部302および出力部303が設けられている。
また、文書解析装置300の記憶部101には、後述す
る行配列テーブルT4 (図16参照)が記憶されてい
る。
【0156】ここで、以下に説明する実施の形態3にお
いては、文書ファイルF2 として図13に示すものが文
書ファイル収集部102に読み込まれたものとして、こ
の文書ファイルF2 に基づいて説明する。
【0157】図13に示す文書ファイルF2 は、ブロッ
クBL1 〜BL7 という都合7ブロックから構成されて
いる。ここで、ブロックBL1 〜ブロックBL4 および
ブロックBL6 は、ひらがな/カタカナの文字からなる
ブロックであり、ブロックBL5 およびブロックBL7
は、英数字/記号の文字からなるブロックである。
【0158】図12に示す行単位文字種・文字列長判定
部301は、図13に示す文書ファイルF2 における行
単位の文字種および文字列長を判定して、図16に示す
行配列テーブルT4 に上記文字種および文字列長を登録
する。
【0159】また、機能判定部302は、上記行配列テ
ーブルT4 ならびに図18に示すブロック機能判定条件
および機能判定結果に基づいて、文書ファイルF2 にお
ける行毎の機能を判定する。ここで、上記機能には、文
書全体、章または節の「タイトル」機能、「引用」機
能、「罫線」機能および当該ブロックがコード化された
「添付ファイル」機能という都合4種類の機能がある。
具体的には、機能判定部302は、図18に示すよう
に、文書ファイルF2 におけるブロックの先頭行が以降
の行よりも極端に短い場合(機能判定条件1)、(機能
判定結果1)として当該先頭行が、文書全体、章または
節の「タイトル」機能を有していると判定する。
【0160】また、機能判定部302は、同図に示すよ
うに文書ファイルF2 において先頭部分の文字種および
文字コードが等しい行が2行以上連続している場合(機
能判定条件2)、(機能判定結果2)として、当該行が
「引用」機能を有していると判定する。さらに、機能判
定部302は、同図に示すように文書ファイルF2 にお
いて1行の文字列長と英数字/記号Sの連続長とが等し
い場合(機能判定条件3)、(機能判定結果3)とし
て、当該行が「罫線」機能を有していると判定する。
【0161】加えて、機能判定部302は、同図に示す
ように文書ファイルF2 において英数字/記号Sからな
るブロックにおいてすべての行の長さが同一である場
合、(機能判定条件4)、(機能判定結果4)として、
当該ブロックがコード化された「添付ファイル」機能を
有していると判定する。図12に戻り、出力部303
は、機能判定部302の判定結果を機能判定データD2
として出力する。
【0162】つぎに、上述した実施の形態3による文書
解析装置300の動作について、図14および図15に
示すフローチャートを参照して説明する。なお、図14
に示すステップSC10、ステップSC20、ステップ
SC30およびステップSC40の各工程は、前述した
図2に示すステップSA10、ステップSA20、ステ
ップSA30およびステップSA40の各工程と同一で
あるためその説明を省略する。
【0163】したがって、この場合、図13に示すよう
に文書ファイルF2 がブロックBL 1 〜ブロックBL7
のブロック化されているものとし、かつ、図17に示す
ブロックテーブルT3 には、ひらがな/カタカナHの項
に1行、3行〜7行、9行、12行および13行(図1
3参照)が登録されており、英数字/記号Sの項に11
行および14行(図13参照)が登録されているものと
する。さらに、同図に示すブロックテーブルT3 の制御
文字Cの項には、2行、8行および10行(図13参
照)が登録されているものとする。
【0164】この状態において、図14に示すステップ
SC50では、図12に示す行単位文字種・文字列長判
定部301は、文書ファイルF2 (図13参照)におけ
る行単位の文字種および文字長判定処理を行う。ここ
で、この行単位の文字種および文字列長判定処理につい
て図15に示すフローチャートを参照しつつ説明する。
【0165】図15に示すステップSC51では、行単
位文字種・文字列長判定部301は、図13に示す文書
ファイルF2 の1行目に対応する文字配列(「先日の
件」)を、前述した文字配列テーブルT1 から読み出し
た後、ステップSC52へ進む。ここで、文字配列テー
ブルT1 の1行目には、上記文字配列(「先日の件」)
に対応するHKKHKHという先頭文字(「)から末文
字(」)までの文字種判定結果が登録されている。
【0166】ステップSC52では、行単位文字種・文
字列長判定部301は、当該文字配列(「先日の件」:
HKKHKH)を先頭文字から末文字まで調べて、連続
する文字種と文字列長とを求めた後、ステップSC53
へ進む。この場合、行単位文字種・文字列長判定部30
1は、「先日の件」が、ひらがな/カタカナH=1文
字、漢字K=2文字、ひらがな/カタカナH=1文字、
漢字K=1文字およびひらがな/カタカナH=1文字か
ら構成されており、かつ1行の文字列長が6文字である
ことを認識した後、判定結果を「H1K2H1K1H
1」および(6)とする。
【0167】ステップSC53では、行単位文字種・文
字列長判定部301は、図16に示す行配列テーブルT
4 における1行目の領域(文字種/文字列長)に「H1
K2H1K1H1」を、また領域(1行の文字列長)に
(6)をそれぞれ登録した後、ステップSC54へ進
む。
【0168】ステップSC54では、図13に示す文書
ファイルF2 における最終行(14行目)に対応する文
字配列(−−−−・・・・−−−−)まで文字配列テーブル
1から読み込んだか否かを判断し、この場合、文字配
列テーブルT1 における1行目の文字配列しか読み込ん
でいないため、判断結果を「NO」として、ステップS
C51へ戻り、上述した工程を繰り返す。
【0169】すなわち、ステップSC51〜ステップS
C53において、行単位文字種・文字列長判定部301
は、図13に示す2行目以降の文字配列を文字配列テー
ブルT1 から順次読み出して、当該文字配列の文字種お
よび文字列長、ならびに1行の文字列長を判定した後、
この判定結果を図16に示す行配列テーブルT4 に登録
する。
【0170】そして、ここで、図13に示す最終行(1
4行目)の文字配列(−−−−・・・−−−−−)が文字
配列テーブルT1 から読み込まれたものとすると、行単
位文字種・文字列長判定部301は、ステップSC54
の判断結果を「YES」として、ステップSC50へ戻
る。
【0171】この時点において、図16に示す行配列テ
ーブルT4 には、同図に示す文字種/文字列長および1
行の文字列長が行毎にそれぞれ登録されている。一例と
して、行配列テーブルT4 の3行目の領域には、図13
に示す文書ファイルF2 における3行目の文字配列(先
日の旅行は本当に楽しかったですね。おかげで)に対応
する文字種/文字列長(K2H1K2H1K2H1K1
H12)および1行の文字列長(22)が登録されてい
る。
【0172】同様にして、行配列テーブルT4 の5行目
の領域には、図13に示す文書ファイルF2 における5
行目の文字配列(> いろいろありがとう。)に対応す
る文字種/文字列長(S1C1H10)および1行の文
字列長(12)が登録されている。
【0173】さらに、行配列テーブルT4 の11行目お
よび14行目の各領域には、図13に示す文書ファイル
2 における11行目および14行目の文字配列(−−
−−−・・・ −−−−−)に対応する文字種/文字列長
(S40)および1行の文字列長(40)がそれぞれ登
録されている。そして、行単位文字種・文字列長判定部
301は、ステップSC50における行単位の文字種お
よび文字列長判定処理を終えると その旨を表すデータ
を機能判定部302へ出力する。
【0174】これにより、機能判定部302は、ステッ
プSC60へ進み、図16に示す行配列テーブルT4
図18に示すブロック機能判定条件に当てはめることに
より、機能判定結果を導き出す。
【0175】具体的には、機能判定部302は、図16
に示す行配列テーブルT4 を参照して、図13に示す文
書ファイルF2 におけるブロックBL1 の先頭行(1行
目)の文字列長(6)が以降の行よりも極端に短いとい
う(機能判定条件1)を満たしているため、ブロックB
1 の1行目が「タイトル」機能を有しているものと判
定する(機能判定結果1)。
【0176】ここで、上記極端に短いとは、図16に示
す1行目の文字列長(6)と2行目以降の行の文字列長
の最小値(12行目の(10))との差がしきい値(た
とえば、3文字)以上であることをいう。
【0177】また、機能判定部302は、図13に示す
文書ファイルF2 におけるブロックBL2 の5行目およ
び6行目という2行の文字配列において、先頭部分の文
字種(英数字/記号S)および文字コード(>)が共に
等しいという(機能判定条件2)を満たしているため、
上記5行目(> いろいろありがとう。)および6行目
(> また会える日を楽しみにしています。)が「引
用」機能を有しているものと判定する(機能判定結果
2)。
【0178】さらに、機能判定部302は、図13に示
す文書ファイルF2 におけるブロックBL5 の先頭行
(11行目)およびブロックBL7 の先頭行(14行
目)が、各文字列長(40)と、英数字/記号Sの連続
長(40)とがそれぞれ等しいという(機能判定条件
3)を満たしているため、上記11行目および14行目
が「罫線」機能を有しているものと判定する(機能判定
結果3)。
【0179】なお、前述した図21に示す18行目から
23行目(ブロックBL4 )までは、図18に示すよう
に英数字/記号SからなるブロックBL4 においてすべ
ての行の長さ(44文字)が同一であるという(機能判
定条件4)を満たすため、このブロックBL4 は、コー
ド化された「添付ファイル」機能を有しているものと判
定される(機能判定結果4)。
【0180】そして、機能判定部302は、文書ファイ
ルF2 に対する機能判定を終えると、各判定結果を記憶
部101に記憶させた後、機能判定が終了した旨のデー
タを出力部303へ出力する。これにより、出力部30
3は、上記機能判定結果を機能判定データD2 として出
力する。
【0181】以上説明したように、上述した実施の形態
3による文書解析装置300によれば、1行単位で文字
種の連続性から文字種を判別して、この判別結果に基づ
いてブロック単位で文書の機能を判別しているので、従
来のような辞書または大がかりな言語モデルを用いるこ
となく、文字種の連続性のみから容易にブロック単位で
文書の機能を判別することができる。
【0182】以上、本発明の実施の形態1〜3による文
書解析装置について詳述してきたが、具体的な構成例
は、これらの実施の形態1〜3に限定されるものではな
く本発明の要旨を逸脱しない範囲の設計変更等があって
も本発明に含まれる。たとえば、上述した実施の形態1
〜3による文書解析装置においては、前述した文書デー
タの解析を実現するための文書解析プログラムを図19
に示すコンピュータ読み取り可能な記録媒体500に記
録して、この記録媒体500に記録された文書解析プロ
グラムを同図に示すコンピュータ400に読み込ませ、
実行することにより文書解析を実行するようにしてもよ
い。
【0183】図19に示すコンピュータ400は、上記
文書解析プログラムを実行するCPU(Central Proces
sing Unit )401と、キーボード、マウス等の入力装
置402と、各種データを記憶するROM(Read Only
Memory)403と、演算パラメータ等を記憶するRAM
(Random Access Memory)404と、記録媒体500か
ら文書解析プログラムを読み取る読取装置405と、デ
ィスプレイ、プリンタ等の出力装置406と、装置各部
を接続するバスBUとから構成されている。
【0184】上記CPU401は、読取装置405を経
由して記録媒体500に記憶されている文書解析プログ
ラムを読み込んだ後、この文書解析プログラムを実行す
ることにより、前述した文書ファイルF1 等に対して各
種文書解析を行う。
【0185】また、記録媒体500には、光ディスク、
フロッピーディスク、ハードディスク等の可搬型の記録
媒体が含まれることはもとより、ネットワークのように
データを一時的に記憶保持するような伝送媒体も含まれ
る。
【0186】
【発明の効果】以上説明したように、請求項1、7、1
3に記載の発明によれば、1ファイル単位の電子化文書
から非可読ブロックが排除された可読ブロックを用いて
文書解析が可能となるので、非可読ブロックを含む電子
化文書であっても高い精度で文書解析を行うことができ
るという効果を奏する。
【0187】また、請求項1、7、13に記載の発明に
よれば、文字種の連続性に基づいてブロック単位の文字
種の判別が行われるので、従来のような辞書や大がかり
な言語モデルを用いることなく容易に文字種の判別をブ
ロック単位で行うことができるという効果を奏する。
【0188】また、請求項2、8、14に記載の発明に
よれば、1ファイル単位の電子化文書から非可読ブロッ
クが排除された可読ブロックを用いて文書解析が可能と
なるので、非可読ブロックを含む電子化文書であっても
高い精度で文書解析を行うことができるという効果を奏
する。
【0189】また、請求項2、8、14に記載の発明に
よれば、文字種の連続性に基づいてブロック単位の文字
種の判別が行われるので、従来のような辞書や大がかり
な言語モデルを用いることなく容易に文字種の判別をブ
ロック単位で行うことができるという効果を奏する。
【0190】また、請求項3、9、15に記載の発明に
よれば、1ファイル単位の電子化文書から非可読ブロッ
クが排除された可読ブロックを用いて文書解析が可能と
なるので、非可読ブロックを含む電子化文書であっても
高い精度で文書解析を行うことができるという効果を奏
する。
【0191】また、請求項3、9、15に記載の発明に
よれば、文字種の連続性に基づいてブロック単位の文字
種の判別が行われるので、従来のような辞書や大がかり
な言語モデルを用いることなく容易に文字種の判別をブ
ロック単位で行うことができるという効果を奏する。
【0192】また、請求項4、10、16に記載の発明
によれば、テーブル、すなわち文字種の連続性に基づい
て、ブロック単位で言語種を判別しているので、従来の
ような辞書や大がかりな言語モデルを用いることなく容
易に言語種の判別をブロック単位で行うことができると
いう効果を奏する。
【0193】この請求項5、11、17に記載の発明に
よれば、出力手段から形態素解析手段へ言語種判定手段
により判定された言語種のブロックが出力されると、形
態素解析手段によりその言語種に適合した形態素解析が
行われる。
【0194】このように請求項5、11、17に記載の
発明によれば、1ファイル単位の電子化文書から非可読
ブロックが排除された可読ブロックを用いて、しかも当
該言語種に適合した形態素解析が可能となるので、非可
読ブロックを含む電子化文書であってもさらに高い精度
で文書解析を行うことができるという効果を奏する。
【0195】また、請求項6、12、18に記載の発明
によれば、文字種の連続性に基づいてブロック単位の文
字種の判別を行った後にこの判別結果に基づいてブロッ
クの機能を判別しているので、従来のような辞書や大が
かりな言語モデルを用いることなく容易に機能の判別を
ブロック単位で行うことができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の形態1による文書解析装置10
0の構成を示すブロック図である。
【図2】同実施の形態1による文書解析装置100の動
作を説明するフローチャートである。
【図3】同実施の形態1による文書解析装置100にお
ける文字単位の文字種判定処理を説明するフローチャー
トである。
【図4】同実施の形態1による文書解析装置100にお
ける文字配列テーブルT1 を示す図である。
【図5】同実施の形態1による文書解析装置100にお
ける行単位の文字種判定処理を説明するフローチャート
である。
【図6】同実施の形態1による文書解析装置100にお
ける行配列テーブルT2 を示す図である。
【図7】同実施の形態1による文書解析装置100にお
けるブロック単位の文字種判定処理を説明するフローチ
ャートである。
【図8】同実施の形態1による文書解析装置100にお
けるブロック文字種判定条件およびその対応を示す図で
ある。
【図9】同実施の形態1による文書解析装置100にお
けるブロックテーブルT3 を示す図である。
【図10】同実施の形態2による文書解析装置200の
構成を示すブロック図である。
【図11】同実施の形態2による文書解析装置200の
動作を説明するフローチャートである。
【図12】同実施の形態3による文書解析装置300の
構成を示すブロック図である。
【図13】文書ファイルF2 を示す図である。
【図14】同実施の形態3による文書解析装置300の
動作を説明するフローチャートである。
【図15】同実施の形態3による文書解析装置300に
おける行単位の文字種および文字列長判定処理を説明す
るフローチャートである。
【図16】同実施の形態3による文書解析装置300に
おける行配列テーブルT4 を示す図である。
【図17】同実施の形態3による文書解析装置300に
おけるブロックテーブルT3 を示す図である。
【図18】同実施の形態3による文書解析装置300に
おけるブロック機能判定条件および機能判定結果を示す
図である。
【図19】同実施の形態1〜3の変形例を示すブロック
図である。
【図20】従来における文書解析装置1の構成を示すブ
ロック図である。
【図21】文書ファイルF1 を示す図である。
【符号の説明】
100 文書解析装置 101 記憶部 102 文書ファイル収集部 103 文字単位文字種判定部 104 行単位文字種判定部 105 ブロック単位文字種判定部 106 文字種入力部 107 出力部 200 文書解析装置 201 言語判定部 202 言語種入力部 203 出力部 204 日本語形態素解析部 205 英語形態素解析部 206 中国語形態素解析部 207 インデックス生成部 300 文書解析装置 301 行単位文字種・文字列長判定部 302 機能判定部 303 出力部 400 コンピュータ 401 CPU 405 読取装置 500 記録媒体

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定して、各行と該各行に対応する文字種との
    関係を表すテーブルを生成する行単位文字種判定手段
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化手段と、 前記ブロック化手段によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定手段と、 前記各ブロックにおいて、非可読な文字種の当該ブロッ
    クを抽出する抽出手段と、 を備えることを特徴とする文書解析装置。
  2. 【請求項2】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定して、各行と該各行に対応する文字種との
    関係を表すテーブルを生成する行単位文字種判定手段
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化手段と、 前記ブロック化手段によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定手段と、 前記各ブロックにおいて、非可読な文字種の当該ブロッ
    クを判定する非可読判定手段と、 前記各ブロックの中から、前記非可読判定手段により判
    定されたブロック以外のブロックを可読ブロックとして
    抽出する抽出手段と、 を備えることを特徴とする文書解析装置。
  3. 【請求項3】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定して、各行と該各行に対応する文字種との
    関係を表すテーブルを生成する行単位文字種判定手段
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化手段と、 前記ブロック化手段によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定手段と、 文字種を指定する文字種指定手段と、 前記各ブロックの中から、前記文字種指定手段により指
    定された文字種のブロックを抽出する抽出手段と、 を備えることを特徴とする文書解析装置。
  4. 【請求項4】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定して、各行と該各行に対応する文字種との
    関係を表すテーブルを生成する行単位文字種判定手段
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化手段と、 前記ブロック化手段によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定手段と、 前記テーブルに基づいて、前記各ブロック毎に記述され
    ている言語種を判定する言語種判定手段と、 を備えることを特徴とする文書解析装置。
  5. 【請求項5】 複数種の言語にそれぞれ対応して設けら
    れ、前記複数種の言語の文書に対して形態素解析をそれ
    ぞれ行う複数の形態素解析手段と、 前記言語種判定手段により判定された前記言語種のブロ
    ックのデータを、当該言語種に対応する前記形態素解析
    手段へ出力する出力手段と、 を備えることを特徴とする請求項4に記載の文書解析装
    置。
  6. 【請求項6】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定して、各行と該各行に対応する文字種との
    関係を表すテーブルを生成する行単位文字種判定手段
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化手段と、 前記ブロック化手段によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定手段と、 前記テーブルに基づいて、前記各ブロックにおける機能
    を判定する機能判定手段と、 を備えることを特徴とする文書解析装置。
  7. 【請求項7】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定して、各行と該各行に対応する文字種との
    関係を表すテーブルを生成する行単位文字種判定工程
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定工程と、 前記各ブロックにおいて、非可読な文字種の当該ブロッ
    クを抽出させる抽出工程と、 を含むことを特徴とする文書解析方法。
  8. 【請求項8】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定して、各行と該各行に対応する文字種との
    関係を表すテーブルを生成する行単位文字種判定工程
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定工程と、 前記各ブロックにおいて、非可読な文字種の当該ブロッ
    クを判定させる非可読判定工程と、 前記各ブロックの中から、前記非可読判定工程により判
    定されたブロック以外のブロックを可読ブロックとして
    抽出させる抽出工程と、 を含むことを特徴とする文書解析方法。
  9. 【請求項9】 複数行からなる1ファイル単位の電子化
    文書に対して、各行毎に文字種の連続性に基づいて行の
    文字種を判定し、各行と該各行に対応する文字種との関
    係を表すテーブルを生成させる行単位文字種判定工程
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定工程と、 文字種を指定する文字種指定工程と、 前記各ブロックの中から、前記文字種指定工程により指
    定された文字種のブロックを抽出する抽出工程と、 を含むことを特徴とする文書解析方法。
  10. 【請求項10】 複数行からなる1ファイル単位の電子
    化文書に対して、各行毎に文字種の連続性に基づいて行
    の文字種を判定して、各行と該各行に対応する文字種と
    の関係を表すテーブルを生成する行単位文字種判定工程
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定工程と、 前記テーブルに基づいて、前記各ブロック毎に記述され
    ている言語種を判定する言語種判定工程と、 を含むことを特徴とする文書解析方法。
  11. 【請求項11】 前記言語種判定工程により判定された
    前記言語種のブロックのデータに基づいて、当該ブロッ
    クに対して当該言語種に適した形態素解析を行わせる形
    態素解析工程とを含むことを特徴とする請求項10に記
    載の文書解析方法。
  12. 【請求項12】 複数行からなる1ファイル単位の電子
    化文書に対して、各行毎に文字種の連続性に基づいて行
    の文字種を判定して、各行と該各行に対応する文字種と
    の関係を表すテーブルを生成する行単位文字種判定工程
    と、 前記テーブルを参照して、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    するブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定するブロック単
    位文字種判定工程と、 前記テーブルに基づいて、前記各ブロックにおける機能
    を判定する機能判定工程と、 を含むことを特徴とする文書解析方法。
  13. 【請求項13】 複数行からなる1ファイル単位の電子
    化文書に対して、各行毎に文字種の連続性に基づいて行
    の文字種を判定させ、各行と該各行に対応する文字種と
    の関係を表すテーブルを生成させる行単位文字種判定工
    程と、 前記テーブルを参照させ、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    させるブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定させるブロック
    単位文字種判定工程と、 前記各ブロックにおいて、非可読な文字種の当該ブロッ
    クを抽出させる抽出工程と、 をコンピュータに実行させるための文書解析プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  14. 【請求項14】 複数行からなる1ファイル単位の電子
    化文書に対して、各行毎に文字種の連続性に基づいて行
    の文字種を判定させ、各行と該各行に対応する文字種と
    の関係を表すテーブルを生成させる行単位文字種判定工
    程と、 前記テーブルを参照させ、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    させるブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定させるブロック
    単位文字種判定工程と、 前記各ブロックにおいて、非可読な文字種の当該ブロッ
    クを判定させる非可読判定工程と、 前記各ブロックの中から、前記非可読判定工程により判
    定されたブロック以外のブロックを可読ブロックとして
    抽出させる抽出工程と、 をコンピュータに実行させるための文書解析プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  15. 【請求項15】 複数行からなる1ファイル単位の電子
    化文書に対して、各行毎に文字種の連続性に基づいて行
    の文字種を判定させ、各行と該各行に対応する文字種と
    の関係を表すテーブルを生成させる行単位文字種判定工
    程と、 前記テーブルを参照させ、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    させるブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定させるブロック
    単位文字種判定工程と、 文字種を指定させる文字種指定工程と、 前記各ブロックの中から、前記文字種指定工程により指
    定された文字種のブロックを抽出させる抽出工程と、 をコンピュータに実行させるための文書解析プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  16. 【請求項16】 複数行からなる1ファイル単位の電子
    化文書に対して、各行毎に文字種の連続性に基づいて行
    の文字種を判定させ、各行と該各行に対応する文字種と
    の関係を表すテーブルを生成させる行単位文字種判定工
    程と、 前記テーブルを参照させ、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    させるブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定させるブロック
    単位文字種判定工程と、 前記テーブルに基づいて、前記各ブロック毎に記述され
    ている言語種を判定させる言語種判定工程と、 をコンピュータに実行させるための文書解析プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  17. 【請求項17】 前記言語種判定工程により判定された
    前記言語種のブロックのデータに基づいて、当該ブロッ
    クに対して当該言語種に適した形態素解析を行わせる形
    態素解析工程とを含むことを特徴とする請求項16に記
    載の文書解析プログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  18. 【請求項18】 複数行からなる1ファイル単位の電子
    化文書に対して、各行毎に文字種の連続性に基づいて行
    の文字種を判定させ、各行と該各行に対応する文字種と
    の関係を表すテーブルを生成させる行単位文字種判定工
    程と、 前記テーブルを参照させ、前記1ファイルにおいて、少
    なくとも同種の文字種からなる複数の行を1ブロックと
    させるブロック化工程と、 前記ブロック化工程によりブロック化された各ブロック
    の文字種を前記テーブルに基づいて判定させるブロック
    単位文字種判定工程と、 前記テーブルに基づいて、前記各ブロックにおける機能
    を判定させる機能判定工程と、 をコンピュータに実行させるための文書解析プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
JP10359709A 1998-12-17 1998-12-17 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体 Withdrawn JP2000181916A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10359709A JP2000181916A (ja) 1998-12-17 1998-12-17 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10359709A JP2000181916A (ja) 1998-12-17 1998-12-17 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2000181916A true JP2000181916A (ja) 2000-06-30

Family

ID=18465905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10359709A Withdrawn JP2000181916A (ja) 1998-12-17 1998-12-17 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2000181916A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511360A (ja) * 2012-02-07 2015-04-16 マイクロソフト コーポレーション 言語独立確率論的コンテンツ照合
CN116805537A (zh) * 2023-08-22 2023-09-26 江汉大学附属医院(武汉市第六医院) 用于心肺康复管理系统的数据处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511360A (ja) * 2012-02-07 2015-04-16 マイクロソフト コーポレーション 言語独立確率論的コンテンツ照合
US9633001B2 (en) 2012-02-07 2017-04-25 Microsoft Technology Licensing, Llc Language independent probabilistic content matching
CN116805537A (zh) * 2023-08-22 2023-09-26 江汉大学附属医院(武汉市第六医院) 用于心肺康复管理系统的数据处理方法
CN116805537B (zh) * 2023-08-22 2023-11-07 江汉大学附属医院(武汉市第六医院) 用于心肺康复管理系统的数据处理方法

Similar Documents

Publication Publication Date Title
Saad et al. Arabic morphological tools for text mining
Akın et al. Zemberek, an open source NLP framework for Turkic languages
JP2515726B2 (ja) 情報検索方法及び装置
US20020042794A1 (en) Keyword extracting device
Al-Gaphari et al. A method to convert Sana’ani accent to Modern Standard Arabic
EP3276507A1 (en) Encoding device, encoding method and search method
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
Indhuja et al. Text based language identification system for indian languages following devanagiri script
JP2001515616A (ja) 自動自然言語翻訳
Kumar et al. BERT-Based Sequence Labelling Approach for Dependency Parsing in Tamil
WO2019051057A1 (en) LEXICAL DISCOVERY BY AUTOMATIC LEARNING
Vasiu et al. Enhancing tokenization by embedding romanian language specific morphology
Nongmeikapam et al. A transliteration of CRF based Manipuri POS tagging
JP2000181916A (ja) 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体
Alkhazi et al. Tag based models for Arabic text compression
Kanaan et al. An improved algorithm for the extraction of triliteral Arabic roots
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Weiss et al. From textual information to numerical vectors
Dione Finite-state tokenization for a deep Wolof LFG grammar
JPH0474259A (ja) 文書要約装置
Ligeti-Nagy et al. What does the Nom say? An algorithm for case disambiguation in Hungarian
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
Paumier A time-efficient token representation for parsers
Karunarathna et al. Learning to Use Normalization Techniques for Preprocessing and Classification of Text Documents
Lancioni et al. Semi-Automatic Data Annotation, POS Tagging and Mildly Context-Sensitive Disambiguation: the eXtended Revised AraMorph (XRAM)

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060307