JPH09223143A - 文書情報処理装置 - Google Patents
文書情報処理装置Info
- Publication number
- JPH09223143A JPH09223143A JP8028848A JP2884896A JPH09223143A JP H09223143 A JPH09223143 A JP H09223143A JP 8028848 A JP8028848 A JP 8028848A JP 2884896 A JP2884896 A JP 2884896A JP H09223143 A JPH09223143 A JP H09223143A
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- analysis
- document
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】形態素解析による複数の解析結果を利用するこ
とで、必要な情報を効率良く正確に抽出できる。 【解決手段】形態素解析部12で複数の解析パラメータ
14−1〜14−nを使用した文の形態素解析により複
数の解析結果を導出し、情報抽出部16で形態素解析部
12から得られた複数の解析結果に基づいてキーワード
や認識誤り文字等の必要な情報を抽出する。情報利用部
18は、抽出した情報をユーザに提示したり、ファイル
に出力したり、データベースを検索したりする。
とで、必要な情報を効率良く正確に抽出できる。 【解決手段】形態素解析部12で複数の解析パラメータ
14−1〜14−nを使用した文の形態素解析により複
数の解析結果を導出し、情報抽出部16で形態素解析部
12から得られた複数の解析結果に基づいてキーワード
や認識誤り文字等の必要な情報を抽出する。情報利用部
18は、抽出した情報をユーザに提示したり、ファイル
に出力したり、データベースを検索したりする。
Description
【0001】
【発明の属する技術分野】本発明は、文書から情報を抽
出して処理する文書情報処理装置に関し、特に電子ファ
イリングシステム等の文字読取認識装置やデータベース
のキーワード作成に利用される文書情報処理装置に関す
る。
出して処理する文書情報処理装置に関し、特に電子ファ
イリングシステム等の文字読取認識装置やデータベース
のキーワード作成に利用される文書情報処理装置に関す
る。
【0002】
【従来の技術】従来、電子ファイリングシステム等の文
字認識処理に使用される文書情報処理装置にあっては、
形態素解析を用いて文を形態素に分割し、分割した形態
素から例えばキーワードや認識誤り文字等の必要な情報
を抽出しており、この形態素解析は一般的なもので、種
々の公知例がある。
字認識処理に使用される文書情報処理装置にあっては、
形態素解析を用いて文を形態素に分割し、分割した形態
素から例えばキーワードや認識誤り文字等の必要な情報
を抽出しており、この形態素解析は一般的なもので、種
々の公知例がある。
【0003】例えば、形態素解析結果に対して不要語辞
書や接辞辞書を用いて必要な情報とはなり得ないと考え
られる語を除去する方法(特開昭57-137965 号)、逆に
解析結果中のある品詞列のみに注目して必要な情報を抽
出する方法(特開平07-049872号, 同07-036917 号)、
キーワード辞書の登録語のみに注目して必要な情報を抽
出する方法(特開平3-225468号)、更に文書中のある単
語の出願頻度によって必要な情報を抽出する方法(特開
平03-286372 号)がある。
書や接辞辞書を用いて必要な情報とはなり得ないと考え
られる語を除去する方法(特開昭57-137965 号)、逆に
解析結果中のある品詞列のみに注目して必要な情報を抽
出する方法(特開平07-049872号, 同07-036917 号)、
キーワード辞書の登録語のみに注目して必要な情報を抽
出する方法(特開平3-225468号)、更に文書中のある単
語の出願頻度によって必要な情報を抽出する方法(特開
平03-286372 号)がある。
【0004】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の形態素解析結果に基づいてキーワード等の必
要な情報を抽出してデータベースに付与する等の利用す
る方法を採用した文書情報処理装置にあっては次の問題
がある。まず不要語辞書や接辞辞書を用いて不必要な語
を除去する方法については、不要語辞書に記載された単
語が必要な情報である場合には抽出が失敗してしまう問
題がある。また解析結果中の特定の品詞列や登録語に注
目して必要な情報を抽出する方法では、逆に、予め用意
した辞書に単語が登録されていなければならず、また、
通常の単語辞書に加えて抽出に使用する特殊な辞書を用
意する必要もある。更に出現頻度によって抽出する方法
では、少数の文から必要な情報を抽出しようとした場合
に、各単語の頻度の差が少なく、頻度から適切に情報が
抽出できない問題がある。
うな従来の形態素解析結果に基づいてキーワード等の必
要な情報を抽出してデータベースに付与する等の利用す
る方法を採用した文書情報処理装置にあっては次の問題
がある。まず不要語辞書や接辞辞書を用いて不必要な語
を除去する方法については、不要語辞書に記載された単
語が必要な情報である場合には抽出が失敗してしまう問
題がある。また解析結果中の特定の品詞列や登録語に注
目して必要な情報を抽出する方法では、逆に、予め用意
した辞書に単語が登録されていなければならず、また、
通常の単語辞書に加えて抽出に使用する特殊な辞書を用
意する必要もある。更に出現頻度によって抽出する方法
では、少数の文から必要な情報を抽出しようとした場合
に、各単語の頻度の差が少なく、頻度から適切に情報が
抽出できない問題がある。
【0005】一方、文字認識装置において読取文書の認
識誤りを自動的に検出または修正する方法として、文字
イメージデータから各々に尤もらしい文字を候補文字と
して複数個推定し、候補文字によって文字のラティス構
造を作成し、ラティス構造の全てのパスについて形態素
解析を行ない、形態素解析結果から最も日本語として自
然なパス(最尤パス)を判定して正しい認識結果とする
ものがある(特開平4-315278号等)。
識誤りを自動的に検出または修正する方法として、文字
イメージデータから各々に尤もらしい文字を候補文字と
して複数個推定し、候補文字によって文字のラティス構
造を作成し、ラティス構造の全てのパスについて形態素
解析を行ない、形態素解析結果から最も日本語として自
然なパス(最尤パス)を判定して正しい認識結果とする
ものがある(特開平4-315278号等)。
【0006】この方法の問題点は、形態素解析に使用す
る解析パラメータによって形態素解析結果が決まり、形
態素解析結果が必ずしも日本語として最も自然なパスで
あるとは限らず、日本語として最も自然なパスを推定す
ることが困難である。更に、記号を誤った場合のよう
に、日本語としての自然さを推定する形態素解析に影響
を与えない誤りについては、誤りが検出できないため、
誤りを修正できないという問題がある。
る解析パラメータによって形態素解析結果が決まり、形
態素解析結果が必ずしも日本語として最も自然なパスで
あるとは限らず、日本語として最も自然なパスを推定す
ることが困難である。更に、記号を誤った場合のよう
に、日本語としての自然さを推定する形態素解析に影響
を与えない誤りについては、誤りが検出できないため、
誤りを修正できないという問題がある。
【0007】本発明は、このような従来の問題点に鑑み
てなされたもので、形態素解析による複数の解析結果を
利用することで、必要な情報を効率良く正確に抽出でき
る文書情報処理装置を提供することを目的とする。
てなされたもので、形態素解析による複数の解析結果を
利用することで、必要な情報を効率良く正確に抽出でき
る文書情報処理装置を提供することを目的とする。
【0008】
【課題を解決するための手段】図1は本発明の原理説明
図である。本発明の文書情報処理装置は、図1(A)の
ように、形態素解析部12、情報抽出部16及び情報利
用部18で構成される。形態素解析部12は、複数の解
析パラメータ14−1〜14−nを使用した文の形態素
解析により複数の解析結果を導出する。情報抽出部16
は、形態素解析部12から得られた複数の解析結果に基
づいて必要な情報を抽出する。情報利用部18は、抽出
した情報をユーザに提示したり、ファイルに出力した
り、データベースに付与したりする。
図である。本発明の文書情報処理装置は、図1(A)の
ように、形態素解析部12、情報抽出部16及び情報利
用部18で構成される。形態素解析部12は、複数の解
析パラメータ14−1〜14−nを使用した文の形態素
解析により複数の解析結果を導出する。情報抽出部16
は、形態素解析部12から得られた複数の解析結果に基
づいて必要な情報を抽出する。情報利用部18は、抽出
した情報をユーザに提示したり、ファイルに出力した
り、データベースに付与したりする。
【0009】情報抽出部16は、形態素解析部12から
得られた複数の解析結果の差異を利用して必要な情報を
抽出する。また情報抽出部16は、形態素解析部12か
ら得られた複数の解析結果の同等性を利用して必要な情
報を抽出しても良い。具体的には、情報抽出部16は、
情報利用部18で使用する文中のキーワードを抽出す
る。また情報抽出部16は、情報利用部18で修正され
る文字読取認識装置から得られた読取文中の認識誤り文
字を検出する。
得られた複数の解析結果の差異を利用して必要な情報を
抽出する。また情報抽出部16は、形態素解析部12か
ら得られた複数の解析結果の同等性を利用して必要な情
報を抽出しても良い。具体的には、情報抽出部16は、
情報利用部18で使用する文中のキーワードを抽出す
る。また情報抽出部16は、情報利用部18で修正され
る文字読取認識装置から得られた読取文中の認識誤り文
字を検出する。
【0010】情報利用部18は、認識誤り文字の修正に
使用される予め定めた文法ルールを格納したデータベー
ス22と、情報抽出部16で検出した認識誤り文字にデ
ータベース22の文法ルールを適用して自動修正する誤
り修正部20とを備える。また本発明の別の形態にあっ
ては、図1(B)のように、形態素解析部12で単一の
解析パラメータ14を使用した文の形態素解析により順
位をもつ複数の解析結果を導出し、同様に、情報抽出部
16で形態素解析部12から得られた上位の順位となる
複数の解析結果に基づいて必要な情報を抽出するように
構成してもよい。
使用される予め定めた文法ルールを格納したデータベー
ス22と、情報抽出部16で検出した認識誤り文字にデ
ータベース22の文法ルールを適用して自動修正する誤
り修正部20とを備える。また本発明の別の形態にあっ
ては、図1(B)のように、形態素解析部12で単一の
解析パラメータ14を使用した文の形態素解析により順
位をもつ複数の解析結果を導出し、同様に、情報抽出部
16で形態素解析部12から得られた上位の順位となる
複数の解析結果に基づいて必要な情報を抽出するように
構成してもよい。
【0011】このように本発明は複数の解析パラメータ
で形態素解析を行って得た複数の形態素解析結果を対象
に、キーワードや認識誤り文字といった必要な情報を適
切に抽出することができ、抽出した情報をユーザに提示
したり、ファイルに出力したり、更にデータベースに付
与して利用することができる。また文字認識装置の場合
には、認識結果の認識誤りを正確に検出して修正するこ
とができる。
で形態素解析を行って得た複数の形態素解析結果を対象
に、キーワードや認識誤り文字といった必要な情報を適
切に抽出することができ、抽出した情報をユーザに提示
したり、ファイルに出力したり、更にデータベースに付
与して利用することができる。また文字認識装置の場合
には、認識結果の認識誤りを正確に検出して修正するこ
とができる。
【0012】
【発明の実施の形態】図2は本発明の文書情報処理装置
の一実施形態であり、日本語文書を対象としたデータベ
ースの検索に使用するキーワードの作成、あるいは電子
ファイリングシステムにおける文字読取認識装置での誤
り文字の検出と修正などに適用される。
の一実施形態であり、日本語文書を対象としたデータベ
ースの検索に使用するキーワードの作成、あるいは電子
ファイリングシステムにおける文字読取認識装置での誤
り文字の検出と修正などに適用される。
【0013】図2において、本発明の文書処理装置は、
解析対象文書となる情報ソース10、形態素解析部1
2、情報抽出部16、情報利用部18、ユーザ/ファイ
ル/データベースなどの利用対象部24で構成される。
形態素解析部12は、複数の解析パラメータ14−1,
14−2,・・・14−nを使用した情報ソース10か
ら入力した文の形態素解析により、複数の解析結果を導
出する。情報抽出部16は、形態素解析部12から得ら
れた複数の形態素解析結果に基づいて、キーワードや文
字認識における誤り文字などの必要な情報を抽出する。
解析対象文書となる情報ソース10、形態素解析部1
2、情報抽出部16、情報利用部18、ユーザ/ファイ
ル/データベースなどの利用対象部24で構成される。
形態素解析部12は、複数の解析パラメータ14−1,
14−2,・・・14−nを使用した情報ソース10か
ら入力した文の形態素解析により、複数の解析結果を導
出する。情報抽出部16は、形態素解析部12から得ら
れた複数の形態素解析結果に基づいて、キーワードや文
字認識における誤り文字などの必要な情報を抽出する。
【0014】情報利用部18は、情報抽出部16による
抽出情報を利用対象部24となるユーザに提供したり、
ファイルに出力したり、データベースに付与したりして
利用する。このような情報利用部18による抽出情報の
利用は、例えばキーワードを抽出した場合であり、これ
に対し情報抽出部16で文字認識装置の読取文書におけ
る誤り文字を抽出した場合には、情報利用部18にあっ
ては、利用対象部24となるユーザに対し誤り文字を提
示してその修正を促すことになる。
抽出情報を利用対象部24となるユーザに提供したり、
ファイルに出力したり、データベースに付与したりして
利用する。このような情報利用部18による抽出情報の
利用は、例えばキーワードを抽出した場合であり、これ
に対し情報抽出部16で文字認識装置の読取文書におけ
る誤り文字を抽出した場合には、情報利用部18にあっ
ては、利用対象部24となるユーザに対し誤り文字を提
示してその修正を促すことになる。
【0015】また誤り文字の抽出に対しては、自動修正
を可能とするため、誤り修正部20と、誤り文字の修正
に使用される文法ルールを格納したデータベース22を
設けている。もちろん、誤り修正部20とデータベース
22は、情報利用部18で抽出された誤り文字を自動修
正する場合にのみ有効であり、抽出情報がキーワードの
場合には誤り修正部20及びデータベース22は不要と
なる。
を可能とするため、誤り修正部20と、誤り文字の修正
に使用される文法ルールを格納したデータベース22を
設けている。もちろん、誤り修正部20とデータベース
22は、情報利用部18で抽出された誤り文字を自動修
正する場合にのみ有効であり、抽出情報がキーワードの
場合には誤り修正部20及びデータベース22は不要と
なる。
【0016】図3は図2の形態素解析部12の詳細であ
る。図3において、形態素解析部12には文字列分割部
26、辞書検索部28、接続可能性チェック部30、接
続コスト算出部32及び解析用データ格納部34が設け
られる。解析用データ格納部34には、図2の形態素解
析部12に示した複数の解析パラメータ14−1〜14
−nを実現するため、複数の辞書36−1,36−2,
・・・、接続可能性を記述した複数の接続表38−1,
38−2,・・・、及び接続コストの付け方のルールを
定めた複数のコストルール40−1,40−2,・・・
が格納されている。
る。図3において、形態素解析部12には文字列分割部
26、辞書検索部28、接続可能性チェック部30、接
続コスト算出部32及び解析用データ格納部34が設け
られる。解析用データ格納部34には、図2の形態素解
析部12に示した複数の解析パラメータ14−1〜14
−nを実現するため、複数の辞書36−1,36−2,
・・・、接続可能性を記述した複数の接続表38−1,
38−2,・・・、及び接続コストの付け方のルールを
定めた複数のコストルール40−1,40−2,・・・
が格納されている。
【0017】この形態素解析部12における形態素解析
の処理としては、まず情報ソース10から入力した解析
対象となる文字列の全てを文字列分割部26で分割パタ
ーンに分割する。次に辞書検索部28で、各々の分割単
位の文字列について、解析データ用格納部34の例えば
辞書36−1の検索による辞書引きを行い、辞書引きの
結果を接続可能性チェック部30に与え、解析データ格
納部34の例えば接続表38−1で定められた接続可能
性をチェックして接続の仕方を求める。
の処理としては、まず情報ソース10から入力した解析
対象となる文字列の全てを文字列分割部26で分割パタ
ーンに分割する。次に辞書検索部28で、各々の分割単
位の文字列について、解析データ用格納部34の例えば
辞書36−1の検索による辞書引きを行い、辞書引きの
結果を接続可能性チェック部30に与え、解析データ格
納部34の例えば接続表38−1で定められた接続可能
性をチェックして接続の仕方を求める。
【0018】最終的に接続コスト算出部32において、
接続可能性のチェックで求められた接続の仕方の各々に
つき、例えばコストルール40−1に従って接続コスト
という値で評価し、コストの総計を求め、コストの総計
の最も小さいものを形態素解析結果42として出力す
る。このような形態素解析部による接続可能性をチェッ
クして接続の仕方を接続コストという値で評価してコス
トの総計が最も小さいものを形態素解析結果とする方法
は、コストの総計が小さいほど日本語として最も自然な
文書を表わしているとする最尤法に基づいている。
接続可能性のチェックで求められた接続の仕方の各々に
つき、例えばコストルール40−1に従って接続コスト
という値で評価し、コストの総計を求め、コストの総計
の最も小さいものを形態素解析結果42として出力す
る。このような形態素解析部による接続可能性をチェッ
クして接続の仕方を接続コストという値で評価してコス
トの総計が最も小さいものを形態素解析結果とする方法
は、コストの総計が小さいほど日本語として最も自然な
文書を表わしているとする最尤法に基づいている。
【0019】形態素解析部12において、図1の複数の
解析パラメータ14−1〜14−nを使用した形態素解
析は、解析データ格納部34に格納している複数の辞書
36−1,36−2,・・・、接続表38−1,38−
2,・・・、及びコストルール40−1,40−2,・
・・を変えることで、異なった複数の解析パラメータ1
4−1〜14−nを得ることができる。
解析パラメータ14−1〜14−nを使用した形態素解
析は、解析データ格納部34に格納している複数の辞書
36−1,36−2,・・・、接続表38−1,38−
2,・・・、及びコストルール40−1,40−2,・
・・を変えることで、異なった複数の解析パラメータ1
4−1〜14−nを得ることができる。
【0020】即ち、形態素解析部12は、情報ソース1
0より入力した文を対象に複数の解析パラメータによっ
て形態素解析を行うものであり、このとき本発明にあっ
ては、抽出しようとする情報、例えばキーワードや文字
読取認識装置における誤り文字などに応じ、このような
抽出しようとする情報が効果的に抽出し易くなるように
複数の解析パラメータが決定される。
0より入力した文を対象に複数の解析パラメータによっ
て形態素解析を行うものであり、このとき本発明にあっ
ては、抽出しようとする情報、例えばキーワードや文字
読取認識装置における誤り文字などに応じ、このような
抽出しようとする情報が効果的に抽出し易くなるように
複数の解析パラメータが決定される。
【0021】図4は、図2の形態素解析部12、情報抽
出部16及び情報利用部18の具体例をキーワードの抽
出を例にとって示している。まず形態素解析部12にあ
っては、キーワード抽出のための2つの解析パラメータ
14−1,14−2を用意する。解析パラメータ14−
1は、「名詞連続部分は一つの単語として解析する」と
いうものである。また解析パラメータ14−2は「名詞
連続部分もできるかぎり分割する」というものである。
出部16及び情報利用部18の具体例をキーワードの抽
出を例にとって示している。まず形態素解析部12にあ
っては、キーワード抽出のための2つの解析パラメータ
14−1,14−2を用意する。解析パラメータ14−
1は、「名詞連続部分は一つの単語として解析する」と
いうものである。また解析パラメータ14−2は「名詞
連続部分もできるかぎり分割する」というものである。
【0022】このように異なった解析パラメータ14−
1,14−2で情報ソース10から入力した文を形態素
解析解析することにより、複数の解析結果42−1,4
2−2が得られる。この場合、解析パラメータ14−
1,14−2により得られる解析結果42−1,42−
2は、基本的には異なった解析結果となる。しかしなが
ら、場合によっては解析パラメータ14−1,14−2
が異なっていても解析結果42−1,42−2が同じ場
合もあり得る。いずれの場合についても、各解析結果4
2−1,42−2は情報抽出部16に送られる。
1,14−2で情報ソース10から入力した文を形態素
解析解析することにより、複数の解析結果42−1,4
2−2が得られる。この場合、解析パラメータ14−
1,14−2により得られる解析結果42−1,42−
2は、基本的には異なった解析結果となる。しかしなが
ら、場合によっては解析パラメータ14−1,14−2
が異なっていても解析結果42−1,42−2が同じ場
合もあり得る。いずれの場合についても、各解析結果4
2−1,42−2は情報抽出部16に送られる。
【0023】情報抽出部16は、形態素解析部12から
送られてきた複数の形態素解析結果42−1,42−2
を基にしてキーワードの抽出を行う。いま形態素解析部
12の解析パラメータ14−1,14−2によって情報
ソース10の「東京都ゴミ対策」という語の解析を行う
と、解析パラメータ14−1による解析結果42−1は
「東京都ゴミ対策」となる。これに対し解析パラメータ
14−2による解析結果42−2は、単語分割部分を/
で表わすと、「東京/都/ゴミ/対策」となる。
送られてきた複数の形態素解析結果42−1,42−2
を基にしてキーワードの抽出を行う。いま形態素解析部
12の解析パラメータ14−1,14−2によって情報
ソース10の「東京都ゴミ対策」という語の解析を行う
と、解析パラメータ14−1による解析結果42−1は
「東京都ゴミ対策」となる。これに対し解析パラメータ
14−2による解析結果42−2は、単語分割部分を/
で表わすと、「東京/都/ゴミ/対策」となる。
【0024】情報抽出部16にあっては、例えば形態素
解析結果42−1である「東京都ゴミ対策」と形態素解
析結果42−2であるキーワード44−2となる「東京
/都/ゴミ/対策」のいずれかを採用して情報利用部1
8に提供する。例えばキーワード44−1の「東京都ゴ
ミ対策」を採用すると、検索キー「京都」に対しても誤
ってマッチしてしまう。
解析結果42−1である「東京都ゴミ対策」と形態素解
析結果42−2であるキーワード44−2となる「東京
/都/ゴミ/対策」のいずれかを採用して情報利用部1
8に提供する。例えばキーワード44−1の「東京都ゴ
ミ対策」を採用すると、検索キー「京都」に対しても誤
ってマッチしてしまう。
【0025】しかしながらキーワード44−2の「東京
/都/ゴミ/対策」を採用した場合には、検索キー「京
都」にマッチするようなことは起こらず、検索キー「東
京」や「東京都」等のみでマッチすることになるため、
効率的な検索が可能となる。一方、形態素解析部12に
おける複数の解析パラメータによっても解析結果が同じ
であった場合には、情報抽出部16にあっては、解析結
果が同じであったという情報をキーワード抽出に利用す
ることができる。例えば「二つの解析パラメータの下に
おいて解析を行った結果のうち、共に名詞と解析された
単語をキーワードとする」というキーワード抽出ルール
は、異なる解析パラメータに基づいた解析結果の同等性
を利用したキーワード抽出ルールとなる。
/都/ゴミ/対策」を採用した場合には、検索キー「京
都」にマッチするようなことは起こらず、検索キー「東
京」や「東京都」等のみでマッチすることになるため、
効率的な検索が可能となる。一方、形態素解析部12に
おける複数の解析パラメータによっても解析結果が同じ
であった場合には、情報抽出部16にあっては、解析結
果が同じであったという情報をキーワード抽出に利用す
ることができる。例えば「二つの解析パラメータの下に
おいて解析を行った結果のうち、共に名詞と解析された
単語をキーワードとする」というキーワード抽出ルール
は、異なる解析パラメータに基づいた解析結果の同等性
を利用したキーワード抽出ルールとなる。
【0026】情報抽出部16で抽出されたキーワードは
情報利用部18に与えられ、データにキーワードとして
付与することで、利用対象部24におけるユーザに提供
したり、ファイルやデータベースに格納するなど種々の
形態が考えられる。図5は、文字認識装置における誤り
文字の検出と修正を行う本発明の文書情報処理装置の具
体例を示す。
情報利用部18に与えられ、データにキーワードとして
付与することで、利用対象部24におけるユーザに提供
したり、ファイルやデータベースに格納するなど種々の
形態が考えられる。図5は、文字認識装置における誤り
文字の検出と修正を行う本発明の文書情報処理装置の具
体例を示す。
【0027】図5において、情報ソース10からは文字
認識装置の認識結果である文字ラティスが入力される。
この場合、入力文字ラティスが図示のように 第1候補文字「こ ヒ も あ ろ」、第2候補文字
「乙 ど む ぁ る」、更に、第3候補文字が「ご
と 右 め ら」であったとする。
認識装置の認識結果である文字ラティスが入力される。
この場合、入力文字ラティスが図示のように 第1候補文字「こ ヒ も あ ろ」、第2候補文字
「乙 ど む ぁ る」、更に、第3候補文字が「ご
と 右 め ら」であったとする。
【0028】このような情報ソース10から入力される
入力文字ラティスについて、形態素解析部12で異なっ
た解析パラメータ14−1,14−2によって形態素解
析、即ち文字列を分割して各分割単位の辞書引きを行
い、その接続可能性をチェックして接続の仕方を接続コ
ストで評価して、コスト総計が最も小さい文字列即ち日
本語として最も自然な文字列の解析結果42−1,42
−2を求める。
入力文字ラティスについて、形態素解析部12で異なっ
た解析パラメータ14−1,14−2によって形態素解
析、即ち文字列を分割して各分割単位の辞書引きを行
い、その接続可能性をチェックして接続の仕方を接続コ
ストで評価して、コスト総計が最も小さい文字列即ち日
本語として最も自然な文字列の解析結果42−1,42
−2を求める。
【0029】解析パラメータ14−1による解析結果4
2−1は例えば「こと/も/あ/る」であり、一方、解
析パラメータ14−2による解析結果42−2は「こど
も/あ/る」であったとする。このような解析結果42
−1,42−2を情報抽出部14は受け取り、解析結果
42−1,42−2の文字列の異なった部分である「と
−ど」を相違点として指摘し、情報利用部16に出力す
る。最も簡単な方法としては利用対象部24であるユー
ザに相違点を示すことで、ユーザの判断を仰ぐことによ
り効率的な修正即ち「と」を選択し、「こともある」と
なるとする修正結果を得ることができる。
2−1は例えば「こと/も/あ/る」であり、一方、解
析パラメータ14−2による解析結果42−2は「こど
も/あ/る」であったとする。このような解析結果42
−1,42−2を情報抽出部14は受け取り、解析結果
42−1,42−2の文字列の異なった部分である「と
−ど」を相違点として指摘し、情報利用部16に出力す
る。最も簡単な方法としては利用対象部24であるユー
ザに相違点を示すことで、ユーザの判断を仰ぐことによ
り効率的な修正即ち「と」を選択し、「こともある」と
なるとする修正結果を得ることができる。
【0030】即ち、情報利用部16においてモニターに
情報抽出部14で抽出した相違点を指摘する箇所をユー
ザに提示し、その部分についてキーボードやマウス等で
ユーザに正解を入力してもらう構成とすることで、人手
による修正作業を効率的に進めることができる。また情
報利用部16においては、情報抽出部14から与えられ
た認識誤りの場所を自動修正することもできる。図5に
あっては、誤り文字を自動修正するため、情報利用部1
6にデータベース22と誤り修正部20を設けている。
誤り修正部20は、認識誤り文字に関し情報抽出部14
から得た指摘箇所について、データベース22内に格納
されたルールを用いて認識結果の自動修正を行う。
情報抽出部14で抽出した相違点を指摘する箇所をユー
ザに提示し、その部分についてキーボードやマウス等で
ユーザに正解を入力してもらう構成とすることで、人手
による修正作業を効率的に進めることができる。また情
報利用部16においては、情報抽出部14から与えられ
た認識誤りの場所を自動修正することもできる。図5に
あっては、誤り文字を自動修正するため、情報利用部1
6にデータベース22と誤り修正部20を設けている。
誤り修正部20は、認識誤り文字に関し情報抽出部14
から得た指摘箇所について、データベース22内に格納
されたルールを用いて認識結果の自動修正を行う。
【0031】この自動修正の方法としては、複数の解析
パラメータ14−1,14−2から得られる複数の形態
素連接パターン42−10,42−20について、どの
解析結果を正解とすればよいか決定する知識として、デ
ータベース22に格納したルールを用いる。ここで情報
抽出部14より相違点「と−ど」を指摘した文字列「こ
[と−ど]もある」が与えられたとすると、この場合の
形態素連接パターン42−10は「こと:名詞/も:助
詞/あ:動詞/る:動詞語尾」であり、また形態素連接
パターン42−20は「こども:名詞/あ:動詞/る:
動詞語尾」であったとする。
パラメータ14−1,14−2から得られる複数の形態
素連接パターン42−10,42−20について、どの
解析結果を正解とすればよいか決定する知識として、デ
ータベース22に格納したルールを用いる。ここで情報
抽出部14より相違点「と−ど」を指摘した文字列「こ
[と−ど]もある」が与えられたとすると、この場合の
形態素連接パターン42−10は「こと:名詞/も:助
詞/あ:動詞/る:動詞語尾」であり、また形態素連接
パターン42−20は「こども:名詞/あ:動詞/る:
動詞語尾」であったとする。
【0032】一方、データベース22には「動詞がその
直前に名詞を取る事は希である。」という知識に基づい
たルールが格納されていたとすると、このルールを用い
て解析パラメータ14−1による解析結果である形態素
連接パターン42−10の「こともある」を正解と判定
する。勿論、このような判定のための知識がデータベー
ス22にない場合はその部分の判定は行えないが、その
場合には前述したように情報利用部16において利用対
象部24としてのユーザに提示してユーザの指摘を受け
ればよい。
直前に名詞を取る事は希である。」という知識に基づい
たルールが格納されていたとすると、このルールを用い
て解析パラメータ14−1による解析結果である形態素
連接パターン42−10の「こともある」を正解と判定
する。勿論、このような判定のための知識がデータベー
ス22にない場合はその部分の判定は行えないが、その
場合には前述したように情報利用部16において利用対
象部24としてのユーザに提示してユーザの指摘を受け
ればよい。
【0033】次に図5の文字認識装置における読取文字
の指摘について、文字以外の記号例えば句読点や括弧な
どの誤り検出と修正を説明する。情報抽出部14は、あ
る解析パラメータの解析結果について句読点は「,.」
であるとし、また別の解析パラメータの解析結果での句
読点は「、。」を用いるように設定する。このような異
なる解析パラメータについて、使用する句読点の種類を
別々に設定することで、二つの解析パラメータの解析結
果については、その候補につき「,」と「.」、または
「、」と「。」の両方を含む認識部分に対して相違点の
指摘が行われることになる。
の指摘について、文字以外の記号例えば句読点や括弧な
どの誤り検出と修正を説明する。情報抽出部14は、あ
る解析パラメータの解析結果について句読点は「,.」
であるとし、また別の解析パラメータの解析結果での句
読点は「、。」を用いるように設定する。このような異
なる解析パラメータについて、使用する句読点の種類を
別々に設定することで、二つの解析パラメータの解析結
果については、その候補につき「,」と「.」、または
「、」と「。」の両方を含む認識部分に対して相違点の
指摘が行われることになる。
【0034】同様に括弧に関しても、異なった解析パラ
メータのそれぞれについて異なった括弧の仕様を設定す
ることで、同様な相違点の指摘を行うことができる。更
に情報抽出部14としては、文字認識の結果の信頼度が
低く、本来ならば相違点として指摘すべき文字も複数の
解析パラメータの下で解析結果が同じであるならば、そ
の部分は正しいと見做して指摘を行わないようにする。
これは複数の解析パラメータの下での解析結果の同等性
を利用した処理である。これによって無駄な指摘を減ら
すことができるので、ユーザの修正作業を軽減すること
ができる。
メータのそれぞれについて異なった括弧の仕様を設定す
ることで、同様な相違点の指摘を行うことができる。更
に情報抽出部14としては、文字認識の結果の信頼度が
低く、本来ならば相違点として指摘すべき文字も複数の
解析パラメータの下で解析結果が同じであるならば、そ
の部分は正しいと見做して指摘を行わないようにする。
これは複数の解析パラメータの下での解析結果の同等性
を利用した処理である。これによって無駄な指摘を減ら
すことができるので、ユーザの修正作業を軽減すること
ができる。
【0035】情報抽出部14における句読点の指摘に対
しては、情報利用部16において予めユーザが句読点と
して例えば「,.」を用いるという知識をデータベース
22に記述しておけば、誤り修正部20において自動的
に「,.」が選択され、指摘された部分の自動修正が可
能となる。同様に情報抽出部14で指摘された括弧の部
分についても、括弧の用法についての知識をデータベー
ス22に予め記述しておくことで、記述された括弧の形
に対応した正しい認識結果を得ることができる。このよ
うな括弧の用法の知識としては、例えば図6のようなル
ールを記述すればよい。
しては、情報利用部16において予めユーザが句読点と
して例えば「,.」を用いるという知識をデータベース
22に記述しておけば、誤り修正部20において自動的
に「,.」が選択され、指摘された部分の自動修正が可
能となる。同様に情報抽出部14で指摘された括弧の部
分についても、括弧の用法についての知識をデータベー
ス22に予め記述しておくことで、記述された括弧の形
に対応した正しい認識結果を得ることができる。このよ
うな括弧の用法の知識としては、例えば図6のようなル
ールを記述すればよい。
【0036】図6において、データベース知識との使用
括弧の関係は次のようになる。 平仮名のみで構成された一つの単語を囲む括弧は
( ,)を用いる。 平仮名以外のネストされていない括弧開きは「を用い
る。 括弧にネストされた括弧開きは『を用いる。 括弧閉じは直前の括弧の形に対応したものを用いる。
括弧の関係は次のようになる。 平仮名のみで構成された一つの単語を囲む括弧は
( ,)を用いる。 平仮名以外のネストされていない括弧開きは「を用い
る。 括弧にネストされた括弧開きは『を用いる。 括弧閉じは直前の括弧の形に対応したものを用いる。
【0037】このようなデータベース知識を用いること
で、正解文字列を自動的に得ることができる。誤り修正
に用いる知識を格納したデータベース22については、
知識の登録及び更新を容易とするためユーザインタフェ
ースを備えることが望ましい。図7は本発明の別の実施
形態であり、この実施形態にあっては単一の解析パラメ
ータを用いた形態素解析による複数の解析結果から情報
抽出を行うようにしたことを特徴とする。
で、正解文字列を自動的に得ることができる。誤り修正
に用いる知識を格納したデータベース22については、
知識の登録及び更新を容易とするためユーザインタフェ
ースを備えることが望ましい。図7は本発明の別の実施
形態であり、この実施形態にあっては単一の解析パラメ
ータを用いた形態素解析による複数の解析結果から情報
抽出を行うようにしたことを特徴とする。
【0038】図7において、形態素解析部12が例えば
図3に示したような接続コストの算出による場合、接続
コストの総計が最小となる順位第1位の解析結果42−
1以外にも、この実施形態にあっては2位以下の解析結
果42−2,・・・,42−nも出力するように形態素
解析部12の機能を拡張する。これによって単一の解析
パラメータ14による解析であっても、図2の実施形態
と同様、複数の解析パラメータによって複数回、解析を
行ったと同じ複数の解析結果42−1〜42−nを得る
ことができる。
図3に示したような接続コストの算出による場合、接続
コストの総計が最小となる順位第1位の解析結果42−
1以外にも、この実施形態にあっては2位以下の解析結
果42−2,・・・,42−nも出力するように形態素
解析部12の機能を拡張する。これによって単一の解析
パラメータ14による解析であっても、図2の実施形態
と同様、複数の解析パラメータによって複数回、解析を
行ったと同じ複数の解析結果42−1〜42−nを得る
ことができる。
【0039】具体的には、図5のように、文字認識装置
における文字ラティスを情報ソース10として入力する
場合、形態素解析部12は単一の解析パラメータ14に
より最も最適と判断されるパス以外の2位以下のパスに
ついても解析結果42−2〜42−nとして出力するこ
とで、情報抽出部16に対し複数の解析結果を与えるこ
とができ、同様にして相違点の指摘による修正を効果的
に行うことができる。
における文字ラティスを情報ソース10として入力する
場合、形態素解析部12は単一の解析パラメータ14に
より最も最適と判断されるパス以外の2位以下のパスに
ついても解析結果42−2〜42−nとして出力するこ
とで、情報抽出部16に対し複数の解析結果を与えるこ
とができ、同様にして相違点の指摘による修正を効果的
に行うことができる。
【0040】尚、上記の実施形態はキーワード抽出と文
字読取認識装置における誤り文字の検出を例にとるもの
であったが、本発明はこれに限定されず、文書情報を対
象とした形態素解析を行う適宜のシステムにつき、同様
に適用することができる。
字読取認識装置における誤り文字の検出を例にとるもの
であったが、本発明はこれに限定されず、文書情報を対
象とした形態素解析を行う適宜のシステムにつき、同様
に適用することができる。
【0041】
【発明の効果】以上説明してきたように本発明によれ
ば、文を形態素解析する際に複数の解析パラメータを用
意して複数の解析結果を得ることで、複数の解析結果の
差異を利用したり同等性を利用してキーワード抽出や文
字認識の誤り文字の検出修正を効率的に行うことができ
る。
ば、文を形態素解析する際に複数の解析パラメータを用
意して複数の解析結果を得ることで、複数の解析結果の
差異を利用したり同等性を利用してキーワード抽出や文
字認識の誤り文字の検出修正を効率的に行うことができ
る。
【0042】また単一のパラメータであっても、順位を
もつ複数の解析結果が得られる場合には、複数の解析結
果の差異や同等性を利用することで同様にしてキーワー
ドや文字認識における誤り文字の検出を効率的且つ正確
に行うことができる。
もつ複数の解析結果が得られる場合には、複数の解析結
果の差異や同等性を利用することで同様にしてキーワー
ドや文字認識における誤り文字の検出を効率的且つ正確
に行うことができる。
【図1】本発明の原理説明図
【図2】本発明の実施形態のブロック図
【図3】図2の形態素解析部の詳細のブロック図
【図4】キーワードの抽出に利用した本発明の実施形態
の説明図
の説明図
【図5】認識文字の誤り検出に利用した本発明実施形態
の説明図
の説明図
【図6】図5の自動誤り修正に使用するデータベース知
識の説明図
識の説明図
【図7】本発明の別の実施形態のブロック図
10:情報ソース 12:形態素解析部 14,14−1〜14−n:解析パラメータ 16:情報抽出部 18:情報利用部 20:誤り修正部 22:データベース 24:ユーザ/ファイル/データベース 26:文字列分割部 28:辞書検索部 30:接続可能性チェック部 32:接続コスト算出部 34:解析用データ格納部 36−1,36−2:辞書 38−1,38−2:接続表 40−1,40−2:コストルール 42,42−1,42−2:形態素解析結果 44−1,44−2:キーワード 48:正解
Claims (7)
- 【請求項1】複数の解析パラメータを使用した文の形態
素解析により複数の解析結果を導出する形態素解析部
と、 前記形態素解析部から得られた複数の解析結果に基づい
て必要な情報を抽出する情報抽出部と、 前記情報抽出部の抽出情報を、ユーザに提示したり、フ
ァイルに出力したり、データベースに付与したりして利
用する情報利用部と、を備えたことを特徴とする文書情
報処理装置。 - 【請求項2】単一の解析パラメータを使用した文の形態
素解析により順位をもつ複数の解析結果を導出する形態
素解析部と、 前記形態素解析部から得られた複数の解析結果に基づい
て必要な情報を抽出する情報抽出部と、 前記情報抽出部の抽出情報を、ユーザに提示したり、フ
ァイルに出力したり、データベースに付与したりして利
用する情報利用部と、を備えたことを特徴とする文書情
報処理装置。 - 【請求項3】請求項1又は2記載の情報抽出装置に於い
て、前記情報抽出部は、前記形態素解析部から得られた
複数の解析結果の差異を利用して必要な情報を抽出する
ことを特徴とする文書情報処理装置。 - 【請求項4】請求項1又は2記載の文書情報処理装置に
於いて、前記情報抽出部は、前記形態素解析部から得ら
れた複数の解析結果の同等性を利用して必要な情報を抽
出することを特徴とする文書情報処理装置。 - 【請求項5】請求項3又は4記載の文書情報処理装置に
於いて、前記情報抽出手段は、前記情報利用部で使用す
る文中のキーワードを抽出することを特徴とする文書情
報処理装置。 - 【請求項6】請求項3又は4記載の文書情報処理装置に
於いて、前記情報抽出部は、前記情報利用部で修正され
る文字読取認識装置で得られた読取文中の認識誤り文字
を検出することを特徴とする文書情報処理装置。 - 【請求項7】請求項6記載の文書情報処理装置に於い
て、前記情報利用部は、 認識誤り文字の修正に使用される予め定めた文法ルール
を格納したデータベースと、 前記情報抽出部で検出した認識誤り文字に前記データベ
ースの文法ルールを適用して自動修正する誤り修正部
と、を備えたことを特徴とする文書情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8028848A JPH09223143A (ja) | 1996-02-16 | 1996-02-16 | 文書情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8028848A JPH09223143A (ja) | 1996-02-16 | 1996-02-16 | 文書情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09223143A true JPH09223143A (ja) | 1997-08-26 |
Family
ID=12259800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8028848A Pending JPH09223143A (ja) | 1996-02-16 | 1996-02-16 | 文書情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09223143A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208421A (ja) * | 2004-01-23 | 2005-08-04 | Aisin Aw Co Ltd | 文章読み上げシステム及び方法 |
WO2012081386A1 (ja) * | 2010-12-17 | 2012-06-21 | 楽天株式会社 | 自然言語処理装置、方法、及びプログラム |
-
1996
- 1996-02-16 JP JP8028848A patent/JPH09223143A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208421A (ja) * | 2004-01-23 | 2005-08-04 | Aisin Aw Co Ltd | 文章読み上げシステム及び方法 |
JP4539097B2 (ja) * | 2004-01-23 | 2010-09-08 | アイシン・エィ・ダブリュ株式会社 | 文章読み上げシステム及び方法 |
WO2012081386A1 (ja) * | 2010-12-17 | 2012-06-21 | 楽天株式会社 | 自然言語処理装置、方法、及びプログラム |
CN103038762A (zh) * | 2010-12-17 | 2013-04-10 | 乐天株式会社 | 自然语言处理装置、方法、以及程序 |
JP5314195B2 (ja) * | 2010-12-17 | 2013-10-16 | 楽天株式会社 | 自然言語処理装置、方法、及びプログラム |
KR101364321B1 (ko) * | 2010-12-17 | 2014-02-18 | 라쿠텐 인코포레이티드 | 자연 언어 처리 장치, 방법 및 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6424983B1 (en) | Spelling and grammar checking system | |
US20040002848A1 (en) | Example based machine translation system | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
JPH05242138A (ja) | 単語ディスアンビギュエーション装置及び方法 | |
Volk et al. | Strategies for reducing and correcting OCR errors | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JPH09198409A (ja) | 酷似文書抽出方法 | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
Liyanapathirana et al. | Sinspell: A comprehensive spelling checker for sinhala | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
Doush et al. | Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JPH09223143A (ja) | 文書情報処理装置 | |
Varshini et al. | A recognizer and parser for basic sentences in telugu using cyk algorithm | |
JP4047895B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
JPH0748217B2 (ja) | 文書要約装置 | |
JP2002091961A (ja) | コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 | |
JP4318223B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP3856515B2 (ja) | 文書校正装置 | |
JP3924899B2 (ja) | テキスト検索装置およびテキスト検索方法 | |
KR20020054244A (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
Jamwal et al. | A Novel Hybrid Approach for the Designing and Implementation of Dogri Spell Checker |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020924 |