JP6303508B2

JP6303508B2 - 文書分析装置、文書分析システム、文書分析方法およびプログラム

Info

Publication number: JP6303508B2
Application number: JP2014001641A
Authority: JP
Inventors: 英司平尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-01-08
Filing date: 2014-01-08
Publication date: 2018-04-04
Anticipated expiration: 2034-01-08
Also published as: JP2015130102A

Description

本発明は、文書分析装置、分析システム、文書分析方法およびプログラムに関し、自然言語で書かれた文書から、仕様書など文書に固有の誤字・脱字を抽出する文書分析装置、文書分析システム、文書分析方法およびプログラムに関する。

近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の誤字脱字を抽出するシステムが開発されている。

特許文献１には、日本語の文書中の誤字を抽出する文書誤字抽出方式が開示されている。当該文書誤字抽出方式は、単語間の接続コストを定義するコストテーブルを利用して、誤字候補を出力する。

特許文献２には、誤字脱字などの表記ゆれを含む文書に対し、高度な形態素解析を行い、当該形態素解析により得られた単語列データを用いて誤字脱字を修正する誤字脱字対応テキスト解析装置が開示されている。当該誤字脱字対応テキスト解析装置は、ある文字が別の文字に混同される程度（混同しやすさ）を数値化した文字混同確率を用いて、誤字脱字の修正候補を求める。

特開平４−２１３１５５号公報特許第５２０３３２４号公報

特許文献１に記載の文書誤字抽出方式は、単語の品詞およびその他の情報を、左向きの構文属性（かかられ方）および右向きの構文属性（かかり方）として定義し、さらに各構文属性間のつながりやすさ（表層の並びの出現確率）を接続コストとして定義している。すなわち、当該文書誤字抽出方式は、各単語の構文属性のつながりやすさ、すなわち各単語の使われ方が文法的に正しいか否かという基準で誤字候補を検出する。

また、特許文献２に記載の誤字脱字対応テキスト解析装置は、ある文字が、別の文字と同音の文字である場合や、別の文字と形が似ていて文字種が異なる文字である場合などに、文字混同確率の値が大きくなるように設定されている。すなわち、当該誤字脱字対応テキスト解析装置は、文字そのものが混同されやすいか否かという基準で誤字脱字を検出する。

ここで、ある文字列が、その文字列だけに着目すると誤字脱字に該当しないが、特定の文書で用いられる場合には誤字脱字に該当することがある。例えば、システム構築に関して記載された文書において、「入荷金額」という言葉が正式に定義されているとする。この場合、「入荷額」はその文字列だけに着目すると誤字脱字とは言えないが、当該文書中においては「入荷金額」と記載されるべき文字列であり、誤字脱字に該当する。

このような文書の内容に依存した誤字脱字は、単語の使われ方が文法的に正しいか否かという基準（特許文献１）や、文字が混同されやすいか否かという基準（特許文献２）で検出しようとしても、検出することができない。すなわち、特許文献１又は２に記載の技術では、文書の内容に依存した誤字脱字を抽出することができないという課題がある。

本発明の目的は、上記課題に鑑み、文書の内容に依存する誤字脱字を抽出することができる文書分析装置、文書分析システム、文書分析方法及びプログラムを提供することにある。

本発明の文書分析装置は、誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶する記憶部と、少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する分析部と、を含む。

本発明の文書分析システムは、誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を含むサーバ装置と、少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する分析部を含む文書分析装置と、を含む。

本発明の文書分析方法は、誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶し、少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する。

本発明のプログラムは、誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶する処理と、少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する処理と、をコンピュータに実行させる。

本発明は、文書分析装置、文書分析システム、文書分析方法及びプログラムにおいて、文書の内容に依存する誤字脱字を抽出することができるという効果がある。

本発明の第１の実施形態における文書分析装置１００の構成を示すブロック図である。本発明の第１の実施形態における文書分析装置１００の構成を実現するコンピュータの一例を示すブロック図である。本発明の第１の実施形態における文書分析装置１００の動作を示すシーケンス図である。本発明の第２の実施形態における文書分析システム３００の構成を示すブロック図である。本発明の第２の実施形態における単語情報表の具体例を示す図である。本発明の第２の実施形態におけるパターン情報の具体例を示す図である。本発明の第２の実施形態におけるパターン情報の具体例を示す図である。本発明の第２の実施形態におけるノイズ情報の具体例を示す図である。本発明の第２の実施形態における誤字脱字に関する情報の具体例を示す図である。本発明の第２の実施形態における誤字脱字に関する情報の具体例を示す図である。本発明の第３の実施形態における文書分析装置１０００の構成を示すブロック図である。

まず、本発明の実施形態を理解し易くするために、特許文献１及び２に記載された技術について説明し、本発明の実施形態において解決すべき課題を明らかにする。

特許文献１に記載された文書誤字抽出方式は、機械処理用に構成された単語辞書と、単語間の接続コストを定義するコストテーブルと、同音語をグループ化して互いに参照可能にした同音語辞書と、を備える。さらに、文書誤字抽出方式は、形態素解析手段と、同音語候補チェック手段と、誤字候補出力手段とを備える。

形態素解析手段は、単語辞書とコストテーブルを参照して入力文書中の隣接単語間の接続コストを求める。同音語候補チェック手段は、単語辞書，コストテーブルおよび同音語辞書を参照して、接続コストが閾値より低い同音語をチェックする。誤字候補出力手段は、チェック結果に基づいて誤字候補を出力する。

このような構成を有する文書誤字抽出方式は、具体的に次のように動作する。すなわち、形態素解析手段が、単語辞書の辞書情報に従って入力文書を単語単位に切り分ける。さらに、形態素解析手段は、コストテーブルを参照し、表層の並びの出現確率に基づき、隣接単語間の接続コストを求める。次に同音語候補チェック手段が、形態素解析の結果から単語辞書に登録がなかった未登録語および接続コストがあらかじめ定められた閾値より高い単語に対して、単語辞書，コストテーブルおよび同音語辞書を参照して接続コストが閾値より低い同音語があるかどうかをチェックする。最後に誤字候補出力手段は、チェックされた接続コストが閾値より低い同音語があるとされた単語を誤字候補として出力する。

以上のように、特許文献１に記載された文書誤字抽出方式は、単語の品詞その他の情報から表層の並びの出現確率を定義したコストテーブルを利用して、文法的に、より確からしい単語の並びが存在する場合に限って誤字候補を出力する。これにより、人間が目でチェックする場合に比べて、利用者の負担なしで間違いの少ない誤字の抽出を行うことができる。

一方、特許文献２のテキスト解析装置は、辞書登録語での出現文字と入力文での出現文字で変化があった箇所の状況である近似文字状況毎に、ある文字が別の文字に混同される程度（混同しやすさ）を数値化した文字混同確率を格納した文字混同確率記憶手段を含む。さらに、テキスト解析装置は、ある読みに対する漢字を格納した読み漢字対応記憶手段と、統計的言語モデルを格納した統計的言語モデル記憶手段と、入力テキストを形態素解析して単語列データを出力する形態素解析手段とを含む。また、テキスト解析装置は、入力テキストの単語の所定の文字長の単語について近似照合し、近似辞書照合単語列データを出力する近似辞書照合手段と、単語列データと近似辞書照合単語列データを用いて誤字脱字修正を行う誤字脱字修正手段とを含む。

特許文献２のテキスト解析装置は、形態素解析手段が入力文を形態素解析して使われている単語の表記や品詞といった単語列データを出力する。さらに、近似辞書照合手段が、同じ入力文に対して近似辞書照合処理を実行して元キーワード、照合開始位置、照合終了位置、誤り開始位置、誤り文字数、一致タイプといった近似辞書照合単語列データを出力する。次に、誤字脱字修正手段は、文字混同確率記憶手段、読み漢字対応記憶手段、統計的言語モデル記憶手段にそれぞれ格納された、ある文字が別の文字に混同されやすさを数値化した文字混同確率と、同一の読みを持つ漢字と、統計的言語モデルとを用いて、次の処理を実行する。すなわち、誤字脱字修正手段は、単語列データおよび近似辞書照合単語列データを受付け、それらに存在する単語について、その照合による一致タイプと近似文字状況の２つの観点から、各単語に重み付けを行い、重みつき単語列データを作成する。さらに、誤字脱字修正手段は、重みつき単語列データを用いて、統計的言語モデル記憶手段に格納された統計的言語モデルに基づき、統計的言語モデルを参照して単語列毎の重みを考慮した表記列と品詞列の同時確率を最大化するような単語分割（最尤単語列）に、単語列データの文字列を変換する。この変換によって、誤字脱字が修正される。

このような構成により、誤字脱字が含まれるテキストであっても入力文中の単語を認定して品詞などの辞書情報を付与する形態素解析を正しく行うことができる。

しかしながら、特許文献１及び２には、自然言語で書かれた文書によって誤字脱字の量又はレベルが違うという点に着目していない。その「レベル」とは、「文書における誤字脱字への配慮の程度」を表すものとする。したがって、特許文献１及び２には、その量又はレベルに基づいて誤字脱字を分析し、それを検出することができないという課題がある。本発明の実施形態は、当該課題を解決する。自然言語で書かれた文書には、例えば、システム構築における仕様書がある。仕様書は、開発や実装作業を行うためのものであり、使用可能な文字が厳格であり、誤字脱字が少ない文で構成されなければならない。また、一般的な文書の場合、誤字脱字のレベルが低い場合もある。このように、文書における誤字脱字の量又はレベルに応じた誤字脱字の抽出が必要になる。

＜実施形態１＞
次に、本発明の実施形態について、図面を参照して詳細に説明する。図１は、本発明の第１の実施形態における文書分析装置１００の構成を示すブロック図である。

図１を用いて、本発明の第１の実施形態における文書分析装置１００について説明する。なお、図１に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明に対するなんらの限定を意図するものではない。

図１に示すように、本発明の第１の実施形態における文書分析装置１００は、入力部１０、分析部２０、出力部３０、及びノイズデータベース４０を含む。分析部２０は、文書解析部２１、誤字脱字指標生成部２２、ノイズ情報検出部２３、誤字脱字抽出条件変更部２４、及び誤字脱字抽出部２５を含む。また、文書分析装置１００は、電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム等で構成されてもよい。

図１に示す文書分析装置１００は、例えば、自然言語で記載された文書に対して、分析対象の文書が誤字脱字にどの程度配慮して書かれているかという配慮程度を情報として利用する。文書分析装置１００は、その情報に基づいて、誤字脱字の可能性のある表現から本当に誤字脱字とみなすべき表現を絞り込む際の条件を変更し、変更された条件を使って文書に固有の誤字脱字を抽出する。

ここで、文書分析装置１００は、電子機器で構成される場合、例えば、プログラム制御により動作するコンピュータで実現可能である。図２は、本発明の第１の実施形態における文書分析装置１００の代表的なハードウェア構成図である。図２に示すように、文書分析装置１００は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１、ＲＡＭ（ＲａｍｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２、記憶装置３、通信インターフェース４、入力装置５、出力装置６を含む。

図１における分析部２０、文書解析部２１、誤字脱字指標生成部２２、ノイズ情報検出部２３、誤字脱字抽出条件変更部２４、及び誤字脱字抽出部２５は、プログラムをＲＡＭ２に読み出し、実行するＣＰＵ１によって実現される。入力部１０及び出力部３０が情報の送受信を行う動作は、例えばＣＰＵ１のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）を実行することで実現される。ノイズデータベース４０は、例えばハードディスクやフラッシュメモリ、光ディスクなどのディスクメモリのほか、半導体メモリを含む。

通信インターフェース４は、ＣＰＵ１に接続され、ネットワーク或いは外部記憶媒体に接続される。外部データが通信インターフェース４を介してＣＰＵ１に取り込まれても良い。入力装置５は、例えばキーボードやマウス、タッチパネルである。出力装置６は、例えばディスプレイである。

また、文書分析装置１００は、例えば、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とで構成されていても良い。その場合、データ処理装置は、プログラムを記憶するリードオンリメモリ（ＲＯＭ）と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ（ＲＡＭ）と、ＲＯＭに記憶されたプログラムに従って、ＲＡＭに記憶されているデータを処理する中央処理装置（ＣＰＵ）とから構成される。

この場合、データ処理装置が入力部１０、文書解析部２１、誤字脱字指標生成部２２、ノイズ情報検出部２３、誤字脱字抽出条件変更部２４、誤字脱字抽出部２５として動作する。補助記憶装置がノイズデータベース４０として動作する。出力装置が出力部３０として動作する。

なお、図２に示すハードウェア構成は、一例にすぎず、図１に示す各部それぞれが独立した論理回路で構成されていても良い。

次に、文書分析装置１００を構成する各構成要素について説明する。

入力部１０は、文書もしくは文書群（以下、少なくとも１つの文書と記載する）を受け付け、文書解析部２１に出力する。少なくとも１つの文書とは、例えば、文書に固有の誤字脱字を含む可能性が有り、修正が必要な誤字脱字の箇所を分析する必要がある文書である。また、少なくとも１つの文書は、例えば、自然言語で構成された文書である。

文書解析部２１は、入力部１０から出力された少なくとも１つの文書を構成する各文章に対して形態素解析を適用し、各文章または各文に使用されている全単語の情報（以下、単語情報と記載する）を抽出する。ここで、文書解析部２１は、例えば、形態素解析した各文章または各文の全単語について、自立語と付属語とを個別の単語（以下、１単語と記載する）の単語情報として抽出する。自立語とは、名詞、動詞、形容詞などの、単独で意味をなす語である。付属語とは、助詞などの、単独で意味をなさない語である。

また、文書解析部２１は、名詞や未知語が助詞などを挟まずに隣接している場合、例えば、隣接する名詞および未知語同士で結合されてなる複合語を１単語として抽出する。また、複合語は、例えば、全ての隣接語同士で結合された語が１単語の単語情報であってもよい。ここで、未知語とは、文書解析部２１が少なくとも１つの文書を形態素解析するために必要な辞書、に登録されていない語である。

また、文書解析部２１は、同一の文字列からなる単語であっても文書内における出現箇所が異なれば、それぞれについて単語情報の抽出を行う。さらに、上述の単語情報は、例えば、使用されている単語の文字列と、単語の文書内での存在位置に関する情報を含む。単語の文書内での存在位置に関する情報とは、使用箇所が同定可能な情報である。単語の文書内での存在位置に関する情報は、単語の存在する文の出現順位や頁、目次上の章や節、項などである。

誤字脱字指標生成部２２は、文書解析部２１が抽出した単語情報を用いて、誤字脱字指標を算出する。誤字脱字指標とは、文書解析部２１で検出された文書内の全単語を組み合わせてなる合成語または複合語のそれぞれに対して、誤字脱字の可能性を示す値である。誤字脱字指標は、例えば、文書が有する合成語や複合語が、その文書においてどの程度誤字脱字と判断できるかを示す誤字度（誤字レベル）、または誤字の確率であって、同じ合成語や複合語であっても文書の種類、ジャンルあるいは内容の厳格性に応じて異なる値を有する。

ここで、誤字脱字指標は、例えば、単語間の文字列の類似性及び文書中の各単語の出現頻度の偏りに基づき、単語間の文字列の類似性がより近い単語の組み合わせ又は文書中の単語間の出現頻度の偏りがより大きい単語の組み合わせほど、値がより高くなることが望ましい。それは、当該値が高くなることは、対象の単語が誤字脱字である可能性が高いことを示しているからである。また誤字脱字指標は、例えば、使用単語辞書に登録された登録語と文書解析部２１で抽出された各単語の文字列の類似性がより近いほど値がより高くなることが望ましい。それは、当該値が高くなることは、対象の単語が誤字脱字である可能性が高いことを示しているからである。使用単語辞書とは、事前に文書に使用可能な単語の一覧を登録した辞書（記憶デバイス）である。この場合、単語の組み合わせは文書内の単語の組み合わせではなく、登録語と抽出された各単語との組み合わせとなる。文書解析部２１は、使用単語辞書を含んでもよい。

また、単語間の文字列の類似性を定量化する指標としては、編集距離と単調減少の関係にある指標が適している。編集距離とは、２つの文字列がどれくらい似ているか（又は異なっているか）を表す指標（数）である。例えば、「入荷額」と「入荷金額」の編集距離は１である。また、例えば、「対処」と「対象」の編集距離は１である。

分析部２０が少なくとも１つの文書から、誤字脱字を含む文字または単語を、誤字脱字指標に基づいて検出する場合に、ノイズデータベース４０は、その検出のために必要な情報を蓄積する。すなわち、ノイズデータベース４０は、誤検出となる文字または単語のパターン（誤検出パターン）を抽出可能にする情報（以下、パターン情報と記載する）を、事前に収集し、蓄積する。ノイズデータベース４０は、ノイズ情報検出部２３からの問い合わせ、すなわち、文書解析部２１で検出された、当該文書の任意の単語の組み合わせ（例えば、合成語や複合語）が誤検出パターンに該当するかどうかに関する問い合わせを受ける。さらに、ノイズデータベース４０は、その問い合わせに対し、問い合わせ対象の単語の組み合わせが誤検出パターンと一致するパターン情報を検索し、応答する。

ここで、問い合わせ対象の単語の組み合わせに関する誤字脱字指標が、例えば、単語間の文字列の類似性と、文書中の各単語の出現頻度の偏りに基づく場合、誤検出となるパターンとしては、単語間の文字列の類似性が近くなる接辞語が一方に付随するパターンが考えられる。この場合の誤検出となるパターンを抽出可能にする情報は、接辞語の語群が該当する。

また、ノイズデータベース４０は、文書の種類、ジャンル、及び誤字脱字の量等の、文書の内容に依存する固有の誤字脱字を検出する場合において、例えば、文書の内容ごとに異なる誤検出パターンのパターン情報を蓄積してもよい。ノイズ情報検出部２３が当該ノイズデータベース４０に対して問い合わせをした場合、ユーザが、入力装置５から文書の種類やジャンル等を決定してから、ノイズデータベース４０は、各文書に対するパターン情報を検索してもよい。

他にも、誤字脱字指標が単語間の文字列の類似性と文書中の各単語の出現頻度の偏りとに基づいて算出された場合、誤検出となるパターンは、例えば、複数の名詞や未知語を結合した複合語で一文字違いの熟語が異なるだけの組み合わせたパターンである。この誤検出パターンをもつ問い合わせ対象の単語の組み合わせを、ノイズデータベース４０から抽出可能にするパターン情報として、意味が類似しない一文字違いの熟語の組み合わせが適当である。また、誤字脱字指標が使用単語辞書に登録された登録語と抽出された各単語の文字列の類似性とに基づく場合、誤検出となるパターンは、例えば、抽出された各単語に類似する文字列があるとした登録語、とは別に完全一致する登録語があるとするパターンである。この場合の誤検出となるパターンを抽出可能にする情報は、抽出された各単語と別の登録語との一致状況が該当する。

なお、ノイズデータベース４０は、例えば、情報処理装置１００の外部に存在し、ネットワーク上にあるデータベースであっても良い。また、その場合は、文書分析装置１００とノイズデータベース４０は、ネットワークで接続されている。

ノイズ情報検出部２３は、誤字脱字指標生成部２２で算出した誤字脱字指標に基づき、各単語の組み合わせに対して、誤字脱字指標で誤検出となるパターンの有無をノイズデータベース４０に問合せる。さらに、ノイズ情報検出部２３は、その問い合わせに対する応答としてノイズとなる組み合わせを受け、それをノイズ情報として検出する。

ここで、誤字脱字指標が単語間の文字列の類似性と文書中の各単語の出現頻度の偏りに基づく場合において、検出されるノイズ情報は、誤字脱字指標で誤検出の主因となる情報である。その情報は、単語の組み合わせの一方に接辞語が付いた組み合わせや、複数の名詞や未知語を結合した複合語であって一文字違いの熟語が異なるだけの組み合わせである。

また、他の誤字脱字指標は、使用単語辞書に登録された登録語と、抽出された各単語が類似する文字列があるとした登録語とは別に完全一致する登録語があるパターンでの抽出された各単語と、文字列が類似する登録語の組み合わせなどが考えられる。

誤字脱字抽出条件変更部２４は、ノイズ情報を利用して所定の誤字脱字抽出条件を変更するための変更ルールに基づき、誤字脱字語（誤字脱字を含む文字または単語）の抽出条件を変更する。ここで、誤字脱字抽出条件を変更するための変更ルール（以降、誤字脱字抽出条件変更ルールとも言う）は、例えば、誤字脱字指標の値が高い（大きい）組み合わせ群におけるノイズ情報の割合が高い文書ほど、誤字脱字を検出するための誤字脱字抽出条件を厳しくするルールであってもよい。その理由として、誤字脱字指標が高い組み合わせ群におけるノイズ情報の割合が高い文書は、誤字脱字に配慮して書かれた文書であり、誤字脱字の数が少ないと推定できるからである。

誤字脱字抽出条件変更ルールは、例えば、算出した誤字脱字指標に基づき、各単語の組み合わせを誤字脱字指標の高い順に並べたリストの上位の任意の数の組み合わせを抽出するというルール（以下、変更ルール１と記載する）がある。また、誤字脱字抽出条件変更ルールは、例えば、誤字脱字指標が一定値以上の組み合わせに対して、ノイズ情報に該当した組み合わせの割合と単調減少の関係にある指標に基づき、抽出する組み合わせの数を変更させるというルール（以下、変更ルール２と記載する）である。また、誤字脱字抽出条件変更ルールは、例えば、ノイズ情報に該当した組み合わせの割合と単調増加の関係にある指標に基づき、抽出する組み合わせの誤字脱字指標の下限値を変更するというルール（以下、変更ルール３と記載する）である。

誤字脱字抽出部２５は、誤字脱字指標生成部２２で、誤字脱字指標を算出した文書内の全ての単語の組み合わせから、ノイズ情報検出部２３でノイズ情報に該当した誤検出の組み合わせを除外する。さらに、誤字脱字抽出部２５は、誤字脱字抽出条件変更部２４で誤字脱字抽出条件変更ルールによって変更した誤字脱字語の抽出条件に基づき、誤字脱字語を抽出する。誤字脱字抽出条件変更ルールが、変更ルール１の場合は、上位の組み合わせから、変更した組み合わせ数分の組み合わせを抽出し、各組み合わせ中で出現頻度が低い方の単語を誤字脱字語として抽出する。同様に、誤字脱字抽出条件変更ルールが、変更ルール２の場合も、上位の組み合わせから、変更した組み合わせ数分の組み合わせを抽出し、各組み合わせ中で出現頻度が低い方の単語を誤字脱字語として抽出する。

一方、誤字脱字抽出条件変更ルールが、変更ルール３である場合は、上位の組み合わせから、変更した下限値までの組み合わせを抽出し、各組み合わせ中で出現頻度が低い方の単語を誤字脱字語として抽出する。また、誤字脱字抽出部２５は、例えば、少なくとも抽出した各誤字脱字語、当該誤字脱字語に対応する誤字脱字指標の値および正しいと推定される単語を誤字脱字に関する情報として抽出してもよい。ここで、誤字脱字に関する情報は、例えば、少なくとも文書が有する正しい単語と、正しい単語に対応する誤字脱字を含む単語と、誤字脱字指標との対応関係（例えば、リスト）を含んでもよい。

なお、誤字脱字指標生成部２２で誤字脱字指標を算出した単語の組み合わせが使用単語辞書に登録された登録語と抽出された各単語の組み合わせの場合、誤字脱字抽出部２５は、抽出された単語を誤字脱字語として抽出する。

出力部３０は、誤字脱字抽出部２５で抽出した各誤字脱字語について、対応する誤字脱字指標の値および文書内での存在位置、正しいと推定される単語等を誤字脱字に関する情報として出力する。ここで、出力部３０が出力する誤字脱字に関する情報は、上述の対応関係（例えば、リスト）を含んでもよい。また、出力部３０が出力する誤字脱字に関する情報は、上記内容に限定されない。出力部３０の出力形態は、所要の形態で出力しても良い。出力部３０は、例えば、文書内における各誤字脱字を色分けや太字による強調、文字の拡大などで明示することで、文書全体を出力するなどである。

また、出力部３０の出力形態としては、各誤字脱字語を抽出した表などの形態であって良い。また、出力部３０の出力形態としては、誤字脱字指標の値によって色分けや太字による強調もしくは単語の文字の大きさなどに強弱を与えるなどしても良い。また、出力部３０の出力形態としては、誤字脱字毎の誤字脱字指標の値を文書全体または任意の範囲で集計し、文書の品質を表す指標として表形式で出力する形態であっても良い。また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表に移行できるようにしても良い。

次に、図１の構成図及び図３のシーケンス図を参照して、本発明の第１の実施形態における文書分析装置１００の全体の動作について詳細に説明する。なお、図３に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行っても良い。

図３に示すように、入力部１０は、少なくとも１つの文書の入力を受け付け（文書を読み込み）、文書解析部２１に出力する（ステップＳ１）。ここで、少なくとも１つの文書とは、固有の誤字脱字を含む可能性が有り、修正が必要な誤字脱字の箇所を分析する文書もしくは文書群を示す。

文書解析部２１は、入力された少なくとも１つの文書を構成する各文章に対して形態素解析を適用することで、各文章（少なくとも１つの文書）内に含まれている単語情報の抽出を行う（ステップＳ２）。また、文書解析部２１は、例えば、形態素解析機能を備え、少なくとも１つの文書に対して形態素解析を行い、単語情報を抽出しても良い。

誤字脱字指標生成部２２は、文書解析部２１が抽出した単語情報を用いて、文書内の全単語を組み合わせ、当該全単語の組み合わせに対して誤字脱字指標を算出する（ステップＳ３）。ここで、誤字脱字指標とは、誤字脱字の可能性を示す指標（数）である。

ノイズデータベース４０は、文書に固有の誤字脱字を誤字脱字指標で検出しようとした場合に誤検出となるパターンを抽出可能にする情報を、事前に収集して蓄積する。また、ノイズデータベース４０は、任意の単語の組み合わせが誤検出パターンに該当するかどうかに関する問い合わせに対し、問い合わせ対象の単語の組み合わせが誤検出パターンと一致するか検索し、応答する（ステップＳ４）。

ノイズ情報検出部２３は、誤字脱字指標生成部２２で算出した誤字脱字指標に基づき、各単語の組み合わせに対して、誤字脱字指標で誤検出となるパターンの有無をノイズデータベース４０に問合せる。ノイズ情報検出部２３は、ノイズデータベース４０からの応答としてノイズとなる組み合わせを受け取り、それをノイズ情報として検出する（ステップＳ５）。

誤字脱字抽出条件変更部２４は、ノイズ情報を利用して所定の誤字脱字抽出条件変更ルールに基づき、誤字脱字語の抽出条件を変更する（ステップＳ６）。

誤字脱字抽出部２５は、誤字脱字指標生成部２２で、誤字脱字指標を算出した文書内の全ての単語の組み合わせから、ノイズ情報検出部２３でノイズ情報に該当した組み合わせを除外する。そして、誤字脱字抽出部２５は、さらに誤字脱字抽出条件変更部２４で誤字脱字抽出条件変更ルールによって変更した誤字脱字語を抽出するための抽出条件に基づき、誤字脱字語を抽出する（ステップＳ７）。

出力部３０は、誤字脱字抽出部２５で抽出した各誤字脱字語について、対応する誤字脱字指標の値および文書内での存在位置、正しいと推定される単語を誤字脱字情報として出力する（ステップＳ８）。

上記のとおり、本発明の第１の実施形態における文書分析装置１００において、入力部１０が少なくとも１つの文書を受け付け、文書解析部２１が入力部１０から出力された少なくとも１つの文書を構成する各文章に対して形態素解析を適用し、各文章または各文に使用されている全単語及び複合語の情報を抽出する。文書分析装置１００の誤字脱字指標生成部２２が、単語情報を用いて、誤字脱字指標を算出し、ノイズ情報検出部２３が、誤字脱字指標に基づき、各単語の組み合わせに対して、誤字脱字指標で誤検出となるパターンの有無をノイズデータベース４０に問合せる。さらに、文書分析装置１００のノイズ情報検出部２３は、その問い合わせに対する応答としてノイズとなる組み合わせを受け、それをノイズ情報として検出する。

文書分析装置１００の誤字脱字抽出条件変更部２４は、ノイズ情報を利用して所定の誤字脱字抽出条件を変更するための変更ルールに基づき、誤字脱字語の抽出条件を変更する。文書分析装置１００の誤字脱字抽出部２５は、文書内の全ての単語の組み合わせから、ノイズ情報に該当した誤検出の組み合わせを除外し、誤字脱字抽出条件変更ルールによって変更された誤字脱字語の抽出条件に基づき、誤字脱字語を抽出する。文書分析装置１００の出力部３０は、誤字脱字抽出部２５で抽出した各誤字脱字語について、対応する誤字脱字指標の値および文書内での存在位置、正しいと推定される単語等を誤字脱字に関する情報として出力する。したがって、当該文書分析装置１００は、文書の内容に依存する誤字脱字を抽出することができる。

また、文書分析装置１００は、自然言語で書かれた文書に固有の誤字脱字を含む文書から、誤字脱字の可能性の高い表現に限定した抽出、優先的な修正が必要な箇所に限定した指摘、文書の修正時の負荷の低減、及び文書作成や文書レビューの効率化を可能とする。

また、文書分析装置１００は、システム開発における独自の語の定義を持つ要件定義書や設計書等の、スペルチェッカーでは検出できない誤字脱字を含む文書に関して、誤字脱字に配慮されている文書かどうかで提示する誤字脱字の可能性のある語を絞り込む。それにより、文書分析装置１００は、効率的に文書の修正ができる。また、文書分析装置１００は、読み手の不安や不信感が起きる状況などが減少し、円滑なコミュニケーションや顧客満足の向上などシステム開発の効率化に関する用途に適用できる。

また、文書分析装置１００は、誤字脱字を含む文書の誤字脱字を抽出する際に、誤字脱字に気を使って書かれている文書であれば、提示する誤字脱字の候補を絞り込むという判定基準を変更できる。また、文書分析装置１００は、誤字脱字を確認して修正する作業を効率化することが可能になる。その理由としては、文書分析装置１００が、文書において誤字脱字が文書内で使用されている用例を分析し、誤字脱字でない用例をノイズ情報として、ノイズ情報の多い文書ほど、誤字脱字として出力する候補とみなす基準を厳しくするように構成しているためである。

なお、上記本発明の実施形態における文書分析装置１００は、文書分析方法として実現され得る。また、上記本発明の実施形態における文書分析装置１００は、プログラムによりコンピュータによって実行させるようにしても良い。

＜第２の実施形態＞
本発明を実施するための第２の形態における文書分析システム３００の構成について、図面を参照して説明する。なお、本発明の第２の実施形態において、本発明の第１の実施形態と同様の構成については、説明を省略する。

図４は、本発明の第２の実施形態における文書分析システム３００の構成を示す図である。図４に示すように、文書分析システム３００は、文書分析装置１００’とサーバ装置１１０（例えば、イントラネットサーバＺ）と、を含む。文書分析装置１００’は、入力部１０と、分析部２０’と、出力部３０と、を含む。図４乃至図１０を参照して、具体的な例を用いて、本発明を実施するための第２の形態における文書分析システム３００の動作について説明する。

まず、文書分析システム３００は、情報システム構築に関する提案書や仕様書といった、誤字脱字を排除すべき文書（例えば、文書Ｄ）内で、誤字脱字を含む単語（例えば、誤字脱字語Ｗａ）について、単語が誤字脱字である可能性を示す誤字脱字指標（例えば、誤字度ＩＡ）を各誤字脱字語Ｗａについて算出する。文書分析システム３００は、各誤字脱字語Ｗａの文書中の位置や誤字度ＩＡ、正しいと推定される単語Ｗａｒを基に誤字脱字に関する情報（例えば、誤字脱字情報Ａ）を抽出し、出力する。

ここで、分析部２０’は、上述した本発明の第１の実施形態における文書分析装置１００の文書解析部２１、誤字脱字指標生成部２２、ノイズ情報検出部２３、誤字脱字抽出条件変更部２４、及び誤字脱字抽出部２５と同様の機能を有する。サーバ装置１１０は、上述した本発明の第１の実施形態における文書分析装置１００のノイズデータベース４０と同様の構成と機能を有する。

また、分析部２０’は、例えば、文書を解析するシステム（例えば、文書解析システムＹ）として、文書を分析するユーザ（例えば、分析実施者Ｋ）の持つＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ：パーソナルコンピュータ）端末上で動作してもよい。その場合、文書解析システムＹは、入力部１０及び出力部３０を介して、分析実施者Ｋが誤字脱字情報Ａを抽出したい文書群を構成する文章の入力と、誤字脱字情報Ａの出力を実現する。また、文書分析システムＹは、分析部２０’が有する構成及び機能を含む。

イントラネットサーバＺは、通信ネットワークを介して文書解析システムＹを実装した分析実施者Ｋの持つＰＣ端末と接続されている。イントラネットサーバＺは、文書解析システムＹからの任意の単語の組み合わせが誤検出パターンに該当するかどうかに関する問い合わせに対し、任意の単語の組み合わせに関する誤検出パターンの検索を可能にする装置である。

また、入力部１０は、例えば、ＰＣ端末の入力部として動作してもよい。また、出力部３０は、例えば、ＰＣ端末の出力部として動作してもよい。

次に、本発明の第２の実施形態における文書分析システム３００の動作について説明する。

入力部１０は、情報システム構築に関する提案書や仕様書といった、分析実施者Ｋが誤字脱字を排除するための誤字脱字情報Ａを得たい文書Ｄの入力を受け付ける。そして、分析部２０’は、文書Ｄを構成する文章または文毎に形態素解析を適用し、文書Ｄに含まれる全ての単語Ｗｉ（ｉ＝１，２，・・・，ｎ、ｎは自然数）について単語の文字列を単語情報として抽出する。この動作は、上述した本発明の第１の実施形態における文書分析装置１００の文書解析部２１に相当する。

ここで、名詞や辞書に登録されていない未知語が助詞などを挟まずに隣接している場合は、隣接する名詞および未知語を全て結合した複合語を単語Ｗとする。さらに、分析部２０’は、文書内の文の出現順に通し番号として文番号を付け、各単語を含む文の文番号を単語情報に加える。

さらに分析部２０’は、文書Ｄに含まれる全ての単語Ｗｉ間の誤字度ＩＡを算出する。この動作は、上述した本発明の第１の実施形態における文書分析装置１００の誤字脱字指標生成部２２に相当する。例えば、単語Ｗｉと単語Ｗｊ（ｊ＝１，２，・・・，ｎ、ｎは自然数）間の誤字度ＩＡｉｊは以下の式（１）で算出される。
ＩＡｉｊ＝α／√（Ｌｉｊ）＋β×Ｂｉｊ（１）
ここで、αは単語間の文字列の類似性に関する重みづけ係数である。Ｌｉｊは単語Ｗｉと単語Ｗｊ間の編集距離である。√（Ｌｉｊ）は、（Ｌｉｊ）^１／２である。βは文書中の各単語の出現頻度の偏りに関する重みづけ係数である。Ｂｉｊは単語Ｗｉと単語Ｗｊ間の出現頻度の偏りを示す指数である。偏りＢｉｊは、単語Ｗｉがｍｉ個と単語Ｗｊがｍｊ個間の以下の式（２）で算出される。
Ｂｉｊ＝｜ｍｉ−ｍｊ｜／（ｍｉ＋ｍｊ）（２）
例えば、Ｗｉが「入荷額」及びＷｊが「入荷金額」である場合は、Ｌｉｊは１である。また、例えば、Ｗｉが２個及びＷｊが３個である場合は、Ｂｉｊ＝｜２−３｜／（２＋３）となり、Ｂｉｊは０．２である。

図５は、本発明の第２の実施形態における単語情報表の具体例を示す図である。図５に示すように、単語情報表とは、分析部２０’が文書から抽出した単語情報及び誤字脱字指標を含む表（リスト）である。図５に示すように、単語情報表は、例えば、文書Ｄに含まれる一部の単語Ｗの間の誤字度ＩＡを算出した結果を示す。単語情報表は、暫定順位、正しいと推定される単語Ｗａｒの候補、Ｗａｒの出現個数ｍ_Ｗａｒ、誤字脱字語Ｗａの候補、Ｗａの出現個数ｍ_Ｗａ、及び誤字度ＩＡを含む。ここで、単語情報表は、例えば、図５に示すリストの内容に限定されず、分析部２０’が文書から抽出した単語情報及び誤字脱字指標を備えるために必要な情報であれば、どのような情報であってもよい。

暫定順位とは、分析部２０’が単語Ｗに対して算出した誤字度ＩＡの順位である。暫定順位は、例えば、誤字度ＩＡの高い値から順に並べる。正しいと推定される単語Ｗａｒの候補とは、分析部２０’が取得した単語情報から推定される正しい単語Ｗａｒを示す単語群である。Ｗａｒの出現個数ｍとは、文書Ｄ内に存在する正しいと推定される単語Ｗａｒのそれぞれが出現する個数を示す。誤字脱字語Ｗａの候補とは、分析部２０’が取得した単語情報から得られる誤字脱字語Ｗａを示す単語群である。Ｗａの出現個数ｍ_Ｗａとは、文書Ｄ内に存在する誤字脱字語Ｗａのそれぞれが出現する個数を示す。

図５に示すように、単語情報表は、例えば、暫定順位が１位、正しいと推定される単語Ｗａｒの候補が「単語出現頻度」、Ｗａｒの出現個数ｍ_Ｗａｒが４６個、誤字脱字語Ｗａの候補が「単語発現頻度」、Ｗａの出現個数ｍ_Ｗａが１個、及び誤字度ＩＡが０．９８、を示す。また、単語情報表は、例えば、出現個数が多い単語Ｗを左側に、少ない単語Ｗを右側に配置し、誤字度ＩＡが大きい順に並べて表記してもよい。

ここで、図５に示すように、誤字度ＩＡは、例えば０から１の間で値をとり、当該値が大きいほど誤字脱字である可能性が高いことを示す。また、図５に示す単語情報表に記載される、出現個数が多い単語Ｗが「正しいと推定される単語Ｗａｒの候補」に、リストで右側に記載した、出現個数が少ない単語Ｗが「誤字脱字語Ｗａの候補」に相当する。

図６及び図７は、本発明の第２の実施形態におけるパターン情報の具体例を示す図である。図６及び図７は、サーバ装置１１０が有する、誤字脱字指標を分析部２０’が文書から抽出した単語情報及び誤字脱字指標を含む単語情報表である。さらに、サーバ装置１１０（例えば、イントラネットサーバＺ）は、誤字度ＩＡの算出指標によって誤字脱字語Ｗａを抽出する際に、誤検出となるパターンを抽出可能にするパターン情報（例えば、誤検出パターン情報Ｃ）を収集し、蓄積する。分析部２００が上述した式（１）に基づく誤字度ＩＡの算出方法を利用する場合、パターン情報は、例えば、接頭語や接尾語といった接辞語が一方に付随するパターンなどが考えられる。図６に示すように、誤検出パターン情報Ｃは、誤検出となるパターンを抽出可能にする、接頭語や接尾語を取集したリストである。

また、上述した式（１）に基づく誤字度ＩＡの算出方法を利用する場合、他の誤検出となるパターンとしては、「システム安全性」のような複数の名詞や未知語を結合した複合語に対して、「システム完全性」のように、複合語を構成する語が「安全」と「完全」といった一文字違いの熟語が異なるだけの組み合わせとなっているパターンが考えられる。図７に示すように、誤検出パターン情報Ｃは、意味が近くない一文字違いの熟語の組み合わせを取集したリストである。例えば、検出パターン情報Ｃは、「設置」と「設定」をひとまとまりとした情報を含む。

さらにサーバ装置１１０は、任意の単語や表現の情報を抽出する検索エンジンなどの機能も提供することで、分析部２０’からの問い合わせに応じて、問い合わせ対象の単語組み合わせに誤検出パターン情報Ｃに該当する単語組み合わせが存在するかどうかを判定し、存在する場合はその単語組み合わせを誤検出組み合わせとして提示する。この動作は、上述した本発明の第１の実施形態における文書分析装置１００のノイズデータベース４０に相当する。

次に、分析部２０’は、誤字度ＩＡを算出した「正しいと推定される単語Ｗａｒの候補」と「誤字脱字語Ｗａの候補」の組み合わせに対して、サーバ装置１１０に問い合わせ、パターン情報に該当する組み合わせパターンをノイズ情報（例えば、ノイズ情報Ｎ）として抽出する。この動作は、上述した本発明の第１の実施形態における文書分析装置１００のノイズ情報検出部２３に相当する。

図８は、本発明の第２の実施形態におけるノイズ情報の具体例を示す図である。図８に示すように、分析部２０’は、例えば、図５に示す「正しいと推定される単語Ｗａｒの候補」と「誤字脱字語Ｗａの候補」の組み合わせから、図８に示す「集積地区」と「各集積地区」、「対象エリア」と「元対象エリア」などの複合語パターン、および、図８に示す「設置担当者」と「設定担当者」、「システム安全性」と「システム完全性」などの複合語パターンを抽出し、ノイズ情報Ｎを生成する。図８に示すように、ノイズ情報Ｎは、例えばリストである。

ここで、図８に示す「集積地区」と「各集積地区」、「対象エリア」と「元対象エリア」は、図６に示すパターン情報として登録された接頭語「各」、「元」、や、接尾語「前」、「時」、が一方の単語に付随する複合語のノイズ情報を示す。また、図８に示す「設置担当者」と「設定担当者」、「システム安全性」と「システム完全性」などは、図７に示すパターン情報として登録された意味が近くない一文字違いの熟語の組み合わせ、が含まれている複合語のノイズ情報を示す。

次に、分析部２０’は、単語情報表に、ノイズ情報を利用して、暫定順位として上位Ｘ位（Ｘは任意の自然数）までにおけるパターン情報に該当する単語組み合わせの割合である上位ノイズ率（例えば、上位ノイズ率Ｒ）を算出する。そして、分析部２０’は所定の誤字脱字抽出条件変更ルールに基づき、誤字脱字語Ｗａを抽出する順位の下限値である下限順位Ｓ（Ｓは任意の自然数）を決定する。この動作は、上述した本発明の第１の実施形態における文書分析装置１００の誤字脱字抽出条件変更部２４に相当する。

例えば、図５のケースでは、暫定順位で上位１０位までに誤検出パターン情報Ｃに該当する単語組み合わせが４〜７、１０位の計５組存在し、上位ノイズ率Ｒは０．５（５０％）となる。上位ノイズ率Ｒと下限順位Ｓの関係式は以下の式（３）などが有効である。
Ｓ＝γ／Ｒ（３）
ここで、γは、例えば、図５に示す単語情報表の抽出順位とみなすことができ、文書によらず定数を設定してもよい。また、γは、文書Ｄの文字数や単語数などと単調増加の関係となるように設定するのが有効である。図５のケースで、γ＝４と設定した場合、下限順位Ｓは８となり、上位８位までが抽出する順位となる。

さらに、分析部２０’は、誤字度ＩＡが大きい順に並んでいる単語情報表から、ノイズ情報を利用して、パターン情報に該当する単語の組み合わせを除外し、下限順位Ｓ位までの組み合わせを、正しいと推定される単語Ｗａｒおよび誤字脱字語Ｗａの組み合わせとして抽出する。この動作は、上述した本発明の第１の実施形態における文書分析装置１００の誤字脱字抽出部２５に相当する。

図９及び図１０は、本発明の第２の実施形態における誤字脱字に関する情報の具体例を示す図である。例えば、図５のケースでは、分析部２０’は誤検出パターン情報Ｃに該当する４〜７、１０〜１４、１８位の単語組み合わせを除外し、除外後の最終順位の下限順位として算出した８位までを抽出することで、図９のような過不足の少ないリストを得る。

一方、文書Ｄがより誤字脱字に気をかけて記載された文章で「登録データ」、「ハードヂィスク」、「出データ形式」、「登録情報参照画面」が存在しなかった場合、上位ノイズ率Ｒは０．８（８０％）となり、γ＝４と設定した場合、下限順位Ｓは５となり、上位５位までが抽出する順位となる。誤検出パターン情報Ｃに該当する単語組み合わせを除外し、除外後の最終順位の下限順位として算出した５位までを抽出することで、より抽出する情報を限定しながら、図１０のような過不足の少ないリストを得る。

さらに、分析部２０’は、各誤字脱字語Ｗａの文書中の位置や誤字度ＩＡ、正しいと推定される単語Ｗａｒを誤字脱字情報Ａとして、分析実施者Ｋの持つＰＣ端末上に提示する。例えば、図９、図１０のようなリストをそのまま提示してもよいし、誤字脱字語Ｗａの文番号に基づき、文書Ｄ内における各誤字脱字語Ｗａを着色し明示することで、修正すべき誤字脱字の箇所を分かりやすくし表示してもよい。また、誤字脱字情報Ａに基づき、誤字脱字語Ｗａの出現数を文書Ｄ全体および、目次の章単位などで集計して表もしくはグラフなどの形式で出力することで、文書Ｄの品質を表すメトリクスおよび、修正すべき章を判断する情報を提供してもよい。

上記のとおり、本発明の第２の実施形態において、文書分析システム３００は、各誤字脱字語Ｗａの文書中の位置や誤字度ＩＡ、正しいと推定される単語Ｗａｒを基に誤字脱字に関する情報（例えば、誤字脱字情報Ａ）を抽出し、出力する。したがって、当該文書分析システム３００は、文書の内容に依存する誤字脱字を抽出することができる。また、当該文書分析システム３００は、少なくとも１つの文書（例えば、文書Ｄ）における誤字脱字の把握を容易にし、文書の改善を効率化することができる。

＜第３の実施形態＞
本発明を実施するための第３の形態における文書分析装置１０００の構成について、図面を参照して説明する。なお、本発明の第３の実施形態において、本発明の第１の実施形態及び第２の実施形態と同様の構成については、説明を省略する。

図１１は、本発明の第３の実施形態における、文書分析装置１０００の構成例を示す図である。図１１に示すように文書分析装置１０００は、誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶する記憶部４００と、分析部２００とを含む。分析部２００は、少なくとも１つの文書からその文書が有する単語及び単語の組み合わせを複数含む単語情報を抽出し、単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、単語情報、誤字脱字指標及びパターン情報に基づいて、誤字脱字に関する情報を生成する。

なお、第３の実施形態における分析部２００と、記憶部４００とは、それぞれ、上記の実施形態における分析部２０と、ノイズデータベース４０とに対応する。

上記構成を有する文書分析装置１０００は、誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶し、少なくとも１つの文書からその文書が有する単語及び単語の組み合わせを複数含む単語情報を抽出する。そして、文書分析装置１０００は、単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、単語情報、誤字脱字指標及びパターン情報に基づいて、誤字脱字に関する情報を生成する。そのため、文書分析装置１０００は、文書の内容に依存する誤字脱字を抽出することができる。

以上、実施形態を用いて本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

［付記１］
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶する記憶部と、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する分析部と、
を含む文書分析装置。

［付記２］
前記誤字脱字に関する情報は、少なくとも前記文書が有する正しい単語と、前記正しい単語に対応する誤字脱字を含む単語と、前記誤字脱字を含む単語に対する誤字脱字の可能性を示す前記誤字脱字指標との対応関係を含み、
前記分析部は、
前記誤字脱字に関する情報から抽出する前記対応関係の数を算出し、算出した前記対応関係の数を前記誤字脱字に関する情報に含め、前記誤字脱字指標の値の大きい順に、前記対応関係の数だけ前記対応関係を抽出する付記１に記載の文書分析装置。

［付記３］
前記分析部は、文書解析部と、誤字脱字指標生成部と、ノイズ情報検出部と、誤字脱字抽出条件変更部と、誤字脱字抽出部とをさらに有し、前記記憶部はノイズデータベースをさらに有し、
前記文書解析部は、前記文書が有する少なくとも１つの文章に形態素解析を適用することで前記単語情報を抽出し、
前記誤字脱字指標生成部は、前記単語情報から前記誤字脱字指標を算出し、
前記ノイズデータベースは、前記誤字脱字指標で前記誤字脱字を含む単語を検出しようとした場合に誤検出となるパターンを抽出可能にする情報を蓄積し、任意の単語の組み合わせが誤検出パターンに該当するかどうかに関する問い合わせに対し、問い合わせ対象の単語の組み合わせが誤検出パターンと一致するか否かを示す情報を応答し、
前記ノイズ情報検出部は、前記誤字脱字指標に基づき、複数の前記単語の組み合わせに対して、前記誤字脱字指標で誤検出となるパターンの有無を前記ノイズデータベースに問合せ、ノイズとなる前記単語の組み合わせをノイズ情報として検出し、
前記誤字脱字抽出条件変更部は、前記ノイズ情報を利用して所定の誤字・脱字抽出条件変更ルールに基づき、前記誤字脱字を含む単語の抽出条件を変更し、
前記誤字脱字抽出部は、前記文書内の全ての前記単語の組み合わせから、前記ノイズ情報に該当する前記単語の組み合わせを除外し、前記抽出条件に基づき、前記誤字脱字を含む単語を前記誤字脱字に関する情報として抽出する付記１又は２に記載の文書分析装置。

［付記４］
前記誤字脱字指標は、事前に前記文書で使用可能な単語の一覧を登録した使用単語辞書に登録された登録語と、前記文書解析部が抽出した前記単語情報に含まれる複数の単語の各々との文字列の類似性に基づき、前記類似性が近いほど値が高くなる指標である付記３に記載の文書分析装置。

［付記５］
前記パターン情報は、前記抽出された前記単語情報に含まれる複数の単語の各々と、前記登録語との一致状況において、前記抽出された各単語が類似する文字列があるとした登録語とは別に完全一致する登録語があるパターンを含む付記４に記載の文書分析装置。

［付記６］
前記誤字脱字抽出部は、前記単語の組み合わせが前記登録語又は前記抽出された前記単語の組み合わせの場合、前記抽出された前記単語を誤字脱字語として抽出することを特徴とする付記４又は５に記載の文書分析装置。

［付記７］
前記誤字脱字抽出部は、誤字脱字抽出条件変更ルールとして、前記誤字脱字指標に基づき、前記単語の組み合わせを前記誤字脱字指標の高い順に並べたリストを作成し、前記リストにおいて上位に並べられた前記単語の組み合わせのうち所定の数の前記単語の組み合わせ、又は、前記誤字脱字指標が一定値以上の前記単語の組み合わせにおいて、前記ノイズ情報に該当した前記単語の組み合わせの割合に対して単調減少の関係にある指標に基づき、前記抽出する前記単語の組み合わせの数を変更し、上位に並べられた前記単語の組み合わせから、前記変更した前記単語の組み合わせ数分の前記単語の組み合わせを新たに抽出し、複数の前記単語の組み合わせのうち出現頻度が低い単語を誤字脱字語として抽出する、ことを特徴とする付記３乃至６のいずれかに記載の文書分析装置。

［付記８］
前記誤字脱字抽出部は、前記誤字脱字抽出条件変更ルールとして、前記誤字脱字指標に基づき、前記単語の組み合わせを前記誤字脱字指標の高い順に並べたリストを作成し、前記リストにおいて上位に並べられた所定の数の前記単語の組み合わせ、又は、前記誤字脱字指標が一定値以上の前記単語の組み合わせに対して、前記ノイズ情報に該当した前記単語の組み合わせの割合に対して単調増加の関係にある指標に基づき、前記抽出する前記単語の組み合わせの前記誤字脱字指標の下限値を変更し、上位に並べられた前記単語の組み合わせから、変更した前記下限値までの組み合わせを抽出し、複数の前記単語の組み合わせのうち出現頻度が低い単語を誤字脱字語として抽出する、ことを特徴とする付記３乃至７のいずれかに記載の文書分析装置。

［付記９］
前記誤字脱字指標は、単語間の文字列の類似性に基づき、前記単語間の文字列の類似性が近いほど、値が高くなる指標であることを特徴とする付記１乃至８のいずれかに記載の文書分析装置。

［付記１０］
前記誤字脱字指標は、前記文書における前記単語の出現頻度の偏りに基づき、前記文書における前記出現頻度の偏りが大きいほど、値が高くなる指標である付記１乃至９のいずれかに記載の文書分析装置。

［付記１１］
前記パターン情報は、接辞語の語群を含み、前記単語間の文字列の類似性が近くなる接辞語が一方に付随するパターンを含む付記１乃至１０のいずれかに記載の文書分析装置。

［付記１２］
前記パターン情報は、意味が類似しない少なくとも一文字違いの熟語の組み合わせを含み、複数の名詞又は未知語を結合した複合語において前記一文字違いの熟語が異なるだけの組み合わせたパターンを含む付記１乃至１１のいずれかに記載の文書分析装置。

［付記１３］
前記文書を受け付ける入力部と、前記誤字脱字に関する情報を出力する出力部と、
をさらに有する付記１乃至１２のいずれかに記載の文書分析装置。

［付記１４］
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を含むサーバ装置と、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する分析部を含む文書分析装置と、
を含む文書分析システム。

［付記１５］
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶し、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する文書分析方法。

［付記１６］
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶する処理と、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する処理と、
をコンピュータに実行させるプログラム。

１ＣＰＵ
２ＲＡＭ
３記憶装置
４通信インターフェース
５入力装置
６出力装置
１０入力部
２０分析部
２０’ 分析部
２１文書解析部
２２誤字脱字指標生成部
２３ノイズ情報検出部
２４誤字脱字抽出条件変更部
２５誤字脱字抽出部
３０出力部
４０ノイズデータベース
１００文書分析装置
１００’ 文書分析装置
１１０サーバ装置
２００分析部
３００文書分析システム
１０００文書分析装置

Claims

誤検出となる文字または単語の誤検出パターンを記憶する記憶部と、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出する文書解析部と、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出し、誤字脱字指標とする誤字脱字指標生成部と、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出するノイズ情報検出部と、
前記誤字脱字指標に応じて前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する誤字脱字抽出部と、
を備える文書分析装置。
前記誤字脱字抽出部が前記誤字脱字語を抽出するための抽出条件を変更する誤字脱字抽出条件変更部を、更に備える、
請求項１に記載の文書分析装置。
前記抽出条件が、前記誤字脱字指標の高い順に並べられた前記単語の組み合わせのうち、上位の前記単語の組み合わせからの抽出である、
請求項２に記載の文書分析装置。
前記ノイズ情報は、前記単語の組み合わせの一方に接辞語が付いた組み合わせ、又は、複数の名詞や未知語を結合した複合語であって一文字違いの熟語が異なるだけの組み合わせである、
請求項１乃至３のいずれか１つに記載の文書分析装置。
前記単語情報に含まれる前記単語間の文字列の類似性の代わりに、事前に前記文書に使用した単語の一覧を登録した使用単語辞書に登録された登録語と前記単語情報に含まれる単語との文字列の類似性を用いる、
請求項１乃至３のいずれか１つに記載の文書分析装置。
前記記憶部は、前記単語情報に含まれる単語の文字列に類似する登録語とは別に完全一致する登録語があるとする誤検出パターンを記憶する、
請求項５に記載の文書分析装置。
前記抽出した誤字脱字語と、前記抽出した誤字脱字語に対応する誤字脱字指標を出力する出力部を更に備える、
請求項１乃至６のいずれか１つに記載の文書分析装置。
誤検出となる文字または単語の誤検出パターンを記憶するサーバ装置と、
文書分析装置と、を備え、
前記文書分析装置は、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出する文書解析部と、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出し、誤字脱字指標とする誤字脱字指標生成部と、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出するノイズ情報検出部と、
前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する誤字脱字抽出部と、を備える、
文書分析システム。
誤検出となる文字または単語の誤検出パターンを記憶し、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出し、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出して誤字脱字指標とし、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出し、
前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する、
文書分析方法。
誤検出となる文字または単語の誤検出パターンを記憶し、
少なくとも１つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出し、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出して誤字脱字指標とし、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出し、
前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する、
ことコンピュータに実行させるプログラム。