JP5621145B2

JP5621145B2 - 文書チェック装置、文書チェックプログラムおよび文書チェック方法

Info

Publication number: JP5621145B2
Application number: JP2010096224A
Authority: JP
Inventors: 小川　秀明; 秀明小川
Original assignee: HYPERTECH CO Ltd
Current assignee: HYPERTECH CO Ltd
Priority date: 2009-11-02
Filing date: 2010-04-19
Publication date: 2014-11-05
Anticipated expiration: 2030-04-19
Also published as: JP2011118861A

Description

この発明は、文書中の記載の整合性をチェックするための文書チェック装置、文書チェックプログラムおよび文書チェック方法に関する。

文書には、その記載中の整合性が、とりわけ厳しく要求されるものがある。たとえば、公文書、特許文書、特に、その特許請求の範囲の記載や、英文契約書の日本語訳文などである。

このような文書では、特に、その記載内容の正確性、記載フォーマットの正しさ、記載の整合性等が、重要であるために、たとえば、特許明細書などでは、その記載の正確性をチェックするソフトウェアについての技術などが提案されている（たとえば、特許文献１を参照）。

ただし、この特許文献１では、記載フォーマットの正しさのチェックや、文の構文解析によるチェック、使用される符号の整合性のチェックなどが行なわれているに過ぎない。

また、特許出願明細書のような文書の中から、コンピュータを用いて、指定された全ての符号を探索して、各符号ごとに、その位置を表すデータと、その符号に隣接する一定の長さの文字列を自動的に抽出し、抽出結果を符号順にソートして表示する、との技術も公開されている（たとえば、特許文献２を参照）。

特許文献２に開示された発明では、抽出した文字列には符号を付した単語が含まれ、これが並べて表示されるから、符号付けミスや単語の表現の違いを容易に検査できることになる。

あるいは、要素名とこれに後続する符号とを、不一致のないように、効率的に入力するための技術が、特許文献３に開示されている。特許文献３に開示の技術では、以下の処理が行われる。ワープロ等の文書編集中に適宜の操作が行われた場合に、（１）文書の編集位置に入力されている文字列から要素名（たとえば、「車輪」）を抽出する。（２）抽出された要素名を、文書から検索する。（３）検索された位置を含む文字列を文書から取り出して解析し、前記（１）で抽出された要素名に対応する符号（たとえば、「６」，「７」）を取得する。（４）符号が複数得られた場合は、その符号を、並べて選択可能に画面に表示する。（５）ユーザに選択された符号を、文書の編集位置に自動入力する。

しかし、これらの技術も、単に特許出願明細書の符号とこれに対応する文字列との不一致を検出する技術、あるいは、一致するように入力する作業を支援する技術に過ぎない。

特開２００２−１８３２７８号公報特開平０９−２５９１４８号公報特開２００５−２５２６５号公報

しかしながら、上述したような種類の文書では、通常の文章での記載に比べて、その厳密性を担保するために、独特の用語が使用される場合がある。たとえば、文書の記載中に現れる用語が、すでに当該文書中に記載されている用語と同一のものを指す場合には、文書中でその用語が２回目以降に現れる場合に、「前記」等の言葉を前置することで、当該用語が既出のものであることを明示する習慣がある。

たとえば、特許請求の範囲の記載では、上述した「前記」の使用には、特に、厳格性が要求される。なお、特許請求の範囲の記載では、「前記」と同様の機能を果たすものとして、「当該」などが使用される場合もある。この場合、一般には、「当該」は、単に既出であることを示すばかりではなく、直前に出てきた用語を指すことを意図して用いられる場合が多い。

この「前記」（英語では、”said”）の記載が用語の前にあるかないかは、単なる形式的な問題ではなく、権利範囲の解釈に直接影響を与えうるものである。たとえば、米国のBell Communications Research Inc. v. Vitalink Communications Corp. 事件判決（55 F.3d 615, 34 US.S.P.Q.2d (BNA) 1816(Fed. Cir.1995)）では、クレーム本体部分中に記載された「前記パケット」との記載により、クレームの前提部分（プリアンブル部分）に記載された「パケット」についての記載が、このクレーム本体部分中の「パケット」の技術内容を限定するものとして、権利範囲の解釈が行なわれた例がある。

また、非常に似かよった名称を、同一の対象構成要素を呼ぶ際に、誤って使用してしまい、両者が、特許請求の範囲に混在してしまう記載となっている場合もある。たとえば、「○△□☆○□手段」との記載が既出である場合に、その後に「前記○△□□○□手段」との記載が存在する、というようなことが起こりうる。この場合、特許請求の範囲の起草者にとっては、「○△□□○□手段」がすでに既出であるとの認識の下に、このような記載となっていることになる。しかしながら、正確には、「○△□□○□手段」は既出でないために、審査においては、請求項の記載が不明確（特許法３６条６項２号違反）であるとして拒絶されたり、特許の成立後では、権利範囲の解釈に影響を与えてしまう可能性がある、というような問題があった。

この発明は、上記のような問題点を解決するためになされたものであって、その目的は、文書中において、特定の文字列が、その文字列に後続する用語が、その文書中で既出であることを示すために用いられる場合に、このような特定の文字列の使用の整合性をチェックすることが可能な文書チェック装置、文書チェックプログラムおよび文書チェック方法を提供することである。

この発明の一つの局面に従うと、解析対象となる文書中の記載の整合性をチェックするための文書チェック装置が提供される。文書チェック装置は、文書を表す文書データを記憶する記憶手段と、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、特定の文字列の情報を取得する情報取得手段と、文書中に含まれる品詞を特定するための品詞特定手段とを備える。品詞特定手段は、文書中において、情報取得手段により取得された情報に基づいて、特定の文字列を認識して特定するための特定手段と、文書に対して形態素解析を行い、文書中の品詞を特定するための形態素解析手段とを含む。文書チェック装置は、形態素解析の結果に基づき、文書中において、連続する名詞を連結することで、用語の候補である用語候補を特定する用語候補認識手段と、特定された用語候補間で、特定の文字列の使用の整合性をチェックする整合性チェック手段と、整合性のチェック結果を表示装置に表示させるための表示制御手段とをさらに備える。

好ましくは、情報取得手段は、さらに、用語の語尾に共通に用いられる複数の用語接尾語の情報を取得する。用語候補認識手段は、形態素解析の結果に基づき、文書中において、用語接尾語の前に連続する名詞を用語接尾語に連結することで、用語の候補である用語候補を特定する。

好ましくは、情報取得手段は、さらに、文書中で、用語候補認識手段での用語候補を特定する処理の時点で、特定されなかった用語候補を、ユーザの選択により用語候補として登録したユーザ辞書の情報を取得する。用語候補認識手段は、さらに、ユーザ辞書も参照して、用語候補を特定する。

好ましくは、記憶手段は、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とを記憶する。情報取得手段は、記憶手段から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを読み出す。

好ましくは、文書は、内容分野ごとの複数のグループに分類されている。ユーザ辞書は、グループごとの部分辞書に分割され、ユーザは、文書の内容分野に対応する部分辞書に、特定されなかった用語候補を登録する。

好ましくは、記憶手段は、さらに、用語に前置される特定の接頭語を予め記憶している。用語候補認識手段は、用語接尾語の前に連続する名詞を用語接尾語に連結した後、特定の接頭語が当該連結後の用語の前に連続する場合は、特定の接頭語をさらに連結することで、用語候補を特定する。

好ましくは、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とは、文書チェック装置の外部の外部記憶装置に記憶される。情報取得手段は、外部記憶装置から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを通信により取得する。

好ましくは、文書データは、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる第１の文書を表現する第１の部分文書データと、第１の部分文書データで定義される内容を説明するための文書であって、用語に相当する説明用語が符号を付されて使用される第２の文書を表現する第２の部分文書データとを含む。形態素解析手段は、第１および第２の部分文書データに共通に、形態素解析を行う。文書チェック装置は、第２の部分文書データについて、説明用語と符号との整合性をチェックするための符号チェック手段をさらに備える。

この発明の別の局面に従うと、解析対象となる文書中の記載の整合性のチェックを、演算装置と文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェックプログラムが提供される。文書チェックプログラムは、演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、特定の文字列の情報を取得するステップと、文書中に含まれる品詞を特定するステップとを備える。品詞を特定するステップは、演算装置が、文書中において、取得された情報に基づいて、特定の文字列を認識して特定するステップと、演算装置が、文書に対して形態素解析を行い、文書中の品詞を特定するステップとを含む。文書チェックプログラムは、演算装置が、形態素解析の結果に基づき、文書中において、連続する名詞を連結することで、用語の候補である用語候補を特定するステップと、演算装置が、特定された用語候補間で、特定の文字列の使用の整合性をチェックするステップと、演算装置が、整合性のチェック結果を表示装置に表示させるステップとをさらに備える。

好ましくは、情報を取得するステップは、用語の語尾に共通に用いられる複数の用語接尾語の情報を取得するステップを含む。用語候補を特定するステップは、形態素解析の結果に基づき、文書中において、用語接尾語の前に連続する名詞を用語接尾語に連結することで、用語の候補である用語候補を特定するステップを含む。

好ましくは、取得するステップは、さらに、文書中で、用語候補を特定するステップでの用語候補を特定する処理の時点で、特定されなかった用語候補を、ユーザの選択により用語候補として登録したユーザ辞書の情報を取得するステップを含む。用語候補を特定するステップは、さらに、ユーザ辞書も参照して、用語候補を特定するステップを含む。

好ましくは、記憶装置は、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とを記憶する。取得するステップは、記憶装置から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを読み出すステップを含む。

好ましくは、記憶装置は、さらに、用語に前置される特定の接頭語を予め記憶している。用語候補を特定するステップは、用語接尾語の前に連続する名詞を用語接尾語に連結した後、特定の接頭語が当該連結後の用語の前に連続する場合は、特定の接頭語をさらに連結することで、用語候補を特定するステップを含む。

好ましくは、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とは、文書チェックプログラムが実行されるコンピュータの外部の外部記憶装置に記憶される。取得するステップは、外部記憶装置から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを通信により取得するステップを含む。

好ましくは、文書データは、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる第１の文書を表現する第１の部分文書データと、第１の部分文書データで定義される内容を説明するための文書であって、用語に相当する説明用語が符号を付されて使用される第２の文書を表現する第２の部分文書データとを含む。品詞を特定するステップは、第１および第２の部分文書データに共通に、形態素解析を行うステップを含む。文書チェック処理は、第２の部分文書データについて、説明用語と符号との整合性をチェックするステップをさらに備える。

この発明の別の局面に従うと、解析対象となる文書中の記載の整合性のチェックを、演算装置と文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェック方法が提供される。文書チェック方法は、演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、特定の文字列の情報を取得するステップと、文書中に含まれる品詞を特定するステップとを備える。品詞を特定するステップは、演算装置が、文書中において、取得された情報に基づいて、特定の文字列を認識して特定するステップと、演算装置が、文書に対して形態素解析を行い、文書中の品詞を特定するステップとを含む。文書チェック方法は、演算装置が、形態素解析の結果に基づき、文書中において、連続する名詞を連結することで、用語の候補である用語候補を特定するステップと、演算装置が、特定された用語候補間で、特定の文字列の使用の整合性をチェックするステップと、演算装置が、整合性のチェック結果を表示装置に表示させるステップとをさらに備える。

好ましくは、文書データは、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる第１の文書を表現する第１の部分文書データと、第１の部分文書データで定義される内容を説明するための文書であって、用語に相当する説明用語が符号を付されて使用される第２の文書を表現する第２の部分文書データとを含む。品詞を特定するステップは、第１および第２の部分文書データに共通に、形態素解析を行うステップを含む。文書チェック方法は、第２の部分文書データについて、説明用語と符号との整合性をチェックするステップをさらに備える。

解析対象となる文書中で、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる使用の態様が、適正であるかを容易にチェックすることが可能となる。

また、ユーザ辞書に逐一、用語を登録していなくても、用語の語尾に共通に用いられる複数の用語接尾語の情報を用いて用語の特定が行なわれるので、ユーザが用語を特定する処理を大幅に削減して、文書のチェックを行うことが可能となる。

また、「特定用語」、特定用語が既出であることを示す「特定の文字列」と、「説明用語」、説明用語に付される「符号」とが使用されるような文書において、それぞれの使用の整合性をチェックすることが可能となる。

あるいは、特定用語の候補を抽出する際に、「用語接尾語」を手がかりとすることは、ユーザの設定により選択することができる。

実施の形態１に係る文書チェック装置１００の構成をブロック図形式で表す図である。実施の形態１に係る文書チェック装置１００の機能的構成をブロック図形式で示す図である。実施の形態１に係る文書チェック装置１００の動作を説明するためのフローチャートである。図３のステップＳ１０６とステップＳ１０８の処理を、より詳しく説明するためのフローチャートである。特別な品詞の一覧を示す図である。構成要素認識処理で割り付けられる記号を示す図である。図４の各処理ステップでの処理を説明するための第１の図である。図４の各処理ステップでの処理を説明するための第２の図である。ユーザ辞書である構成要素接尾語のうち、品詞Ｐ０に相当する用語を登録した辞書の例を示す図である。共通辞書である構成要素接尾語のうち、品詞Ｐ１に相当する用語を登録した辞書の例を示す図である。共通辞書のうち、構成要素接尾語の品詞Ｐ２および品詞Ｐ３に相当する用語を登録した辞書、構成要素接頭語の品詞Ｈ１，Ｈ２，Ｈ３に相当する用語を登録した辞書、接尾語ＴＴに相当する用語を登録した辞書の例を示す図である。共通辞書のうち、接尾語ＦＴ、強制名詞ＦＮ、チェック文字列ＺＺ、非名詞ＸＮ、非接頭詞ＸＳに、それぞれ相当する用語を登録した辞書の例を示す図である。文書データ解析部１２０．２が行う補正処理および構成要素認識処理を概念的に説明する図である。図３のステップＳ１１０で表示される請求項の記載の例を示す図である。図３のステップＳ１１０で表示される画面全体の例を示す図である。実施の形態２の文書チェック装置の動作を説明するためのフローチャートであり、実施の形態１の図３と対比される図である。図１６のステップ２０６の処理を説明するためのフローチャートである。図１６のステップＳ２０８とＳ２１０との流れを詳しく説明するためのフローチャートである。実施の形態１と実施の形態２の辞書の構成を対比して示す図である。チェック対象の文書中の文字列に割り付けられる「割付記号」を説明する図である。フロントエンド処理で割り付けられる割付記号を説明する図である。形態素解析における割付記号を説明する図である。バックエンド処理１を説明するためのテーブルである。補正処理１を説明するためのテーブルである。補正処理２を説明するテーブルである。「構成要素の認識処理」を説明するためのテーブルである。バックエンド処理２を説明するテーブルである。バックエンド処理３を説明するテーブルである。ステップ２１２において、データ表示解析部１２０．３が行う表示例を示す図である。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部分には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明は繰り返さない。

（概要）
実施の形態に係る文書チェック装置１００は、外部から与えられた文書データ中において、特定の文字列が、その文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、文書中から用語の候補となる語句を抽出し、抽出された候補間において、このような特定の文字列の使用が整合しているか否かをチェックする。

ここで、以下のような点に留意する必要がある。
１）文書中で、上記のような特定の文字列が前置される用語は、一般には、名詞、名詞句である。ただし、文書中で使用される全ての名詞、名詞句について、当該文書中に２回目以降に使用される場合に、必ず、特定の文字列が前置されるわけではない。たとえば、一般概念を表すために使用されている名詞、名詞句については、２回目以降であっても、特定の文字列が前置されない。言い換えれば、特定の文字列は、後続する用語が、特定の事物を指していることを前提として使用される。

２）一方で、特定の分野（以下、「文書分野」）の文書では、上述したような特定の文字列が前置される用語（以下、「特定用語」と呼ぶ）については、その語尾が一定の文字列（以後、「用語接尾語」と呼ぶ）の名詞となる確率が高い。たとえば、「期間」「文書」等である。

さらに、同じ文書分野でも、当該文書に記載される対象となる内容の分野（以下、「内容分野」）によって、構成要素を表す名詞、名詞句の使用される頻度にも相違がある。

たとえば、文書分野として、特許請求の範囲を例にとると、その記載では、上記した特定の文字列としては、「前記」「当該」等が使用される。そして、特許請求の範囲の記載中において、上記のような特定用語は、特定の事物そのものか、あるいは、特定の事物を構成する要素を表していると考えられることから、これを特定用語のうちの特定の種類を表すものとして「構成要素」と呼ぶことにする。このとき、「前記」等が付される構成要素の語尾（以下、用語接尾語のうちの特定の種類を表すものとして「構成要素接尾語」と呼ぶ）としては、「手段」「装置」「素子」「信号」等々の特定の文字列となっている場合が、経験上は多い。このような用語接尾語（あるいは、構成要素接尾語）を専用辞書として事前に登録しておけば、文書中から、特定用語（あるいは、構成要素）の候補を抽出する際の手がかりとなる。内容分野に関わらず、使用される頻度が一定以上である用語接尾語についての専用辞書を「共通辞書」と呼ぶことにする。

特許請求の範囲の記載では、構成要素として使用される名詞、名詞句は、特許請求の範囲の対象とする技術分野、あるいは、その特許出願を行なう出願人の業務範囲で相違する傾向がある。

３）上述のように、用語接尾語（より特定的には、構成要素接尾語）が、用語間で共通する場合は多いものの、必ずしも、全ての「特定の文字列が前置されるべき用語」について、このような共通な語尾が存在するとは限らない。さらには、特に、特許請求の範囲の記載などでは、技術の進歩に伴い、新しい用語が、随時、使用されるようになる傾向にあるため、事前に「構成要素接尾語」として登録しておける範囲内で、用語が使用されるとも限らない。そこで、共通辞書を用いて、特定用語（あるいは、構成要素）の候補を抽出した際に、抽出からもれた特定用語（あるいは、構成要素）の候補を、ユーザが、随時、登録できる辞書が存在することが望ましい。このような辞書を、「ユーザ辞書」と呼ぶ。

なお、内容分野ごとに使用される用語の頻度が異なるので、文書チェック装置１００は、ユーザ辞書として、このような内容分野による文書のグループごとに対応した、複数の辞書を備えることも可能である。特に、特許請求の範囲の記載では、上述のように、構成要素として使用される名詞、名詞句は、出願人の業務範囲で相違する傾向があるので、文書チェック装置１００は、「ユーザ辞書」として、出願人ごとに異なる「顧客辞書」を備えることとしてもよい。もちろん、文書チェック装置１００は、出願人ごとではなく、技術分野ごとに「技術分野辞書」を備える構成とすることも可能である。

４）以上のようにして、用語の候補（あるいは、構成要素の候補）を抽出すると、各用語の候補について、ｉ）特定の文字列が前置されているものについては、同じ用語の候補が文書中に既出であるか、ｉｉ）特定の文字列が前置されていないものについては、その用語の候補が文書中に初出であるか、をそれぞれチェックすれば、特定の文字列の使用が整合しているかどうかを確認できることになる。

ここで、特に、特許請求の範囲の記載では、既出あるいは初出であるか否かは、独立請求項であれば、その請求項の記載の範囲内だけで判断すればよい。ただし、従属請求項では、各請求項の中での記載にとどまらず、その請求項が従属する先の請求項の記載を順にたどって、最終的に従属の基礎となる独立請求項の記載までの範囲内で、既出あるいは初出であるかを判断する必要がある。

以上説明したような事情があるために、特許請求の範囲の文中から構成要素を認識するためには、文中の文字列の「単語範囲およびその品詞」に関する情報が必要である。そのためには、「形態素解析（Morphological Analysis）エンジン」のソフトウェアを用いることができる。

ここで、「形態素解析」とは、コンピュータ等の計算機を用いた自然言語処理であって、対象言語の文法の情報（文法のルールの集まり）やコーパス辞書（品詞等の情報付きの単語リスト）を情報源として用い、自然言語で書かれた文を形態素（Morpheme,言語で意味を持つ最小単位）の列に分割し、それぞれの品詞を判別する処理のことをいう。

しかし、特許請求の範囲の文章において、形態素解析エンジンは、一般に、文章を形態素に分割し、各形態素の品詞を特定する処理を行うだけであるので、構成要素の特定のためには十分でない。そこで、構成要素の部分的な単語などを格納した上述のような専用辞書を用いる構成とすることが必要になる。

日本語の「形態素解析エンジン（ＭＡＥ：Morphological Analysis Engine）」としては、すでに、フリーソフトウェアとして入手可能なものも存在し、たとえば、以下のようなものがある。

ｉ）KAKASI（かかし）"kanji kana simple inverter"，http://kakasi.namazu.org/
ｉｉ）MeCab（和布蕪（めかぶ）），http://mecab.sourceforge.net/
ｉｉｉ）ChaSen（茶筌），http://chasen-legacy.sourceforge.jp/
［実施の形態１］
（ハードウェア構成）
実施の形態１に係る文書チェック装置１００のハードウェア構成について、図１を参照して説明する。図１は、実施の形態１に係る文書チェック装置１００の構成をブロック図形式で表す図である。

以下では、文書チェックの一例として、文書チェック装置１００は、特許請求の範囲をチェック対象とするものとして、説明を行う。

文書チェック装置１００は、コンピュータ本体１０２と、出力装置または表示装置としてのモニタ１０４と、入力装置としてのキーボード１１０および入力補助装置としてのマウス１１２とを備える。モニタ１０４、キーボード１１０、およびマウス１１２は、コンピュータ本体１０２とバス１０５を介して接続される。

コンピュータ本体１０２は、外部記録媒体の読出装置であるフレキシブルディスク（ＦｌｅｘｉｂｌｅＤｉｓｃ、以下「ＦＤ」と呼ぶ）ドライブ１０６と、他の外部記録媒体の読出装置である光ディスクドライブ１０８と、演算処理装置であるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１２０と、記憶装置であるメモリ１２２と、大容量記憶装置である直接アクセスメモリ装置、たとえば、ハードディスク１２４と、通信装置としての通信インターフェイス１２８とを含む。これらの部品は、互いにバス１０５で接続されている。

ＦＤドライブ１０６は、ＦＤ１１６に情報を読み書きする。光ディスクドライブ１０８は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）１１８等の光ディスク上の情報を読み込む。通信インターフェイス１２８は、外部とデータの授受を行なう。

なお、ＣＤ−ＲＯＭ１１８は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、ＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）やメモリーカードなどでもよく、その場合は、コンピュータ本体１０２には、これらの媒体を読み取ることが可能なドライブ装置が設けられる。

メモリ１２２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。

ハードディスク１２４は、表示制御プログラム１３１と、文書データ解析プログラム１３２と、解析対象の文書の内容分野のグループを表すグループ情報１３３と、共通辞書データ１３４と、顧客辞書データ１３５と、チェック対象となる文書データ１３６とを格納する。

なお、グループ情報１３３は、特に限定されないが、例えば、ソフトウェアの起動時に、ユーザが入力する構成とすることができる。

また、共通辞書データ１３４と顧客辞書データ１３５とは、ネットワークで接続された他のコンピュータの記憶装置内に記憶されており、文書チェック装置１００は、通信インターフェイス１２８を介して、これらのデータにアクセスして読み出したり、あるいは、書込みを行なったりする構成とすることも可能である。

表示制御プログラム１３１は、文書チェック装置１００とユーザとの間のインターフェイスとなる画面の表示を制御する。したがって、ユーザからの入力を促す画面の表示をしたり、あるいは、チェック結果の表示を行う処理を制御する処理のためのものである。

文書データ解析プログラム１３２は、後に説明するように、チェック対象となる文書データ１３６について、構成要素の候補となる名詞、名詞句を、共通辞書データ１３４および顧客辞書データ１３５に基づいて、抽出する。さらに、文書データ解析プログラム１３２は、このようにして抽出された構成要素の候補について、特定の文字列である「前記」「当該」などの使用の整合性をチェックする処理のためのものである。

ここで、文書データ解析プログラム１３２が、構成要素の候補を抽出する処理においては、上述した形態素解析エンジンを使用する。したがって、ハードディスク１２４には、図示しないものの、形態素解析エンジンが形態素解析処理を行う際に必要となる「対象言語の文法の情報」や「コーパス辞書」も、格納されている。

なお、表示制御プログラム１３１と文書データ解析プログラム１３２とは、ＦＤ１１６またはＣＤ−ＲＯＭ１１８等の記憶媒体に記録されることによって供給されてもよいし、他のコンピュータにより通信インターフェイス１２８を経由して供給されてもよい。

共通辞書データ１３４は、上述したように、内容分野に関わらず、使用される頻度が一定以上である構成要素接尾語についての専用辞書である。図１に示した例では、内容分野は、出願人（顧客）の業務範囲により異なる場合を例示しているので、この場合は、顧客に関わらず、使用される頻度が一定以上である構成要素接尾語についての専用辞書である。

一方、顧客辞書データ１３５は、共通辞書を用いて、構成要素の候補となる名詞、名詞句を抽出した際に、抽出からもれた構成要素の候補を、ユーザが、随時、登録できるユーザ辞書である。

文書データ１３６は、チェック対象となる文書のデータである。特に限定されないが、たとえば、文書データ１３６は、チェック対象となる文書が、特定のワードプロセッサソフトウェアで作成されたファイルである場合、このファイルからテキストデータを抽出したデータとすることができる。表示制御プログラム１３１は、文書チェック装置１００での文書データの表示あたっては、当該テキストデータ中に含まれる情報から、所定のレイアウトで表示が行なわれるように制御する。このような構成とすれば、文書チェック装置１００は、ワードプロセッサソフトウェアで作成されたファイルを直接操作して、データの書込み等を行なわないことになるので、当該ファイルデータ中に、予期しない変更等が加えられ、いわゆる「文字化け」や「レイアウト情報の予期しない変更」等が生じるのを防止することができる。

演算処理装置として機能するＣＰＵ１２０は、メモリ１２２をワーキングメモリとして、上述した各プログラムに対応した処理を実行する。

表示制御プログラム１３１と文書データ解析プログラム１３２とは、上述の通り、ＣＰＵ１２０により実行されるソフトウェアである。一般的に、こうしたソフトウェアは、ＣＤ−ＲＯＭ１１８、ＦＤ１１６等の記憶媒体に格納されて流通し、光ディスクドライブ１０８またはＦＤドライブ１０６等により記憶媒体から読み取られてハードディスク１２４に一旦格納される。または、文書チェック装置１００がネットワークに接続されている場合には、ネットワーク上のサーバから一旦ハードディスク１２４にコピーされる。そうしてさらにハードディスク１２４からメモリ１２２中のＲＡＭに読み出されてＣＰＵ１２０により実行される。なお、ネットワーク接続されている場合には、ハードディスク１２４に格納することなくＲＡＭに直接ロードして実行するようにしてもよい。

図１に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の機能を実現するに当り本質的な部分は、ＦＤ１１６、ＣＤ−ＲＯＭ１１８、ハードディスク１２４等の記憶媒体に記憶されたソフトウェアである。

（機能的構成）
図２は、本実施の形態１に係る文書チェック装置１００の機能的構成をブロック図形式で示す図である。

図３は、本実施の形態１に係る文書チェック装置１００の動作を説明するためのフローチャートである。

図２および図３を参照して、本実施の形態１に係る文書チェック装置１００の機能的構成および動作について説明する。

文書チェック装置１００は、記憶装置であるハードディスク１２４と、表示装置であるモニタ１０４と、入力装置であるキーボード１１０と、ＣＰＵ１２０により実行される処理の機能ブロックとして、ｉ）文書データ解析プログラム１３２により実行される、ｉ−１）ハードディスク１２４などの記憶装置から文書データを取得する文書取込部１２０．１およびｉ−２）文書データの解析・チェックを行う文書データ解析部１２０．２と、ｉｉ）表示制御プログラム１３１により実行される、文書データ解析部１２０．２のチェック結果や文書データ解析部１２０．２とユーザとのインターフェイス画面をモニタ１０４に表示させるデータ表示出力制御部１２０．３と、を備える。

図２では、ユーザ辞書である顧客辞書データ１３５が、文書データの内容分野に相当する顧客ごと（顧客の業務範囲ごと）の部分辞書１３５．１〜１３５．ｎに分割されていることを明示的に示している。

すなわち、専用辞書を２種類の辞書（顧客辞書、共通辞書）に分類する。たとえば、後に説明するＰ０辞書を顧客辞書に、Ｐ０以外の辞書を共通辞書に割り当てる。たとえば、複数人からなるユーザが、複数の小規模グループから成る１つの大規模グループに分割されており、小規模グループごとに顧客辞書を、大規模グループに共通辞書を配置する。

このような構成とすれば、小規模グループごとに必要な登録単語が異なる場合、辞書の単語登録数を最小限にすることができるため、単語検索も高速になる。さらに、小規模グループで誤った単語を登録してしまった場合でも、大規模グループ全体への影響は出ない、という効果もある。

図３を参照して、文書チェック装置１００の動作が開始されると、まず、ユーザにより、チェック対象となる文書データの内容分野（顧客）を特定するためのグループ情報がキーボード１１０、マウス１１２などを使用して入力される（Ｓ１００）。これに応じて、文書データ解析部１２０．２は、使用する部分辞書１３５．ｉ（１≦ｉ≦ｎ）を選択する。

続いて、文書取込部１２０．１は、文書データ１３６を取り込み、ワーキングメモリであるＲＡＭ上に展開する（Ｓ１０２）。

文書データ解析部１２０．２は、文書データ１３６の中から、チェック対象となる「特許請求の範囲」の記載を選択・特定し（Ｓ１０２）、続いて、構成要素の候補となる名詞、名詞句を抽出するために、共通辞書データ１３４および選択された部分辞書１３５．ｉと形態素解析エンジンとを用いて文書データの解析を行う（Ｓ１０６）。続いて、文書データ解析部１２０．２は、解析結果に基づいて、構成要素の候補を特定するとともに、構成要素の候補間において、特定の文字列である「前記」「当該」の使用が、特許請求の記載の中で、整合しているかをチェックする（Ｓ１０８）。

データ表示出力制御部１２０．３は、チェック結果に応じて、そのチェック結果を文書データの表示上で、たとえば、構成要素の候補について、異なった色のハイライト表示をするなどして、ｉ）「前記」「当該」が付されており、かつ、その使用が適正なもの（同じ「構成要素の候補」が特許請求の範囲の記載中に既出）、ｉｉ）「前記」「当該」が付されておらず、かつ、その使用が適正なもの（その「構成要素の候補」が特許請求の範囲の記載中で初出）、ｉｉｉ）「前記」「当該」が付されているが、その使用が不適切なもの、ｉｖ）「前記」「当該」が付されていないが、その使用が不適切なもの、を区別可能な表示態様で表示する。なお、ｉ）とｉｉ）については、ともに適正なものを表示するのであるから、共通の表示態様で表示してもよい。

次に、ユーザからの入力により、再解析を行うのであれば（Ｓ１１２）、処理は、ステップＳ１０２に復帰し、再解析を行わないのであれば、処理は終了する。

ここで、ユーザが再解析を指示するのは、ステップＳ１１０での表示結果に基づいて、ユーザが文書データ１３６を修正した場合に、再解析をすることが必要となった場合である。このとき、上述のとおり、ユーザが修正するのは、特定のワードプロセッサソフトウェアで作成されたファイルであり、チェック対象の文書データ１３６としては、そのファイルからテキストファイルのみを取り込む、構成とすることができる。
［文書チェック処理の詳細］
以下では、図３により説明した文書チェック処理をより詳しく説明する。
（構成要素の存在の状態）
まず、構成要素が存在する状態の条件について説明する。
構成要素は、文中に以下の状態で存在することを前提とする。
１．構成要素自身
１−１名詞で構成する場合（例：半導体レーザ素子、制御装置、など）
１−２修飾語＋名詞で構成する場合（例：特定の半導体レーザ素子、所定の制御装置、など）
１−３専門用語や固有名詞で構成する場合（例：Ｐｎ接合など）
したがって、構成要素の抽出は、単に、形態素解析により、名詞を特定するだけでは不十分である。
２．構成要素の後方の文字列
２−１構成要素＋助詞（例：記憶装置に）
２−２構成要素＋助動詞（例：記憶装置であって）
２−３構成要素＋末尾語（例：記憶装置ごとに、設定温度以上に、水素電極間に、記憶装置（３）に）
２−４構成要素＋句読点（例：記憶装置、記憶装置。）
２−５構成要素＋上記以外（例：遊技状態終了後に、）
したがって、逆に、これらの「構成要素の後方の文字列」を文書データ中でのポインタとして用いれば、構成要素の終点の候補を見つけることに利用できる。
３．構成要素の前方の文字列
３−１名詞以外＋構成要素（例：・・を有する記憶装置に・・、）
３−２名詞＋構成要素（例：・・のうち記憶装置に・・・、）
３−３接頭詞＋構成要素（例：・・の各記憶装置に・・・、）
３−４前記＋構成要素（例：・・を前記記憶装置に・・、）
構成要素の始点については、単純に名詞で切れるとするわけにはいかない場合がある。
４．構成要素の部分文字列（特殊）
４−１名詞＋動詞＋特定の単語（例：選択するステップ）
４−２名詞＋動詞＋助詞＋特定の単語 (例：選択するためのステップ)
上記特定の単語とは、後述する専用辞書の辞書Ｐ２に登録する単語である。つまり、構成要素は、単純に、名詞の連結以外にも、動詞等と名詞との複合語となっている場合もある。

（文書チェック処理フロー）
図４は、図３のステップＳ１０６とステップＳ１０８の処理を、より詳しく説明するためのフローチャートである。

また、図７および図８は、図４の各処理ステップでの処理を説明するための図である。
まず、図４を参照して、ステップＳ１０４でデータ範囲の選択が終了すると、文書データ解析部１２０．２は、請求項ごとに分離して抽出し、請求項間の従属関係を抽出する（Ｓ１０６．１．１）。なお、このような請求項の分離は、もともとのテキストデータ中のタグを利用して行なうことができる。また、従属関係の抽出は、正規表現を用いたテンプレートとのマッチングにより、たとえば、「請求項○または△に記載の」等の表現を抽出することで、特定することができる。

続いて、文書データ解析部１２０．２は、請求項が連番となっているかや、従属先の請求項と自身の発明の名称とが一致しているかをチェックする（Ｓ１０６．１．２）。特に限定されないが、たとえば、「発明の名称」は、ｉ）ユーザが特定してもよいし、あるいは、ｉｉ）当該請求項中で、もっとも後方（末尾側）で、構成要素として抽出されたものを用いることができる。このｉｉ）の場合は、発明の名称の整合性のチェックは、後に説明する「前記」等の整合性チェックの際に同時に行なわれることになる。

続いて、図４および図７を参照して、文書データ解析部１２０．２は、形態素解析を実行する。まず、文書データ解析部１２０．２は、形態素解析の前処理（「フロントエンド処理」と呼ぶ）として、専用辞書に登録された特定の単語については、形態素解析の前に、特別な品詞を強制的に割当てる処理を行う（Ｓ１０６．２．１）。

図５は、このような特別な品詞の一覧を示す図である。
まず、「フロントエンド処理」で、品詞の割り当てが行なわれるのは、以下のとおりである。

１）部分辞書１３５．ｉにユーザ登録されているもの（品詞Ｐ０）。構成要素と見なす文字列である。ただし、名詞が前置する場合のみ、それも含めて構成要素と見なすことになるので、これは、「構成要素接尾語」に分類する。ユーザ辞書である部分辞書１３５．ｉに登録されるのは、この品詞Ｐ０のみであり、他の品詞は、共通辞書データ１３４に登録されている。

２）構成要素接頭語（品詞Ｈ１，Ｈ２，Ｈ３）
２−１）品詞Ｈ１：構成要素の先頭に来る単語。チェック文字列（「前記」「当該」などの特定の文字列）が後置されることはない。例えば、「特定の」などである。

２−２）品詞Ｈ２：構成要素の先頭に来る単語。チェック文字列が後置されることがある。たとえば、「複数の」、「所定の」などである。つまり、「複数の○○装置」が既出のときに、後に再び記載する際には、「前記複数の○○装置」となる場合も、「複数の前記○○装置」となる場合もある。

２−３）品詞Ｈ３：構成要素の先頭に来る単語。接続詞と組み合わせて複数存在する可能性がある。たとえば、「第」＋数字、「第」＋数字＋「の」などである。このときは、「第１および第２の○○」というような使用のされ方をする点で、品詞Ｈ１や品詞Ｈ２と異なる。

３）接尾語（品詞ＴＴ）（これは、接尾語の辞書のうち、辞書ＦＴに記憶される）
形態素解析での品詞の分析いかんに関わらず、請求の範囲で使用される場合は、必ず、構成要素に後置されるものである。たとえば、「（」などである。

４）強制名詞（品詞Ｎ）（これは、辞書ＦＮ中に登録されている）
形態素解析での品詞の分析いかんに関わらず、必ず、名詞Ｎを割当てる。これは、請求項中の記載では、構成要素中に使用される場合があるからである。たとえば、「〜」「／」などである。

５）チェック文字列（品詞ＺＺ）
構成要素に前置する単語であり、「特定の文字列」として、その使用の整合性がチェックされる単語である。該当単語は、「前記」、「該」、「当該」、「上記」、「各前記」、「前記各」などである。なお、「各前記」、「前記各」もチェック文字列としているのは、以下の理由による。すなわち、「各」は、形態素解析では、「接頭詞かつ名詞接続」と判断される場合がある。ところで、一般には、構成要素としての認識には、「接頭詞かつ名詞接続」の単語は、後続する名詞と一体として取り扱うのが妥当であるところ、「各」については、「各前記○○」、「前記各○○」（○○は名詞）という使用の仕方がされる場合がある。後者の場合は、この原則に従うと、「各○○」が構成要素とされてしまうため、むしろ、「各前記」、「前記各」をチェック文字列としてチェックするという例外扱いが妥当だからである。

再び、図４および図７にもどって、フロントエンド処理が終了すると、文書データ解析部１２０．２は、形態素解析処理を行い、フロントエンド処理で強制的に品詞を割当てた以外の単語について、名詞Ｎ，接頭詞かつ名詞接続Ｎ０、接続詞Ｏ，助詞Ｊ，句点Ｋ１，読点Ｋ２，動詞Ｖ，助動詞Ｇなどの品詞を割当てる。

次に、文書データ解析部１２０．２は、形態素解析の結果を条件として使用して、形態素解析の後処理（「バックエンド処理」と呼ぶ）として、専用辞書に登録された特定の単語については、形態素解析の後に、特別な品詞を強制的に割当てる処理を行う（Ｓ１０６．２．３）。

再び、図５を参照して、「バックエンド処理」で、品詞の割り当てが行なわれるのは、以下のとおりである。

１）構成要素接尾語
その単語が、形態素解析により、名詞と判断された場合であって、かつ、[助詞 or 助動詞 or 句読点 or 接尾語 or 接続詞]が後置する場合に、共通辞書データ１３４中に構成要素接尾語の以下の品詞として登録があれば、その単語に以下の品詞Ｐ１〜Ｐ３のいずれかを割当てる。

１−１）品詞Ｐ１：構成要素の末尾となる単語。動詞が前置されることはない。たとえば、「装置」「素子」などである。

１−２）品詞Ｐ２：構成要素の末尾となる単語。動詞の前置が許される。該当単語は、たとえば、「ステップ」、「工程」、「手段」である。

すなわち、「〜するステップ」「〜する手段」のような記載が品詞Ｐ２の単語には可能である。

１−３）品詞Ｐ３：名詞が前置する場合のみ、構成要素として見なす文字列。該当単語は、たとえば、「条件」である。これは、一般名称として使用されることが想定される名詞であって、特定の事物を指す場合は、前置する名詞とで名詞句（複合名詞）が形成されるような名詞である。

２）接尾語（品詞ＴＴ）（これは、接尾語の辞書のうち、辞書ＴＴに記憶される）
形態素解析で名詞と判断された場合であって、構成要素に後置する単語である。たとえば、「毎」「以上」「以下」などである。

３）非名詞（品詞ＸＮ）
形態素解析で名詞と判断された場合であっても、その認識を解除して品詞ＸＮを割当てる。たとえば、「うち」「よう」などである。これらの単語は、たとえ名詞であっても、構成要素の中に含めるのが妥当ではないからである。「複数の○○のうち特定の○○」「〜するよう処理を切り換える」というような態様で使用されている場合である。

４）非接頭詞（ＸＳ）
形態素解析で、「接頭詞かつ名詞接続」と認識された場合であっても、その認識を解除して品詞ＸＳを割当てる。たとえば、「各」などである。これは、「複数の○○」が既出のときに、「各○○」と記載したときは、以後の記載では、本来は、「各前記○○」または「前記各○○」と記載されるのが適切である。しかし、「各」を含めて構成要素と判断してしまうと、「各○○」については、初出であるので、使用態様としては、適切と誤って判断されてしまうおそれがあるからである。

図４と図８を参照して、バックエンド処理が終了すると、続いて、文書データ解析部１２０．２は、データ認識処理（Ｓ１０８）として、補正処理を行う（Ｓ１０８．１）。補正処理では、文書データ解析部１２０．２は、割当てた品詞を表す割付記号の並び方が、その他項目の条件を満たすときに、適切な記号を再度、割り付ける。つまり、本来、１つの構成要素として認識されるべき用語が、複数の単語に分離して認識されている場合に、これらの単語を連結して、連結された単語に対して、割付記号を割当てる。

たとえば、名詞Ｎとされる単語が連続している場合は、これらの単語を連結して、連結された用語に、名詞Ｎの記号を割り付ける。また、名詞Ｎとされる単語の前に、接頭詞かつ名詞接続Ｎ０と認識された単語が連続している場合は、これらの単語を連結して、連結された用語に、名詞Ｎの記号を割り付ける。

構成要素接頭詞Ｈ１とＨ１とが連続している場合は、これらの単語を連結して、連結された単語に、品詞Ｈ１を割り付ける。

あるいは、構成要素接尾語Ｐ２と認識されている単語の前に、動詞Ｖと認識された単語が連続している場合は、これらの単語を連結して、品詞Ｐ（構成要素接尾語Ｐ０，Ｐ１，Ｐ２，Ｐ３を総称して、品詞Ｐと呼ぶ）を割り付ける。

また、文書データ解析部１２０．２は、構成要素接尾語Ｐの単語の前に、名詞Ｎと認識される単語が連続している場合には、これらの単語を結合して、結合された用語に、品詞Ｐを割り付ける。

このような単語の連結処理の態様を品詞の記号で表すと、以下の場合があることになる。

１）Ｎ＋Ｎ →Ｎ
２）Ｎ０＋Ｎ →Ｎ
３）Ｈ１＋Ｈ１ →Ｈ１
４）Ｈ３＋Ｈ１ →Ｈ１
５）Ｈ３＋Ｈ２ →Ｈ１
６）Ｖ＋Ｖ →Ｖ
７）Ｎ＋Ｖ →Ｖ
８）Ｖ＋Ｐ２ →Ｐ
９）Ｖ＋Ｎ＋Ｊ＋Ｐ２ →Ｐ
１０）Ｎ０＋Ｐ１ →Ｐ
１１）Ｐ０ →Ｐ
１２）Ｐ１ →Ｐ
１３）Ｐ２ →Ｐ
１４）Ｎ＋Ｐ３ →Ｐ
１５）Ｎ＋Ｐ →Ｐ
１６）Ｐ＋Ｐ →Ｐ
したがって、構成要素接尾語Ｐ０，Ｐ１，Ｐ２，Ｐ３の区別はなくなり、結局、１つの構成要素と認識されるべき用語については、補正処理により、単一の記号である品詞Ｐが割り付けられることになる。

さらに、補正処理が終了すると、続いて、文書データ解析部１２０．２は、データ認識処理（Ｓ１０８）として、構成要素認識処理を行う（Ｓ１０８．２）。

構成要素認識処理では、図８に示す一覧において、割付記号の並び方が、その他項目の条件を満たすときに、構成要素として認識する。一覧の中の「その他」の項目の[○＋○＋（…）]部分を構成要素として認識し、チェック文字列の有無を表す記号を割付ける。

ここで、図６は、このようにして構成要素認識処理で割り付けられる記号を示す図である。

記号ＺＣは、チェック文字列（前記、当該・・など、）が前置する構成要素を意味し、記号Ｃは、チェック文字列（前記、当該・・など、）が前置しない構成要素を意味する。

たとえば、チェック文字列ＺＺに後続して、品詞Ｐの用語が存在するときは、当該用語（［Ｐ］の記号が割り付けられている単語または単語群）を構成要素として、記号ＺＣを割り付ける。一方、品詞Ｐの用語がチェック文字列と連続せずに存在するときは、当該用語を構成要素として、記号Ｃを割り付ける。

たとえば、割付記号の並びが、ＺＺ＋[Ｈ２＋Ｈ３＋Ｐ]の時には、当該構成要素（[Ｈ２＋Ｈ３＋Ｐ]の記号が割付られている単語群からなる用語）には、記号ＺＣを割り付ける一方、[Ｈ２＋Ｈ３＋Ｐ]の時には、当該構成要素（[Ｈ２＋Ｈ３＋Ｐ]の記号が割付られている単語群からなる用語）には、記号Ｃを割り付ける。

このような構成要素の認識処理を場合分けして説明すると、以下のとおりである。
１）ＺＺ＋[Ｈ３＋Ｏ＋Ｈ３＋Ｐ] ：ＺＣ
２）ＺＺ＋Ｖ＋Ｇ＋[Ｈ３＋Ｏ＋Ｈ３＋Ｐ] ：ＺＣ
３）[Ｈ３＋Ｏ３＋Ｈ３＋Ｐ] ：Ｃ
４）ＺＺ＋[Ｈ２＋Ｈ３＋Ｐ] ：ＺＣ
５）ＺＺ＋Ｖ＋Ｇ＋[Ｈ２＋Ｈ３＋Ｐ] ：ＺＣ
６）[Ｈ２＋Ｈ３＋Ｐ] ：Ｃ
７）ＺＺ＋[Ｈ３＋Ｐ] ：ＺＣ
８）ＺＺ＋Ｖ＋Ｇ＋[Ｈ３＋Ｐ] ：ＺＣ
９）[Ｈ３＋Ｐ] ：Ｃ
１０）ＺＺ＋[Ｈ２＋Ｐ] ：ＺＣ
１１）ＺＺ＋Ｖ＋Ｇ＋[Ｈ２＋Ｐ] ：ＺＣ
１２）[Ｈ２＋Ｐ] ：Ｃ
１３）ＺＺ＋[Ｈ１＋Ｐ] ：ＺＣ
１４）ＺＺ＋Ｖ＋Ｇ＋[Ｈ１＋Ｐ] ：ＺＣ
１５）[Ｈ１＋Ｐ] ：Ｃ
１６）ＺＺ＋[Ｐ] ：ＺＣ
１７）ＺＺ＋Ｖ＋Ｇ＋[Ｐ] ：ＺＣ
１８）[Ｐ] ：Ｃ
なお、ここで、文書データ解析部１２０．２は、ＺＺ＋[Ｈ３＋Ｏ＋Ｈ３＋Ｐ]、すなわち、たとえば「前記第１および第２の○○」となっている場合には、「前記第１の○○」と「前記第２の○○」とが記載されているものとみなす処理を行う。また、文書データ解析部１２０．２は、[Ｈ３＋Ｏ＋Ｈ３＋Ｐ]、すなわち、たとえば「第１および第２の○○」となっている場合には、「第１の○○」と「第２の○○」とが記載されているものとみなす処理を行う。

以上の処理により、各構成要素の候補として抽出された用語について、「前記」等のチェック文字列ＺＺが前置されているかが判別できたことになるので、文書データ解析部１２０．２は、続いて、このようなチェック文字列の使用が、構成要素の請求項中への出現が、初出または既出であるかと、整合しているかをチェックする（Ｓ１０８．３）。

この際には、各請求項について、その請求項が独立請求項であるのか、従属請求項であるのかに応じて、初出または既出を判断する範囲を設定する。

たとえば、請求項３は、請求項２に従属し、請求項２は、請求項１に従属している場合は、請求項３に現れている構成要素については、請求項３だけでなく、請求項２および請求項１までを含めた範囲で、初出または既出を判断する。

図９は、ユーザ辞書である構成要素接尾語のうち、品詞Ｐ０に相当する用語（単語に限らない）を登録した辞書の例を示す。

共通辞書がシステム管理者により登録されるものであるのに対して、辞書Ｐ０（ユーザ辞書）には、ある顧客の業務範囲に応じて、特定の用語（単語または単語群）がユーザにより登録される。

図１０は、共通辞書である構成要素接尾語のうち、品詞Ｐ１に相当する用語を登録した辞書の例を示す。

この辞書Ｐ１では、顧客（または、顧客の業務範囲、または、技術分野）によらずに、構成要素の末尾に共通して使用される単語が登録されている。

上述のとおり、共通辞書である辞書Ｐ１は、システム管理者により登録が行なわれる。なお、辞書Ｐ１などの共通辞書とユーザ辞書とがサーバなどの外部記憶装置に置かれ、複数の端末が共通辞書とユーザ辞書とを共有して利用する場合は、サーバ側で一括してシステム管理者が共通辞書中の単語の登録を行なうことができ、顧客辞書（ユーザ辞書）についてはクライエント端末側からユーザが単語の登録を行なうことができる。

図１１は、共通辞書のうち、構成要素接尾語の品詞Ｐ２および品詞Ｐ３に相当する用語を登録した辞書、構成要素接頭語の品詞Ｈ１，Ｈ２，Ｈ３に相当する用語を登録した辞書、接尾語ＴＴに相当する用語を登録した辞書の例を示す。

図１１に示した例では、品詞Ｐ２には、「ステップ」「工程」「手段」が登録され、品詞Ｐ３には「条件」が登録されている。その他、品詞Ｈ１，Ｈ２，Ｈ３については、上述のとおりである。

図１２は、共通辞書のうち、接尾語ＦＴ、強制名詞ＦＮ、チェック文字列ＺＺ、非名詞ＸＮ、非接頭詞ＸＳに、それぞれ相当する用語を登録した辞書の例を示す。

これらの単語の内容については、上述したので繰り返さない。
図１３は、文書データ解析部１２０．２が行う補正処理および構成要素認識処理を概念的に説明する図である。

たとえば、「手段」は、品詞Ｐ２として登録されているので、「手段」の前に連続する「読取」「制御」との名詞が「手段」と連結されて構成要素「読取制御手段」と認識されており、チェック文字列が前置していないので、割付記号Ｃが割り付けられる。

これに対して、「読取バランサー」では、「バランサー」が品詞Ｐ１，Ｐ２，Ｐ３としては、登録されていないので、１回目の構成要素認識処理が終了した時点では、構成要素としては認識されないことになる。ただし、図３のステップＳ１１０において、ユーザが、たとえば、「バランサー」を部分辞書１３５．ｉに登録すると、「バランサー」およびこれの前に連続する名詞である「読取」とが結合されて、「読取バランサー」が一つの構成要素として認識される。そして、「読取バランサー」には、チェック文字列が前置しているので、割付記号ＺＣが割り付けられる。

図１４は、図３のステップＳ１１０で表示される請求項の記載の例を示す図である。たとえば、構成要素と認識されているものには、下線が引かれている。もちろん、構成要素と認識されているものには、たとえば、特定の色でハイライト表示がされていてもよい。さらに、「中間コード」との用語については、構成要素とは認識されていないので、ユーザが、たとえば、マウス１１２を操作して、「中間コード」との用語の範囲を選択すると、部分辞書１３５．ｉに登録される。

図１５は、図３のステップＳ１１０で表示される画面全体の例を示す図である。
左上には、検出された請求項の従属関係が、クレームツリーとして表示されている。また、右上には、構成要素の一覧が表示されている。

検出された「構成要素」については、クレームごとに下線またはハイライト表示がされる。

同時に、クレームごとに検出された「構成要素名」がチェックボックス付きの一覧として表示される。従属クレームでは、ツリーの中で新たに検出されたものだけを一覧として表示する。チェックボックスは、「構成要素の候補」から不要なものを削除するためのインターフェイスである。

上述のように、チェック文字列の使用が適正か否か、また、「前記」等の記載が不要か、「前記」等の記載が欠落しているかに応じて、ハイライト表示の色を変えることで、ユーザにチェック文字列の使用の整合性の状態を知らせることができる。

図１４で説明したとおり、この表示の段階で、構成要素として認識されていない用語をユーザが確認すると、その用語の範囲をユーザが選択することで、部分辞書１３５．ｉにその用語が登録される。その段階で、ユーザが「解析」ボタンをクリックすると、再度、更新された部分辞書１３５．ｉに基づいて、構成要素の認識と、「前記」等の記載の整合性のチェックが行なわれる。

以上のような構成により、解析対象となる文書中で、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる使用の態様が、適正であるかを容易にチェックすることが可能となる。

また、ユーザ辞書に、逐一、用語を登録していなくても、用語の語尾に共通に用いられる複数の用語接尾語の情報を用いて特定用語の特定が行なわれるので、ユーザが特定用語を特定する処理を大幅に削減して、文書のチェックを行うことが可能となる。

［実施の形態２］
実施の形態１の文書チェック装置１００は、外部から与えられた文書データ中において、特定の文字列が、その文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、文書中から用語の候補となる語句を抽出し、抽出された候補間において、このような特定の文字列の使用が整合しているか否かをチェックするものとして説明を行った。その場合、実施の形態１の文書チェック装置１００は、「特許請求の範囲」をチェック対象として文書チェックを行うものとして説明を行った。

このとき、上記用語（すなわち、「特定用語」）については、その語尾が一定の文字列（「用語接尾語」）となる確率が高いことを利用して、文章において、特定用語の候補を抽出する手がかりとして使用した。ここで、チェック対象の文章が、特許請求の範囲の場合は、「特定用語」とは、「構成要素」であり、「用語接尾語」とは、「構成要素接尾語」のことであった。

ただし、文書チェックとしては、以下のような場合も考えられる。
１）必ずしも、特定用語の候補を抽出する際に、「用語接尾語」を手がかりとすることなく、形態素解析エンジンにより特定された名詞が連続する場合は、これら名詞を連結することで特定用語の候補として、必要に応じて、「特定用語の候補」として不適切なものは、ユーザの個別の指示により除外する、という構成でも、同様の処理を実現できる。

特に、チェック対象文書が「明細書」である場合などは、「特許請求の範囲」とは異なり、「構成要素接尾語」のような文字列（たとえば、「手段」）が必ずしも使用されるとは限らず、この場合は、後述する「説明用語」の候補の抽出には、名詞の連結の方が適している場合が存在しうる。

２）また、チェック対象となる文書によっては、当該文書の一部において、上述のように、特定の文字列が、その文字列に後続する用語が、文書中で既出であることを示すために用いられて、すなわち、用語の使用の厳格性を担保して、概念の定義を行い、当該文書の他の部分において、当該概念の具体的な説明を行うという場合もある。この場合は、概念の定義に使用された「特定用語」に対応して、より具体的な例を示す用語（以下、「説明用語」と呼ぶ）により、上記のような具体例の説明が行われる場合がある。このとき、上記のような具体的な説明において、図面を参照した説明が行われるときは、このような説明用語には、図面との対応を表すために、説明文中では直後に符号が付され、対応する図面中では、図面の対応部分に、その同じ符号が付されることで、具体的な説明が実行される、ということになる場合がある。

たとえば、「概念の定義」を行うのが、「特許請求の範囲」の記載である場合は、このような具体的な説明を行うのは、「明細書」（特に、たとえば、「発明を実施するための形態」の記載）ということになる。このとき、「説明用語」は、「特定用語」をより具体的に説明するものであるから、両者には、明示的に形式上の同一または類似の単語または単語の結合が使用されるか、あるいは、当該文章を読む読み手の常識では、そのような「説明用語」が、「特定用語」に対応することが自明であるような説明用語が使用されることになる。

このとき、「説明用語」には、上述のように、その直後に符号が付されているので、文章中で、説明用語とこれに対応する符号との対応関係が、文書中で、一貫して整合がとれているかも、チェックをする必要がある。

そして、上述したような「形態素解析エンジン」による品詞の特定は、チェック対象となる文章において、このような「特定用語」が使用される部分と、「説明用語」が使用される部分とで、共通に実施することが可能となる。

なお、たとえば、特許出願書類では、「特許請求の範囲」と「明細書」とは、形式上、別文章であり、別のデータファイルとして作成される場合もある。しかし、本明細書においては、両者が、上述したような「概念の定義」と「当該概念の具体的な説明」といように密接な関係を有している場合は、両者を総合して、「チェック対象文書」と呼ぶことにする。

以下では、上記のような前提の下に、実施の形態２の文書チェック装置、文書チェック方法、文書チェックプログラムについて説明を行う。ここで、実施の形態２の文書チェック装置のハードウェアの構成および機能の構成は、原則的には、図１および図２で説明した実施の形態１の文書チェック装置１００の構成と同様である。

以下では、実施の形態２の文書チェック装置の動作について、説明する。
以下の実施の形態２の文書チェック装置の動作の説明においては、「特許請求の範囲」と「明細書」とを、チェック対象文書とする例について説明する。

ここで、以下の実施の形態２の説明では、「構成要素」との用語を、「特許請求の範囲」中の「特定用語」と「明細書」中の「説明用語」との双方を総称する用語として使用する。

図１６は、実施の形態２の文書チェック装置の動作を説明するためのフローチャートであり、実施の形態１の図３と対比される図である。

図１６を参照して、文書チェック装置１００の動作が開始されると、まず、ユーザにより、チェック対象となる文書データの内容分野（顧客）を特定するためのグループ情報がキーボード１１０、マウス１１２などを使用して入力される（Ｓ２００）。これに応じて、文書データ解析部１２０．２は、使用する部分辞書１３５．ｉ（１≦ｉ≦ｎ）を選択する。

このとき、併せて、ユーザの入力により、「共通辞書」を使用するか、使用しないかを選択的に設定できるものとする。

なお、ここでは、共通辞書と顧客辞書とは、「特許請求の範囲」と「明細書」とにそれぞれ対応して、その内容が格納されているものとする。ただし、たとえば、「特許請求の範囲」に対応する共通辞書データと顧客辞書データとは、ネットワークで接続された他のコンピュータの記憶装置内に記憶されており、文書チェック装置１００は、通信インターフェイス１２８を介して、これらのデータにアクセスして読み出したり、あるいは、書込みを行なったりする一方、「明細書」に対応する共通辞書データと顧客辞書データは、文書チェック装置１００中のハードディスク１２４内に記憶される構成とすることも可能である。これは、「特許請求の範囲」のような「概念の定義」を行う文書中では、比較的一般に使用されない用語が用いられる傾向があるために、複数のユーザでの使用の結果、たとえば、顧客辞書データに登録されるデータを複数ユーザ間で共用することで、他のユーザによる登録、すなわち、一種の学習結果を、他のユーザも使用することができるからである。一方で、「明細書」に関しては、一般に使用される用語が使用される傾向があるために、必ずしも、このような学習の結果を共用する必要性が、特許請求の範囲に比べると低いからである。

続いて、文書取込部１２０．１は、文書データ１３６を取り込み、ワーキングメモリであるＲＡＭ上に展開する（Ｓ２０２）。

文書データ解析部１２０．２は、文書データ１３６の中から、チェック対象となる「特許請求の範囲」と「明細書」の記載を選択・特定し、構成要素の候補となる名詞、名詞句を抽出するために、必要に応じて共通辞書データ１３４と、選択された部分辞書１３５．ｉと、形態素解析エンジンとを用いて文書データの解析を行い、辞書の登録内容に従って文書データの文字列の一部に、品詞を特定する処理の前処理としての記号を割り付ける（Ｓ２０６）。続いて、文書データ解析部１２０．２は、形態素解析で特定された品詞に応じて、文書データ中で解析結果に基づいて、品詞を特定するための記号をそれぞれの文字列に割り当てる（Ｓ２０６）。

続いて、文書データ解析部１２０．２は、以上の処理により記号が割り付けられている文字列に対して、名詞としての認識の対象から除外されるものとして辞書に登録されている文字列、構成要素に後置されるものとして辞書に登録されている文字列、構成要素の末尾にくる名詞（構成要素接尾語）として登録されている文字列などについて、割り付けら得ている符号のつけ直しを行う（Ｓ２０８）。その後、文書データ解析部１２０．２は、割り付けられた記号を所定のルールで記号を連結し統合して割り付け直す（Ｓ２０８）。さらに、文書データ解析部１２０．２は、構成要素について、既出であることを示す「特定の文字列」、すなわち、特許請求の範囲であれば、「前記」の有無に応じて、構成要素の整合性の認識のための記号（ＺＣ，Ｃ：説明は後述）を割り付ける。これにより、構成要素の候補が特定される。ただし、明細書において、「前記」が使用されないときは、このような「整合性の認識のための記号」については、明細書では整合性の判定では区別する必要がなく、単に「構成要素の候補」であることを示すのみである。

続いて、文書データ解析部１２０．２は、構成要素の候補間において、特定の文字列である「前記」「当該」の使用が、特許請求の記載の中で、整合しているかをチェックする（Ｓ２１０）。また、文書データ解析部１２０．２は、明細書中で、構成要素と符号との対応付けが整合しているかをチェックする（Ｓ２１０）。

データ表示出力制御部１２０．３は、チェック結果に応じて、特許請求の範囲については、そのチェック結果を文書データの表示上で、たとえば、構成要素の候補について、異なった色のハイライト表示をするなどして、ｉ）「前記」「当該」が付されており、かつ、その使用が適正なもの（同じ「構成要素の候補」が特許請求の範囲の記載中に既出）、ｉｉ）「前記」「当該」が付されておらず、かつ、その使用が適正なもの（その「構成要素の候補」が特許請求の範囲の記載中で初出）、ｉｉｉ）「前記」「当該」が付されているが、その使用が不適切なもの、ｉｖ）「前記」「当該」が付されていないが、その使用が不適切なもの、を区別可能な表示態様で表示する（Ｓ２１２）。なお、ｉ）とｉｉ）については、ともに適正なものを表示するのであるから、共通の表示態様で表示してもよい。

また、データ表示出力制御部１２０．３は、チェック結果に応じて、明細書については、ｉ）構成要素と符号との関係が１対１の関係であるもの（使用は正しい可能性が高い）、ｉｉ）１つの構成要素について複数の符号が使用されているもの（誤使用の可能性有り）、ｉｉｉ）１つの符号について複数の構成要素が使用されているもの（明確に誤使用）を、それぞれ、色などの表示態様で区別して表示する。これにより、ユーザは、明細書において、明確に誤使用である構成要素と、誤使用の可能性のある構成要素とを認識することが可能となる。なお、構成要素と符号との関係が１対１の関係であるものが、「使用は正しい可能性が高い」とされるのは、以上のチェックでは、文書中の構成要素および符号の使用と図面中の符号の使用との整合性まではチェックがされていないからである。ただし、図面も電子データとなっている場合には、このような整合性もチェックしてもよい。たとえば、図Ｘの説明の部分において、使用されている構成要素の符号が、対応する図Ｘの図面データ中にも存在するかどうかをチェックする等すればよい。

次に、ユーザからの入力により、再解析を行うのであれば（Ｓ２１４）、処理は、ステップＳ２０２に復帰し、再解析を行わないのであれば、処理は終了する。

ここで、ユーザが再解析を指示するのは、ステップＳ２１２での表示結果に基づいて、ユーザが文書データ１３６を修正した場合に、再解析をすることが必要となった場合である。このとき、上述のとおり、ユーザが修正するのは、特定のワードプロセッサソフトウェアで作成されたファイルであり、チェック対象の文書データ１３６としては、そのファイルからテキストファイルのみを取り込む、構成とすることができる。
［文書チェック処理の詳細］
以下では、図１６により説明した文書チェック処理をより詳しく説明する。

まず、図１９は、実施の形態１と実施の形態２の辞書の構成を対比して示す図である。
図１９に示すように、実施の形態２では、実施の形態１に対して、辞書名と辞書の内容を変更している。

ただし、ほとんどの辞書は、実施の形態１と共通である。また、全辞書のデフォルトの単語登録は、実施の形態１と実施の形態２で、同じとすることができる。

しかし、Ｈ３辞書は、実施の形態１と同様とできるが、正規表現を用いて、内部で生成することとし、辞書としては、設けない構成とすることもできる。また、ＦＴ、ＸＳ辞書も、実施の形態１と同様とすることができる。ただし、同じ処理結果になる様に形態素解析での記号の割り当ての方を変更することも可能である。さらに、Ｐ１辞書は、使用する／しないを選択できる構成としている。また、ＴＮＣの認識方法を変更し、辞書の種類を「顧客辞書」に変更している。

さらに、図２０は、チェック対象の文書中の文字列に割り付けられる「割付記号」を説明する図である。

「割付記号」の意味は以下の通りである。
ＺＣ：前記が前置する構成要素
Ｃ：前記が前置しない構成要素
Ｐ：構成要素候補
Ｈ：構成要素の接頭文字列候補
ＸＸ：適切ではない構成要素
構成要素の認識処理について、以下の処理では、辞書または形態素解析の情報を用いて、対象文字列を分割し、分割した文字列に記号を割り付ける。以下では、その割り付ける記号を「割付記号」とし、割り付ける際の条件を「割付条件」として説明する。

（文書チェック処理フロー）
図１７は、図１６のステップ２０６の処理を説明するためのフローチャートである。

図１７を参照して、ステップＳ２０６．１．１において、取得した文書のすべてについて、処理が終了しているかが判断される。終了していれば、処理はステップＳ２１０へ移行する。終了していなければ、処理は、次のステップＳ２０６．１．２に移り、処理対処の文書の特定がなされる。たとえば、処理対象の文章データが、「特許請求の範囲のデータ」の次に「明細書のデータ」を含む構成になっていれば、まずは、「特許請求の範囲」が処理対象となる。

続いて、処理対象が特許請求の範囲であれば（ステップＳ２０６．１．３）、文書データ解析部１２０．２は、請求項ごとに分離して抽出し、請求項間の従属関係を抽出する（Ｓ１０６．１．４）。なお、このような請求項の分離は、もともとのテキストデータ中のタグを利用して行なうことができる。また、従属関係の抽出は、正規表現を用いたテンプレートとのマッチングにより、たとえば、「請求項○または△に記載の」等の表現を抽出することで、特定することができる。

続いて、文書データ解析部１２０．２は、請求項が連番となっているかや、従属先の請求項と自身の発明の名称とが一致しているかをチェックする（Ｓ１０６．１．５）。特に限定されないが、たとえば、「発明の名称」は、ｉ）ユーザが特定してもよいし、あるいは、ｉｉ）当該請求項中で、もっとも後方（末尾側）で、構成要素として抽出されたものを用いることができる。このｉｉ）の場合は、発明の名称の整合性のチェックは、後に説明する「前記」等の整合性チェックの際に同時に行なわれることになる。

続いて、文書データ解析部１２０．２は、フロントエンド処理を行う（Ｓ２０６．２．１）。

ここで、図２１は、フロントエンド処理で割り付けられる割付記号を説明する図である。

図２１に示されるように、対象文字列に対して、図２１中に示す辞書を基に、図２１中のルールに従って記号を割り付ける。なお、割付処理は、テーブル中の順番にしたがって行われる。なお、テーブル中に順番が記載されている場合は、他の処理でも同様である。

続いて、図１７に戻って、文書データ解析部１２０．２は、形態素解析を実行する（Ｓ２０６．２．２）。

図２２は、このような形態素解析における割付記号を説明する図である。
図２２に示すように、上記フロントエンド処理で、記号が割り付けられていない文字列に対して、形態素解析処理をする。形態素解析処理では、入力文字列を分割した文字列とそれに対応する品詞を得る。図２２のテーブルに従って、その分割した文字列に対して、品詞を基に、記号を割り付ける（名詞：Ｎ，接続詞：Ｏ，動詞：Ｖ，助動詞：Ｇ，助詞：Ｊ）。

図１８は、図１６のステップＳ２０８とＳ２１０との流れを詳しく説明するためのフローチャートである。

ステップＳ２０８において、文書データ解析部１２０．２は、まず、バックエンド処理１を行う（Ｓ２０８．１）。

図２３は、このようなバックエンド処理１を説明するためのテーブルである。図２３に示すように、バックエンド処理１においては、それまでの処理で既に記号が割り付けられた文字列に対して、辞書を基に、図２３のテーブルに従って記号を割り付ける。

図１８に戻って、次に、文書データ解析部１２０．２は、記号の置換と連結処理を行うために補正処理１を行う（Ｓ２０８．２）。

図２４は、このような補正処理１を説明するためのテーブルである。図２４に示すように、補正処理１においては、それまでの処理で既に記号が割り付けられた文字列に対して、辞書を基に、図２４のテーブルに従って記号を割り付ける。

たとえば、ＴＯＣ辞書に登録されている文字列には、割付記号Ｐが割り付けられ、ＴＯＮ辞書に登録されている文字列には、割付記号Ｎが割り付けられる。また、実施の形態１と同様にして、名詞同士の連結処理（Ｎ＋Ｎ→Ｎ）などが実施される。

図１８に戻って、次に、文書データ解析部１２０．２は、Ｐ１辞書を使用しない設定がされている場合は（Ｓ２０８．３）、名詞または連結された名詞を構成要素候補として登録するための補正処理２を行う（Ｓ２０８．４）。

図２５は、このような補正処理２を説明するテーブルである。
図１８に戻って、次に、文書データ解析部１２０．２は、構成要素の認識処理を行う（Ｓ２０８．５）。

図２６は、このような「構成要素の認識処理」を説明するためのテーブルである。
図２６に示されるように、上記の処理で既に記号が割り付けられた文字列に対して、図２６のテーブルのルール内に従って記号を割り付ける。但し、大括弧で括られた部分に該当する文字列に記号を割り付ける。例えば、図２６のテーブルの順番１を例に挙げると、“Ｈ＋Ｐ”に該当する文字列には、その直前に文字列ＺＺが存在するので“ＺＣ”を割り付ける。順番３を例に挙げると、“Ｈ＋Ｐ”に該当する文字列には、その直前に文字列ＺＺが存在しないので“Ｃ”を割り付ける。

図１８に戻って、次に、文書データ解析部１２０．２は、処理対象が「明細書」である場合は（Ｓ２０８．６）、バックエンド処理２を行う（Ｓ２０８．７）。

図２７は、このようなバックエンド処理２を説明するテーブルである。「Ｃ」または「ＺＣ」の記号が割り付けられた文字列に、英数字の文字列、すなわち、符号が後置しない場合には、記号ＸＸが割り当てられる。

図１８に戻って、次に、文書データ解析部１２０．２は、ＴＮＣ辞書の登録内容にしたがって、バックエンド処理３を行う（Ｓ２０８．８）。

図２８は、このようなバックエンド処理３を説明するテーブルである。「Ｃ」または「ＺＣ」の記号が割り付けられた文字列に対して、該当する単語がＴＮＣ辞書に登録されている場合には、記号ＸＸが割り当てられる。

図１８に戻って、次に、文書データ解析部１２０．２は、取得文書すべてについて処理が終了している場合は（Ｓ２０６．１．１）、請求の範囲について「前記」等の整合性チェックを実施の形態１と同様に行う（Ｓ２１０．１）。

次に、文書データ解析部１２０．２は、明細書について構成要素と参照符号の整合性チェックを行う（Ｓ２１０．２）。

この場合は、明細書中の構成要素について、上述のとおり、以下の状態を判断する。
状態ｉ）構成要素と符号との関係が１対１の関係であるもの（使用は正しい可能性が高い）、
状態ｉｉ）１つの構成要素について複数の符号が使用されているもの（誤使用の可能性有り）、
状態ｉｉｉ）１つの符号について複数の構成要素が使用されているもの（明確に誤使用）。

図２９は、ステップ２１２において、データ表示解析部１２０．３が行う表示例を示す図である。

図２９においては、状態２に相当する構成要素は、状態ｉｉに相当する構成要素は下線が付され、状態ｉｉｉに相当する構成要素は枠で囲まれている。

もちろん、状態ｉ〜ｉｉｉに対して、異なる色でハイライト処理をして区別してもよい。

以上のような構成により、「特定用語」、特定用語が既出であることを示す「特定の文字列」と、「説明用語」、説明用語に付される「符号」とが使用されるような文書において、それぞれの使用の整合性をチェックすることが可能となる。

しかも、特定用語の候補を抽出する際に、「用語接尾語」を手がかりとすることは、ユーザの設定により選択することができる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１００文書チェック装置、１０２コンピュータ本体、１０４モニタ、１０５バス、１０６ＦＤドライブ、１０８光ディスクドライブ、１１０キーボード、１１２マウス、１２２メモリ、１２４ハードディスク、１２８通信インターフェイス、１３１表示制御プログラム、１３２文書データ解析プログラム、１３３グループ情報、１３４共通辞書データ、１３５顧客辞書データ、１３６文書データ。

Claims

解析対象となる文書中の記載の整合性をチェックするための文書チェック装置であって、
前記文書を表す文書データを記憶する記憶手段と、
特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる場合に、前記特定の文字列の情報を取得する情報取得手段と、
前記文書中に含まれる品詞を特定するための品詞特定手段とを備え、
前記品詞特定手段は、
前記文書中において、前記情報取得手段により取得された情報に基づいて、前記特定の文字列を認識して特定するための特定手段と、
前記文書に対して形態素解析を行い、前記文書中の品詞を特定するための形態素解析手段とを含み、
前記形態素解析の結果に基づき、前記文書中において、連続する名詞を連結することで、前記用語の候補である用語候補を特定する用語候補認識手段と、
特定された前記用語候補間で、前記特定の文字列の使用の整合性をチェックする整合性チェック手段と、
前記整合性のチェック結果を表示装置に表示させるための表示制御手段とをさらに備え、
前記特定の文字列の使用の整合性がない場合には、前記表示制御手段は、前記用語候補に対して不要な前記特定の文字列が付されているために整合性がないものと、前記用語候補に対して必要な前記特定の文字列が付されていないために整合性がないものとを、区別可能な表示態様で前記表示装置に表示させる、文書チェック装置。
前記解析対象となる文書は、予め定められたワードプロセッサソフトウェアで作成されたファイルであり、
前記文書を表す文書データは、前記ファイルからテキストデータを抽出することにより生成されたデータである、請求項１に記載の文書チェック装置。
前記情報取得手段は、さらに、前記用語の語尾に共通に用いられる複数の用語接尾語の情報を取得し、
前記用語候補認識手段は、前記形態素解析の結果に基づき、前記文書中において、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結することで、前記用語の候補である用語候補を特定する、請求項１または２に記載の文書チェック装置。
前記情報取得手段は、さらに、前記文書中で、前記用語候補認識手段での前記用語候補を特定する処理の時点で、特定されなかった前記用語候補を、ユーザの選択により前記用語候補として登録したユーザ辞書の情報を取得し、
前記用語候補認識手段は、さらに、前記ユーザ辞書も参照して、前記用語候補を特定する、請求項３に記載の文書チェック装置。
前記記憶手段は、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とを記憶し、
前記情報取得手段は、前記記憶手段から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを読み出す、請求項４に記載の文書チェック装置。
前記文書は、内容分野ごとの複数のグループに分類されており、
前記ユーザ辞書は、前記グループごとの部分辞書に分割され、前記ユーザは、前記文書の前記内容分野に対応する前記部分辞書に、特定されなかった前記用語候補を登録する、請求項４または５に記載の文書チェック装置。
前記記憶手段は、さらに、前記用語に前置される特定の接頭語を予め記憶しており、
前記用語候補認識手段は、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結した後、前記特定の接頭語が当該連結後の用語の前に連続する場合は、前記特定の接頭語をさらに連結することで、前記用語候補を特定する、請求項５または６に記載の文書チェック装置。
前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とは、前
記文書チェック装置の外部の外部記憶装置に記憶され、
前記情報取得手段は、前記外部記憶装置から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを通信により取得する、請求項４に記載の文書チェック装置。
前記文書データは、
前記特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる第１の文書を表現する第１の部分文書データと、
前記第１の部分文書データで定義される内容を説明するための文書であって、前記用語に相当する説明用語が符号を付されて使用される第２の文書を表現する第２の部分文書データとを含み、
前記形態素解析手段は、前記第１および第２の部分文書データに共通に、前記形態素解析を行い、
前記第２の部分文書データについて、前記説明用語と前記符号との整合性をチェックするための符号チェック手段をさらに備える、請求項１から３のいずれか１項に記載の文書チェック装置。
解析対象となる文書中の記載の整合性のチェックを、演算装置と前記文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェックプログラムであって、
前記演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる場合に、前記特定の文字列の情報を取得するステップと、
前記文書中に含まれる品詞を特定するステップとを前記コンピュータに実行させ、
前記品詞を特定するステップは、
前記演算装置が、前記文書中において、前記取得された情報に基づいて、前記特定の文字列を認識して特定するステップと、
前記演算装置が、前記文書に対して形態素解析を行い、前記文書中の品詞を特定するステップとを含み、
前記文書チェックプログラムは、
前記演算装置が、前記形態素解析の結果に基づき、前記文書中において、連続する名詞を連結することで、前記用語の候補である用語候補を特定するステップと、
前記演算装置が、特定された前記用語候補間で、前記特定の文字列の使用の整合性をチェックするステップと、
前記演算装置が、前記整合性のチェック結果を表示装置に表示させるステップとをさらに前記コンピュータに実行させ、
前記チェック結果を前記表示装置に表示させるステップは、前記演算装置が、前記特定の文字列の使用の整合性がない場合には、前記用語候補に対して不要な前記特定の文字列が付されているために整合性がないものと、前記用語候補に対して必要な前記特定の文字列が付されていないために整合性がないものとを前記表示装置に区別可能な表示態様で表示させるステップを含む、文書チェックプログラム。
前記解析対象となる文書は、予め定められたワードプロセッサソフトウェアで作成されたファイルであり、
前記文書を表す文書データは、前記ファイルからテキストデータを抽出することにより生成されたデータである、請求項１０に記載の文書チェックプログラム。
前記情報を取得するステップは、前記用語の語尾に共通に用いられる複数の用語接尾語の情報を取得するステップを含み、
前記用語候補を特定するステップは、前記形態素解析の結果に基づき、前記文書中において、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結することで、前記用語の候補である前記用語候補を特定するステップを含む、請求項１０または１１に記載の文書チェックプログラム。
前記取得するステップは、さらに、前記文書中で、前記用語候補を特定するステップでの前記用語候補を特定する処理の時点で、特定されなかった前記用語候補を、ユーザの選択により前記用語候補として登録したユーザ辞書の情報を取得するステップを含み、
前記用語候補を特定するステップは、さらに、前記ユーザ辞書も参照して、前記用語候補を特定するステップを含む、請求項１２に記載の文書チェックプログラム。
前記記憶装置は、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とを記憶し、
前記取得するステップは、前記記憶装置から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを読み出すステップを含む、請求項１３に記載の文書チェックプログラム。
前記文書は、内容分野ごとの複数のグループに分類されており、
前記ユーザ辞書は、前記グループごとの部分辞書に分割され、前記ユーザは、前記文書の前記内容分野に対応する前記部分辞書に、特定されなかった前記用語候補を登録する、請求項１３または１４に記載の文書チェックプログラム。
前記記憶装置は、さらに、前記用語に前置される特定の接頭語を予め記憶しており、
前記用語候補を特定するステップは、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結した後、前記特定の接頭語が当該連結後の用語の前に連続する場合は、前記特定の接頭語をさらに連結することで、前記用語候補を特定するステップを含む、請求項１４または１５に記載の文書チェックプログラム。
前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とは、前記文書チェックプログラムが実行されるコンピュータの外部の外部記憶装置に記憶され、
前記取得するステップは、前記外部記憶装置から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを通信により取得するステップを含む、請求項１３に記載の文書チェックプログラム。
前記文書データは、
前記特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる第１の文書を表現する第１の部分文書データと、
前記第１の部分文書データで定義される内容を説明するための文書であって、前記用語に相当する説明用語が符号を付されて使用される第２の文書を表現する第２の部分文書データとを含み、
前記品詞を特定するステップは、前記第１および第２の部分文書データに共通に、前記形態素解析を行うステップを含み、
前記文書チェック処理は、
前記第２の部分文書データについて、前記説明用語と前記符号との整合性をチェックするステップをさらに備える、請求項１０から１２のいずれか１項に記載の文書チェックプログラム。
解析対象となる文書中の記載の整合性のチェックを、演算装置と前記文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェック方法であって、
前記演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる場合に、前記特定の文字列の情報を取得するステップと、
前記文書中に含まれる品詞を特定するステップとを備え、
前記品詞を特定するステップは、
前記演算装置が、前記文書中において、前記取得された情報に基づいて、前記特定の文字列を認識して特定するステップと、
前記演算装置が、前記文書に対して形態素解析を行い、前記文書中の品詞を特定するステップとを含み、
前記文書チェック方法は、
前記演算装置が、前記形態素解析の結果に基づき、前記文書中において、連続する名詞を連結することで、前記用語の候補である用語候補を特定するステップと、
前記演算装置が、特定された前記用語候補間で、前記特定の文字列の使用の整合性をチ
ェックするステップと、
前記演算装置が、前記整合性のチェック結果を表示装置に表示させるステップとをさらに備え、
前記チェック結果を前記表示装置に表示させるステップは、前記演算装置が、前記特定の文字列の使用の整合性がない場合には、前記用語候補に対して不要な前記特定の文字列が付されているために整合性がないものと、前記用語候補に対して必要な前記特定の文字列が付されていないために整合性がないものとを前記表示装置に区別可能な表示態様で表示させるステップを含む、文書チェック方法。
前記解析対象となる文書は、予め定められたワードプロセッサソフトウェアで作成されたファイルであり、
前記文書を表す文書データは、前記ファイルからテキストデータを抽出することにより生成されたデータである、請求項１９に記載の文書チェック方法。
前記情報を取得するステップは、前記用語の語尾に共通に用いられる複数の用語接尾語の情報を取得するステップを含み、
前記用語候補を特定するステップは、前記形態素解析の結果に基づき、前記文書中において、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結することで、前記用語の候補である前記用語候補を特定するステップを含む、請求項１９または２０に記載の文書チェック方法。
前記取得するステップは、さらに、前記文書中で、前記用語候補を特定するステップでの前記用語候補を特定する処理の時点で、特定されなかった前記用語候補を、ユーザの選択により前記用語候補として登録したユーザ辞書の情報を取得するステップを含み、
前記用語候補を特定するステップは、さらに、前記ユーザ辞書も参照して、前記用語候補を特定するステップを含む、請求項１９から２１のいずれか１項に記載の文書チェック方法。
前記文書データは、
前記特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる第１の文書を表現する第１の部分文書データと、
前記第１の部分文書データで定義される内容を説明するための文書であって、前記用語に相当する説明用語が符号を付されて使用される第２の文書を表現する第２の部分文書データとを含み、
前記品詞を特定するステップは、前記第１および第２の部分文書データに共通に、前記形態素解析を行うステップを含み、
前記第２の部分文書データについて、前記説明用語と前記符号との整合性をチェックするステップをさらに備える、請求項１９から２１のいずれか１項に記載の文書チェック方法。