JP5621145B2 - 文書チェック装置、文書チェックプログラムおよび文書チェック方法 - Google Patents

文書チェック装置、文書チェックプログラムおよび文書チェック方法 Download PDF

Info

Publication number
JP5621145B2
JP5621145B2 JP2010096224A JP2010096224A JP5621145B2 JP 5621145 B2 JP5621145 B2 JP 5621145B2 JP 2010096224 A JP2010096224 A JP 2010096224A JP 2010096224 A JP2010096224 A JP 2010096224A JP 5621145 B2 JP5621145 B2 JP 5621145B2
Authority
JP
Japan
Prior art keywords
document
term
character string
information
specific character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010096224A
Other languages
English (en)
Other versions
JP2011118861A (ja
Inventor
小川 秀明
秀明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HYPERTECH CO Ltd
Original Assignee
HYPERTECH CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HYPERTECH CO Ltd filed Critical HYPERTECH CO Ltd
Priority to JP2010096224A priority Critical patent/JP5621145B2/ja
Publication of JP2011118861A publication Critical patent/JP2011118861A/ja
Application granted granted Critical
Publication of JP5621145B2 publication Critical patent/JP5621145B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/21

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

この発明は、文書中の記載の整合性をチェックするための文書チェック装置、文書チェックプログラムおよび文書チェック方法に関する。
文書には、その記載中の整合性が、とりわけ厳しく要求されるものがある。たとえば、公文書、特許文書、特に、その特許請求の範囲の記載や、英文契約書の日本語訳文などである。
このような文書では、特に、その記載内容の正確性、記載フォーマットの正しさ、記載の整合性等が、重要であるために、たとえば、特許明細書などでは、その記載の正確性をチェックするソフトウェアについての技術などが提案されている(たとえば、特許文献1を参照)。
ただし、この特許文献1では、記載フォーマットの正しさのチェックや、文の構文解析によるチェック、使用される符号の整合性のチェックなどが行なわれているに過ぎない。
また、特許出願明細書のような文書の中から、コンピュータを用いて、指定された全ての符号を探索して、各符号ごとに、その位置を表すデータと、その符号に隣接する一定の長さの文字列を自動的に抽出し、抽出結果を符号順にソートして表示する、との技術も公開されている(たとえば、特許文献2を参照)。
特許文献2に開示された発明では、抽出した文字列には符号を付した単語が含まれ、これが並べて表示されるから、符号付けミスや単語の表現の違いを容易に検査できることになる。
あるいは、要素名とこれに後続する符号とを、不一致のないように、効率的に入力するための技術が、特許文献3に開示されている。特許文献3に開示の技術では、以下の処理が行われる。ワープロ等の文書編集中に適宜の操作が行われた場合に、(1)文書の編集位置に入力されている文字列から要素名(たとえば、「車輪」)を抽出する。(2)抽出された要素名を、文書から検索する。(3)検索された位置を含む文字列を文書から取り出して解析し、前記(1)で抽出された要素名に対応する符号(たとえば、「6」,「7」)を取得する。(4)符号が複数得られた場合は、その符号を、並べて選択可能に画面に表示する。(5)ユーザに選択された符号を、文書の編集位置に自動入力する。
しかし、これらの技術も、単に特許出願明細書の符号とこれに対応する文字列との不一致を検出する技術、あるいは、一致するように入力する作業を支援する技術に過ぎない。
特開2002−183278号公報 特開平09−259148号公報 特開2005−25265号公報
しかしながら、上述したような種類の文書では、通常の文章での記載に比べて、その厳密性を担保するために、独特の用語が使用される場合がある。たとえば、文書の記載中に現れる用語が、すでに当該文書中に記載されている用語と同一のものを指す場合には、文書中でその用語が2回目以降に現れる場合に、「前記」等の言葉を前置することで、当該用語が既出のものであることを明示する習慣がある。
たとえば、特許請求の範囲の記載では、上述した「前記」の使用には、特に、厳格性が要求される。なお、特許請求の範囲の記載では、「前記」と同様の機能を果たすものとして、「当該」などが使用される場合もある。この場合、一般には、「当該」は、単に既出であることを示すばかりではなく、直前に出てきた用語を指すことを意図して用いられる場合が多い。
この「前記」(英語では、”said”)の記載が用語の前にあるかないかは、単なる形式的な問題ではなく、権利範囲の解釈に直接影響を与えうるものである。たとえば、米国のBell Communications Research Inc. v. Vitalink Communications Corp. 事件判決(55 F.3d 615, 34 US.S.P.Q.2d (BNA) 1816(Fed. Cir.1995))では、クレーム本体部分中に記載された「前記パケット」との記載により、クレームの前提部分(プリアンブル部分)に記載された「パケット」についての記載が、このクレーム本体部分中の「パケット」の技術内容を限定するものとして、権利範囲の解釈が行なわれた例がある。
また、非常に似かよった名称を、同一の対象構成要素を呼ぶ際に、誤って使用してしまい、両者が、特許請求の範囲に混在してしまう記載となっている場合もある。たとえば、「○△□☆○□手段」との記載が既出である場合に、その後に「前記○△□□○□手段」との記載が存在する、というようなことが起こりうる。この場合、特許請求の範囲の起草者にとっては、「○△□□○□手段」がすでに既出であるとの認識の下に、このような記載となっていることになる。しかしながら、正確には、「○△□□○□手段」は既出でないために、審査においては、請求項の記載が不明確(特許法36条6項2号違反)であるとして拒絶されたり、特許の成立後では、権利範囲の解釈に影響を与えてしまう可能性がある、というような問題があった。
この発明は、上記のような問題点を解決するためになされたものであって、その目的は、文書中において、特定の文字列が、その文字列に後続する用語が、その文書中で既出であることを示すために用いられる場合に、このような特定の文字列の使用の整合性をチェックすることが可能な文書チェック装置、文書チェックプログラムおよび文書チェック方法を提供することである。
この発明の一つの局面に従うと、解析対象となる文書中の記載の整合性をチェックするための文書チェック装置が提供される。文書チェック装置は、文書を表す文書データを記憶する記憶手段と、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、特定の文字列の情報を取得する情報取得手段と、文書中に含まれる品詞を特定するための品詞特定手段とを備える。品詞特定手段は、文書中において、情報取得手段により取得された情報に基づいて、特定の文字列を認識して特定するための特定手段と、文書に対して形態素解析を行い、文書中の品詞を特定するための形態素解析手段とを含む。文書チェック装置は、形態素解析の結果に基づき、文書中において、連続する名詞を連結することで、用語の候補である用語候補を特定する用語候補認識手段と、特定された用語候補間で、特定の文字列の使用の整合性をチェックする整合性チェック手段と、整合性のチェック結果を表示装置に表示させるための表示制御手段とをさらに備える。
好ましくは、情報取得手段は、さらに、用語の語尾に共通に用いられる複数の用語接尾語の情報を取得する。用語候補認識手段は、形態素解析の結果に基づき、文書中において、用語接尾語の前に連続する名詞を用語接尾語に連結することで、用語の候補である用語候補を特定する。
好ましくは、情報取得手段は、さらに、文書中で、用語候補認識手段での用語候補を特定する処理の時点で、特定されなかった用語候補を、ユーザの選択により用語候補として登録したユーザ辞書の情報を取得する。用語候補認識手段は、さらに、ユーザ辞書も参照して、用語候補を特定する。
好ましくは、記憶手段は、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とを記憶する。情報取得手段は、記憶手段から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを読み出す。
好ましくは、文書は、内容分野ごとの複数のグループに分類されている。ユーザ辞書は、グループごとの部分辞書に分割され、ユーザは、文書の内容分野に対応する部分辞書に、特定されなかった用語候補を登録する。
好ましくは、記憶手段は、さらに、用語に前置される特定の接頭語を予め記憶している。用語候補認識手段は、用語接尾語の前に連続する名詞を用語接尾語に連結した後、特定の接頭語が当該連結後の用語の前に連続する場合は、特定の接頭語をさらに連結することで、用語候補を特定する。
好ましくは、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とは、文書チェック装置の外部の外部記憶装置に記憶される。情報取得手段は、外部記憶装置から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを通信により取得する。
好ましくは、文書データは、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる第1の文書を表現する第1の部分文書データと、第1の部分文書データで定義される内容を説明するための文書であって、用語に相当する説明用語が符号を付されて使用される第2の文書を表現する第2の部分文書データとを含む。形態素解析手段は、第1および第2の部分文書データに共通に、形態素解析を行う。文書チェック装置は、第2の部分文書データについて、説明用語と符号との整合性をチェックするための符号チェック手段をさらに備える。
この発明の別の局面に従うと、解析対象となる文書中の記載の整合性のチェックを、演算装置と文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェックプログラムが提供される。文書チェックプログラムは、演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、特定の文字列の情報を取得するステップと、文書中に含まれる品詞を特定するステップとを備える。品詞を特定するステップは、演算装置が、文書中において、取得された情報に基づいて、特定の文字列を認識して特定するステップと、演算装置が、文書に対して形態素解析を行い、文書中の品詞を特定するステップとを含む。文書チェックプログラムは、演算装置が、形態素解析の結果に基づき、文書中において、連続する名詞を連結することで、用語の候補である用語候補を特定するステップと、演算装置が、特定された用語候補間で、特定の文字列の使用の整合性をチェックするステップと、演算装置が、整合性のチェック結果を表示装置に表示させるステップとをさらに備える。
好ましくは、情報を取得するステップは、用語の語尾に共通に用いられる複数の用語接尾語の情報を取得するステップを含む。用語候補を特定するステップは、形態素解析の結果に基づき、文書中において、用語接尾語の前に連続する名詞を用語接尾語に連結することで、用語の候補である用語候補を特定するステップを含む。
好ましくは、取得するステップは、さらに、文書中で、用語候補を特定するステップでの用語候補を特定する処理の時点で、特定されなかった用語候補を、ユーザの選択により用語候補として登録したユーザ辞書の情報を取得するステップを含む。用語候補を特定するステップは、さらに、ユーザ辞書も参照して、用語候補を特定するステップを含む。
好ましくは、記憶装置は、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とを記憶する。取得するステップは、記憶装置から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを読み出すステップを含む。
好ましくは、文書は、内容分野ごとの複数のグループに分類されている。ユーザ辞書は、グループごとの部分辞書に分割され、ユーザは、文書の内容分野に対応する部分辞書に、特定されなかった用語候補を登録する。
好ましくは、記憶装置は、さらに、用語に前置される特定の接頭語を予め記憶している。用語候補を特定するステップは、用語接尾語の前に連続する名詞を用語接尾語に連結した後、特定の接頭語が当該連結後の用語の前に連続する場合は、特定の接頭語をさらに連結することで、用語候補を特定するステップを含む。
好ましくは、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書とは、文書チェックプログラムが実行されるコンピュータの外部の外部記憶装置に記憶される。取得するステップは、外部記憶装置から、特定の文字列の情報と、複数の用語接尾語の情報と、ユーザ辞書の情報とを通信により取得するステップを含む。
好ましくは、文書データは、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる第1の文書を表現する第1の部分文書データと、第1の部分文書データで定義される内容を説明するための文書であって、用語に相当する説明用語が符号を付されて使用される第2の文書を表現する第2の部分文書データとを含む。品詞を特定するステップは、第1および第2の部分文書データに共通に、形態素解析を行うステップを含む。文書チェック処理は、第2の部分文書データについて、説明用語と符号との整合性をチェックするステップをさらに備える。
この発明の別の局面に従うと、解析対象となる文書中の記載の整合性のチェックを、演算装置と文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェック方法が提供される。文書チェック方法は、演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、特定の文字列の情報を取得するステップと、文書中に含まれる品詞を特定するステップとを備える。品詞を特定するステップは、演算装置が、文書中において、取得された情報に基づいて、特定の文字列を認識して特定するステップと、演算装置が、文書に対して形態素解析を行い、文書中の品詞を特定するステップとを含む。文書チェック方法は、演算装置が、形態素解析の結果に基づき、文書中において、連続する名詞を連結することで、用語の候補である用語候補を特定するステップと、演算装置が、特定された用語候補間で、特定の文字列の使用の整合性をチェックするステップと、演算装置が、整合性のチェック結果を表示装置に表示させるステップとをさらに備える。
好ましくは、情報を取得するステップは、用語の語尾に共通に用いられる複数の用語接尾語の情報を取得するステップを含む。用語候補を特定するステップは、形態素解析の結果に基づき、文書中において、用語接尾語の前に連続する名詞を用語接尾語に連結することで、用語の候補である用語候補を特定するステップを含む。
好ましくは、取得するステップは、さらに、文書中で、用語候補を特定するステップでの用語候補を特定する処理の時点で、特定されなかった用語候補を、ユーザの選択により用語候補として登録したユーザ辞書の情報を取得するステップを含む。用語候補を特定するステップは、さらに、ユーザ辞書も参照して、用語候補を特定するステップを含む。
好ましくは、文書データは、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる第1の文書を表現する第1の部分文書データと、第1の部分文書データで定義される内容を説明するための文書であって、用語に相当する説明用語が符号を付されて使用される第2の文書を表現する第2の部分文書データとを含む。品詞を特定するステップは、第1および第2の部分文書データに共通に、形態素解析を行うステップを含む。文書チェック方法は、第2の部分文書データについて、説明用語と符号との整合性をチェックするステップをさらに備える。
解析対象となる文書中で、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる使用の態様が、適正であるかを容易にチェックすることが可能となる。
また、ユーザ辞書に逐一、用語を登録していなくても、用語の語尾に共通に用いられる複数の用語接尾語の情報を用いて用語の特定が行なわれるので、ユーザが用語を特定する処理を大幅に削減して、文書のチェックを行うことが可能となる。
また、「特定用語」、特定用語が既出であることを示す「特定の文字列」と、「説明用語」、説明用語に付される「符号」とが使用されるような文書において、それぞれの使用の整合性をチェックすることが可能となる。
あるいは、特定用語の候補を抽出する際に、「用語接尾語」を手がかりとすることは、ユーザの設定により選択することができる。
実施の形態1に係る文書チェック装置100の構成をブロック図形式で表す図である。 実施の形態1に係る文書チェック装置100の機能的構成をブロック図形式で示す図である。 実施の形態1に係る文書チェック装置100の動作を説明するためのフローチャートである。 図3のステップS106とステップS108の処理を、より詳しく説明するためのフローチャートである。 特別な品詞の一覧を示す図である。 構成要素認識処理で割り付けられる記号を示す図である。 図4の各処理ステップでの処理を説明するための第1の図である。 図4の各処理ステップでの処理を説明するための第2の図である。 ユーザ辞書である構成要素接尾語のうち、品詞P0に相当する用語を登録した辞書の例を示す図である。 共通辞書である構成要素接尾語のうち、品詞P1に相当する用語を登録した辞書の例を示す図である。 共通辞書のうち、構成要素接尾語の品詞P2および品詞P3に相当する用語を登録した辞書、構成要素接頭語の品詞H1,H2,H3に相当する用語を登録した辞書、接尾語TTに相当する用語を登録した辞書の例を示す図である。 共通辞書のうち、接尾語FT、強制名詞FN、チェック文字列ZZ、非名詞XN、非接頭詞XSに、それぞれ相当する用語を登録した辞書の例を示す図である。 文書データ解析部120.2が行う補正処理および構成要素認識処理を概念的に説明する図である。 図3のステップS110で表示される請求項の記載の例を示す図である。 図3のステップS110で表示される画面全体の例を示す図である。 実施の形態2の文書チェック装置の動作を説明するためのフローチャートであり、実施の形態1の図3と対比される図である。 図16のステップ206の処理を説明するためのフローチャートである。 図16のステップS208とS210との流れを詳しく説明するためのフローチャートである。 実施の形態1と実施の形態2の辞書の構成を対比して示す図である。 チェック対象の文書中の文字列に割り付けられる「割付記号」を説明する図である。 フロントエンド処理で割り付けられる割付記号を説明する図である。 形態素解析における割付記号を説明する図である。 バックエンド処理1を説明するためのテーブルである。 補正処理1を説明するためのテーブルである。 補正処理2を説明するテーブルである。 「構成要素の認識処理」を説明するためのテーブルである。 バックエンド処理2を説明するテーブルである。 バックエンド処理3を説明するテーブルである。 ステップ212において、データ表示解析部120.3が行う表示例を示す図である。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部分には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明は繰り返さない。
(概要)
実施の形態に係る文書チェック装置100は、外部から与えられた文書データ中において、特定の文字列が、その文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、文書中から用語の候補となる語句を抽出し、抽出された候補間において、このような特定の文字列の使用が整合しているか否かをチェックする。
ここで、以下のような点に留意する必要がある。
1)文書中で、上記のような特定の文字列が前置される用語は、一般には、名詞、名詞句である。ただし、文書中で使用される全ての名詞、名詞句について、当該文書中に2回目以降に使用される場合に、必ず、特定の文字列が前置されるわけではない。たとえば、一般概念を表すために使用されている名詞、名詞句については、2回目以降であっても、特定の文字列が前置されない。言い換えれば、特定の文字列は、後続する用語が、特定の事物を指していることを前提として使用される。
2)一方で、特定の分野(以下、「文書分野」)の文書では、上述したような特定の文字列が前置される用語(以下、「特定用語」と呼ぶ)については、その語尾が一定の文字列(以後、「用語接尾語」と呼ぶ)の名詞となる確率が高い。たとえば、「期間」「文書」等である。
さらに、同じ文書分野でも、当該文書に記載される対象となる内容の分野(以下、「内容分野」)によって、構成要素を表す名詞、名詞句の使用される頻度にも相違がある。
たとえば、文書分野として、特許請求の範囲を例にとると、その記載では、上記した特定の文字列としては、「前記」「当該」等が使用される。そして、特許請求の範囲の記載中において、上記のような特定用語は、特定の事物そのものか、あるいは、特定の事物を構成する要素を表していると考えられることから、これを特定用語のうちの特定の種類を表すものとして「構成要素」と呼ぶことにする。このとき、「前記」等が付される構成要素の語尾(以下、用語接尾語のうちの特定の種類を表すものとして「構成要素接尾語」と呼ぶ)としては、「手段」「装置」「素子」「信号」等々の特定の文字列となっている場合が、経験上は多い。このような用語接尾語(あるいは、構成要素接尾語)を専用辞書として事前に登録しておけば、文書中から、特定用語(あるいは、構成要素)の候補を抽出する際の手がかりとなる。内容分野に関わらず、使用される頻度が一定以上である用語接尾語についての専用辞書を「共通辞書」と呼ぶことにする。
特許請求の範囲の記載では、構成要素として使用される名詞、名詞句は、特許請求の範囲の対象とする技術分野、あるいは、その特許出願を行なう出願人の業務範囲で相違する傾向がある。
3)上述のように、用語接尾語(より特定的には、構成要素接尾語)が、用語間で共通する場合は多いものの、必ずしも、全ての「特定の文字列が前置されるべき用語」について、このような共通な語尾が存在するとは限らない。さらには、特に、特許請求の範囲の記載などでは、技術の進歩に伴い、新しい用語が、随時、使用されるようになる傾向にあるため、事前に「構成要素接尾語」として登録しておける範囲内で、用語が使用されるとも限らない。そこで、共通辞書を用いて、特定用語(あるいは、構成要素)の候補を抽出した際に、抽出からもれた特定用語(あるいは、構成要素)の候補を、ユーザが、随時、登録できる辞書が存在することが望ましい。このような辞書を、「ユーザ辞書」と呼ぶ。
なお、内容分野ごとに使用される用語の頻度が異なるので、文書チェック装置100は、ユーザ辞書として、このような内容分野による文書のグループごとに対応した、複数の辞書を備えることも可能である。特に、特許請求の範囲の記載では、上述のように、構成要素として使用される名詞、名詞句は、出願人の業務範囲で相違する傾向があるので、文書チェック装置100は、「ユーザ辞書」として、出願人ごとに異なる「顧客辞書」を備えることとしてもよい。もちろん、文書チェック装置100は、出願人ごとではなく、技術分野ごとに「技術分野辞書」を備える構成とすることも可能である。
4)以上のようにして、用語の候補(あるいは、構成要素の候補)を抽出すると、各用語の候補について、i)特定の文字列が前置されているものについては、同じ用語の候補が文書中に既出であるか、ii)特定の文字列が前置されていないものについては、その用語の候補が文書中に初出であるか、をそれぞれチェックすれば、特定の文字列の使用が整合しているかどうかを確認できることになる。
ここで、特に、特許請求の範囲の記載では、既出あるいは初出であるか否かは、独立請求項であれば、その請求項の記載の範囲内だけで判断すればよい。ただし、従属請求項では、各請求項の中での記載にとどまらず、その請求項が従属する先の請求項の記載を順にたどって、最終的に従属の基礎となる独立請求項の記載までの範囲内で、既出あるいは初出であるかを判断する必要がある。
以上説明したような事情があるために、特許請求の範囲の文中から構成要素を認識するためには、文中の文字列の「単語範囲およびその品詞」に関する情報が必要である。そのためには、「形態素解析(Morphological Analysis)エンジン」のソフトウェアを用いることができる。
ここで、「形態素解析」とは、コンピュータ等の計算機を用いた自然言語処理であって、対象言語の文法の情報(文法のルールの集まり)やコーパス辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme,言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する処理のことをいう。
しかし、特許請求の範囲の文章において、形態素解析エンジンは、一般に、文章を形態素に分割し、各形態素の品詞を特定する処理を行うだけであるので、構成要素の特定のためには十分でない。そこで、構成要素の部分的な単語などを格納した上述のような専用辞書を用いる構成とすることが必要になる。
日本語の「形態素解析エンジン(MAE:Morphological Analysis Engine)」としては、すでに、フリーソフトウェアとして入手可能なものも存在し、たとえば、以下のようなものがある。
i)KAKASI(かかし)"kanji kana simple inverter",http://kakasi.namazu.org/
ii)MeCab(和布蕪(めかぶ)),http://mecab.sourceforge.net/
iii)ChaSen(茶筌),http://chasen-legacy.sourceforge.jp/
[実施の形態1]
(ハードウェア構成)
実施の形態1に係る文書チェック装置100のハードウェア構成について、図1を参照して説明する。図1は、実施の形態1に係る文書チェック装置100の構成をブロック図形式で表す図である。
以下では、文書チェックの一例として、文書チェック装置100は、特許請求の範囲をチェック対象とするものとして、説明を行う。
文書チェック装置100は、コンピュータ本体102と、出力装置または表示装置としてのモニタ104と、入力装置としてのキーボード110および入力補助装置としてのマウス112とを備える。モニタ104、キーボード110、およびマウス112は、コンピュータ本体102とバス105を介して接続される。
コンピュータ本体102は、外部記録媒体の読出装置であるフレキシブルディスク(Flexible Disc、以下「FD」と呼ぶ)ドライブ106と、他の外部記録媒体の読出装置である光ディスクドライブ108と、演算処理装置であるCPU(Central Processing Unit)120と、記憶装置であるメモリ122と、大容量記憶装置である直接アクセスメモリ装置、たとえば、ハードディスク124と、通信装置としての通信インターフェイス128とを含む。これらの部品は、互いにバス105で接続されている。
FDドライブ106は、FD116に情報を読み書きする。光ディスクドライブ108は、CD−ROM(Compact Disc Read−Only Memory)118等の光ディスク上の情報を読み込む。通信インターフェイス128は、外部とデータの授受を行なう。
なお、CD−ROM118は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、DVD−ROM(Digital Versatile Disc)やメモリーカードなどでもよく、その場合は、コンピュータ本体102には、これらの媒体を読み取ることが可能なドライブ装置が設けられる。
メモリ122は、ROM(Read Only Memory)およびRAM(Random Access Memory)を含む。
ハードディスク124は、表示制御プログラム131と、文書データ解析プログラム132と、解析対象の文書の内容分野のグループを表すグループ情報133と、共通辞書データ134と、顧客辞書データ135と、チェック対象となる文書データ136とを格納する。
なお、グループ情報133は、特に限定されないが、例えば、ソフトウェアの起動時に、ユーザが入力する構成とすることができる。
また、共通辞書データ134と顧客辞書データ135とは、ネットワークで接続された他のコンピュータの記憶装置内に記憶されており、文書チェック装置100は、通信インターフェイス128を介して、これらのデータにアクセスして読み出したり、あるいは、書込みを行なったりする構成とすることも可能である。
表示制御プログラム131は、文書チェック装置100とユーザとの間のインターフェイスとなる画面の表示を制御する。したがって、ユーザからの入力を促す画面の表示をしたり、あるいは、チェック結果の表示を行う処理を制御する処理のためのものである。
文書データ解析プログラム132は、後に説明するように、チェック対象となる文書データ136について、構成要素の候補となる名詞、名詞句を、共通辞書データ134および顧客辞書データ135に基づいて、抽出する。さらに、文書データ解析プログラム132は、このようにして抽出された構成要素の候補について、特定の文字列である「前記」「当該」などの使用の整合性をチェックする処理のためのものである。
ここで、文書データ解析プログラム132が、構成要素の候補を抽出する処理においては、上述した形態素解析エンジンを使用する。したがって、ハードディスク124には、図示しないものの、形態素解析エンジンが形態素解析処理を行う際に必要となる「対象言語の文法の情報」や「コーパス辞書」も、格納されている。
なお、表示制御プログラム131と文書データ解析プログラム132とは、FD116またはCD−ROM118等の記憶媒体に記録されることによって供給されてもよいし、他のコンピュータにより通信インターフェイス128を経由して供給されてもよい。
共通辞書データ134は、上述したように、内容分野に関わらず、使用される頻度が一定以上である構成要素接尾語についての専用辞書である。図1に示した例では、内容分野は、出願人(顧客)の業務範囲により異なる場合を例示しているので、この場合は、顧客に関わらず、使用される頻度が一定以上である構成要素接尾語についての専用辞書である。
一方、顧客辞書データ135は、共通辞書を用いて、構成要素の候補となる名詞、名詞句を抽出した際に、抽出からもれた構成要素の候補を、ユーザが、随時、登録できるユーザ辞書である。
文書データ136は、チェック対象となる文書のデータである。特に限定されないが、たとえば、文書データ136は、チェック対象となる文書が、特定のワードプロセッサソフトウェアで作成されたファイルである場合、このファイルからテキストデータを抽出したデータとすることができる。表示制御プログラム131は、文書チェック装置100での文書データの表示あたっては、当該テキストデータ中に含まれる情報から、所定のレイアウトで表示が行なわれるように制御する。このような構成とすれば、文書チェック装置100は、ワードプロセッサソフトウェアで作成されたファイルを直接操作して、データの書込み等を行なわないことになるので、当該ファイルデータ中に、予期しない変更等が加えられ、いわゆる「文字化け」や「レイアウト情報の予期しない変更」等が生じるのを防止することができる。
演算処理装置として機能するCPU120は、メモリ122をワーキングメモリとして、上述した各プログラムに対応した処理を実行する。
表示制御プログラム131と文書データ解析プログラム132とは、上述の通り、CPU120により実行されるソフトウェアである。一般的に、こうしたソフトウェアは、CD−ROM118、FD116等の記憶媒体に格納されて流通し、光ディスクドライブ108またはFDドライブ106等により記憶媒体から読み取られてハードディスク124に一旦格納される。または、文書チェック装置100がネットワークに接続されている場合には、ネットワーク上のサーバから一旦ハードディスク124にコピーされる。そうしてさらにハードディスク124からメモリ122中のRAMに読み出されてCPU120により実行される。なお、ネットワーク接続されている場合には、ハードディスク124に格納することなくRAMに直接ロードして実行するようにしてもよい。
図1に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の機能を実現するに当り本質的な部分は、FD116、CD−ROM118、ハードディスク124等の記憶媒体に記憶されたソフトウェアである。
(機能的構成)
図2は、本実施の形態1に係る文書チェック装置100の機能的構成をブロック図形式で示す図である。
図3は、本実施の形態1に係る文書チェック装置100の動作を説明するためのフローチャートである。
図2および図3を参照して、本実施の形態1に係る文書チェック装置100の機能的構成および動作について説明する。
文書チェック装置100は、記憶装置であるハードディスク124と、表示装置であるモニタ104と、入力装置であるキーボード110と、CPU120により実行される処理の機能ブロックとして、i)文書データ解析プログラム132により実行される、i−1)ハードディスク124などの記憶装置から文書データを取得する文書取込部120.1およびi−2)文書データの解析・チェックを行う文書データ解析部120.2と、ii)表示制御プログラム131により実行される、文書データ解析部120.2のチェック結果や文書データ解析部120.2とユーザとのインターフェイス画面をモニタ104に表示させるデータ表示出力制御部120.3と、を備える。
図2では、ユーザ辞書である顧客辞書データ135が、文書データの内容分野に相当する顧客ごと(顧客の業務範囲ごと)の部分辞書135.1〜135.nに分割されていることを明示的に示している。
すなわち、専用辞書を2種類の辞書(顧客辞書、共通辞書)に分類する。たとえば、後に説明するP0辞書を顧客辞書に、P0以外の辞書を共通辞書に割り当てる。たとえば、複数人からなるユーザが、複数の小規模グループから成る1つの大規模グループに分割されており、小規模グループごとに顧客辞書を、大規模グループに共通辞書を配置する。
このような構成とすれば、小規模グループごとに必要な登録単語が異なる場合、辞書の単語登録数を最小限にすることができるため、単語検索も高速になる。さらに、小規模グループで誤った単語を登録してしまった場合でも、大規模グループ全体への影響は出ない、という効果もある。
図3を参照して、文書チェック装置100の動作が開始されると、まず、ユーザにより、チェック対象となる文書データの内容分野(顧客)を特定するためのグループ情報がキーボード110、マウス112などを使用して入力される(S100)。これに応じて、文書データ解析部120.2は、使用する部分辞書135.i(1≦i≦n)を選択する。
続いて、文書取込部120.1は、文書データ136を取り込み、ワーキングメモリであるRAM上に展開する(S102)。
文書データ解析部120.2は、文書データ136の中から、チェック対象となる「特許請求の範囲」の記載を選択・特定し(S102)、続いて、構成要素の候補となる名詞、名詞句を抽出するために、共通辞書データ134および選択された部分辞書135.iと形態素解析エンジンとを用いて文書データの解析を行う(S106)。続いて、文書データ解析部120.2は、解析結果に基づいて、構成要素の候補を特定するとともに、構成要素の候補間において、特定の文字列である「前記」「当該」の使用が、特許請求の記載の中で、整合しているかをチェックする(S108)。
データ表示出力制御部120.3は、チェック結果に応じて、そのチェック結果を文書データの表示上で、たとえば、構成要素の候補について、異なった色のハイライト表示をするなどして、i)「前記」「当該」が付されており、かつ、その使用が適正なもの(同じ「構成要素の候補」が特許請求の範囲の記載中に既出)、ii)「前記」「当該」が付されておらず、かつ、その使用が適正なもの(その「構成要素の候補」が特許請求の範囲の記載中で初出)、iii)「前記」「当該」が付されているが、その使用が不適切なもの、iv)「前記」「当該」が付されていないが、その使用が不適切なもの、を区別可能な表示態様で表示する。なお、i)とii)については、ともに適正なものを表示するのであるから、共通の表示態様で表示してもよい。
次に、ユーザからの入力により、再解析を行うのであれば(S112)、処理は、ステップS102に復帰し、再解析を行わないのであれば、処理は終了する。
ここで、ユーザが再解析を指示するのは、ステップS110での表示結果に基づいて、ユーザが文書データ136を修正した場合に、再解析をすることが必要となった場合である。このとき、上述のとおり、ユーザが修正するのは、特定のワードプロセッサソフトウェアで作成されたファイルであり、チェック対象の文書データ136としては、そのファイルからテキストファイルのみを取り込む、構成とすることができる。
[文書チェック処理の詳細]
以下では、図3により説明した文書チェック処理をより詳しく説明する。
(構成要素の存在の状態)
まず、構成要素が存在する状態の条件について説明する。
構成要素は、文中に以下の状態で存在することを前提とする。
1.構成要素自身
1−1 名詞で構成する場合(例:半導体レーザ素子、制御装置、など)
1−2 修飾語+名詞で構成する場合(例:特定の半導体レーザ素子、所定の制御装置、など)
1−3 専門用語や固有名詞で構成する場合(例:Pn接合 など)
したがって、構成要素の抽出は、単に、形態素解析により、名詞を特定するだけでは不十分である。
2.構成要素の後方の文字列
2−1 構成要素+助詞(例:記憶装置に)
2−2 構成要素+助動詞(例:記憶装置であって)
2−3 構成要素+末尾語(例:記憶装置ごとに、設定温度以上に、水素電極間に、記憶装置(3)に)
2−4 構成要素+句読点(例:記憶装置、 記憶装置。)
2−5 構成要素+上記以外(例:遊技状態終了後に、)
したがって、逆に、これらの「構成要素の後方の文字列」を文書データ中でのポインタとして用いれば、構成要素の終点の候補を見つけることに利用できる。
3.構成要素の前方の文字列
3−1 名詞以外+構成要素(例:・・を有する記憶装置に・・、)
3−2 名詞 +構成要素(例:・・のうち記憶装置に・・・、)
3−3 接頭詞 +構成要素(例:・・の各記憶装置に・・・、)
3−4 前記 +構成要素(例:・・を前記記憶装置に・・、)
構成要素の始点については、単純に名詞で切れるとするわけにはいかない場合がある。
4.構成要素の部分文字列(特殊)
4−1 名詞+動詞+特定の単語 (例:選択するステップ)
4−2 名詞+動詞+助詞+特定の単語 (例:選択するためのステップ)
上記特定の単語とは、後述する専用辞書の辞書P2に登録する単語である。つまり、構成要素は、単純に、名詞の連結以外にも、動詞等と名詞との複合語となっている場合もある。
(文書チェック処理フロー)
図4は、図3のステップS106とステップS108の処理を、より詳しく説明するためのフローチャートである。
また、図7および図8は、図4の各処理ステップでの処理を説明するための図である。
まず、図4を参照して、ステップS104でデータ範囲の選択が終了すると、文書データ解析部120.2は、請求項ごとに分離して抽出し、請求項間の従属関係を抽出する(S106.1.1)。なお、このような請求項の分離は、もともとのテキストデータ中のタグを利用して行なうことができる。また、従属関係の抽出は、正規表現を用いたテンプレートとのマッチングにより、たとえば、「請求項○または△に記載の」等の表現を抽出することで、特定することができる。
続いて、文書データ解析部120.2は、請求項が連番となっているかや、従属先の請求項と自身の発明の名称とが一致しているかをチェックする(S106.1.2)。特に限定されないが、たとえば、「発明の名称」は、i)ユーザが特定してもよいし、あるいは、ii)当該請求項中で、もっとも後方(末尾側)で、構成要素として抽出されたものを用いることができる。このii)の場合は、発明の名称の整合性のチェックは、後に説明する「前記」等の整合性チェックの際に同時に行なわれることになる。
続いて、図4および図7を参照して、文書データ解析部120.2は、形態素解析を実行する。まず、文書データ解析部120.2は、形態素解析の前処理(「フロントエンド処理」と呼ぶ)として、専用辞書に登録された特定の単語については、形態素解析の前に、特別な品詞を強制的に割当てる処理を行う(S106.2.1)。
図5は、このような特別な品詞の一覧を示す図である。
まず、「フロントエンド処理」で、品詞の割り当てが行なわれるのは、以下のとおりである。
1)部分辞書135.iにユーザ登録されているもの(品詞P0)。構成要素と見なす文字列である。ただし、名詞が前置する場合のみ、それも含めて構成要素と見なすことになるので、これは、「構成要素接尾語」に分類する。ユーザ辞書である部分辞書135.iに登録されるのは、この品詞P0のみであり、他の品詞は、共通辞書データ134に登録されている。
2)構成要素接頭語(品詞H1,H2,H3)
2−1)品詞H1:構成要素の先頭に来る単語。チェック文字列(「前記」「当該」などの特定の文字列)が後置されることはない。例えば、「特定の」などである。
2−2)品詞H2:構成要素の先頭に来る単語。チェック文字列が後置されることがある。たとえば、「複数の」、「所定の」などである。つまり、「複数の○○装置」が既出のときに、後に再び記載する際には、「前記複数の○○装置」となる場合も、「複数の前記○○装置」となる場合もある。
2−3)品詞H3:構成要素の先頭に来る単語。接続詞と組み合わせて複数存在する可能性がある。たとえば、「第」+数字、「第」+数字+「の」などである。このときは、「第1および第2の○○」というような使用のされ方をする点で、品詞H1や品詞H2と異なる。
3)接尾語(品詞TT)(これは、接尾語の辞書のうち、辞書FTに記憶される)
形態素解析での品詞の分析いかんに関わらず、請求の範囲で使用される場合は、必ず、構成要素に後置されるものである。たとえば、「(」などである。
4)強制名詞(品詞N)(これは、辞書FN中に登録されている)
形態素解析での品詞の分析いかんに関わらず、必ず、名詞Nを割当てる。これは、請求項中の記載では、構成要素中に使用される場合があるからである。たとえば、「〜」「/」などである。
5)チェック文字列(品詞ZZ)
構成要素に前置する単語であり、「特定の文字列」として、その使用の整合性がチェックされる単語である。該当単語は、「前記」、「該」、「当該」、「上記」、「各前記」、「前記各」などである。なお、「各前記」、「前記各」もチェック文字列としているのは、以下の理由による。すなわち、「各」は、形態素解析では、「接頭詞かつ名詞接続」と判断される場合がある。ところで、一般には、構成要素としての認識には、「接頭詞かつ名詞接続」の単語は、後続する名詞と一体として取り扱うのが妥当であるところ、「各」については、「各前記○○」、「前記各○○」(○○は名詞)という使用の仕方がされる場合がある。後者の場合は、この原則に従うと、「各○○」が構成要素とされてしまうため、むしろ、「各前記」、「前記各」をチェック文字列としてチェックするという例外扱いが妥当だからである。
再び、図4および図7にもどって、フロントエンド処理が終了すると、文書データ解析部120.2は、形態素解析処理を行い、フロントエンド処理で強制的に品詞を割当てた以外の単語について、名詞N,接頭詞かつ名詞接続N0、接続詞O,助詞J,句点K1,読点K2,動詞V,助動詞Gなどの品詞を割当てる。
次に、文書データ解析部120.2は、形態素解析の結果を条件として使用して、形態素解析の後処理(「バックエンド処理」と呼ぶ)として、専用辞書に登録された特定の単語については、形態素解析の後に、特別な品詞を強制的に割当てる処理を行う(S106.2.3)。
再び、図5を参照して、「バックエンド処理」で、品詞の割り当てが行なわれるのは、以下のとおりである。
1)構成要素接尾語
その単語が、形態素解析により、名詞と判断された場合であって、かつ、[助詞 or 助動詞 or 句読点 or 接尾語 or 接続詞]が後置する場合に、共通辞書データ134中に構成要素接尾語の以下の品詞として登録があれば、その単語に以下の品詞P1〜P3のいずれかを割当てる。
1−1)品詞P1:構成要素の末尾となる単語。動詞が前置されることはない。たとえば、「装置」「素子」などである。
1−2)品詞P2:構成要素の末尾となる単語。動詞の前置が許される。該当単語は、たとえば、「ステップ」、「工程」、「手段」である。
すなわち、「〜するステップ」「〜する手段」のような記載が品詞P2の単語には可能である。
1−3)品詞P3:名詞が前置する場合のみ、構成要素として見なす文字列。該当単語は、たとえば、「条件」である。これは、一般名称として使用されることが想定される名詞であって、特定の事物を指す場合は、前置する名詞とで名詞句(複合名詞)が形成されるような名詞である。
2)接尾語(品詞TT)(これは、接尾語の辞書のうち、辞書TTに記憶される)
形態素解析で名詞と判断された場合であって、構成要素に後置する単語である。たとえば、「毎」「以上」「以下」などである。
3)非名詞(品詞XN)
形態素解析で名詞と判断された場合であっても、その認識を解除して品詞XNを割当てる。たとえば、「うち」「よう」などである。これらの単語は、たとえ名詞であっても、構成要素の中に含めるのが妥当ではないからである。「複数の○○のうち特定の○○」「〜するよう処理を切り換える」というような態様で使用されている場合である。
4)非接頭詞(XS)
形態素解析で、「接頭詞かつ名詞接続」と認識された場合であっても、その認識を解除して品詞XSを割当てる。たとえば、「各」などである。これは、「複数の○○」が既出のときに、「各○○」と記載したときは、以後の記載では、本来は、「各前記○○」または「前記各○○」と記載されるのが適切である。しかし、「各」を含めて構成要素と判断してしまうと、「各○○」については、初出であるので、使用態様としては、適切と誤って判断されてしまうおそれがあるからである。
図4と図8を参照して、バックエンド処理が終了すると、続いて、文書データ解析部120.2は、データ認識処理(S108)として、補正処理を行う(S108.1)。補正処理では、文書データ解析部120.2は、割当てた品詞を表す割付記号の並び方が、その他項目の条件を満たすときに、適切な記号を再度、割り付ける。つまり、本来、1つの構成要素として認識されるべき用語が、複数の単語に分離して認識されている場合に、これらの単語を連結して、連結された単語に対して、割付記号を割当てる。
たとえば、名詞Nとされる単語が連続している場合は、これらの単語を連結して、連結された用語に、名詞Nの記号を割り付ける。また、名詞Nとされる単語の前に、接頭詞かつ名詞接続N0と認識された単語が連続している場合は、これらの単語を連結して、連結された用語に、名詞Nの記号を割り付ける。
構成要素接頭詞H1とH1とが連続している場合は、これらの単語を連結して、連結された単語に、品詞H1を割り付ける。
あるいは、構成要素接尾語P2と認識されている単語の前に、動詞Vと認識された単語が連続している場合は、これらの単語を連結して、品詞P(構成要素接尾語P0,P1,P2,P3を総称して、品詞Pと呼ぶ)を割り付ける。
また、文書データ解析部120.2は、構成要素接尾語Pの単語の前に、名詞Nと認識される単語が連続している場合には、これらの単語を結合して、結合された用語に、品詞Pを割り付ける。

このような単語の連結処理の態様を品詞の記号で表すと、以下の場合があることになる。
1) N+N →N
2) N0+N →N
3) H1+H1 →H1
4) H3+H1 →H1
5) H3+H2 →H1
6) V+V →V
7) N+V →V
8) V+P2 →P
9) V+N+J+P2 →P
10)N0+P1 →P
11)P0 →P
12)P1 →P
13)P2 →P
14)N+P3 →P
15)N+P →P
16)P+P →P
したがって、構成要素接尾語P0,P1,P2,P3の区別はなくなり、結局、1つの構成要素と認識されるべき用語については、補正処理により、単一の記号である品詞Pが割り付けられることになる。
さらに、補正処理が終了すると、続いて、文書データ解析部120.2は、データ認識処理(S108)として、構成要素認識処理を行う(S108.2)。
構成要素認識処理では、図8に示す一覧において、割付記号の並び方が、その他項目の条件を満たすときに、構成要素として認識する。一覧の中の「その他」の項目の[○+○+(…)]部分を構成要素として認識し、チェック文字列の有無を表す記号を割付ける。
ここで、図6は、このようにして構成要素認識処理で割り付けられる記号を示す図である。
記号ZCは、チェック文字列(前記、当該・・など、)が前置する構成要素を意味し、記号Cは、チェック文字列(前記、当該・・など、)が前置しない構成要素を意味する。
たとえば、チェック文字列ZZに後続して、品詞Pの用語が存在するときは、当該用語([P]の記号が割り付けられている単語または単語群)を構成要素として、記号ZCを割り付ける。一方、品詞Pの用語がチェック文字列と連続せずに存在するときは、当該用語を構成要素として、記号Cを割り付ける。
たとえば、割付記号の並びが、ZZ+[H2+H3+P]の時には、当該構成要素([H2+H3+P]の記号が割付られている単語群からなる用語)には、記号ZCを割り付ける一方、[H2+H3+P]の時には、当該構成要素([H2+H3+P]の記号が割付られている単語群からなる用語)には、記号Cを割り付ける。
このような構成要素の認識処理を場合分けして説明すると、以下のとおりである。
1)ZZ+[H3+O+H3+P] :ZC
2)ZZ+V+G+[H3+O+H3+P] :ZC
3)[H3+O3+H3+P] :C
4)ZZ+[H2+H3+P] :ZC
5)ZZ+V+G+[H2+H3+P] :ZC
6)[H2+H3+P] :C
7)ZZ+[H3+P] :ZC
8)ZZ+V+G+[H3+P] :ZC
9)[H3+P] :C
10)ZZ+[H2+P] :ZC
11)ZZ+V+G+[H2+P] :ZC
12)[H2+P] :C
13)ZZ+[H1+P] :ZC
14)ZZ+V+G+[H1+P] :ZC
15)[H1+P] :C
16)ZZ+[P] :ZC
17)ZZ+V+G+[P] :ZC
18)[P] :C
なお、ここで、文書データ解析部120.2は、ZZ+[H3+O+H3+P]、すなわち、たとえば「前記第1および第2の○○」となっている場合には、「前記第1の○○」と「前記第2の○○」とが記載されているものとみなす処理を行う。また、文書データ解析部120.2は、[H3+O+H3+P]、すなわち、たとえば「第1および第2の○○」となっている場合には、「第1の○○」と「第2の○○」とが記載されているものとみなす処理を行う。
以上の処理により、各構成要素の候補として抽出された用語について、「前記」等のチェック文字列ZZが前置されているかが判別できたことになるので、文書データ解析部120.2は、続いて、このようなチェック文字列の使用が、構成要素の請求項中への出現が、初出または既出であるかと、整合しているかをチェックする(S108.3)。
この際には、各請求項について、その請求項が独立請求項であるのか、従属請求項であるのかに応じて、初出または既出を判断する範囲を設定する。
たとえば、請求項3は、請求項2に従属し、請求項2は、請求項1に従属している場合は、請求項3に現れている構成要素については、請求項3だけでなく、請求項2および請求項1までを含めた範囲で、初出または既出を判断する。
図9は、ユーザ辞書である構成要素接尾語のうち、品詞P0に相当する用語(単語に限らない)を登録した辞書の例を示す。
共通辞書がシステム管理者により登録されるものであるのに対して、辞書P0(ユーザ辞書)には、ある顧客の業務範囲に応じて、特定の用語(単語または単語群)がユーザにより登録される。
図10は、共通辞書である構成要素接尾語のうち、品詞P1に相当する用語を登録した辞書の例を示す。
この辞書P1では、顧客(または、顧客の業務範囲、または、技術分野)によらずに、構成要素の末尾に共通して使用される単語が登録されている。
上述のとおり、共通辞書である辞書P1は、システム管理者により登録が行なわれる。 なお、辞書P1などの共通辞書とユーザ辞書とがサーバなどの外部記憶装置に置かれ、複数の端末が共通辞書とユーザ辞書とを共有して利用する場合は、サーバ側で一括してシステム管理者が共通辞書中の単語の登録を行なうことができ、顧客辞書(ユーザ辞書)についてはクライエント端末側からユーザが単語の登録を行なうことができる。
図11は、共通辞書のうち、構成要素接尾語の品詞P2および品詞P3に相当する用語を登録した辞書、構成要素接頭語の品詞H1,H2,H3に相当する用語を登録した辞書、接尾語TTに相当する用語を登録した辞書の例を示す。
図11に示した例では、品詞P2には、「ステップ」「工程」「手段」が登録され、品詞P3には「条件」が登録されている。その他、品詞H1,H2,H3については、上述のとおりである。
図12は、共通辞書のうち、接尾語FT、強制名詞FN、チェック文字列ZZ、非名詞XN、非接頭詞XSに、それぞれ相当する用語を登録した辞書の例を示す。
これらの単語の内容については、上述したので繰り返さない。
図13は、文書データ解析部120.2が行う補正処理および構成要素認識処理を概念的に説明する図である。
たとえば、「手段」は、品詞P2として登録されているので、「手段」の前に連続する「読取」「制御」との名詞が「手段」と連結されて構成要素「読取制御手段」と認識されており、チェック文字列が前置していないので、割付記号Cが割り付けられる。
これに対して、「読取バランサー」では、「バランサー」が品詞P1,P2,P3としては、登録されていないので、1回目の構成要素認識処理が終了した時点では、構成要素としては認識されないことになる。ただし、図3のステップS110において、ユーザが、たとえば、「バランサー」を部分辞書135.iに登録すると、「バランサー」およびこれの前に連続する名詞である「読取」とが結合されて、「読取バランサー」が一つの構成要素として認識される。そして、「読取バランサー」には、チェック文字列が前置しているので、割付記号ZCが割り付けられる。
図14は、図3のステップS110で表示される請求項の記載の例を示す図である。たとえば、構成要素と認識されているものには、下線が引かれている。もちろん、構成要素と認識されているものには、たとえば、特定の色でハイライト表示がされていてもよい。さらに、「中間コード」との用語については、構成要素とは認識されていないので、ユーザが、たとえば、マウス112を操作して、「中間コード」との用語の範囲を選択すると、部分辞書135.iに登録される。
図15は、図3のステップS110で表示される画面全体の例を示す図である。
左上には、検出された請求項の従属関係が、クレームツリーとして表示されている。また、右上には、構成要素の一覧が表示されている。
検出された「構成要素」については、クレームごとに下線またはハイライト表示がされる。
同時に、クレームごとに検出された「構成要素名」がチェックボックス付きの一覧として表示される。従属クレームでは、ツリーの中で新たに検出されたものだけを一覧として表示する。チェックボックスは、「構成要素の候補」から不要なものを削除するためのインターフェイスである。
上述のように、チェック文字列の使用が適正か否か、また、「前記」等の記載が不要か、「前記」等の記載が欠落しているかに応じて、ハイライト表示の色を変えることで、ユーザにチェック文字列の使用の整合性の状態を知らせることができる。
図14で説明したとおり、この表示の段階で、構成要素として認識されていない用語をユーザが確認すると、その用語の範囲をユーザが選択することで、部分辞書135.iにその用語が登録される。その段階で、ユーザが「解析」ボタンをクリックすると、再度、更新された部分辞書135.iに基づいて、構成要素の認識と、「前記」等の記載の整合性のチェックが行なわれる。
以上のような構成により、解析対象となる文書中で、特定の文字列が、当該特定の文字列に後続する用語が、文書中で既出であることを示すために用いられる使用の態様が、適正であるかを容易にチェックすることが可能となる。
また、ユーザ辞書に、逐一、用語を登録していなくても、用語の語尾に共通に用いられる複数の用語接尾語の情報を用いて特定用語の特定が行なわれるので、ユーザが特定用語を特定する処理を大幅に削減して、文書のチェックを行うことが可能となる。
[実施の形態2]
実施の形態1の文書チェック装置100は、外部から与えられた文書データ中において、特定の文字列が、その文字列に後続する用語が、文書中で既出であることを示すために用いられる場合に、文書中から用語の候補となる語句を抽出し、抽出された候補間において、このような特定の文字列の使用が整合しているか否かをチェックするものとして説明を行った。その場合、実施の形態1の文書チェック装置100は、「特許請求の範囲」をチェック対象として文書チェックを行うものとして説明を行った。
このとき、上記用語(すなわち、「特定用語」)については、その語尾が一定の文字列(「用語接尾語」)となる確率が高いことを利用して、文章において、特定用語の候補を抽出する手がかりとして使用した。ここで、チェック対象の文章が、特許請求の範囲の場合は、「特定用語」とは、「構成要素」であり、「用語接尾語」とは、「構成要素接尾語」のことであった。
ただし、文書チェックとしては、以下のような場合も考えられる。
1)必ずしも、特定用語の候補を抽出する際に、「用語接尾語」を手がかりとすることなく、形態素解析エンジンにより特定された名詞が連続する場合は、これら名詞を連結することで特定用語の候補として、必要に応じて、「特定用語の候補」として不適切なものは、ユーザの個別の指示により除外する、という構成でも、同様の処理を実現できる。
特に、チェック対象文書が「明細書」である場合などは、「特許請求の範囲」とは異なり、「構成要素接尾語」のような文字列(たとえば、「手段」)が必ずしも使用されるとは限らず、この場合は、後述する「説明用語」の候補の抽出には、名詞の連結の方が適している場合が存在しうる。
2)また、チェック対象となる文書によっては、当該文書の一部において、上述のように、特定の文字列が、その文字列に後続する用語が、文書中で既出であることを示すために用いられて、すなわち、用語の使用の厳格性を担保して、概念の定義を行い、当該文書の他の部分において、当該概念の具体的な説明を行うという場合もある。この場合は、概念の定義に使用された「特定用語」に対応して、より具体的な例を示す用語(以下、「説明用語」と呼ぶ)により、上記のような具体例の説明が行われる場合がある。このとき、上記のような具体的な説明において、図面を参照した説明が行われるときは、このような説明用語には、図面との対応を表すために、説明文中では直後に符号が付され、対応する図面中では、図面の対応部分に、その同じ符号が付されることで、具体的な説明が実行される、ということになる場合がある。
たとえば、「概念の定義」を行うのが、「特許請求の範囲」の記載である場合は、このような具体的な説明を行うのは、「明細書」(特に、たとえば、「発明を実施するための形態」の記載)ということになる。このとき、「説明用語」は、「特定用語」をより具体的に説明するものであるから、両者には、明示的に形式上の同一または類似の単語または単語の結合が使用されるか、あるいは、当該文章を読む読み手の常識では、そのような「説明用語」が、「特定用語」に対応することが自明であるような説明用語が使用されることになる。
このとき、「説明用語」には、上述のように、その直後に符号が付されているので、文章中で、説明用語とこれに対応する符号との対応関係が、文書中で、一貫して整合がとれているかも、チェックをする必要がある。
そして、上述したような「形態素解析エンジン」による品詞の特定は、チェック対象となる文章において、このような「特定用語」が使用される部分と、「説明用語」が使用される部分とで、共通に実施することが可能となる。
なお、たとえば、特許出願書類では、「特許請求の範囲」と「明細書」とは、形式上、別文章であり、別のデータファイルとして作成される場合もある。しかし、本明細書においては、両者が、上述したような「概念の定義」と「当該概念の具体的な説明」といように密接な関係を有している場合は、両者を総合して、「チェック対象文書」と呼ぶことにする。
以下では、上記のような前提の下に、実施の形態2の文書チェック装置、文書チェック方法、文書チェックプログラムについて説明を行う。ここで、実施の形態2の文書チェック装置のハードウェアの構成および機能の構成は、原則的には、図1および図2で説明した実施の形態1の文書チェック装置100の構成と同様である。
以下では、実施の形態2の文書チェック装置の動作について、説明する。
以下の実施の形態2の文書チェック装置の動作の説明においては、「特許請求の範囲」と「明細書」とを、チェック対象文書とする例について説明する。
ここで、以下の実施の形態2の説明では、「構成要素」との用語を、「特許請求の範囲」中の「特定用語」と「明細書」中の「説明用語」との双方を総称する用語として使用する。
図16は、実施の形態2の文書チェック装置の動作を説明するためのフローチャートであり、実施の形態1の図3と対比される図である。
図16を参照して、文書チェック装置100の動作が開始されると、まず、ユーザにより、チェック対象となる文書データの内容分野(顧客)を特定するためのグループ情報がキーボード110、マウス112などを使用して入力される(S200)。これに応じて、文書データ解析部120.2は、使用する部分辞書135.i(1≦i≦n)を選択する。
このとき、併せて、ユーザの入力により、「共通辞書」を使用するか、使用しないかを選択的に設定できるものとする。
なお、ここでは、共通辞書と顧客辞書とは、「特許請求の範囲」と「明細書」とにそれぞれ対応して、その内容が格納されているものとする。ただし、たとえば、「特許請求の範囲」に対応する共通辞書データと顧客辞書データとは、ネットワークで接続された他のコンピュータの記憶装置内に記憶されており、文書チェック装置100は、通信インターフェイス128を介して、これらのデータにアクセスして読み出したり、あるいは、書込みを行なったりする一方、「明細書」に対応する共通辞書データと顧客辞書データは、文書チェック装置100中のハードディスク124内に記憶される構成とすることも可能である。これは、「特許請求の範囲」のような「概念の定義」を行う文書中では、比較的一般に使用されない用語が用いられる傾向があるために、複数のユーザでの使用の結果、たとえば、顧客辞書データに登録されるデータを複数ユーザ間で共用することで、他のユーザによる登録、すなわち、一種の学習結果を、他のユーザも使用することができるからである。一方で、「明細書」に関しては、一般に使用される用語が使用される傾向があるために、必ずしも、このような学習の結果を共用する必要性が、特許請求の範囲に比べると低いからである。
続いて、文書取込部120.1は、文書データ136を取り込み、ワーキングメモリであるRAM上に展開する(S202)。
文書データ解析部120.2は、文書データ136の中から、チェック対象となる「特許請求の範囲」と「明細書」の記載を選択・特定し、構成要素の候補となる名詞、名詞句を抽出するために、必要に応じて共通辞書データ134と、選択された部分辞書135.iと、形態素解析エンジンとを用いて文書データの解析を行い、辞書の登録内容に従って文書データの文字列の一部に、品詞を特定する処理の前処理としての記号を割り付ける(S206)。続いて、文書データ解析部120.2は、形態素解析で特定された品詞に応じて、文書データ中で解析結果に基づいて、品詞を特定するための記号をそれぞれの文字列に割り当てる(S206)。
続いて、文書データ解析部120.2は、以上の処理により記号が割り付けられている文字列に対して、名詞としての認識の対象から除外されるものとして辞書に登録されている文字列、構成要素に後置されるものとして辞書に登録されている文字列、構成要素の末尾にくる名詞(構成要素接尾語)として登録されている文字列などについて、割り付けら得ている符号のつけ直しを行う(S208)。その後、文書データ解析部120.2は、割り付けられた記号を所定のルールで記号を連結し統合して割り付け直す(S208)。さらに、文書データ解析部120.2は、構成要素について、既出であることを示す「特定の文字列」、すなわち、特許請求の範囲であれば、「前記」の有無に応じて、構成要素の整合性の認識のための記号(ZC,C:説明は後述)を割り付ける。これにより、構成要素の候補が特定される。ただし、明細書において、「前記」が使用されないときは、このような「整合性の認識のための記号」については、明細書では整合性の判定では区別する必要がなく、単に「構成要素の候補」であることを示すのみである。
続いて、文書データ解析部120.2は、構成要素の候補間において、特定の文字列である「前記」「当該」の使用が、特許請求の記載の中で、整合しているかをチェックする(S210)。また、文書データ解析部120.2は、明細書中で、構成要素と符号との対応付けが整合しているかをチェックする(S210)。
データ表示出力制御部120.3は、チェック結果に応じて、特許請求の範囲については、そのチェック結果を文書データの表示上で、たとえば、構成要素の候補について、異なった色のハイライト表示をするなどして、i)「前記」「当該」が付されており、かつ、その使用が適正なもの(同じ「構成要素の候補」が特許請求の範囲の記載中に既出)、ii)「前記」「当該」が付されておらず、かつ、その使用が適正なもの(その「構成要素の候補」が特許請求の範囲の記載中で初出)、iii)「前記」「当該」が付されているが、その使用が不適切なもの、iv)「前記」「当該」が付されていないが、その使用が不適切なもの、を区別可能な表示態様で表示する(S212)。なお、i)とii)については、ともに適正なものを表示するのであるから、共通の表示態様で表示してもよい。
また、データ表示出力制御部120.3は、チェック結果に応じて、明細書については、i)構成要素と符号との関係が1対1の関係であるもの(使用は正しい可能性が高い)、ii)1つの構成要素について複数の符号が使用されているもの(誤使用の可能性有り)、iii)1つの符号について複数の構成要素が使用されているもの(明確に誤使用)を、それぞれ、色などの表示態様で区別して表示する。これにより、ユーザは、明細書において、明確に誤使用である構成要素と、誤使用の可能性のある構成要素とを認識することが可能となる。なお、構成要素と符号との関係が1対1の関係であるものが、「使用は正しい可能性が高い」とされるのは、以上のチェックでは、文書中の構成要素および符号の使用と図面中の符号の使用との整合性まではチェックがされていないからである。ただし、図面も電子データとなっている場合には、このような整合性もチェックしてもよい。たとえば、図Xの説明の部分において、使用されている構成要素の符号が、対応する図Xの図面データ中にも存在するかどうかをチェックする等すればよい。
次に、ユーザからの入力により、再解析を行うのであれば(S214)、処理は、ステップS202に復帰し、再解析を行わないのであれば、処理は終了する。
ここで、ユーザが再解析を指示するのは、ステップS212での表示結果に基づいて、ユーザが文書データ136を修正した場合に、再解析をすることが必要となった場合である。このとき、上述のとおり、ユーザが修正するのは、特定のワードプロセッサソフトウェアで作成されたファイルであり、チェック対象の文書データ136としては、そのファイルからテキストファイルのみを取り込む、構成とすることができる。
[文書チェック処理の詳細]
以下では、図16により説明した文書チェック処理をより詳しく説明する。
まず、図19は、実施の形態1と実施の形態2の辞書の構成を対比して示す図である。
図19に示すように、実施の形態2では、実施の形態1に対して、辞書名と辞書の内容を変更している。
ただし、ほとんどの辞書は、実施の形態1と共通である。また、全辞書のデフォルトの単語登録は、実施の形態1と実施の形態2で、同じとすることができる。
しかし、H3辞書は、実施の形態1と同様とできるが、正規表現を用いて、内部で生成することとし、辞書としては、設けない構成とすることもできる。また、FT、XS辞書も、実施の形態1と同様とすることができる。ただし、同じ処理結果になる様に形態素解析での記号の割り当ての方を変更することも可能である。さらに、P1辞書は、使用する/しないを選択できる構成としている。また、TNCの認識方法を変更し、辞書の種類を「顧客辞書」に変更している。
さらに、図20は、チェック対象の文書中の文字列に割り付けられる「割付記号」を説明する図である。
「割付記号」の意味は以下の通りである。
ZC : 前記が前置する構成要素
C : 前記が前置しない構成要素
P : 構成要素候補
H : 構成要素の接頭文字列候補
XX : 適切ではない構成要素
構成要素の認識処理について、以下の処理では、辞書または形態素解析の情報を用いて、対象文字列を分割し、分割した文字列に記号を割り付ける。以下では、その割り付ける記号を「割付記号」とし、割り付ける際の条件を「割付条件」として説明する。
(文書チェック処理フロー)
図17は、図16のステップ206の処理を説明するためのフローチャートである。
図17を参照して、ステップS206.1.1において、取得した文書のすべてについて、処理が終了しているかが判断される。終了していれば、処理はステップS210へ移行する。終了していなければ、処理は、次のステップS206.1.2に移り、処理対処の文書の特定がなされる。たとえば、処理対象の文章データが、「特許請求の範囲のデータ」の次に「明細書のデータ」を含む構成になっていれば、まずは、「特許請求の範囲」が処理対象となる。
続いて、処理対象が特許請求の範囲であれば(ステップS206.1.3)、文書データ解析部120.2は、請求項ごとに分離して抽出し、請求項間の従属関係を抽出する(S106.1.4)。なお、このような請求項の分離は、もともとのテキストデータ中のタグを利用して行なうことができる。また、従属関係の抽出は、正規表現を用いたテンプレートとのマッチングにより、たとえば、「請求項○または△に記載の」等の表現を抽出することで、特定することができる。
続いて、文書データ解析部120.2は、請求項が連番となっているかや、従属先の請求項と自身の発明の名称とが一致しているかをチェックする(S106.1.5)。特に限定されないが、たとえば、「発明の名称」は、i)ユーザが特定してもよいし、あるいは、ii)当該請求項中で、もっとも後方(末尾側)で、構成要素として抽出されたものを用いることができる。このii)の場合は、発明の名称の整合性のチェックは、後に説明する「前記」等の整合性チェックの際に同時に行なわれることになる。
続いて、文書データ解析部120.2は、フロントエンド処理を行う(S206.2.1)。
ここで、図21は、フロントエンド処理で割り付けられる割付記号を説明する図である。
図21に示されるように、対象文字列に対して、図21中に示す辞書を基に、図21中のルールに従って記号を割り付ける。なお、割付処理は、テーブル中の順番にしたがって行われる。なお、テーブル中に順番が記載されている場合は、他の処理でも同様である。
続いて、図17に戻って、文書データ解析部120.2は、形態素解析を実行する(S206.2.2)。
図22は、このような形態素解析における割付記号を説明する図である。
図22に示すように、上記フロントエンド処理で、記号が割り付けられていない文字列に対して、形態素解析処理をする。形態素解析処理では、入力文字列を分割した文字列とそれに対応する品詞を得る。図22のテーブルに従って、その分割した文字列に対して、品詞を基に、記号を割り付ける(名詞:N,接続詞:O,動詞:V,助動詞:G,助詞:J)。
図18は、図16のステップS208とS210との流れを詳しく説明するためのフローチャートである。
ステップS208において、文書データ解析部120.2は、まず、バックエンド処理1を行う(S208.1)。
図23は、このようなバックエンド処理1を説明するためのテーブルである。図23に示すように、バックエンド処理1においては、それまでの処理で既に記号が割り付けられた文字列に対して、辞書を基に、図23のテーブルに従って記号を割り付ける。
図18に戻って、次に、文書データ解析部120.2は、記号の置換と連結処理を行うために補正処理1を行う(S208.2)。
図24は、このような補正処理1を説明するためのテーブルである。図24に示すように、補正処理1においては、それまでの処理で既に記号が割り付けられた文字列に対して、辞書を基に、図24のテーブルに従って記号を割り付ける。
たとえば、TOC辞書に登録されている文字列には、割付記号Pが割り付けられ、TON辞書に登録されている文字列には、割付記号Nが割り付けられる。また、実施の形態1と同様にして、名詞同士の連結処理(N+N→N)などが実施される。
図18に戻って、次に、文書データ解析部120.2は、P1辞書を使用しない設定がされている場合は(S208.3)、名詞または連結された名詞を構成要素候補として登録するための補正処理2を行う(S208.4)。
図25は、このような補正処理2を説明するテーブルである。
図18に戻って、次に、文書データ解析部120.2は、構成要素の認識処理を行う(S208.5)。
図26は、このような「構成要素の認識処理」を説明するためのテーブルである。
図26に示されるように、上記の処理で既に記号が割り付けられた文字列に対して、図26のテーブルのルール内に従って記号を割り付ける。但し、大括弧で括られた部分に該当する文字列に記号を割り付ける。例えば、図26のテーブルの順番1を例に挙げると、“H+P”に該当する文字列には、その直前に文字列ZZが存在するので“ZC”を割り付ける。順番3を例に挙げると、“H+P”に該当する文字列には、その直前に文字列ZZが存在しないので“C”を割り付ける。
図18に戻って、次に、文書データ解析部120.2は、処理対象が「明細書」である場合は(S208.6)、バックエンド処理2を行う(S208.7)。
図27は、このようなバックエンド処理2を説明するテーブルである。「C」または「ZC」の記号が割り付けられた文字列に、英数字の文字列、すなわち、符号が後置しない場合には、記号XXが割り当てられる。
図18に戻って、次に、文書データ解析部120.2は、TNC辞書の登録内容にしたがって、バックエンド処理3を行う(S208.8)。
図28は、このようなバックエンド処理3を説明するテーブルである。「C」または「ZC」の記号が割り付けられた文字列に対して、該当する単語がTNC辞書に登録されている場合には、記号XXが割り当てられる。
図18に戻って、次に、文書データ解析部120.2は、取得文書すべてについて処理が終了している場合は(S206.1.1)、請求の範囲について「前記」等の整合性チェックを実施の形態1と同様に行う(S210.1)。
次に、文書データ解析部120.2は、明細書について構成要素と参照符号の整合性チェックを行う(S210.2)。
この場合は、明細書中の構成要素について、上述のとおり、以下の状態を判断する。
状態i)構成要素と符号との関係が1対1の関係であるもの(使用は正しい可能性が高い)、
状態ii)1つの構成要素について複数の符号が使用されているもの(誤使用の可能性有り)、
状態iii)1つの符号について複数の構成要素が使用されているもの(明確に誤使用)。
図29は、ステップ212において、データ表示解析部120.3が行う表示例を示す図である。
図29においては、状態2に相当する構成要素は、状態iiに相当する構成要素は下線が付され、状態iiiに相当する構成要素は枠で囲まれている。
もちろん、状態i〜iiiに対して、異なる色でハイライト処理をして区別してもよい。
以上のような構成により、「特定用語」、特定用語が既出であることを示す「特定の文字列」と、「説明用語」、説明用語に付される「符号」とが使用されるような文書において、それぞれの使用の整合性をチェックすることが可能となる。
しかも、特定用語の候補を抽出する際に、「用語接尾語」を手がかりとすることは、ユーザの設定により選択することができる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
100 文書チェック装置、102 コンピュータ本体、104 モニタ、105 バス、106 FDドライブ、108 光ディスクドライブ、110 キーボード、112 マウス、122 メモリ、124 ハードディスク、128 通信インターフェイス、131 表示制御プログラム、132 文書データ解析プログラム、133 グループ情報、134 共通辞書データ、135 顧客辞書データ、136 文書データ。

Claims (23)

  1. 解析対象となる文書中の記載の整合性をチェックするための文書チェック装置であって、
    前記文書を表す文書データを記憶する記憶手段と、
    特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる場合に、前記特定の文字列の情報を取得する情報取得手段と、
    前記文書中に含まれる品詞を特定するための品詞特定手段とを備え、
    前記品詞特定手段は、
    前記文書中において、前記情報取得手段により取得された情報に基づいて、前記特定の文字列を認識して特定するための特定手段と、
    前記文書に対して形態素解析を行い、前記文書中の品詞を特定するための形態素解析手段とを含み、
    前記形態素解析の結果に基づき、前記文書中において、連続する名詞を連結することで、前記用語の候補である用語候補を特定する用語候補認識手段と、
    特定された前記用語候補間で、前記特定の文字列の使用の整合性をチェックする整合性チェック手段と、
    前記整合性のチェック結果を表示装置に表示させるための表示制御手段とをさらに備え
    前記特定の文字列の使用の整合性がない場合には、前記表示制御手段は、前記用語候補に対して不要な前記特定の文字列が付されているために整合性がないものと、前記用語候補に対して必要な前記特定の文字列が付されていないために整合性がないものとを、区別可能な表示態様で前記表示装置に表示させる、文書チェック装置。
  2. 前記解析対象となる文書は、予め定められたワードプロセッサソフトウェアで作成されたファイルであり、
    前記文書を表す文書データは、前記ファイルからテキストデータを抽出することにより生成されたデータである、請求項1に記載の文書チェック装置。
  3. 前記情報取得手段は、さらに、前記用語の語尾に共通に用いられる複数の用語接尾語の情報を取得し、
    前記用語候補認識手段は、前記形態素解析の結果に基づき、前記文書中において、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結することで、前記用語の候補である用語候補を特定する、請求項1または2に記載の文書チェック装置。
  4. 前記情報取得手段は、さらに、前記文書中で、前記用語候補認識手段での前記用語候補を特定する処理の時点で、特定されなかった前記用語候補を、ユーザの選択により前記用語候補として登録したユーザ辞書の情報を取得し、
    前記用語候補認識手段は、さらに、前記ユーザ辞書も参照して、前記用語候補を特定する、請求項に記載の文書チェック装置。
  5. 前記記憶手段は、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とを記憶し、
    前記情報取得手段は、前記記憶手段から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを読み出す、請求項に記載の文書チェック装置。
  6. 前記文書は、内容分野ごとの複数のグループに分類されており、
    前記ユーザ辞書は、前記グループごとの部分辞書に分割され、前記ユーザは、前記文書の前記内容分野に対応する前記部分辞書に、特定されなかった前記用語候補を登録する、請求項またはに記載の文書チェック装置。
  7. 前記記憶手段は、さらに、前記用語に前置される特定の接頭語を予め記憶しており、
    前記用語候補認識手段は、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結した後、前記特定の接頭語が当該連結後の用語の前に連続する場合は、前記特定の接頭語をさらに連結することで、前記用語候補を特定する、請求項またはに記載の文書チェック装置。
  8. 前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とは、前
    記文書チェック装置の外部の外部記憶装置に記憶され、
    前記情報取得手段は、前記外部記憶装置から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを通信により取得する、請求項に記載の文書チェック装置。
  9. 前記文書データは、
    前記特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる第1の文書を表現する第1の部分文書データと、
    前記第1の部分文書データで定義される内容を説明するための文書であって、前記用語に相当する説明用語が符号を付されて使用される第2の文書を表現する第2の部分文書データとを含み、
    前記形態素解析手段は、前記第1および第2の部分文書データに共通に、前記形態素解析を行い、
    前記第2の部分文書データについて、前記説明用語と前記符号との整合性をチェックするための符号チェック手段をさらに備える、請求項1から3のいずれか1項に記載の文書チェック装置。
  10. 解析対象となる文書中の記載の整合性のチェックを、演算装置と前記文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェックプログラムであって、
    前記演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる場合に、前記特定の文字列の情報を取得するステップと、
    前記文書中に含まれる品詞を特定するステップとを前記コンピュータに実行させ
    前記品詞を特定するステップは、
    前記演算装置が、前記文書中において、前記取得された情報に基づいて、前記特定の文字列を認識して特定するステップと、
    前記演算装置が、前記文書に対して形態素解析を行い、前記文書中の品詞を特定するステップとを含み、
    前記文書チェックプログラムは、
    前記演算装置が、前記形態素解析の結果に基づき、前記文書中において、連続する名詞を連結することで、前記用語の候補である用語候補を特定するステップと、
    前記演算装置が、特定された前記用語候補間で、前記特定の文字列の使用の整合性をチェックするステップと、
    前記演算装置が、前記整合性のチェック結果を表示装置に表示させるステップとをさらに前記コンピュータに実行させ
    前記チェック結果を前記表示装置に表示させるステップは、前記演算装置が、前記特定の文字列の使用の整合性がない場合には、前記用語候補に対して不要な前記特定の文字列が付されているために整合性がないものと、前記用語候補に対して必要な前記特定の文字列が付されていないために整合性がないものとを前記表示装置に区別可能な表示態様で表示させるステップを含む、文書チェックプログラム。
  11. 前記解析対象となる文書は、予め定められたワードプロセッサソフトウェアで作成されたファイルであり、
    前記文書を表す文書データは、前記ファイルからテキストデータを抽出することにより生成されたデータである、請求項10に記載の文書チェックプログラム。
  12. 前記情報を取得するステップは、前記用語の語尾に共通に用いられる複数の用語接尾語の情報を取得するステップを含み、
    前記用語候補を特定するステップは、前記形態素解析の結果に基づき、前記文書中において、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結することで、前記用語の候補である前記用語候補を特定するステップを含む、請求項10または11に記載の文書チェックプログラム。
  13. 前記取得するステップは、さらに、前記文書中で、前記用語候補を特定するステップでの前記用語候補を特定する処理の時点で、特定されなかった前記用語候補を、ユーザの選択により前記用語候補として登録したユーザ辞書の情報を取得するステップを含み、
    前記用語候補を特定するステップは、さらに、前記ユーザ辞書も参照して、前記用語候補を特定するステップを含む、請求項12に記載の文書チェックプログラム。
  14. 前記記憶装置は、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とを記憶し、
    前記取得するステップは、前記記憶装置から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを読み出すステップを含む、請求項13に記載の文書チェックプログラム。
  15. 前記文書は、内容分野ごとの複数のグループに分類されており、
    前記ユーザ辞書は、前記グループごとの部分辞書に分割され、前記ユーザは、前記文書の前記内容分野に対応する前記部分辞書に、特定されなかった前記用語候補を登録する、請求項13または14に記載の文書チェックプログラム。
  16. 前記記憶装置は、さらに、前記用語に前置される特定の接頭語を予め記憶しており、
    前記用語候補を特定するステップは、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結した後、前記特定の接頭語が当該連結後の用語の前に連続する場合は、前記特定の接頭語をさらに連結することで、前記用語候補を特定するステップを含む、請求項14または15に記載の文書チェックプログラム。
  17. 前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書とは、前記文書チェックプログラムが実行されるコンピュータの外部の外部記憶装置に記憶され、
    前記取得するステップは、前記外部記憶装置から、前記特定の文字列の情報と、前記複数の用語接尾語の情報と、前記ユーザ辞書の情報とを通信により取得するステップを含む、請求項13に記載の文書チェックプログラム。
  18. 前記文書データは、
    前記特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる第1の文書を表現する第1の部分文書データと、
    前記第1の部分文書データで定義される内容を説明するための文書であって、前記用語に相当する説明用語が符号を付されて使用される第2の文書を表現する第2の部分文書データとを含み、
    前記品詞を特定するステップは、前記第1および第2の部分文書データに共通に、前記形態素解析を行うステップを含み、
    前記文書チェック処理は、
    前記第2の部分文書データについて、前記説明用語と前記符号との整合性をチェックするステップをさらに備える、請求項10から12のいずれか1項に記載の文書チェックプログラム。
  19. 解析対象となる文書中の記載の整合性のチェックを、演算装置と前記文書を表す文書データを記憶する記憶装置とを備えるコンピュータに実行させるための文書チェック方法であって、
    前記演算装置が、特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる場合に、前記特定の文字列の情報を取得するステップと、
    前記文書中に含まれる品詞を特定するステップとを備え、
    前記品詞を特定するステップは、
    前記演算装置が、前記文書中において、前記取得された情報に基づいて、前記特定の文字列を認識して特定するステップと、
    前記演算装置が、前記文書に対して形態素解析を行い、前記文書中の品詞を特定するステップとを含み、
    前記文書チェック方法は、
    前記演算装置が、前記形態素解析の結果に基づき、前記文書中において、連続する名詞を連結することで、前記用語の候補である用語候補を特定するステップと、
    前記演算装置が、特定された前記用語候補間で、前記特定の文字列の使用の整合性をチ
    ェックするステップと、
    前記演算装置が、前記整合性のチェック結果を表示装置に表示させるステップとをさらに備え
    前記チェック結果を前記表示装置に表示させるステップは、前記演算装置が、前記特定の文字列の使用の整合性がない場合には、前記用語候補に対して不要な前記特定の文字列が付されているために整合性がないものと、前記用語候補に対して必要な前記特定の文字列が付されていないために整合性がないものとを前記表示装置に区別可能な表示態様で表示させるステップを含む、文書チェック方法。
  20. 前記解析対象となる文書は、予め定められたワードプロセッサソフトウェアで作成されたファイルであり、
    前記文書を表す文書データは、前記ファイルからテキストデータを抽出することにより生成されたデータである、請求項19に記載の文書チェック方法。
  21. 前記情報を取得するステップは、前記用語の語尾に共通に用いられる複数の用語接尾語の情報を取得するステップを含み、
    前記用語候補を特定するステップは、前記形態素解析の結果に基づき、前記文書中において、前記用語接尾語の前に連続する名詞を前記用語接尾語に連結することで、前記用語の候補である前記用語候補を特定するステップを含む、請求項19または20に記載の文書チェック方法。
  22. 前記取得するステップは、さらに、前記文書中で、前記用語候補を特定するステップでの前記用語候補を特定する処理の時点で、特定されなかった前記用語候補を、ユーザの選択により前記用語候補として登録したユーザ辞書の情報を取得するステップを含み、
    前記用語候補を特定するステップは、さらに、前記ユーザ辞書も参照して、前記用語候補を特定するステップを含む、請求項19から21のいずれか1項に記載の文書チェック方法。
  23. 前記文書データは、
    前記特定の文字列が、当該特定の文字列に後続する用語が、前記文書中で既出であることを示すために用いられる第1の文書を表現する第1の部分文書データと、
    前記第1の部分文書データで定義される内容を説明するための文書であって、前記用語に相当する説明用語が符号を付されて使用される第2の文書を表現する第2の部分文書データとを含み、
    前記品詞を特定するステップは、前記第1および第2の部分文書データに共通に、前記形態素解析を行うステップを含み、
    前記第2の部分文書データについて、前記説明用語と前記符号との整合性をチェックするステップをさらに備える、請求項19から21のいずれか1項に記載の文書チェック方法。
JP2010096224A 2009-11-02 2010-04-19 文書チェック装置、文書チェックプログラムおよび文書チェック方法 Expired - Fee Related JP5621145B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010096224A JP5621145B2 (ja) 2009-11-02 2010-04-19 文書チェック装置、文書チェックプログラムおよび文書チェック方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009252156 2009-11-02
JP2009252156 2009-11-02
JP2010096224A JP5621145B2 (ja) 2009-11-02 2010-04-19 文書チェック装置、文書チェックプログラムおよび文書チェック方法

Publications (2)

Publication Number Publication Date
JP2011118861A JP2011118861A (ja) 2011-06-16
JP5621145B2 true JP5621145B2 (ja) 2014-11-05

Family

ID=44284068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010096224A Expired - Fee Related JP5621145B2 (ja) 2009-11-02 2010-04-19 文書チェック装置、文書チェックプログラムおよび文書チェック方法

Country Status (1)

Country Link
JP (1) JP5621145B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7040227B2 (ja) * 2018-03-30 2022-03-23 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
JP7137265B1 (ja) 2021-06-24 2022-09-14 弁理士法人Ipx 情報処理システム、プログラムおよび情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157241A (ja) * 2000-09-06 2002-05-31 Fujitsu Ltd 辞書作成装置
JP2004110483A (ja) * 2002-09-19 2004-04-08 Onda Techno:Kk 文書診断プログラム及び文書診断方法
JP4596522B2 (ja) * 2002-10-23 2010-12-08 有限会社アイ・アール・ディー 情報処理装置、情報処理方法、およびプログラム
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体

Also Published As

Publication number Publication date
JP2011118861A (ja) 2011-06-16

Similar Documents

Publication Publication Date Title
US20090106018A1 (en) Word translation device, translation method, and computer readable medium
JP2017211993A (ja) 請求の範囲の中の請求の範囲構成要素名詞所属構成要素対応符号を対応検出する方法
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
CN112380337A (zh) 基于富文本的高亮方法及装置
JP7040227B2 (ja) 情報処理プログラム、情報処理方法、および情報処理装置
JP5621145B2 (ja) 文書チェック装置、文書チェックプログラムおよび文書チェック方法
JP7275816B2 (ja) 情報処理装置及びプログラム
JP7104390B2 (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
WO2015075920A1 (ja) 入力支援装置、入力支援方法及び記録媒体
JP6933395B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP2019053262A (ja) 学習システム
KR20220113075A (ko) 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP2017091024A (ja) 入力支援装置
JP2010191851A (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP7083473B2 (ja) 入力支援装置
KR102317910B1 (ko) 중국어 형태소 분석 장치 및 방법
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体
JP2009075748A (ja) 機械翻訳装置及びプログラム
JP2008071001A (ja) 自然言語処理装置、およびプログラム
JP6598241B2 (ja) 自動翻訳装置及び自動翻訳プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140903

R150 Certificate of patent or registration of utility model

Ref document number: 5621145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees