以下、出願文書情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態)
図1は、本実施の形態における出願文書情報処理装置1のブロック図である。
出願文書情報処理装置1は、出願文書情報格納部101、語句管理情報格納部102、指定受付部103、検出部104、語句説明情報取得部105、語句説明情報挿入部106、および出力部107を備える。
出願文書情報格納部101には、特許出願に利用される文書である出願文書の情報である出願文書情報が格納される。出願文書情報は、例えば、特許出願において特許庁に提出される出願書類に含まれる情報である。出願文書情報は、例えば、出願書類の中の発明に関する情報等を含む文書の情報である。発明に関する情報とは、例えば、発明の定義や発明の説明等の情報である。出願文書情報は、例えば、出願書類を構成する文書中の、発明についての技術的な内容を含まない部分を除外したものと考えてもよい。出願文書情報は、例えば、特許出願時に提出される、いわゆる書類名が明細書や特許請求の範囲や要約書等である文書の情報である。ただし、これらの書類名とは、出願の様式によって変わる場合があるので、実質的に、これらの書類名に相当する書類名を有する情報も出願文書情報と考えて良い。また、出願文書情報は、特許出願に直接用いられる文書の情報であるか、間接的に用いられる文書の情報であるかは問わない。例えば、出願文書情報は、上記のような出願書類の作成中の情報や、出願書類の下書きの情報であってもよい。また、出願文書情報が、最終的に特許庁に提出されるか否かは問わない。出願文書情報は、文字列を含む情報である。ただし、画像の情報を含んでいてもよい。なお、ここでは、文字列を、一以上の文字を含むものと考える。また、文字は、制御記号等の特殊文字を含むと考えても良い。出願文書情報のファイル形式等は問わない。
出願文書情報格納部101に出願文書情報が蓄積される過程は問わない。例えば、キーボード等の入力デバイスを介して入力された出願文書情報が出願文書情報格納部101で蓄積されるようになってもよい。記録媒体を介して出願文書情報が出願文書情報格納部101で蓄積されるようになってもよく、通信回線等を介して送信された出願文書情報が出願文書情報格納部101で蓄積されるようになってもよい。かかることは、他の格納部についても同様である。
なお、ここでの格納は、一時記憶も含む概念である。例えば、ユーザ等が作成中の出願文書情報がメモリ等の記憶媒体に一時記憶されている状態も格納と考えてよい。出願文書情報格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
語句管理情報格納部102には、語句管理情報が格納される。語句管理情報は、特許出願に関連する一以上の語句と、各語句に関する説明を示す情報である語句説明情報とを対応付けて有する。
語句とは、文字列の情報である。語句管理情報格納部102に格納される語句は、通常は自立語である。特許出願に関連する語句とは、例えば、出願文書に利用される語句である。特許出願に関連する語句とは、例えば、出願文書の発明の説明、具体的には技術の説明に用いられる語句である。特許出願に関連する語句は、例えば、出願文書に利用される語句であって、語句に関する説明が必要であると考えられる語句である。特許出願に関連する語句は、例えば、過去の一以上の特許出願に利用されている語句である。語句管理情報格納部102においては、語句と語句説明情報とが、種類や属性、用途別等でそれぞれ異なる管理情報等で管理されていても良い。
語句説明情報は、文字列の情報である。語句説明情報は、対応する語句全体について説明する情報であっても良いし、対応する語句の一部について説明する情報であっても良い。語句説明情報は、語句の意味を説明する情報であっても良いし、語句の定義を説明する情報であっても良い。また、語句についての具体的な例示等を示す情報であっても良い。また、語句を含む文字列に関して説明する情報であっても良い。例えば、語句を含む文字列についての説明や、語句を含む文字列の定義、語句を含む文字列の具体的な例示等を示す情報であっても良い。
語句管理情報格納部102に格納される語句は、出願文書の構成要素の名称を示す語句である構成要素名の少なくとも一部に用いられる語句である構成要素語句であっても良い。構成要素とは、例えば、発明を特定するための必要な事項や要素である。構成要素語句は、構成要素名の一部に利用可能な語句であれば、どのような語句であっても良い。構成要素語句は、例えば、特許用語や技術用語、専門用語、学術用語である。構成要素語句として、過去の様々な特許出願等において構成要素名の少なくとも一部として用いられた語句を用いても良い。また、構成要素語句に対応する語句説明情報は、この構成要素語句を含む構成要素名を有すると考えられる構成要素に関して説明する情報であっても良い。例えば、語句を含む構成要素名を有する構成要素についての説明や、構成要素の定義、構成要素の実現手段や、実現方法、構成要素の動作、構成要素の具体的な例示等を示す情報であっても良い。
語句管理情報格納部102には、例えば、出願文書の構成要素の名称を示す語句である構成要素名の少なくとも一部に用いられる語句である構成要素語句と、この構成要素語句が用いられている構成要素名の挿入位置を示す情報を含む語句説明情報である構成要素説明情報と、を対応付けた語句管理情報である構成要素管理情報が格納されていてもよい。構成要素説明情報は、例えば、上述したような構成要素語句を含む構成要素名を有する構成要素に関して説明する情報である。例えば、構成要素語句を含む構成要素名を有する構成要素についての説明や、構成要素の定義、構成要素の実現手段や、実現方法、構成要素の動作、構成要素の具体的な例示等を示す情報である。
構成要素説明情報に含まれる挿入位置を示す情報は、構成要素名の挿入される位置を示すことが可能な情報であればどのような情報でもよい。例えば、構成要素名が挿入される位置に配置された予め指定された文字列であってもよい。あるいは、構成要素名が挿入される位置の直前または直後の文字の、構成要素説明情報の先頭または末尾の文字から数えた順番等を示す情報であっても良い。また、構成要素名が挿入される位置の直前または直後の文字列を示す情報であっても良い。なお、構成要素語句としては、構成要素管理情報に格納されている他の構成要素語句のいずれも含まない構成要素名を指定するための値が格納されていても良い。例えば構成要素語句の「<他>」を、他の構成要素のいずれをも含まない構成要素を指定する値であるとすると、他の構成要素語句のいずれも含まない構成要素名は、この構成要素語句「<他>」を含む構成要素名であるとして語句説明情報取得部105で検出される。あるいは、構成要素名に含まれる語句を正規表現化した語句が含まれていても良い。例えば「[1−9]」を1から9までの任意の1文字の数字の正規表現であるとすると、構成要素語句「第[1−9]」出力部」は、第1出力部から第9出力部までの構成要素名を示す構成要素語句となる
また、語句管理情報格納部102には、例えば、出願文書の技術の説明に用いられる語句である用語の少なくとも一部に用いられる語句である用語要素語句と、この用語要素語句についての語句説明情報である用語説明情報と、を対応付けた語句管理情報である用語管理情報が格納されていても良い。用語は、出願文書の技術の説明に用いられる語句であればどのような語句であっても良い。用語は、例えば、特許用語や技術用語、専門用語、学術用語等である。用語説明情報は、用語の定義や、用語についての説明や、用語の実現手段や、実現方法、用語の動作、用語の具体的な例示等を示す情報である。また、用語説明情報は、用語が用いられる文字列が示す事象についての同様の説明の情報であっても良い。
なお、本実施の形態においては、語句管理情報格納部102に、語句管理情報として、上述した構成要素管理情報と、用語管理情報とが格納されている場合を例に挙げて説明する。
語句管理情報格納部102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
指定受付部103は、出願文書情報に対する1文字以上の文字列の指定を受け付ける。具体的には、出願文書情報に含まれる文字列内の少なくとも一部の文字列の指定を受け付ける。文字列の指定は、文字列の選択範囲の指定と考えても良い。文字列の指定は、文字単位でも、文単位でも、段落単位でも良く、指定される文字列の単位は問わない。指定受付部103が受け付ける文字列は、二以上の自立語を含む文字列であることが好ましい。指定受付部103が指定を受け付ける文字列は、通常は連続した文字列であるが、離散した文字列の指定を受け付けても良い。文字列の指定を受け付けるということは、例えば、文字列を指定する情報を受け付けることである。
例えば、モニタ等に出力された出願文書情報が示す文書の、ユーザが指定したいと考える文字列の始点から終点までを、マウス等のポインティングデバイスを操作してドラッグすると、このドラッグされた文字列に対する指定を指定受付部103が受け付ける。
ここで述べる受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付けなどを含む概念である。入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。指定受付部103は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
検出部104は、指定受付部103が指定を受け付けた文字列に含まれる一以上の自立語を検出する。検出部104は、指定受付部103が指定を受け付けた文字列に含まれる自立語のうちの少なくとも一以上の自立語を検出すればよい。なお、検出部104は、指定受付部103が指定を受け付けた文字列から二以上の自立語を検出することが好ましい。検出部104が検出する自立語は、例えば、指定受付部103が指定を受け付けた文字列に含まれる自立語のうちの、対応する語句説明情報の取得対象として用いられる自立語である。自立語とは、単独で意味を持つ文字列である。本実施の形態における自立語は、単文節の文字列に限るものではなく、複文節の文字列で構成されてもよい。検出部104が検出する自立語は、例えば、上述した出願文書の構成要素の名称を示す語句である構成要素名や、出願文書の技術の説明に用いられる語句である用語である。自立語を検出するということは、自立語を特定することと考えても良い。検出部104は、検出した自立語を取得しても良いし、検出した自立語が配置されている位置を示す情報を取得しても良い。また、検出した自立語に、検出されたことを示す情報を付与しても良い。
なお、検出部104は、指定受付部103が指定を受け付けた文字列である指定文字列に含まれる文単位で、それぞれ自立語の検出を行っても良い。指定文字列内の文とは、例えば、指定文字列の、句点や改行コードで区切られた文字列と考えて良い。また、ここでの文は、必ずしも、指定文字列内に、文頭や、文末が含まれる文でなくても良い。なお、この場合、一の文で検出された自立語と同じ自立語については、他の文においては検出しないようにしても良い。
検出部104は、どのような処理により一以上の自立語を検出しても良い。例えば、検出部104は、いわゆる形態素解析等の自然言語処理技術を利用して自立語を検出しても良い。また、検索処理を利用して自立語を検出しても良い。また、検出部104は、指定受付部103が受け付けた文字列のうちの、予め指定された文字列に対して予め指定された位置関係にある自立語を検出してもよい。以下に例を示す。
1)形態素解析を利用した自立語検出例
例えば、検索部104は、指定受付部103が指定を受け付けた文字列に対して形態素解析等を行い、品詞別の単語等の文字列を取得する。あるいは、形態素解析の結果により得られた単語等の文字列のうちの、予め指定された自立語となる所定の品詞の文字列や、予め指定された自立語ではない文字列を除く文字列等を検出する。例を挙げると、検索部104は、形態素解析の結果から、「する」「なる」「ある」等の所定の除外対象となる文字列を除いた文字列であって、「代名詞」「非自立語」「数」「接尾語」「接頭語」以外の「名詞」「動詞」「形容詞」または「未知語」等を取得する。そして、これらの形態素解析の結果により得られた文字列を自立語として取得する。なお、形態素解析により取得した所定の品詞の文字列のうちの、連続して配列された二以上の文字列の組合せを自立語として検出しても良い。例えば、形態素解析のシステムとしては、例えば、「MeCab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen−legacy.sourceforge.jp/)等が利用可能である。
2)検索処理を利用した自立語の検出例
検出部104は、例えば、指定受付部103が指定を受け付けた文字列に対して、予め用意された一以上の自立語と一致する文字列の検索を行うことで自立語を検出する。このとき、検索部104は、予め用意された一以上の自立語として、図示しない記憶媒体等に予め格納された一以上の自立語を用いてもよいし、上述した語句管理情報格納部102に格納されている語句を用いても良い。
3)予め指定された文字列との位置関係を利用した自立語の検出
検出部104は、例えば、予め指定された一以上の文字列と一致する文字列を、指定受付部103が指定を受け付けた文字列について検索する。そして検出された文字列に対して予め指定された位置関係にある文字列を検出する。予め指定された位置関係にある文字列とは、検出された文字列の直前、直後や、検出された文字列の一部または全部と重なった位置等に配置された文字列である。あるいは、検索された文字列に対して、予め指定された数の文字や文節等を隔てた位置に配置された文字列であっても良い。検出部104が検出する予め指定された位置関係にある文字列は、例えば、予め指定された位置関係にある連続して配置された漢字列である。漢字列は、連続して配置された一以上の漢字である。漢字列は、例えば、漢字以外の文字で挟まれている漢字の列である。あるいは、予め指定された位置関係が、予め指定された一以上の文字列で検索された文字列の始端や終端を示すものである場合、この始端(または終端)と、漢字以外の文字の直前(または直後)の文字を終端とした漢字列である。また、予め指定された位置関係にある文字列は、予め指定された位置関係に有る連続して配置された一以上の予め指定された品詞の文字列であってもよい。予め指定された一以上の文字列は、例えば、自立語を検出するために用いられる手がかり句である。手がかり句は、図示しない記憶媒体等の格納部に予め格納されている。また、手がかり句に対する所定の位置関係を示す情報は、手がかり句別に用意されて、手がかり句と対応付けて管理されていても良いし、複数の手がかり句に共通の位置関係を示す情報が図示しない格納部等に格納されていても良い。手がかり句は、例えば、「システム」、「装置」、「手段」、「部」、「サーバ」等である。また、「する」、「である」等でも良い。また、手がかり句は、少なくとも一部に正規表現を用いたものであっても良い。正規表現とは、文字列の集合(文字列群)を、一の文字列で表すことである。例えば、「第[0−9]の」という手がかり句の[0−9]が、0から9までの数字1文字を示す正規表現であるとすると、手がかり句「第[0−9]の」は、実質的には「第1の」から「第9の」までの文字列を示す手がかり句となる。なお、この処理においては、複数の手がかり句を組み合わせて、手がかり句を用いた検索の絞込を行うようにしても良い。また、この場合、手がかり句は、除外対象となる手がかり句を含んでも良い。
なお、上記の処理例は、一例であり、他の処理を用いても良い。また上記の処理の二以上を組み合わせて行うようにしても良い。
なお、語句管理情報格納部102に構成要素管理情報や用語管理情報が格納されている場合、検出部104は、出願文書の構成要素の名称を示す語句である構成要素名、または出願文書の技術の説明に用いられる語句である用語を、指定受付部103が受け付けた文字列から検出することが好ましい。
例えば、検出部104は、上述した3)において、特定の手がかり句との位置関係を利用することで、検出部104は、構成要素名を、指定受付部103が受け付けた文字列から検出することができる。
例えば、手がかり句として1以上の数字で構成される数字列を指定する正規表現の手がかり句を用い、予め指定された位置関係を示す情報として、手がかり句と一致する文字列の直前の連続した名詞や漢字列を示す情報を用いることで、構成要素名を取得することができる。例えば、「このような場合、映像出力装置344は、映像情報を取得して、第1の」という出願文書情報中の文字列が指定受付部103が受け付けた指定によって指定されていた場合、この文字列から、検出部104は、手がかり句と一致する文字列として「344」を検出し、この文字列の直前の連続した漢字列として、漢字以外の「、」(句点)までの文字列「映像出力装置」を検出する。このようにして検出部104は、構成要素名として「映像出力装置」を検出する。ただし、この場合、同じ指定された文字列中の「第1の」という文字列の「第」も構成要素名として取得されてしまうため、この文字列を検出しないようにするために、最終的に検出された文字列のうちの「第」という文字列は構成要素名として取得しない等の選択条件を設けて、この条件に合致する文字列は取得しないようにしても良い。なお、漢字列や名詞は、上述した形態素解析により取得可能である。
また、手がかり句として、「システム」、「装置」、「部」、「手段」、「回路」、「デバイス」、等を用い、予め指定された位置関係を示す情報として、手がかり句と一致する文字列を末尾に含む文字列であって、この手がかり句と一致する文字列の直前に配置された連続した名詞や漢字の文字列を含む文字列を指定する情報を用いることでも構成要素名を取得することが可能である。例えば、上記と同様の文字列が、指定受付部103により指定されたとすると、この文字列から「装置」を検出し、さらに、検出された文字列の直前の連続した漢字列である「映像出力」を検出し、この二つの検出した文字列を結合した文字列「映像出力装置」を構成要素名として検出する。
また、検出部104は、例えば、上述した1)や2)の処理を行うことで自立語である用語を検出することができる。なお、用語を取得する場合、2)の処理においては、検索に用いる語句の代わりに、上述した用語管理情報で管理されている用語要素語句を用いるようにすればよい。
なお、構成要素名を検出する処理以外の処理で検出された自立語を、用語と考えるようにしても良い。
検出部104は、通常、MPUやメモリ等から実現され得る。検出部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
語句説明情報取得部105は、検出部104が検出した自立語に含まれる語句に対応する語句説明情報を、語句管理情報格納部102から取得する。語句説明情報取得部105は、語句管理情報格納部102に格納されている語句管理情報のうちの、検出部104が検出した自立語に完全一致または含まれる語句を含む語句管理情報に含まれる語句説明情報を取得する。特に、検出部104が、上述した2)の処理において、語句管理情報の語句と一致する自立語を検索した場合、この自立語の検索に用いた語句を有する語句管理情報の語句説明情報を取得する。
また、語句管理情報格納部102に構成要素管理情報が格納されており、検出部104が、指定受付部103により指定を受け付けた文字列から構成要素名を取得する場合、語句説明情報取得部105は、検出部104が検出した構成要素名に含まれる構成要素語句に対応する構成要素説明情報を、構成要素管理情報から取得することが好ましい。例えば、語句説明情報取得部105は、語句管理情報格納部102に格納されている構成要素管理情報のうちの、検出部104が検出した構成要素名に完全一致または含まれる構成要素語句を含む構成要素管理情報の構成要素説明情報を取得する。
また、語句管理情報格納部102に用語管理情報が格納されており、検出部104が、指定受付部103により指定を受け付けた文字列から用語を取得する場合、語句説明情報取得部105は、検出部104が検出した用語に含まれる用語要素語句に対応する用語説明情報を、用語管理情報から取得することが好ましい。例えば、語句説明情報取得部105は、語句管理情報格納部102に格納されている用語管理情報のうちの、検出部104が検出した用語に完全一致または含まれる用語要素語句を含む用語管理情報の用語説明情報を取得する。
なお、指定範囲内に同じ自立語が複数含まれる場合、自立語に対応する語句説明情報を重複して取得して挿入することは、無駄となるため、語句説明情報取得部105は、検出部104が重複して検出した自立語については、ユニーク処理を行って、一の自立語だけを取得するようにしても良いし、既に語句説明情報を取得済の自立語と同じ自立語が同じ指定範囲内で検出された場合、この自立語については、語句説明情報取得部105が再度の語句説明情報の取得を行わないようにすることが好ましい。また、検出部104が指定文字列に含まれる文単位でそれぞれ自立語の検出を行う場合、語句管理情報格納部102も文単位で語句説明情報を取得する処理を行うようにしてもよい。
語句説明情報取得部105は、通常、MPUやメモリ等から実現され得る。語句説明情報取得部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
語句説明情報挿入部106は、語句説明情報取得部105が取得した語句説明情報を、出願文書情報内に挿入する。語句説明情報を、出願文書情報内に挿入するとは、語句説明情報が示す文字列を、出願文書情報が示す文書に挿入することと考えても良い。
語句説明情報挿入部106は、例えば、検出部104が検出した自立語に対して予め指定された位置関係にある出願文書情報内の位置に、この自立語に対応する語句説明情報を挿入する。語句説明情報挿入部106は、検出部104が検出した自立語の前後に語句説明情報を挿入してもよい。
また、語句説明情報挿入部106は、例えば、検出部104が検出した自立語に対して予め指定された位置関係にある位置として、特に、この自立語を含む領域である指定受付部103が指定を受け付けた文字列に対して予め指定された位置関係にある出願文書情報内の位置に、この自立語に対応する語句説明情報を挿入するようにしても良い。例えば、語句説明情報挿入部106は、検出部104が検出した自立語を含む領域である指定受付部103が指定を受け付けた文字列の前後に語句説明情報を挿入してもよい。例えば、語句説明情報挿入部106は、指定受付部103が指定を受け付けた文字列を含む最後の文の次の文として、語句説明情報を挿入してもよい。また、例えば、語句説明情報挿入部106は、指定受付部103が指定を受け付けた文字列を含む最後の段落の次の文として、語句説明情報を挿入してもよい。指定を受け付けた文字列を含む最後の文あるいは段落とは、例えば、指定を受け付けた文字列の少なくとも一部を含む文または段落のうちの、最後の文または段落を意味する。なお、次の文として挿入するということは、挿入される文とその挿入前の位置の文との間に改行コード等の制御コードやスペース等が配置されるか否か等を問わないことを意味する。例えば、語句説明情報を挿入する際に、改行コードと、一文字分のスペース等を挿入したうえで、語句説明情報を挿入するようにしても良い。また、語句説明情報挿入部106は、検出部104が検出した自立語を含む文の次の文として、自立語に対応する語句説明情報を挿入するようにしてもよい。かかることは、語句説明情報取得部105が取得する語句説明情報が、用語説明情報であっても構成要素説明情報で場合であっても同様である。なお、語句説明情報の挿入位置を示す情報は、例えば、予め図示しない記憶媒体等に蓄積しておくようにする。
ここで、語句説明情報が語句説明情報を挿入する例について説明する。
A)指定文字列の直後に挿入
語句説明情報挿入部106は、例えば、指定受付部104が指定を受け付けた文字列(以下、指定文字列)の直後に語句説明情報取得部105が取得した語句説明情報を挿入する。
B)検出された語句を含む文の次の文として挿入
語句説明情報挿入部106は、例えば、検出部104が指定を受け付けた文字列内において検出した自立語を起点として、文末方向に向かって1文字ずつずらしながら文字列を走査して、出現する「。(句点)」、「改行コード」または「。」と改行コードとの組み合わせを検出する。そして、検出した文字列の後に、取得した語句説明情報を挿入する。
C)指定文字列を含む最後の文の次の文として挿入
語句説明情報挿入部106は、例えば、指定文字列の少なくとも一部を含む文のうちの、最後の文(最も後の文)の次の文として、取得した語句説明情報を挿入する。例えば、指定文字列の最後の文字が「。」または改行コードのいずれかであるか否かを判断し、いずれかであれば、指定文字列の次の文として、取得した語句説明情報を挿入する。また、いずれでもない場合、指定文字列の先頭の文字や、指定文字列の最後の文字や、指定文字列の次の文字を起点として、文末方向に向かって1文字ずつずらしながら文字列を走査して、出現する「。(句点)」、「改行コード」または「。」と改行コードとの組み合わせを検出する。そして、検出した文字列の後に、取得した語句説明情報を挿入する。
D)指定文字列を含む最後の段落の次の文として挿入
語句説明情報挿入部106は、例えば、指定文字列の少なくとも一部を含む段落のうちの、最後の段落(最も後の段落)の次の文(あるいは次の段落)として、取得した語句説明情報を挿入する。まず、段落が、改行コードで区切られた文字列であると考えた場合、例えば、指定文字列の最後の文字が改行コードであるか否かを判断し、改行コードであれば、その後に、取得した語句説明情報を挿入する。また、改行コードでなければ、指定文字列の最初の文字や、指定文字列の最後の文字や、指定文字列の次の文字を起点として、文末方向に向かって1文字ずつずらしながら文字列を走査して、出現する改行コードを検出する。そして、検出した改行コードの後に、取得した語句説明情報を挿入する。また、段落が、改行コードとスペースとの組みや、改行コードと墨付き括弧の始端との組みや、改行コードとスペースと墨付き括弧の始端との組みで区切られた文字列であると考えた場合、例えば、指定文字列の最後の文字列が、これらの組みのいずれかと一致するか否かを判断し、一致すれば、その後に、取得した語句説明情報を挿入する。また、一致しなければ、指定文字列の最初の文字や、指定文字列の最後の文字列を起点として、文末方向に向かって1文字ずつずらしながら文字列を走査して、上記の組みのいずれかと一致する文字列を検出する。そして、検出した文字列の後に、取得した語句説明情報を挿入する。
なお、挿入する語句説明情報が、用語説明情報であるか、構成要素説明情報であるかによって、上記のような挿入位置を決定する際に利用するルールを異なるものとしても良い。
また、検出部104が指定文字列に含まれる文単位でそれぞれ自立語の検出を行い、語句管理情報格納部102が文単位で語句説明情報を取得する場合、文単位で語句説明情報が取得された時点で、語句説明情報挿入部106は、この語句説明情報の挿入を行うようにしても良い。また、この場合、検出部104が自立語の検出対象とした文に対応した挿入位置に語句説明情報を挿入するようにしても良い。
なお、語句説明情報取得部105が取得する語句説明情報が、構成要素説明情報である場合、語句説明情報挿入部106は、構成要素の挿入位置を示す情報が示す位置に、検出部104が検出した構成要素名を挿入した構成要素説明情報を、出願文書情報内に挿入するようにしてもよい。出願文書情報内に構成要素説明情報を挿入するということは、出願文書情報が示す文書内に、構成要素説明情報が示す文字列を挿入することと考えて良い。構成要素名を挿入するということは、例えば、構成要素説明情報の構成要素名が挿入される位置に、挿入位置を示す情報である文字列等が配置されている場合、この文字列を構成要素名で置換して配置することであっても良いし、この挿入位置を示す文字列を削除し、削除された位置に構成要素名を挿入することであってもよい。また、挿入位置を示す情報が、挿入される位置の直前や直後の文字等の位置を示す情報である場合、この位置に構成要素名を挿入するとともに、挿入位置を示す情報は削除して良い。なお、検出部104が検出した構成要素名の直後に符号、即ち数字列が配置されている場合、この数字列も構成要素名とともに取得して、構成要素説明情報の構成要素が挿入される位置に挿入することが好ましい。数字列は、例えば、上述したような正規表現を用いた検索や、形態素解析等により検出可能である。
なお、語句説明情報挿入部106が、語句説明情報を配置する際に、語句説明情報の前後等に、予め指定された文字列や改行コード等を配置しても良い。この文字列は、括弧や「*」等のような、出願文書においてはあまり利用されない文字等で構成されていることが好ましい。また、語句説明情報を配置する際に、配置する語句説明情報の文字の書式情報を、挿入先の書式情報と異なるような書式情報とするようにしてもよい。これにより、出願文書において語句説明情報が挿入された位置を明示することができる。
語句説明情報挿入部106は、通常、MPUやメモリ等から実現され得る。語句説明情報挿入部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部107は、語句説明情報挿入部106が語句説明情報を挿入した出願文書情報を出力する。ここで述べる出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。プログラムとは、コンピュータの行う処理(演算・動作・通信など)の手順を指示したもののことである。
出力部107は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部107は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
図2は、本実施の形態の出願文書情報処理装置1の動作を説明するためのフローチャートである。以下、出願文書情報処理装置1の動作の一例について図2のフローチャートを用いて説明する。なお、ここでは、語句管理情報格納部102には、語句管理情報として、構成要素管理情報と、用語管理情報とが格納されている場合を例に挙げて説明する。
(ステップS201)指定受付部103は、出願文書情報格納部101に格納されている出願文書情報に対する文字列の指定を受け付けたか否かを判断する。受け付けた場合、ステップS202に進み、受け付けていない場合、ステップS201に戻る。なお、文字列の指定の受付は、ステップS202の処理の後に行うようにしても良い。
(ステップS202)語句説明情報挿入部106は、ステップS201で指定を受け付けた箇所に関して、語句説明情報の挿入指示を受け付けたか否かを判断する。例えば、図示しない受付部等を介して、図示しない入力デバイス等から挿入指示を受け付けたか否かを判断する。受け付けた場合、ステップS203に進み、受け付けていない場合、ステップS202に戻る。
(ステップS203)語句説明情報挿入部106は、語句管理情報格納部102から、出願文書情報を読み出す。例えば、図示しないメモリ等の記憶媒体等に読み出す。なお、ここで取得する出願文書情報は、出願文書情報全体であっても良いが、ステップS202で指定を受け付けた文字列を少なくとも含む文字列であって、語句説明情報が挿入されると考えられる位置を含む文字列であってもよい。例えば、文字列がステップS202で指定を受け付けた文字列内に挿入される場合は、ステップS202で指定を受け付けた文字列を少なくとも含む文字列であればよいし、文字列がステップS202で指定を受け付けた文字列の少なくとも一部を含む文の内部や文の直後等に挿入される場合、ステップS202で指定を受け付けた文字列と重複する部分を有する文の文字列を取得しても良い。また、文字列がステップS202で指定を受け付けた文字列の少なくとも一部含む段落内や段落の直後等に挿入される場合、ステップS202で指定を受け付けた文字列と重複する部分を有する段落の文字列を取得しても良い。文は、例えば、句点や改行コード等の文の区切となり得る特殊文字を用いて検出可能である。また、段落は、改行コード等の段落の区切となり得る特殊文字を用いて検出可能である。
(ステップS204)出願文書情報処理装置1は、構成要素説明情報を挿入する処理を行う。この処理の詳細については後述する。
(ステップS205)出願文書情報処理装置1は、用語説明情報を挿入する処理を行う。この処理の詳細については後述する。
(ステップS206)出力部107は、ステップS04またはステップS205の少なくとも一方において、ステップS203で取得した出願文書情報に、語句説明情報(即ち、構成要素説明情報および用語説明情報)が挿入されたか否かを判断する。挿入された場合、ステップS207に進み、挿入されていない場合、ステップS201に戻る。
(ステップS207)出力部107は、ステップS203で取得した出願文書情報に、語句説明情報(即ち、構成要素説明情報および用語説明情報)が挿入されて得られた出願文書情報を出力する。例えば、出願文書情報格納部101に格納されている出願文書情報のうちのステップS203で読み出された出願文書情報を、語句説明情報が挿入された出願文書情報で置き換えて蓄積しても良い。そして、ステップS201に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
図3は、図2のステップS204の処理の詳細を説明するためのフローチャートである。以下、出願文書情報処理装置1の動作の処理の詳細について図3のフローチャートを用いて説明する。
(ステップS301)検出部104は、ステップS203で取得した出願文書情報の、指定受付部103が指定を受け付けた文字列について形態素解析を行う。例えば、文字列を、単語や文節等に分け、さらにそれぞれを品詞や文字の種類等に分ける。
(ステップS302)検出部104は、カウンターmに1を代入する。
(ステップS303)検出部104は、ステップS203で取得した出願文書情報の、指定受付部103が指定を受け付けた文字列から、ステップS301の形態素解析結果を利用して、m番目の構成要素名を検出する処理を行う。例えば手がかり句や、形態素解析結果が示す文字列の種類等の属性の並び等を利用して構成要素名を検出する。検出する処理は、例えば、文字列の先頭から順番に行う。
(ステップS304)検出部104は、m番目の構成要素名が検出できたか否かを判断する。検出できた場合、ステップS305に進み、検出できなかった場合、上位の処理にリターンする。
(ステップS305)検出部104は、カウンターkに1を代入する。
(ステップS306)検出部104は、構成要素管理情報にk番目の構成要素語句があるか否かを判断する。ある場合、ステップS307に進み、ない場合、ステップS313に進む。
(ステップS307)語句説明情報取得部105は、m番目の構成要素名に、k番目の構成要素語句と一致する文字列が含まれるか否かを判断する。含まれる場合、ステップS307に進み、含まれない場合、ステップS312に進む。
(ステップS308)語句説明情報取得部105は、k番目の構成要素語句に対応する構成要素説明情報を、語句管理情報格納部102に格納されている構成要素管理情報から取得する。
(ステップS309)語句説明情報取得部105は、ステップS307で取得した構成要素説明情報の、構成要素名の挿入位置を示す情報が示す位置に、m番目の構成要素名を挿入する。
(ステップS310)語句説明情報挿入部106は、構成要素名の位置と、構成要素説明情報の挿入位置との関係を示す情報等を用いて、ステップS203で取得した出願文書情報内の、ステップS309で取得した構成要素説明情報を挿入する位置を検出する。なお、構成要素名の位置と挿入位置との関係を示す情報は、例えば、予め図示しない記憶媒体等に格納されているものを読み出すようにすればよい。
(ステップS311)語句説明情報挿入部106は、ステップS309で取得した一以上の構成要素説明情報を、ステップS203で取得した出願文書情報のステップS310で検出した位置に挿入する。
(ステップS312)検出部104は、カウンターkの値を1インクリメントする。そして、ステップS306に戻る。
(ステップS313)検出部104は、カウンターmの値を1インクリメントする。そして、ステップS304に戻る。
なお、図3のフローチャートにおいては、ステップS308で構成要素説明情報を取得するごとに、取得した構成要素説明情報に構成要素名を挿入したものを出願文書情報内に挿入するようにしたが、一旦、図示しないメモリ等の記憶媒体に全ての構成要素説明情報に構成要素名を挿入したものを追記しながら一時記憶し、ステップS304でm番目の構成要素名がなしと判断された時点で、一時記憶した構成要素説明情報を出願文書情報内に挿入するようにしても良い。
また、構成要素説明情報を取得する処理を、指定受付部103が指定を受け付けた文字列に含まれる文単位で行うようにしてもよい。例えば、指定受付部103が指定を受け付けた文字列に含まれる一の文について構成要素説明情報を取得する処理を行い、取得した構成要素説明情報をメモリ等の記憶媒体に追記しながら一時記憶する。そして、一の文についての取得が終了した時点で、取得した構成要素説明情報の挿入位置を検出して、検出した挿入位置に取得した構成要素説明情報を挿入する。そして、この処理を、指定受付部103が指定を受け付けた文字列に含まれる全ての文について繰り返すようにしても良い。なお、指定を受け付けた文字列に含まれる文単位とは、指定を受け付けた文字列のうちの、句点で区切られた文字列単位と考えても良く、例えば指定を受け付けた文字列の先頭から一文字ずつ文字をずらして文字列を走査して句点を検出することで、語句説明情報取得部105は、構成要素説明情報の取得対象となる各文を検出可能である。かかることは、以下においても同様である。
なお、同じ位置に挿入される構成要素説明情報の挿入する順番は、構成要素説明情報の取得順であることが好ましい。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
なお、ステップS301において形態素解析を行う代わりに、同等の処理が実現可能な正規表現を用いた検索等をステップS303等で行うようにしても良い。
図4は、図2のステップS204の処理の詳細を説明するためのフローチャートである。以下、出願文書情報処理装置1の動作の処理の詳細について図3のフローチャートを用いて説明する。
(ステップS401)検出部104は、カウンターnに1を代入する。
(ステップS402)検出部104は、n番目の用語要素語句が用語管理情報に格納されているか否かを判断する。格納されている場合、ステップS403に進み、格納されていない場合、上位の処理にリターンする。
(ステップS403)検出部104は、n番目の用語要素語句に一致する文字列である用語を、ステップS203で取得した出願文書情報の、指定受付部103が指定を受け付けた文字列において検索する。なお、この検索は、例えば、文の最初から行うようにし、一致するものが検出された時点で検索は終了して良い。
(ステップS404)検出部104は、n番目の用語要素語句に一致する文字列が検出できたか否かを判断する。検出できた場合、ステップS405に進み、検出できなかった場合、ステップS408に進む。
(ステップS405)語句説明情報取得部105は、用語管理情報からn番目の用語要素語句に対応した用語説明情報を取得する。
(ステップS406)語句説明情報挿入部106は、検索された用語の位置と、用語説明情報の挿入位置との関係を示す情報等を用いて、ステップS203で取得した出願文書情報内の、ステップS405で取得した用語説明情報を挿入する位置を検出する。なお、用語の位置と挿入位置との関係を示す情報は、例えば、予め図示しない記憶媒体等に格納されているものを読み出すようにすればよい。
(ステップS407)語句説明情報挿入部106は、ステップS405で取得した構成要素説明情報を、ステップS203で取得した出願文書情報のステップS406で検出した位置に挿入する。
(ステップS408)検出部104は、カウンターnの値を1インクリメントする。そして、ステップS402に戻る。
なお、図4のフローチャートにおいては、ステップS405で用語説明情報を取得するごとに、取得した用語説明情報を出願文書情報内に挿入するようにしたが、一旦、図示しないメモリ等の記憶媒体に全ての用語説明情報を追記しながら一時記憶し、ステップS402でn番目の用語説明語句がなしと判断された時点で、一時記憶した用語説明情報を出願文書情報内に挿入するようにしても良い。
また、用語説明情報を取得する処理を、指定受付部103が指定を受け付けた文字列に含まれる文単位で行うようにしてもよい。例えば、指定受付部103が指定を受け付けた文字列に含まれる一の文について用語説明情報を取得する処理を上記と同様に行い、取得した用語説明情報をメモリ等の記憶媒体に追記しながら一時記憶する。そして、一の文についての取得が終了した時点で、取得した用語説明情報の挿入位置を検出して、検出した挿入位置に取得した構成要素説明情報を挿入する。そして、この処理を、指定受付部103が指定を受け付けた文字列に含まれる全ての文について繰り返すようにしても良い。なお、後述する具体例においては、このような処理を行う例について説明する。
なお、同じ位置に挿入される用語説明情報の挿入する順番は、用語説明情報の取得順とすることが好ましい。
なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における出願文書情報処理装置1の具体的な動作について説明する。
図5は、出願文書情報格納部101に格納されている出願文書情報を示す図である。出願文書情報は、例えば、ユーザが作成中の特許出願の明細書であるとする。ここでは出願文書情報は、テキストファイルであるとする。
図6は、語句管理情報格納部102に含まれる語句管理情報のうちの、構成要素管理情報を示す図である。構成要素管理情報は、構成要素名を示す項目である「構成要素」と、構成要素説明情報を示す項目である「構成説明」とを有している。構成要素説明情報の中の「<構成要素>」という文字列は、構成要素名が挿入される位置を示す情報であるとする。
図7は、語句管理情報格納部102に含まれる語句管理情報のうちの、用語管理情報を示す図である。用途管理情報は、用語要素語句を示す項目である「用語要素」と、用語説明情報を示す項目である「用語説明」とを有している。
まず、ユーザが図5に示すような出願文書情報を、出力部107等により図示しないモニタ等に表示させる。そして、表示された出願文書情報中の文字列の選択を開始したい位置にフォーカスし、図示しないマウス等を操作してカーソルをドラッグすることで、この文字を先頭とする所望の文字列を選択したとする。この操作によって、指定受付部103は、選択された文字列の指定を受け付ける。また、ここでは、選択された出版文書情報中の文字列が強調表示されて出力されるとする。
図8は、文字列が指定された出願文書情報の表示例を示す図である。例えば、ここでは、「画像格納部11には、画像が格納されている。画像処理部12は、ユーザ」という文字列が選択されたとする。
そして、ユーザが、メニュー等を操作して、指定した文字列に関連した語句説明情報を挿入する指示を出願文書情報処理装置1に与えたとする。
検出部104は、文字列の指定を受け付けた出願文書情報を図示しないメモリ等に取得する。
次に、出願文書情報処理装置1は、構成要素名を取得するための処理を行う。ここでは、数字列の直前に配置される連続した漢字列を構成要素名として取得するルールが予め設定されているものとする。検出部104は、出願文書情報内の指定受付部103が指定を受け付けた部分の文字列である指定文字列を取得して、形態素解析を行う。そして、形態素解析の結果を用いて、検出部104は、指定された範囲の先頭から、まず1番目の数字列を検出する。ここでは、1番目の数字列として「11」が検出される。そして、この数字列の直前の位置に配置されている連続した漢字列である「画像格納部」を1番目の構成要素名として検出し、図示しない記憶媒体等に読み出す。
語句説明情報取得部105は、図6に示した構成要素管理情報の1番目のレコード(一番上のレコード)の「構成要素」の値である構成要素語句「受付」を読み出し、この「受付」に一致する文字列が、1番目の構成要素名「画像格納部」の中に含まれるか否かを判断する。ここでは、一致する文字列が含まれないため、構成要素語句「受付」は含まれないと判断される。
次に、語句説明情報取得部105は、図6に示した構成要素管理情報の2番目のレコードの「構成要素」の値である構成要素語句「格納」を読み出し、この「格納」に一致する文字列が1番目の構成要素名「画像格納部」の中に含まれるか否かを判断する。ここでは、一致する文字列が含まれるため、構成要素語句「格納」が含まれると判断される。このため、語句説明情報取得部105は、構成要素語句である「格納」に対応した「構成説明」の値である構成要素説明情報を、図6に示した構成要素管理情報から読み出す。具体的には、構成要素語句である「格納」は、図6に示した構成要素管理情報の2番目のレコードの「構成要素」の値であるため、同じ2番目のレコードの「構成説明」の値である「<構成要素>は、不揮発性の記録媒体が好適で…」を構成要素説明情報として取得する。
さらに、語句説明情報取得部105は、取得した構成要素説明情報内に配置されている構成要素名の挿入位置を示す情報である「<構成要素>」の文字列が示す位置に、1番目の構成要素名である「画像格納部」を挿入する。このとき、ここでは、構成要素名の直後の数字列も取得して挿入する。そして、「<構成要素>」の文字列を削除する。これにより、「画像格納部11は、不揮発性の記録媒体が好適で…」という構成要素説明情報が得られる。そして、取得した構成要素説明情報を、図示しないメモリ等の記憶媒体に一時記憶する。
さらに、上記と同様に、出願文書情報処理装置1は、図6に示した構成要素管理情報の3番目以降のレコードの「構成要素」の値が示す構成要素語句についても、1番目の構成要素名に含まれるか否か等の判断を行い、含まれる場合には、構成要素語句に対応した構成要素説明情報を取得して、メモリ等に取得した出願文書情報内に取得した構成要素説明情報を挿入する。
図6に示した構成要素管理情報の全てのレコードについての上記の処理が終わると、検出部104は、上記の形態素解析の結果を用いて、指定された範囲の先頭から、2番目の数字列「12」を検出し、この数字列の直前の位置に配置されている連続した漢字列である「画像処理部」を2番目の構成要素名として検出する。そして、この構成要素名が、これ以前に検出された構成要素名と一致するか否かを判断する。ここでは一致しないため、この構成要素名を図示しない記憶媒体等に読み出す。なお、一致する場合は、次の構成要素名の検出を行う。
そして、上記と同様に、この2番目の構成要素名に含まれる構成要素語句の検出を行う。ここでは、図6に示した構成要素管理情報のいずれの「構成要素」も、2番目の構成要素名である「画像処理部」の少なくとも一部と一致しなかったとする。このため、検出部104は、他の構成要素語句のいずれも含まないことを示す構成要素語句の値である「<他>」を検出する。そして、語句説明情報取得部105は、この構成要素語句の値である「<他>」に対応した構成要素説明情報である「<構成要素>は、通常、MPUやメモリ等から実現され…」を取得し、「画像処理部12は、通常、MPUやメモリ等から実現され…」という構成要素説明情報を構成要素名の挿入により作成する。そして、この構成要素説明情報を、図示しないメモリ等に一時記憶する。
次に、指定受付部103が指定を受け付けた文字列である指定文字列に、3番目の構成要素名が検出されなかったとすると、語句説明情報挿入部106は、出願文書情報において、語句説明情報取得部105が取得してメモリ等に一時記憶した構成要素説明情報の挿入位置を検出する。ここでは、例えば、指定受付部103が指定を受け付けた文字列を含む最後の文の、次の文として、取得した構成要素説明情報が挿入されることが、予め設定されていたとする。この設定を示す情報は,例えば図示しない記憶媒体等に予め格納されているものとする。この場合、まず、語句説明情報挿入部106は、指定受付部103が指定を受け付けた文字列の最後尾の文字が、句点、または、句点と改行コードやスペース等の特殊な記号(制御の為の記号等)との組み合わせであるか否かを判断する。このいずれかであれば、指定文字列の最後尾の句点の次の位置を、構成要素説明情報の挿入位置として検出する。また、句点、または、句点と特殊な記号との組み合わせでなければ、指定を受け付けた文字列以降の文字を走査して、指定を受けた文字列意向に現れる最初の句点を検出し、その次の位置を、挿入位置として検出する。この場合は、「画像処理部12は、ユーザの指示に応じて画像を処理する。」の「。(句点)」の次が構成要素説明情報の挿入位置となる。
そして、語句説明情報挿入部106は、出願文書情報の検出した挿入位置に、語句説明情報取得部105が取得した語句説明情報を挿入する。
つぎに、検出部104は、用語の検出を開始する。用語の検出は、ここでは、図7に示した用語管理情報に含まれる「用語要素」と一致する文字列を用語として検出する。また、用語の検出は指定文字列に含まれる文単位で行うものとする。指定文字列に含まれる文単位とは、ここでは、句点で区切られた文字列単位と考えるものとする。指定受付部103により指定文字列を構成する各文は、指定文字列の先頭から、次の句点が現れるまでの範囲の文字列、あるいは、一の句点から次の句点が現れるまでの範囲の文字列、あるいは指定文字列の先頭(または一の句点)から指定文字列の最後の文字までに次の句点が検出されなかった場合は、その先頭(または一の句点)から指定文字列の最後の文字までの文字列である。
まず、検出部104は、図7の用語管理情報の1番目のレコードから「用語要素」の値を読み出し、この値と一致する文字列が、メモリ等の記憶媒体に読み出した出願文書情報内の指定受付部103が指定を受け付けた部分の文字列に含まれる1番目の文に含まれるか否かを判断する。まず、検出部104は、指定受付部103が指定を受け付けた文字列のうちの1番目の文の文字列として、指定文字列の先頭から、1番目の句点が現れるまでの範囲内の文字列を取得する。取得した1番目の文の文字列は、「画像格納部11には、画像が格納されている」である。そして、この1番目の文の文字列に、「用語要素」の値と一致する文字列が含まれるか否かを判断する。具体的には、読み出した値を検索キーとして用いて、取得した文字列内に一致する文字列の検索を行い、一致するものが検出された時点で、この一致する文字列を用語として検出する。なければ、更に2番目以降のレコードから「用語要素」の値を読み出して上記の処理を繰り返す。
ここでは、用語管理情報の1番目のレコードの「用語要素」は、「画像」であり、一致する文字列が指定文字列の最初の二文字と一致するため、検出部104は、指定文字列内のこの文字列を1番目の用語として検出する。
そして、語句説明情報取得部105は、この用語管理情報の1番目のレコードの「用語要素」である「画像」に対応した用語説明情報を取得する。具体的には用語管理情報の1番目のレコードの用語説明情報を取得する。取得した用語説明情報は、図示しないメモリ等の記憶媒体に一時記憶する。
用語管理情報の1番目のレコードの「用語要素」である「画像」と一致する文字列が既に検出されているため、検出部104は、用語管理情報の2番目のレコードの「用語要素」である「出力」を読み出し、これに一致する文字列の検出を指定文字列のうちの1番目の句点が現れるまでの文字列について行う。ここでは、指定文字列内に一致する文字列が検出されない。
このため、検出部104は、用語管理情報の3番目のレコードの「用語要素」である「格納」と一致する文字列の検索を、指定文字列のうちの1番目の句点が現れるまでの文字列について行う。ここでは、一致する文字列が検出されるため、一致する文字列を2番目の用語として検出する。これ以降は、上記と同様に、この2番目に検出した用語について用語説明情報を取得して、図示しないメモリ等の記憶媒体に一時記憶する。
さらに、上記と同様に、用語管理情報の4番目以降のレコードの「用語要素」についても上記と同様の処理を繰り返す。
そして、指定文字列のうちの1番目の文についての用語説明情報を取得する処理が終わった時点で、語句説明情報挿入部106が、メモリ等に一時記憶した用語説明情報の挿入位置を検出する。ここでは、1番目の句点を検出し、その直後の位置を、挿入位置に決定する。そして、出願文書情報の、この位置に、語句説明情報挿入部106が、一時記憶した用語説明情報を挿入する。
さらに、検出部104は、指定文字列に、2番目の文があるか否かを判断する。ここでは、1番目の句点の後に文字列が続いているため、2番目の文があると判断する。そして、指定文字列の、1番目の句点以降の文字列に新たな句点が検出されないため、1番目の句点の次の文字から指定文字列の最後の文字までの文字列を、2番目の文として取得する。ここでは、「画像処理部12は、ユーザ」が2番目の文に含まれる文字列として取得される。
そして、2番目の文についても、上記と同様の用語説明情報を取得する処理を行う。このとき、既に2番目の文よりも前の文において一致する語句が検出された「用語要素」と一致する文字列の検索は行わないようにする。例えば一致する語句が検出された「用語要素」には、検出されたことを示す図示しないフラグ等の情報を付与しておくようにすればよい。
そして、2番目の文について用語説明情報を取得する処理が終了した時点で、一以上の用語説明情報が取得されていたとすると、語句説明情報挿入部106は、取得した用語説明情報の挿入位置を検出する。具体的には、ここでは、指定文字列の2番目の文の最後の文字は、句点でないため、指定文字列に含まれる1番目の句点の次の句点を、語句説明情報挿入部106が、出願文書情報において検出する。そして、検出した句点の次の位置に、取得した用語説明情報を挿入する。
ただし、ここでは、指定文字列の2番目の文からは用語説明情報が取得されないため、用語説明情報の挿入位置の検出や、用語説明情報の挿入等は行われない。また、指定文字列の2番目の文の最後の文字が句点の直前の文字でないため、指定文字列内には3番目以降の文が含まれないと判断され、用語説明情報を取得する処理を終了する。
そして、メモリ等に格納されている構成要素説明情報と用語説明情報とが挿入された出願文書情報を出力部107が出力する。例えば、出力部107は、出願文書情報格納部101に格納されている出願文書情報を、メモリ等に格納された構成要素説明情報と用語説明情報とが挿入された出願文書情報で置き換える。そして、置き換えた出願文書情報を図示しないモニタ等に表示する。
図9は、構成要素説明情報と用語説明情報とが挿入された出願文書情報の表示例を示す図である。図において下線を引いた部分が、語句説明情報挿入部106により挿入された語句説明情報を示す。
以上、本実施の形態によれば、出願文書情報内のユーザが指定した部分に対して関連した説明の文書等を自動的に挿入することができ、出願文書情報を容易に作成することが可能となる。
なお、上記具体例においては、用語の検出は、用語要素語句を用いた検索で行うようにしたが、本実施の形態においては、出願文書情報内の指定文字列から形態素解析等を行って検出した名詞や動詞等の特定の種類の自立語等を用語として検出し、構成要素名について構成要素説明情報を取得した場合と同様の処理により、用語管理情報から用語説明情報を取得するようにしてもよい。
また、上記具体例において、構成要素説明情報の取得も、用語説明情報と同様に、指定文字列の文単位で行うようにして、各文について取得した構成要素説明情報を、各文の次の文として挿入するようにしても良いことはいうまでもない、
なお、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(情報送信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりする情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
また、上記各実施の形態では、出願文書情報処理装置がスタンドアロンである場合について説明したが、出願文書情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、受付部や出力部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
なお、上記各実施の形態における出願文書情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、出願文書情報格納部に格納された特許出願に利用される文書である出願文書の情報である出願文書情報に対する1文字以上の文字列の指定を受け付ける指定受付部と、前記指定受付部が指定を受け付けた文字列に含まれる一以上の自立語を検出する検出部と、語句管理情報格納部に格納されている特許出願に関連する語句と、当該語句に関する説明を示す情報である語句説明情報とを有する語句管理情報から、前記検出部が検出した自立語に含まれる語句に対応する語句説明情報を取得する語句説明情報取得部と、語句説明情報取得部が取得した語句説明情報を、前記出願文書情報内に挿入する語句説明情報挿入部と、前記語句説明情報挿入部が語句説明情報を挿入した前記出願文書情報を出力する出力部として機能させるためのプログラムである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図10は、上記プログラムを実行して、上記実施の形態による出願文書情報処理装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図10において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図11は、コンピュータシステム900の内部構成を示す図である。図11において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム900に、上記実施の形態による出願文書情報処理装置等の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、上記実施の形態による出願文書情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。