本開示における発明文書分析システムは、技術的思想を日本語で表した、特許出願用のクレーム及び明細書を記載した文書である発明文書を、分析する発明文書分析システムであって、重要語句の抽出の条件を示す条件情報を含む設定情報を取得する設定情報取得部と、発明文書を取得する文書取得部と、前記文書取得部により取得された発明文書を、前記設定情報に基づいて分析する分析部と、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された情報を出力する出力部とを含み、前記分析部は、前記文書取得部により取得された発明文書から前記設定情報に基づいて重要語句を抽出する重要語句抽出部を含み、前記出力部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々に基づいて生成された情報を出力する発明文書分析システムである。
これにより、発明文書分析システムは、例えば発明者等(例えば発明者若しくはその関係者)又は弁理士により作成された、クレーム及び明細書を記載した発明文書を分析した結果に基づく情報を出力するので、例えば、その発明文書を翻訳する翻訳者等(例えば翻訳者又はその他の発明文書を用いる者)にとっては、出力された情報を参照することにより、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。発明文書における重要語句に基づいて生成された情報は、翻訳者が、発明文書の重要語句に対応する対応翻訳語を決定してから発明文書全体を翻訳するような場合において、有用となり得る。
ここで、前記条件情報は、重要語句の候補となる文字列のパターンを表した重要語句候補文字列パターンを示す重要語句候補文字列パターン情報と、先行記載した文字列の参照用に用いられる参照文字列のパターンを表した参照文字列パターンを示す参照文字列パターン情報と、要素名を表す文字列に後続して付記される符号の文字列のパターンを表した符号文字列パターンを示す符号文字列パターン情報と、所定の助詞である文字列のパターンを表した特定助詞文字列パターンを示す特定助詞文字列パターン情報とを含み、前記重要語句候補文字列パターン情報は、少なくとも、先頭文字が漢字である所定の文字列、及び、先頭文字が片仮名である所定の文字列が、当該重要語句候補文字列パターンに該当するように定められており、前記参照文字列パターン情報は、少なくとも、「前記」という文字列が、当該参照文字列パターンに該当するように定められており、前記符号文字列パターン情報は、少なくとも、先頭文字が数字である所定の文字列が、当該符号文字列パターンに該当するように定められており、前記特定助詞文字列パターン情報は、少なくとも、「を」、「に」、「が」、「と」、「から」、「へ」及び「は」のいずれかの文字が、当該特定助詞文字列パターンに該当するように定められており、前記重要語句抽出部は、前記文書取得部により取得された発明文書に、前記参照文字列パターンに該当する第1文字列に後続して前記重要語句候補文字列パターンに該当する第2文字列が存在する場合に、当該第2文字列と同一の文字列を重要語句として抽出する第1抽出部と、前記文書取得部により取得された発明文書のクレーム中に、前記重要語句候補文字列パターンに該当する第3文字列に後続して句点文字が存在するときには、当該第3文字列と同一の文字列を重要語句として抽出する第2抽出部と、前記文書取得部により取得された発明文書に、前記重要語句候補文字列パターンに該当する第4文字列に後続して前記符号文字列パターンに該当する第5文字列が存在する場合に、当該第4文字列と同一の文字列を重要語句として抽出する第3抽出部と、前記文書取得部により取得された発明文書に、前記重要語句候補文字列パターンに該当する第6文字列に後続して前記特定助詞文字列パターンに該当する第7文字列が存在する場合に、当該第6文字列と同一の文字列を重要語句として抽出する第4抽出部とを含み、前記重要語句抽出部は重要語句の前記抽出においては、前記重要語句候補文字列パターンに複数の文字列が該当していた場合において当該複数の文字列のうちの一の文字列が他の文字列に発明文書の記載上包含されていたときには、当該複数の文字列のうち当該一の文字列を除外した残余の文字列を選択対象として重要語句を選択して抽出し、前記出力部は、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された特許出願関連情報を出力し、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が、表示されるべき内容として含まれた、表示用文書として出力され、前記特許出願関連情報は、前記表示用文書において表示されるべき、前記文書取得部により取得された発明文書の前記クレームの内容を表すクレーム情報を含み、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報は、当該発明文書から前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々について、当該重要語句の表示態様を制御するための表示制御情報を含み、前記特許出願関連情報は、前記表示用文書において表示されるべき、前記文書取得部により取得された発明文書の前記明細書の内容を表す明細書情報を含み、前記文書取得部により取得された発明文書の明細書の内容を表す前記明細書情報は、当該発明文書から前記重要語句抽出部により抽出された当該明細書中の複数の重要語句各々について、当該重要語句の表示態様を制御するための表示制御情報を含み、前記クレーム情報及び前記明細書情報における、前記重要語句抽出部により抽出された複数の重要語句各々についての、当該重要語句の表示態様を制御するための前記表示制御情報は、当該表示制御情報に対応する当該重要語句の表示態様を、前記クレーム情報及び前記明細書情報における当該複数の重要語句以外の語句の表示態様と相違させるための強調表示情報を含み、前記クレーム情報に表される重要語句のうち、重要語句を構成する文字列が互いに相違する複数の重要語句各々に対応する、表示態様を制御するための前記表示制御情報各々は、当該複数の重要語句各々を互いに相違する表示態様で表示するように制御するための、互いに相違する識別情報を含み、前記明細書情報に表される重要語句のうち、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一の重要語句の表示態様を制御するための前記表示制御情報は、当該重要語句の表示要素を、前記クレーム情報における前記1つの重要語句の表示要素の表示態様と少なくとも一部において同様の表示態様で表示するように制御するための情報を含み、前記明細書情報に表される重要語句のうち、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句のいずれとも相違する重要語句の表示態様を制御するための前記表示制御情報は、当該重要語句の表示要素を、前記クレーム情報における当該複数の重要語句の表示要素のいずれとも相違する表示態様で表示させるように制御するための情報を含むこととしてもよい。
これにより、例えば、翻訳者等(翻訳者、発明者等又は弁理士、或いは、その他の者)は、ブラウザ等により表示された表示用文書に係る特許出願関連情報のクレーム情報及び明細書情報において表示態様が制御された重要語句を識別することが可能となり得る。また、特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中の明細書情報において記載された各重要語句が、クレームに記載されている重要語句か否かを識別することが可能となり、複数の重要語句が同一か相違するかを、各重要語句の表示態様により、迅速に把握することが可能となり得る。なお、発明文書分析システムにおいて、重要語句の表示態様の制御として、例えば強調表示(例えば太字で表示する等)がなされたとすれば、翻訳者等は、クレーム情報における重要語句の迅速な把握が可能となり得る。なお、この発明文書分析システムにより生成される表示用文書(つまり特許出願関連情報を表示させるべきものとして含む表示用文書)は、マイクロプロセッサを備える機器にインストールされたブラウザ等により、解釈の対象とされ、その結果として、特許出願関連情報が表示されることになる。翻訳者等は、発明文書に基づいて生成された表示用文書における特許出願関連情報を閲覧することで、その発明文書を効率的に理解することが可能になる。
また、例えば、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報が含む、前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々についての、当該重要語句に係る前記表示制御情報は、当該重要語句に付加される表示色を示す情報を含み、前記文書取得部により取得された発明文書の明細書の内容を表す前記明細書情報が含む、前記重要語句抽出部により抽出された当該明細書中の複数の重要語句各々についての、当該重要語句に係る前記表示制御情報は、当該重要語句に付加される表示色を示す情報を含み、前記クレーム情報に表される重要語句のうち、重要語句を構成する文字列が互いに相違する複数の重要語句各々に係る前記表示制御情報は、当該複数の重要語句各々の表示要素を、重要語句毎の前記識別情報に対応して、相違する表示色を付加した表示態様で表示するように制御するための情報を含み、前記明細書情報に表される重要語句のうち、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一の重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、前記クレーム情報における前記1つの重要語句の表示要素の表示態様として付加された表示色と同一の表示色を付加した表示態様で表示するように制御するための情報を含むこととしてもよい。
これにより、例えばブラウザを搭載したPC、スマートフォンその他のコンピュータを用いて、翻訳者等は表示用文書としての特許出願関連情報を閲覧できる。ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中において重要語句に対して付加された表示色を識別することにより、ある重要語句がクレームに記載されている重要語句か否かを識別することが可能となり、複数の重要語句が同一であるのか相違するのであるのかを迅速に把握できる。
また、例えば、前記表示用文書は、前記特許出願関連情報を表示されるべき内容として含み、HTML(Hypertext Markup Language)で記載されたHTMLファイルを含むHTML文書であり、前記クレーム情報における、重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一の文字列で構成される、前記クレーム情報における重要語句に係る表示制御情報は、当該重要語句を、前記1つの重要語句の表示態様として付加された表示色と同一の表示色を付加した表示態様で表示するように制御するためのものであり、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々に係る前記表示制御情報は、当該複数の重要語句各々を、重要語句毎に相違する表示色で所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであり、前記明細書情報における、複数の重要語句各々について、当該重要語句が、前記クレーム情報における前記複数の重要語句のうちのいずれか1つの重要語句と同一であれば、前記明細書情報における当該重要語句に係る前記表示制御情報は、当該重要語句を、前記クレーム情報における前記1つの重要語句の表示態様に係る左境界線の表示色と同一の表示色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであり、前記明細書情報における当該重要語句が、前記クレーム情報における当該複数の重要語句のいずれとも相違すれば、前記明細書情報における当該重要語句に係る前記表示制御情報は、当該重要語句を、前記所定幅を有する左境界線が付加されていない表示態様で表示するように制御するためのものであることとしてもよい。
これにより、HTMLに対応しているブラウザを搭載したPC、スマートフォンその他のコンピュータを用いて、翻訳者等はHTML文書である表示用文書としての特許出願関連情報を閲覧できる。ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中においてクレーム情報に含まれる相違する重要語句同士を、その各重要語句に付加された左境界線の表示色を識別することで、迅速に区別できる。なお、相違する重要語句同士について、重要語句に付加された左境界線の表示色を相違させて表現する方法には、重要語句の文字色或いは文字背景色を相違させて表現する方法より、表示領域の背景色が暗い色(例えば黒)か明るい色(例えば白)かに拘わらず重要語句自体の判読性を低下させないという利点がある。またHTML文書で一部の表示要素に付加可能な左境界線は、文字ではないので、重要語句を含む記載の表示内容のテキストについてのコピー&ペースト等を行う場合に無視されるため、表示内容をテキストエディタ等へとコピー&ペーストして、重要語句を含む記載等を編集するような場合において、邪魔にならない。
また、例えば、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句についての、当該重要語句の前記識別情報は、当該重要語句と同一の文字列で構成された重要語句が当該クレームに記載されていた最先の位置の昇順に定められた通番を示す情報を含み、前記クレーム情報における前記複数の重要語句各々に係る前記表示制御情報は、当該複数の重要語句各々について、重要語句毎の前記識別情報に係る前記通番が所定数以下である第1グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、当該組の全てでの最小値が、前記通番が所定数より大きい第2グループの複数の重要語句と当該第1グループの複数の重要語句とを混合した混合グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、当該組の全てでの最小値より大きくなるように、各重要語句に付加する表示色を制御するためのものであることとしてもよい。
これにより、ブラウザ等により表示用文書としての特許出願関連情報におけるクレーム情報中の各重要語句が表示された場合に、クレーム情報を閲覧した翻訳者等にとって、クレーム情報中の各重要語句の迅速な識別が可能となり得る。重要語句の表示制御情報による重要語句の識別情報に係る通番(例えば発明文書のクレームにおける重要語句の初出行番号)に基づく表示色の調整は、クレーム情報の項番が比較的小さい項の記載部分(つまり比較的重要な部分)において配置された複数の重要語句間の表示色の差異を比較的大きくし得るので、その部分での重要語句間の識別性を向上させ得る。
また、例えば、前記所定幅は、1文字分の幅であり、前記クレーム情報における、重要語句を構成する文字列が互いに相違する前記複数の重要語句について、当該重要語句に係る前記表示制御情報は、当該重要語句を、右境界線、上境界線及び下境界線が付加されていない表示態様で表示するように制御するためのものであり、前記表示色の差異は、表示色の色相成分の差異、又は、表示色を表すRGB値の各成分の差異であることとしてもよい。
これにより、重要語句に付加される境界線が左境界線だけの簡潔なものとなるので、重要語句の視認性が向上する。また、左境界線が1文字分の幅(例えば1emで表現される幅)であることは、クレーム情報における前記複数の重要語句各々の直前に1文字分の表示色で塗られた四角形が表示されることになり、1文字分の四角形は、文字列に混在しても、クレーム情報における各文字の配置を乱しにくいので、その各文字の視認性を妨げにくいという効果が生じる。なお、例えば、表示用文書におけるクレーム情報中の各文字の表示用のフォントとして等幅フォントを用いることとしている場合には、1文字分の四角形が文字列に混在した場合に各文字の配置を整列状態に保つことが可能となり得るし、クレーム情報中の各文字の表示用のフォントとして等幅ではないプロポーショナルフォントを用いることとしていても1文字分の四角形の幅は、比較的多くの文字の幅(特に比較的多くの漢字、平仮名、片仮名等の日本語の全角文字の幅)に対して大差ない等により、クレーム情報を目視した場合に各文字の配置を乱して視認性を大きく妨げるようなことはない。
また、例えば、前記特許出願関連情報は、前記クレーム情報の各行を包含して、包含した前記クレーム情報の一行毎又は一項毎に、当該一行又は当該一項の内容の直後に、当該一行又は当該一項に含まれる重要語句を当該重要語句に対応する対応翻訳語に置換した結果を含む翻訳行を挿入したクレーム翻訳情報を含み、前記特許出願関連情報は、前記明細書情報の各行を包含して、包含した前記明細書情報の一行毎に、当該一行の内容の直後に、当該一行に含まれる重要語句を当該重要語句に対応する対応翻訳語に置換した結果を含む翻訳行を挿入した明細書翻訳情報を含み、前記クレーム翻訳情報及び前記明細書翻訳情報は、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句各々と同一の重要語句に対応する対応翻訳語について、当該重要語句に対応する対応翻訳語の表示態様を制御するための表示制御情報を含み、前記クレーム翻訳情報及び前記明細書翻訳情報における前記重要語句に対応する前記対応翻訳語に係る前記表示制御情報は、当該対応翻訳語を、当該重要語句に付加された表示色と同色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであることとしてもよい。
これにより、例えば、ブラウザ等により表示された表示用文書に係る特許出願関連情報のクレーム翻訳情報及び明細書翻訳情報を閲覧した翻訳者等は、重要語句、及び、対応翻訳語に対して付加された左境界線の表示色を識別することにより、ある対応翻訳語が、クレームに記載されているどの重要語句に対応するのかを迅速に把握することが可能となる。
また、例えば、前記特許出願関連情報は、前記クレーム情報の内容に含まれる重要語句を当該重要語句に対応する対応翻訳語に置換した結果を表すクレーム翻訳情報を含み、前記特許出願関連情報は、前記明細書情報の内容に含まれる重要語句を当該重要語句に対応する対応翻訳語に置換した結果を表す明細書翻訳情報を含み、前記クレーム翻訳情報及び前記明細書翻訳情報は、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句各々と同一の重要語句に対応する対応翻訳語について、当該重要語句に対応する対応翻訳語の表示態様を制御するための表示制御情報を含み、前記クレーム翻訳情報及び前記明細書翻訳情報における前記重要語句に対応する前記対応翻訳語に係る前記表示制御情報は、当該対応翻訳語を、当該重要語句に付加された表示色と同色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであることとしてもよい。
これにより、例えば、ブラウザ等により表示された表示用文書に係る特許出願関連情報のクレーム情報、クレーム翻訳情報及び明細書翻訳情報を閲覧した翻訳者等は、クレーム情報の重要語句、及び、対応翻訳語に対して付加された左境界線の表示色を識別することにより、クレーム翻訳情報及び明細書翻訳情報における、ある対応翻訳語が、クレーム情報中のどの重要語句に対応するのかを迅速に把握することが可能となる。
また、例えば、前記設定情報は、抽出対象とすべき重要語句を列挙した重要語句設定辞書の特定用情報を含み、前記重要語句設定辞書では、列挙されている重要語句の少なくとも一部に対して対応翻訳語が対応付けられており、前記発明文書分析システムは、前記設定情報に基づいて前記重要語句設定辞書を取得する重要語句設定辞書取得部を含み、前記重要語句抽出部は、前記重要語句設定辞書に列挙されている重要語句が前記文書取得部により取得された発明文書に含まれている場合には、当該発明文書から当該重要語句を抽出し、前記クレーム情報又は前記明細書情報における重要語句が、前記重要語句設定辞書で対応翻訳語が対応付けられている重要語句である場合には、前記クレーム翻訳情報又は前記明細書翻訳情報における当該重要語句の対応翻訳語として、前記重要語句設定辞書で当該重要語句に対応付けられている対応翻訳語が用いられることとしてもよい。
これにより、例えば、発明文書を作成した発明者等又は弁理士は、特定の語句を重要語句として定めておきたい場合、少なくとも一部の重要語句についての対応翻訳語を定めておきたい場合等に、重要語句設定辞書を生成しておくことで、発明文書分析システムにより、適切な特許出願関連情報が出力されるようになり得る。このため、翻訳者は、その特許出願関連情報を参考にして発明文書の翻訳を、効率的に又は適正に行うことが可能となり得る。また、翻訳者が、重要語句について対応翻訳語を定めている場合等において重要語句設定辞書を生成しておくことで、発明者等又は弁理士から提供された発明文書を、発明文書分析システムで分析させた場合に、適切な特許出願関連情報が出力されるようになり得る。
また、例えば、前記文書取得部により取得された発明文書について生成された前記特許出願関連情報に係る前記表示用文書における、当該発明文書から前記重要語句抽出部により抽出された重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、操作に応じて、ネットワーク上の検索サイトで、当該重要語句を含むウェブページ、当該重要語句の定義、当該重要語句の類義語、若しくは、当該重要語句の関連画像を検索する処理、又は、ネットワーク上の翻訳サイトで当該重要語句を翻訳させる処理を、実行するグラフィカルユーザインタフェース(GUI)として機能させるものであることとしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された特許出願関連情報中の重要語句に対する操作(つまり重要語句の表示要素に対する操作)により、その重要語句の検索結果(例えば重要語句を含むウェブページ、重要語句の定義、類義語、関連画像)、重要語句の翻訳結果等の情報を知得することが可能となり得るので、発明文書における重要語句について効率的に又は適正に理解することが可能となり得る。このため、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記文書取得部により取得された発明文書について生成された前記特許出願関連情報に係る前記表示用文書における、当該発明文書から前記重要語句抽出部により抽出された重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、操作に応じて、当該重要語句の属性情報の少なくとも一部の表示、又は、当該重要語句の属性情報に基づいて決定された当該重要語句の重要度の表示のためのGUIとして機能させるものであり、発明文書から抽出された重要語句の前記属性情報は、当該発明文書のクレーム中で当該重要語句を定義しているクレームの項が存在する場合に当該項の項番を示す情報と、当該発明文書のクレーム中で当該重要語句を参照しているクレームの項が存在する場合に当該項の項番を示す情報と、当該発明文書中において当該重要語句に符号が付加された記載が存在する場合に当該符号を示す情報と、当該発明文書中において当該重要語句が主語として使用された記載が存在するか否かを識別する情報とを含むこととしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された重要語句に対する操作により、その重要語句の重要度又は属性情報の情報を知得することが可能となり得るので、発明文書におけるどの重要語句が重要であるかを、ある程度、認識可能となり、重要語句について効率的に又は適正に理解することが可能となり得る。このため、翻訳者は、重要な重要語句についての翻訳語句の決定を優先的に実行する等により、効率的な翻訳が可能となり得る。
また、例えば、前記文書取得部により取得された発明文書について生成された前記特許出願関連情報に係る前記表示用文書における、当該発明文書から前記重要語句抽出部により抽出された重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、操作に応じて、前記クレーム情報及び前記明細書情報から当該重要語句を含む行を列挙して表示する重要語句包含記載列挙処理を実行するためのGUIとして機能させるものであり、前記重要語句包含記載列挙処理は、操作対象となった重要語句を含む行を前記クレーム情報及び前記明細書情報から列挙して表示し、当該列挙して表示した各行における当該重要語句については強調表示を行い、表示した行には、当該行に対する操作に応じて、前記クレーム情報又は前記明細書情報における当該行を含む複数行へのリンク表示のためのGUIとして当該行を機能させるための表示制御情報を付加する処理であることとしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された特許出願関連情報中の重要語句に対する操作により、重要語句包含記載列挙処理の結果として列挙表示される、クレーム情報及び明細書情報におけるその重要語句を含む行を確認することができる。このため、翻訳者等は、発明文書における重要語句について効率的に又は適正に理解することが可能となり得る。また、このため、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。また、翻訳者等は、操作した重要語句を含むことで重要語句包含記載列挙処理により列挙された行におけるその重要語句が強調表示されるので、その重要語句を的確に識別できる。また、翻訳者等は、操作した重要語句を含むことで重要語句包含記載列挙処理により列挙された行のうちの1つの行に対して更に操作することで、更に表示されることになる、その1つの行に前後する、クレーム情報、明細書情報又は別の発明文書における複数行を、容易に確認可能となる。
また、例えば、前記特許出願関連情報は、発明文書から前記重要語句抽出部により抽出された重要語句毎に行を改めて重要語句を列挙した重要語句リストを含み、前記重要語句リストの各行は所定の順序で並べられ、当該順序は、行毎の重要語句について決定された重要度の高い順、行毎の重要語句について文字コード順でのソート結果に従った順、行毎の重要語句についての発明文書における使用数の多い順、又は、行毎の重要語句についての発明文書のクレームにおける使用数の多い順であることとしてもよい。
これにより、翻訳者は、特許出願関連情報における重要語句リストを確認することで、発明文書に含まれる重要語句を迅速に把握でき、例えば、重要語句リストに列挙された重要語句の翻訳語句を決定してから発明文書全体の翻訳に入ることで、効率的な翻訳が可能となり得る。また、重要度の高い順、発明文書における使用数の多い順、或いは、クレームにおける使用数の多い順に、重要語句が並べられた重要語句リストを閲覧した翻訳者にとっては、重要語句が並べられた順に、各重要語句についての翻訳語句の決定を行うことで、効率的な翻訳が可能となり得る。また、文字コード順でのソート結果に従った順に重要語句が並べられた重要語句リストを閲覧した翻訳者等にとっては、重要語句リストにおいて連続して並ぶ、語尾のみが相違する複数の重要語句(例えば「一時記録フォルダ」と「一時記録フォルダー」、或いは、「外部記憶装置」と「外部記憶送致」)を対比することで、重要語句の語尾に係る誤記の検出を迅速に行うことが可能となり得る。また、発明者等、弁理士、或いは、翻訳者は、発明文書分析システムに一旦発明文書を分析させた結果として出力される特許出願関連情報における重要語句リストを、編集することで、発明文書から適切に重要語句を抽出するために用いられ得る重要語句設定辞書の生成、更新等を効率的に行うことが可能となり得る。
また、例えば、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々に係る前記表示制御情報は、当該複数の重要語句各々を、重要語句毎に相違する表示色で所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであり、前記重要語句リストにおける各重要語句について、当該重要語句が、前記クレーム情報における前記複数の重要語句のうちのいずれか1つの重要語句と同一であれば、前記重要語句リストにおける当該重要語句には、当該重要語句を、前記クレーム情報における前記1つの重要語句の表示態様に係る左境界線の表示色と同一の表示色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御する表示制御情報が付加されることとしてもよい。
これにより、表示用文書としての特許出願関連情報を閲覧した翻訳者等は、重要語句リストにおける各重要語句のうち、クレーム情報において記載されている重要語句を区別可能となり、また、クレーム情報において記載されている各重要語句と対応する、重要語句リストにおける重要語句を迅速に識別可能となり得る。
また、例えば、前記分析部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された1つ以上の重要語句について、当該重要語句についての対応翻訳語の候補の集合である翻訳語候補集合を特定するための翻訳語候補集合特定部を含み、前記重要語句リストの各行は、1つの重要語句と、当該重要語句に対応する対応翻訳語又は翻訳語候補集合とを含むこととしてもよい。
これにより、発明文書分析システムにより出力される特許出願関連情報の重要語句リストに含まれる重要語句に対応する翻訳語候補集合又は対応翻訳語を参照することで、翻訳者は、例えば重要語句に対応する翻訳語候補集合から1つの翻訳語句を選択する等により、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記重要語句リスト中の、重要語句と、当該重要語句に対応する翻訳語候補集合とを含む行において、当該翻訳語候補集合の要素数が複数である場合には、当該翻訳語候補集合の複数の要素は、当該重要語句の翻訳語句として妥当な度合いの評価値を示す妥当性の高い順に並べて記載され、前記重要語句リストに含まれる、複数の要素を含む翻訳語候補集合に対応する表示要素には、当該翻訳語候補集合の各要素を選択可能に表示して選択された要素を対応翻訳語として決定し、当該翻訳語候補集合の表示要素の内容を、決定した当該対応翻訳語に置換して表示する処理と、当該重要語句と当該対応翻訳語とを対応付けた情報である翻訳補助情報を生成して出力する処理とを実行するGUIとしての機能を持たせるための表示制御情報が付加され、前記分析部は、前記発明文書分析システムにより、過去に出力された複数の翻訳補助情報を収集統合して生成されたデータに基づく予め定められた演算処理で前記翻訳語候補集合の要素に係る前記妥当性を算定する機能を有することとしてもよい。
これにより、重要語句リストに含まれる重要語句に対応した、妥当性の高い順に要素を含む翻訳語候補集合を参照することで、翻訳者は、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。また、その重要語句リストを閲覧する翻訳者、その翻訳者に関係ある者(例えばその翻訳者と同じ部署、グループ等に所属する他の翻訳者)等により、過去に、翻訳語候補集合から選択された結果に基づいて、重要語句に対応する翻訳語候補集合の要素に係る妥当性が算定され得るように発明文書分析システムを運用することは比較的容易なので、その妥当性を高く保つことが比較的容易に実現できる。
また、例えば、前記分析部は、前記文書取得部により取得された発明文書に基づいて警告情報を生成する警告情報生成部を含み、前記特許出願関連情報は、前記警告情報を含み、前記警告情報生成部は、前記文書取得部により取得された発明文書中に、同一の符号の直前には同一の要素名が記載されるという条件を満たしていない記載が含まれていることを検出した場合には、当該同一の符号と、当該符号が付加された複数の相違する表現の要素名とを示す指摘情報を、前記警告情報に含ませ、前記文書取得部により取得された発明文書の明細書中に、始め丸括弧と終わり丸括弧とで挟まれた括弧付き記載がある場合において、当該括弧付き記載と、当該括弧付き記載の直前の文字列の記載との関係が明確であるという条件を満たしていない括弧付き記載が含まれていることを検出したときには、括弧付き記載の意義が明確ではない旨と、発明文書の明細書における当該括弧付き記載の位置とを示す指摘情報を、前記警告情報に含ませ、前記文書取得部により取得された発明文書のクレームのいずれかの項に、参照文字列に後続して語句が記載されている場合にその語句と同一の被参照語句が、当該項の当該参照文字列に先行した部分に記載されている必要がある、又は、引用連鎖を踏まえて当該項が引用した項内に記載されている必要があるという条件を満たしていない参照文字列に係る記載が含まれていることを検出した場合には、先行した被参照語句の記載が存在しない旨と、当該検出した参照文字列に係る記載を含んでいる項の項番と、当該参照文字列に係る記載の内容とを示す指摘情報を、前記警告情報に含ませ、所定の下位概念語句リストを用いることで、前記文書取得部により取得された発明文書のクレームのうち、他の項を引用していない項である独立項について、下位概念を示す語句を用いないという条件を、満たしていない記載が含まれていることを検出した場合には、当該独立項の項番と、当該語句と、下位概念を示す語句が用いられている旨とを示す指摘情報を、前記警告情報に含ませ、前記文書取得部により取得された発明文書のクレームから前記重要語句抽出部により抽出された重要語句は明細書中に記載されているという条件を当該発明文書の明細書の記載が満たしていないことを検出した場合には、当該重要語句と、重要語句が明細書に記載されていない旨とを示す指摘情報を、前記警告情報に含ませ、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された2つの重要語句同士が、当該重要語句同士のうち一方の重要語句を構成するいずれかの、所定文字数分の文字を削除した場合に、当該削除後の当該一方の重要語句と、当該重要語句同士のうちの他方の重要語句とが同一となるという関係を有する場合に、当該2つの重要語句と、当該2つの重要語句の一方に誤記の可能性がある旨とを示す指摘情報を、前記警告情報に含ませ、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された2つの重要語句同士が、当該重要語句同士のうち一方の重要語句を構成する半角文字を全角文字に変換した場合に、当該変換後の当該一方の重要語句と、当該重要語句同士のうちの他方の重要語句とが同一となるという関係を有する場合に、当該2つの重要語句と、当該2つの重要語句の表記が形式的に不統一である旨とを示す指摘情報を、前記警告情報に含ませることとしてもよい。
これにより、発明文書分析システムにより出力された特許出願関連情報における警告情報(例えば警告情報中の指摘情報等)を参考にすることにより、発明文書を作成した発明者等又は弁理士は、必要であれば発明文書の修正を行い得る。また、翻訳者は、例えば、発明者等又は弁理士から、翻訳対象となる発明文書及び特許出願関連情報の提供を受けることにより、特許出願関連情報中の警告情報での指摘が残っていてもその指摘は特に対処の必要がないと発明者等又は弁理士が判断した結果であると推定できるので、翻訳対象となる適切な発明文書を取得することができ、この結果として、発明文書の翻訳を効率的に又は適正に行うことが可能となり得る。
また、例えば、前記警告情報生成部は、前記表示用文書としての前記特許出願関連情報に含まれる前記警告情報における少なくとも1つの前記指摘情報の表示要素に、当該指摘情報の指摘に該当する前記クレーム情報又は前記明細書情報における記載箇所へのリンク表示のためのGUIとして当該表示要素を機能させるための表示制御情報を付加することとしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報の警告情報を閲覧した発明者等又は弁理士は、表示された警告情報中の指摘情報に対する操作により、その指摘情報の指摘に該当するクレーム情報中又は明細書情報中の記載箇所を確認することが可能となり得るので、必要に応じて発明文書を適切に修正し得る。
また、例えば、前記特許出願関連情報は、前記文書取得部により取得された発明文書の明細書における見出しの記載を含む行を、当該明細書における記載順に列挙した明細書見出しリストを含み、前記発明文書分析システムは、前記発明文書の前記明細書における各行のうち、行頭の位置に、又は、行頭の1つ以上の空白文字に後続した位置に、予め定められた1種類以上の括弧(例えば隅付き括弧、山括弧、丸括弧等)のいずれかに係る始め括弧と終わり括弧とで挟まれた記載を含む行を、無条件で、又は、行末に句点文字「。」がないことを条件として、前記見出しの記載を含む行として扱うこととしてもよい。
これにより、特許出願関連情報における明細書見出しリストを閲覧した翻訳者等は、発明文書の明細書に記載されていることの概要を知得し得る。また、発明者等又は弁理士は、明細書見出しリストを閲覧することで、発明文書の明細書における各見出しの記載が妥当であるか否かを迅速に確認することが可能となる。例えば、発明文書分析システムに出力された特許出願関連情報中の明細書見出しリストにおいて、連続した2行として「(第1実施形態)」、「(第3実施形態)」という記載が含まれていれば、発明文書分析システムにおける分析の対象となった発明文書の明細書において「(第2実施形態)」という見出しが欠落していることを把握することができる。
また、例えば、前記発明文書分析システムは、始め隅付き括弧と終わり隅付き括弧とで挟まれた記載を含む行を、前記見出しの記載を含む行として扱い、前記明細書見出しリストにおける、前記発明文書の前記明細書中の段落番号を表す見出しの記載を含む行については、当該明細書における当該段落番号に係る段落範囲内に当該発明文書のクレーム中から前記重要語句抽出部により抽出された重要語句と同一の重要語句がある場合に、当該重要語句を、前記明細書見出しリストの当該行に追記することとしてもよい。
これにより、特許出願関連情報における明細書見出しリストを閲覧した翻訳者等は、発明文書の明細書に記載されていることの概要を迅速に推察又は確認し得るようになる可能性がある。翻訳者が明細書の概要を迅速に推察できると、翻訳者が明細書に記載されている文を効率的又は適正に翻訳できる可能性が高まる。なお、この明細書見出しリスト中の段落番号を表す見出しの記載を含む行に追記する各重要語句(つまりクレーム中から抽出された重要語句)には、同一文字列の重要語句には同じ表示色(例えば重要語句の左境界線の表示色)を付し、相互に異なる重要語句同士には相違する表示色を付すこととしてもよい。重要語句への表示色の付加は、例えば重要語句についての表示要素に対する表示制御情報により実現される。これにより、ブラウザ等により表示された表示用文書に係る明細書見出しリストを閲覧した翻訳者等は、各重要語句が同一か否かを迅速に認識できる可能性が高まり得る。また、明細書見出しリスト中の段落番号を表す見出しの記載を含む行に、クレーム中から抽出された重要語句を追記することに加えて、発明文書のクレームには含まれず明細書中から抽出された重要語句がその段落番号の段落に存在すれば、その重要語句を、クレーム中から抽出された重要語句とは異なる表示態様で表示されるようにして、追記することとしてもよい。
また、例えば、前記分析部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された重要語句各々が表す要素間の関係について判別し、当該判別の結果を示す重要語句関係情報を生成する要素間関係判別部を含み、前記特許出願関連情報は、前記重要語句関係情報を含み、前記要素間関係判別部は、前記重要語句関係情報に、発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が表す要素間の構成上の包含関係を表現した包含関係情報と、発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が表す要素間が記録媒体とその記録媒体の内容との関係を有する場合の当該関係を表現した記録関係情報と、発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が表す要素間がプログラムと当該プログラムによる実現内容との関係を有する場合の当該関係を表現したプログラム実現関係情報と、発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が表す要素間に等価関係がある場合の当該関係を表現した等価関係情報と、発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が表す要素間に概念上の上下関係がある場合の当該関係を表現した上下概念関係情報とを含ませることとしてもよい。
これにより、発明文書分析システムにより出力された特許出願関連情報における重要語句関連情報を閲覧した翻訳者は、発明文書分析システムでの分析対象となった発明文書における複数の重要語句間の関係について効率的に又は的確に理解することが可能となり、そのため、その複数の重要語句各々に対応する翻訳語句を、効率的に又は適正に決定することが可能となり得る。
また、例えば、前記設定情報取得部が取得する前記設定情報にはコメント行又はコメントを特定する情報であるコメント特定用情報が含まれ、前記分析部は、前記特許出願関連情報中の前記クレーム情報において表される前記クレームの各項の引用関係を木構造の形式で表現したクレームツリーを生成するクレームツリー生成部を含み、前記特許出願関連情報は、前記クレームツリーを含み、前記クレームツリー生成部は、前記クレーム情報におけるクレームの各項について、項番が小さい順に、行を改めて、当該項が引用している項の項番を示す情報を、引用関係の表現用の記号及び項番により表記したクレームツリーを生成し、当該クレームツリーの各行に係る各項について、前記クレーム情報における当該項の直前行が前記コメント特定用情報に基づいて特定される所定の形式のコメント行である場合には、当該コメント行の内容を、当該クレームツリーにおける当該項の項番を記載する行に付記し、前記クレーム情報における当該項の直前行が前記コメント行でない場合において、当該項の見出しと同一の行に、前記コメント特定用情報に基づいて特定される所定の形式でコメントが記載されているときには、当該コメントの内容を、当該クレームツリーにおける当該項の項番を記載する行に付記し、前記クレーム情報における当該項の直前行が前記コメント行でなく、かつ、当該項の見出しと同一の行に前記コメントが記載されていない場合において、前記発明文書のクレームの当該項に記載され前記重要語句抽出部により抽出された1つ以上の重要語句が存在するときには、当該1つ以上の重要語句のうち少なくとも1つの重要語句を、当該クレームツリーにおける当該項の項番を記載する行に付記することとしてもよい。
これにより、発明者等又は弁理士が発明文書のクレーム中に含ませたコメントを、翻訳者は、その発明文書に基づいて発明文書分析システムにより出力された特許出願関連情報におけるクレームツリーにより確認でき、クレームの各項の引用関係を踏まえてコメントにより各項の意義等を効率的又は的確に理解することが可能となり得る。また、発明文書のクレームの項についてのコメントが記載されていない項については、その発明文書に基づいて発明文書分析システムにより出力された特許出願関連情報におけるクレームツリーにその項の重要語句が示されるので、翻訳者、或いは、発明文書の作成から時間が経過してその内容を多少忘却した発明者等又は弁理士が、クレームのその項の意義を理解できる可能性があり得る。翻訳者は、クレームの各項の意義を十分に理解できていると、クレームの各項を効率的又は適正に翻訳し得る。
また、例えば、前記クレームツリー生成部は、前記特許出願関連情報中の前記クレーム情報において表される前記クレームの各項の引用関係を木構造の形式で表現した構成クレームツリーを生成し、前記特許出願関連情報は、前記構成クレームツリーを含み、前記クレームツリー生成部は、前記クレーム情報におけるクレームの各項について、項番が小さい順に、行を改めて、当該項が引用している項の項番を示す情報を、引用関係の表現用の記号及び項番により表記した構成クレームツリーを生成し、当該構成クレームツリーの各行に係る各項について、前記クレーム情報における当該項に記載され前記重要語句抽出部により抽出された1つ以上の重要語句が存在するときには、当該各重要語句を、当該項の項番を記載する行に付記し、当該項に付記すべき重要語句が複数であって当該複数の重要語句各々が表す要素間が構成上の包含関係を有するならば重要語句間の関係を表す記載を当該行に付記することとしてもよい。
これにより、発明文書に基づいて発明文書分析システムにより出力された特許出願関連情報における構成クレームツリーを閲覧することで、翻訳者、或いは、発明文書の作成から時間が経過してその内容を多少忘却した発明者等又は弁理士は、その発明文書におけるクレームの各項の引用関係を把握するとともに、クレームの項に記載された複数の重要語句間の関係を把握することができるので、クレームの各項の意義等を効率的に理解できる可能性があり得る。
また、例えば、前記発明文書分析システムは、予め定められた不適切文字列パターン情報に対応付けられた修正情報に基づいて、当該不適切文字列パターン情報が示す不適切文字列パターンに該当する文字列が、前記文書取得部により取得された発明文書におけるクレーム中に存在した場合には、前記特許出願関連情報に、前記修正情報に基づいて当該クレームを修正することで修正後のクレームの内容を表すように生成される修正版クレーム情報を含ませ、前記クレームツリー生成部は、前記表示用文書としての前記特許出願関連情報の前記クレームツリー又は前記構成クレームツリーの項番についての表示要素に、当該表示要素の操作に応じて、当該表示用文書におけるクレーム情報の当該項番の項の記載部分を表示するためのGUIとしての機能を持たせるための表示制御情報を付加し、当該クレームツリー又は当該構成クレームツリーの、前記引用関係の表現用の記号についての表示要素に、当該表示要素の操作に応じて、当該記号で表されていた引用関係を切断する引用関係切断処理を実行するためのGUIとしての機能を持たせるための表示制御情報を付加し、当該引用関係切断処理は、前記表示用文書における前記修正版クレーム情報の内容を当該引用関係の切断を反映させるために更新する処理と、当該表示要素としての当該引用関係の表現用の記号を、当該引用関係が切断されたことを表現するために予め定められた記号に変更して、当該表示要素を再表示する処理とを含むこととしてもよい。
これにより、発明者等又は弁理士は、例えば、日本国への出願用に発明文書を作成した後に、各国への出願戦略、各国の特許に係る法制度の相違等に基づいて、外国出願等のために翻訳用の和文としてその発明文書を、クレーム編成を変更して活用したい場合において、その発明文書に基づいて発明文書分析システムが出力する表示用文書としての特許出願関連情報のクレームツリー又は構成クレームツリーの一部のGUIの操作により、効率的に、クレームの一項における他の項の引用を解除することができ、その引用が解除されたことを反映した修正版クレーム情報を生成又は更新させ得る。その後に表示用文書としての特許出願関連情報を取得して閲覧することにより、翻訳者は、修正版クレーム情報に基づいて外国出願等のための翻訳を行うことが可能となる。また、発明者等又は弁理士は、例えば、そのGUIの操作後の修正版クレーム情報の表示内容をコピー&ペーストして生成された文書を翻訳者に渡してその文書の翻訳を依頼し得る。
また、例えば、前記発明文書分析システムは、前記発明文書から前記重要語句抽出部により抽出された重要語句のうち、符号が対応する重要語句について、当該符号と当該重要語句とを関係付けて表したリストである符号リストを生成して前記特許出願関連情報に含ませ、前記発明文書分析システムは、前記発明文書から前記重要語句抽出部により抽出された重要語句に後続して記載された符号を列挙して、符号と対応する重要語句とを関連付けて表し、前記重要語句抽出部により抽出された重要語句に符号が後続して付加された記載が、前記発明文書中に存在しない場合において、当該重要語句が表す要素が他の重要語句が表す要素を構成上包含するか、又は、他の重要語句が表す要素に構成上包含されるときには、当該重要語句及び当該他の重要語句の構成上の包含関係に基づいて符号を決定して、決定した符号と当該重要語句とを関連付けて表すことにより、前記符号リストを生成することとしてもよい。
これにより、発明文書分析システムは、発明文書中の複数の重要語句各々が表す要素間に構成上の包含関係があるところのその各重要語句について符号が付加された記載がその発明文書に含まれない場合にその重要語句についての符号を、その包含関係に基づいて自動的に決定して、符号と重要語句とを対応付けた符号リストを生成するので、その符号リストを利用することで発明者等又は弁理士は効率的に又は適正に発明文書を完成させることが可能となり得る。発明者等又は弁理士は、例えば、符号を記載せずに発明文書を作成し、発明文書分析システムにより生成された符号リストに基づいて必要な符号を発明文書に挿入することで効率的に発明文書を完成させることが可能となり得る。
また、例えば、前記文書取得部は更に、当該文書取得部により取得された発明文書に対応する図面文書を取得し、前記文書取得部により取得された発明文書についての分析結果に基づいて生成された前記特許出願関連情報の前記クレーム情報又は前記明細書情報における、前記重要語句抽出部により当該発明文書から抽出された複数の重要語句のうち、当該発明文書において符号が付加されて記載された要素名を表す語句と同一の重要語句について、当該重要語句に係る前記表示制御情報は、当該重要語句を、操作に応じて、当該発明文書に対応する前記図面文書中の当該重要語句に係る当該符号が記載された部分を表示するためのGUI要素として表示するための情報を含むこととしてもよい。
これにより、翻訳者は、表示用文書としての特許出願関連情報のクレーム情報中又は明細書情報中の重要語句で発明文書中に符号が付加された記載を含むものと同一の重要語句に係るGUIに対して操作することで、その重要語句に対応する符号が記載された図面の部分を迅速に確認することができるので、重要語句を効率的に理解することが可能となり、このため、翻訳者が発明文書を効率的又は適正に翻訳できる可能性が高まり得る。
また、例えば、前記文書取得部は、複数の発明文書と、当該複数の発明文書各々の翻訳結果である、複数の翻訳結果文書とを取得し、前記発明文書分析システムは、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する翻訳用発明文書標準規定取得部と、前記文書取得部により取得された前記複数の発明文書各々について、当該発明文書が前記翻訳用発明文書標準規定で定められた前記複数の条件のうちの少なくとも一部の各条件を満たすか否かについての判定を行い、当該複数の発明文書のうち、当該判定がなされた前記条件を満たす程度が予め定めた所定程度を超えるところの発明文書を選出する文書評価部と、前記文書評価部により選出された発明文書と当該発明文書に対応する翻訳結果文書との組を教師データとして用いた機械学習により、機械翻訳のための学習モデルである翻訳用学習モデルを生成する機械学習部とを含み、前記出力部は、前記機械学習部により生成された前記翻訳用学習モデルを出力する学習モデル出力部を含むこととしてもよい。
これにより、翻訳用発明文書標準規定への適合性が比較的高い発明文書が選出されて、対応する翻訳結果文書との組が教師データに用いられるので、不適切な記載を含む発明文書である不適切発明文書とその不適切発明文書に基づいて生成された翻訳ミス等によりその不適切発明文書と内容に齟齬のある翻訳結果文書との組が教師データに用いられにくくなり、発明文書分析システムで、適切な翻訳用学習モデルが生成されるようになり得る。また、この生成された翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳するシステム(例えば発明文書分析システム20等)によれば、ある程度、適切な翻訳結果が得られるので、翻訳者は、その翻訳結果を参照し、適宜修正することで、発明文書を効率的に又は適正に翻訳することが可能となり得る。
上述の発明文書分析システム(例えばマイクロプロセッサを備える機器に発明文書分析処理プログラムを実行させることで発明文書分析処理を行わせること等で実現可能なシステム)により出力される、本開示における表示用文書(つまり特許出願関連情報を表示させるべきものとして含む表示用文書)は、コンピュータプログラムとしてのスクリプトを含み得るデータであり、マークアップ言語で記述された文書を含むデータであり、発明文書分析システムにより生成された前記特許出願関連情報が、表示されるべき内容として含まれている。本開示における表示用文書は、コンピュータが読み取り可能なROM、光ディスク、ハードディスク等の非一時的な記録媒体に記録して頒布、或いは、流通させられ得る。本開示における表示用文書が頒布された場合に、その表示用文書は、マイクロプロセッサを備える機器にインストールされたブラウザ等により解釈の対象とされ、その結果として、上述の発明文書分析システムで生成された特許出願関連情報が表示されることになる。翻訳者等は、発明文書に基づいて生成された表示用文書における特許出願関連情報を閲覧することで、その発明文書を効率的に理解することが可能になる。また、翻訳者は、表示される特許出願関連情報を閲覧することで、例えば特許出願関連情報に含まれるクレーム情報及び明細書情報がそれぞれ表す、発明文書のクレーム及び明細書を、効率的又は適正に翻訳可能となり得る。また、発明者等又は弁理士は、表示される特許出願関連情報を閲覧して参考にすることで、例えば特許出願関連情報に含まれるクレーム情報及び明細書情報がそれぞれ表す、発明文書のクレーム及び明細書を、例えば一層翻訳し易いような、適切な内容へと更新し得る。
本開示における表示用文書は、例えば、マークアップ言語で記述された文書を含み、マイクロプロセッサを備える機器におけるブラウザ等による解釈の対象とされ、技術的思想を日本語で表した特許出願用の発明文書におけるクレームの内容を表すクレーム情報と、当該発明文書における明細書の内容を表す明細書情報とを含む特許出願関連情報が表示されるべき内容として含まれた表示用文書であって、前記クレームの内容を表す前記クレーム情報は、当該クレームの各語句のうち、予め定められた重要語句の抽出の条件に基づいて抽出される各重要語句について、当該重要語句の表示要素の表示態様を制御するための表示制御情報を含み、前記クレーム情報に表される重要語句のうち、重要語句を構成する文字列が互いに相違する複数の重要語句各々に係る前記表示制御情報各々は、当該複数の重要語句各々の表示要素を、互いに相違する表示色を付加した表示態様で表示するように制御するためのものであり、前記クレーム情報に表される重要語句のうち、重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一の文字列で構成される重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、前記1つの重要語句の表示要素の表示態様として付加された表示色と同一の表示色を付加した表示態様で表示するように制御するためのものであり、前記明細書の内容を表す前記明細書情報は、当該明細書中の各語句のうち、重要語句の抽出の前記条件に基づいて抽出される各重要語句について、当該重要語句の表示要素の表示態様を制御するための表示制御情報を含み、前記明細書情報に表される重要語句のうち、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一の重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、前記クレーム情報における前記1つの重要語句の表示要素の表示態様として付加された表示色と同一の表示色を付加した表示態様で表示するように制御するためのものであり、前記明細書情報に表される重要語句のうち、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句のいずれとも相違する重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、前記クレーム情報における当該複数の重要語句の表示要素のいずれとも相違する表示態様で表示させるように制御するためのものであるところの表示用文書である。
これにより、特許出願関連情報がブラウザ等により表示された状態では、発明文書のクレームから抽出された相互に異なる文字列で構成される複数の重要語句が、特許出願関連情報中のクレーム情報或いは明細書情報において、互いに相違する表示色が付加された表示態様で表示され、その複数の重要語句のいずれか1つの重要語句と同一の文字列で構成される、クレーム情報或いは明細書情報における重要語句については、その1つの重要語句と同一の表示色が付加された表示態様で表示される。このため、ブラウザにより表示された特許出願関連情報を閲覧した翻訳者等は、その複数の重要語句各々と同一の重要語句及び相違する重要語句を、付加された表示色により、迅速に識別可能となり、クレーム情報或いは明細書情報の内容を効率的に理解することが可能となり得る。翻訳者にとっては、クレーム情報或いは明細書情報の内容の効率的な理解は、クレーム及び明細書の効率的な翻訳に有用となる。従って、発明文書を作成した発明者等又は弁理士から、特許出願関連情報を含む表示用文書を取得した翻訳者は、表示用文書をブラウザに解釈させて特許出願関連情報を表示させてその内容を閲覧することで、発明文書を効率的に翻訳できる可能性がある。また、発明文書を作成した発明者等又は弁理士から、その発明文書を取得した翻訳者は、本開示における発明文書分析システム(例えば発明文書分析システム20等)を用いてその発明文書に基づく特許出願関連情報を含む表示用文書を生成し、その表示用文書をブラウザに解釈させて特許出願関連情報を表示させてその内容を閲覧することで、発明文書を効率的に翻訳できる可能性がある。
また、例えば、前記表示用文書は、前記特許出願関連情報が表示されるべき内容としてHTML(Hypertext Markup Language)で記載されたHTMLファイルを含むHTML文書であり、重要語句の抽出の前記条件は、前記クレーム又は前記明細書に、先行記載した文字列の参照用に用いられる参照文字列のパターンを表した参照文字列パターンに該当する第1文字列に後続して、重要語句の候補となる文字列のパターンを表した重要語句候補文字列パターンに該当する第2文字列が存在する場合に、当該第2文字列と同一の文字列を重要語句として抽出する第1抽出条件と、前記クレームに、前記重要語句候補文字列パターンに該当する第3文字列に後続して句点文字が存在するときには、当該第3文字列と同一の文字列を重要語句として抽出する第2抽出条件と、前記クレーム又は前記明細書に、前記重要語句候補文字列パターンに該当する第4文字列に後続して、要素名を表す文字列に後続して付記される符号の文字列のパターンを表した符号文字列パターンに該当する第5文字列が存在する場合に、当該第4文字列と同一の文字列を重要語句として抽出する第3抽出条件と、前記クレーム又は前記明細書に、前記重要語句候補文字列パターンに該当する第6文字列に後続して、所定の助詞である文字列のパターンを表した特定助詞文字列パターンに該当する第7文字列が存在する場合に、当該第6文字列と同一の文字列を重要語句として抽出する第4抽出条件と、前記第1抽出条件、前記第2抽出条件、前記第3抽出条件、及び、前記第4抽出条件による前記抽出にあたり、前記重要語句候補文字列パターンに複数の文字列が該当していた場合において当該複数の文字列のうちの一の文字列が他の文字列に前記クレーム又は前記明細書の記載上包含されていたときには、当該複数の文字列のうち当該一の文字列を除外した残余の文字列を選択対象として重要語句を選択して抽出する選択抽出条件とを含み、前記重要語句候補文字列パターンには、少なくとも、先頭文字が漢字である所定の文字列、及び、先頭文字が片仮名である所定の文字列が該当し、前記参照文字列パターンには、少なくとも、「前記」という文字列が該当し、前記符号文字列パターンには、少なくとも、先頭文字が数字である所定の文字列が該当し、前記特定助詞文字列パターンには、少なくとも、「を」、「に」、「が」、「と」、「から」、「へ」及び「は」のいずれかの文字が該当し、前記クレーム情報における、重要語句を構成する文字列が互いに相違する前記複数の重要語句各々に係る前記表示制御情報は、当該複数の重要語句各々の表示要素を、重要語句毎に相違する表示色で所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであり、前記明細書情報における各重要語句について、当該重要語句が、前記クレーム情報における前記複数の重要語句のうちのいずれか1つの重要語句と同一であれば、前記明細書情報における当該重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、前記クレーム情報における前記1つの重要語句の表示要素の表示態様に係る左境界線の表示色と同一の表示色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御し、前記明細書情報における当該重要語句が、前記クレーム情報における当該複数の重要語句のいずれとも相違すれば、前記明細書情報における当該重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、前記所定幅を有する左境界線が付加されていない表示態様で表示するように制御するためのものであることとしてもよい。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中においてクレーム情報に含まれる相違する重要語句同士を、その各重要語句に付加された左境界線の表示色を識別することで、迅速に区別できる。なお、相違する重要語句同士について、重要語句に付加された左境界線の表示色を相違させて表現する方法には、重要語句の文字色或いは文字背景色を相違させて表現する方法より、表示領域の背景色が暗い色(例えば黒)か明るい色(例えば白)かに拘わらず重要語句自体の判読性を低下させないという利点があるので、例えば、ブラウザ等によって基本的な背景色を白、黒等に変更可能であるような場合、或いは、表示用文書が背景色を選択できるようなGUIを実装している場合等において、有用となる。またHTML文書で一部の表示要素に付加可能な左境界線は、文字ではないので、重要語句を含む記載の表示内容のテキストについてのコピー&ペースト等を行う場合に無視されるため、表示内容をテキストエディタ等へとコピー&ペーストして、重要語句を含む記載等を編集するような場合において、邪魔にならない。
また、例えば、前記所定幅は、1文字分の幅であり、前記特許出願関連情報は、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々を、重要語句毎に行を改めて、列挙した重要語句リストを含み、前記重要語句リストにおける各重要語句については、当該重要語句の表示要素の表示態様を制御するための表示制御情報が付加され、前記重要語句リストにおける前記重要語句に係る前記表示制御情報は、当該重要語句が、前記クレーム情報における、重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一であれば、当該重要語句の表示要素を、前記クレーム情報における前記1つの重要語句の表示要素の表示態様に係る左境界線の表示色と同一の表示色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであることとしてもよい。
これにより、表示用文書としての特許出願関連情報を閲覧した翻訳者等は、重要語句リストにおける各重要語句のうち、クレーム情報において記載されている重要語句を区別可能となり、また、クレーム情報において記載されている各重要語句と対応する、重要語句リストにおける重要語句を迅速に識別可能となり得る。また、左境界線が1文字分の幅(例えば1emで表現される幅)であることは、クレーム情報における前記複数の重要語句各々の直前に1文字分の表示色で塗られた四角形が表示されることになり、1文字分の四角形は、文字列に混在しても、クレーム情報における各文字の配置を乱しにくいので、その各文字の視認性を妨げにくいという効果が生じる。なお、例えば、表示用文書におけるクレーム情報中の各文字の表示用のフォントとして等幅のフォントを用いることとしている場合には、1文字分の四角形が文字列に混在した場合に各文字の配置を整列状態に保つことが可能となり得るし、クレーム情報中の各文字の表示用のフォントとして等幅ではないフォントを用いることとしていても1文字分の四角形の幅は、比較的多くの文字の幅に対して大差ない等により、クレーム情報を目視した場合に各文字の配置を乱して視認性を大きく妨げるようなことはない。なお、特許出願関連情報の文字の視認性が良いこと、或いは、文字列が相違する重要語句各々を迅速に識別可能なことは、クレーム情報及び明細書情報の内容の効率的な理解を可能にし得る。翻訳者にとって、クレーム情報及び明細書情報の効率的な理解は、発明文書のクレーム及び明細書の効率的な翻訳に有用となる。
また、例えば、前記重要語句リストの各行は、1つの重要語句と、当該重要語句に対応する対応翻訳語、又は、当該重要語句についての対応翻訳語の候補の集合である翻訳語候補集合とを含み、前記重要語句リストにおける前記重要語句に係る前記表示制御情報は、当該重要語句についての前記翻訳語候補集合の表示要素を、操作に応じて、当該翻訳語候補集合のうちのいずれかの要素を選択可能にするグラフィカルユーザインタフェース(GUI)として機能するように制御するためのものであり、当該GUIとして機能している状態の当該翻訳語候補集合の表示要素に対しての操作に応じて選択された、当該翻訳語候補集合の要素を、当該重要語句に対応する対応翻訳語として決定して、当該翻訳語候補集合の表示要素の内容を、決定した当該対応翻訳語へと置換して表示する処理を実行するためのスクリプトを含むこととしてもよい。
これにより、表示用文書としての特許出願関連情報を閲覧した翻訳者等は、ブラウザ等により表示された特許出願関連情報中の重要語句リストにおける重要語句に対応する翻訳語候補集合のGUIの操作により、翻訳語候補集合のいずれかの要素を選択することで、重要語句リストにおける重要語句に対応する対応翻訳語を容易に決定して表示させ得る。また、翻訳者等は、例えば、その翻訳語候補集合のいずれかの要素の選択による重要語句に対応する対応翻訳語の決定後に、ブラウザ等により表示されている重要語句リストを、コピー&ペースト等により、テキストエディタ等に貼り付けて、必要に応じて編集することで、本開示における発明文書分析システム(例えば発明文書分析システム20等)が特許出願関連情報の生成の基礎となる発明文書から重要語句を抽出するために利用し得る重要語句設定辞書(例えば重要語句設定辞書取得部203により取得して利用し得る重要語句設定辞書)を、比較的容易に生成することが可能となる。
また、例えば、前記特許出願関連情報における前記重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、操作に応じて、ネットワーク上の検索サイトで、当該重要語句を含むウェブページ、当該重要語句の定義、当該重要語句の類義語、若しくは、当該重要語句の関連画像を検索する処理、又は、ネットワーク上の翻訳サイトで当該重要語句を翻訳させる処理を、実行するGUIとして機能させるものであることとしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された特許出願関連情報中の重要語句に対する操作(つまり重要語句の表示要素に対する操作)により、その重要語句の検索結果(例えば重要語句を含むウェブページ、重要語句の定義、類義語、関連画像)、又は、その重要語句の翻訳結果を、知得することが可能となり得るので、その特許出願関連情報の生成の基礎となった発明文書における重要語句について効率的に又は適正に理解することが可能となり得る。このため、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記特許出願関連情報における前記重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、操作に応じて、当該重要語句の属性情報の少なくとも一部の表示、又は、当該重要語句の属性情報に基づいて決定された当該重要語句の重要度の表示のためのGUIとして機能させるものであり、前記重要語句の前記属性情報は、前記クレーム情報が表すクレーム中で当該重要語句を定義しているクレームの項が存在する場合に当該項の項番を示す情報と、前記クレーム情報が表すクレーム中で当該重要語句を参照しているクレームの項が存在する場合に当該項の項番を示す情報と、前記明細書情報が表す明細書中において当該重要語句に符号が付加された記載が存在する場合に当該符号を示す情報とを含むこととしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された重要語句に対する操作により、その重要語句の重要度又は属性情報の情報を知得することが可能となり得るので、その特許出願関連情報の生成の基礎となった発明文書におけるどの重要語句が重要であるかを、ある程度、認識可能となり、重要語句について効率的に又は適正に理解することが可能となり得る。このため、翻訳者は、重要な重要語句についての翻訳語句の決定を優先的に実行する等により、効率的な翻訳が可能となり得る。
また、例えば、前記特許出願関連情報における前記重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、操作に応じて、前記クレーム情報及び前記明細書情報から当該重要語句を含む行を列挙する重要語句包含記載列挙処理を実行するためのGUIとして機能させるものであり、前記重要語句包含記載列挙処理は、操作対象となった重要語句を含む行を前記クレーム情報及び前記明細書情報から列挙して表示し、当該列挙して表示した各行における当該重要語句については強調表示を行い、表示した行には、当該行に対する操作に応じて、前記クレーム情報又は前記明細書情報における当該行を含む複数行へのリンク表示のためのGUIとして当該行を機能させるための表示制御情報を付加する処理であることとしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された特許出願関連情報中の重要語句に対する操作により、重要語句包含記載列挙処理の結果として列挙表示される、クレーム情報及び明細書情報におけるその重要語句を含む行を確認することができる。このため、翻訳者等は、その特許出願関連情報の生成の基礎となった発明文書における重要語句について効率的に又は適正に理解することが可能となり得る。また、このため、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。また、翻訳者等は、操作した重要語句を含むことで重要語句包含記載列挙処理により列挙された行におけるその重要語句が強調表示されるので、その重要語句を的確に識別できる。また、翻訳者等は、操作した重要語句を含むことで重要語句包含記載列挙処理により列挙された行のうちの1つの行に対して更に操作することで、更に表示されることになる、その1つの行に前後する、クレーム情報、明細書情報又は別の発明文書における複数行を、容易に確認可能となる。
また、例えば、前記特許出願関連情報は、前記クレーム情報に表されるクレームについての機械翻訳の結果を表すクレーム翻訳情報と、前記明細書情報に表される明細書についての機械翻訳の結果を表す明細書翻訳情報とを含み、前記クレーム翻訳情報における、前記クレーム情報の一行又は一項を機械翻訳対象とした機械翻訳の結果を表す一行又は一項は、当該クレーム情報の行若しくは項の全体を翻訳先言語で表した完全翻訳行、又は、当該クレーム情報の行若しくは項に含まれる重要語句を、当該重要語句に対応する対応翻訳語、若しくは、当該重要語句についての翻訳語候補集合に、置換した結果である部分翻訳行であり、前記明細書翻訳情報における、前記明細書情報の一行を機械翻訳対象とした機械翻訳の結果を表す一行は、当該明細書情報の行の全体を翻訳先言語で表した完全翻訳行、又は、当該明細書情報の行に含まれる重要語句を、当該重要語句に対応する対応翻訳語、若しくは、当該重要語句についての翻訳語候補集合に、置換した結果である部分翻訳行であり、前記クレーム翻訳情報及び前記明細書翻訳情報は、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一の重要語句について、当該重要語句を機械翻訳対象とした機械翻訳の結果の表示要素の表示態様を制御するための表示制御情報を含み、当該機械翻訳の結果の表示要素に係る当該表示制御情報は、当該表示要素の表示態様の少なくとも一部に、前記クレーム情報及び前記明細書情報における当該重要語句の表示要素に付加された表示色と同一の表示色が付加されるように、当該表示要素の表示態様を制御するためのものであることとしてもよい。
これにより、例えば、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中の重要語句、及び、重要語句の機械翻訳の結果に対して付加された表示色を識別することにより、クレーム翻訳情報又は明細書翻訳情報における、重要語句の機械翻訳の結果が、クレーム情報又は明細書情報におけるどの重要語句に対応するのかを迅速に把握することが可能となる。
また、例えば、前記クレーム翻訳情報は、前記クレーム情報の各行を包含し、包含したクレーム情報の一行毎又は一項毎について、当該一行又は一項の内容の直後に、当該一行又は一項の内容である機械翻訳対象に対応する機械翻訳の結果を表す前記完全翻訳行又は前記部分翻訳行を、挿入したものであり、前記明細書翻訳情報は、前記明細書情報の各行を包含し、包含した明細書情報の一行毎について、当該一行の直後に、当該一行である機械翻訳対象に対応する機械翻訳の結果を表す前記完全翻訳行又は前記部分翻訳行を挿入したものであり、前記クレーム翻訳情報及び前記明細書翻訳情報には、前記クレーム翻訳情報及び前記明細書翻訳情報における機械翻訳対象の少なくとも一部分の表示要素の表示態様と、当該機械翻訳対象に対応する機械翻訳の結果の少なくとも一部分の表示要素の表示態様とが、文字背景色、文字色、文字装飾、フォントサイズ、フォントスタイル、及び、フォントウェイトのうちの少なくとも1つにおいて相違するように制御するために、当該各表示要素に表示制御情報が付加されていることとしてもよい。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中のクレーム翻訳情報及び明細書翻訳情報において、機械翻訳対象の行と、機械翻訳結果の行とを、文字背景色、文字色、文字装飾、フォントサイズ、フォントスタイル、及び、フォントウェイトのうちの少なくとも1つの相違により、迅速に識別可能となる。また、翻訳者は、クレーム翻訳情報及び明細書翻訳情報における機械翻訳対象の行を目視して確認しながら、その機械翻訳対象の行の後方に配置されている機械翻訳結果の行の内容を適宜修正して、より適切な翻訳文を効率的に作成することが可能となり得る。
また、例えば、前記特許出願関連情報は、警告情報を含み、前記警告情報は、前記発明文書の前記クレーム又は前記明細書が、予め規定された翻訳用発明文書標準規定に定められた複数の条件を満たすか否かを検査して条件が満たされない場合にその旨を指摘する指摘情報と、前記発明文書の前記クレーム又は前記明細書が前記翻訳用発明文書標準規定に定められた複数の条件のうちの少なくとも一部の各条件を満たすか否かの検査の結果に基づいて予め定められた演算により算出された、当該発明文書の翻訳用発明文書標準規定への適合性の評価値を示す発明文書評価情報と、前記翻訳用発明文書標準規定へのアクセスのための規定アクセス情報と、前記翻訳用発明文書標準規定のバージョンを示すバージョン情報とを含むこととしてもよい。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報における警告情報(例えば警告情報中の指摘情報等)を参考にすることにより、その特許出願関連情報の生成の基礎となった発明文書を作成した発明者等又は弁理士は、必要であれば発明文書の修正を行い得る。また、翻訳者は、例えば、発明者等又は弁理士から、特許出願関連情報に係る表示用文書の提供を受けることにより、特許出願関連情報中の警告情報での指摘が残っていてもその指摘は特に対処の必要がないと発明者等又は弁理士が判断した結果であると推定できるので、適切な翻訳対象の内容を把握することができ、この結果として、発明文書の翻訳を効率的に又は適正に行うことが可能となり得る。また、翻訳者等は、警告情報中の規定アクセス情報を参照することで、翻訳用発明文書標準規定にアクセスしてその内容を閲覧することが可能になる。また、翻訳者等は、警告情報中の翻訳用発明文書標準規定のバージョン情報を参照することで、どのバージョンの翻訳用発明文書標準規定が利用されたかについて確認することが可能になる。
また、本開示に係る発明文書分析処理プログラムは、マイクロプロセッサを備える機器に、技術的思想を日本語で表した特許出願用のクレーム及び明細書を記載した文書である発明文書を分析する発明文書分析処理を行わせて、上述したような表示用文書を生成するための発明文書分析処理プログラムであって、前記発明文書分析処理は、発明文書を取得する文書取得ステップと、前記文書取得ステップにより取得された発明文書を、予め定められた重要語句の抽出の条件に基づく重要語句の抽出を行うことにより、分析する分析ステップと、前記文書取得ステップにより取得された発明文書についての前記分析ステップによる分析結果に基づいて生成された特許出願関連情報を表示するための前記表示用文書を生成して出力する出力ステップとを含む発明文書分析処理プログラムである。
この発明文書分析処理プログラムを、マイクロプロセッサを備える機器等にインストールすることで、その機器等は、前記発明文書分析処理を実現し得る。この発明文書分析処理プログラムにより実現される発明文書分析処理により、上述したような表示用文書が生成されるので、その表示用文書をブラウザ等で解釈させて表示用文書に係る特許出願関連情報を閲覧することで、翻訳者等にとっては、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。
ここで、例えば、前記発明文書分析処理は、前記出力ステップにより出力済みの1つ以上の前記表示用文書のうちいずれかの選択操作を可能にするGUI画面を表示して、選択された表示用文書を前記機器におけるブラウザの解釈の対象とする処理を含むこととしてもよい。
これにより、マイクロプロセッサを備える機器に発明文書分析処理プログラムを実行させて、その実行結果として過去に生成されたいずれかの表示用文書を選択することで、その表示用文書に係る特許出願関連情報がブラウザにより表示されるようになる。従って、翻訳者等は、発明文書分析処理プログラムの実行の結果として生成された表示用文書が複数存在する場合に、複数の表示用文書各々に係る特許出願関連情報を、対比して閲覧すること等により、その複数の表示用文書のうちの、特定の発明文書に基づいて生成された表示用文書に係る特許出願関連情報を、効率的に理解できる可能性がある。
なお、上述した発明文書分析システム及びこれに関連する技術は、機器、装置、集積回路、システム、方法、プログラム(つまりコンピュータプログラム)、コンピュータで読み取り可能な記録媒体等の全体又は一部としての各種態様で具現化され得る。
以下、本開示における技術の理解を容易にすべく、実施形態を例示し、適宜図面を参照して、詳細に説明する。但し、周知技術については適宜説明を省略する。なお、図面は、模式図であり、厳密に図示されたものではない。また、この実施形態の説明及び図面における各種要素の数、配置、形状、属性、状態、数値、或いは、要素間の接続態様、実行順序、包含関係等は、一例に過ぎず、特許請求の範囲に記載した請求対象を限定するものではない。この実施形態の説明及び図面における各種要素のうち、独立請求項に記載されていない要素は、任意に付加可能である。
(実施形態1)
以下、発明文書分析システムの実施形態の一例について、図面を用いて説明する。
[1.発明文書分析システムの実施形態に関連する情報]
本開示で実施形態例について示す発明文書分析システムは、発明文書を分析する発明文書分析処理を実行するシステムである。
本開示において発明文書は、技術的思想を日本語で表した、特許出願用のクレーム又は明細書を記載した文書である。ところで、日本国以外の地域において特許の権利(例えば特許権)を取得するために(例えば、日本語以外の言語である外国語で記載された文書による、日本国以外の国である外国への、特許出願等のために)、発明者等が作成した発明文書を、翻訳者が翻訳して翻訳結果文書を作成する場合がある。翻訳結果文書は、主に外国語で記載したクレーム及び明細書の少なくとも一方を含む文書である。翻訳結果文書の記載に用いられる外国語は、一例としては英語であり、別の一例としては中国語である。以下、翻訳結果文書の記載に用いられる外国語の例として、便宜上、英語を用いて説明するが、翻訳結果文書の記載に用いられる言語を英語に限定する趣旨ではない。
本開示で実施形態例に示す発明文書分析システムの創作の目的の一例は、日本国以外の地域における有用な権利の取得のために、発明文書に基づく翻訳結果文書を、翻訳者が効率的又は適正に作成するために有用なシステムを提供することである。
[1−1.発明文書]
発明文書は、技術的思想を日本語で表した文書であり、かつ、特許出願用のクレーム又は明細書を記載した文書である。ここで、文書は、文書データを意味し、文書の内容には、1つ以上の書類の記載が含まれ得る。なお、発明文書は、クレームと明細書との両方を記載した文書であってもよい。発明文書は、例えば、複数の行で構成される。各行は、文書データにおいて改行コードで区切られた各部分である。
技術的思想を日本語で表した文書である発明文書の記載は、言語面においては、主として日本語で記載されていれば足り、部分的に外国語の語句が用いられていてもよい。クレームは、例えば、日本国内の特許出願における書類「特許請求の範囲」の記載内容、又は、日本国内の特許出願における1つ以上の「請求項」の記載内容である。なお、日本国内の特許出願の記載様式と異なる特定様式で文書が構成されていても、実質的に、日本国内の特許出願における「請求項」又は「明細書」の記載内容に相当する記載を含む文書は、特定様式を変換することで日本国内の特許出願の「請求項」又は「明細書」の記載を含む文書として扱うことができるので、特許出願用のクレーム又は明細書を記載した文書と看做す。例えば、クレームは、国際出願(つまり特許協力条約に基づく国際出願)における書類「請求の範囲」の記載内容であってもよい。
発明文書の一例は、クレーム及び明細書を含む、技術的思想を日本語で表した、日本国内の特許出願の文書であり、出願の前後を問わない。また、発明文書の一例として、クレーム及び明細書の少なくとも一方を含む、技術的思想を日本語で表した、日本国内の特許出願の準備段階における未完成の文書が、挙げられる。また、発明文書の一例として、クレーム及び明細書の少なくとも一方に相当する記載を含む、技術的思想を日本語で表した、外国特許出願(つまり日本国以外の地域を出願先とする特許出願)の文書又は外国特許出願として外国語に翻訳する前段階の文書(例えば翻訳用和文原稿等)が、挙げられる。また、発明文書の一例として、クレーム及び明細書の少なくとも一方に相当する記載を含む、技術的思想を日本語で表した、発明メモ等の文書が、挙げられる。また、発明文書の一例として、日本国又は外国の官庁又は国際事務局により公開された、特許公報(例えば特許公開公報、特許掲載公報等)の内容に実質的に相当するデータが、挙げられる。
[1−2.発明文書の翻訳に関連する作業]
以下、発明文書の翻訳に関連する作業の流れの一例について説明する。
図1は、発明文書の翻訳に関連する作業の流れの一例を示す。同図に示すように、発明者が、まず、創作した技術的思想の内容について記載した発明メモを作成し、その発明メモの内容を整理して、実質的に特許出願用のクレーム又は明細書を記載した発明文書を作成する。発明者等(例えば発明者、又は、発明者から特許を受ける権利を譲り受けた出願人、発明者の所属する組織における協力者等といった、発明者の関係者)は、発明文書の作成を弁理士に任せることもある。なお、発明者等又は弁理士は、更に、特許出願用の図面を記載した図面文書を作成することもある。
そして、発明者等又は弁理士は、翻訳者に発明文書の翻訳を依頼する際に、必要に応じて、発明文書中の重要語句(つまり所謂キーワード)について対応翻訳語を指定したり、権利を取得しようとしている地域に対応して(例えば出願対象の外国の法律、判例等を考慮した戦略に対応して)、特別な翻訳指示等を行ったりすることがある。主として日本語で記載された発明文書(つまり技術的思想を日本語で表した文書)中の重要語句は、1語又は複数語(つまり1文字以上からなる文字列)であり、日本語以外の語句の1語又は複数語であってもよい。翻訳者は、その発明文書、重要語句についての対応翻訳語の指定、特別な翻訳指示等に従って翻訳を行うことで、翻訳結果文書を作成する。
図2は、翻訳者による翻訳作業の流れの一例を示す。同図に示すように、例えば、翻訳者は、まず、発明文書の概要を理解し、対応翻訳語の指定を受けていれば参考にして発明文書中の重要語句についての対応翻訳語を決定する。そして、翻訳者は、必要に応じて、発明文書を翻訳し易くすべく、発明文書の校正、変更等を行う。それから、翻訳者は、校正、変更等が行われた後の発明文書について、翻訳を行って、その結果としての翻訳結果文書を作成する。翻訳者は、翻訳に際して、例えば、機械翻訳システム等に機械翻訳を行わせ、その機械翻訳による翻訳結果を活用して翻訳結果文書を作成し得る。最後に、翻訳者は、翻訳結果としての翻訳結果文書の見直しをし、必要に応じて翻訳結果文書の修正を行う。
[1−3.有用な権利取得のための翻訳の効率又は適正化を阻害する要因についての考察]
図3は、有用な権利取得のための翻訳の効率又は適正化を阻害する要因となる事項の一例を、列挙した図である。
発明文書が不適切である場合には、例えば技術専門家ではない翻訳者にとっては、発明文書を理解すること、或いは、発明文書をどのように修正して翻訳すべきかを決定することが困難となる。この結果として、発明文書の理解のための調査、或いは、発明文書の作成者等との確認のためのコミュニケーション等に時間がかかり、翻訳者が、翻訳を効率的に行えなくなる可能性がある。また、翻訳者が、不適切な発明文書を、誤って理解することで、適正な翻訳が行えなくなる可能性がある。
有用な権利取得のために不適切な発明文書は、図3に示すように、例えば、誤記、不統一記載、曖昧表現、相対表現等を含むもの、対応する適切な翻訳語句がない語句を含むもの、正確な意味が明白ではない文章を含むもの、外国の法令及び判例に形式上適合しない記載を含むもの、特許権行使上の問題となり得る記載を含むもの等である。相対表現の例としては、「重い第1部材」という記載が、挙げられる。例えば相対表現が含まれていれば、有用な権利取得のために、その相対表現をどのように翻訳すれば良いのかについて翻訳者が迷う可能性がある。正確な意味が明白ではない文章の例としては、主語が欠如し、技術専門家でなければ何が主語であるかを判断し難いような文章が、挙げられる。外国の法令及び判例に形式上適合しない記載の例としては、所定の外国での特許権の取得のための翻訳結果文書が求められている条件の下で、その所定の外国では特許の保護対象でないもの(例えば米国におけるプログラム)を請求対象とするクレームの記載が、挙げられる。なお、特許権行使上の問題となり得る記載は、必ず問題となるという訳ではないが問題となる可能性を有する。特許権行使上の問題となり得る記載の例としては、「好ましくは、〜である。」、米国において請求された主題の意義を有する「発明(invention)」の語を用いた「本発明の特徴は、〜である。」等の記載が、挙げられる。このような記載を、有用な権利取得のために修正することについて翻訳者が迷う可能性がある。
有用な権利取得のために不適切な、特別な翻訳指示は、具体的な作業内容が不明確な特別な翻訳指示等である。具体的な作業内容が不明確な特別な翻訳指示の例としては、修正後の内容が必ずしも一通りに決定できないような複数従属クレームの解消指示等が、挙げられる。具体的な作業内容が不明確な特別な翻訳指示は、効率的な翻訳を阻害し得る。
また、翻訳者が機械翻訳システム等による機械翻訳の翻訳結果を活用する場合において機械翻訳の翻訳精度が十分でないときには、翻訳者は、その機械翻訳の翻訳結果の見直しに多大な時間を要し得る。
[1−4.発明文書分析システムの実施形態の利用例]
本開示における発明文書分析システムの一実施形態では、例えば、発明文書の不備について指摘、評価等をした情報を出力し得る。また、発明文書分析システムの一実施形態では、例えば、発明文書の重要語句の対応翻訳語の決定を支援する情報を出力し得る。また、発明文書分析システムの一実施形態では、例えば、発明文書についての機械翻訳の精度向上に有用な情報を出力し得る。
従って、例えば、発明文書を作成した発明者等又は弁理士は、本開示における発明文書分析システムの一実施形態を利用し、その一実施形態による、その発明文書の分析に基づく出力を活用することで、不適切な発明文書を見直して適切に修正する契機を得ることができる可能性がある。
例えば、発明文書を作成した発明者等又は弁理士が、本開示における発明文書分析システムの一実施形態を利用し、その一実施形態による、その発明文書の分析に基づく出力結果に関する情報(例えば出力結果自体、或いは同様の出力結果を翻訳者に知得可能にするための情報等)を、翻訳者に提供する場合に、翻訳者は、翻訳作業(図2参照)を効率的又は適正に行える可能性がある。翻訳者は、提供されたその発明文書の分析結果に基づく出力結果に関する情報によって、有用な権利取得のために翻訳する際に生じる迷い等を容易に解消可能となり得るからである。
例えば、発明者等又は弁理士から発明文書等を受領した翻訳者は、本開示における発明文書分析システムの一実施形態を利用し、その一実施形態による、その発明文書の分析に基づく出力を活用することで、その発明文書についての翻訳作業(図2参照)を効率的又は適正に行える可能性がある。また、翻訳者は、機械翻訳システム等を利用する場合において、本開示における発明文書分析システムの一実施形態により出力される情報の活用により、機械翻訳の精度を向上させることで、翻訳作業(図2参照)を効率的又は適正に行える可能性がある。
[2−1.実施形態1に係る発明文書分析システムの構成例]
図4は、発明文書分析システム10の構成の一例を示す。
発明文書分析システム10は、発明文書を分析する発明文書分析処理を実行するシステムである。
発明文書分析システム10は、発明文書を分析して、分析結果に基づき、特許出願関連情報等の情報を出力するためのシステムであり、例えば、プログラムを実行するマイクロプロセッサを備える機器等で、実現される。ここでは、一例としての発明文書分析システム10が、ファイルシステム等を含むオペレーティングシステム(OS)とその他のプログラム(例えばアプリケーションプログラム等)を搭載したコンピュータで実現される例を想定して、説明を続ける。ここでマイクロプロセッサを備えるコンピュータの規模や態様は問わず、例えば、スーパーコンピュータ、汎用コンピュータ、ミニコンピュータ、PC(Personal Computer)、タブレット、スマートフォン等であってもよい。また、マイクロプロセッサは、一例としては、量子プロセッサであってもよく、マイクロプロセッサを備えるコンピュータは、一例としては、量子コンピュータであってもよい。コンピュータは、例えば、入力装置及び表示装置を備え得る。コンピュータの入力装置は、マウス等のポインティングデバイス、キーボード、タッチパッド、音声入力装置等であり得る。コンピュータの表示装置は、例えば、液晶ディスプレイ、有機EL(OEL:Organic Electro-Luminescence)ディスプレイ等であり得る。なお、コンピュータの入力装置と表示装置とは一体であってもよく、例えば、コンピュータが、表示装置の表示面の上にタッチパッドを重畳したタッチパネルを備えていてもよい。
発明文書分析システム10のユーザとしては、例えば発明文書の作成者(例えば発明者等又は弁理士)、或いは、発明文書を利用する翻訳者等(例えば、発明文書を基に外国語に翻訳して外国出願用の翻訳結果文書を作成する翻訳者、又は、翻訳者以外の発明文書の利用者)が想定される。なお、発明文書分析システム10のユーザは、発明者等、弁理士、及び、翻訳者等のいずれにも該当しない者であってもよい。
発明文書分析システム10は、図4に示すように、設定情報取得部101、文書取得部102、重要語句設定辞書取得部103、翻訳用発明文書標準規定取得部104、分析部105、文書評価部106、機械学習部107及び出力部108を含む。設定情報取得部101、文書取得部102、重要語句設定辞書取得部103、翻訳用発明文書標準規定取得部104、分析部105、文書評価部106、機械学習部107及び出力部108の各機能は、例えば、プログラムを実行する1台以上のコンピュータにより実現される。
[2−1−1.設定情報取得部]
設定情報取得部101は、発明文書分析システム10が発明文書を分析するための基礎として用いる設定情報を取得する。設定情報は、発明文書の分析に際して参照されるべき情報を含む。発明文書の分析は、発明文書からの重要語句の抽出を含む。図5は、設定情報の内容の一例を示す。
設定情報は、発明文書分析システム10が参照する情報である。設定情報は、例えば、発明文書分析システム10の内部に存在しても、外部に存在してもよい。設定情報は、如何なる形式の情報であってもよい。設定情報は、例えば、ファイル(例えばテキストファイル等)の内容として存在しても、データベースの内容として存在しても、コンピュータのOSが管理する、ユーザにより定義された、1つ以上の環境変数の内容として存在しても、発明文書分析システム10の一部を構成するデータ(例えば発明文書分析システム10を実現するためのプログラム内に記述されたデータ)として存在してもよい。設定情報が、発明文書分析システム10の一部を構成するデータとして存在する場合に、発明文書分析システム10は、グラフィカルユーザインタフェース(GUI:Graphical User Interface)等を介して、その設定情報の全部又は一部の内容を表示して、設定情報の一部の内容をユーザに変更させられるようにしてもよい。
設定情報取得部101は、例えば、設定情報が発明文書分析システム10の外部に存在(例えば外部のファイルの内容等として存在)する場合には、その設定情報を発明文書分析システム10内に読み込んで、発明文書分析システム10内で利用し易いデータ形式に変換することで、設定情報の取得を実現してもよい。また、設定情報取得部101は、外部に存在する設定情報(例えばファイルの内容としての設定情報)を読み込んでその読み込んだ内容で、予め発明文書分析システム10の一部を構成するデータとして既定値が定められた設定情報の全部又は一部を、上書きすることで、設定情報の取得を実現してもよい。
設定情報は、発明文書分析システム10の分析対象となる発明文書からの重要語句の抽出の条件を示す条件情報を含む。条件情報が示す抽出の条件を満たす文字列が、重要語句である。この重要語句が、ある程度、重要であると推定される語句となるように条件情報が定められて運用されることを想定しているが、その重要であるとの推定の精度が100%である必要はない。重要語句は、例えばキーワード、キーフレーズ等である。文字列は、漢字、仮名文字、英字、数字、記号その他の、文字コードで表示可能な、1つ以上の文字で構成される。ある文字を表す文字コードは、例えば、UTF−8、Shift_JIS、Unicode等のエンコーディング(encoding)形式に応じて、1つに定まる。
条件情報は、一例としては、重要語句候補文字列パターン情報、参照文字列パターン情報、符号文字列パターン情報、特定助詞文字列パターン情報等を含む。重要語句候補文字列パターン情報、参照文字列パターン情報、符号文字列パターン情報及び特定助詞文字列パターン情報は、例えば、抽出するべき文字列の集合を示す文字列パターンを、正規表現で表した情報である。なお、条件情報は、重要語句を抽出するための、他の文字列パターンを示す抽出条件に係る情報、抽出の例外を示す抽出例外条件に係る情報等を含んでもよい。
重要語句候補文字列パターン情報は、重要語句の候補となる文字列のパターンを表した重要語句候補文字列パターンを示す。重要語句候補文字列パターン情報は、例えば、先頭文字が漢字である所定の文字列(例えば「制御装置」、「制御システム」等といった文字列)、及び、先頭文字が片仮名である別の所定の文字列(例えば「センサ」、「センシング方法」等といった文字列)が、その重要語句候補文字列パターンに該当するように定められている。なお、重要語句候補文字列パターン情報は、必ずしも、先頭文字が漢字又は片仮名である全ての文字列が重要語句候補文字列パターンに該当するように定めてある必要はない。例えば、発明文書に記載された「受信する」という動詞の文字列の一部である「受信」は、先頭文字が漢字である所定の文字列には含まれないこととしてもよい。所定の文字列であるためには文字列に一定の条件が付され得るので、例えば、動詞の先頭の一部分である文字列は、先頭文字が漢字又は片仮名であっても所定の文字列に含まれないこととしてもよいし、文字列の直後に「す」が続くような文字列は、先頭文字が漢字又は片仮名であっても所定の文字列に含まれないこととしてもよい。
参照文字列パターン情報は、先行記載した文字列の参照用に用いられる参照文字列のパターンを表した参照文字列パターンを示す。参照文字列パターン情報は、例えば、「前記」、「上記」、「当該」、「上述した」、「その」等といった文字列が、その参照文字列パターンに該当するように定められている。
符号文字列パターン情報は、要素名を表す文字列に後続して付記される符号の文字列のパターンを表した符号文字列パターンを示す。各符号は、特許出願用の図面において、図中の一部分に付加されて記載される。また、その図中の一部分に付加された符号と同一の符号が、特許出願用の明細書等において、その図中の一部分を参照するために、その図中の一部分を示す要素名に続けて、記載され得る。符号は、参照符号と称されることもある。
符号文字列パターン情報は、例えば、先頭文字が数字である所定の文字列(例えば「100」、「101a」、「122−1」、「123’」等といった文字列)が、当該符号文字列パターンに該当するように定められている。なお、符号文字列パターン情報は、必ずしも、先頭文字が数字である全ての文字列が符号文字列パターンに該当するように定めてある必要はない。また、符号文字列パターン情報は、例えば、先頭文字が数字以外(例えば英字)の文字列が更に、符号文字列パターンに該当するように定めてあってもよい。
特定助詞文字列パターン情報は、所定の助詞である文字列のパターンを表した特定助詞文字列パターンを示す。特定助詞文字列パターン情報は、助詞のうち、例えば、「を」、「に」、「が」、「と」、「から」、「へ」及び「は」のいずれかの文字が、特定助詞文字列パターンに該当するように定められている。
設定情報は、一例としては更に、重要語句設定辞書の特定用情報を含む。
重要語句設定辞書の特定用情報は、発明文書分析システム10の重要語句設定辞書取得部103が重要語句設定辞書を取得するために必要な情報であり、例えば、重要語句設定辞書を内容とするファイル等の所在位置を示すファイルパス(File Path)の情報等といった、そのファイル等へのアクセスに必要な情報である。なお、例えば、重要語句設定辞書の特定用情報は、重要語句設定辞書そのものであってもよい。
設定情報は、例えば、出力ファイルの格納先の特定用情報を含んでもよい。出力ファイルの格納先の特定用情報の一例は、ファイルシステムにおける所定フォルダー(つまり所定ディレクトリ)を指定する情報である。
[2−1−2.文書取得部]
文書取得部102は、発明文書を取得する。文書取得部102は、複数の発明文書各々を逐次取得し得るが、例えば、複数の発明文書を同時に取得可能であってもよい。文書取得部102により取得された発明文書は、分析部105及び機械学習部107で用いられ得る。
文書取得部102は、例えば、発明文書が記録媒体等に格納されたファイルとして存在する場合に、そのファイルを読むことでファイル内容である発明文書(つまり発明文書の文書データ)を取得する機能を有する。なお、文書取得部102は、例えば、発明文書が、データベースのデータ、発明文書分析システム10を構成するコンピュータのメモリに格納されたデータ(例えばOSにおいてクリップボードが利用可能であるときに、あるアプリケーションプログラムで使用されていた文書等のうちコピー等されてクリップボードとして用いられるメモリ領域に格納された状態となったデータ等)である場合に、そのデータを、データベース、メモリ等から読み出すことで、発明文書を取得する機能を有してもよい。
文書取得部102は、例えば、複数の発明文書に加えて、その複数の発明文書各々の翻訳結果である、複数の翻訳結果文書を取得し得る。翻訳結果文書は、例えば機械学習部107で用いられる。
文書取得部102は、例えば、発明文書に加えて、その発明文書に対応する図面文書を取得してもよい。発明文書に対応する図面文書は、その発明文書の明細書等において参照される図面を表した文書である。一般的に、特許出願用の図面中の一部分に付加された符号と同一の符号が、特許出願用の明細書においてその一部分に相当する要素を表す語句に後続して記載される。図面文書は、例えば、PDF(Portable Document Format)ファイル等のファイルとして存在する。図面文書が、テキスト情報を付加したPDFファイル(つまり文字列を検索可能な状態にしたPDFファイル)である検索可能PDFファイルとして存在する場合には、図面文書に表された各図面中の符号その他の文字列を容易に検索可能である。また、図面文書が、検索可能PDFファイルではないPDFファイルとして存在する場合においても、従来の光学的文字認識(OCR:Optical Character Recognition)技術、或いは、機械学習を用いた文字認識技術等を利用することで、例えば、図面文書に表された各図面中の符号その他の文字列の検索が可能であり、例えば、そのPDFファイルを、検索可能PDFファイルに変換することも既存技術により可能である。
[2−1−3.重要語句設定辞書取得部]
重要語句設定辞書取得部103は、設定情報取得部101により取得された設定情報における、重要語句設定辞書の特定用情報に基づいて、重要語句設定辞書を取得する。重要語句設定辞書は、抽出対象とすべき複数の重要語句を列挙した情報(つまり複数の重要語句を含む情報)であり、その複数の重要語句のうちの全部又は一部の重要語句各々に対して、その重要語句を日本語以外の所定の言語(例えば英語)に翻訳した対応翻訳語を対応付けてもよいように構成された情報である。重要語句設定辞書において、例えば、一部の重要語句には、対応翻訳語が対応付けられている。
重要語句設定辞書は、例えば、ファイルとして存在しても、データベースの内容として存在しても、発明文書分析システム10内のデータとして存在してもよい。
重要語句設定辞書は、分析部105における重要語句抽出部1051による重要語句の抽出に利用され得る。
[2−1−4.翻訳用発明文書標準規定取得部]
翻訳用発明文書標準規定取得部104は、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する。
翻訳用発明文書標準規定は、例えば、翻訳対象となる発明文書が満たすべき条件を定める情報として、その条件を満たさない不適切な可能性がある記載部分についての文字列のパターンを表した不適切文字列パターンを示す不適切文字列パターン情報を含む。また、その翻訳対象となる発明文書が満たすべき条件を定める情報は、例えば、その条件を満たさない不適切な可能性がある記載部分についての文字列のパターンを表した不適切文字列パターン情報の全部又は一部に対応付けて、その不適切な可能性がある記載部分の修正方法に関する修正情報を含む。
翻訳用発明文書標準規定は、例えば、分析部105及び機械学習部107で用いられる。また、翻訳用発明文書標準規定の内容の一例としての修正情報は、出力部108により出力され得る特許出願関連情報に含まれ得る修正版クレーム情報及び修正版明細書情報を生成するために用いられ得る。
[2−1−5.分析部]
分析部105は、文書取得部102により取得された発明文書を、設定情報取得部101により取得された設定情報に基づいて分析する。分析部105は、重要語句抽出部1051、翻訳語候補集合特定部1052、分類部1053及び翻訳部1054を含む。分析部105は、例えば、文書取得部102により取得された発明文書が翻訳用発明文書標準規定で定められた複数の条件のうちの少なくとも一部の各条件を満たすか否かについての判定を行い、その判定の結果に基づいて、その発明文書における、不適切な可能性がある部分を指摘するための警告情報を生成する。翻訳用発明文書標準規定で定められた複数の条件のうち、分析部105により、発明文書が条件を満たすか否かの判定対象とされる条件は、例えば、設定情報で定めた選択用の情報等に基づいて、或いは、発明文書分析システム10のユーザの選択操作によって、選定され(つまり絞り込まれ)得る。
この警告情報は、出力部108により出力され得る特許出願関連情報に含まれ得る。なお、分析部105による、発明文書が翻訳用発明文書標準規定で定められた条件を満たすか否かについての判定は、例えば、翻訳用発明文書標準規定に含まれ得る不適切文字列パターン情報が示す不適切文字列パターンに該当する文字列がその発明文書に存在するか否かにより行われる。また、発明文書の分析部105による分析の結果として生成される警告情報は、例えば、その発明文書の、翻訳用発明文書標準規定への適合性を示す発明文書評価情報を含んでもよい。発明文書評価情報は、例えば、発明文書の翻訳用発明文書標準規定への適合性を評価した結果としての評価値を示す。発明文書の翻訳用発明文書標準規定への適合性の評価の結果としての評価値は、例えば、翻訳用発明文書標準規定で定めた複数の条件のうち判定対象として選定された条件の個数に対する、発明文書が満たしたと判定された条件の個数の比率である適合率であってもよい。また、例えば、その適合率の高さについて複数段階の範囲に区分して、判定結果の適合率が該当する区分を表す値(例えば区分に属する適合率が小さい方から順に各区分について定めた通番)を評価値としてもよい。
[2−1−5−1.重要語句抽出部]
重要語句抽出部1051は、設定情報に含まれる条件情報に基づいて、文書取得部102により取得された発明文書から重要語句を抽出する。条件情報が適切に定められることにより、重要語句抽出部1051は、例えば、発明文書の一例としての、日本国の特許庁により公開された幾つかの特許公開公報のうちの個々の特許公開公報における特許請求の範囲又は明細書から、複数の重要語句を、抽出可能となる。
重要語句抽出部1051により抽出された重要語句は、例えば、発明文書分析システム10が出力する、特許出願関連情報等の情報の生成に利用される。ここでは、一例として発明文書がクレーム及び明細書を含む例を用いて、その発明文書から重要語句を抽出する重要語句抽出部1051について詳細に説明する。重要語句抽出部1051は、重要語句の抽出のための第1抽出条件、第2抽出条件、第3抽出条件及び第4抽出条件に係る抽出をそれぞれ行う、第1抽出部10511、第2抽出部10512、第3抽出部10513及び第4抽出部10514を含む。
第1抽出部10511は、文書取得部102により取得された発明文書のクレーム及び明細書に、条件情報における参照文字列パターン情報が示す参照文字列パターンに該当する文字列に後続して、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する機能を有する。
第2抽出部10512は、文書取得部102により取得された発明文書のクレームに、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して句点文字が存在するときには、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する。句点文字は、例えば「。」である。
第3抽出部10513は、文書取得部102により取得された発明文書に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、条件情報における符号文字列パターン情報が示す符号文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する機能を有する。
第4抽出部10514は、文書取得部102により取得された発明文書に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列である重要語句候補文字列に後続して、条件情報における特定助詞文字列パターン情報が示す特定助詞文字列パターンに該当する文字列である特定助詞文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する機能を有する。
なお、重要語句抽出部1051は、例えば、条件情報に含まれる抽出条件に係る情報に基づいて、発明文書から重要語句を抽出してもよい。また、重要語句抽出部1051は、例えば、条件情報に含まれる抽出例外条件に係る情報に基づいて、第1抽出部10511、第2抽出部10512、第3抽出部10513又は第4抽出部10514により発明文書から抽出された重要語句のうちの一部を、重要語句でないものと取り扱うこととしてもよい。また、重要語句抽出部1051は、第1抽出部10511、第2抽出部10512、第3抽出部10513及び第4抽出部10514のいずれか1つを含まないように変形したものであってもよい。
また、重要語句抽出部1051は、例えば、重要語句設定辞書取得部103により取得された重要語句設定辞書に含まれている重要語句と同一の重要語句が文書取得部102により取得された発明文書に含まれている場合には、その重要語句設定辞書に含まれている重要語句と同一の重要語句をその発明文書から抽出することとしてもよい。
また、重要語句抽出部1051は、重要語句の抽出のために、比較的複雑な重要語句候補文字列パターンを1つ又は少数用いることとしてもよいし、比較的簡潔な重要語句候補文字列パターンを複数用いることとしてもよい。例えば、重要語句抽出部1051は、重要語句の抽出のために、重要語句候補文字列パターンに複数の文字列が該当していた場合においてその複数の文字列のうちの一の文字列が他の文字列に発明文書の記載上包含されていたときには、その複数の文字列のうちその一の文字列を除外した残余の文字列を選択対象として重要語句を選択して抽出することとしてもよい。即ち、重要語句抽出部1051は、第1抽出条件、第2抽出条件、第3抽出条件及び第4抽出条件による重要語句の抽出にあたり、重要語句候補文字列パターンに複数の文字列が該当していた場合においてその複数の文字列のうちの一の文字列が他の文字列に発明文書のクレーム又は明細書の記載上包含されていたときには、その複数の文字列のうちその一の文字列を除外した残余の文字列を選択対象として重要語句を選択して抽出する選択抽出条件を利用し得る。
[2−1−5−2.翻訳語候補集合特定部]
翻訳語候補集合特定部1052は、文書取得部102により取得された発明文書から重要語句抽出部1051により抽出された重要語句各々について、その重要語句についての対応翻訳語の候補の集合である翻訳語候補集合を特定する。各重要語句について翻訳語候補集合特定部1052により特定された翻訳語候補集合を表す翻訳語候補情報は、例えば、発明文書分析システム10が出力する特許出願関連情報に含まれる。
翻訳語候補集合は、1つ以上の要素(つまり対応翻訳語の候補)を含む。対応翻訳語は、重要語句を外国語に翻訳した結果の語句である。ここでは、一例として、対応翻訳語は英語の語句であるとして説明するが、対応翻訳語は英語以外の言語(例えば中国語)の語句であってもよい。例えば、重要語句が「変化量」である場合における翻訳語候補集合の要素の例としては、「variation」、「amount of change」等が、挙げられる。
翻訳語候補集合特定部1052は、一具体例としては、日本語の語句と外国語の語句とを対応付けた対訳辞書情報(例えば従来知られた和英辞書データ)を利用し、重要語句抽出部1051により抽出された重要語句をキーとしてその対訳辞書情報を検索することで、その重要語句に対応する1つ以上の対訳である語句を検出し、その検出した語句の集合を、その重要語句についての翻訳語候補集合として特定する。対訳辞書情報の具体例としては、例えば、オーストラリアのジム・ブリーン(James William Breen)氏により創設された日本語辞書プロジェクトにより作成された和英辞書「edict2」、或いは、その和英辞書を加工、編集等したデータ等が、挙げられる。翻訳語候補集合特定部1052は、例えば対訳辞書情報を保持し得る。
発明文書分析システム10により、各重要語句と、対応する翻訳語候補集合を表す翻訳語候補情報とを含む特許出願関連情報は、出力部108により出力され得る。なお、発明文書分析システム10は、発明文書中の各重要語句について、当該重要語句に対応して特定された翻訳語候補集合のうち、発明文書分析システム10のユーザによって選択された要素である対応翻訳語と当該重要語句とを対応付けた情報である翻訳補助情報を出力することとしてもよい。この場合には、複数の発明文書各々が発明文書分析システム10で逐次分析された際における重要語句に対応する対応翻訳語についての、1人又は複数人のユーザの選択の結果としての、1つ以上の翻訳補助情報が、発明文書分析システム10の内部又は外部の記録媒体等に蓄積され得る。記録媒体等は、メモリ、ハードディスク、光ディスク等のデータを記録可能な媒体であればよい。記録媒体等に蓄積された1つ以上の翻訳補助情報を統合して、重要語句毎に対応翻訳語の集合を対応付けた様式の翻訳補助情報を生成してもよい。翻訳補助情報は、ファイルの内容、データベースの内容等の態様で出力され得るし、表示されるという態様で出力されてもよい。既に生成された翻訳補助情報が利用できる場合においては、翻訳語候補集合特定部1052は、別の一具体例として、既に生成された翻訳補助情報を利用し、重要語句抽出部1051により抽出された重要語句をキーとしてその既に生成された翻訳補助情報を検索することで、その重要語句に対応する1つ以上の対応翻訳語として過去にいずれかのユーザに選択された語句を検出し、その検出した語句の集合を、その重要語句についての翻訳語候補集合として特定してもよい。
翻訳語候補集合特定部1052は、また別の一具体例としては、分類部1053又は技術分野特定部10531により、文書取得部102により取得された発明文書が属するグループ、又は、その発明文書に対応する技術分野が、特定された場合に、複数の対訳辞書情報のうちから、そのグループ又は技術分野に対応した対訳辞書情報を選択して、重要語句抽出部1051により抽出された重要語句をキーとしてその選択した対訳辞書情報を検索することで、その重要語句に対応する1つ以上の対訳である語句を検出し、その検出した語句の集合を、その重要語句についての翻訳語候補集合として特定することとしてもよい。この一具体例は、複数のグループ又は技術分野の各々について、そのグループ又は技術分野に属する発明文書における日本語の語句と翻訳先の言語の語句とを対応付けた、グループ別又は技術分野別の複数の対訳辞書情報が存在する場合に利用可能である。この各対訳辞書情報においては、例えば、その対訳辞書情報に対応するグループ又は技術分野における発明文書中の重要語句に対応する語句として選択される可能性が高いと推定される順(つまり対応翻訳語としての妥当性の高い順)に、重要語句に対応する1つ以上の対訳の語句を順序付けておき、翻訳語候補集合特定部1052は、選択した対訳辞書情報における語句の順序と合わせるように、発明文書分析システム10から翻訳語候補集合に係る情報が出力される場合における、翻訳語候補集合の各要素の並び順を定めることとしてもよい。
翻訳語候補集合特定部1052は、また別の一具体例としては、分類部1053により、文書取得部102により取得された一の発明文書が属するグループが特定された場合に、そのグループに属する別の複数の発明文書各々と、対応する翻訳結果文書各々とから、重要語句抽出部1051により抽出された重要語句と、その重要語句に対応する対応翻訳語との複数組を特定し、その複数組を重要語句翻訳用の機械学習のための教師データとして用いて機械学習により生成された学習モデルである重要語句翻訳用学習モデルを利用する機械翻訳により、その文書取得部102により取得されたその一の発明文書から重要語句抽出部1051により抽出された重要語句各々についての翻訳語候補集合の要素を特定(例えばその機械翻訳結果として得られた1つ又は複数の語句を翻訳語候補集合の要素として特定)することとしてもよい。
[2−1−5−3.分類部]
分類部1053は、文書取得部102により取得された複数の発明文書各々について、重要語句抽出部1051により抽出された複数の重要語句である重要語句群を用いて、その各々抽出された重要語句群間の相関性に基づいて、その複数の発明文書各々が複数のグループのうちいずれに属するかを特定するためのグループ分類を行う。分類部1053は、重要語句群間の相関性を評価するために、両重要語句群に共通する同一の重要語句の数を計数するアルゴリズム、類義語辞書を利用して両重要語句群における同一又は類似する重要語句の数を計数するアルゴリズム、重要語句群各々に対してある程度十分な数(例えば数千、数万等)の予め定められた文字列各々を要素として、例えばその要素の文字列が重要語句として存在する場合に1、重要語句として存在しない場合に0という要素値を定めたベクトルデータを定義して、そのベクトルデータ間の相関係数を算定する各種アルゴリズム等の、如何なるアルゴリズムを用いてもよい。また、分類部1053は、例えば、発明文書分析システム10のユーザによる指定に基づいて、各発明文書が属するグループを特定する機能を有していてもよい。グループの分類の単位、方法等は、発明文書分析システム10の運用単位(例えば発明文書、対訳辞書情報、或いは、発明文書分析システム10が出力する情報を、相互に伝達し合うユーザ各々が利用する各発明文書分析システム10)において統一されていることが有用となり得る。
分類部1053は、技術分野特定部10531を含む。
技術分野特定部10531は、複数の技術分野各々について、その技術分野に関することが知られている1つ以上の発明文書各々が文書取得部102で過去に取得されて重要語句抽出部1051により重要語句群を過去に抽出された結果を利用することで、複数の技術分野のうち、文書取得部102で取得された、技術分野が特定されていない発明文書から重要語句抽出部1051により抽出された重要語句群との相関性が予め定められた程度以上であると評価されたところの、いずれかの技術分野を、その技術分野が特定されていない発明文書に対応する技術分野として特定する。技術分野は、グループの一例とも言える。技術分野は、例えば、国際特許分類(IPC:International Patent Classification)で表現される。技術分野特定部10531は、技術分野として、IPCのどの階層までの分類を用いてもよく、例えばセクションだけ、或いは、セクション及びクラスだけ等を用いて1つの技術分野として取り扱うこととしてもよい。また、技術分野特定部10531は、技術分野を、IPCのセクション、クラス、サブクラス、メイングループ及びサブグループの全てを用いて表現することとしてもよい。例えば、技術分野をIPCのセクションだけで区別することとした場合に、技術分野特定部10531は、特許公報等を用いて、IPCのセクション毎にそのセクションに属する複数の発明文書を取得し、その各発明文書を発明文書分析システム10に取得させて重要語句抽出部1051により抽出された、セクションに対応した重要語句群を得ることができる。例えば、この過去に得られたセクション毎の重要語句群を利用することで、技術分野特定部10531は、文書取得部102で取得された、技術分野としてのセクションが特定されていない発明文書から重要語句抽出部1051により抽出された重要語句群との相関性が予め定められた程度以上であると評価されたところのセクションを、その発明文書の技術分野として特定することができる。
文書取得部102で取得した発明文書に対応して技術分野特定部10531により特定された技術分野(例えばIPC)を示す情報である技術分野情報は、例えば、発明文書分析システム10が出力する特許出願関連情報に含まれる。
また、分類部1053により発明文書が属すると特定されたグループ、又は、技術分野特定部10531により発明文書に対応して特定された技術分野は、例えば、翻訳語候補集合特定部1052が、発明文書から抽出された各重要語句に対応する翻訳語候補集合を特定するための対訳辞書情報を選択するために利用され得る。また、分類部1053によるグループ分類は、機械学習部107においてグループ毎の翻訳用学習モデルを生成するために利用され得る。
[2−1−5−4.翻訳部]
翻訳部1054は、文書取得部102で取得された発明文書を入力として翻訳用学習モデルを利用した、翻訳のために予め定められた演算処理により、その発明文書についての機械翻訳を実行する。翻訳用学習モデルは、発明文書と、その発明文書に基づいて翻訳者等によって翻訳された結果としての翻訳結果文書との複数組を教師データとした機械学習により生成された、機械翻訳のための学習モデルである。
ここでは、一例として、翻訳用学習モデルは、主として日本語で記載された文書である発明文書を英語の文書に機械翻訳するために用いられる学習モデルであることとして説明するが、発明文書を、英語の代わりに中国語その他の言語の文書に、機械翻訳するために用いられる学習モデルであってもよい。日本語を英語に翻訳するための翻訳用学習モデルの生成のための方法の一例としては、日本語で記載された国際出願の国際公開公報と、その国際出願を米国、英国等の英語を用いる指定国の国内段階に移行するために英語に翻訳した翻訳結果文書に相当する内容が掲載された、その指定国の官庁等により公開された公報との組を、発明文書と翻訳結果文書との組として教師データとして取り扱って教師有りの機械学習を行う方法が、挙げられる。
また、発明文書が複数のグループに分類できる場合において、翻訳用学習モデルは、グループ毎に生成される方が、適切な翻訳用学習モデルを選択的に用いたときの機械翻訳の精度、つまり機械翻訳の適正度の向上が期待できる可能性が十分にある。グループの分類の一例としては、電気技術に関する発明文書のグループと、機械技術に関する発明文書のグループと、化学技術に関する発明文書のグループとに分類する例が、挙げられる。また、グループ分類の別の一例として、発明文書が属する技術分野について、IPCで分類した場合におけるIPCのセクション、或いは、セクション及びクラスが相違するものを互いに異なるグループとして分類する例が、挙げられる。また、グループ分類の更に別の一例として、一の発明文書で示された発明を創作した発明者の所属部門を、他の部門と区別するように、発明文書に係る発明者の所属部門別にグループを分類する例が、挙げられる。
複数のグループ毎或いは技術分野毎に、翻訳用学習モデルが存在する場合において、翻訳部1054は、例えば、文書取得部102で取得された発明文書が属するグループ或いは技術分野を分類部1053により特定し、その発明文書が属するグループ或いは技術分野に対応する翻訳用学習モデルを選択的に利用することで、その発明文書の全部又は一部の機械翻訳を実行することとしてもよい。
翻訳部1054による、発明文書についての機械翻訳の結果は、例えば、発明文書分析システム10が出力する特許出願関連情報に含まれ得る。
[2−1−6.文書評価部]
文書評価部106は、文書取得部102により取得された複数の発明文書各々について、その発明文書が翻訳用発明文書標準規定で定められた複数の条件のうちの少なくとも一部の各条件を満たすか否かについての判定を行い、その複数の発明文書のうち、その判定がなされた条件を満たす程度が、予め定めた所定程度を超えるところの1つ以上の発明文書を選出する。翻訳用発明文書標準規定で定められた複数の条件のうち、文書評価部106により、発明文書が条件を満たすか否かの判定対象とされる条件は、例えば、設定情報で定めた選択用の情報等に基づいて、或いは、発明文書分析システム10のユーザの選択操作によって、選定され得る。
文書評価部106により選出された発明文書は、例えば、機械学習部107で用いられ得る。
[2−1−7.機械学習部]
機械学習部107は、機械学習により、発明文書に係る機械翻訳のための学習モデルを生成する。
機械学習部107は、一例としては、文書評価部106により選出された各発明文書について、その発明文書と、その発明文書に対応して文書取得部102により取得された翻訳結果文書との組を教師データとして、複数組の教師データを用いた機械学習の実行により、翻訳用学習モデルを生成する。
機械学習部107は、別の一例としては、複数のグループの各々毎に、文書取得部102により取得された複数の発明文書のうちそのグループに分類部1053により分類された各発明文書についての、その発明文書と、その発明文書の翻訳結果であって文書取得部102により取得された翻訳結果文書との各組を、教師データとして用いた機械学習により、機械翻訳のための学習モデルである翻訳用学習モデルを生成する。これにより発明文書に係る複数のグループ毎に、そのグループに対応する翻訳用学習モデルの生成が可能となる。この例においても、教師データとして用いる発明文書を、例えば、文書評価部106により選出された発明文書に限定してもよい。
機械学習部107は、また別の一例としては、文書取得部102により取得された発明文書中に、翻訳用発明文書標準規定で定められた条件に係る不適切文字列パターン情報が示す不適切文字列パターンに該当する文字列が存在した場合には、その発明文書の内容と、翻訳用発明文書標準規定においてその不適切文字列パターン情報に対応付けられた修正情報とに基づいて、翻訳用発明文書標準規定で定められたその条件を満たすようにその発明文書の内容を修正することで生成される修正版発明文書(つまりその修正後の発明文書に相当する内容を有する文書)と、その発明文書に対応して文書取得部102により取得された翻訳結果文書との組を、教師データとして用いた機械学習により、翻訳用学習モデルを生成する。修正版発明文書は、例えば、発明文書中の文字列が、翻訳用発明文書標準規定において修正情報が対応付けられた不適切文字列パターン情報が示す不適切文字列パターンに該当する場合にその文字列をその修正情報に従って削除又は別の文字列に置換すること等によって生成され得る。修正版発明文書は、例えば、発明文書のクレームの文字列を、該当する不適切文字列パターンに対応する修正情報に基づいて修正した内容を表す修正版クレーム情報と、発明文書の明細書の文字列を、該当する不適切文字列パターンに対応する修正情報に基づいて修正した内容を表す修正版明細書情報との少なくとも一方を含む。
機械学習部107により生成された翻訳用学習モデルは、例えば、翻訳部1054で用いられ得る。機械学習部107により生成された翻訳用学習モデルは、例えば、発明文書の翻訳用の機械翻訳システム若しくは機械翻訳用のプログラム、又は、一般的な機械翻訳システム等において利用され得る。
[2−1−8.出力部]
出力部108は、文書取得部102により取得された発明文書についての分析部105による分析結果に基づいて生成された情報を出力する。
出力部108は、例えば、文書取得部102により取得された発明文書から重要語句抽出部1051により抽出された複数の重要語句各々に基づいて生成された情報を出力する。
出力部108は、具体例としては、文書取得部102により取得された発明文書についての分析部105による分析結果に基づいて生成された特許出願関連情報を出力する。図6は、出力部108が出力する特許出願関連情報の内容の一例を示す。
出力部108が出力する特許出願関連情報には、分析部105により生成された警告情報が含まれ得る。
出力部108は、例えば、特許出願関連情報を、文書取得部102により取得された発明文書から重要語句抽出部1051により抽出された複数の重要語句各々が、表示されるべき内容として含まれた、表示用文書として出力する機能を有する。表示用文書としての特許出願関連情報は、例えば、複数の重要語句を列挙した重要語句リストを含む。
ここで、表示用文書は、例えば、ブラウザ(Web Browser)等のアプリケーションプログラムで表示可能な、マークアップ言語等で記述された文書である。表示用文書は、一例としては、HTML(Hypertext Markup Language)で記述されたHTML文書で構成される。HTML文書は、少なくともHTMLファイルを含んで構成され、HTMLファイルは、例えば、HTML5に準拠して記述される。表示用文書における、重要語句等の表示されるべき内容は、例えば、HTMLファイルの<body>タグの内容として記載(つまり<body>タグと</body>タグとの間に記述)されることで、ブラウザ等により表示される。例えば、<body>タグの内容又はその配下の階層のタグの内容における表示されるべき文字は、例えば、等幅フォントで表示されるように設定しておいてもよい。等幅フォントを用いると複数の文字が整列されて表示され得る。また、<body>タグの内容又はその配下の階層のタグの内容における表示されるべき文字は、等幅フォントでなくプロポーショナルフォントで表示されるように設定しておいてもよい。HTMLファイルは、例えば、必要に応じて、外部ファイルを読み込む記述を含んでいてもよいし、その代わりにその外部ファイルに相当する内容を直接HTMLファイル内に記述していてもよい。外部ファイルは、例えば、表示要素の表示態様等についてCSS(Cascading Style Sheets)で記述されたCSSファイル、JavaScript(登録商標)等のスクリプト言語で記述されたスクリプトを内容とするスクリプトファイル等である。このため、表示用文書の一例としてのHTML文書は、例えば、1つ以上のHTMLファイル、1つ以上のCSSファイル、1つ以上のスクリプトファイル等のファイル群で構成され得る。HTMLファイルには、例えばCSSファイル及びスクリプトファイルを特定する情報が含まれる。HTML文書は、HTMLファイルのみで構成されてもよいし、HTMLファイルとCSSファイルとで構成されてもよいし、HTMLファイルとスクリプトファイルとで構成されてもよい。なお、CSSによれば、例えば、特許出願関連情報における文字の表示態様の制御等が可能となり、例えば、CSSのfont−familyプロパティにより、表示されるべき文字のフォントの指定等が可能となる。
特許出願関連情報は、例えば、文書取得部102により取得された発明文書から重要語句抽出部1051により抽出された複数の重要語句各々について、その重要語句に、その重要語句に関連する付加情報を付加した情報を含む。なお、特許出願関連情報における付加情報は、必ずしも発明文書から重要語句抽出部1051により抽出された全ての重要語句各々に付加される必要はなく、抽出された全ての重要語句のうちの一部である複数の重要語句各々に限って付加されてもよい。
特許出願関連情報における重要語句に関連する付加情報は、例えば、その重要語句の意味を表す翻訳語句である対応翻訳語に関する情報としての翻訳語情報であってもよい。ここで、翻訳語句は、日本語以外の一種類の言語(例えば、英語、中国語等)で表された言葉を含む語句である。例えば重要語句が「物体」である場合における翻訳語句の一例は、「object」である。対応翻訳語に関する情報としての翻訳語情報は、例えば、対応翻訳語自体(例えば重要語句についての機械翻訳結果等)、対応翻訳語の候補の集合である翻訳語候補集合等を表す情報である。翻訳語情報が、重要語句についての翻訳語候補集合を表す情報である翻訳語候補情報である場合において、その翻訳語候補情報には、更に、翻訳語候補集合に関連する情報(例えば、翻訳語候補集合の各要素について、対応翻訳語としての妥当性の高さを示す値、順位等を示す情報)が含まれてもよい。
また、特許出願関連情報における重要語句に関連する付加情報は、例えば、その重要語句について翻訳語候補集合特定部1052により特定された翻訳語候補集合のうちのいずれかの要素を、操作に応じて選択可能にするように、その翻訳語候補集合をグラフィカルユーザインタフェース(GUI:Graphical User Interface)要素として表示するための表示制御情報を含む。ここで、操作は、特許出願関連情報が、例えばブラウザ等でコンピュータの表示装置に表示された場合において、例えばコンピュータの入力装置に対して、コンピュータのユーザにより、実行され得る。GUI要素の一例は、表示された状態において、操作対象となり得るボタン(例えばプッシュボタン、ラジオボタン等)、メニュー等であるが、文字列等の表示要素であってもGUI要素となり得る。表示用文書の一例としてのHTML文書では、マウスオーバー操作(つまりマウスポインタを対象に重ねる操作)、マウスクリック操作等に対応して起動されるべきスクリプト(例えばJavaScript(登録商標)で記述された関数等)を付加可能なHTMLタグ(例えば<span>タグ)の内容として記述された文字列その他の要素が、操作可能なGUI要素である操作対応GUI要素となり得る。
重要語句に関連する付加情報に含まれる表示制御情報は、一具体例としては、翻訳語候補集合を表す翻訳語候補情報と、GUI要素として表示された状態の、その重要語句についての翻訳語候補集合から、操作に応じて選択された要素を、その重要語句に対応する対応翻訳語として決定する決定処理を実行するためのスクリプトと、その決定処理の実行結果として対応翻訳語が決定された各重要語句についてその重要語句と該当の対応翻訳語とを対応付けた情報である翻訳補助情報を生成して出力する処理を実行するためのスクリプトとを含む。操作に応じてスクリプトが実行されることにより、何らかの処理(重要語句に対応する対応翻訳語として決定する決定処理等)が行われ、例えば、コンピュータの表示装置に表示されている特許出願関連情報に係る表示内容が、その処理の結果に応じて、変化し得る。翻訳語候補集合から選択された要素を対応翻訳語として決定する決定処理では、例えば、決定に伴って、表示されていた翻訳語候補集合が、対応翻訳語へと置換して表示され得る。
なお、表示用文書としての特許出願関連情報における、ブラウザにより表示された表示内容の全部又は一部は、ユーザの操作により、選択可能であってコピー&ペースト又はカット&ペーストの対象となり得るので、そのペースト(つまり貼り付けること)により、例えば、コンピュータ上で実行されている、あるアプリケーションプログラムが使用している文書等(例えばテキストファイル等)の内容として包含させることができる。また、特許出願関連情報に係るGUI要素に対するユーザ操作に応じて実行される処理の実行結果として、ブラウザにより表示される内容が変化した場合において変化後の表示内容の全部又は一部も、ユーザの操作により、選択可能であってコピー&ペースト等の対象となり得る。
また、重要語句抽出部1051が、重要語句設定辞書取得部103により取得された重要語句設定辞書で対応翻訳語が対応付けられている重要語句と同一の重要語句を、文書取得部102により取得された発明文書から抽出した場合におけるその重要語句に関連する付加情報は、一例としては、その対応翻訳語を表す。また、重要語句抽出部1051が、重要語句設定辞書で対応翻訳語が対応付けられている重要語句以外の重要語句を文書取得部102により取得された発明文書から抽出した場合におけるその抽出した重要語句に関連する付加情報は、一例としては、その重要語句の翻訳語候補集合のうちのいずれかの要素を操作に応じて選択可能となるように、その翻訳語候補集合をGUI要素として、表示するための表示制御情報を含む。この場合の表示制御情報は、例えば、重要語句の翻訳語候補集合を表す翻訳語候補情報と、GUI要素として表示された状態の、重要語句の翻訳語候補集合から、操作に応じて選択された要素を、その重要語句に対応する対応翻訳語として決定する決定処理を実行するためのスクリプトと、その決定処理の実行結果として対応翻訳語が決定された各重要語句についてその重要語句と該当の対応翻訳語とを対応付けた情報を含むように、重要語句設定辞書取得部103により取得された重要語句設定辞書を更新する更新処理を実行するためのスクリプトとを含む。
特許出願関連情報における重要語句に関連する付加情報は、例えば、その重要語句の重要度、その重要語句の属性情報等であってもよい。また、重要語句に関連する付加情報は、重要語句に関連する何らかの処理を、GUI要素の操作に応じて実行するための表示制御情報であってもよい。この場合の表示制御情報は、例えば、GUI要素として表示される内容を示す情報と、GUI要素に対する操作(例えば、マウスクリック操作)を示す情報と、操作に対応して起動される処理を記述したスクリプトとを関連付けたものである。
なお、出力部108における、特許出願関連情報等の情報の出力の実現態様の例としては、その情報の記録媒体への書き出し、その情報のファイルとしての書き出し、その情報の表示、その情報の印刷、その情報の送信、その情報を表す音声の出力、その他、その情報を表す物理現象を起こすこと等が、挙げられる。
出力部108は、例えば、ブラウザに相当する機能の全部又は一部を有してもよく、特許出願関連情報を表示することで、特許出願関連情報の出力を実現してもよい。出力部108は、特許出願関連情報を内容とする表示用文書(例えばHTML文書)を生成した上で、その表示用文書に従って、特許出願関連情報の表示を実現してもよい。
文書取得部102により取得された発明文書にクレームが含まれている場合には、出力部108は、例えば、特許出願関連情報に、そのクレームの内容を表すクレーム情報を含めることとしてもよい。表示用文書としての特許出願関連情報においては、クレーム情報は表示されるべき内容の1つとなる。
表示用文書における、発明文書のクレームの内容を表すクレーム情報は、重要語句抽出部1051により抽出されたそのクレーム中の複数の重要語句各々についてのその重要語句に関連する付加情報に含まれる表示制御情報として、その重要語句の表示態様を制御するための情報、例えば、その重要語句に付加される色を示す情報等を含む。例えばHTML文書としての特許出願関連情報における、ある重要語句についての表示制御情報は、例えば、HTMLファイルにおいてその重要語句を内容として記載する<span>タグ(つまり内容となる重要語句に前置される<span>タグ)に付与された、その重要語句を他の重要語句と識別するように定められた識別情報の一例としてのクラス名と、CSSファイルにおいてそのクラス名の<span>タグの内容の表示態様としての表示色を定めた情報とを含んで構成される。この場合にCSSファイルには、例えば、複数の識別情報(例えば複数のクラス名)各々についての<span>タグの内容の表示態様としての色を示す情報が含まれ得る。重要語句に付加される色を示す情報は、例えば、重要語句の文字列に対する文字色、文字背景色等、或いは、重要語句の文字列を囲む最小矩形状の境界線の上下左右の少なくとも一辺に線幅を与えた場合のその一辺の線色等を、例えばRGB値等で表現した色情報である。出力部108は、例えば、クレーム情報中の、重要語句抽出部1051により抽出された重要語句を構成する文字列が互いに相違する複数の重要語句各々を、互いに相違する色(つまり表示色)を付加して、表示してもよい。これは、例えば、重要語句を構成する文字列が互いに相違する複数の重要語句について各々互いに異なるようにクラス名を定め、クラス名毎についての<span>タグの内容の表示態様としての表示色を示す色情報を、クラス毎に相違する色を示すように定めることで実現できる。また、出力部108は、例えば、クレーム情報中の、重要語句抽出部1051により抽出された重要語句を構成する文字列が互いに相違する上述の複数の重要語句のうちのいずれか1つの重要語句と同一の文字列で構成される、クレーム情報中の重要語句には、その前述の1つの重要語句と同じ色(つまり同一の表示色)を付加して表示してもよい。このような重要語句間で同じ表示色を付加することは、表示色に係る同じクラス名のクラスを利用することで実現可能である。なお、互いに相違する重要語句の数が予め定めた一定数(例えば500等)を超える場合については、重要語句の重要度、或いは、属性情報(例えば初出行番号)等に基づいて定めた順に一定数までは相違する重要語句を相違するRGB値の色で表現し、その一定数を超える分の重要語句については所定の1つのRGB値を用いた同一色で表現することとしてもよい。
文書取得部102により取得された発明文書に明細書が含まれている場合には、出力部108は、例えば、特許出願関連情報に、その明細書の内容を表す明細書情報を含めることとしてもよい。表示用文書としての特許出願関連情報においては、明細書情報は表示されるべき内容の1つとなる。
表示用文書における、発明文書の明細書の内容を表す明細書情報は、重要語句抽出部1051により抽出されたその明細書中の複数の重要語句各々についてのその重要語句に関連する付加情報に含まれる表示制御情報として、その重要語句の表示態様を制御するための情報、例えば、その重要語句に付加される色を示す情報等を含む。
出力部108は、例えば、明細書情報における重要語句抽出部1051により抽出された複数の重要語句各々について、その重要語句が、クレーム情報における重要語句抽出部1051により抽出された複数の重要語句のいずれかと同一であれば、明細書情報におけるその重要語句を、クレーム情報におけるその同一の重要語句と同一の表示態様で表示(例えば同一の色を付加して表示)し、明細書情報におけるその重要語句が、クレーム情報における重要語句抽出部1051により抽出された複数の重要語句のいずれとも相違すれば、明細書情報におけるその重要語句を、クレーム情報におけるその複数の重要語句のいずれとも相違する表示態様で表示してもよい。なお、出力部108は、上述のように、明細書情報中の重要語句が、クレーム情報中の重要語句と同一の重要語句であるか否かを識別可能に表示することを、ブラウザ等によって可能とするように、明細書情報における各重要語句についての表示制御情報を適切に定めた表示用文書を構成して、出力することとしてもよい。表示用文書中の明細書情報における一の重要語句についての表示制御情報は、例えば、その一の重要語句がクレーム情報における重要語句抽出部1051により抽出された重要語句のいずれかと同一であれば、明細書情報におけるその一の重要語句を、クレーム情報における同一の重要語句と同様の表示態様で表示させ、明細書情報におけるその一の重要語句が、クレーム情報における重要語句抽出部1051により抽出された重要語句のいずれとも相違すれば、明細書情報におけるその一の重要語句を、クレーム情報における抽出された重要語句のいずれとも相違する表示態様で表示させるように制御する情報を含む。
分析部105による発明文書の分析結果に基づいて、出力部108が、表示用文書として生成する特許出願関連情報にクレーム情報及び明細書情報を含める場合において、重要語句抽出部1051によりその発明文書から抽出された、クレーム情報又は明細書情報中の複数の重要語句のうち、その発明文書において符号が付加されて記載された要素名を表す語句と同一の重要語句についての、その重要語句に関連する付加情報としての表示制御情報は、例えば、その重要語句を、操作に応じて、その発明文書に対応して文書取得部102により取得された図面文書(例えば検索可能PDFファイル)中のその重要語句に係るその符号が記載された部分(例えば図面文書においてその符号を検索することで特定された、その符号が記載された頁、位置等)の表示のための操作対応GUI要素(つまり操作に対応するGUI機能を有する表示要素)として表示するための情報を含む。
特許出願関連情報を表示する例における出力部108は、特許出願関連情報中のクレーム情報及び明細書情報における重要語句抽出部1051により抽出された複数の重要語句の表示態様を、その複数の重要語句以外の語句の表示態様と相違させて表示するようにするための強調表示情報を含んだ、表示制御情報等を含む表示用文書を生成して、その表示用文書に従って表示を行ってもよい。表示用文書の一例としてのHTML文書に基づいて表示を行うブラウザ等によりこの表示を実現させるための一例としては、出力部108は、HTML文書としての特許出願関連情報において、例えば、その複数の重要語句以外の語句の表示態様を制御する表示制御情報として、文字列に対する既定値としての文字色、文字背景色等を定めておく。そして、その複数の重要語句各々の表示態様を制御する表示制御情報に、上述したようにその複数の重要語句各々を識別可能に定められたクラス名の、重要語句を内容とする<span>タグの内容の表示態様としての文字色、文字背景色等を、その既定値以外となるように定めた色情報等の、強調表示情報を含ませる。
特許出願関連情報を表示する例における出力部108は、特許出願関連情報中のクレーム情報における重要語句抽出部1051により抽出された複数の重要語句各々について、その重要語句を、操作に応じてその重要語句に係る情報付加表示を実行するためのGUI要素として表示するようにしてもよい。表示用文書に基づいて表示を行うブラウザ等によりこの表示を実現させるための一例としては、出力部108は、表示用文書としての特許出願関連情報中の各重要語句について、その重要語句の表示制御情報で、例えば、その重要語句に係る情報付加表示のための情報と、その重要語句を、操作に応じてその重要語句に係る情報付加表示を実行するためのGUI要素として表示するための情報とを含ませる。
重要語句に係る情報付加表示は、その重要語句に、その重要語句に関連する付加情報を付加して表示する処理のことであり、例えば、その重要語句についての重要度、属性情報、翻訳語情報(例えば対応翻訳語、翻訳語候補集合)等、又は、その重要語句に関する検索結果を表示することである。重要語句についての重要度、属性情報、及び、重要語句に関する検索結果については、如何なる方法で特定したものであってもよく、例えば、後述する実施形態2で示すものと同様であってもよい。
出力部108が、文書取得部102により取得された発明文書のクレームの内容を表すクレーム情報を含む特許出願関連情報を表示用文書として出力する場合における表示されるべきクレーム情報の一例は、クレームの内容に加えて、そのクレームの内容における重要語句抽出部1051により抽出された複数の重要語句各々について、そのクレームの内容におけるその重要語句の部分を、その重要語句に対応する対応翻訳語又は翻訳語候補集合に、置換した内容を含んでもよい。この場合において、クレーム情報は、例えば、発明文書のクレームを表した部分(例えば一行分の記載等)毎に、その部分に後続して、その部分をコピーした記載における重要語句を、対応翻訳語又は翻訳語候補集合に置換したものが挿入された態様であってもよい。
また、出力部108が、文書取得部102により取得された発明文書の明細書の内容を表す明細書情報を含む特許出願関連情報を表示用文書として出力する場合における表示されるべき明細書情報の一例は、明細書の内容に加えて、その明細書の内容における重要語句抽出部1051により抽出された複数の重要語句各々について、その明細書の内容におけるその重要語句の部分を、その重要語句に対応する対応翻訳語又は翻訳語候補集合に、置換した内容を含んでもよい。この場合において、明細書情報は、例えば、発明文書の明細書を表した部分(例えば一行分の記載等)毎に、その部分に後続して、その部分をコピーした記載における重要語句を、対応翻訳語又は翻訳語候補集合に置換したものが挿入された態様であってもよい。
翻訳用発明文書標準規定取得部104により取得された翻訳用発明文書標準規定で定められた複数の条件のうちの幾つかの条件各々について、その条件に係る不適切文字列パターン情報が示す不適切文字列パターンに該当する文字列が、文書取得部102により取得された発明文書におけるクレーム中に存在した場合には、出力部108が出力する特許出願関連情報は、例えば、そのクレームと、翻訳用発明文書標準規定においてその不適切文字列パターン情報に対応付けられた修正情報とに基づいて、その条件を満たすようにそのクレームを修正することで生成される修正版クレーム情報を含み得る。翻訳用発明文書標準規定で定められた複数の条件のうちのその幾つかの条件は、例えば、設定情報で定めた選択用の情報に基づいて、或いは、発明文書分析システム10のユーザの選択操作によって、選定され得る。また、翻訳用発明文書標準規定取得部104により取得された翻訳用発明文書標準規定で定められた複数の条件のうちの幾つかの条件各々について、その条件に係る不適切文字列パターン情報が示す不適切文字列パターンに該当する文字列が、文書取得部102により取得された発明文書における明細書中に存在した場合には、出力部108が出力する特許出願関連情報は、例えば、その明細書と、翻訳用発明文書標準規定においてその不適切文字列パターン情報に対応付けられた修正情報とに基づいて、その条件を満たすようにその明細書を修正することで生成される修正版明細書情報を含み得る。
文書取得部102により取得された発明文書にクレームが含まれている場合において、そのクレームの所定の一項(例えば1つの請求項)が、複数の項(例えば複数の請求項)を引用しているときには、出力部108が出力する、分析部105による発明文書の分析結果に基づいて生成される特許出願関連情報は、例えば、その所定の一項を、その複数の項のうちの項番が最先の1つの項のみを引用するように変更した内容を含むように、そのクレームを修正した結果を表す修正版クレーム情報と、その修正版クレーム情報が表すクレームの各項の引用関係を、相互に引用関係のある項同士の項番間を線又は記号を用いて対応付けた表現で、表した情報としての修正版クレームツリーとを含み得る。
出力部108が出力する、分析部105による発明文書の分析結果に基づいて生成される特許出願関連情報は、例えば、その発明文書から重要語句抽出部1051により抽出された複数の重要語句各々の間の関係を示す重要語句関係情報を含んでもよい。この重要語句関係情報は、例えば、複数の重要語句各々が表す要素相互間における構成上の包含関係を示す包含関係情報を含む。例えば、発明文書に「入力部」と「表示部」とを含む「情報処理装置」が記載されていた場合において、重要語句として「情報処理装置」、「入力部」及び「表示部」が抽出されたときには、重要語句により表される要素「情報処理装置」が、重要語句により表される要素群としての「入力部」及び「表示部」を、構成上包含しているという関係を示す包含関係情報を含む特許出願関連情報を、出力部108は出力し得る。
また、出力部108が出力する特許出願関連情報は、例えば、翻訳部1054による、発明文書についての機械翻訳の結果を含んでもよい。
出力部108は、一例として、学習モデル出力部1081を含む。
出力部108により出力された、複数の重要語句それぞれを、翻訳語候補集合からの選択操作が可能なGUI要素として表示するための表示制御情報を含む表示用文書(例えばHTML文書)がブラウザ等で表示された場合において、その表示制御情報に含まれるスクリプトによって、重要語句に対する翻訳語候補集合から、操作に応じて選択された要素を、その重要語句に対応する対応翻訳語として決定する決定処理と、その決定処理の実行結果として対応翻訳語が決定された各重要語句について翻訳補助情報を生成して出力する処理とが実行される。
学習モデル出力部1081は、上述したように、文書取得部102により取得された複数の発明文書各々に対して出力された表示用文書各々が表示された結果として生成された複数の翻訳補助情報各々における、重要語句と、対応する対応翻訳語との組を、重要語句翻訳用の機械学習のための教師データとして用いて、機械学習により生成された学習モデルである重要語句翻訳用学習モデルを出力する。この機械学習は、例えば一般的な機械学習アルゴリズムを用い、一定の相関関係を有する重要語句とこれに対応する対応翻訳語との組を、教師データとした演算処理により実現される。一般的な機械学習アルゴリズムの例として、入力層、出力層、及び隠れ層から構成され層間に情報の伝達の程度を表す重みを持たせるニューラルネットワーク、その隠れ層を多数含ませた深層学習(Deep Learning)等が、挙げられる。深層学習では、ニューラルネットワークの入力と出力との組を教師データに近づける(つまり誤差を小さくする)ために、ニューラルネットワークの各層の重みを調整することで学習を行う。この重みの調整の方法として、例えば、誤差逆伝播法(Back Propagation)等が用いられ得る。
また、学習モデル出力部1081は、例えば、機械学習部107により生成された翻訳用学習モデルを出力する機能を有していてもよい。学習モデル出力部1081による学習モデル(重要語句翻訳用学習モデル又は翻訳用学習モデル)の出力形式は、例えば翻訳部1054、或いは、その他の機械翻訳のための処理システムが参照可能な、如何なる形式であってもよい。学習モデル出力部1081は、一例としては、学習モデルを、発明文書分析システム10の内部又は外部の記録媒体におけるファイル、データベースのデータ等の内容として出力する。
[2−2.実施形態1に係る発明文書分析処理例]
上述した構成を備える発明文書分析システム10が実行する発明文書分析処理の一例について説明する。
図7は、発明文書分析処理の一例を示すフローチャートである。
発明文書分析処理は、例えば、設定情報取得ステップS1と文書取得ステップS2と分析ステップS3と出力ステップS4とを含む。
発明文書分析システム10は、設定情報取得ステップS1において、重要語句の抽出の条件を示す条件情報を含む設定情報(図5参照)を取得する。
発明文書分析システム10は、文書取得ステップS2において、発明文書を取得する。
発明文書分析システム10は、分析ステップS3において、文書取得ステップS2において取得された発明文書を、設定情報取得ステップS1において取得された設定情報に基づいて分析する。分析ステップS3は、重要語句抽出ステップS31を含む処理である。
発明文書分析システム10は、重要語句抽出ステップS31において、文書取得ステップS2において取得された発明文書から、設定情報取得ステップS1において取得された設定情報の条件情報に基づいて、重要語句を抽出する。
発明文書分析システム10は、出力ステップS4において、文書取得ステップS2において取得された発明文書についての分析ステップS3における分析結果に基づいて生成された情報を出力する。発明文書分析システム10は、出力ステップS4では、文書取得ステップS2において取得された発明文書から重要語句抽出ステップS31において抽出された複数の重要語句各々に基づいて生成された情報を出力する。発明文書分析システム10により、出力ステップS4において出力される情報の一例が、特許出願関連情報(図6参照)である。発明文書分析システム10は、文書取得ステップS2で発明文書及び対応する翻訳結果文書を取得し、出力ステップS4において、一定条件を満たす発明文書と翻訳結果文書との組を教師データとした機械学習の結果として生成された、翻訳用学習モデル又は重要語句翻訳用学習モデルを出力してもよい。
重要語句抽出ステップS31では、例えば、条件情報における、重要語句候補文字列パターンを示す重要語句候補文字列パターン情報と、参照文字列パターンを示す参照文字列パターン情報と、符号文字列パターンを示す符号文字列パターン情報と、特定助詞文字列パターンを示す特定助詞文字列パターン情報とを参照することで、文書取得ステップS2において取得された発明文書中に、参照文字列パターンに該当する第1文字列に後続して重要語句候補文字列パターンに該当する第2文字列が存在する場合に、その第2文字列と同一の文字列を重要語句として抽出し、その発明文書にクレームが含まれている場合においてそのクレーム中に、重要語句候補文字列パターンに該当する第3文字列に後続して句点文字が存在するときには、その第3文字列と同一の文字列を重要語句として抽出し、その発明文書中に、重要語句候補文字列パターンに該当する第4文字列に後続して符号文字列パターンに該当する第5文字列が存在する場合に、その第4文字列と同一の文字列を重要語句として抽出し、その発明文書中に、重要語句候補文字列パターンに該当する第6文字列に後続して特定助詞文字列パターンに該当する第7文字列が存在する場合に、その第6文字列と同一の文字列を重要語句として抽出する。
なお、図7の例は、一例にすぎず、発明文書分析システム10は、発明文書分析処理として、図7に示す一部のステップを省略又は変更した処理を実行してもよいし、図7に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図7に示す複数のステップの実行順序を変更して実行してもよいし、図7に示す複数のステップの全部又は一部を並列に実行してもよい。
[2−3.発明文書分析システムのハードウェア構成又はネットワーク構成の例]
上述したように発明文書分析システム10は、例えば、メモリ、マイクロプロセッサ、入力装置及び表示装置を備えたコンピュータ等で実現される。発明文書分析システム10は、1台のコンピュータ等の装置で実現されてもよいし、複数台のコンピュータ等の装置で実現されてもよい。また、複数の発明文書分析システム10の各々が、1人又は複数人のユーザに利用され得る。
図8〜図10は、発明文書分析システム10のハードウェア構成又はネットワーク構成の一例を示す。
図8の例では、発明文書分析システム10は、1台の端末装置10aで構成される。端末装置10aは、例えば、表示用文書に基づく表示を実現するブラウザ機能を有するコンピュータである。端末装置10aは、具体例としては、例えばタッチパネル等を搭載し、OSを実行するコンピュータであり、OS配下でブラウザ機能を実現するためのアプリケーションプログラムを実行し得る。コンピュータは、例えば、マイクロプロセッサ(例えばCPU)、メモリ(例えば、ROM、RAM)、通信インタフェース、入出力装置等の接続インタフェース等を、バスで接続した構成を有する。コンピュータは、例えば入出力装置を包含し得る。命令群を含むOS、アプリケーションプログラム等は、例えばメモリに格納され、その命令群の命令は、マイクロプロセッサにより、メモリから読み出され、解釈され、実行される。端末装置10aは、例えば、デスクトップPCであっても、ノートPC(Laptop PC)、スマートフォン等であってもよい。発明文書分析処理(図7参照)を実行するためのプログラムである発明文書分析処理プログラムは、例えば、端末装置10aで実行される1つ又は複数のアプリケーションプログラムであってもよいし、端末装置10aで実行されるブラウザの一部を構成するプログラム(例えばブラウザに組み込むプラグインモジュール等)であってもよい。端末装置10aで実行される発明文書分析処理プログラムは如何なる言語で記述されたものであってもよい。発明文書分析処理プログラムの全部又は一部は、例えば、C言語、C++言語等で記述されてコンパイルされた実行形式のプログラムであってもよいし、Python(登録商標)言語等で記述されてインタープリタ等で実行されるプログラムであってもよい。また、発明文書分析処理プログラムの全部又は一部は、Microsoft(登録商標)のWord等といった文書作成編集機能を有するアプリケーションプログラムの実行に際して付随的に実行可能なマクロ(例えば、VisualBasic(登録商標)等で記述されたプログラム)であってもよい。
発明文書分析処理プログラムが端末装置10aで実行されるアプリケーションプログラムとして実装される場合において、そのアプリケーションプログラムは、例えば、分析結果に基づく情報(例えば特許出願関連情報)を生成し、かつ、表示する機能を有していてもよい。
発明文書分析処理プログラムが端末装置10aで実行されるアプリケーションプログラムとして実装される場合において、そのアプリケーションプログラムは、例えば、表示用文書(例えばHTML文書)としての特許出願関連情報を生成して、その表示用文書を、ブラウザ(例えば表示用文書の解釈及び表示に係るブラウザ機能を有するアプリケーションプログラム)による表示対象としてもよい。ブラウザは例えば所謂ローカルファイル群としての表示用文書にアクセスして特許出願関連情報に係る表示を行い得る。発明文書分析処理プログラムとしてのアプリケーションプログラムは、例えば、ウェブサーバとしての機能を実行して更にブラウザを起動することで、生成した表示用文書を、所謂ローカルホストにおけるリソースとして、起動したブラウザにアクセスさせて表示させてもよい。
発明文書分析システム10が出力する特許出願関連情報の出力態様としての表示用文書は、一例としてはHTML文書である。本開示では、特許出願関連情報の出力態様としての表示用文書として、主にHTML文書である例を用いて説明しているが、表示用文書は、HTML文書以外の、特許出願関連情報における重要語句等の各表示要素について、何らかの表示制御情報を付加することでその表示要素の表示態様(表示色等)を制御し得る文書であってもよく、具体的には例えば、Microsoft(登録商標)のWord等といった文書作成編集機能を有するアプリケーションプログラムが通常取り扱うフォーマットの文書(所謂DOCファイル)等であってもよく、重要語句等の表示要素に係る表示制御情報として、操作対応GUI要素等の表示制御を行うためのマクロが付随したDOCファイル等であってもよい。
また、端末装置10aで実行される発明文書分析処理プログラムは、特許出願関連情報等を、如何なる形式のファイル(例えばテキストファイル)の内容として出力してもよい。
図9の例では、発明文書分析システム10は、例えば、1台のサーバ装置10bと、サーバ装置10bにLAN(Local Area Network)で接続された複数台の端末装置10c〜10eとで構成される。端末装置10c〜10eは、端末装置10aと同様であり、それぞれ別のユーザ(一例としては同一企業、同一会社、同一事務所、同一事業部、同一部署等の局所的な同一環境に所在する各ユーザ)に利用されることが想定される。また、図9の例において、LANをWAN(Wide Area Network)にして運用することも可能である。サーバ装置10bは、例えば、ファイルサーバ機能を有しており、例えば、ファイルを記録する記録媒体(例えばメモリ、ハードディスク等)を備えている。
サーバ装置10bは、一例としては、端末装置10c〜10eの各々がアクセスして取得するための設定情報を内容として含むファイルを記録媒体に保持している。サーバ装置10bは、一例としては、端末装置10c〜10eの各々がアクセスして取得するための翻訳用発明文書標準規定を内容として含むファイルを記録媒体に保持している。サーバ装置10bは、一例としては、端末装置10c〜10eそれぞれにおいて翻訳補助情報が生成された場合にそれを収集して統合し、統合した結果の翻訳補助情報を内容とするファイルを保持し、そのファイルの翻訳補助情報を、LANで接続された各端末装置に配信する機能を有し得る。
サーバ装置10bは、一例としては、1つの対訳辞書情報を内容とするファイル、又は、複数のグループ(例えば技術分野)毎についての対訳辞書情報を内容とする各ファイルを保持し、LANで接続された端末装置10c〜10eのいずれかにおいて必要とされる対訳辞書情報をその端末装置に配信する機能を有し得る。
サーバ装置10bは、一例としては、端末装置10c〜10eの各々において、発明文書と、その発明文書に基づく発明文書分析処理の結果に基づいて出力された情報(例えば発明文書評価情報を含む特許出願関連情報)と、その情報を利用してユーザに作成された翻訳結果文書とを、対応付けて収集して蓄積(つまり保持)する機能を有し得る。この機能をサーバ装置10bが有する場合において、端末装置10c〜10eの各々は、サーバ装置10bが保持する一部の発明文書と、その発明文書に対応する翻訳結果文書との組を教師データとして用いた機械学習により学習モデルを生成して、例えば発明文書分析処理での分析対象の発明文書についての機械翻訳等にその学習モデルを活用することが可能となる。
図10の例では、発明文書分析システム10が、各地に分散した複数のコンピュータで構成されている。図10の例における発明文書分析システム10は、例えば、1台のサーバ装置10fと、サーバ装置10fにLAN又はインターネット等のWANで接続された複数台の端末装置10g、10hとで構成される。端末装置は1台であってもよい。サーバ装置10fは、サーバ装置10iとLAN又はWAN経由で通信可能であってもよい。WANで接続された装置間では、例えば、通信対象のデータが既存の暗号技術により暗号化されて、そのデータの通信が行われる。サーバ装置10iは、例えば、発明文書分析処理の一部の実行を担い得る。
端末装置10g、10hは、端末装置10aと同様であり、それぞれ別のユーザに利用されることが想定される。サーバ装置10fは、例えば、ウェブサーバ機能を有しており、例えば、表示用文書のファイルを格納可能な記録媒体(例えばメモリ、ハードディスク等)を備えている。サーバ装置10fは、例えば、発明文書分析処理の一部についてPerl言語等で記述したプログラムで実装したCGI(Common Gateway Interface)機能を備える。
端末装置10g、10hのいずれかは、例えば、ブラウザにより、発明文書をサーバ装置10fに送信する。発明文書を受信した、サーバ装置10fは、必要に応じてサーバ装置10fに一部の処理を依頼することで、発明文書分析処理を実行し、その結果としてその発明文書の分析結果に基づく情報(例えば特許出願関連情報)についての表示用文書(例えばHTML文書)を生成する。サーバ装置10fは、その表示用文書を、その生成の基礎となった発明文書の送信元の端末装置に送信することで、その発明文書の分析結果に基づく情報の出力を行う。表示用文書を受信した端末装置10g、10hのいずれかは、ブラウザにより、その表示用文書に基づく情報の表示制御等を実現する。これにより、ブラウザでの、発明文書の分析結果に基づく情報の出力が、実現される。ブラウザにより例えば表示用文書としての特許出願関連情報が表示される場合において、クレーム情報における重要語句及び明細書情報における重要語句は、各々予め表示制御情報で定められた表示態様(例えば文字色、文字背景色等)で表示され得る。また、ブラウザにより、発明文書に対する指摘、評価等を含む警告情報が表示され得る。警告情報が表示されると、ユーザは発明文書が問題を有するか否かについて確認することができる。ブラウザによる情報の表示制御の結果として、端末装置が備える表示装置等に、操作対応GUI要素等が表示された場合には、ユーザの操作に応じて、表示用文書の表示制御情報で定められた処理が実行され、例えば、表示内容が変化し得る。なお、必要に応じてユーザは、ブラウザにより表示された内容を、コピー&ペースト等によって、文書作成編集機能を有するアプリケーションプログラム(例えばテキストエディタ等)に取り込ませて、自由に編集することができる。
サーバ装置10fは、例えば、アクセス元の端末装置(つまりクライアント端末)を、ユーザ、ユーザグループ、端末、又は、端末グループに、関連した識別情報(ID)、パスワード等を用いて認証し、予め登録、管理等された所定のクライアント端末に限って、発明文書のアップロードを可能とし、また、過去にアップロードされた発明文書の分析結果としての特許出願関連情報等の一覧表示を可能とし、指定された特許出願関連情報等の閲覧(つまりダウンロード)、削除等を可能とするように管理する機能を有してもよい。また、サーバ装置10fは、同じユーザグループ又は端末グループのIDの指定に基づいて同一グループと認証できた複数のクライアント端末に対して、同じ発明文書の分析結果としての特許出願関連情報を閲覧可能とすることとしてもよい。また、ID、パスワード等で認証した所定のクライアント端末と、サーバ装置10fとは、発明文書分析処理を構成する各処理ステップを、適宜分担して、実行してもよい。
サーバ装置10fは、例えば、クライアント端末の要求に応じて検索を行う検索サイト(所謂検索エンジン)としての機能を有していてもよい。この場合に、サーバ装置10fが特許文献の検索を行った結果として取得された発明文書を分析対象として、発明文書分析処理を実行することとしてもよい。
サーバ装置10f又はサーバ装置10iは、例えば、各国の官庁及び国際機関によりインターネット上に公開された特許に関する公報に基づいて、公報で示された発明文書と、その発明文書に対応する翻訳結果文書との組を複数収集する機能を有していてもよい。
[2−4.実施形態1に係る発明文書分析システムの効果]
発明文書分析システム10は、発明者等又は弁理士により作成された発明文書から、設定情報に基づいて重要語句抽出部1051により重要語句を抽出し、抽出された各重要語句に基づいて生成された情報を出力部108により出力するので、翻訳者等にとっては、出力された情報を参照することにより、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。
重要語句抽出部1051は、例えば、発明文書において語句を参照する表現がある場合に参照される語句を一定条件下で重要語句と扱い、発明文書のクレームにおいて句点文字の直前に記載された語句を一定条件下で重要語句と扱うので、注目して記載された語句及びクレームの請求対象を表す語句が重要語句として扱われ得る。重要語句抽出部1051は、例えば、日本語で記載された発明文書において助詞に先行する語句(例えば名詞句等)を一定条件下で重要語句と扱い、発明文書において符号が付されて記載された語句を一定条件下で重要語句と扱うので、主語、目的語等の比較的重要な語句及び発明文書に関連する図面中に図示されると推定される要素を表す語句が重要語句として扱われ得る。これらにより、発明文書分析システム10が発明文書において重要と推定される重要語句に基づいて出力部108により情報が出力されるので、その出力される情報は有用であり得る。
出力部108は、例えば、発明文書から重要語句抽出部1051により抽出された複数の重要語句各々についてその重要語句と、関連する付加情報(例えば、重要語句の重要度、属性情報、翻訳語候補集合等)とを含む特許出願関連情報を出力するので、その特許出願関連情報を得ることで翻訳者等は、発明文書の複数の重要語句を把握でき、翻訳者は、発明文書の翻訳のために付加情報に基づいて、重要語句に対応する、重要語句と同じ意味の翻訳先の言語である翻訳語句を、効率的に又は適正に決定することが可能となり得る。出力部108が出力する特許出願関連情報に、重要語句に対応して対応翻訳語に関する情報としての翻訳語情報(例えば、対応翻訳語そのもの、翻訳語候補集合等を表す情報)が含まれるので、その翻訳語情報を参照することで翻訳者は、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。出力部108が、重要語句に対応して翻訳語候補集合を含む特許出願関連情報を出力する場合において、翻訳語候補集合の各要素に対応翻訳語となる妥当性の高さを示す値等が付記されているときには、翻訳者は、翻訳語候補集合から、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。
発明文書分析システム10では、例えば、発明文書から重要語句抽出部1051により抽出された重要語句群に基づいて分類部1053がグループ分類を行い、グループ(例えば技術分野)別の対訳辞書情報のうちから、発明文書が属すると特定されたグループの対訳辞書情報を選択的に用いてその発明文書の重要語句についての翻訳語候補集合を特定する。これにより、発明文書に適したグループの対訳辞書情報が用いられるので、重要語句に対して適切な翻訳語候補集合が特定され得る。
出力部108は、例えば、HTML文書等といった表示用文書として特許出願関連情報を出力し、表示用文書は、重要語句に対応する翻訳語候補集合の表示要素を操作対応GUI要素とするための表示制御情報を含み、このGUI要素は、操作で選択された翻訳語候補集合の1つの要素を対応翻訳語として決定し、重要語句と対応翻訳語とを翻訳補助情報として出力する処理を実行し得る。これにより、翻訳者は、表示用文書のGUI要素に対する選択の操作により、翻訳語候補集合から重要語句に対応する対応翻訳語を容易に決定することができる。また、翻訳者は、例えば、ブラウザ等による表示用文書の表示内容から、決定された対応翻訳語を、コピー&ペースト等により、テキストエディタ等で編集可能となり得る。また、翻訳者による選択の結果が、その後に、翻訳補助情報を介して、発明文書分析システム10による重要語句に対応する翻訳語候補集合の特定についての妥当性を向上させる可能性がある。
発明文書分析システム10では、例えば、学習モデル出力部1081が、翻訳補助情報における重要語句と対応翻訳語との組を、重要語句翻訳用の機械学習のための教師データとして用いた機械学習により生成された重要語句翻訳用学習モデルを、出力する。これにより、その重要語句翻訳用学習モデルを用いて重要語句を入力とする演算処理により、発明文書における重要語句についての機械翻訳が実現され得る。この機械翻訳の結果を参照することで、翻訳者は、発明文書における重要語句を翻訳した翻訳語句を効率的に又は適正に決定することが可能となり得る。
発明文書分析システム10は、例えば、重要語句設定辞書に従って発明文書から重要語句を抽出し、重要語句と、重要語句設定辞書に従って決定した重要語句の対応翻訳語とを含む特許出願関連情報を出力する。これにより、発明者等又は弁理士は、特定の語句を重要語句として定めておきたい場合、重要語句についての対応翻訳語を定めておきたい場合等に重要語句設定辞書を生成しておくことで、発明文書分析システム10により、適切な特許出願関連情報が出力されるようになる。このため、翻訳者は、その特許出願関連情報を参考にして発明文書の翻訳を、効率的に又は適正に行うことが可能となり得る。
発明文書分析システム10は、例えば、発明文書における重要語句に対応する翻訳語候補集合の特定を、その発明文書と同一のグループに属する複数の発明文書と、対応する翻訳結果文書とから抽出した重要語句と対応翻訳語との組を機械学習用の教師データとした機械学習の結果として生成された重要語句翻訳用学習モデルを用いた演算処理による機械翻訳により行う。これにより、発明文書分析システム10では翻訳語候補集合の特定が適切になされ得る。
発明文書分析システム10は、例えば、HTML文書等といった表示用文書として、発明文書のクレームを表すクレーム情報を含む特許出願関連情報を出力し、クレーム情報に、クレーム中の重要語句の表示態様を制御する表示制御情報を含ませる。これにより、ブラウザ等により表示されたクレーム情報において表示態様が制御された重要語句を識別することが可能となり得る。発明文書分析システム10において、重要語句の表示態様の制御として、例えば強調表示(例えば太字で表示する等)がなされた場合には、クレーム情報における重要語句の迅速な把握が可能となり得る。発明文書分析システム10は、例えば、表示用文書のクレーム情報における重要語句の表示要素を、操作対応GUI要素として、操作に応じて重要語句についての重要度、属性情報、対応翻訳語、若しくは、翻訳語候補集合、又は、その重要語句の検索結果を表示するための表示制御情報をクレーム情報に含ませ得る。これにより、表示用文書のクレーム情報を閲覧した翻訳者等は、表示された重要語句に対する操作により、重要度、属性情報等の各種情報を知得することが可能となり、発明文書における重要語句について効率的に又は適正に理解することが可能となり、また、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。
発明文書分析システム10は、例えば、HTML文書等といった表示用文書として、発明文書の明細書を表す明細書情報を含む特許出願関連情報を出力し、明細書情報に、明細書中の重要語句の表示態様を制御しその重要語句がクレームに記載されているか否かを識別可能に表示するための表示制御情報を含ませ、また、相違する重要語句の表示態様を相違させるように制御する表示制御情報を含ませ得る。これにより、ブラウザ等により表示された表示用文書を閲覧した翻訳者等は、明細書情報において記載された各重要語句が、クレームに記載されている重要語句か否かを識別することが可能となり、複数の重要語句が同一か相違するかを、各重要語句の表示態様により、迅速に把握することが可能となり得る。発明文書分析システム10は、例えば、相互に異なる重要語句同士の表示態様としての色(例えば重要語句の文字色、文字背景色、重要語句を囲んで線幅を有する矩形枠の全辺又はいずれか一辺である境界線の色等)を、相互に異なるようにして各重要語句を表示するための表示制御情報を表示用文書に含ませ得る。これにより、ブラウザ等により表示された表示用文書を閲覧した翻訳者等は、複数の重要語句が同一か相違するかを、各重要語句に付加された色により、迅速に把握することが可能となり得る。
発明文書分析システム10は、例えば、発明文書の分析結果に基づいて出力する特許出願関連情報におけるクレーム情報及び明細書情報の各々の内容に、その内容における重要語句を対応翻訳語又は翻訳語候補集合に置換した内容を含ませる。一例としては、発明文書分析システム10は、クレーム情報及び明細書情報の各行の直後に、その行の内容における重要語句を対応翻訳語又は翻訳語候補集合に置換した内容の行を挿入し得る。翻訳者は、この重要語句を対応翻訳語又は翻訳語候補集合に置換した内容について編集することで、効率的に、発明文書の翻訳を行うことが可能となり得る。
発明文書分析システム10は、例えば、発明文書の分析結果に基づいて出力する表示用文書としての特許出願関連情報のクレーム情報又は明細書情報における重要語句が、その発明文書に対応して文書取得部102により取得された図面文書における図面に含まれる符号を付記した要素名の記載が発明文書中に含まれるところのその要素名を表す語句である場合に、その重要語句の表示要素に、操作に応じてその図面文書における符号が記載された部分を表示するためのGUIとしての機能を与えるための表示制御情報を付加するように、表示用文書を生成する。これにより、ブラウザ等により表示された表示用文書を閲覧した翻訳者等は、重要語句の操作により、図面文書中の、その重要語句が表す要素に対応する部分を表示させて確認することができるようになり、その重要語句の理解を効率的又は適正に行うことが可能となる。
発明文書分析システム10は、例えば、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定に係る一部の条件を満たすか否かの判定結果に基づいて、発明文書における不適切な可能性がある部分を指摘する警告情報を含む特許出願関連情報を出力する。この特許出願関連情報を参考にすることにより、発明文書を作成した発明者等又は弁理士は、必要であれば発明文書の修正を行い得る。また、翻訳者は、例えば、発明者等又は弁理士から、翻訳対象となる発明文書及び特許出願関連情報を取得することにより、特許出願関連情報中の警告情報での指摘が残っていてもその指摘は特に対処の必要がないと発明者等又は弁理士が判断した結果であると推定できるので、翻訳対象となる適切な発明文書を取得することができ、この結果として、発明文書の翻訳を効率的に又は適正に行うことが可能となり得る。発明文書分析システム10は、例えば、翻訳用発明文書標準規定の複数の条件のうち警告情報での指摘のための判定に用いられる一部の条件を、設定情報等での指定に応じて絞り込めるようにしてもよい。これにより、発明者等又は弁理士は、設定情報の設定によって、発明文書分析システム10に、警告情報において不要な指摘を含まないような特許出願関連情報を出力させることが可能となり、その特許出願関連情報を翻訳者に提供すること等により、警告情報によって翻訳者に誤解を与えることを防止し得る。
発明文書分析システム10は、例えば、発明文書の分析結果に基づいて生成された特許出願関連情報における警告情報に、その発明文書の、翻訳用発明文書標準規定への適合性を示す発明文書評価情報を含ませ得る。適合性は、例えば、適合性の評価の結果としての評価値で表される。この発明文書評価情報を参考にすることで、発明者等又は弁理士は、その発明文書を適切に修正できる可能性がある。また、翻訳者は、発明文書評価情報を確認することで、翻訳対象として適切な発明文書であるか否かを認識することが可能となり得る。不適切な記載を含む発明文書は、例えば、翻訳ミスを招き易く、翻訳者が適切な権利取得のために発明文書を修正した上で翻訳するような事態も生じ得る。従って、発明文書に基づいて生成された特許出願関連情報における警告情報に、翻訳用発明文書標準規定への適合性が比較的低いことを示す発明文書評価情報が含まれていた場合には、その発明文書は、その発明文書に基づいて翻訳された結果である翻訳結果文書との間で、言語が異なる以外に内容の齟齬があり得ると判断でき、例えば、機械翻訳に用いる翻訳用学習モデルの生成のために、機械学習用の教師データとして用いるのには適さないとの判断が可能となり得る。
発明文書分析システム10は、例えば、翻訳用発明文書標準規定における修正情報等に基づいて、発明文書のクレームの不適切な可能性がある記載を修正した修正版クレーム情報と、発明文書の明細書の不適切な可能性がある記載を修正した修正版明細書情報とを含む特許出願関連情報を出力する。発明文書を作成した発明者等又は弁理士は、この修正版クレーム情報及び修正版明細書情報を参照することにより、効率的に発明文書を修正できる可能性がある。翻訳者は、修正版クレーム情報及び修正版明細書情報を参照することで修正された発明文書を提供されることで、その発明文書を効率的に又は適正に翻訳し得る。
発明文書分析システム10は、例えば、発明文書のクレームにおける複数項を引用する項を、その複数項のうち項番が最先の1つの項のみを引用する項に変更する修正版クレーム情報と、その修正版クレーム情報が表すクレームの各項の引用関係を表した修正版クレームツリーとを含む特許出願関連情報を出力する。発明文書分析システム10は、例えば、表示用文書としての特許出願関連情報において発明文書のクレームの各項の引用関係を表したクレームツリーを、引用関係の変更が可能な操作対応GUI要素を含めて出力することができ、ブラウザ等でその表示用文書に基づいて表示されたクレームツリーへの操作に応じて変更された引用関係と整合するように、修正版クレームツリー及び修正版クレーム情報を更新し得る。この場合には、発明者等又は弁理士は、クレームツリーを操作することで、その操作を反映した修正版クレームツリー及び修正版クレーム情報を含む特許出願関連情報を翻訳者に提供し得る。発明者等又は弁理士から特許出願関連情報の提供を受け、発明文書のクレーム部分については修正版クレーム情報に基づいて翻訳すべき旨を伝達された翻訳者は、発明文書における複数項を引用する項を修正するか否か、修正するとしたらどのように修正すべきか等について迷うことなく、効率的に、翻訳を行うことが可能となり得る。また、翻訳者等は、修正版クレームツリーにより、修正版クレーム情報に表されたクレームの各項の引用関係を迅速に把握し得る。
発明文書分析システム10は、例えば、発明文書から重要語句抽出部1051により抽出された複数の重要語句各々の間の関係を示す重要語句関係情報を含む特許出願関連情報を出力する。この重要語句関係情報は、例えば、複数の重要語句各々が表す要素相互間における構成上の包含関係を示す包含関係情報を含む。これにより、特許出願関連情報を取得した翻訳者は、発明文書における複数の重要語句間の関係を比較的迅速に把握可能となり、その関係の把握により各重要語句に対応する翻訳語句を効率的に又は適正に決定できる可能性があり、その結果として、発明文書を効率的に又は適正に翻訳することが可能となり得る。
発明文書分析システム10は、例えば、複数の発明文書各々から重要語句抽出部1051により抽出した重要語句群間の相関性に基づいて、分類部1053により発明文書のグループ分類を実行し、機械学習部107によりグループ毎に、発明文書と、対応する翻訳結果文書との複数組を教師データとした機械学習により翻訳用学習モデルを生成する。これにより、例えば機械翻訳システム等において、グループ毎の翻訳用学習モデルのうち、発明文書が属するグループに適合した翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。また、発明文書分析システム10が、例えば、グループ毎の翻訳用学習モデルのうち、発明文書が属するグループに適合した翻訳用学習モデルを利用した演算処理により発明文書の少なくとも一部を機械翻訳して、その機械翻訳結果を含む特許出願関連情報を出力することとしてもよい。このような発明文書の機械翻訳結果を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
発明文書分析システム10は、例えば、文書評価部106により、翻訳用発明文書標準規定に係る条件を、所定程度を超える程度に、満たす発明文書を選出し、機械学習部107により、その選出された発明文書と、その発明文書に対応する翻訳結果文書との複数組を教師データとした機械学習により機械翻訳のための翻訳用学習モデルを生成し、学習モデル出力部1081により、その翻訳用学習モデルを出力する。これにより、不適切な記載を含む発明文書と、その発明文書に基づいて生成された翻訳ミス等によりその発明文書と内容に齟齬のある翻訳結果文書との組が教師データに用いられにくくなり、発明文書分析システム10から、適切な翻訳用学習モデルが出力され得る。これにより、例えば機械翻訳システム等において、発明文書分析システム10から出力された適切な翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。この発明文書の機械翻訳結果を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
発明文書分析システム10は、例えば、機械学習部107により、翻訳用発明文書標準規定に含まれる修正情報に基づいて発明文書中の不適切な記載を修正した修正版発明文書と、その発明文書に対応する翻訳結果文書との組を教師データとした機械学習により、機械翻訳のための翻訳用学習モデルを生成し、学習モデル出力部1081により、その翻訳用学習モデルを出力する。発明文書と、発明文書中の不適切な記載を翻訳段階で修正することで生成された翻訳結果文書とは、相互に言語の相違はあるものの、相互の内容の齟齬が低減されたものとなる可能性があるので、この発明文書分析システム10から出力された翻訳用学習モデルは適切である可能性がある。これにより、例えば機械翻訳システム等において、発明文書分析システム10から出力された適切である可能性がある翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。この発明文書の機械翻訳結果を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
発明文書分析システム10は、例えば、マイクロプロセッサを備える機器に、図7に例示したような発明文書分析処理を実行させるための発明文書分析処理プログラムをインストールして構成される。発明文書分析システム10において発明文書分析処理プログラムが起動されると、発明文書分析処理が実行される。発明文書分析処理は、例えば、設定情報取得ステップS1で取得された設定情報に基づいて、文書取得ステップS2で取得された、発明者等又は弁理士により作成された発明文書を、分析ステップS3で分析し、その分析結果として生成された情報を出力ステップS4で出力する処理である。分析ステップS3は、発明文書から重要語句を抽出する重要語句抽出ステップS31を含む。翻訳者等にとっては、発明文書分析処理により出力された情報を参照することで、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。なお、発明文書分析システム10は、出力ステップS4により例えば特許出願関連情報を表示するための表示用文書を出力し得る。発明文書分析システム10が行う発明文書分析処理に、そのステップS4により過去に出力済みである1つ以上の表示用文書のうちいずれかの選択操作を可能にするGUI画面を表示して、選択された表示用文書を、マイクロプロセッサを備える機器におけるブラウザの解釈及び表示の対象とする処理を、含ませることとしてもよい。
(実施形態2)
以下、発明文書分析システムの実施形態の別の一例について、図面を用いて説明する。
本実施形態で示す発明文書分析システムは、基本的には、実施形態1で示した発明文書分析システム10と同様に、発明文書を分析する発明文書分析処理を実行するシステムである。本実施形態で示す発明文書分析システムは、実施形態1で示した発明文書分析システム10の一部を変形したものに相当し、本実施形態における発明文書分析処理は、実施形態1における発明文書分析処理を一部変形したものに相当する。本実施形態に係る発明文書分析システムは、本実施形態で説明する事項と矛盾しない限り、実施形態1で示した発明文書分析システム10の全ての構成要素を含み得る。本実施形態に係る発明文書分析システムについて、実施形態1で示した発明文書分析システム10に関する事項と、同様な事項についての説明は、適宜省略する。
[3−1.実施形態2に係る発明文書分析システムの構成例]
図11は、発明文書分析システム20の構成の一例を示す。また、図12は、発明文書分析システム20が取り扱う、主なデータ類の一例を示す。発明文書分析システム20は、例えば、設定情報、プラグインモジュール、翻訳用発明文書標準規定、重要語句設定辞書、対訳辞書情報、翻訳補助情報、発明文書、図面文書、翻訳結果文書等を取得し得る。発明文書分析システム20は、例えば、設定情報表示用文書、特許出願関連情報、重要語句群情報、各種学習モデルの生成のための機械学習に用いられる教師データ、翻訳用学習モデル、重要語句翻訳用学習モデル、技術分野特定用学習モデル等を出力し得る。
発明文書分析システム20は、発明文書を取得し、発明文書を分析する発明文書分析処理を実行するシステムである。
発明文書分析システム20は、発明文書を分析して、分析結果に基づき、特許出願関連情報等の情報(図12参照)を出力するためのシステムであり、例えば、プログラムを実行するマイクロプロセッサを備える機器等で、実現される。発明文書分析システム20は、例えば、実施形態1で示した発明文書分析システム10と同様に、特許出願関連情報を、表示用文書として出力する。また、発明文書分析システム20は、特許出願関連情報を、テキストファイル等の各種形式のファイルとして、出力してもよい。
発明文書分析システム20は、実施形態1で示した発明文書分析システム10と同様に、例えば、図8〜図10のいずれかに示すハードウェア構成又はネットワーク構成を有していてもよい。発明文書分析システム20は、1台のコンピュータ等の装置で実現されてもよいし、複数台のコンピュータ等の装置で実現されてもよい。また、複数の発明文書分析システム20の各々が、1人又は複数人のユーザに利用され得る。ここでは、一例としての発明文書分析システム20が、ファイルシステム等を含むOSとその他のプログラムを搭載したコンピュータで実現される例を想定して、説明を続ける。
発明文書分析システム20のユーザとしては、例えば発明文書の作成者(例えば弁理士、発明者等)、或いは、発明文書を用いて処理を行う翻訳者等が想定される。ここで、翻訳者等は、発明文書を基に外国語に翻訳して外国出願用の翻訳結果文書を作成する翻訳者と、発明文書についての調査、分析、修正、評価、見解陳述等といった、発明文書を用いた各種処理を行う者とを含み得る。
発明文書分析システム20は、図11に示すように、設定情報取得部201、文書取得部202、重要語句設定辞書取得部203、翻訳用発明文書標準規定取得部204、分析部205、機械学習部207及び出力部208を含む。設定情報取得部201、文書取得部202、重要語句設定辞書取得部203、翻訳用発明文書標準規定取得部204、分析部205、機械学習部207及び出力部208の各機能は、例えば、発明文書分析処理プログラムの全部又は一部を実行する1台以上のコンピュータにより実現される。分析部205は、発明文書から重要語句を抽出するための重要語句抽出処理を実行する重要語句抽出部2051、発明文書に基づき警告情報を生成し得る警告情報生成部2059等を含む。
[3−1−1.設定情報取得部]
設定情報取得部201は、実施形態1で示した設定情報取得部101を一部変形したものである。設定情報取得部201と設定情報取得部101とは、同様であってもよい。設定情報取得部201は、発明文書分析システム20が発明文書を分析するための基礎として用いる設定情報を取得する。
設定情報は、データベースのデータ、OSの環境変数としてのデータ等、如何なるデータとして存在してもよいが、例えば、ファイルの内容として存在し得る。ファイルは、例えば、発明文書分析システム20の一構成要素としての機器(例えばコンピュータ)の内部に備えられた、又は、発明文書分析システム20を構成する機器と通信可能な外部の機器に備えられた、メモリ、ハードディスク、各種光ディスク、光磁気ディスク等に記録されていてもよいし、そのいずれかの機器に着脱自在な、メモリカード、USB(Universal Serial Bus)メモリ等に記録されていてもよい。
設定情報取得部201は、例えば、設定情報を内容として含むファイルである設定情報ファイルを読み込むことで、設定情報の取得をしてもよい。設定情報取得部201は、複数の設定情報ファイルを読み込んで、複数のファイルの内容を、矛盾点については予め定めた優先順位に従って、統合することで、設定情報の取得を実現してもよい。設定情報ファイルには、技術分野等といったグループを問わない、一般的な設定情報が定義されていてもよい。また、1つの設定情報ファイル内において、技術分野別、発明者の所属部門別等といったグループ別に、複数種類の設定情報が定義されていてもよいし、グループ別に、別々の設定情報を含む別々の設定情報ファイルが存在してもよい。本開示における発明者の所属部門の具体的な一例としては、一企業内又は一会社内における発明者の所属する事業部、部署等、或いは、発明者の所属する企業、会社等が、挙げられる。
設定情報取得部201は、発明文書分析システム20において取得された発明文書が属するグループを、一般的な設定情報に基づいて特定し、その特定されたグループに対応する設定情報を含む設定情報から、その特定されたグループに対応する設定情報を取得することとしてもよい。また、設定情報取得部201は、グループ別の複数の設定情報ファイルのうちユーザに指定された設定情報ファイルにおける設定情報、或いは、1つの設定情報ファイルにおける複数種類の設定情報のうちユーザに指定された設定情報を、取得することとしてもよい。
図13は、設定情報の内容の一例を示す。
設定情報は、例えば、翻訳用発明文書標準規定自体、又は、翻訳用発明文書標準規定の特定用情報を含み得る。翻訳用発明文書標準規定の特定用情報は、例えば翻訳用発明文書標準規定へのアクセスするために必要な情報である。翻訳用発明文書標準規定は、データベースのデータ、OSの環境変数としてのデータ等、如何なるデータとして存在してもよいが、例えば、ファイルの内容として存在し得る。翻訳用発明文書標準規定の特定用情報は、具体例としては、翻訳用発明文書標準規定を内容とするファイルにアクセスするために必要なファイルパス等の情報、或いは、ネットワークを介して、翻訳用発明文書標準規定としてのデータにアクセスするために必要なURL(Uniform Resource Locator)等である。
設定情報は、発明文書分析システム20の分析対象となる発明文書からの重要語句の抽出の条件を示す条件情報を含む。条件情報は、実施形態1で示した内容であってもよいし、その一部を変更したものであってもよい。条件情報は、例えば、重要語句候補文字列パターン情報、参照文字列パターン情報、符号文字列パターン情報、特定助詞文字列パターン情報等を含む。条件情報に係る各種の文字列パターン(例えば重要語句候補文字列パターン情報が示す重要語句候補文字列パターン)は、例えば、該当する1文字以上の文字列を1つ以上列挙した態様で表現された文字列パターンであってもよいし、該当する文字列の全部又は一部を、一定範囲の文字列とする文字コード範囲を限定する態様で、表現された文字列パターンであってもよいし、該当する文字列の一部を、全範囲の文字列とする所謂ワイルドカード指定を伴う態様で、表現された文字列パターンであってもよい。
重要語句候補文字列パターン情報は、予め定められた、技術用語に特有の語尾(例えば、「装置」、「基板」、「システム」、「手段」、「部」、「ステップ」、「媒体」、「剤」、「ファイル」等)を、語尾に含む技術用語特有語尾文字列が該当するような文字列パターンを表す情報を含んでもよい。重要語句候補文字列パターン情報は、予め定められた、技術用語と推定される語句(例えば、「受付部」、「受付け部」、「受け付け部」、「ねじ」、「ふるい」等)そのもの又はその語句を語尾に含む文字列が該当するような文字列パターンを表す情報を含んでもよい。また、設定情報は、1つ以上の技術用語特有語尾文字列を示す技術用語特有語尾情報を含んでもよい。
重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列は、基本的には、重要語句抽出部2051において重要語句として抽出される可能性がある。但し、条件情報は、重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列であっても重要語句として抽出されるべきでない文字列についての文字列パターンを示す、抽出例外条件に係る情報を含み得る。抽出例外条件に係る情報が示す文字列パターンに該当する文字列は、例えば、重要語句抽出部2051において重要語句として抽出されない。
重要語句候補文字列パターン情報は、例えば、複数の重要語句候補文字列パターンを示す情報であってもよい。重要語句候補文字列パターン情報は、一例としては、先頭文字が英字、漢字又は片仮名のいずれかで、かつ、末尾文字が英字、片仮名、漢字又は所定の平仮名であるような所定の文字列が、1つの重要語句候補文字列パターンに該当するように定められている。重要語句候補文字列パターン情報は、漢字の直後に所定の平仮名(例えば、「え」、「き」、「け」、「し」、「み」、「り」、「れ」等)のうちの1字を配置した組を1組以上含む文字列が、1つの重要語句候補文字列パターンに該当するように定められていてもよい。
重要語句候補文字列パターン情報が示す重要語句の候補となる文字列に係る文字列パターンは、例えば正規表現で表される。例えば、重要語句抽出部2051で実行される重要語句抽出処理が、一例としてPython(登録商標)言語で記述されたプログラムを実行するコンピュータにより実現される場合において、設定情報の条件情報に係る各種の文字列パターンは、例えば、Python(登録商標)の正規表現操作(例えば文字列検索等)のための標準ライブラリ「re」、或いは、「re」の機能を拡張した、サードパーティにより提供されたライブラリである「regex」等で利用可能な、正規表現によって表現可能な文字列パターンである。
重要語句抽出処理において、ライブラリ「re」の関数を用いて文字列検索を行うことで発明文書から参照文字列を抽出するための具体的な参照文字列パターンの1つの一例は、概ね、「'(前記|上記|当該|その|記載の|・・・(以下省略)'」のように参照文字列を列挙した文字列パターンである。また、ライブラリ「regex」の関数を用いて文字列検索を行うことで発明文書から重要語句候補文字列を抽出するための具体的な重要語句候補文字列パターンの1つの一例は、概ね、「r'([A-Za-zA-Za-z]+([ //::][A-Za-zA-Za-z]+)+)*[A-Za-zA-Za-z]*[ー・\p{Katakana}\p{Han}]+)・・・(以下省略)'」のような文字列パターンである。ここで、「\p{Katakana}」は片仮名を示し、「\p{Han}」は漢字を示す。重要語句候補文字列パターンは複数存在してもよく、例えば、いくつかの具体例を示すと「r'([A-Za-zA-Za-z]*[ー・\p{Katakana}\p{Han}]*[A-Za-zA-Za-z]*[-−―・//]?[A-Za-zA-Za-z]+)'」、「r'([A-Za-zA-Za-z]*[ー・\p{Katakana}\p{Han}]+)'」、「r'([A-Za-zA-Za-zー・\p{Katakana}]*[\p{Han}]+[いうえきくけしすせちつてなねひみむめりるれぎげじぜぢびべ][ー・\p{Katakana}\p{Han}]*[A-Za-zA-Za-z]+[-−―・//]?[A-Za-zA-Za-z]+)'」、「r'[A-Za-zA-Za-zー・\p{Katakana}]*[\p{Han}]+[いうえきくけしすせちつてなねひみむめりるれぎげじぜぢびべ][A-Za-zA-Za-z]*[ー・\p{Katakana}\p{Han}]+)'」、「r'([A-Za-zA-Za-zー・\p{Katakana}]*[\p{Han}]+[いうえきくけしすせちつてなねひみむめりるれぎげじぜぢびべ][\p{Han}][いうえきくけしすせちつてなねひみむめりるれぎげじぜぢびべ][ー・\p{Katakana}\p{Han}]*[A-Za-zA-Za-z]+[-−―・//]?[A-Za-zA-Za-z]+)'」、「r'([A-Za-zA-Za-zー・\p{Katakana}]*[\p{Han}]+[いうえきくけしすせちつてなねひみむめりるれぎげじぜぢびべ][\p{Han}][いうえきくけしすせちつてなねひみむめりるれぎげじぜぢびべ][A-Za-zA-Za-z]*[ー・\p{Katakana}\p{Han}]+)'」等を、重要語句候補文字列の検索に用いることができる。また、符号文字列パターン情報が示す符号文字列パターンは、例えば、符号として用いることができる文字列が該当するように定められたパターンであり、更に、始め丸括弧に後続して、符号として用いることができる1つ以上の文字を配置して、その1つ以上の文字に後続して終わり丸括弧が配置されたような文字列が該当するように定められたパターンであってもよい。符号として用いることができる文字は、例えば、アラビア数字、英字、ギリシャ文字、ローマ数字、一部の記号等である。ライブラリ「re」の関数を用いて文字列検索を行うことで発明文書から符号として用いられる文字列を抽出するための具体的な符号文字列パターンの1つの一例は、概ね、「'([0-90-9A-Za-zA-Za-z][-−―・//0-90-9A-Za-zA-Za-z]*)・・・(以下省略)'」等のようなパターンである。また、ライブラリ「re」の関数を用いて文字列検索を行うことで発明文書から所定の助詞である文字列を抽出するための具体的な特定助詞文字列パターン情報が示す特定助詞文字列パターンの1つの一例は、「'(を|に|が|と|から|へ|は|・・・(一部省略)・・・)'」等のようなパターンである。
設定情報は、例えば、重要語句設定辞書の特定用情報(例えば重要語句設定辞書ファイルへアクセスするために用いられる情報)を含んでもよい。また、設定情報は、翻訳補助情報(つまり1つ以上の重要語句各々について重要語句と対応翻訳語とを対応付けた情報)の特定用情報を含んでもよく、発明文書分析システム20は、設定情報に基づいて翻訳補助情報を取得し、翻訳補助情報における重要語句群を、重要語句設定辞書として利用することとしてもよい。また、設定情報は、例えば、対訳辞書情報の特定用情報を含んでもよい。この対訳辞書情報の特定用情報は、発明文書分析システム20が例えば図9に示す各装置で構成されるような場合においては、例えば、LAN上のサーバ装置10bにおける対訳辞書情報を内容とするファイルの所在を示す、サーバ装置10bのホスト名を含むパス(Path)情報等となり得る。
設定情報は、例えば、発明文書における重要語句を抽出すべき行の範囲を限定するための重要語句抽出範囲情報を含み得る。重要語句抽出範囲情報の例としては、発明文書のうち、クレーム(例えば請求項)の記載に実質的に相当する部分と、明細書における「発明を実施するための形態」及び「実施例」の記載に実質的に相当する部分とに、重要語句を抽出すべき行の範囲を限定する例が挙げられる。通常の運用においては、クレームは重要語句を抽出する範囲とするべきであると想定されるので、明細書中の重要語句を抽出すべき範囲を限定するために、重要語句抽出範囲情報が、利用されることとしてもよい。
設定情報は、例えば、発明文書の文字列のうち、符号でないものと判断する基準となる非符号基準を含んでいてもよい。この非符号基準は、符号文字列パターン情報が示す符号文字列パターンに内包されていてもよいし、符号文字列パターン情報とは別に存在してもよい。符号文字列パターン情報と別に非符号基準が存在する場合には、分析部205の重要語句抽出部2051等は、符号文字列パターン情報が示す符号文字列パターンに該当する文字列であっても、非符号基準に基づいて該当しない文字列と看做すことがあり得る。
設定情報は、例えば、発明文書における、コメントの部分又はコメント行を特定するためのコメント特定用情報を含んでもよい。コメントは、例えば、発明文書が特許出願の準備段階の文書である場合等において、注意喚起、覚書、注釈等のために発明文書に含まれる記載事項であって、後の特許出願段階では変更(例えば削除)が予定されている記載事項である。コメント行は、一行全部の内容がコメントである行である。コメント特定用情報の例として、「■」(つまり所謂ソリッドブロック)又は「※」(つまり所謂米印)が行頭に含まれる行がコメント行であることを表現した情報、行頭以外の「■{」(つまり所謂ソリッドブロック及び始め波括弧)から「}」(つまり終わり波括弧)までの部分がコメントであることを表現した情報等が挙げられる。
設定情報は、例えば、発明文書から重要語句抽出部2051により抽出された重要語句の重要度を、一定条件下で、低い重要度であると決定する基準を示す重要度基準情報を含み得る。この一定条件は、例えば参照文字列に後続した使用及び符号に先行した使用のいずれもが発明文書中にない重要語句であるという条件等である。この重要度基準情報の例として、低い重要度の語句の語尾の文字列の低重要語尾文字列パターンを示す低重要語尾文字列パターン情報が挙げられる。低重要語尾文字列パターンに係る語尾の文字列である低重要語尾文字列の例としては、例えば、「番号」、「等」、「例」等が挙げられる。
設定情報は、例えば、発明文書分析システム20の機能の一部を代替又は拡張するために実行可能なプログラムモジュールとして外部から提供されるプラグインモジュールがある場合にそのプラグインモジュールにアクセスして実行するために必要な情報であるプラグインモジュール特定用情報を含み得る。プラグインモジュールとして、例えば、発明文書分析システム20の分析対象の発明文書が、翻訳用発明文書標準規定の複数の項目各々に適合しているか否かに係る判定を行うための処理を担うプログラムモジュール、重要語句の抽出の拡張等のために追加すべき文字列パターン及びその文字列パターンを利用した重要語句の抽出処理を担うプログラムモジュール、分析部205による分析結果を利用して予め定められた何らかの演算処理を行った結果を出力する処理を実行するためのプログラムモジュール等が挙げられる。プラグインモジュール特定用情報の具体例としては、プラグインモジュールを内容とするファイルにアクセスするために必要なファイルパス等の情報、或いは、ネットワークを介して、プラグインモジュールをダウンロードするために必要なURL等である。発明文書分析システム20は、例えば、プラグインモジュールにより代替又は拡張される機能を実行する際に、プラグインモジュールを実行する。プラグインモジュールにバージョン管理のためのバージョン情報(例えばバージョン番号等)が付されている場合には、発明文書分析システム20は、既に取得済みのプラグインモジュールより新しいバージョン(例えばバージョン番号)のプラグインモジュールが入手可能であれば、既に取得済みのプラグインモジュールを削除して、その新しいバージョンのプラグインモジュールを取得して利用する。発明文書分析システム20は、分析部205により発明文書を分析して得られた、重要語句、符号等に関する情報その他の各種情報を、プラグインモジュールから利用可能にするためのAPI(Application Programming Interface)等を提供することとしてもよい。発明文書分析システム20は、取得したプラグインモジュールを、そのプラグインモジュールの目的を達成するために適宜実行し得る。
設定情報は、例えば、重要語句抽出部2051が発明文書から抽出した重要語句が表す要素が、いずれのカテゴリーに属するかについて区別するための基準を示すカテゴリー区分基準情報を含み得る。カテゴリーの一例としては、物、方法、プログラム及びデータが挙げられる。カテゴリー区分基準情報は、例えば、重要語句の語尾に「プログラム」、「サブルーチン」等という文字列が含まれる場合にその重要語句により表される要素が、プログラムのカテゴリーに属するものであることを表現した情報である。カテゴリー区分基準情報は、例えば、重要語句の語尾に「方法」、「ステップ」、「手順」等という文字列が含まれる場合にその重要語句により表される要素は方法のカテゴリーに属するものであることを表現した情報である。カテゴリー区分基準情報は、例えば、重要語句の語尾に「データ」、「情報」等という文字列が含まれる場合にその重要語句により表される要素が、データのカテゴリーに属するものであることを表現した情報である。カテゴリー区分基準情報は、例えば、方法、プログラム及びデータのいずれのカテゴリーにも属さない重要語句により表される要素が物のカテゴリーに属するものであることを表現した情報である。
設定情報は、例えば、分析部205が、発明文書のクレームに基づいて、未完成の明細書の内容を表す明細書情報を生成する場合に用いられる定型文の内容、挿入位置及び挿入条件等を示す1つ以上の定型文情報を含み得る。定型文情報の一例としては、例えば、明細書の「発明を実施するための形態」という見出しの次の行等に、「本開示で用いる図面は、模式図であり、厳密に図示されたものではない。・・・」という内容の定型文を挿入することを表現した情報が、挙げられる。なお、各定型文情報における挿入条件の例として、発明文書のクレームに請求対象としてプログラムを請求する項が含まれるという条件、請求対象として物を請求する項、及び、記録媒体を請求する項が含まれるという条件等が挙げられる。
設定情報は、例えば、分析部205が、発明文書のクレームに基づいて、未完成の明細書の内容を表す明細書情報を生成する場合に用いられる1つ以上の要素の説明に係る情報としての、記載支援用未完成メッセージの内容を示す未完成メッセージ情報を含み得る。記載支援用未完成メッセージは、例えば、一般的に記載すべき項目を例示列挙した文字列等を含み得る。未完成メッセージ情報は、例えば、発明文書のクレームから抽出された重要語句に基づいて、分析部205が生成するクレームベース明細書情報におけるその重要語句が示す要素の説明として、採用され得る記載支援用未完成メッセージを、その要素が物、方法、プログラム、データ等といった、いずれのカテゴリーに属するかに応じて、相違する内容に定義し得る情報である。
設定情報は、例えば、分析部205が、発明文書のクレームに基づいて、出願先として予定する地域(例えば出願先の国)に向けて修正したクレームを表す修正版クレーム情報を生成する場合に用いられる、その修正方法を定義した修正情報を含み得る。この修正情報は、例えば、発明文書のクレームに複数項を引用した項がある場合に、その項をその複数項のうち項番の最小の一項だけを引用するように変更することを表現した情報等である。修正情報は、例えば、翻訳用発明文書標準規定に含まれていてもよい。
設定情報は、修正版クレーム情報におけるクレームの形式に関して指定する情報を含んでもよい。
[3−1−2.文書取得部]
文書取得部202は、実施形態1で示した文書取得部102を一部変形したものである。文書取得部202と文書取得部102とは、同様であってもよい。文書取得部202は、発明文書取得部2021と図面文書取得部2022と翻訳結果文書取得部2023とを含む。
発明文書取得部2021は、例えば発明文書のユーザによる指定等に従って、発明文書分析システム20が分析する対象となる発明文書を取得する。発明文書取得部2021は、複数の発明文書を取得し得る。発明文書取得部2021により取得された発明文書は、分析部205及び機械学習部207で用いられ得る。
図面文書取得部2022は、例えば発明文書に対応する図面文書のユーザによる指定等に従って、発明文書取得部2021により取得された発明文書に対応する図面文書を取得する。図面文書取得部2022により取得された図面文書は、分析部205で用いられ得る。
翻訳結果文書取得部2023は、例えば発明文書の翻訳結果である翻訳結果文書のユーザによる指定等に従って、発明文書取得部2021により取得された発明文書の翻訳結果である翻訳結果文書を取得する。翻訳結果文書取得部2023により取得された翻訳結果文書は、機械学習部207で用いられ得る。
発明文書、図面文書及び翻訳結果文書の各々は、データベースのデータ、OSの環境変数としてのデータ、クリップボードとして用いられるメモリ領域に格納されたデータ、インターネット等のネットワーク上のウェブサーバ等により提供されているデータ等、如何なるデータとして存在してもよいが、例えば、ファイルの内容として存在し得る。
発明文書取得部2021、図面文書取得部2022及び翻訳結果文書取得部2023は、例えば、発明文書分析システム20のユーザによる各ファイルパスの指定に基づいて、それぞれ、発明文書を内容とするファイルである発明文書ファイル、図面文書を内容とするファイルである図面文書ファイル、翻訳結果文書を内容とするファイルである翻訳結果文書ファイルにアクセスすることで、発明文書、図面文書、翻訳結果文書を取得し得る。発明文書ファイル、図面文書ファイル、及び、翻訳結果文書ファイルが、所定のファイル名付与規則(例えばファイル種別毎に、ファイル名の先頭文字列、拡張子等を相違させるように定めた規則等)に従って命名されていることとしてもよく、この場合に、図面文書ファイルは、或いは、翻訳結果文書ファイルは、例えば、発明文書ファイルと同じフォルダー等に存在することにして、ユーザによるファイルパスの指定の手間を軽減してもよい。なお、所定のファイル名付与規則は、例えば、設定情報取得部201により取得される設定情報中に定められていてもよい。例えば、図面文書取得部2022は、発明文書取得部2021で取得された発明文書と、同一又は関連するフォルダー内の、所定のファイル名付与規則に合致するファイル(例えば発明文書と拡張子以外のファイル名が同一で拡張子がpdfであるファイル)から、図面文書を取得することとしてもよいし、発明文書の公報番号等に基づいてインターネット上のウェブサイト等から対応する図面文書を取得することとしてもよい。また、例えば、翻訳結果文書取得部2023は、発明文書取得部2021で取得された発明文書と、同一又は関連するフォルダー内の、所定のファイル名付与規則に合致するファイルから、翻訳結果文書を取得することとしてもよいし、発明文書の公報番号等に基づいてインターネット上のウェブサイト等から対応する翻訳結果文書を取得することとしてもよい。
図面文書ファイルは、例えばPDFファイルである。発明文書ファイル及び翻訳結果文書ファイルは、例えばテキストファイルである。発明文書ファイル及び翻訳結果文書ファイルは、例えば、PDFファイルであっても、Microsoft(登録商標)のWord等の文書作成編集機能を有する各種アプリケーションプログラムに主として用いられる形式のファイルであっても、XML(Extensible Markup Language)ファイルであってもよい。また、発明文書ファイル及び翻訳結果文書ファイルは、例えば、発明文書分析システム20が出力する表示用文書(例えばHTML文書)と同様の形式の1つ又は複数のファイルで構成されていてもよい。発明文書取得部2021は、例えば、発明文書分析システム20が過去に出力した表示用文書としての特許出願関連情報におけるクレーム情報及び明細書情報、或いは、修正版クレーム情報及び修正版明細書情報を、ユーザの指示に応じて、クレーム及び明細書を含む発明文書として取得してもよい。なお、PDFファイルは、内容における文字列が検索可能な状態で含まれたファイルとしての検索可能PDFファイルであってもよい。また、図面文書取得部2022は、検索可能PDFファイルでない図面文書ファイルを、例えば機械学習(例えば深層学習)等を用いた文字認識技術、或いは、OCR技術を用いた文字認識により、検索可能PDFファイルに変換して利用することとしてもよい。
発明文書取得部2021、図面文書取得部2022及び翻訳結果文書取得部2023は、それぞれ、発明文書ファイル、図面文書ファイル、翻訳結果文書ファイルの内容を編集(例えば形式変換、部分的な削除等)した上で、発明文書、図面文書、翻訳結果文書を取得することとしてもよい。具体的な一例としては、発明文書取得部2021は、発明文書ファイルのエンコーディング形式(例えばUTF−8、EUC、Shift_JIS、CP932等)に応じた方式で発明文書ファイルの内容である発明文書を読み出して、必要に応じて形式変換をすることで、例えば、比較的多くの文字を表すことが可能な、予め定められたエンコーディング形式(例えばUTF−8)の文字コード列のデータとしての発明文書を取得する。発明文書ファイルのエンコーディング形式は、例えば試行錯誤で発明文書ファイルを読み込んでエラーが発生するか否かに応じてエンコーディング形式を特定してもよいし、発明文書ファイルをバイナリ(binary)のバイト(byte)列として仮に読んで内容を検査することでエンコーディング形式を特定してもよい。
なお、発明文書分析システム20が、文書作成編集機能を有して構成されてもよい(例えばテキストエディタ等の文書作成編集機能に係るアプリケーションプログラムを包含して構成されてもよい)。この場合には、発明文書分析システム20の文書作成編集機能において、ユーザの入力操作に応じて実行される処理によって生成又は編集された状態のデータである発明文書を、発明文書取得部2021が取得することとしてもよい。同様に、発明文書分析システム20の文書作成編集機能において、ユーザの入力操作に応じて実行される処理によって生成又は編集された状態のデータである翻訳結果文書を、翻訳結果文書取得部2023が取得することとしてもよい。また、発明文書分析システム20が、図面作成編集機能を有して構成されてもよい。この場合には、発明文書分析システム20の図面作成編集機能において、ユーザの入力操作に応じて実行される処理によって生成又は編集された状態のデータである図面文書を、図面文書取得部2022が取得することとしてもよい。
発明文書、図面文書及び翻訳結果文書が、インターネットのウェブサーバ等のサーバ装置により提供されるデータとして存在する場合には、例えば、発明文書取得部2021、図面文書取得部2022及び翻訳結果文書取得部2023は、ユーザにより指定された、サーバ装置に係るURL、発明文書等を特定する情報(例えば発明文書について発行された公報に係る公報番号)等に基づいて、WANを介してそのサーバ装置にアクセスして、各データをダウンロードすることにより、それぞれ、発明文書、図面文書、翻訳結果文書を取得し得る。また、発明文書、図面文書及び翻訳結果文書が、発明文書分析システム20の一構成要素としての機器とLANで接続されたファイルサーバ、データベース又はスキャナの機能を搭載する機器により出力され得るファイル又はデータとして存在する場合には、例えば、発明文書取得部2021、図面文書取得部2022及び翻訳結果文書取得部2023は、その各ファイルの内容又は各データを、LAN経由で受信することにより、それぞれ、発明文書、図面文書、翻訳結果文書を取得し得る。従って、発明文書取得部2021は、例えば、手書きによる技術的思想のメモが、発明文書のクレーム又は明細書の内容に変換され得る実質的な内容を有している場合において、そのメモを読み取った、スキャナの機能を搭載する機器の出力するデータ等を、受信することで、発明文書を取得し得る。
翻訳結果文書取得部2023は、例えば、発明文書取得部2021が、インターネット上で国際公開公報等が提供されている日本語の国際出願の内容である発明文書を取得した場合において、インターネット上に公開されている、その国際出願に関連する関連出願を示す情報を用いて、この国際出願に対応する翻訳内容に相当すると推定される、所定の国の官庁等に対する外国語で記載された出願内容が公開された特許公開公報等にアクセスすることで、翻訳結果文書を取得してもよい。
[3−1−3.重要語句設定辞書取得部]
重要語句設定辞書取得部203は、実施形態1で示した重要語句設定辞書取得部103を一部変形したものである。重要語句設定辞書取得部203と重要語句設定辞書取得部103とは、同様であってもよい。
重要語句設定辞書取得部203は、設定情報取得部201により取得された設定情報における、重要語句設定辞書の特定用情報に基づいて、重要語句設定辞書を取得し得る。設定情報における重要語句設定辞書の特定用情報は、複数の重要語句設定辞書を特定し優先順位を定める情報であってもよく、この場合には、重要語句設定辞書取得部203は、複数の重要語句設定辞書を取得して、その優先順位に従ってメモリ内等で統合することにより、1つの重要語句設定辞書として利用し得る。
重要語句設定辞書の内容は、ユーザにより生成、編集され得る。
重要語句設定辞書は、データベースのデータ、インターネット等のネットワーク上のウェブサーバ等により提供されているデータ等、如何なるデータとして存在してもよいが、例えば、ファイルの内容として存在し得る。
重要語句設定辞書は、発明文書ファイルの一部に含まれていてもよい。例えば発明文書ファイル内に<重要語句設定辞書>、<重要語句リスト>等といった所定の見出しを付加して、その見出しの後に、重要語句設定辞書に相当するデータが記載されていてもよい。この場合には、その所定の見出しを示す、設定情報における重要語句設定辞書の特定用情報に基づいて、重要語句設定辞書取得部203は、重要語句設定辞書を取得し得る。
重要語句設定辞書取得部203により取得された重要語句設定辞書は、分析部205における重要語句抽出部2051による重要語句の抽出に利用され得る。重要語句設定辞書は、抽出対象とすべき複数の重要語句を列挙した情報である。重要語句設定辞書では、発明文書における発明を創作した発明者の所属部門別、その発明が属する技術分野別等といった何らかのグループ別に、分類されて、重要語句が列挙されていてもよい。重要語句設定辞書内の複数のグループ各々についての重要語句の集合のうち、設定情報、ユーザによる選択等に基づく1つのグループについての重要語句の集合が、重要語句抽出部2051による重要語句の抽出に利用されることとしてもよい。
重要語句設定辞書取得部203は、設定情報における重要語句設定辞書の特定用情報を参照して、ファイルシステムにおける所定フォルダーを特定することで、その所定フォルダー内にファイルとして格納されている重要語句設定辞書を取得してもよい。例えば、所定フォルダー内に、技術分野等といった何らかのグループ毎に分類してファイル名等により識別可能にされた複数の重要語句設定辞書のファイルを格納している場合に、重要語句設定辞書取得部203は、その複数のファイルのうち、発明文書取得部2021が取得した発明文書に関連があるグループ(例えばユーザが指定したグループ)に対応する重要語句設定辞書のファイルから重要語句設定辞書を取得してもよい。また、重要語句設定辞書取得部203は、重要語句設定辞書を用いずに条件情報等に基づいて重要語句抽出部2051により発明文書から抽出した重要語句群との相関性が所定程度より高い、技術分野等のグループに対応する重要語句設定辞書のファイルから、重要語句設定辞書を取得してもよい。
重要語句設定辞書では、重要語句に対応翻訳語を付記してもよい。なお、重要語句設定辞書における全ての重要語句各々について、その重要語句の対応翻訳語を付記したものは、翻訳補助情報であるとも言える。また、重要語句設定辞書において、対応翻訳語が対応付けられた重要語句についての重要語句及び対応翻訳語の組の集合を含む情報を、翻訳補助情報として利用可能である。なお、重要語句設定辞書において対応翻訳語が対応付けられた重要語句については、例えば、分析部205の翻訳部2054において発明文書に基づくクレーム情報、又は、明細書情報等に含まれるその重要語句に対して対応翻訳語が決定され、その決定結果に基づいてクレーム翻訳情報、又は、明細書翻訳情報等が生成され得る。ユーザ(例えば発明者等又は弁理士)が、特定の幾つかの重要語句について、対応翻訳語を対応付けるように重要語句設定辞書を定めておくことにより、発明文書分析システム20は、重要語句設定辞書に基づいて重要語句に対応する対応翻訳語を反映した情報を出力する。例えば、その出力された情報の提供を受ける翻訳者は、重要語句に対する翻訳語句の指定を明確に認識でき、発明文書の翻訳を適正又は効率的に行うことが可能となり得る。重要語句設定辞書の利用例を挙げると、例えば、ユーザが作成した発明文書のクレームに「情報表示タイミング制御部」、「情報送信タイミング制御部」、「機器制御部」等の重要語句が含まれている場合において、ユーザは、翻訳先言語におけるクレームの用語の簡明化を図るべく、重要語句設定辞書で、重要語句「情報表示タイミング制御部」、「情報送信タイミング制御部」及び「機器制御部」に、それぞれ、対応翻訳語として、「first controller」、「second controller」、「third controller」を、対応付ける例が、挙げられる。なお、ユーザは、例えば、発明文書分析システム20に一旦発明文書を分析させた結果として出力される特許出願関連情報における重要語句リストを、編集することで、効率的に、重要語句設定辞書の生成、更新等を行うことが可能となり得る。
重要語句設定辞書では、重要語句に、その重要語句を主語としてその重要語句について説明する文を付記してもよい。
例えば図9に示す発明文書分析システム10のように、ファイルサーバ機能を有するサーバ装置10bにLANで接続された複数の端末装置10c〜10eが存在する場合において、その各端末装置が、発明文書分析システム20として機能してもよい。この場合に、発明文書分析システム20として機能する各端末装置は、重要語句設定辞書をその端末装置が備える記録媒体(例えばメモリ、ハードディスク等)に記録し、その重要語句設定辞書を随時サーバ装置10bに送信してもよい。各端末装置における重要語句設定辞書は、各端末装置のユーザにより生成、編集されたものであり得る。そして、サーバ装置10bは、各端末装置から受信した重要語句設定辞書を統合した結果として生成した新たな重要語句設定辞書を、各端末装置に配信し、各端末装置はその配信された重要語句設定辞書に基づいて既存の重要語句設定辞書を更新してもよい。
なお、発明文書分析システム20による発明文書の分析結果に基づく出力(例えば特許出願関連情報の出力)が、端末装置、機器等(例えばコンピュータ)が備える表示装置への表示として実現される場合には、発明文書分析システム20は、表示内容の一部の語句に関する操作対応GUI要素に対するユーザ操作に応じて、その語句を、重要語句設定辞書に追加してもよい。このような重要語句設定辞書への語句の追加がなされると、発明文書分析システム20がその後に発明文書分析処理を行う場合において、重要語句抽出部2051は、その語句の追加後の重要語句設定辞書に基づいて、重要語句の抽出を行う。また、発明文書分析システム20は、発明文書の分析結果に基づく情報の表示装置への表示に対するユーザ操作に応じて、語句を重要語句設定辞書に追加した後に、その追加後の重要語句設定辞書に基づいて、再分析指定用のGUI要素、つまり再びその発明文書を分析(例えば重要語句の抽出等)させるためのGUI要素(例えば、「再分析」と描かれたボタン等)を、先の分析結果に基づく情報の表示装置への表示に際して、表示してもよい。発明文書分析システム20は、再分析指定用のGUI要素を、例えば表示画面に適宜表示してもよいし、常に表示していてもよい。
重要語句設定辞書取得部203は、更に、重要語句として抽出すべきではない複数の語句を列挙した情報(言わば複数の非重要語句を含む情報)である非重要語句設定辞書を取得することとしてもよい。この場合には、設定情報取得部201により取得される設定情報に、非重要語句設定辞書の特定用情報を定め得ることとし、重要語句設定辞書取得部203は、設定情報における非重要語句設定辞書の特定用情報に基づいて、非重要語句設定辞書を取得し得る。
[3−1−4.翻訳用発明文書標準規定取得部]
翻訳用発明文書標準規定取得部204は、実施形態1で示した翻訳用発明文書標準規定取得部104を一部変形したものである。翻訳用発明文書標準規定取得部204と翻訳用発明文書標準規定取得部104とは、同様であってもよい。
翻訳用発明文書標準規定取得部204は、設定情報取得部201により取得された設定情報の内容(例えば翻訳用発明文書標準規定の特定用情報)に基づいて、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する。翻訳用発明文書標準規定における各条件は、例えば、発明文書が、翻訳対象として十分に適正な翻訳用和文原稿であるように、定められる。発明文書分析システム20において翻訳用発明文書標準規定取得部204により取得された翻訳用発明文書標準規定は、例えば、分析部205における警告情報生成部2059において発明文書に基づく警告情報の生成に用いられる。
翻訳用発明文書標準規定は、翻訳用の発明文書の標準化を目的とした団体により制定された規定であることが想定されるが、その他の如何なる者によって、制定された規定であってもよい。また、標準化に係るこの団体は、企業、会社等の一部門であっても、複数の企業、会社等で構成されたものであってもよく、規模の大小を問わない。
例えば、設定情報中の、翻訳用発明文書標準規定の特定用情報が、ファイルパスの情報である場合においては、翻訳用発明文書標準規定取得部204は、そのファイルパスに従って、ファイルにアクセスすることでそのファイルから翻訳用発明文書標準規定を読み出して取得する。例えば、設定情報中の、翻訳用発明文書標準規定の特定用情報が、URLの情報である場合においては、翻訳用発明文書標準規定取得部204は、そのURLに従って、ネットワーク上のサーバ装置等が提供するリソースとしての翻訳用発明文書標準規定にアクセスして、翻訳用発明文書標準規定をダウンロードして取得する。
翻訳用発明文書標準規定は、例えば、翻訳用発明文書標準規定のバージョンを示すバージョン番号等のバージョン情報を含んでもよい。翻訳用発明文書標準規定は、所定のバージョン管理方式の下で、随時規定内容が変更される度に、バージョンアップがなされてもよい。翻訳用発明文書標準規定取得部204は、設定情報取得部201により取得された設定情報の翻訳用発明文書標準規定の特定用情報(例えばネットワークを介して翻訳用発明文書標準規定にアクセスするためのURL)に基づいて、翻訳用発明文書標準規定にアクセスし、既に取得している翻訳用発明文書標準規定のバージョン(例えばバージョン番号)より新しいバージョンの翻訳用発明文書標準規定が取得可能であれば、例えば既に取得している翻訳用発明文書標準規定を削除し、その新しいバージョンの翻訳用発明文書標準規定を取得する。
翻訳用発明文書標準規定は、例えば、翻訳先言語と対応付けて規定を含むもの(つまり翻訳先言語毎の規定を含むもの)であってもよいし、特定言語(例えば英語)だけを対象とした規定であってもよい。翻訳用発明文書標準規定が、翻訳先言語毎の規定を含むものである場合には、例えば、設定情報により、又は、発明文書分析システム20に対するユーザ操作により、翻訳先言語を指定可能にしてもよい。
翻訳用発明文書標準規定は、例えば、データ、或いは、発明文書が満たすべき条件を備えているかを判定する処理のための検査プログラムを含み得る。この検査プログラムは、例えば、発明文書が、翻訳用発明文書標準規定の複数の項目(つまり条件を示す条件項目)各々に適合しているか否かに係る判定を行うための処理を担うプログラムであり、例えば、プラグインモジュールであってもよい。例えば、分析部205における警告情報生成部2059は、翻訳用発明文書標準規定に含まれる検査プログラムの実行により(つまりマイクロプロセッサにその検査プログラムを実行させることにより)、発明文書取得部2021により取得された発明文書が翻訳用発明文書標準規定で定められた複数の条件各々に適合しているか否かを判定し、その判定の結果を用いることで警告情報の生成を行うこととしてもよい。
翻訳用発明文書標準規定は、例えば、翻訳対象となる発明文書が満たすべき条件を定める情報として、発明文書中の、その条件を満たさない不適切な可能性がある記載部分についての文字列のパターンを表した不適切文字列パターンを示す不適切文字列パターン情報を含む。翻訳用発明文書標準規定は、例えば、不適切な可能性がある記載部分に係る不適切文字列パターンを示す不適切文字列パターン情報の全部又は一部に対応付けて、発明文書中のその不適切な可能性がある記載部分の修正方法に関する修正情報を含む。
翻訳用発明文書標準規定は、例えば、発明文書に含まれ得る文字列の取り扱い、又は、特徴の相違等により、発明文書が満たすべき条件の項目である条件項目を区分し、条件項目毎に、例えば条件項目名と、発明文書中の不適切な記載を抽出するためのパターン情報(例えば不適切文字列パターン情報)とを含む。発明文書中の不適切な記載は、不適切な可能性がある記載であってもよく、発明文書に基づく翻訳結果文書を所定の地域(例えば米国)に提出することで特許権を取得する場合に何らかの不利益が生じる可能性がある記載であってもよい。不適切な記載を抽出するためのパターン情報には、文字列を特定するためのパターン以外のものを用いてもよく、例えば、クレームに複数項を引用している項がありその引用先の項が更に複数項を引用しているような記載を抽出するためのアルゴリズムに係るプログラム等を含めてもよい。翻訳用発明文書標準規定の全部又は一部の条件項目は、更に、修正情報を含んでもよい。修正情報には、不適切文字列パターン情報が示す不適切文字列パターンに該当した発明文書中の文字列の削除等といった、発明文書の修正を行うためのアルゴリズムに係るプログラム等を含めてもよい。また、クレームに複数項を引用している項がありその引用先の項が更に複数項を引用しているような記載があることを不適切な記載として抽出するためのパターン情報に対応する修正情報は、例えば、複数項を引用している項を、単数項を引用するように修正する処理を行うためのプログラム等を含んでもよい。
また、翻訳用発明文書標準規定の全部又は一部の条件項目は、更に、パターン情報が示すパターンに該当する、発明文書中の不適切な記載についての、不適切な理由のユーザへの説明、その記載が招く不利益についてのユーザへの説明、又は、適切に修正するための方法のユーザへの説明を示す条件項目説明メッセージを含んでもよい。なお、条件項目説明メッセージにおける、不適切な記載についての不適切な理由の説明には、例えば不適切な理由の根拠となる、法令の条項、判例等の情報を含ませてもよい。
図14は、翻訳用発明文書標準規定の一例として、条件項目毎に条件項目名とパターン情報が示すパターンとを定め、条件項目の一部に修正情報を付加した例を示す。同図に示した例は、簡単な一例に過ぎず、条件項目を付加してもよいし、一層詳細に区分した条件項目、一層詳細に区分したパターン情報が示すパターン等に対応して、更に適切な修正情報を付加してもよい。
図14で示した「明細書の各文における主語の欠如」等の条件項目名は、条件に該当する不適切な記載を抽出するためのパターン情報が示すパターンが発明文書中に存在した場合に、例えば、警告情報生成部2059により生成されて特許出願関連情報に含まれる警告情報中で、表され得る。なお、「明細書の各文」は、例えば、句点文字の直後又は行末の改行コード部分で区切られる。なお、1つの条件項目に複数のパターン情報(例えば文字列パターン情報)を対応付けてもよい。例えば、図14に示す条件項目名「米国出願等で他の表現に変更した方が望ましい場合がある文字列」に係る条件項目について、発明文書の明細書中に「図2の(1)は、・・・を表した図であり、図2の(2)は、・・・を表した図である。」という文等の、1つの図面内に分離された複数の図が存在する可能性を示す文字列(例えば「「図2の(1)は」)が該当する文字列パターンを示す文字列パターン情報を、更に、対応付けてもよい。この文字列パターンは、一例としては、「図」の文字に後続する数字に後続して、「の」、「における」等の所定の文字が存在し、その所定の文字に後続して、始め丸括弧と終わり丸括弧とで英数字を挟む記載が存在するような記載が該当するように定められる。
図14で示した「クレーム中の重要語句のうち重要度が所定程度以上高いものが明細書中に記載されていない」という条件項目名の条件項目における「明細書に重要度が所定程度以上の重要語句が記載されていないことを検出するパターン」のパターン情報は、具体的な一例としては、発明文書のクレームから重要語句抽出部2051により抽出された重要語句のうち、設定情報中の重要度基準情報に基づいて、低い重要度と決定されなかった各重要語句についての、その重要語句を発明文書の明細書から検出する文字列パターンの集合を示す情報である。
翻訳用発明文書標準規定における条件項目の別の一例としては、例えば、条件項目「多重括弧の記載」という条件項目名と、不適切な記載としての、括弧内に括弧が含まれた多重括弧の記載を抽出するためのパターンを示すパターン情報と、括弧を減らすことが望ましい等の条件項目説明メッセージとを含む条件項目が挙げられる。この条件項目を用いることで、発明文書中に多重括弧の記載が含まれていると、警告情報生成部2059により生成されて特許出願関連情報に含まれる警告情報中に、明確な記載にする修正を促す注意喚起等のために多重括弧の記載に係る指摘が含まれ得る。
翻訳用発明文書標準規定における条件項目の更に別の一例としては、例えば、条件項目「クレームにおける機能手段の記載」という条件項目名と、不適切な記載としての、機能手段の記載を抽出するためのパターンを示すパターン情報とを含む条件項目が挙げられる。この条件項目を用いることで、発明文書のクレームに機能手段の記載が含まれていると、警告情報生成部2059により生成されて特許出願関連情報に含まれる警告情報中に、機能手段の記載に係る指摘が含まれ得る。このパターン情報が示すパターンは、例えば、「・・・手段」、「・・・部」等という所謂機能ブロックの記載が該当するようなパターンである。クレーム中の機能手段の記載は必ずしも不適切とは限らず、戦略的に機能手段が記載されている場合もあり得るが、クレームに機能手段の記載が含まれていると米国出願において不利益を生じる可能性があり得ることから、警告情報における、この指摘は、一応の注意喚起等のために有用な可能性があり得る。
翻訳用発明文書標準規定は、例えば、分析部205の警告情報生成部2059で用いられる。また、翻訳用発明文書標準規定の内容の一例としての修正情報は、例えば、出力部208により出力される特許出願関連情報に含まれ得る修正版クレーム情報及び修正版明細書情報を生成するために分析部205で用いられる。
[3−1−5.分析部]
分析部205は、実施形態1で示した分析部105を一部変形したものであり、ここで特に示さない点については分析部105と同様である。
分析部205は、発明文書取得部2021により取得された発明文書を、設定情報取得部201により取得された設定情報に基づいて分析する。
分析部205は、重要語句抽出部2051、分類部2053、翻訳部2054、重要度決定部2055、属性特定部2056、クレーム引用関係検出部2057、要素間関係判別部2058、警告情報生成部2059、クレーム情報生成部205a、明細書情報生成部205b及びクレームツリー生成部205cを含む。
分析部205による発明文書の分析結果は、例えば、出力部208において、出力する特許出願関連情報の生成のために利用され、また、機械学習部207において、発明文書の評価のために利用される。
図15は、分析部205により生成され、出力部208において出力される特許出願関連情報の内容の一例を示す。図16は、特許出願関連情報の一表現形式としての表示用文書の一例であるHTML文書の構成例を示す。図17は、特許出願関連情報を表現する表示用文書(例えばHTML文書)に基づいてブラウザ等により表示される表示画面の一例を示す。図17に例示する表示画面には、特許出願関連情報における各種情報項目を選択するためのメニューを表示するメニュー欄、メニュー選択に応じた特許出願関連情報の項目の内容表示欄等が含まれている。図17に例示する表示画面における、発明文書の再分析指定等の操作欄には、例えば、上述した再分析指定用のGUI要素が表示され得る。
[3−1−5−1.重要語句抽出部]
重要語句抽出部2051は、実施形態1で示した重要語句抽出部1051を一部変形したものである。重要語句抽出部2051は、重要語句抽出部1051と同様であってもよい。重要語句抽出部2051による発明文書からの重要語句の抽出は、ある程度的確であれば有用であり、必ずしも完全に的確である必要はない。
重要語句抽出部2051は、例えば、第1抽出部10511、第2抽出部10512、第3抽出部10513、及び、第4抽出部10514と同様の機能構成を含み得る。重要語句抽出部2051は、例えば、文書取得部202により取得された発明文書のクレーム及び明細書に、設定情報取得部201により取得された設定情報中の条件情報における参照文字列パターン情報が示す参照文字列パターンに該当する文字列に後続して、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する機能を有する第1抽出部を備えてもよい。重要語句抽出部2051は、例えば、文書取得部202により取得された発明文書のクレームに、設定情報取得部201により取得された設定情報中の条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して句点文字が存在するときには、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する機能を有する第2抽出部を備えてもよい。重要語句抽出部2051は、例えば、文書取得部202により取得された発明文書に、設定情報取得部201により取得された設定情報中の条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、条件情報における符号文字列パターン情報が示す符号文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する機能を有する第3抽出部を備えてもよい。また、重要語句抽出部2051は、例えば、文書取得部202により取得された発明文書に、設定情報取得部201により取得された設定情報中の条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、条件情報における特定助詞文字列パターン情報が示す特定助詞文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句として抽出する機能を有する第4抽出部を備えてもよい。
重要語句抽出部2051は、設定情報取得部201により取得された設定情報に含まれる条件情報に基づいて、発明文書取得部2021により取得された発明文書から重要語句を抽出する重要語句抽出処理を実行する。条件情報が適切に定められることにより、重要語句抽出部2051は、例えば、発明文書の一例としての、日本国の特許庁により公開された幾つかの特許公開公報のうちの個々の特許公開公報における特許請求の範囲又は明細書から、複数の重要語句を、抽出可能となる。
重要語句抽出部2051により抽出された重要語句は、例えば、発明文書分析システム20が出力する、特許出願関連情報等の情報の生成に利用される。ここでは、一例として発明文書がクレーム及び明細書を含む例を用いて、その発明文書のクレームと明細書とのそれぞれから重要語句を抽出する重要語句抽出部2051について詳細に説明する。重要語句抽出部2051は、重要語句抽出処理として、発明文書のクレームから重要語句を抽出するクレーム重要語句抽出処理と、発明文書の明細書から重要語句を抽出する明細書重要語句抽出処理とを実行する。
分析部205では、例えば、重要語句抽出部2051が、重要語句を、クレーム及び明細書のうちいずれから抽出したのかを区別して、抽出した重要語句について、管理する。分析部205は、重要語句の管理のための重要語句管理情報を保持し得る。重要語句管理情報は、発明文書から抽出された各重要語句について識別情報、重要度、属性情報、対応翻訳語、翻訳語候補集合等を対応付けた情報である。
重要語句抽出部2051は、発明文書取得部2021により取得された発明文書における、設定情報中の重要語句抽出範囲情報に従った範囲において、重要語句の抽出を行う。ここでは、設定情報において、クレームの全項の範囲と、明細書における「発明を実施するための形態」及び1つ以上の「実施例」の記載がなされている範囲とが、重要語句の抽出範囲として設定されている例を想定して、説明する。なお、クレームの各項の範囲は、一例としては、発明文書の行順に、始め隅付き括弧と終わり隅付き括弧で挟まれた「請求項n」(nは自然数)というクレームの一項の見出し行から、次の隅付き括弧で挟まれた文字列(例えば、「請求項」で始まる文字列、「書類名」等)で表された見出し行か発明文書の末尾かのうち最先の方までである。また、明細書の「発明を実施するための形態」の記載がなされている範囲は、一例としては、隅付き括弧で挟まれた「発明を実施するための形態」という見出し行から、次の隅付き括弧で挟まれた文字列(例えば、「実施例」、「符号の説明」等)で表された見出し行か発明文書の末尾かのうち最先の方までである。また、明細書の1つの「実施例」の記載がなされている範囲は、一例としては、隅付き括弧で挟まれた「実施例」又は「実施例m」(mは自然数)という見出し行から、次の隅付き括弧で挟まれた文字列で表された見出し行か発明文書の末尾かのうち最先の方までである。
重要語句抽出部2051は、例えば、重要語句の抽出処理を担うプラグインモジュールを利用して、発明文書からの重要語句の抽出を行うこととしてもよい。
[3−1−5−1−1.クレーム中の重要語句の抽出]
重要語句抽出部2051は、クレーム重要語句抽出処理として、例えば、発明文書のクレームの行毎に、重要語句の候補を探索し、重要語句の候補を抽出したら、定められた基準(例えば抽出例外条件)に基づいて重要語句であり得るか否かの判別を行って、重要語句であり得ると判別したものを、重要語句として抽出する。なお、重要語句抽出部2051は、例えば、設定情報のコメント特定用情報に基づいてコメント行又はコメントの部分については探索対象範囲から除外して、重要語句の候補の探索を行う。
重要語句抽出部2051は、例えば、クレームの各行について、重要語句の候補を探索する前に、探索のために発明文書のクレームの各行に対して文字形式の変換を施し、その変換を施したものを探索に利用してもよい。文字形式の変換の一例としては、半角文字の全角文字への変換、英字の小文字(例えば「a」)の英字の大文字(例えば「A」)への変換等が挙げられる。このような文字形式の変換を施すことにより、重要語句の候補を探索するために必要となる文字列パターン(例えば重要語句候補文字列パターン)の簡明化、重要語句の抽出に係る処理の迅速化等が実現されることがあり得る。
クレームの一行において、重要語句であり得ると判別される複数の重要語句の候補が抽出され、その複数の重要語句の候補の文字列の記載範囲が一部重複する場合には、重要語句抽出部2051は、定められた選択基準に基づいてその複数の重要語句の候補のうち1つを選択して重要語句として抽出する。この選択基準は、一例としては、複数の重要語句の候補の文字列のうち、一の重要語句の候補の文字列が他の重要語句の候補の文字列に記載上包含される場合にはその一の重要語句の候補の文字列を除外して、残余の候補の文字列から重要語句を選択するという基準である。例えば、重要語句抽出部2051は、重要語句の抽出のために、比較的複雑な重要語句候補文字列パターンを1つ又は少数用いることとしてもよいし、比較的簡潔な重要語句候補文字列パターンを複数用いることとしてもよい。例えば、重要語句抽出部2051は、重要語句の抽出のために、重要語句候補文字列パターンに複数の文字列が該当していた場合においてその複数の文字列のうちの一の文字列が他の文字列に発明文書の記載上包含されていたときには、その複数の文字列のうちその一の文字列を除外した残余の文字列を選択対象として重要語句を選択して抽出する。
重要語句抽出部2051は、例えば、重要語句設定辞書取得部203により取得された重要語句設定辞書に含まれる重要語句と同一の語句が、発明文書のクレームに含まれている場合には、クレーム中のその語句を重要語句の候補として抽出する。重要語句抽出部2051は、例えば、重要語句設定辞書取得部203により取得された非重要語句設定辞書に含まれる語句については、重要語句の候補として抽出しないようにする。
重要語句抽出部2051は、例えば、設定情報の条件情報が示す各文字列パターン情報を参照して、発明文書のクレームにおける語句を重要語句の候補として抽出する。
具体的な一例としては、重要語句抽出部2051は、クレーム中に、条件情報における参照文字列パターン情報が示す参照文字列パターンに該当する文字列に後続して、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出する。その重要語句候補文字列パターンに該当する文字列と同一の文字列が、重要語句の候補のうちから、重要語句として抽出されることになった場合においては、重要語句抽出部2051は、例えば、クレーム中に、その重要語句として抽出された文字列を語尾に含む文字列で、重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在するときに、その重要語句候補文字列パターンに該当する文字列を、更に重要語句の候補として抽出することとしてもよい。これにより、例えば、参照文字列パターンに該当する文字列が「前記」であったとした場合に、クレーム中の「前記制御装置」の記載から「制御装置」が重要語句として抽出されたときにおいて、更に、その「制御装置」を語尾に有する、クレーム中の「機器制御装置」が更に重要語句の候補として抽出され得る。なお、重要語句抽出部2051は、クレーム中に、条件情報における参照文字列パターン情報が示す参照文字列パターンに該当する文字列に後続して、所定前置文字列が存在し、その所定前置文字列に後続して、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出することとしてもよい。ここで、所定前置文字列は、例えば、「第一」、「第1の」、「第1、第3〜第5の」等といった1つ以上の序数を含んで構成される序数文字列、或いは、「複数の」、「1本の」、「一組の」、「1つ又は複数の」等といった個数を表現した数量文字列、或いは、「所定」、「所定の」、「一の」、「他の」等といった限定文字列等である。序数文字列が複数の序数を含む場合には、序数文字列は、序数間の区切り文字として、「〜」、「−」、「,」、読点文字「、」、或いは、品詞が接続詞である文字列等を含む。接続詞は、従来の形態素解析技術を用いて識別してもよいし、接続詞である文字列(「および」、「または」、「及び」等)を列挙した接続詞リストと照合することで識別してもよい。接続詞リストにおいて、例えば、「及び/又は」、「および/または」といった記載を含めてもよい。
重要語句抽出部2051は、例えば、クレーム中に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、条件情報における特定助詞文字列パターン情報が示す特定助詞文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出する。なお、重要語句抽出部2051は、例えば、クレーム中に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、所定の文字列(例えば、「各々」、「の夫々」等)が存在し、その所定の文字列に後続して、条件情報における特定助詞文字列パターン情報が示す特定助詞文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出することとしてもよい。
重要語句抽出部2051は、例えば、クレーム中に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、条件情報における符号文字列パターン情報が示す符号文字列パターンに該当する文字列(例えば始め丸括弧と終わり丸括弧とに挟まれた符号)が存在する場合においては、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出する。
重要語句抽出部2051は、クレーム中に、漢字以外の文字又は所定の漢字(例えば「各」)に後続して、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出してもよい。
重要語句抽出部2051は、例えば、クレーム中において、行頭、句読点の後、或いは、動詞、助動詞、形容詞、接続詞、副詞又は所定の平仮名の後に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在する場合においては、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出することとしてもよい。なお、発明文書中の各行は、複数の文字列から構成され得るところ、その各文字列の品詞(例えば動詞、形容詞、接続詞等に区分される文字列の種別)については、既存の形態素解析技術を用いて、ある程度判別し得る。このため、条件情報の一部(例えば重要語句候補文字列パターン情報)が、品詞を区別した文字列パターンを示すようにしてもよい。品詞を区別した文字列パターンは、例えば、形態素解析技術を用いて先に発明文書中の各語句の形態素解析を実行して、その結果として選別された所定の品詞各々である語句に、品詞別の特定記号列をその語句の直前及び直後の少なくとも一方に付加すること又はその語句を品詞別の特定記号列に置換することを前提として、重要語句の候補の抽出がなされる場合においては、その品詞別の特定記号列を含ませて表現した文字列パターンである。形態素解析を実行するためのプログラムの一例としては、京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトで開発された工藤拓氏によるオープンソース形態素解析エンジン「Mecab」が挙げられる。例えば、条件情報において重要語句候補文字列パターン情報が示す1つの重要語句候補文字列パターンに名詞が該当するように定めておいてもよい。なお、発明文書中(例えばクレーム中)に、特定助詞文字列パターン情報が示す特定助詞文字列パターンに該当する文字列が存在するか否かを判別する際に、形態素解析により、その文字列の品詞が助詞であるところのその文字列が存在するか否かの判別を、追加してもよい。
重要語句抽出部2051は、例えば、発明文書の明細書中に条件情報に基づいて重要語句として抽出された文字列がある場合において、その文字列と同一の文字列が発明文書のクレーム中に存在するときには、その文字列を、無条件に又は一定条件下で、重要語句の候補として抽出してもよい。この一定条件の例としては、発明文書の明細書から抽出された重要語句の重要度が所定程度以上であること等が挙げられる。具体例としては、重要語句抽出部2051は、例えば、発明文書の明細書中に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、条件情報における符号文字列パターン情報が示す符号文字列パターンに該当する文字列が存在する場合において、その重要語句候補文字列パターンに該当する文字列と同一の文字列が、発明文書のクレーム中に存在するときには、その文字列を、重要語句の候補として抽出することとしてもよい。
重要語句抽出部2051は、例えば、発明文書の明細書中に先行技術文献情報として特許文献が示されている場合にその特許文献のクレーム及び明細書から、条件情報に基づいて重要語句を抽出し、その発明文書のクレーム中に、その特許文献における重要語句と同一の語句があれば、重要語句の候補として抽出することとしてもよい。
重要語句抽出部2051は、例えば、発明文書の明細書中に「符号の説明」が記載されている場合において、その「符号の説明」で符号に対応付けられて記載された語句がその発明文書のクレーム中に存在するときには、その語句を重要語句の候補として抽出することとしてもよい。重要語句抽出部2051は、例えば、重要語句の候補として抽出されたクレーム中の語句のうち、クレーム中のその語句に所定非後続文字列が後続している場合には、その語句を重要語句として抽出しないこととしてもよい。所定非後続文字列は、例えば、「する」、「し」等である。重要語句抽出部2051は、例えば、重要語句の候補として抽出されたクレーム中の語句のうち、語句の先頭に所定不要語が含まれている場合に、その語句から所定不要語を除去した語句を、重要語句の候補として抽出したものと看做すこととしてもよい。所定不要語は、例えば、「所謂」、「実質」、「各種」等である。
重要語句抽出部2051は、例えば、重要語句の候補として抽出されたクレーム中の文字列が、抽出例外条件に該当する文字列である場合には、その文字列を重要語句として抽出しないこととしてもよい。抽出例外条件は、例えば条件情報の一部として定められ得る。抽出例外条件は、例えば、単独では重要語句とならない文字列(例えば、「複数」、「上」等)、単独でも語尾として含んでも重要語句とならない文字列(例えば、「実際」、「百」等)、単位を示し重要語句とならない文字列(例えば「km」、「cm」、「MB」、「kΩ」等)等を表す条件である。
重要語句抽出部2051は、例えば、発明文書のクレーム中から抽出した重要語句に後続して、始め括弧と、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列と、終わり括弧とがこの順に連続して含まれているときにその重要語句候補文字列パターンに該当する文字列を重要語句の候補として抽出してもよい。その重要語句候補文字列パターンに該当する文字列がコロン「:」で区切られた複数の語句であって、その複数の語句の各々が重要語句候補文字列パターンに該当する場合には、重要語句抽出部2051は、その複数の語句の各々を重要語句の候補として抽出することとしてもよい。
重要語句抽出部2051は、例えば、発明文書のクレームの各項において請求対象として記載されている要素(言わば請求対象の要素)を表す語句を、重要語句として抽出する。重要語句抽出部2051は、例えば、発明文書のクレームに、重要語句設定辞書取得部203により取得された重要語句設定辞書に含まれる重要語句と同一の語句に後続して句点文字が存在する場合には、その語句を、請求対象の要素を表す重要語句として抽出する。重要語句抽出部2051は、例えば、発明文書のクレームに、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して句点文字が存在する場合には、その重要語句候補文字列パターンに該当する文字列と同一の文字列を、請求対象の要素を表す重要語句として抽出する。重要語句抽出部2051により抽出された重要語句が、クレームの請求対象の要素を表すか否かは、例えば、分析部205において管理される重要語句管理情報における属性情報の項目の1つとなり得る。
発明文書のクレームにおける請求対象の要素を探索するために用いる重要語句候補文字列パターンは、請求対象以外の要素に係る重要語句の候補を探索するために用いる重要語句候補文字列パターンと同様であってもよいし、一部を異ならせてもよい。一例としては、請求対象の要素を探索するために用いる重要語句候補文字列パターンは、語句の緩い結合を表現するのに用いられることのある平仮名「の」を間に含む所定の文字列と、平仮名「の」を含まない別の所定の文字列との両方が、該当するように定められた文字列パターンであることとして、請求対象以外の要素に係る重要語句の候補を探索するために用いる重要語句候補文字列パターンは、平仮名「の」を間に含む文字列が該当しない文字列パターンであることとしてもよい。
[3−1−5−1−2.明細書中の重要語句の抽出]
重要語句抽出部2051は、明細書重要語句抽出処理として、例えば、発明文書の明細書中での、設定情報中の重要語句抽出範囲情報に従った重要語句の抽出範囲(例えば「発明を実施するための形態」及び「実施例」)において、重要語句の抽出を行う。重要語句抽出部2051における明細書中の重要語句の抽出については、上述したクレーム中の重要語句の抽出と、一部が異なる他は、概ね同様である。以下、その同様のことについての説明は、適宜省略するが、発明文書の明細書中での重要語句の抽出範囲における重要語句の抽出には、利用可能である限りにおいて、上述したクレーム中の重要語句の抽出と同様の方式を利用してもよい。
重要語句抽出部2051は、例えば、発明文書の明細書中での重要語句の抽出範囲における行毎に、重要語句の候補を探索し、重要語句の候補を抽出したら、定められた基準に基づいて重要語句であり得るか否かの判別を行って、重要語句であり得ると判別したものを、重要語句として抽出する。
なお、重要語句抽出部2051は、例えば、設定情報のコメント特定用情報に基づいてコメント行又はコメントの部分については探索対象範囲から除外して、重要語句の候補の探索を行う。また、重要語句抽出部2051は、例えば、引用記載の範囲については探索対象範囲から除外して、重要語句の候補の探索を行うこととしてもよい。引用記載の範囲は、例えば、引用のための、2つの呼応する別々の文字コードの、引用符又は括弧で、前後を挟まれた範囲であり、一例としては、引用される記載を3つの中点で表現すると、「・・・」、『・・・』、“・・・”等が、挙げられる。
重要語句抽出部2051は、例えば、発明文書の明細書中での重要語句の抽出範囲における各行について重要語句の候補を探索する前に、その各行に対して文字形式の変換を施してもよい。
発明文書の明細書中での重要語句の抽出範囲の一行において、重要語句であり得ると判別される複数の重要語句の候補が抽出され、その複数の重要語句の候補の文字列の記載範囲が一部重複する場合には、重要語句抽出部2051は、定められた選択基準に基づいてその複数の重要語句の候補のうち1つを選択して重要語句として抽出する。なお、重要語句抽出部2051は、発明文書の明細書中での重要語句の抽出範囲の各行について、その行における全ての丸括弧内記載部分(つまり始め丸括弧と終わり丸括弧とで挟まれた記載部分)を除去した残りの文字列を連結して構成された丸括弧外記載部分と、各丸括弧内記載部分とのそれぞれを、別個に対象として、重要語句の候補の抽出を行うこととしてもよい。
重要語句抽出部2051は、例えば、重要語句設定辞書取得部203により取得された重要語句設定辞書に含まれる重要語句と同一の語句が、発明文書の明細書中での重要語句の抽出範囲に含まれている場合には、明細書中での重要語句の抽出範囲中のその語句を重要語句の候補として抽出する。重要語句抽出部2051は、例えば、重要語句設定辞書取得部203により取得された非重要語句設定辞書に含まれる語句については、重要語句の候補として抽出しないようにする。
重要語句抽出部2051は、例えば、発明文書のクレーム中において重要語句として抽出した語句と同一の語句が、発明文書の明細書中での重要語句の抽出範囲に含まれている場合には、明細書中での重要語句の抽出範囲中のその語句を重要語句の候補として抽出する。
重要語句抽出部2051は、例えば、設定情報の条件情報が示す各文字列パターン情報を参照して、発明文書の明細書中での重要語句の抽出範囲における語句を重要語句の候補として抽出する。
具体的な一例としては、重要語句抽出部2051は、例えば、発明文書の明細書中での重要語句の抽出範囲に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、符号文字列が存在する場合において、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出する。符号文字列は、例えば、条件情報における符号文字列パターン情報が示す符号文字列パターンに該当する文字列である。なお、符号文字列パターン情報が、設定情報における非符号基準を反映したものでない場合においては、符号文字列は、符号文字列パターンに該当する文字列であり、非符号基準に基づいて符号でないものと判断されない文字列である。符号文字列は、例えば、発明文書の明細書中に「符号の説明」が記載されている場合においては、その「符号の説明」中における符号と推定される文字列であってもよい。
符号文字列パターン情報が正規表現等で表す符号文字列パターンは、例えば、符号として用いることのできる文字(例えば、英数字及び所定の記号)で構成された文字列が該当するように表現される。符号文字列パターンは、例えば、複数の符号が「〜」、「−」、「,」、読点文字「、」等により連結された文字列が該当し得るような文字列パターンであってもよい。非符号基準が符号文字列パターンに内包されていない場合においては、非符号基準は、符号文字列パターンに該当する文字列のうち、例えば一般的に符号として用いられることが稀であり、符号でない可能性が十分にあると推定される文字例を、符号でないと判断されるように定めた情報である。非符号基準で、符号でないと判断される文字列の一例としては、先頭3文字以上が英字の大文字である文字列、先頭1文字以上の数字に所定の単位文字列(例えば「km」、「cm」、「MB」、「kΩ」等)が後続する文字列等が挙げられる。非符号基準は、直前の要素名の語尾との組み合わせで符号でないと判断される文字列を示すものであってもよく、この一例としては、符号の直前の要素名の語尾が「電圧」である場合に先頭1文字以上の数字に「V」、「mV」等の単位文字列が後続して構成される符号、符号の直前の要素名の語尾が「距離」である場合に先頭1文字以上の数字に「m」、「cm」、「km」等の単位文字列が後続して構成される符号等が、挙げられる。非符号基準は、例えば、符号として用いることのできる文字で構成された文字列に後続して、符号に後続することが稀である所定の文字(例えば、「つ」、「年」、「秒」、「回」等)が記載されている場合に、その符号として用いることのできる文字で構成された文字列を、符号でないと判断されるように定めてもよい。
重要語句抽出部2051は、例えば、発明文書の明細書中での重要語句の抽出範囲から、符号文字列が後続して存在することで抽出された重要語句の候補の語句のうちに、同一内容の符号文字列が後続して存在することで抽出された複数の語句であって、語尾が共通で語尾以外に異なる部分を有する複数の語句(例えば「機器制御部」と「第1制御部」)が存在する場合には、その複数の語句は重要語句の候補から除外し、その共通の語尾部分(例えば「制御部」)を、重要語句の候補として新たに抽出することとしてもよい。なお、発明文書の明細書中での重要語句の抽出範囲における、相違する位置から、この同一内容の符号文字列が後続して存在することで、重要語句抽出部2051に重要語句の候補として一旦抽出されてその候補から除外された複数の語句(例えば「機器制御部」と「第1制御部」)は、例えば、分析部205により、注意喚起等のために生成される警告情報において、同一符号が付された異表現の語句群として、指摘され得る。
重要語句抽出部2051は、例えば、発明文書の明細書中での重要語句の抽出範囲に、符号文字列が後続して存在することで抽出された重要語句に後続して、始め括弧と、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列と、終わり括弧とがこの順に連続して含まれているときにその重要語句候補文字列パターンに該当する文字列を重要語句の候補として抽出してもよい。その重要語句候補文字列パターンに該当する文字列がコロン「:」で区切られた複数の語句である場合には、重要語句抽出部2051は、例えば、その複数の語句の各々を重要語句の候補として抽出してもよい。
重要語句抽出部2051は、例えば、発明文書のクレーム中において重要語句として抽出された文字列を語尾に含む文字列で、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が、その発明文書の明細書中での重要語句の抽出範囲に存在する場合に、その重要語句候補文字列パターンに該当する文字列を、重要語句の候補として抽出することとしてもよい。
重要語句抽出部2051は、例えば、発明文書の明細書中での重要語句の抽出範囲に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、条件情報における特定助詞文字列パターン情報が示す特定助詞文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出する。なお、重要語句抽出部2051は、例えば、その明細書中での重要語句の抽出範囲に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列に後続して、所定の文字列(例えば、「各々」、「の夫々」等)が存在し、その所定の文字列に後続して、条件情報における特定助詞文字列パターン情報が示す特定助詞文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列と同一の文字列を重要語句の候補として抽出することとしてもよい。
重要語句抽出部2051は、例えば、発明文書の明細書中での重要語句の抽出範囲に、条件情報における重要語句候補文字列パターン情報が示す重要語句候補文字列パターンに該当する文字列が存在する場合に、その重要語句候補文字列パターンに該当する文字列を、重要語句の候補として抽出することとしてもよい。なお、符号文字列又は特定助詞文字列パターンに該当する文字列に先行する等の付加的な条件を満たさずに、単に重要語句候補文字列パターンに該当するだけにより、重要語句として抽出された文字列については、分析部205は、その文字列である重要語句の重要度を、例えば、発明文書におけるその重要語句の記載数等に係る一定条件下で、相対的に低いものと定め得る。
[3−1−5−1−3.抽出された重要語句についての管理]
分析部205は、重要語句抽出部2051により抽出された各重要語句について、重要語句管理情報を用いて管理する。
図18は、重要語句管理情報の一例を示す。
図18の例に示す重要語句管理情報は、重要語句抽出部2051により抽出された各重要語句について、識別情報、重要度、属性情報、翻訳語候補集合、対応翻訳語を対応付けた情報である。以下、図18の例に示す重要語句管理情報の各項目について説明する。
重要語句の識別情報は、例えば、内容(つまり文字列)が相違する複数の重要語句各々について相違するように定められた番号等の識別コードである。重要語句の識別情報は、具体的には、例えば、発明文書のクレームから抽出された重要語句と発明文書のクレームからは抽出されなかった重要語句とを区別する識別記号と、同一の識別記号の重要語句についての通番とを含む識別コードである。ここで発明文書のクレームから抽出された重要語句は、発明文書の明細書からも抽出され得るものであり、以下、クレームの重要語句とも称する。また、発明文書のクレームからは抽出されなかった重要語句は、発明文書のクレームからは抽出されなかったが明細書から抽出されたものであり、以下、明細書の重要語句とも称する。分析部205は、相互に内容が異なるクレームの重要語句の数が所定数(例えば500)を超える場合には、重要語句の優先順位に基づいて、クレームの重要語句のうち所定数を超えない分の各重要語句には相互に異なる識別コード(例えば、「A1」〜「A500」のいずれか)を定め、所定数を超える分の各重要語句は相互に区別せずにその各重要語句には所定の1つの識別コード(例えば「A999」)を定める。分析部205は、同様に、相互に内容が異なる明細書の重要語句の数が所定数を超える場合には、重要語句の優先順位に基づいて、明細書の重要語句のうち所定数を超えない分の各重要語句には相互に異なる識別コード(例えば「B1」〜「B500」)を定め、所定数を超える分の各重要語句は相互に区別せずにその各重要語句には所定の1つの識別コード(例えば「B999」)を定める。重要語句の優先順位は、例えば、重要語句の重要度又は属性情報(例えば初出行番号)に基づいて定められ、重要語句の識別コードには優先順位に従った順の通番が含まれる。分析部205は、重要語句抽出部2051により抽出された重要語句についての識別コードにおける通番部分として、例えば、重要語句の初出行番号の小さい順に定めた通番を採用し得る。
重要語句の重要度は、分析部205の重要度決定部2055により定められる。
重要語句の属性情報は、分析部205の属性特定部2056により定められる。
重要語句の翻訳語候補集合は、例えば、重要語句を所定の翻訳先言語に翻訳した語句である対応翻訳語の候補となる語句の集合であり、分析部205の翻訳部2054において定められる。
重要語句の対応翻訳語は、例えば、重要語句の翻訳語候補集合のうち、発明文書分析システム20のユーザにより選択された語句である。
重要語句抽出部2051により発明文書から抽出された各重要語句は、発明文書分析システム20において、例えば重要語句管理情報を参照することで、各種処理に利用される。例えば、発明文書分析システム20は、発明文書から抽出された各重要語句に関する情報を含む特許出願関連情報を出力する。分析部205では、出力部208により出力されることとなる特許出願関連情報に含まれる各種情報を、翻訳部2054、要素間関係判別部2058、警告情報生成部2059、クレーム情報生成部205a、明細書情報生成部205b、クレームツリー生成部205c等において生成する。
[3−1−5−2.属性特定部]
属性特定部2056は、重要語句抽出部2051により発明文書から抽出された各重要語句についての属性を特定する。属性特定部2056は、例えば、各重要語句について特定した属性を反映するように、分析部205が保持する重要語句管理情報の属性情報を更新する。属性特定部2056は、例えば、重要語句についての各種属性を特定することで、重要語句管理情報の属性情報の各種属性に対応する各項目を更新する。分析部205の各部は、例えば、重要語句管理情報の属性情報を参照することで、発明文書から抽出された各重要語句の属性情報を利用し得る。
図19は、重要語句管理情報における重要語句の属性情報の項目の一例を示す。図19に例示する重要語句の属性情報は、「初出行番号」の項目、「初出クレーム番号」の項目、「定義クレーム番号集合及び参照クレーム番号集合」の項目、「クレームの請求対象の要素を表すか否か」の項目、「符号」の項目、「発明文書全体、クレーム部分、明細書部分及び発明実施形態部分での使用数」の項目、「主語としての使用の有無」の項目、「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」の項目、「技術用語特有語尾文字列を有するか否か」の項目、「重要語句設定辞書に含まれる語句か否か」の項目、「重要語句の文字数」の項目、及び、「低重要語句か否か及び低重要語尾文字列を含むか否か」の項目を含む。
以下、図19に例示する重要語句の属性情報の各項目について説明する。この属性情報は、発明文書から、重要語句抽出部2051により抽出された重要語句各々について定められており、各項目は、対応する重要語句の属性の1つを示す。属性特定部2056は、各重要語句について、発明文書からのその重要語句に関連する記載部分の検索等の処理を行うことによって、その重要語句の各属性、つまり、その重要語句の属性情報の各項目の内容を、特定する。
重要語句の一属性としての「初出行番号」の項目は、発明文書の各行について記載順に定めた通番のうち、その重要語句が発明文書に記載された最先の行の番号を示す。「初出行番号」の項目は、別の一例としては、その重要語句が発明文書のクレームに記載された最先の行の番号を示し、その重要語句がクレームに記載されていない場合においては、その重要語句が発明文書の明細書に記載された最先の行の番号を示すこととしてもよい。
重要語句の一属性としての「初出クレーム番号」の項目は、その重要語句が記載された発明文書のクレームの項のうち最先の項の項番(例えば請求項の番号)を示し、その重要語句が発明文書のクレームに記載されていないものである場合には、例えば、クレームの項番以外の番号(例えば0)を示す。ここでは、重要語句が発明文書のクレームに記載されていないものである場合にその重要語句の一属性としての「初出クレーム番号」が0であるものとして説明を続ける。これにより、「初出クレーム番号」の項目の内容により、その重要語句が、クレームの重要語句か否か(つまりクレームに記載されたものか否か)を識別することができる。クレームの重要語句(つまりクレームに記載された重要語句)は、明細書の重要語句(つまりクレームに記載されていない重要語句)より、比較的重要性が高い語句である可能性がある。また、重要語句が記載されたクレームの最先の項の項番が0以外で相対的に小さい重要語句は、相対的に概念上の上位の事項を示す語句である可能性が多少あり得る。
重要語句の一属性としての「定義クレーム番号集合及び参照クレーム番号集合」の項目は、その重要語句が記載された発明文書のクレームの項の項番を要素とする集合を示す。参照クレーム番号集合は、参照文字列(例えば、条件情報における参照文字列パターン情報が示す参照文字列パターンに該当する文字列)に後続してその重要語句の記載を含むクレームの項の項番を要素とする集合である。定義クレーム番号集合は、参照文字列に後続していないその重要語句の記載を含むクレームの項の項番を要素とする集合である。重要語句についての参照クレーム番号集合の要素数が0であれば、その重要語句は、クレーム中で参照文字列に後続して記載されていない語句である可能性がある。
重要語句の一属性としての「クレームの請求対象の要素を表すか否か」の項目は、その重要語句が表す要素がクレームのいずれか一項における請求対象の要素であるか否かを示す情報である。
重要語句の一属性としての「符号」の項目は、発明文書において、その重要語句に符号が付加された記載がある場合にその符号を示す。符号は、複数であってもよい。発明文書においてその重要語句に符号が付加された記載が検出できなかった場合には、符号がないことを示す。「符号」の項目が、一例として文字列で表現されるとすれば、「符号」の項目の内容は、例えば、その重要語句に符号が付加された記載がある場合にはその符号の記載そのものである文字列となり、その重要語句に符号が付加された記載が検出できなかった場合にはヌル(null)文字のみの文字列となる。また、例えば「符号」の項目が、一例として符号の文字列の集合で表現されるとすれば、その重要語句に符号が付加された記載が検出できなかった場合には、「符号」の項目の内容である文字列の集合の要素数は0となり、その重要語句に対応する符号が存在する場合には、「符号」の項目の内容である文字列の集合の要素数は1以上となる。これにより、「符号」の項目の内容により、その重要語句に対応する符号が存在するか否かを識別することができる。発明文書において符号が付加されて記載された重要語句は、符号が付加された記載のない重要語句より、比較的重要性が高い語句である可能性がある。重要語句の一属性としての「符号」の項目は、更に、発明文書の明細書において、その重要語句に符号が付加された記載がある場合にその符号を示し、更に、発明文書の明細書において、その重要語句に符号が付加された記載と符号が付加されていない記載とが混在する場合にその混在の旨を示すこととしてもよい。属性特定部2056は、重要語句抽出部2051により抽出された各重要語句について、発明文書、或いは、発明文書の明細書から、その重要語句が記載されている部分を探索し、その記載されている部分において、重要語句に符号が後続しているか否かを判別することで、その重要語句の一属性としての「符号」の項目の内容を特定し得る。
重要語句の一属性としての「発明文書全体、クレーム部分、明細書部分及び発明実施形態部分での使用数」の項目は、発明文書全体におけるその重要語句の記載回数、発明文書のクレームにおけるその重要語句の記載回数、発明文書の明細書におけるその重要語句の記載回数、及び、発明文書の明細書の「発明を実施するための形態」におけるその重要語句の記載回数を示す。属性特定部2056は、各重要語句の記載回数を計数することで、この項目の内容を特定する。相対的に、記載回数の多い重要語句は、重要性が高い可能性がある。
重要語句の一属性としての「主語としての使用の有無」の項目は、例えば、発明文書中に、或いは、発明文書の明細書中に、その重要語句が主語として用いられた記載が含まれているか否かを示す。属性特定部2056は、例えば、発明文書中等において、その重要語句が「は」という文字の直前に配置された記載が含まれていることを検出した場合に、その重要語句が主語として用いられた記載が含まれていると判定する。この判定結果が、「主語としての使用の有無」の項目の内容として表される。なお、属性特定部2056は、例えば、その重要語句が、その「は」という文字の直前に配置された記載が含まれており、かつ、その「は」という文字が形態素解析により助詞と判別された場合に限って、その重要語句が主語として用いられた記載が含まれていると判定することとしてもよい。また、属性特定部2056は、例えば、発明文書中等において、その重要語句が、所定の文字列(例えば、「各々」、「の各々」、「夫々」等)を挟んで、その「は」という文字の前に配置された記載が含まれていることを検出した場合にも、その重要語句が主語として用いられた記載が含まれていると判定してもよい。また、ここで示した主語の後に記載される「は」という文字については、所定の助詞(例えば「が」、「も」等)、或いは、所定の連続した助詞(例えば「とは」、「には」、「では」等)等の、主語に相当する語句に後続し得る所定の文字列を、その「は」という文字と同様に扱うこととしてもよい。この場合においては、「は」という文字と同様に扱う主語に相当する語句に後続し得る所定の文字列に先行して、条件情報の重要語句候補文字列パターン情報で示された1つの重要語句候補文字列パターンに該当する文字列が発明文書中で記載されているときには、その重要語句候補文字列パターンに該当する文字列を、重要語句抽出部2051で重要語句の候補として抽出するようにするとよい。「主語としての使用の有無」の項目が主語として使用されていることを示す内容の属性を有する重要語句は、発明文書においてその語句について何らかの説明的な記載が付加された語句であると想定されるので、重要性が相対的に高い可能性が十分にある語句であることを意味し得る。
重要語句の一属性としての「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」の項目は、例えば、発明文書においてその重要語句が表す要素が、他の1つ以上の重要語句各々が表す要素を構成上包含している場合における、その被包含側の要素を表す重要語句の集合、及び、発明文書においてその重要語句が表す要素が、他の1つ以上の重要語句各々が表す要素に構成上包含されている場合における、その包含側の要素を表す重要語句の集合を示す。この各集合の要素数が0であれば、その重要語句が表す要素は、他の1つ以上の重要語句が表す要素と構成上の関係を有さないことを示すことになる。この項目は、発明文書分析システム20のユーザに、重要語句間の関係の把握を容易化させるための情報の出力等に利用可能となる。
属性特定部2056が特定する重要語句の属性情報の一属性としての項目は、上述したものに限られず、属性情報は、例えば、発明文書の明細書において、その重要語句の直前に「複数の」、「1つ以上の」、「1つの」等といった数を表す文字列が付加された1つ以上の記載が含まれている場合に、その各記載から数を表す文字列を要素とする集合である数集合を示す、「数」に係る項目を一属性として含んでもよい。また、属性情報は、例えば設定情報におけるカテゴリー区分基準情報に即して定められる、重要語句のカテゴリーを示す項目(例えば重要語句が物、方法、プログラム等の複数の種別のいずれに属するかを示す項目)を一属性として含んでもよい。
属性特定部2056は、要素間関係判別部2058に包含関係判別処理を実行させることで、複数の重要語句各々が表す要素の間に存在する構成上の包含関係を、発明文書の各行の記載内容に基づいて、判別させる。なお、物に分類される複数の重要語句が表す要素間に構成上の包含関係が存在し得るのみならず、方法、プログラム、データ等といった物以外に分類される複数の重要語句が表す要素間に構成上の包含関係が存在し得ることとしてもよい。例えば、重要語句が表す方法の要素としての「制御方法」が、重要語句が表す方法の要素としての「第1制御手順」、「第2制御手順」等を構成上包含することがあり得るとしてもよい。
そして、属性特定部2056は、要素間関係判別部2058の包含関係判別処理による判別結果に応じて、各重要語句について、その重要語句の一属性としての、被包含側に係る重要語句の集合、及び、包含側に係る重要語句の集合を特定する。
重要語句の一属性としての「技術用語特有語尾文字列を有するか否か」の項目は、その重要語句が、予め定められた、技術用語に特有の語尾を含む技術用語特有語尾文字列を含む文字列であるか否かを示す。属性特定部2056は、その重要語句から、予め定められた技術用語特有文字列を検索する等により、この項目の内容を特定する。技術用語特有語尾文字列は、例えば、設定情報取得部201により取得される設定情報における技術用語特有語尾情報により示され得る。技術用語特有語尾情報によって適切に技術用語特有語尾文字列が定義されていることを前提とすれば、技術用語特有語尾文字列を有する重要語句は、技術面における重要性を有する可能性が十分にある語句であることを意味することになる。
重要語句の一属性としての「重要語句設定辞書に含まれる語句か否か」の項目は、その重要語句が重要語句設定辞書取得部203により取得された重要語句設定辞書に含まれているか否かを示す。属性特定部2056は、例えば、重要語句設定辞書取得部203により取得された重要語句設定辞書からその重要語句を検索することで、この項目の内容を特定する。発明文書分析システム20における重要語句の抽出の精度は必ずしも高くない可能性があるところ、重要語句設定辞書が例えばユーザにより選択された重要な語句を定義する状態であることを前提とした場合において、重要語句の「重要語句設定辞書に含まれるか否か」の項目の内容が重要語句設定辞書に含まれることを示すときには、その重要語句は、新たに重要語句設定辞書に登録する必要がない語句であり、また、相対的に重要性が高い可能性が十分にある語句であることを意味することになる。
重要語句の一属性としての「重要語句の文字数」の項目は、その重要語句の文字数を示す。例えば、仮に、参照文字列に後続しておらず符号が付加されていない語句であって文字数が1字の語句が重要語句として抽出された場合において、その重要語句は、参照文字列に後続しておらず符号が付加されていない文字数が2字以上の重要語句より重要性が低い可能性がある。また、例えば、仮に、参照文字列に後続しておらず符号が付加されていない語句であって文字数が2字の語句が重要語句として抽出された場合において、その重要語句は、参照文字列に後続しておらず符号が付加されていない文字数が3字以上の重要語句より重要性が低い可能性がある。
重要語句の一属性としての「低重要語句か否か及び低重要語尾文字列を含むか否か」の項目は、その重要語句が、予め定められた所定の低重要語句(例えば、「形態」、「力」等)と同一の語句であるか否かと、予め定められた所定の低重要語尾文字列を語尾に含む語句であるか否かとを示す。この項目の内容が、その重要語句が、低重要語句と同一の語句であること又は低重要語尾文字列を語尾に含む語句であることを示す場合には、その重要語句の重要度が相対的に低い可能性がある。
[3−1−5−3.重要度決定部]
重要度決定部2055は、重要語句抽出部2051により発明文書から抽出された各重要語句についての重要度を決定する。重要度決定部2055は、例えば、発明文書のクレーム部分及び明細書部分から抽出された各重要語句について、属性特定部2056により特定されたその重要語句の属性情報に基づいて、重要度を決定する。重要度決定部2055は、例えば、クレームの請求対象の要素を表す重要語句の重要度を比較的高く決定してもよいし、発明文書において主語としての使用された記載がある重要語句の重要度を比較的高く決定してもよいし、所定の低重要語句と同一か所定の低重要語尾文字列を含む重要語句の重要度を比較的低く決定してもよい。重要度決定部2055は、単に重要語句候補文字列パターンに該当するだけにより抽出された重要語句については、重要度を比較的低く決定してもよい。
重要度決定部2055は、例えば、各重要語句について決定した重要度を反映するように、分析部205が保持する重要語句管理情報を更新する。
以下、重要度決定部2055による各重要語句の重要度の決定の一例として、クレームの重要語句(つまりクレームに記載された重要語句)と、明細書の重要語句(つまりクレームに記載されておらず明細書に記載された重要語句)とを区別して各重要語句の重要度の決定をする例について説明する。ここでは、重要度の値は、大きいほど、重要度が高いことを示すものとして説明する。
[3−1−5−3−1.クレームに記載された重要語句の重要度の決定]
発明文書のクレームから重要語句抽出部2051により抽出された各重要語句について、まず、重要度決定部2055は、重要度の初期値として第1所定値(例えば「3」)を設定する。そして、重要度決定部2055は、その各重要語句について、その重要語句の属性情報に基づいて、その重要語句についての設定済みの重要度の値を増減させる。重要度決定部2055が、クレームの重要語句についての重要度の値を増減させる場合に、上限値(例えば5)と下限値(例えば0)とを予め定めておいてもよい。
重要度決定部2055は、例えば、重要語句の一属性としての「初出クレーム番号」の項目の内容が、0以外で定数値(例えば5)より小さい場合には、その重要語句についての設定済みの重要度の値を1増加させる。この定数値は、例えば、全クレーム数の半分等といった変数値であってもよい。また、相違する値の複数のその定数値毎に重要度の値を増加させる分量を、例えばその定数値が小さい程大きい分量となるように、異ならせてもよい。
重要度決定部2055は、例えば、重要語句の一属性としての「定義クレーム番号集合及び参照クレーム番号集合」の項目の内容における参照クレーム番号集合の要素数が1以上である場合には、その重要語句についての設定済みの重要度の値を1増加させる。
重要度決定部2055は、例えば、重要語句の一属性としての「主語としての使用の有無」の項目の内容が主語としての使用があることを示す場合には、その重要語句についての設定済みの重要度の値を1増加させる。
重要度決定部2055は、例えば、重要語句の一属性としての「技術用語特有語尾文字列を有するか否か」の項目の内容が技術用語特有語尾文字列を有することを示す場合には、その重要語句についての設定済みの重要度の値を1増加させる。
重要度決定部2055は、例えば、重要語句の一属性としての「重要語句設定辞書に含まれる語句か否か」の項目の内容が重要語句設定辞書に含まれる語句であることを示す場合には、その重要語句についての設定済みの重要度の値を1増加させる。
なお、重要度決定部2055が、重要語句の属性情報の項目に対応して重要語句の設定済みの重要度の値を増加させる分量については、全て1に統一される必要はなく、項目毎に異なる分量であってもよい。
重要度決定部2055が、重要語句の属性情報の項目に対応して重要語句の設定済みの重要度の値を所定の分量だけ減少させることとしてもよい。
重要度決定部2055は、例えば、重要語句の一属性としての「低重要語句か否か及び低重要語尾文字列を含むか否か」の項目の内容が、低重要語句であること又は低重要語尾文字列を含むことを示す場合には、その重要語句についての設定済みの重要度の値を1減少させる。
重要度決定部2055が例えば上述したような重要語句の属性情報の幾つかの項目に応じた重要度の更新(例えば増減)を行ったことの最終的な結果としての重要度が、その重要語句の重要度として決定されたことになる。
[3−1−5−3−2.クレームに記載されておらず明細書に記載された重要語句の重要度の決定]
発明文書の明細書から重要語句抽出部2051により抽出された各重要語句のうち、クレームに記載されていない重要語句について、まず、重要度決定部2055は、重要度の初期値として第2所定値(例えば「1」)を設定する。第2所定値は、例えば、クレームに記載された重要語句の重要度の初期値としての第1所定値以下の値である。そして、重要度決定部2055は、その各重要語句について、その重要語句の属性情報に基づいて、その重要語句についての設定済みの重要度の値を増減させる。重要度決定部2055が、明細書の重要語句についての重要度の値を増減させる場合に、例えば、クレームの重要語句とは異なり得る、上限値(例えば4)と下限値(例えば0)とを予め定めておいてもよい。
重要度決定部2055は、例えば、重要語句の一属性としての「符号」の項目の内容が、その重要語句に対応する符号が存在することを示す場合には、その重要語句についての設定済みの重要度の値を1増加する。
重要度決定部2055は、例えば、重要語句の一属性としての「主語としての使用の有無」の項目の内容が主語としての使用があることを示す場合には、その重要語句についての設定済みの重要度の値を1増加する。
重要度決定部2055は、例えば、重要語句の一属性としての「技術用語特有語尾文字列を有するか否か」の項目の内容が技術用語特有語尾文字列を有することを示す場合には、その重要語句についての設定済みの重要度の値を1増加させる。
重要度決定部2055は、例えば、重要語句の一属性としての「重要語句設定辞書に含まれる語句か否か」の項目の内容が重要語句設定辞書に含まれる語句であることを示す場合には、その重要語句についての設定済みの重要度の値を1増加させる。
重要度決定部2055は、例えば、重要語句の一属性としての「発明文書全体、クレーム部分、明細書部分及び発明実施形態部分での使用数」の項目の内容としての、例えば、発明文書の明細書の「発明を実施するための形態」におけるその重要語句の記載回数が、所定の値(例えば「2」)より多いことを示す場合には、その重要語句についての設定済みの重要度の値を1増加させる。
重要度決定部2055は、例えば、重要語句の一属性としての「重要語句の文字数」の項目の内容が、所定の値(例えば「2」)より多いことを示す場合には、その重要語句についての設定済みの重要度の値を1増加させる。
重要度決定部2055は、例えば、重要語句の一属性としての「低重要語句か否か及び低重要語尾文字列を含むか否か」の項目の内容が、低重要語句であること又は低重要語尾文字列を含むことを示す場合には、その重要語句についての設定済みの重要度の値を1減少させる。なお、重要度決定部2055は、例えば、重要語句の一属性としての「低重要語句か否か及び低重要語尾文字列を含むか否か」の項目の内容が、低重要語句であること又は低重要語尾文字列を含むことを示す場合には、その重要語句についての設定済みの重要度の値を「0」へと更新することとしてもよい。
重要度決定部2055が例えば上述したような重要語句の属性情報の幾つかの項目に応じた重要度の更新(例えば増減)を行ったことの最終的な結果としての重要度が、その重要語句の重要度として決定されたことになる。
[3−1−5−3−3.重要語句について決定した重要度の更新]
重要度決定部2055は、例えば、各重要語句について一旦決定した重要度を、更に更新することで、最終的な決定を行うこととしてもよい。
以下、重要度決定部2055による、一旦決定した重要度の更なる更新の一例について説明する。
重要度決定部2055は、各重要語句の重要度を一旦決定した後において、各重要語句が表す各要素の相互間における構成上の包含関係について、包含側の要素に係る重要語句の重要度を、その重要語句が表す要素に包含される全ての被包含側の要素に係る各重要語句についての重要度のうちで最高値の重要度の値と、同一以上の値となるように、更に更新する。なお、要素間の構成上の包含関係は、要素間関係判別部2058の包含関係判別処理により判別される。
この例においては、例えば、重要度が「4」と一旦決定された重要語句「センサ」が表す要素と、重要度が「2」と一旦決定された重要語句「操作受付部」が表す要素との2つの要素を、構成上包含する要素を表す重要語句「入力部」の重要度が「2」と一旦決定されていた場合において、重要度決定部2055は、重要語句「入力部」の重要度を「2」から「4」へと更新することになる。これにより、構成上の包含関係を有する要素間における被包含側の要素群に係る重要語句のうち重要度が一旦最も高く決定された重要語句の重要度が、最終的には、包含側の要素に係る重要語句の重要度へ伝播されることになる。
[3−1−5−4.要素間関係判別部]
要素間関係判別部2058は、発明文書から重要語句抽出部2051により抽出された重要語句各々が表す要素間の関係について判別する要素間関係判別処理を行う。要素間関係判別部2058は、重要語句各々が表す要素間の関係の判別結果を示す重要語句関係情報を生成する。要素間関係判別部2058による判別結果を受けて、属性特定部2056が、判別結果に関連する重要語句各々についての属性情報を特定する。
[3−1−5−4−1.構成上の包含関係を有する複数の要素の判別]
要素間関係判別部2058は、発明文書から重要語句抽出部2051により抽出された重要語句各々が表す要素間が構成上の包含関係を有することについて判別する包含関係判別処理を実行する。要素間関係判別部2058による包含関係判別処理の結果に基づいて、属性特定部2056は、重要語句の一属性としての「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」の項目の内容を特定する。
要素間関係判別部2058による包含関係判別処理は、例えば、発明文書から、一の重要語句が表す要素が他の重要語句が表す要素を包含することを示す所定の包含記載パターンに該当する記載を探索することにより実現される。所定の包含記載パターンは、設定情報取得部201により取得される設定情報に含まれることとしてもよい。
所定の包含記載パターンに該当する記載の例としては、一の重要語句が主語として格助詞「は」に先行している文において、他の重要語句が、包含することを表す所定の包含記載文字列(例えば「を備える」、「を含む」、「を含んでいる」等)の直前に存在するような記載、或いは、他の重要語句が所定の包含記載文字列の直前に存在し、一の重要語句がその所定の包含記載文字列の直後に存在するような記載等が挙げられる。所定の包含記載文字列として、包含することを表すと想定される如何なる文字列を定めてもよい。また、この所定の包含記載パターンに該当する記載の例における、他の重要語句は、複数の重要語句が、並列又は選択を表す接続詞、要素を繋ぐ所定の助詞「と」、読点文字「、」等を挟んで列挙されているものであってもよい。所定の包含記載文字列は、受動態のような表現(例えば、「に備えられる」、「に含まれる」等であってもよく、この表現に対応して更なる所定の包含記載パターンが定められてもよい。
具体例を挙げると、要素間関係判別部2058は、発明文書中の「センサと操作受付部とを含む入力部」という記載は、所定の包含記載パターンに該当するので、重要語句「入力部」が表す要素が、構成上、重要語句「センサ」が表す要素と重要語句「操作受付部」が表す要素とを包含すると判別する。この判別結果を受けて、属性特定部2056では、重要語句「入力部」の一属性としての「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」の項目の被包含側の要素を表す重要語句の集合の要素として、重要語句「センサ」と、重要語句「操作受付部」とを含ませる。
また、別の具体例を挙げると、要素間関係判別部2058は、発明文書中の「情報処理装置は、入力部と記憶部と表示情報生成部と表示部を含む」という記載は、所定の包含記載パターンに該当するので、重要語句「情報処理装置」が表す要素が、構成上、重要語句「入力部」が表す要素と、重要語句「記憶部」が表す要素と、重要語句「表示情報生成部」が表す要素と、重要語句「表示部」が表す要素とを包含すると判別する。この判別結果を受けて、属性特定部2056では、例えば、重要語句「入力部」の一属性としての「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」の項目の包含側の要素を表す重要語句の集合の要素として、重要語句「情報処理装置」を含ませる。また、属性特定部2056は、例えば、重要語句「情報処理装置」の一属性としての「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」の項目の被包含側の要素を表す重要語句の集合の要素として、重要語句「入力部」、重要語句「記憶部」、重要語句「表示情報生成部」及び重要語句「表示部」を含ませる。
包含関係判別処理において、要素間関係判別部2058は、発明文書の各行において、包含関係を表す所定の包含記載文字列以外に相当する動詞(例えば、「検知する」、「受け付ける」等)の目的語を、所定の包含記載パターンに該当する記載の探索対象範囲から除外してもよい。即ち、要素間関係判別部2058は、発明文書の各行において、行の探索開始部分から所定の包含記載文字列以外に相当する動詞の部分までを除いて、残りの部分から、一の重要語句が表す要素が他の重要語句が表す要素を包含することを示す所定の包含記載パターンに該当する記載(例えば、他の重要語句が所定の包含記載文字列の直前に存在し、一の重要語句がその所定の包含記載文字列の直後に存在するような記載)を探索することで、複数の重要語句が表す要素間の包含関係を判別してもよい。これにより、要素間関係判別部2058は、例えば、発明文書中の「音声を検知するセンサと、ユーザの操作を受け付ける操作受付部とを含む入力部」という記載に基づいて、「音声」、「ユーザ」、「操作」等が重要語句であったとしてもこれらを除外して、重要語句「入力部」が表す要素が、構成上、重要語句「センサ」が表す要素と重要語句「操作受付部」が表す要素とを包含すると判別し得る。
要素間関係判別部2058は、例えば、発明文書のクレームの記載を対象として行う包含関係判別処理において、クレームの一項の一部分で所定の包含記載文字列に先行して主語が記載されていない場合には、その一部分の前において格助詞「は」に先行した主語が明示されていない限りにおいて、クレームのその一項における請求対象の要素を表す重要語句が主語であると看做して、その主語が表す要素が、所定の包含記載文字列の直前の重要語句が表す要素を包含しているものと判別してもよい。また、要素間関係判別部2058は、例えば、発明文書のクレームの記載を対象として行う包含関係判別処理において、クレームの一項の一部分で所定の包含記載文字列に先行して主語が記載されていない場合において、その一部分の前において格助詞「は」に先行した主語が明示されているときには、その主語が表す要素が、所定の包含記載文字列の直前の重要語句が表す要素を包含しているものと判別してもよい。
[3−1−5−4−2.記録媒体とその記録媒体の内容との関係にある複数の要素の判別]
要素間関係判別部2058は、例えば、発明文書から重要語句抽出部2051により抽出された重要語句各々が表す要素間が記録媒体とその記録媒体の内容との関係を有することについて判別する記録関係判別処理を実行し得る。ここで、記録媒体は、記憶媒体と称されるものを含むこととしてもよい。属性特定部2056は、重要語句の属性情報に、例えば、「重要語句が表す要素の記録内容」の項目を追加して、要素間関係判別部2058による記録関係判別処理の結果に基づいて、その項目の内容を特定することとしてもよい。
要素間関係判別部2058による記録関係判別処理は、例えば、発明文書から、一の重要語句が表す要素が他の重要語句が表す要素を記録内容としていることを示す所定の記録記載パターンに該当する記載を探索することにより実現される。所定の記録記載パターンは、設定情報取得部201により取得される設定情報に含まれることとしてもよい。
所定の記録記載パターンに該当する記載の例としては、一の重要語句が主語として格助詞「は」に先行している文において、他の重要語句が所定の記録記載文字列(例えば「を記録する」、「を記憶している」、「を格納している」等)の直前に存在するような記載、或いは、他の重要語句が所定の記録記載文字列の直前に存在し、一の重要語句がその所定の記録記載文字列の直後に存在するような記載等が挙げられる。所定の記録記載文字列として、情報、データ等を記録又は記憶していることを表すと想定される如何なる文字列を定めてもよい。また、この所定の記録記載パターンに該当する記載の例における、他の重要語句は、複数の重要語句が、並列又は選択を表す接続詞、要素を繋ぐ所定の助詞「と」、読点文字「、」等を挟んで列挙されているものであってもよい。所定の記録記載文字列は、受動態のような表現(例えば、「に記録される」、「に格納される」等であってもよく、この表現に対応して更なる所定の記録記載パターンが定められてもよい。
具体例を挙げると、要素間関係判別部2058は、発明文書中の「設定ファイルを記録する記録装置」という記載は、所定の記録記載パターンに該当するので、重要語句「設定ファイル」が表す要素が、重要語句「記録装置」が表す記録媒体の記録内容であるという関係を有すると判別する。この判別結果を受けて、属性特定部2056では、例えば重要語句「記録装置」の一属性としての「重要語句が表す要素の記録内容」の項目の内容として、重要語句「設定ファイル」を含ませる。
また、別の具体例を挙げると、要素間関係判別部2058は、発明文書中の「メモリは、操作用画像と操作情報と機器制御情報とを記憶している。」という記載は、所定の記録記載パターンに該当するので、重要語句「メモリ」が表す要素が、重要語句「操作用画像」が表す要素と重要語句「操作情報」が表す要素と重要語句「機器制御情報」が表す要素とを記録内容としていると判別する。この判別結果を受けて、属性特定部2056では、例えば、重要語句「メモリ」の一属性としての「重要語句が表す要素の記録内容」の項目の内容として、重要語句「操作用画像」と、重要語句「操作情報」と、重要語句「機器制御情報」とを含ませる。
記録関係判別処理において、要素間関係判別部2058は、発明文書の各行において、所定の記録記載文字列以外に相当する動詞の目的語を、所定の記録記載パターンに該当する記載の探索対象範囲から除外してもよい。即ち、要素間関係判別部2058は、発明文書の各行において、行の探索開始部分から所定の記録記載文字列以外に相当する動詞の部分までを除いて、残りの部分から、一の重要語句が表す要素が他の重要語句が表す要素を記録内容とすることを示す所定の記録記載パターンに該当する記載(例えば、他の重要語句が所定の記録記載文字列の直前に存在し、一の重要語句がその所定の記録記載文字列の直後に存在するような記載)を探索することで、複数の重要語句各々が表す要素間が記録媒体とその記録媒体の内容との関係を有することについて判別してもよい。
[3−1−5−4−3.プログラムとその実現内容との関係にある複数の要素の判別]
要素間関係判別部2058は、例えば、発明文書から重要語句抽出部2051により抽出された重要語句各々が表す要素間がプログラムとそのプログラムによる実現内容との関係を有することについて判別するプログラム実現関係判別処理を実行し得る。属性特定部2056は、重要語句の属性情報に、例えば、「重要語句が表す要素の実現内容」の項目を追加して、要素間関係判別部2058によるプログラム実現関係判別処理の結果に基づいて、その項目の内容を特定することとしてもよい。
要素間関係判別部2058によるプログラム実現関係判別処理は、例えば、発明文書から、実質的にプログラムを示す一の重要語句(例えば、全部又は語尾が「プログラム」、「ルーチン」、「ソフトウェア」等の語句)が表す要素が、方法、処理、機能等を示す他の重要語句(例えば、語尾が「方法」、「処理」、「手段」、「機能」等の語句)が表す要素を実現内容としていることを示す所定のプログラム記載パターンに該当する記載を探索することにより実現される。所定のプログラム記載パターンは、設定情報取得部201により取得される設定情報に含まれることとしてもよい。
所定のプログラム記載パターンに該当する記載の例としては、一の重要語句が主語として格助詞「は」に先行している文において、他の重要語句が所定のプログラム実現記載文字列(例えば「を実現する」、「を実現させるための」、「として機能させる」等)の直前に存在するような記載、或いは、他の重要語句が所定のプログラム実現記載文字列の直前に存在し、一の重要語句がその所定のプログラム実現記載文字列の直後に存在するような記載等が挙げられる。所定のプログラム実現記載文字列として、機能、処理等を実現すること、或いは、機能、処理等を実現するためのものであることを表すと想定される如何なる文字列を定めてもよい。また、この所定のプログラム実現記載パターンに該当する記載の例における、他の重要語句は、複数の重要語句が、並列又は選択を表す接続詞、要素を繋ぐ所定の助詞「と」、読点文字「、」等を挟んで列挙されているものであってもよい。所定のプログラム実現記載文字列は、受動態のような表現(例えば、「により実現される」等)であってもよく、この表現に対応して更なる所定のプログラム実現記載パターンが定められてもよい。
具体例を挙げると、要素間関係判別部2058は、発明文書中の「文字コード変換機能を実現するための変換プログラム」という記載は、所定のプログラム実現記載パターンに該当するので、重要語句「文字コード変換機能」が表す要素が、重要語句「変換プログラム」が表すプログラムの実現内容であるという関係を有すると判別する。この判別結果を受けて、属性特定部2056では、例えば重要語句「変換プログラム」の一属性としての「重要語句が表す要素の実現内容」の項目の内容として、重要語句「文字コード変換機能」を含ませる。
また、別の具体例を挙げると、要素間関係判別部2058は、発明文書中の「変換ルーチンは、コンピュータを文字コード変換手段として機能させる。」という記載は、所定のプログラム実現記載パターンに該当するので、重要語句「変換ルーチン」が表す要素が、重要語句「文字コード変換手段」が表す要素を実現内容としていると判別する。この判別結果を受けて、属性特定部2056では、例えば、重要語句「変換ルーチン」の一属性としての「重要語句が表す要素の実現内容」の項目の内容として、重要語句「文字コード変換手段」を含ませる。
プログラム実現関係判別処理において、要素間関係判別部2058は、発明文書の各行において、機能、処理等がプログラムにより実現されることを表す所定のプログラム実現記載文字列以外に相当する動詞の目的語を、所定のプログラム実現記載パターンに該当する記載の探索対象範囲から除外してもよい。即ち、要素間関係判別部2058は、発明文書の各行において、行の探索開始部分から所定のプログラム実現記載文字列以外に相当する動詞の部分までを除いて、残りの部分から、一の重要語句が表す要素が他の重要語句が表す要素を実現するためのものであることを示す所定のプログラム実現記載パターンに該当する記載(例えば、他の重要語句が所定のプログラム実現記載文字列の直前に存在し、一の重要語句がその所定のプログラム実現記載文字列の直後に存在するような記載)を探索することで、複数の重要語句各々が表す要素間がプログラムとそのプログラムによる実現内容との関係を有することについて判別してもよい。
[3−1−5−4−4.等価関係にある複数の要素の判別]
要素間関係判別部2058は、例えば、発明文書から重要語句抽出部2051により抽出された複数の重要語句が表す要素間に等価関係があることを判別する等価関係判別処理を実行し得る。属性特定部2056は、重要語句の属性情報に、例えば、「重要語句が表す要素と等価関係を有する要素」の項目を追加して、要素間関係判別部2058による等価関係判別処理の結果に基づいて、その項目の内容を特定することとしてもよい。
要素間関係判別部2058による等価関係判別処理は、例えば、発明文書から、一の重要語句に後続してその一の重要語句と同じ意味を表すと推定される他の重要語句が記載された所定の等価記載パターンに該当する記載を探索することにより実現される。所定の等価記載パターンは、設定情報取得部201により取得される設定情報に含まれることとしてもよい。
所定の等価記載パターンに該当する記載の例としては、例えば、一の重要語句に後続する格助詞「は」に後続して他の重要語句が記載され、この他の重要語句に、「である。」、「とも称される。」等といった文字列が後続する記載が挙げられる。
また、所定の等価記載パターンに該当する記載の別の例としては、一の重要語句の直後に始め丸括弧と他の重要語句と終わり丸括弧とが連続して配置された記載が挙げられる。この例において、例えば、始め丸括弧と終わり丸括弧との間に、他の重要語句として、コロン「:」で区切られた複数の重要語句が含まれていてもよい。具体例を挙げると、要素間関係判別部2058は、発明文書中の「表示装置(ディスプレイ)」という記載は、所定の等価記載パターンに該当するので、重要語句「表示装置」が表す要素が、重要語句「ディスプレイ」が表す要素と等価関係を有すると判別する。また別の具体例を挙げると、要素間関係判別部2058は、発明文書中の「グラフィカルユーザインタフェース(GUI:Graphical User Interface)」という記載は、所定の等価記載パターンに該当するので、重要語句「グラフィカルユーザインタフェース」が表す要素が、重要語句「GUI」及び重要語句「Graphical User Interface」の各々が表す要素と等価関係を有すると判別する。この例における判別結果を受けて、属性特定部2056では、例えば重要語句「グラフィカルユーザインタフェース」の一属性としての「重要語句が表す要素の実現内容」の項目の内容として、重要語句「GUI」及び重要語句「Graphical User Interface」を含ませる。
[3−1−5−4−5.概念上の上下関係にある複数の要素の判別]
要素間関係判別部2058は、例えば、発明文書から重要語句抽出部2051により抽出された複数の重要語句が表す要素間に概念上の上下関係があることを判別する上下概念関係判別処理を実行し得る。属性特定部2056は、重要語句の属性情報に、例えば、「重要語句が表す要素の下位概念的要素」の項目を追加して、要素間関係判別部2058による上下概念関係判別処理の結果に基づいて、その項目の内容を特定することとしてもよい。
要素間関係判別部2058による上下概念関係判別処理は、例えば、発明文書から、一の重要語句に後続してその一の重要語句の下位概念(例えば具体例)を表すと推定される他の重要語句が記載された所定の下位概念記載パターンに該当する記載を探索することにより実現される。所定の下位概念記載パターンは、設定情報取得部201により取得される設定情報に含まれることとしてもよい。
所定の下位概念記載パターンに該当する記載の例としては、例えば、一の重要語句に後続して、「の具体例は」、「の一例は」、「は例えば」、「は具体的には」等といった、例示表現を導く文字列が配置され、その例示表現を導く文字列に後続して他の重要語句が記載され、この他の重要語句に断定を表す「であり、」、「である。」等といった文字列が後続する記載が挙げられる。なお、この例示表現を導く文字列中に読点文字「、」が含まれていてもよい。また、この所定の下位概念記載パターンに該当する記載の例における、他の重要語句は、複数の重要語句が、並列又は選択を表す接続詞、要素を繋ぐ所定の助詞「と」、読点文字「、」等を挟んで列挙されているものであってもよい。
また、所定の下位概念記載パターンに該当する記載の別の例としては、一の重要語句の直後に始め丸括弧と「例えば」といった例示を表す文字列と他の重要語句と終わり丸括弧とが連続して配置された記載が挙げられる。「例えば」といった例示を表す文字列は、読点文字「、」を語尾に含んでもよい。
具体例を挙げると、要素間関係判別部2058は、発明文書中の「表示装置の一例は液晶ディスプレイである。」という記載は、所定の下位概念記載パターンに該当するので、重要語句「表示装置」が表す要素の下位概念としての要素が、重要語句「液晶ディスプレイ」が表す要素であると判別する。この判別結果を受けて、属性特定部2056では、例えば重要語句「表示装置」の一属性としての「重要語句が表す要素の下位概念的要素」の項目の内容として、重要語句「液晶ディスプレイ」を含ませる。
[3−1−5−4−6.重要語句関係情報の生成]
要素間関係判別部2058は、包含関係判別処理、記録関係判別処理、プログラム実現関係判別処理、等価関係判別処理、或いは、上下概念関係判別処理の結果に基づいて、出力部208により出力されることとなる特許出願関連情報に含まれる重要語句関係情報を生成する。
発明文書分析システム20において出力部208が、重要語句関係情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、要素間関係判別部2058は、表示用文書としての特許出願関連情報に含まれる重要語句関係情報を生成する。要素間関係判別部2058が生成する、表示用文書としての特許出願関連情報の重要語句関係情報部分は、例えば、重要語句毎に対応する表示要素を含む。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。要素間関係判別部2058は、例えば、重要語句毎に対応する表示要素には、相互に異なる重要語句毎の表示態様を相違させる等のための表示制御情報を付加し得る。
[3−1−5−4−6−1.包含関係情報の生成]
要素間関係判別部2058は、重要語句関係情報に、例えば、包含関係判別処理の結果に基づく、発明文書から重要語句抽出部2051により抽出された複数の重要語句各々が表す要素間の構成上の包含関係を表現した包含関係情報を含ませる。包含関係情報における要素間の構成上の包含関係の表現は、如何なる方法でなされてもよい。図20は、表示用文書としての特許出願関連情報の重要語句関係情報における包含関係情報部分の表示例を示す。
具体例としては、要素間関係判別部2058は、包含関係情報として、例えば、発明文書のクレームの各項のうち、クレーム引用関係検出部2057により検出された引用関係で結ばれた複数の項で構成されるグループ毎に、そのグループ内のクレームの各項に記載された各重要語句の包含関係に基づいて包含側と被包含側の重要語句間を、線、罫線記号「└」等で結んで形成される木構造(つまり階層構造)を表す記載を、生成する。要素間関係判別部2058は、階層構造で表した1つの重要語句がその階層構造中では1つしか現れないように2つ目以降は省略して、包含関係情報を簡略化してもよい。この場合の一例としては、要素間関係判別部2058は、例えば、階層構造で表した1つの重要語句がその階層構造中で同一階層又は下位階層に再び現れるときにはその再び現れる重要語句より下の階層の表現を省略する。このときに、要素間関係判別部2058は、1つの重要語句の再度の記載を省略したことを表現するための記号「…」等を、その重要語句に付記することとしてもよい。
要素間関係判別部2058は、例えば、複数の重要語句の記載を含む包含関係情報において、発明文書のクレームのいずれかの項における請求対象を表す重要語句を、その重要語句に請求対象を表すために定められた記号(例えば「★」)を付記する等により、その他の重要語句とは識別可能に表現することとしてもよい。このような包含関係情報によれば、クレームで請求対象とされた重要語句と他の重要語句との各々が表す要素間の構成上の包含関係の把握が容易になる。
要素間関係判別部2058は、例えば、引用関係で結ばれた複数の項で構成されるグループ毎に、複数の重要語句を表す階層構造の記載を含む包含関係情報において、あるグループについて記載された各重要語句には、その重要語句がそのグループ内のどの項に記載されているかを示す項番を付記することとしてもよい。
[3−1−5−4−6−2.記録関係情報の生成]
要素間関係判別部2058は、重要語句関係情報に、例えば、記録関係判別処理の結果に基づく、発明文書から重要語句抽出部2051により抽出された複数の重要語句各々が表す要素間が記録媒体とその記録媒体の内容との関係を有する場合のその関係を表現した記録関係情報を含ませ得る。記録関係情報における要素間の関係の表現は、例えば、記録媒体に係る重要語句とその内容に係る重要語句とを対応付けて表した表現、記録媒体に係る重要語句を上位にしてその記録媒体の内容に係る1つ以上の重要語句を下位にした階層構造で表した表現等、如何なる方法でなされた表現であってもよい。
[3−1−5−4−6−3.プログラム実現関係情報の生成]
要素間関係判別部2058は、重要語句関係情報に、例えば、プログラム実現関係判別処理の結果に基づく、発明文書から重要語句抽出部2051により抽出された複数の重要語句各々が表す要素間がプログラムとそのプログラムによる実現内容との関係を有する場合のその関係を表現したプログラム実現関係情報を含ませ得る。プログラム実現関係情報における要素間の関係の表現は、例えば、プログラムと実現内容とを対応付けて表した表現等、如何なる方法でなされた表現であってもよい。
[3−1−5−4−6−4.等価関係情報の生成]
要素間関係判別部2058は、重要語句関係情報に、例えば、等価関係判別処理の結果に基づく、発明文書から重要語句抽出部2051により抽出された複数の重要語句各々が表す要素間に等価関係がある場合のその関係を表現した等価関係情報を含ませ得る。等価関係情報における要素間の関係の表現は、例えば、等価関係がある要素同士に係る各重要語句を対応付けて表した表現等、如何なる方法でなされた表現であってもよい。
[3−1−5−4−6−5.上下概念関係情報の生成]
要素間関係判別部2058は、重要語句関係情報に、例えば、上下概念関係判別処理の結果に基づく、発明文書から重要語句抽出部2051により抽出された複数の重要語句各々が表す要素間に概念上の上下関係がある場合のその関係を表現した上下概念関係情報を含ませ得る。上下概念関係情報における要素間の関係の表現は、例えば、概念上の上下関係がある複数の要素に係る各重要語句を対応付けて表した表現、上位概念に係る重要語句(例えば「弾性体」)を上位にして対応する下位概念に係る1つ以上の重要語句(例えば「ばね」及び「ゴム」)を下位にした階層構造で表した表現等、如何なる方法でなされた表現であってもよい。
[3−1−5−5.クレーム引用関係検出部]
クレーム引用関係検出部2057は、発明文書取得部2021により取得された発明文書中のクレームの各項の引用関係を分析する引用関係分析処理を実行し、この引用関係分析処理の結果として生成されるクレーム引用関係情報を、保持する。
クレーム引用関係検出部2057による引用関係分析処理は、発明文書中のクレームの各項について、その項の見出し記載(例えば始め隅付き括弧と終わり隅付き括弧で挟まれた「請求項」の行の記載)以外の部分の記載内容から、所定の引用先項番記載パターンに該当する記載を探索することにより実現される。所定の引用先項番記載パターンは、設定情報取得部201により取得される設定情報に含まれることとしてもよい。
所定の引用先項番記載パターンに該当する記載の例としては、例えば、クレームの項を表す「請求項」という文字列に後続して数字を含む引用先項番文字列が配置され、その引用先項番文字列に後続して「記載」という文字列が配置されている記載が挙げられる。クレーム引用関係検出部2057は、引用関係分析処理において所定の引用先項番記載パターンに該当する記載を検出した場合には、例えば、引用先項番文字列中の数字を、引用先項番として抽出する。クレーム引用関係検出部2057は、例えば、検出した所定の引用先項番記載パターンに該当する記載における引用先項番文字列中に複数の数字が、並列又は選択を表す接続詞(例えば「又は」)、又は、区切り文字(例えば、「,」、読点文字「、」等)で区切られて配置されている場合には、その複数の数字各々を、引用先項番として抽出する。また、クレーム引用関係検出部2057は、例えば、検出した所定の引用先項番記載パターンに該当する記載における引用先項番文字列が、第1の数字に後続して範囲表現文字(例えば、「〜」等)が配置され、その範囲表現文字に後続して第2の数字が配置された文字列を含んでいる場合には、その第1の数字以上でその第2の数字以下の全ての整数各々を、引用先項番として抽出する。具体的には、クレーム引用関係検出部2057は、クレームのある項における引用記載「請求項1、2、5又は11記載」に基づいて、整数「1」、「2」、「5」、「11」を、引用先項番として抽出し、クレームのある項における引用記載「請求項1〜3のいずれか一項に記載」に基づいて、整数「1」、「2」、及び「3」を、引用先項番として抽出する。
クレーム引用関係検出部2057は、発明文書のクレームの各項について、その項と、引用関係分析処理でその項について抽出した引用先項番の集合とを対応付けた情報を含むクレーム引用関係情報を、更新して保持し得る。
クレーム引用関係検出部2057は、クレーム情報生成部205a等により発明文書のクレームを修正した内容を表す修正版クレーム情報が生成された場合におけるその修正版クレーム情報のクレームについても、引用関係分析処理を実行し、その結果として生成される修正版クレーム引用関係情報を保持し得る。
[3−1−5−6.警告情報生成部]
警告情報生成部2059は、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれる警告情報を生成する警告情報生成処理を実行する。
警告情報生成部2059は、警告情報生成処理を、発明文書取得部2021により取得された発明文書に含まれる不適切な記載を探索し、検出した不適切な記載に関する指摘を表す1つ以上の指摘情報を含めた警告情報を生成することにより実現する。警告情報生成部2059が探索する不適切な記載は、不適切な可能性がある記載であってもよい。図21は、警告情報生成部2059が生成する警告情報の項目、及び、項目に対応する記載事項の一例を示す。
警告情報生成部2059は、警告情報の内容としての指摘情報が1つもない場合には、警告がない旨を示す警告情報を生成する。なお、警告情報生成部2059は、警告情報の内容としての指摘情報が1つもない場合には、警告情報の生成を省略することとしてもよい。
[3−1−5−6−1.翻訳用発明文書標準規定に基づく指摘]
警告情報生成部2059による警告情報生成処理は、例えば、発明文書を翻訳用発明文書標準規定取得部204により取得された翻訳用発明文書標準規定に定められた複数の条件を満たすか否かを検査して条件が満たされない場合にその旨を指摘する指摘情報を警告情報に含ませること等により、実現される。
具体例としては、警告情報生成部2059は、翻訳用発明文書標準規定に定められた各条件項目(図14参照)について、その条件項目に対応するパターン情報が示すパターンに該当する、発明文書中の不適切な記載を探索し、その不適切な記載を検出した場合に、例えば、発明文書中のその不適切な記載を検出した位置を示す情報と、その条件項目に対応する条件項目名とを表した指摘情報を警告情報に含ませる。発明文書中の不適切な記載を検出した位置を示す情報は、例えば、発明文書の各行に行順に付与した行番号のうち不適切な記載の行の行番号、発明文書におけるクレームの各項のうち不適切な記載を含む項の項番、発明文書における明細書の各段落のうち不適切な記載を含む段落の段落番号等を含んでもよい。警告情報生成部2059は、例えば、発明文書が翻訳用発明文書標準規定の複数の項目各々に適合しているか否かに係る判定を行うための処理を行うためのプラグインモジュールを利用して、警告情報生成処理を行うこととしてもよい。
警告情報生成処理の一例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書に、明細書の各文には主語が含まれるという条件を、満たしていない記載が含まれていることを検出した場合には、主語がない旨と、その検出した記載の内容とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、発明文書取得部2021により取得された発明文書の明細書から、図14で示した「明細書の各文における主語の欠如」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに該当する文の記載を探索し、そのパターンに該当する文の記載を検出した場合に、指摘情報を警告情報に含ませる。なお、主語がなくても、技術専門家、及び、技術専門家以外の者が、暗黙の主語を想定できる場合等もあり得るが、注意喚起のために、この指摘情報は有用となり得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、不適切な所定の記載を含まないという条件を、満たしていない記載が含まれていることを検出した場合には、不適切な可能性がある記載が含まれている旨と、その検出した記載の内容とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、発明文書取得部2021により取得された発明文書から、翻訳用発明文書標準規定(図14参照)における「除去が望ましいと推定される文字列」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに該当する文字列(例えば「のみ」、「好ましくは」等)の記載を探索し、そのパターンに該当する文字列の記載を検出した場合に、指摘情報を警告情報に含ませる。例えば、「のみ」、「好ましくは」等の文字列は、必ずしも記載できないものではないが、不注意で記載されることもあり得ることから、注意喚起のために、この指摘情報は有用となり得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、重要語句抽出部2051により抽出された重要語句には不適切な所定の語句が付加されないという条件を、満たしていない記載が含まれていることを検出した場合には、不適切な所定の語句が付加された重要語句の記載が含まれている旨と、その検出した記載の内容とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、発明文書取得部2021により取得された発明文書のクレームから、図14で示した「クレームで重要語句等に付加されない方が望ましい場合がある文字列」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに該当する文字列(例えば「所望の」、「所定の」等)の記載を探索し、そのパターンに該当する文字列の記載を検出した場合に、指摘情報を警告情報に含ませる。例えば、「所定の」という文字列は、必ずしも問題を生じるとは限らないが、不注意で記載されることもあり得ることから、注意喚起のために、この指摘情報は有用となり得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、その発明文書を米国での権利取得のために用いた場合において権利解釈上の不利益を生じる記載を含ませないという条件を、満たしていない記載が含まれていることを検出した場合には、権利解釈上の不利益を生じる記載が含まれている旨と、その検出した記載の内容とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、発明文書取得部2021により取得された発明文書から、図14で示した「米国出願で他の表現に変更した方が望ましい場合がある文字列」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに該当する文字列(例えば「本発明の特徴は」等)の記載を探索し、そのパターンに該当する文字列の記載を検出した場合に、指摘情報を警告情報に含ませる。例えば、「本発明の特徴は」という記載が、発明文書に基づく米国出願に含まれる場合に、請求された主題の特徴について言及している(例えば、クレームの全ての項各々に係る発明の特徴について言及している)等と、解釈され得る可能性があることから、注意喚起のために、この指摘情報は有用となり得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、その発明文書を外国(つまり日本国以外の国)での権利取得のために用いた場合において外国で理解され難い語句に翻訳される可能性のある語句を記載しないという条件を、満たしていない記載が含まれていることを検出した場合には、外国で理解され難い可能性がある記載が含まれている旨と、その検出した記載の内容とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、発明文書取得部2021により取得された発明文書から、図14で示した「外国で周知でない日本独特用語の使用」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに該当する文字列(例えば「忘れ物」、「生き甲斐」等)の記載を探索し、そのパターンに該当する文字列の記載を検出した場合に、指摘情報を警告情報に含ませる。「外国で周知でない日本独特用語の使用」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに、日本国で良い意味を有する記号「○」、日本国で悪い意味を有する記号「×」等の、日本独特の意味を有する記号が、該当するようにしてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書に、その発明文書のクレームから検出された、所定程度以上高い重要度の重要語句(例えば重要度の値が1以上である重要語句)は、その発明文書の明細書に記載されているという条件を、満たしていない記載が含まれていることを検出した場合には、重要語句が明細書で説明されていない可能性がある旨と、その重要語句とを示す指摘情報を、警告情報に含ませる。重要語句の重要度は、重要度決定部2055により決定される。所定程度は、例えば、予め固定的に定められていてもよいし、設定情報取得部201により取得される設定情報において定められていてもよい。具体例としては、警告情報生成部2059は、発明文書取得部2021により取得された発明文書から、図14で示した「クレーム中の重要語句のうち重要度が所定程度以上高いものが明細書中に記載されていない」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに該当する記載を検出した場合(例えば、所定程度以上高い重要度の重要語句が明細書において記載されていないことを検出した場合)に、指摘情報を警告情報に含ませる。
発明文書中で不適切な記載が検出された場合において、警告情報生成部2059は、その検出の基礎となった、翻訳用発明文書標準規定に定められた1つの条件項目が、不適切な理由のユーザへの説明等の条件項目説明メッセージを含んでいるときには、指摘情報にその条件項目説明メッセージを含ませてもよい。警告情報生成部2059は、例えば、警告情報に、不適切な記載の検出の基礎として用いられた翻訳用発明文書標準規定のバージョンの情報(例えばバージョン番号)を含ませてもよい。
警告情報生成部2059は、例えば、翻訳用発明文書標準規定に定められた複数の条件のうち、設定情報取得部201により取得された設定情報又はユーザによる選択操作によって絞り込まれた1つ以上の条件について、その条件を満たしているか否かの検査の結果に基づいて、発明文書の翻訳用発明文書標準規定への適合性(例えば適合率等)の評価値を定めて、その評価値を示す発明文書評価情報を警告情報に含ませてもよい。
警告情報生成部2059による警告情報生成処理は、例えば、発明文書中の不適切な記載の検査を、翻訳用発明文書標準規定に基づいて行う代わりに、又は、翻訳用発明文書標準規定に基づいて行うことに加えて、翻訳用発明文書標準規定とは別個に定められた各種条件に基づいて行ってもよい。この場合に、警告情報生成部2059は、警告情報生成処理において、翻訳用発明文書標準規定とは別個に定められた各種条件を発明文書中の記載が満たすか否かを検査し、その各種条件のうち1つ以上の条件が満たされていないときに、例えばその条件が満たされていない旨を指摘する指摘情報と、発明文書中でその条件が満たされていない記載を検出した位置を示す情報とを、警告情報に含ませ得る。
[3−1−5−6−2.翻訳用発明文書標準規定とは別個に定められた各種条件に基づく指摘]
以下、警告情報生成部2059が、警告情報生成処理において、翻訳用発明文書標準規定とは別個に定められた各種条件に基づいて、条件を満たさない発明文書中の記載について指摘する例について説明する。なお、ここで示す各種条件のうちの1つ以上の条件に係る情報を、翻訳用発明文書標準規定の条件項目の方に含ませることとしてもよい。警告情報生成処理において用いられるこの各種条件のうちの1つ以上を満たさない記載を含む発明文書が必ずしも不適切である必要はなく、この各種条件は、その条件を満たさない記載を含む発明文書が、実質的又は形式的に不適切である可能性があることに鑑みて、ユーザに注意を喚起する目的で規定されていてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書中に、各見出し(例えば始め隅付き括弧と終わり隅付き括弧とが付加された記載等)が適正であるという条件を満たしていない記載が含まれていることを検出した場合には、その記載の位置を示す情報と、その条件が満たされていない旨を示す指摘情報とを、警告情報に含ませる。発明文書の明細書における適正な見出しの文字列のリストは、例えば法規等に基づいて予め規定され得るので、警告情報生成部2059は、その文字列のリストを参照することで、発明文書の明細書中における不適切な見出しに係る記載を検出できる。その適切な見出しの文字列のリストは、例えば、「発明の名称」、「技術分野」等の文字列を列挙したものである。なお、一部の見出しの文字列の語尾には通番が付され得るので、警告情報生成部2059は、不適切な見出しに係る記載を検出するために、更に、通番が語尾に付され得る文字列(例えば「特許文献」、「実施例」等)のリストを利用することとしてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書中に、空行を含まないという条件を満たしていない記載が含まれていることを検出した場合には、その記載の位置を示す情報と、その条件が満たされていない旨を示す指摘情報とを、警告情報に含ませる。空行は、例えば改行コードのみを含む行である。例えば、半角又は全角の空白文字以外の文字を含まない行を、空行と看做すこととしてもよい。設定情報に、空行と看做す記載について規定し、警告情報生成部2059は、設定情報取得部201により取得された設定情報の空行と看做す記載についての規定を参照することで、空行を認識することとしてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書中に、登録商標である文字列を含めないという条件を満たしていない記載が含まれていることを検出した場合には、その記載の位置を示す情報と、その条件が満たされていない旨を示す指摘情報とを、警告情報に含ませる。登録商標の文字列のリストは規定可能なので、警告情報生成部2059は、その登録商標の文字列のリストを参照することで、発明文書中における登録商標である文字列が含まれている記載を検出できる。また、警告情報生成部2059は、インターネット上で複数の登録商標の情報を提供している所定のウェブサイト、データベース等にアクセスして、ネットワークを介して複数の登録商標の文字列を収集することで、登録商標の文字列のリストを生成して、警告情報生成処理に利用してもよい。なお、登録商標である文字列を含めないという条件を満たしていない記載の一例として、登録商標である文字列の記載が挙げられる。また、警告情報生成部2059は、登録商標である文字列の記載のうち、その登録商標である文字列の直後に「(登録商標)」等といった登録商標であることを明示する文字列が含まれていないところの登録商標である文字列の記載のみを、登録商標である文字列を含めないという条件を満たしていない記載として取り扱うこととしてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書中に、同一の符号の直前には同一の要素名が記載されるという条件を満たしていない記載が含まれていることを検出した場合には、その同一の符号と、その符号が付加された複数の相違する表現の要素名とを示す指摘情報を、警告情報に含ませる。なお、警告情報生成部2059は、例えば、発明文書中において複数の相違する表現の要素名に同一の符号が付されている記載を検出した場合に、その各要素名間に、一の要素名の文字列を他の要素名の文字列が末尾に包含しているか否かを識別可能となるように指摘情報を表現してもよい。具体例としては、発明文書の明細書に「第1機器101と第2機器102とは・・・」という記載が含まれており、更に、「機器102は・・・であり、第3機器101は・・・」という記載が含まれていた場合に、指摘情報は、例えば、「同一符号異表現情報→101:第1機器、第3機器」という情報と、「同一符号異表現情報→102:機器(第2機器)」という情報とを含む。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書中に、符号が定められている要素名は符号を付加して記載されるという条件を満たしていない記載が含まれていることを検出した場合には、その要素名とその符号とを含み、要素名に符号が付加されている記載と符号が付加されていない記載とが混在する旨を指摘する指摘情報を、警告情報に含ませる。具体例としては、発明文書の明細書に「液晶ディスプレイ301」という記載と、「301」が付加されていない「液晶ディスプレイ」という記載との両方が存在した場合に、警告情報生成部2059は、発明文書の明細書に、要素名に符号が付加された記載「液晶ディスプレイ301」と、「液晶ディスプレイ」に符号が付加されていない記載とが混在する旨を指摘する指摘情報を警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書中に、図面文書取得部2022で取得された図面文書中で用いられた符号は要素名に付加して記載されるという条件を満たしていない記載が含まれていることを検出した場合には、明細書中で符号が要素名に付加して用いられていない旨を指摘してその符号を示す指摘情報を、警告情報に含ませる。なお、図面文書中の符号は、例えば図面文書が検索可能PDFファイルの内容である場合、又は、図面文書を内容として含むPDFファイルを検索可能PDFファイルへと変換できる場合等において、検索可能PDFファイルから、設定情報の条件情報における符号文字列パターン情報が示す符号パターンに合致する文字列を検索することで、特定できる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書中に、図面文書取得部2022で取得された図面文書中で用いられていない符号は要素名に付加して記載されないという条件を満たしていない記載が含まれていることを検出した場合には、図面文書中で用いられていない符号が要素名に付加されている記載が存在する旨と発明文書におけるその記載の位置とを示す指摘情報を、警告情報に含ませる。例えば、図面文書が検索可能PDFファイルの内容である場合、又は、図面文書を内容として含むPDFファイルを検索可能PDFファイルへと変換できる場合等において、警告情報生成部2059は、発明文書中の各要素名に付加された各符号を、例えば検索可能PDFファイルから検索すること等により、図面文書中で用いられていない符号を特定することができる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書中に、見出し(例えば、「発明の名称」、「技術分野」等)の行以外の行においては一行内の記載の最後に句点文字「。」が配置されるという条件を、満たしていない記載が含まれていることを検出した場合には、句点文字「。」がない旨と発明文書の明細書におけるその行の位置とを示す指摘情報を、警告情報に含ませる。なお、行の内容が、各種の始め括弧(例えば始め山括弧、始め丸括弧等)で始まり、又は、空白文字に続いて各種の始め括弧で始まり、対応する種類の終わり括弧で終わる記載である行を、ここでの見出しの行と同様に取り扱うこととしてもよい。見出しの行以外の行の記載は、必ずしも句点文字「。」で終了する必要はないが、句点文字「。」を付けるべきところに句点文字「。」を付け忘れている場合、或いは、文が途中で途切れている場合等に対する注意喚起のために、この指摘情報は有用となり得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームの項毎に、1つ以上の句点文字「。」が記載されるという条件を、満たしていない、クレームの項が含まれていることを検出した場合には、句点文字「。」がない旨と発明文書のクレームにおけるその項の項番とを示す指摘情報を、警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書中に、始め丸括弧と終わり丸括弧とで挟まれた括弧付き記載がある場合にはその括弧付き記載と、その括弧付き記載の直前の文字列の記載との関係が明確である(つまりその括弧付き記載の意義が明確である)という条件を、満たしていない括弧付き記載が含まれていることを検出したときには、括弧付き記載の意義が明確ではない旨と、発明文書の明細書におけるその括弧付き記載の位置とを示す指摘情報を、警告情報に含ませる。具体的には、警告情報生成部2059は、例えば、発明文書の明細書中の空白文字以外の文字列に後続する括弧付き記載を探索し、検出された括弧付き記載が、その意義が明確な記載を表す所定の適正括弧内文字列パターンに該当しない場合に、その括弧付き記載の意義が明確であるという条件が満たされていないと判別する。所定の適正括弧内文字列パターンは、例えば、括弧付き記載が、直前の語句である技術用語に係る英語表記の記載、直前の語句の例示に係る記載、又は、直前の語句の同義語若しくは付加説明の記載である場合に、この所定の適正括弧内文字列パターンに該当するように定められたものである。設定情報に、所定の適正括弧内文字列パターンを示す適正括弧内文字列パターン情報を含ませておくこととし、警告情報生成部2059は、設定情報取得部201により取得された設定情報の適正括弧内文字列パターン情報を参照して、適正括弧内文字列パターンを特定して利用することとしてもよい。所定の適正括弧内文字列パターンに該当する記載の例としては、括弧内に、半角又は全角の、英字、空白文字、スラッシュ「/」、ハイフン「−」、「:」等の英語表現に用いられる文字だけしか含まれない記載が、挙げられる。また、所定の適正括弧内文字列パターンに該当する記載の別の例としては、括弧内が「例えば」、「つまり」、「即ち」、「言わば」、「換言すれば」等の文字列で始まる記載、又は、括弧内が、「以下、・・・と称する」という文字列である記載等が、挙げられる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書中に、同一の意味の語句は一貫して同一の表記で記載するという条件を、満たしていない記載が含まれていることを検出した場合には、同一の意味の語句の表記が不統一である旨と、その検出した不統一の表記に係る各記載内容とを示す指摘情報を、警告情報に含ませる。警告情報生成部2059は、例えば、表記が不統一となる可能性がある各種の語句について、その語句と相違する表記とを対応付けた所定の不統一表記リストを定めておき、その所定の不統一表記リストに基づいて、発明文書の明細書中に、同一の意味の語句が相違する表記で混在していることを探索し得る。設定情報に、所定の不統一表記リストを含ませておくこととし、警告情報生成部2059は、設定情報取得部201により取得された設定情報中の所定の不統一表記リストを参照して、発明文書の明細書中に、同一の意味の語句が相違する表記で混在していることを探索することとしてもよい。所定の不統一表記リストは、例えば、各種の語句についての、同一の意味で同一の発音となる複数の表記を列挙したリストである。所定の不統一表記リストの例としては、例えば、「すなわち」と「即ち」とを対応付け、「もちろん」と「勿論」とを対応付け、「または」と「又は」とを対応付けたようなリストが挙げられる。なお、発明文書において必ずしも同一の意味の語句の表記を統一する必要はないが、例えば発明文書を形式面で整備したい者に対する注意喚起として、この指摘情報が有用となり得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームのいずれかの項に、複数の項を引用する記載を含ませる場合にはその記載において引用先の各項を択一的に引用するような形式で表現するという条件を、満たしていない記載が含まれていることを検出した場合には、複数の項が択一的に引用されていない旨と、その検出した項の項番と、その引用に係る記載の内容とを示す指摘情報を、警告情報に含ませる。この条件を満たしていない記載の一例は、「請求項1及び2に記載された制御装置」、「請求項1〜3記載の制御装置」等のように、「又は」、「いずれか」等の択一的な語句を用いずに複数項を引用した記載である。なお、発明文書のクレームの各項中において、引用先の複数の項を、択一的に引用するような形式で表現しなくてもよい場合もあり得るが、注意喚起として、この指摘情報が有用となり得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームのいずれかの項に、参照文字列(例えば、設定情報の条件情報における参照文字列パターン情報が示す参照文字列パターンに該当する文字列)に後続して語句が記載されている場合にその語句と同一の被参照語句が、その項のその参照文字列に先行した部分又は、その項が引用した項内に記載されている必要があるという条件を、満たしていない参照文字列に係る記載が含まれていることを検出した場合においては、先行した被参照語句の記載が存在しない旨と、その検出した項の項番と、その参照文字列に係る記載の内容とを示す指摘情報を、警告情報に含ませる。なお、上述の条件に係る「その項が引用した項」には、その項が引用した項が更に引用した項、その項が引用した項が更に引用した項がまた更に引用した項等といった、引用の1つ以上の連鎖を踏まえた引用先の項が該当する。警告情報生成部2059は、クレームの項が引用した項を判別するために、クレーム引用関係検出部2057が保持するクレーム引用関係情報を参照し得る。なお、例えば、発明文書のクレームのいずれかの項に、参照文字列に後続して語句が記載されている場合であってその語句と同一の被参照語句がその項のその参照文字列に先行した部分に記載されていない場合において、その項が引用した項が複数存在するときには、その引用した複数の各項内に、又は、その引用した複数の項各々からの引用の1つ以上の連鎖を踏まえた引用先の項内に、その被参照語句が記載されていなければ、警告情報生成部2059は、先行した被参照語句の記載が存在しない旨を含む指摘情報を、警告情報に含ませ得る。なお、指摘情報には、先行した被参照語句の記載が存在しなかった、引用の連鎖に係る各項からなる連鎖的な1つ以上のパス(path)としての引用項番の情報を含ませてもよい。具体例としては、請求項1には「センサ」が記載され、いずれも請求項1を引用しない請求項2と請求項3とには「センサ」が記載されておらず、請求項3が請求項2を引用している場合において、請求項1と3とを選択的に引用する請求項4内に、「前記センサ」が記載されているが先行して「センサ」が記載されていないときには、警告情報生成部2059は、例えば、先行した被参照語句の記載が存在しない旨と、その検出した項を示す「4」と、その参照文字列に係る記載の内容である「前記センサ」と、先行した被参照語句の記載が存在しなかった連鎖的なパスとしての引用項番の情報である「2−3−4」とを、指摘情報に含める。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームのうち、他の項を引用していない項である独立項について、下位概念を示す語句を用いないという条件を、満たしていない記載(つまり下位概念を示す語句を用いた記載)が含まれていることを検出した場合には、その独立項の項番と、その語句と、下位概念を示す語句が用いられている旨とを示す指摘情報を、警告情報に含ませる。警告情報生成部2059は、例えば、下位概念を示す語句を列挙した所定の下位概念語句リストを用いて、発明文書のクレームの独立項から、下位概念を示す語句を用いた記載を探索する。設定情報に、所定の下位概念語句リストを含ませておくこととし、警告情報生成部2059は、設定情報取得部201により取得された設定情報中の所定の下位概念語句リストを参照して、発明文書のクレームの独立項から、下位概念を示す語句を用いた記載を探索することとしてもよい。なお、所定の下位概念語句リストにおいて、下位概念を示す語句に対応付けてその語句の上位概念を示す語句を含ませてもよい。この場合には、警告情報生成部2059は、発明文書のクレームの独立項に、下位概念を示す語句を用いた記載を検出したときに、指摘情報に、例えば、その下位概念を示す語句の修正候補等として、所定の下位概念語句リストを参照して、その下位概念を示す語句に対応する上位概念を示す語句を含ませてもよい。所定の下位概念語句リストの例として、下位概念の語句「表示」、「送信」、「印刷」等と、上位概念の語句「出力」とを対応付け、下位概念の語句「キーボード」、「マウス」、「タッチパッド」等と、上位概念の語句「入力装置」とを対応付けたようなリストが挙げられる。
なお、発明文書を対象として発明文書分析システム20の分析部205が分析した場合に、要素間関係判別部2058による上下概念関係判別処理の結果として、発明文書中の複数の重要語句間に存在する概念上の上下関係を示す情報が得られる。従って、1つ又は複数の発明文書各々を対象として発明文書分析システム20により得られた複数の重要語句間についての概念上の上下関係を示す情報に基づいて、下位概念の語句と上位概念の語句とを対応付けた所定の下位概念語句リストの生成又は更新が可能となる。このように発明文書取得部2021による取得された1つ又は複数の発明文書に基づいて生成又は更新された所定の下位概念語句リストを用いて、警告情報生成部2059は、発明文書取得部2021により取得されたある発明文書のクレームの独立項について、下位概念を示す語句を用いた記載が含まれていることの探索を行ってもよい。警告情報生成部2059が、発明文書のクレームの独立項について下位概念を示す語句を用いた記載を探索する対象のその発明文書を、その探索に用いる所定の下位概念語句リストの生成の基礎として用いてもよい。なお、下位概念は相対的なものに過ぎず、発明文書のクレームの独立項において下位概念を示す語句を用いることが必ずしも不適切な訳ではなく、戦略的に下位概念を示す語句が用いられている場合もあり得るが、警告情報生成部2059が、適切に定められた所定下位概念リストを、利用することにより、警告情報における下位概念を示す語句に係る指摘情報が、無用に限定した記載を発明文書のクレームの独立項に含ませないための注意喚起として、有用となる可能性がある。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームから重要語句抽出部2051により抽出された重要語句は、重要度を問わず、明細書中に記載されているという条件を、発明文書の明細書の記載が満たしていないことを検出した場合には、その重要語句と、重要語句が明細書に記載されていない旨とを示す指摘情報を、警告情報に含ませることとしてもよい。警告情報生成部2059は、例えば、この条件を、発明文書の明細書の記載が満たしていないことの検出の代わりに、この条件を、発明文書の明細書の「発明を実施するための形態」、及び、「実施例」又は「実施例n」(nは自然数)の内容である記載が満たしていないことを検出することとしてもよい。具体例としては、警告情報生成部2059は、発明文書のクレームから重要語句抽出部2051により抽出された各重要語句について、発明文書の明細書、或いは、明細書の「発明を実施するための形態」、「実施例」等からその重要語句を探索し、その重要語句を検出できなければ、この条件が満たされていないとして、その重要語句等を示す指摘情報を、警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された複数の重要語句各々が表す要素間が構成上の包含関係を有することが、要素間関係判別部2058により判別された場合において、構成上の包含関係にある要素同士の一方が物の要素であれば他方の要素も物の要素であり、その要素同士の一方が方法の要素であれば他方の要素も方法の要素であるという条件を、その要素同士が満たしていないことを検出したときには、その要素同士を示す各重要語句と、その要素同士が物及び方法の分類において整合しない旨とを示す指摘情報を、警告情報に含ませる。警告情報生成部2059は、ある重要語句が表す要素が方法の要素か否かを、例えば、その重要語句が、所定の方法語尾リストに列挙された語句を語尾として有するか否かにより判別する。所定の方法語尾リストは例えば、「方法」、「ステップ」、「手順」等を列挙したリストである。警告情報生成部2059は、この指摘情報に係る判別の処理においては、例えば、ある重要語句が表す要素が方法の要素でないと判別した場合には、その要素を、物の要素であるとして扱い得る。設定情報に、所定の方法語尾リストを含ませておくこととし、警告情報生成部2059は、設定情報取得部201により取得された設定情報中の所定の方法語尾リストを参照して、重要語句が表す要素が方法の要素か否かを判別することとしてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、日本国の特許出願に使用可能な文字コード以外の文字コードの文字を含まないという条件を、満たしていない記載が含まれていることを検出したときには、その記載における不適切な文字と、その文字が使用可能な文字コードで表されていない旨とを示す指摘情報を、警告情報に含ませる。日本国の特許出願に使用可能な文字コードは、JIS−X0208−1997「情報交換用漢字符号系」準拠のShift_JISコードである。なお、警告情報生成部2059は、その条件を満たしていない記載における不適切な文字に、所定の制御コード(例えばベル制御の「0x07」等)が含まれている場合には、その所定の制御コードを所定の文字(例えば「●」等)に変換することで制御コードによる制御を無効化して、変換後の不適切な文字を指摘情報に含ませてもよい。警告情報生成部2059は、例えば、不適切な文字の文字コードが丸付き数字に相当するものである場合において、丸付き数字が使用できない旨を明示的に指摘情報に含ませてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームに、クレームの項の項番は行順に沿って自然数の連続番号であることという条件を、満たしていない記載が含まれていることを検出したときには、その記載におけるクレームの項の項番と、その項の項番が不適切である旨とを示す指摘情報を、警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームに、クレームの項における引用先の項の項番は引用元の項の項番より小さい番号であるという条件を、満たしていない記載が含まれていることを検出したときには、その記載におけるクレームの引用元の項の項番と、その項の引用先の項の項番が不適切である旨とを示す指摘情報を、警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、コメント行以外の行の行頭は全角の空白文字又は始め括弧(例えば始め隅付き括弧、始め丸括弧等)の文字であるという条件を、満たしていない行の記載が含まれていることを検出したときには、その行の記載内容と、行頭の文字が不適切な可能性がある旨とを示す指摘情報を、警告情報に含ませる。コメント行は、例えば、設定情報取得部201により取得された設定情報のコメント特定用情報に基づいて特定される。なお、発明文書において必ずしも行頭に全角の空白文字又は始め括弧の文字がある必要はないが、例えば発明文書を形式面で整備したい者に対する注意喚起として、この指摘情報が有用となり得る。また、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、コメント行以外の行の行末に句点文字「。」が存在する場合にその行頭は全角の空白文字であるという条件を、満たしていない行の記載が含まれていることを検出したときには、その行の記載内容と、行頭の文字が不適切な可能性がある旨とを示す指摘情報を、警告情報に含ませることとしてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、読点文字及び句点文字は連続して記載されないという条件を、満たしていない記載が含まれていることを検出したときには、その記載の内容と、不適切な記載である旨とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、発明文書取得部2021により取得された発明文書から、読点文字及び句点文字のいずれかが2つ以上連続している記載を探索し、そのような記載を検出したときに、指摘情報を警告情報に含ませる。具体的な一例として、警告情報生成部2059が、発明文書中に1つの読点文字と1つの句点文字とが連続している記載を検出した場合に、指摘情報を警告情報に含ませる例が、挙げられる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に要約書が含まれている場合において、要約書の要約の文字数が所定の上限文字数を超えないという条件を、満たしていない要約書の記載が含まれていることを検出したときには、要約の文字数が所定の上限文字数を超える旨を示す指摘情報を、警告情報に含ませる。この所定の上限文字数は、例えば400字である。具体例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書における要約書の見出し「要約」の後から見出し「選択図」の前までの記載の文字数を計数して、計数した文字数が所定の上限文字数を超えていれば、指摘情報を警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書に複数の段落番号が記載されている場合において、複数の段落番号が、各々4桁のアラビア数字で表現される番号であり、「0001」から始まる連続番号であることという条件を、満たしていない段落番号の記載が含まれていることを検出したときには、その検出した段落番号と、段落番号の記載が不適切である旨とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書において先頭から順に、始め隅付き括弧と終わり隅付き括弧との間に数字が記載されている形式の記載を段落番号として探索し、検出した段落番号が4桁のアラビア数字で表現されていない場合と、複数の段落番号が順に「0001」から始まる連続番号で記載されていない場合とにおいては、指摘情報を警告情報に含ませる。なお、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書から検出した段落番号の数が9999を超える場合には、複数の段落番号が、各々4桁のアラビア数字で表現される番号であり、「0001」から始まる連続番号であることという条件の代わりに、複数の段落番号が、各々5桁のアラビア数字で表現される番号であり、「00001」から始まる連続番号であることという条件を用いて、その条件を満たしていない段落番号の記載が含まれている記載を検出したときに、指摘情報を警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書において、数式の見出し、化学式の見出し、及び、表の見出しの各々が、クレーム、明細書等といった書類毎に、連続番号を付加した記載であることという条件を、満たしていない見出しの記載が含まれていることを検出したときには、その検出した見出しと、数式、化学式及び表のうち該当の見出しの記載が不適切である旨とを示す指摘情報を、警告情報に含ませる。ここで、数式の見出しは、始め隅付き括弧に後続する「数」の文字と終わり隅付き括弧との間に番号が記載されている形式の記載である。化学式の見出しは、始め隅付き括弧に後続する「化」の文字と終わり隅付き括弧との間に番号が記載されている形式の記載である。また、表の見出しは、始め隅付き括弧に後続する「表」の文字と終わり隅付き括弧との間に番号が記載されている形式の記載である。数式、化学式、表の各々の見出しに含まれる番号は、1つ以上のアラビア数字で構成される番号であってもよいし、そのような番号に、英数字、マイナス記号「−」、ピリオド文字「.」、始め丸括弧、及び、終わり丸括弧の、単体又は組み合わせで表現された枝番が付加された番号であってもよい。複数の数式の見出しが連続番号を付加した記載である一例としては、書類毎に「数1」、「数2」、「数3−1」、「数3−2」等といった順で数式の見出しが含まれている例が挙げられる。具体例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書、クレーム等といった書類毎において先頭から順に、始め隅付き括弧に後続する「数」と終わり隅付き括弧との間に番号が記載されている形式の記載を数式の見出しとして探索し、書類毎に検出した複数の数式の見出しが、順に、連続番号を付加した記載でない場合には、指摘情報を警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書において、図面の見出しの記載及び図面に関する記載には、適切な図面番号が付加されているという条件を、満たしていない図面の見出しの記載又は図面に関する記載が含まれていることを検出したときには、その検出した記載と、その記載が不適切である旨とを示す指摘情報を、警告情報に含ませる。ここで、図面の見出しは、始め隅付き括弧に後続する「図」の文字と終わり隅付き括弧との間に図面番号が存在する形式の記載である。図面に関する記載は、「図」の文字と所定の文字列(例えば、「参照」という文字列、助詞の文字列等)との間に図面番号が存在する形式の記載である。この所定の文字列は、例えば、予め固定的に定められていてもよいし、設定情報取得部201により取得される設定情報において定められていてもよい。「図」の文字に後続する適切な図面番号は、1つ以上のアラビア数字で構成される番号か、そのような番号に、英数字、マイナス記号「−」、ピリオド文字「.」、始め丸括弧、及び、終わり丸括弧の、単体又は組み合わせで表現された枝番が付加された番号である。適切な図面番号以外の図面番号は不適切な図面番号と扱う。具体例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書から、図面の見出しの記載及び図面に関する記載を探索し、検出した図面の見出しの記載又は図面に関する記載が、不適切な図面番号を含む場合には、指摘情報を警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、番号「n」が付加された見出し「特許文献n」、「非特許文献n」、或いは、「実施例n」の記載が存在する場合において、これらの見出しには適切な番号が付加されているという条件を、満たしていないこれらの見出しの記載が含まれていることを検出したときには、その検出した見出しの記載と、その見出しの記載における番号が不適切である旨とを示す指摘情報を、警告情報に含ませる。適切な番号は、自然数を表すアラビア数字で記載され、見出し「特許文献n」、「非特許文献n」及び「実施例n」の各々における記載順に、枝番のない連続番号で記載された番号である。具体例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書から、番号「n」が付加された「特許文献n」、「非特許文献n」、或いは、「実施例n」の記載を探索し、検出した記載が、適切でない番号を含む場合には、指摘情報を警告情報に含ませる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、その発明文書から重要語句抽出部2051により抽出された重要語句に誤記がないという条件を、満たしていない可能性のある重要語句の記載が含まれていることを検出したときには、その検出した重要語句の記載と、その重要語句に誤記の可能性がある旨とを示す指摘情報を、警告情報に含ませる。具体例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された2つの重要語句同士が互いに1文字だけ異なる語句である場合に、その2つの重要語句のいずれかに誤記の可能性があるので、注意喚起等のために、その2つの重要語句と、そのいずれかに誤記の可能性がある旨とを示す指摘情報を警告情報に含ませる。互いに1文字だけ異なる2つの重要語句の一例は、その2つのうち一方の重要語句を構成するいずれかの1文字を削除した場合に、その2つのうち一方の重要語句と、その2つのうち他方の重要語句とが同一となるところの2つの重要語句である。互いに1文字だけ異なる2つの重要語句の別の一例は、その2つのうち一方の重要語句を構成する、先頭からn番目(nは自然数)の1文字を削除して、かつ、その2つのうち他方の重要語句を構成する、先頭からn番目の1文字を削除した場合に、削除後のその一方の重要語句と、削除後のその他方の重要語句とが同一となるところの2つの重要語句である。警告情報生成部2059は、指摘情報に、その2つの重要語句各々の、発明文書中における記載数、発明文書の明細書中における記載数等を含ませることとしてもよい。具体的な一例としては、発明文書に「赤外線センサー」と「赤外線センサ」という2つの重要語句が含まれている場合に、警告情報生成部2059により、指摘情報に、その2つの重要語句のいずれかに誤記の可能性があることが示される例が挙げられる。具体的な別の一例としては、発明文書に「照明制御プログラム記録媒体」と「照明制御プログラム記憶媒体」という2つの重要語句が含まれている場合、或いは、発明文書に「照明制御装置」と「証明制御装置」という2つの重要語句が含まれている場合に、警告情報生成部2059により、指摘情報に、その2つの重要語句のいずれかに誤記の可能性があることが示される例が、挙げられる。ここでは、警告情報生成部2059が、発明文書から抽出された2つの重要語句同士が、互いに1文字だけ異なる2つの重要語句である場合に、誤記の可能性がある旨等を示す指摘情報を警告情報に含ませる例を示した。この例を変形して、警告情報生成部2059が、発明文書から抽出された2つの重要語句同士が、所定の第1文字数(例えば5文字)より大きい文字数の語句同士である場合においては、その重要語句同士が互いに所定の第2文字数(例えば2文字)だけ異なる2つの重要語句であるときに、誤記の可能性がある旨等を示す指摘情報を警告情報に含ませることとしてもよい。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に、その発明文書から重要語句抽出部2051により抽出された同一概念を表す重要語句の記載が形式的に統一されているという条件を、満たしていない複数の重要語句の記載が含まれていることを検出したときには、その検出した、形式的に統一されていない複数の重要語句の記載と、その重要語句の記載が形式的に不統一である旨とを示す指摘情報を、警告情報に含ませる。この場合に、警告情報生成部2059は、指摘情報に、その記載が形式的に不統一である複数の重要語句各々の発明文書中における記載数、発明文書の明細書中における記載数等を含ませることとしてもよい。具体例としては、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された2つの重要語句同士が互いに、半角か全角かが異なるだけで同一の意味を表す文字を1文字以上含んでいる場合に、その2つの重要語句の表記が形式的に不統一であるので、注意喚起等のために、指摘情報を警告情報に含ませる。具体的な一例としては、発明文書に全角文字の「1」を含む「第1センサ」と、半角文字の「1」を含む「第1センサ」という2つの重要語句が含まれている場合に、警告情報生成部2059により、指摘情報に、その2つの重要語句の表記が形式的に不統一であることが示される例が挙げられる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書中において、「符号の説明」の欄で記載された符号と要素名との関係と整合するように、要素名に付加された符号の記載がなされるという条件を、満たしていない記載が含まれていることを検出した場合には、その検出した要素名と符号と、「符号の説明」の欄でのその要素名に対応する符号と、符号が整合しない旨とを示す指摘情報を、警告情報に含ませる。具体例としては、発明文書の明細書に「第1機器102は」という記載が含まれており、更に、「符号の説明」の欄で、「101 第1機器」、「102 第2機器」等の記載が含まれている場合には、警告情報生成部2059により、指摘情報に、明細書中の「第1機器102」の符号が「符号の説明」中の「101」と整合しない旨の情報が、含まれる例が挙げられる。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に対しての所定の条件に基づく指摘等を示す指摘情報を、警告情報に含ませる場合に、指摘等の理由のユーザへの説明、その指摘の対象となった記載が招く不利益についてのユーザへの説明、又は、その指摘の対象となった記載を適切に修正するための方法のユーザへの説明を示す説明メッセージを含んでもよい。この説明メッセージにおける理由の説明には、例えば指摘の根拠となる、法令の条項、判例等の情報、或いは、指摘に関連する参考資料の情報を、含ませてもよい。この説明メッセージは、例えば、指摘情報の指摘等の基礎となった条件毎に、固定的に定められていてもよいし、設定情報取得部201により取得される設定情報において定められていてもよいし、その条件に応じて予め定められたアルゴリズムに従って警告情報生成部2059によって生成されてもよい。
[3−1−5−6−3.料金に係る指摘等]
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームの項数が、発明文書に基づく特許出願を米国、欧州等の所定地域で行った場合において、その所定地域における特許出願等に必要となる料金が比較的急増する境界となる所定の数を超えているときには、その旨を指摘する指摘情報を警告情報に含ませる。この所定の数は、例えば、設定情報取得部201により取得される設定情報で定義されることとしてもよい。警告情報生成部2059は、指摘情報に、その出願先となり得る所定地域を示す情報を含ませてもよい。また、警告情報生成部2059は、複数の所定地域毎に、指摘情報を、警告情報に含ませてもよい。
また、警告情報生成部2059は、設定情報での指定又は発明文書分析システム20のユーザによる指定に応じて、各所定地域に関連した各種の指摘情報を警告情報に含ませるか否かを決定し、その決定に従って指摘情報の生成を行うこととしてもよい。具体例としては、警告情報生成部2059は、例えば設定情報等で「米国」が指定されていた場合に限って、米国に関連した各種の指摘情報の生成を行って、その生成した指摘情報を警告情報に含ませることとしてもよい。
[3−1−5−6−4.警告情報に含まれる指摘情報に関連する情報]
警告情報生成部2059は、上述した各条件等に基づいて、1つ以上の指摘情報を、出力部208が出力する特許出願関連情報の一部としての警告情報に含ませる場合に、所定の指摘レベルの基準に基づいて、指摘情報毎に、その指摘情報が指摘する内容、その指摘情報の基礎となった条件等に応じて、指摘レベルを判定することとしてもよい。所定の指摘レベルの基準の例としては、例えば、対応する指摘情報が指摘する内容が重要である程、指摘レベルを高くなるように判定するための基準が、挙げられる。所定の指摘レベルの基準の別の例としては、指摘情報の対象となった発明文書と、その発明文書を適切に翻訳した場合に生成されると想定される翻訳結果文書とがその指摘情報に対応した語句の単位で不一致となる可能性が高い程、指摘レベルを高くなるように判定するための基準が、挙げられる。発明文書と翻訳結果文書とが語句の単位で不一致となる可能性が相対的に高い例としては、例えば、発明文書中に誤記があることを指摘する指摘情報の例が、挙げられ、相対的に低い例としては、例えば、発明文書中の要素に付加されるべき符号の記載漏れを指摘する指摘情報の例が、挙げられる。所定の指摘レベルの基準の更に別の例としては、指摘情報の対象となった発明文書の記載が、適切な翻訳を可能にするための文書の品質を大きく低下させる可能性が高い程、指摘レベルを高くなるように判定するための基準が、挙げられる。指摘情報の対象となった発明文書の記載が、適切な翻訳を可能にするための文書の品質を大きく低下させる可能性が高い例としては、例えば、発明文書のクレームの一項における被参照語句(つまり参照文字列に後続する語句)の記載が、その項のその記載に先行する部分又はその項の引用先の項又は引用の連鎖先の項に記載されていないという例が、挙げられる。
警告情報生成部2059は、指摘レベルの判定結果に応じて、指摘情報中に対応する指摘レベルを表してもよいし、警告情報中に、指摘レベルの高い順に、指摘情報を含ませることとしてもよい。警告情報生成部2059は、例えば、指摘事項が、翻訳用発明文書標準規定取得部204により取得された翻訳用発明文書標準規定の条件項目毎に対応した条件に基づいて指摘される場合と、翻訳用発明文書標準規定以外の条件に基づいて指摘される場合とのうちの、一方又は両方の場合において、指摘レベルの判定を行い得る。
警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に対しての、指摘する指摘情報の数に基づいて、或いは、その指摘情報の数と指摘情報毎の指摘レベルとに基づいて、予め定めた演算式により評価値を算定して、算定した評価値を含む発明文書評価情報を、警告情報に含ませることとしてもよい。予め定めた演算式は、一例としては、警告情報内の指摘情報各々の指摘レベルの値の総和を評価値とする式である。この場合に、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書のクレームの記載に対しての、指摘する指摘情報の数に基づいて、或いは、その指摘情報の数と指摘情報毎の指摘レベルとに基づいて、予め定めた演算式により評価値を算定して、算定した、クレームの記載に係る評価値を含む発明文書評価情報を、警告情報に含ませることとしてもよい。また、警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書の明細書の記載に対しての、指摘する指摘情報の数に基づいて、或いは、その指摘情報の数と指摘情報毎の指摘レベルとに基づいて、予め定めた演算式により評価値を算定して、算定した、明細書の記載に係る評価値を含む発明文書評価情報を、警告情報に含ませることとしてもよい。警告情報生成部2059は、例えば、発明文書取得部2021により取得された発明文書に対しての、翻訳用発明文書標準規定の条件項目毎に対応した条件に基づいて指摘する指摘情報の数に基づいて、或いは、その指摘情報の数と指摘情報毎の指摘レベルとに基づいて、例えば翻訳用発明文書標準規定への適合の度合いを表す指標を示すように、予め定めた演算式により、その指標となる評価値を算定して、算定した評価値を含む発明文書評価情報を、警告情報に含ませることとしてもよい。
警告情報生成部2059は、例えば、設定情報取得部201が取得した、技術分野別、発明者の所属部門別等といったグループ別に、定義された複数の設定情報のうち、いずれかの設定情報が用いられて定まった条件に基づいて、発明文書取得部2021により取得された発明文書に対して指摘される指摘情報を、警告情報に含ませる場合に、その用いられた設定情報が属するグループを識別する情報を、対応する指摘情報に含ませることとしてもよい。
警告情報生成部2059は、例えば、全部又は一部の指摘情報に、対応する指摘の対象となった発明文書の記載部分の行の情報(例えば行番号)、その部分のクレームの項番、及び、その部分の明細書における段落番号の少なくとも1つを含ませることとしてもよい。警告情報生成部2059が、警告情報における各指摘情報に、指摘の対象となった発明文書の記載部分の行番号を含ませる場合には、出力部208は、その警告情報を含む特許出願関連情報に、発明文書の各行へ行番号を追加した記載を含ませて、特許出願関連情報を出力することが有用となる。
[3−1−5−6−5.表示用文書における警告情報部分の生成]
発明文書分析システム20において出力部208が、警告情報を含む特許出願関連情報を、表示用文書(例えばHTML5に準拠したHTML文書)として出力する場合には、警告情報生成部2059は、表示用文書としての特許出願関連情報に含まれる警告情報を生成する。
警告情報生成部2059が生成する、表示用文書としての特許出願関連情報の警告情報部分は、例えば1つ以上の表示要素を含む。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。
警告情報部分に含まれる1つ以上の表示要素は、例えばいずれかの指摘情報の全部又は一部の内容を表示可能にする。警告情報部分に含まれる表示要素には、リンク属性を有するものが含まれてもよい。警告情報部分に含まれる表示要素には、警告情報生成部2059により、例えば、指摘情報で示された記載(例えば不適切な可能性のある記載)の該当記載箇所へのリンクのため(つまりブラウザへの操作に応じて指摘情報で示された記載の記載箇所へ表示を遷移させるため)のGUI要素としてその表示要素を機能させるための表示制御情報が付加され得る。リンク先となる該当記載箇所は、例えば、表示用文書としての特許出願関連情報に含まれる発明文書の該当部分(例えば該当行)、表示用文書としての特許出願関連情報に含まれるクレーム情報中の該当部分(例えば該当項)、或いは、表示用文書としての特許出願関連情報に含まれる明細書情報中の該当部分(例えば該当段落)等である。表示制御情報は、例えば、表示要素に付加したタグ(例えばHTML5に準拠したHTMLタグ)内に、操作種別(例えば、マウスクリック操作)に対応付けて、該当記載箇所へ表示を遷移させるためのスクリプトの関数等を記述して構成される情報である。表示用文書としての警告情報において、クレーム中の不適切な記載を指摘する1つの指摘情報を表示する表示要素の具体例としては、HTML文書内で警告情報とクレーム情報とが各々各<article>タグと</article>タグとで挟まれて記述されている場合において警告情報の<article>タグ配下に指摘情報の内容を例えば<span>タグと</span>タグとで挟んで記述し、その<span>タグ内に、マウスクリック操作等に応じて起動させるJavaScript(登録商標)における関数の関数名等を記述する例が挙げられる。この関数は、例えば、ブラウザに読み込まれる、HTML文書のHTMLファイル中で指定されたスクリプトファイルに記述され、例えば、クレーム情報の<article>を表示した上で、指摘情報に係るクレーム中の不適切な記載を探索して表示する処理を行うための関数である。警告情報において表示要素での表示内容となり得る指摘情報が、対応する指摘の対象となった発明文書の記載部分の行番号、その部分のクレームの項番、或いは、その部分の明細書における段落番号を含んでいる場合には、警告情報生成部2059は、その表示要素に付加される表示制御情報の生成において、その行番号、クレームの項番、或いは、段落番号を、操作に応じて起動させるスクリプトの関数への引数として利用することとしてもよい。この引数の利用により、関数において、発明文書における不適切であった行の表示、クレーム情報における不適切であったクレームの項の表示、明細書情報における不適切であった段落の表示等の処理を、比較的容易に実現できる。なお、表示用文書としての特許出願関連情報における発明文書、クレーム情報、或いは、明細書情報は、警告情報における指摘情報での指摘に対応した不適切な記載を修正したものであってもよい。
指摘情報を表示内容としてリンク属性を有する表示要素は、一例としては、指摘情報で指摘した不適切な記載の該当記載箇所を指定したリンク用の<a>タグ(つまりアンカータグ)を表示制御情報として含んでもよい。
表示用文書としての特許出願関連情報における警告情報部分で、指摘情報に係る表示要素のリンク先となる該当記載箇所は、例えば、表示用文書としての特許出願関連情報に含まれる修正版クレーム情報中の該当部分(例えば該当項)、或いは、表示用文書としての特許出願関連情報に含まれる修正版明細書情報中の該当部分(例えば該当段落)等であってもよい。表示用文書としての特許出願関連情報における修正版クレーム情報は、発明文書のクレームに相当する内容であって、警告情報における指摘情報での指摘に対応した不適切な記載を修正した内容を含み得る。また、表示用文書としての特許出願関連情報における修正版明細書情報は、発明文書の明細書に相当する内容であって、警告情報における指摘情報での指摘に対応した不適切な記載を修正した内容を含み得る。
警告情報生成部2059は、表示用文書における警告情報を生成する場合に、警告情報に含ませる1つ以上の各指摘情報について、その指摘情報に対応する指摘レベルを決定し、その指摘情報を表示するための表示要素に、その決定した指摘レベルに応じた表示態様でその指摘情報を表示するための表示制御情報を付加することとしてもよい。一例としては、警告情報生成部2059は、ブラウザにより警告情報の1つ以上の指摘情報が表示される場合に、その各指摘情報に、その指摘情報の指摘レベルが所定閾値を超えるか否かに応じて選択的に「エラー(Error)」又は「警告(Warning)」の文字を付加して表示するように表示制御情報を生成してもよい。また別の一例としては、警告情報生成部2059は、ブラウザにより警告情報の1つ以上の指摘情報が表示された場合に、各指摘情報がその指摘情報の指摘レベルに応じた色で表示されるように表示制御情報を生成してもよい。この色を相違させる具体例としては、警告情報生成部2059は、HTML文書に含ませる指摘情報の前に付加した<span>タグに指摘レベルに応じたクラス名を付加し、HTML文書の一部としてブラウザに読み込まれるようにしたCSSファイルでその指摘レベル毎に応じたクラス名毎に相違するように、クラスの表示属性としての文字色、文字背景色等を定義する例が、挙げられる。
警告情報生成部2059は、表示用文書における警告情報を生成する場合に、警告情報に含ませる1つ以上の各指摘情報について、その指摘情報を表示するための表示要素に、操作に応じてその指摘情報で指摘する記載を修正して修正結果を修正版クレーム情報又は修正版明細書情報の一部とする処理を実行するためのGUIとしての機能を持たせる表示制御情報を付加してもよい。具体例としては、警告情報生成部2059は、例えば、発明文書から抽出された2つの重要語句同士が、互いに1文字だけ異なる2つの重要語句である場合に、表示用文書における警告情報に、誤記の可能性がある旨等を示す指摘情報の表示要素を含ませ、その表示要素に、その2つ重要語句のいずれかを選択させて、その選択結果を修正版クレーム情報又は修正版明細書情報に反映させるGUIとしての機能を持たせる表示制御情報を付加してもよい。また別の具体例としては、警告情報生成部2059は、例えば、発明文書から抽出された2つの重要語句同士が、互いに半角か全角かが異なるだけで同一の意味を表す文字を1文字以上含んでいる場合に、表示用文書における警告情報に、表記が不統一である旨等を示す指摘情報の表示要素を含ませ、その表示要素に、その2つ重要語句のいずれかを選択させて、その選択結果を修正版クレーム情報又は修正版明細書情報に反映させるGUIとしての機能を持たせる表示制御情報を付加してもよい。
[3−1−5−7.クレーム情報生成部]
クレーム情報生成部205aは、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれるクレーム情報を、生成するクレーム情報生成処理を実行する。クレーム情報は、発明文書中のクレームを表す情報である。
クレーム情報生成部205aは、発明文書分析システム20の分析対象となる発明文書に、有用なクレームが含まれているが有用な明細書が含まれていない場合等に対処すべく、日本国の特許出願用の文書、或いは、日本国以外への特許出願のための翻訳用和文原稿等の、効率的な作成を支援するために、クレーム情報の他に、特許出願関連情報に含まれる各種情報(例えば、クレームベース明細書情報等)を生成し得る。
クレーム情報生成部205aは、例えば、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれるクレームベース図面情報を、生成するクレームベース図面情報生成処理を実行し得る。クレームベース図面情報は、発明文書中のクレームに基づいて生成され、特許出願用の図面の生成の基礎として利用可能な、図面に関する情報である。
クレーム情報生成部205aは、例えば、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれるクレームベース明細書情報を、生成するクレームベース明細書情報生成処理を実行し得る。クレームベース明細書情報は、発明文書中のクレームに基づいて生成され、特許出願用の明細書の生成の基礎として利用可能な、明細書に関する情報である。
クレーム情報生成部205aは、例えば、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれるクレームベース要約書情報を、生成するクレームベース要約書情報生成処理を実行し得る。クレームベース要約書情報は、発明文書中のクレームに基づいて生成され、特許出願用の要約書の生成の基礎として利用可能な、要約書に関する情報である。
クレーム情報生成部205aは、例えば、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれる、発明文書のクレームを修正した修正版クレーム情報を、生成する修正版クレーム情報生成処理を実行し得る。
クレーム情報生成部205aは、発明文書取得部2021により取得された発明文書にクレームが含まれない場合には、クレーム情報生成処理、クレームベース図面情報生成処理、クレームベース明細書情報生成処理、クレームベース要約書情報生成処理、及び、修正版クレーム情報生成処理の実行を省略する。
[3−1−5−7−1.クレーム情報の生成]
クレーム情報生成部205aは、クレーム情報生成処理を、発明文書取得部2021により取得された発明文書に含まれるクレームを表したクレーム情報を生成することにより実現する。クレーム情報は、発明文書取得部2021により取得された発明文書に含まれるクレームの一部を修正したものであってもよい。この修正の例としては、クレームにベル制御の「0x07」等の所定の制御コード(例えば、「0x00」〜「0x1f」の範囲内のコード)が含まれている場合にその所定の制御コードを「●」等といった所定の文字に変換することが、挙げられる。
発明文書分析システム20において出力部208が、クレーム情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、クレーム情報生成部205aは、表示用文書としての特許出願関連情報に含まれるクレーム情報を生成する。図22は、ブラウザに表示された表示用文書としての特許出願関連情報におけるクレーム情報の一例を示す。なお、図22では、便宜上、クレーム情報の内容は一部省略してある。
クレーム情報生成部205aが生成する、表示用文書としての特許出願関連情報のクレーム情報部分は、例えば、クレームの各項の各行の内容に対応する、1つ以上の表示要素を含み、その各項の各行内に重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する、1つ以上の表示要素を含み、その各項の各行内に、隅付き括弧で挟まれた「請求項n」(nは自然数)等といった見出し、或いは、コメントが含まれている場合に、その見出し、或いは、コメントに対応する、1つ以上の表示要素を含む。具体例としては、クレーム情報生成部205aは、HTML文書においてクレーム情報を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、クレームの各項の各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の各重要語句について、その重要語句に対応する表示要素を、<span>タグと</span>タグとでその重要語句を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。クレーム情報部分に含まれる各項の各行に対応する表示要素は、例えば、その対応する行の内容を、ブラウザによって表示可能なものにする。
クレーム情報生成部205aは、表示用文書におけるクレーム情報部分に含まれる見出し、コメント、或いは、重要語句に対応する表示要素に、例えば、その見出し、コメント、或いは、重要語句についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。
重要語句についての強調表示の一例としては、例えば、重要語句を太字で表示する例が、挙げられる。相対的に重要度が高い重要語句についての強調表示の一例としては、例えば、相対的に重要度が高い重要語句を重要度が低い重要語句より大きいフォントサイズのフォントで表示する例が、挙げられる。
相違する重要語句各々を互いに異なる表示態様(例えば互いに異なる色の色付き表示等)で表示するために、複数の重要語句各々について、その重要語句に付加する表示制御情報を生成する具体例としては、クレーム情報生成部205aは、HTML文書のHTMLファイルに<span>タグと</span>タグとで挟んでその重要語句を表示要素として記述している場合に、その表示要素に係る<span>タグに、その重要語句を他の重要語句と識別するように重要語句管理情報で定められた識別情報(例えば識別記号と通番とを含む識別コード)を、クラス名として付ける例が、挙げられる。この例では、HTML文書のCSSファイルに、重要語句の識別情報であるクラス名毎の<span>タグの内容の表示態様としての色を定めた情報(つまり重要語句に付加される色を示す情報)を含ませておくこと等により、相互に異なる重要語句同士には、相互に異なる色が付加されて、表示されるようになる。具体的な一例を挙げると、クレーム情報における相互に異なる重要語句同士は、例えばborder−leftプロパティにより、ある程度の幅(例えば単位「em」を用いて「1em」で表現される1文字分の幅)を有し相互に異なる色で塗られた左境界線が付加された表示態様で表示される(図22参照)。なお、例えば、左境界線を実線で表現するとよく、そのためには、境界線のスタイルをsolidにする。具体的な一例としては、クレーム中の構成文字列が相違する複数の重要語句の表示要素各々に対応したクラス名をそれぞれ、kwd1、kwd2、kwd3、・・・等と定め、クラス名kwd1のクラスにおいて、border−leftプロパティに「solid 1em #f00;」、colorプロパティに「#666;」、font−weightプロパティに「bold;」を定め、クラス名kwd2のクラスにおいて、border−leftプロパティに「solid 1em #f0c;」、colorプロパティに「#666;」、font−weightプロパティに「bold;」を定め、クラス名kwd3のクラスにおいて、border−leftプロパティに「solid 1em #f66;」、colorプロパティに「#666;」、font−weightプロパティに「bold;」を定める。図22では、1文字分の幅の左境界線における色(つまり表示色)を、パターン模様で表現しており、相違する複数のパターン模様で相違する複数の色を表現している。なお、相違する重要語句同士を各重要語句に付加された左境界線の色を相違させて表現する方法には、重要語句の文字色或いは文字背景色を相違させて表現する方法より、表示領域の背景色が暗い色(例えば黒)か明るい色(例えば白)かに拘わらず重要語句自体の判読性を低下させないという利点がある。また左境界線は、文字ではないので、重要語句を含む記載の表示内容のコピー&ペースト等を行う場合に無視されるため、表示内容をテキストエディタ等へとコピー&ペーストして、重要語句を含む記載等を編集するような場合において、邪魔にならない。なお、図22に例示するように、表示色で塗られた1文字分の幅等の左境界線が付加された表示態様で表示される重要語句は、例えば、左境界線の他のいずれかの境界線(つまり右境界線、上境界線及び下境界線の少なくとも1つ)を付加することとしてもよいが、重要語句の視認性の向上等のために簡潔な表示とすることも有用であり、そのためには、重要語句に右境界線、上境界線及び下境界線が付加されないこととしてもよい。なお、重要語句に、幅がゼロである、いずれかの境界線を付加することは、その境界線を付加しないことと同じである。なお、表示用文書としての特許出願関連情報の一部(例えばクレーム情報及び明細書情報)又は全部の文字を表示するためのフォントとして等幅フォントを優先的に利用することとしてもよく、その上で、重要語句の左境界線の幅を1文字分(例えば1em指定)にすることとしてもよい。これにより、等幅フォントが利用可能であれば、重要語句の左境界線として付加された表示色で塗られた四角形と各文字の幅とが揃うため、各文字、各重要語句等の視認性が向上し得る。
クレーム情報生成部205aは、各重要語句について、その重要語句の表示要素を構成するタグに付加するクラス名として、その重要語句の初出行番号(例えば発明文書のクレームにおける初出行番号)の小さい順に定めた通番を含む識別コードである識別情報を用いる場合において、CSSファイル内等の、重要語句の表示要素に係るクラス名毎の表示色(例えば表示要素の左境界線の色)を定めた情報では、例えば、クラス名としての識別コード内の識別記号が同一で通番部分が連続する複数のクラスの間では、その通番部分が連続しない複数のクラスの間より、表示色の差異が相対的に十分に大きくなるように、表示色の指定を行うこととしてもよい。この例で、初出行番号の同じ重要語句同士の間では重要語句に対応する通番はいかなる順番に定めてもよい。また、重要語句の表示要素に係るクラス名毎の表示色(例えば表示要素の左境界線の色)を定めた情報の別の例としては、例えば、クラス名としての識別コード内の識別記号が同一で通番部分が第1所定数(例えば100)以下である第1グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値が、通番が所定数より大きい第2グループの複数の重要語句と、その第1グループの複数の重要語句とを混合した混合グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値より大きくなるように、表示色の指定を行うこととしてもよい。初出行番号の比較的小さい各重要語句(例えば第1グループの100種類の各重要語句)の表示色の差異の最小値は比較的大きくなるので、その各重要語句を、表示色の差異により、比較的迅速に又正しく識別可能となる。この表示色の差異は、例えば、色相成分の差異(例えばマンセル環等の色相環で表したときの位置の差異)、RGB値の各成分(つまり赤成分、緑成分、青成分の各々)の差異等である。これにより、例えば、ブラウザにより表示用文書におけるクレーム情報が表示された場合に、クレームの先頭に近い各項における各重要語句の表示要素は、その近くに記載された相違する重要語句と表示色が十分異なるように表示されることとなり、識別が容易となり得る。また、ブラウザにより表示用文書におけるクレーム情報が表示された場合に、クレームの各項における同じ重要語句は、同じ表示色で表示されることとなるため、同じ重要語句であることの迅速な認識が可能となり得る。重要語句の初出行番号の昇順に定めた通番と、重要語句の表示色との関係を示す単純な一例としては、通番が1から4までの4種類の重要語句の表示色をそれぞれ、色相環での色相0°、90°、180°、270°の色と定め、後続する通番が5から8までの4種類の重要語句の表示色をそれぞれ、色相環での色相10°、100°、190°、280°の色と定め、後続する通番が9から12までの4種類の重要語句の表示色をそれぞれ、色相環での色相20°、110°、200°、290°と定め、後続する通番が13から16までの4種類の重要語句の表示色をそれぞれ、色相環での色相30°、120°、210°、300°と定め、以後同様に32種類の各重要語句の表示色を定める例が挙げられる。この例では、通番が4以下である第1グループの4種類の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値(つまり色相差90°)が、通番が4より大きく8以下の第2グループの4種類の重要語句と、その第1グループの4種類の重要語句とを混合した混合グループの8種類の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値(つまり色相差10°)より大きくなるように、各重要語句に対する表示色の指定がなされている。なお、この例では4種類の重要語句のグループ毎に色相の増分を10°としたが、増分を5°等にするとより多くの種類の重要語句を相違する表示色の付加で表現可能となる。各重要語句についての表示制御情報(例えば重要語句に対応したクラス名毎のクラスについての色に関するプロパティ等の情報)により、通番が一定範囲までの種類の重要語句を相互に相違する表示色の付加で表現し、通番がその一定範囲を超える重要語句を、一律に、同一色の表示色の付加で表現することが可能である。
クレーム情報生成部205aは、クレーム情報中における各重要語句の表示要素に係る<span>タグには、例えばクラス名として、互い内容(つまり文字列)の異なる重要語句を識別する識別コード等を付加することに加えて、id属性を付加する。このid属性は、例えば、特許出願関連情報中の各部分のうちクレーム情報部分であることを識別する識別記号と、重要語句を識別する識別コードと、内容が同一である重要語句内における通番(例えばクレーム情報中に記載された同一内容の複数の重要語句各々について記載順に定められた番号)とを結合した識別子(つまりHTML文書内で1つの表示要素を識別するために定められた識別子)である。
クレーム情報生成部205aは、別の一例として、複数の重要語句各々が表す要素間に構成上の包含関係がある場合には、その複数の重要語句各々の表示要素には、相互に色相が類似する表示色(例えば表示要素の左境界線の色)を定めた表示制御情報を付加することとしてもよい。これにより、ブラウザにより表示用文書におけるクレーム情報が表示された場合に、構成上の包含関係を有する複数の要素各々を表す重要語句が、ある程度類似する表示色で表示されることとなるため、構成上関連する重要語句同士の迅速な認識が可能となり得る。
クレーム情報生成部205aは、重要語句に対応する表示要素に、例えば、ブラウザへの操作に応じて重要語句に関連した表示遷移等(例えば重要語句に係る情報付加表示)を行うためのGUIとしての機能を付加するため(つまりその表示要素を操作対応GUI要素とするため)に、表示制御情報を付加する。
操作に対応するGUIとしての機能を重要語句に付加する表示制御情報を生成する具体例としては、クレーム情報生成部205aは、HTML文書のHTMLファイルに<span>タグと</span>タグとで挟んで重要語句を記述している場合に、その<span>タグ内に、各種操作(例えばonmouseover属性、onclick属性等)と対応付けて、その操作に応じて起動させるJavaScript(登録商標)における関数の関数名等を記述する例が挙げられる。この関数は、例えば、ブラウザに読み込まれる、HTMLファイル中で指定されたスクリプトファイルに記述され得る。
クレーム情報生成部205aにより、生成される表示用文書におけるクレーム情報中の1つの重要語句の表示要素の具体例を挙げると、クレーム情報に重要語句「機器制御部」が複数記載されている場合における5番目の「機器制御部」に対応する表示要素は、例えば、「<span class=”c003” id=”claiminfo−c003−005” onclick=’wordProc(”claiminfo−c003−005”)’ title=”・・・(情報付加表示内容)・・・”>機器制御部</span>」等となる。この例では、重要語句「機器制御部」の識別コードは、「c003」であり、表示要素の<span>タグのid属性の値として、クレーム情報の識別記号「claiminfo」と、重要語句の識別コード「c003」と、記載順の番号「005」とを含んだ文字列が定められている。また、この例では、表示要素に対するマウスクリック操作がなされた場合にid属性の値を引数としてwordProc関数が呼び出されるように定められている。これにより、wordProc関数では、例えば、引数から、その表示要素を特定して、表示要素に係る重要語句の文字列を参照する処理を実現することが可能となり、また、引数の一部から、重要語句の識別コード「c003」、記載順の番号「005」等を抽出して、例えば同一の重要語句の先頭の表示要素のid属性が「claiminfo−c003−001」であることを特定してその先頭の表示要素を表示させる処理を実現することが可能となり、例えば、クレーム情報の全ての重要語句「機器制御部」の表示要素の表示内容を、ユーザに入力された文字列等に置換する処理を実現すること等が可能となる。
クレーム情報生成部205aは、例えば、ブラウザで表示された重要語句の表示要素に対するマウスオーバー操作がなされた場合に起動されるスクリプトの関数が、その重要語句に関連する情報を表示する処理(つまり重要語句に係る情報付加表示)を行うように定めてもよい。その重要語句に関連する情報は、例えば、分析部205に保持されている重要語句管理情報(図18参照)及びその1つの内容である重要語句の属性情報(図19参照)に含まれる全部又は一部の情報である。図23は、ブラウザに表示された特許出願関連情報のクレーム情報における重要語句の表示要素に対するマウスオーバー操作に応じて、表示された重要語句に関連する情報の一例を示す。図23の例では、重要語句「B部」へのマウスオーバー操作により、マウスポインタが指し示す重要語句「B部」に関連する情報として、その重要語句の重要度、その重要語句を定義しているクレームの項の項番、その重要語句を参照しているクレームの項の項番、発明文書中でその重要語句に対応付けられている符号等を、重要語句「B部」の付近に付加的に表示している。
クレーム情報生成部205aは、例えば、ブラウザで表示された重要語句の表示要素に対するマウスクリック操作がなされた場合に起動されるスクリプトの関数が、その重要語句を変化させる重要語句更新処理、その重要語句の後に符号が記載されておらずその重要語句に対応する符号があるときにその符号を重要語句の後に挿入する符号挿入処理、クレーム情報、明細書情報又は関連する他の発明文書からその重要語句を含む行を列挙する重要語句包含記載列挙処理、クレーム情報、明細書情報等からその重要語句を含む行を検索する処理、インターネット等のネットワーク上の検索サイト(つまりネットワークを介してアクセス可能な検索サイト)等でその重要語句を含むウェブページ、その重要語句の定義、その重要語句の類義語、その重要語句の関連画像等を検索する処理、或いは、インターネット等のネットワーク上の翻訳サイト等でその重要語句を翻訳させる処理等を、行うように定めてもよい。Google(登録商標)の検索サイト等といった、インターネット上の検索サイトには、例えば、URLパラメータを与えることで、検索対象の語句についての定義の検索、その語句に係る関連画像の検索、その語句に係る翻訳語句の検索等が可能となるものがある。アクセス可能なウェブページ等から文字列、画像その他の情報を検索する検索サイトをLAN上のサーバにより実現してもよい。
クレーム情報生成部205aは、例えば、ブラウザで表示された重要語句の表示要素に対するマウスクリック操作がなされた場合に起動されるスクリプトの関数が、例えば選択肢のメニューを表示し選択操作に応じて、重要語句更新処理、符号挿入処理、重要語句包含記載列挙処理、クレーム情報、明細書情報等からその重要語句を含む行を検索する処理、インターネット等のネットワーク上の検索サイト等でその重要語句を含むウェブページ等を検索する処理、インターネット等のネットワーク上の翻訳サイト等でその重要語句を翻訳させる処理等を、選択的に実行するように定めてもよい。インターネット等のネットワーク上の検索サイト等でその重要語句を含むウェブページ等を検索する処理を実行する選択肢を含むメニューを表示するためには、クレーム情報生成部205aは、例えば、生成するメニューの表示要素にリンク用の<a>タグ(つまりアンカータグ)を含ませ、<a>タグのhref属性に、マウスクリック操作がなされた重要語句の表示要素のオブジェクトのinnerHTMLプロパティで取得可能なその重要語句の内容である文字列をURLパラメータとして、インターネット等のネットワーク上の検索サイトのURLに後続させた記述を、設定する処理を関数内に含ませる。クレーム情報生成部205aは、その関数において、表示するメニューのために、画像検索、翻訳等の各種機能を提供する検索サイトのURLに後続してその機能に応じたURLパラメータをhref属性に設定した各<a>タグを記述することで、画像検索、翻訳等の各種機能の選択肢を、そのメニューに含ませることが可能となる。
クレーム情報生成部205aは、この関数による処理結果(例えば検索結果、翻訳結果等)が、ブラウザで表示されてマウスクリック操作がなされた重要語句の表示要素が隠れない範囲に、表示されるように、この関数を定めておくこととしてもよい。JavaScript(登録商標)の関数内で、明細書情報から1つの重要語句αを含む行を検索する処理の一例としては、予めHTML文書における明細書情報中の、重要語句抽出部2051により抽出された各重要語句の表示要素(例えば<span>タグ)に、特許出願関連情報における明細書情報部分であることを識別する識別記号と、重要語句毎を識別する識別コードと、同一重要語句内における通番とを結合した識別子(つまりHTML文書内で1つの表示要素を識別するために定められた識別子)をid属性として付加しておくことを前提として、明細書情報部分の識別記号に、重要語句αの識別コードを追加して、例えば通番の先頭の番号等を追加して、形成された識別子を、引数としてdocument.getElementByIdメソッドを実行することでその重要語句αの表示要素を特定し、例えば、特定した表示要素におけるscrollIntoViewメソッドを実行することでその特定した表示要素を含む行をブラウザの表示領域内に表示させる例が、挙げられる。なお、重要語句包含記載列挙処理を実現する具体的方法の一例としては、クレーム情報中でその重要語句が記載されている各行の内容を、上述したような識別記号と識別コードと通番とを結合した識別子の通番を変化させることで収集し、同様に明細書情報中でその重要語句が記載されている各行の内容を収集して、それらの各収集結果である各行を列挙して各行中の重要語句を強調して表示する例が挙げられる。重要語句包含記載列挙処理を実現する具体的方法の別の一例としては、重要語句抽出部2051での重要語句の抽出対象となった発明文書に関連する他の発明文書に基づいて、その関連する他の発明文書中でその重要語句が記載されている各行の内容を、重要語句を検索することで収集して、その収集結果である各行を列挙して各行中の重要語句を強調して表示する例が挙げられる。クレーム情報生成部205aは、この場合の表示内容に、その関連する他の発明文書の識別用の情報(例えば発明文書のファイル名、特許出願の出願番号、公報番号、特許番号、発明の名称等)を含ませてもよい。この重要語句抽出部2051での重要語句の抽出対象となった発明文書に関連する他の発明文書は、例えばユーザによる指定(例えば設定情報中での指定)により特定される1つ以上の発明文書であってもよいし、その重要語句の抽出対象となった発明文書における明細書中に見出し「特許文献n」(nは自然数)に後続して先行技術文献情報としての特許文献の特定用情報(例えば公報番号)が示されているときにはその特許文献であってもよい。発明文書分析システム20は、公報番号に基づき、インターネットを介してウェブサイトから特許文献の内容を、取得し得る。また、マウスクリック操作等の操作を受けた表示要素である操作対象GUI要素に係る重要語句について、その重要語句が記載されている各行を検索して列挙して表示する重要語句包含記載列挙処理は、一部変形してもよく、例えば、その重要語句が主語として記載されている文(例えば、重要語句に又はその直後の符号に後続して、格助詞「は」又は格助詞複合「とは」が記載されている文)を検索して検索結果として収集された各文を列挙して表示する処理であることとしてもよい。また、例えば、操作対象となった重要語句に関する記載を列挙する重要語句包含記載列挙処理は、その重要語句を含む行を、クレーム情報、明細書情報又は別の発明文書(つまりクレーム情報等の生成元となった発明文書とは別の発明文書)から、列挙して表示し、その列挙して表示した各行におけるその重要語句については強調表示を行い、表示した行には、その行に対する操作に応じて、クレーム情報、明細書情報又はその別の発明文書におけるその行を含む複数行へのリンク表示のためのGUIとしてその行を機能させるための表示制御情報を付加する処理であることとしてもよい。これにより、ユーザは、操作した重要語句を含むことで列挙された行のうちの1つの行に対して更に操作することで、更に表示されることになるその1つの行に前後するクレーム情報、明細書情報又は別の発明文書における複数行を、容易に確認可能となる。なお、操作対象となった重要語句に関する記載を列挙する重要語句包含記載列挙処理は、例えば、その重要語句を含む行を、クレーム情報及び明細書情報から、列挙して表示し、その列挙して表示した各行におけるその重要語句については強調表示を行い、表示した行には、その行に対する操作に応じて、クレーム情報又は明細書情報におけるその行を含む複数行へのリンク表示のためのGUIとしてその行を機能させるための表示制御情報を付加する処理であることとしてもよい。リンク表示は、表示要素の操作(例えばその表示要素へマウスポインタを位置付けた状態でのマウスクリック操作)に応じてリンク先(例えば現在表示されていない他の情報)へと表示内容を遷移させ得る表示である。なお、表示用文書におけるクレーム情報中の複数の重要語句各々について、クレーム情報及び明細書情報におけるその重要語句の記載行は、予め特定可能であるので、その重要語句に対する操作に応じて重要語句包含記載列挙処理が実行される際に、クレーム情報及び明細書情報におけるその重要語句の記載行を検索するのではなく、予めその検索結果に相当する情報の全部又は一部を生成しておいてその生成された情報を活用することで重要語句包含記載列挙処理の実行速度を迅速化するようにしてもよい。
図24は、ブラウザに表示された特許出願関連情報のクレーム情報における重要語句の表示要素に対するマウスクリック操作に応じて表示されたポップアップ画面(例えばポップアップにより表示されたウィンドウ等)の一例を示す。図24に例示するポップアップ画面は、重要語句「B部」のマウスクリック操作に応じて表示され、重要語句「B部」についての各種検索を実行させるためのGUI要素である複数のプッシュボタンと、重要語句「B部」についての重要語句包含記載列挙処理の実行結果とを含んでいる。プッシュボタンは、例えば<button>タグにより生成可能であり、<button>タグにおけるonclick属性としてlocationオブジェクトのhrefプロパティに「https://・・・」等と検索サイトのURL、URLパラメータ等を設定することで、ボタン押下操作に対応して検索を実行させることが可能となり得る。図24に例示する、重要語句包含記載列挙処理の実行結果では、発明文書のクレームに記載されておらず明細書の段落「0042」に含まれている重要語句「制御プログラム」及び「マイクロプロセッサ」の各々については、左境界線の付加は行わず、同図中で矩形枠で囲むことで表現した、文字背景色の付加により、強調表示している。発明文書分析システム20の運用方法の一例として、例えば、ユーザ(例えば発明者等又は弁理士)は、重要語句に対応した重要語句包含記載列挙処理の実行結果を参考にして、発明文書分析システム20での将来の活用の必要等に応じて、重要語句設定辞書に、その重要語句とその重要語句を適切に説明する文とを含ませるように、重要語句設定辞書を編集することとしてもよい。
クレーム情報生成部205aは、例えば一時的に又は常に、ブラウザによる表示画面を複数の表示領域に分割し、クレーム情報の表示領域と、操作に応じて起動される関数による処理結果の表示領域とを並列的に表示してもよい(図17参照)。
クレーム情報生成部205aは、発明文書のクレームの各項の各行について、その行の内容から、重要語句抽出部2051により抽出された重要語句のうちのいずれかと、同一内容の文字列を探索することにより、その行における1つ以上の重要語句の表示要素を特定してもよい。例えば、クレームのある項の一行に、「入力データを加工するときに、」という記載のみが含まれている場合に、クレーム情報生成部205aは、重要語句抽出部2051で発明文書のクレーム中から動詞を抽出対象外とする方式で既に抽出されている重要語句「加工」を、その一行から探索して、その「加工」をクレーム情報におけるその一行の内容としての重要語句の表示要素と取り扱うこととしてもよい。また、逆に、その一行から動詞を抽出対象外とする方式で「加工」を抽出できないことから、クレーム情報生成部205aは、その一行の内容としては「加工」を重要語句の表示要素と取り扱わないこととしてもよい。
クレーム情報生成部205aは、例えば、クレーム情報部分に含まれる、隅付き括弧で挟まれた「請求項n」(nは自然数)等といった見出しに対応する表示要素に、例えば、強調表示のために、或いは、ブラウザへの操作に応じて例えば直前又は直後の見出しに対応する表示要素への表示遷移等を行うためのGUIとしての機能を付加するために、表示制御情報を付加し得る。直後の見出しへの表示遷移用のGUIとしての機能をある「請求項n」(nは自然数)という見出しに付加する表示制御情報を生成する具体例としては、クレーム情報生成部205aは、HTML文書のHTMLファイルに<span>タグと</span>タグとで挟んで「請求項n」(nは自然数)という見出しを記述している場合に、その<span>タグ内に、操作(例えばonclick属性等)と対応付けて、その操作に応じて起動させるJavaScript(登録商標)における関数の関数名等を記述する例が挙げられる。この関数は、例えば、HTMLファイル中で指定されたスクリプトファイルに記述され得る。クレーム情報生成部205aは、例えば、クレーム情報の内容から、隅付き括弧で挟まれた「請求項m」(mは自然数nより1大きい数)という見出しの表示要素を探索して表示する処理を実行するように、この関数を定めておくことができる。
クレーム情報生成部205aは、例えば、クレーム情報部分に含まれる参照文字列(例えば、「前記」、「上記」、「当該」、「その」等)を、例えば<span>タグと</span>タグとで挟む表示要素として、その表示要素に、その参照文字列について強調表示等(例えば、太字での表示、下線付きの表示、赤色等の所定の色での表示等)を行うための表示制御情報を付加してもよい。<span>タグを付加した文字列に係る表示要素の強調表示は、例えば、CSSにおける表示属性としてのtext−decorationプロパティ、font−weightプロパティ、border−leftプロパティ、colorプロパティ、background−colorプロパティ等の値を調整する表示制御情報により実現可能である。例えば、HTMLファイルにおけるクレーム情報中で、参照文字列、コメント、見出し等の各種の表示要素に対して異なるクラス名を定めておき、そのHTMLファイルで指定したCSSファイルにおいて、参照文字列、コメント、見出し等の各種の表示要素に対応する各クラス名のクラス毎に、強調表示のためのプロパティの値を相違させておくことで、参照文字列、コメント、見出し等の各種の表示要素毎に、表示態様を異ならせることが可能となる。
クレーム情報生成部205aは、例えば、警告情報生成部2059により生成された警告情報における指摘情報で示された不適切な記載が、クレーム情報部分に含まれる場合には、その不適切な記載を、例えば<span>タグと</span>タグとで挟む表示要素として、その表示要素に、その不適切な記載について強調表示等を行うための表示制御情報を付加してもよい。
発明文書取得部2021により取得された分析部205の分析対象となった発明文書におけるクレームに基づいてクレーム情報を生成するクレーム情報生成部205aは、その発明文書に対応する図面文書(例えばPDFファイル)が図面文書取得部2022により取得可能である場合においては、発明文書に含まれる符号付きの要素名と同一である重要語句がクレーム情報に含まれるときに、その重要語句を、操作に応じて図面文書におけるその符号を含む部分(例えばその符号を含む頁)を表示するためのGUIの機能を有する表示要素とするための表示制御情報を、その重要語句の表示要素に付加することとしてもよい。この表示制御情報は、例えば、操作に応じて符号を引数として起動されるスクリプトの関数の関数名又はその関数自体を定義するものであり、その関数は、例えば、引数の符号を含む、図面文書中の部分を、例えば図面文書が検索可能PDFファイルの内容である場合、又は、図面文書を内容として含むPDFファイルを検索可能PDFファイルへと変換できる場合等において、検索可能PDFファイルからその符号を検索することで、特定するように定められる。クレーム情報生成部205aは、図面文書から符号を検索する関数に、例えば、図面文書のPDFファイルを頁毎に分割する処理、頁毎に分割した各分割後PDFファイルからその符号を検索する処理、検索結果としてその符号を検出できた分割後PDFファイルを画像に変換する処理、変換後の画像を表示する処理等を実行する記述を含ませてもよく、これら各処理では、例えば、Python(登録商標)或いはJavaScript(登録商標)で利用可能なPDFを操作するための、既存の各種ライブラリ(例えばサードパーティにより提供されている「PyPDF2」、「pdfminer」等)を用いてもよい。なお、発明文書分析システム20の機能を実現するために、例えばPython(登録商標)で記述された部分を含む発明文書分析処理プログラムは、ウェブサーバ(例えばブラウザと同一端末装置上のローカルホストのウェブサーバ)として機能し、ブラウザを起動して特許出願関連情報に係るHTML文書をブラウザに提供して表示させることができる。そのPython(登録商標)で記述されたプログラムの部分は、ブラウザに解釈され表示、実行等がなされるHTML文書の一構成要素としてのJavaScript(登録商標)で記述されたスクリプトと連携して、各種処理(例えばPDFファイルについての処理等)を分担することが可能である。例えば、Python(登録商標)のサードパーティにより提供されたライブラリ「Eel」は、Python(登録商標)のプログラム部分と、HTML文書におけるJavaScript(登録商標)で記述されたスクリプト部分との連携を可能にする機能を有している。
クレーム情報生成部205aは、例えば、符号に対応する重要語句に対する操作に応じて、図面文書におけるその符号を含む部分を表示するための表示制御情報に係る関数を、ブラウザで表示されて操作がなされたその重要語句の表示要素が隠れない範囲に、図面文書におけるその符号を含む部分を表示するように定めておくこととしてもよい。クレーム情報生成部205aは、例えば、ブラウザによる表示画面を複数の表示領域に分割し、クレーム情報の表示領域と、操作に応じて表示される図面文書の一部分等の表示領域とを並列的に表示してもよい。クレーム情報生成部205aは、例えば、符号に対応する重要語句の表示要素に付加する表示制御情報により、その重要語句に対する操作に応じて起動される関数を、更なる操作に応じて図面文書におけるその符号を含む複数の部分(例えばその符号を含む2以上の頁)を切り替えて表示する処理を実行するように定めてもよいし、図面文書におけるその符号を含む全ての部分を必要に応じて縮小して一括表示する処理を実行するように定めてもよい。クレーム情報生成部205aは、例えば、符号に対応する重要語句に対する操作に応じて、図面文書におけるその符号を含む部分を表示するための表示制御情報に係る関数を、図面文書におけるその符号を含む部分におけるその符号を強調表示(例えば図面文書が検索可能PDFファイルの内容である場合にはその符号にマーカーとしての背景色を付加)するように定めておくこととしてもよい。
なお、表示用文書において、表示要素に、操作に応じて処理を行うためのGUIの機能を実現するための表示制御情報が付加されている場合において、その操作は、表示要素に対するマウスオーバー操作、マウスクリック操作等に限定されることはない。また、例えば、表示要素に対するマウスクリック操作等に応じて起動される関数においては、更なる操作を促すためにメニュー、ポップアップ画面等を表示して、そのメニュー、ポップアップ画面等に示された選択肢に対する選択操作に応じた処理を実行することとしてもよい。
クレーム情報生成部205aは、例えばHTML文書である表示用文書における各情報部分(例えばクレーム情報、修正版クレーム情報等)の各行末の、全角又は半角の空白文字、タブ、改行(line feed)、リターン(return)、改頁(form feed)、或いは、垂直タブの各文字コードを除去し、行末の改行を改行用のHTMLタグ<br>で表すこととしてもよい。
[3−1−5−7−2.クレームベース図面情報の生成]
クレーム情報生成部205aは、クレームベース図面情報生成処理を、発明文書取得部2021により取得された発明文書に含まれるクレームに基づいて、クレームベース図面情報を生成することにより実現する。クレームベース図面情報は、各図面の図面番号と、各図面に記載されるべき重要語句、重要語句間の関連性、重要語句に符号が対応する場合には符号等とを示す情報である。クレームベース図面情報は、そのまま特許出願用の図面として利用できる程度に完成した内容である必要はない。クレーム情報生成部205aは、クレームベース図面情報における各図面についての図面番号と対応付けて、その図面の図面種別を示す図面種別情報を生成し得る。図面種別は、例えば、構成図、フローチャート、記録媒体の記録内容を表す図、プログラムで実現される手段、機能等を表す図等である。
クレーム情報生成部205aは、発明文書取得部2021により取得された発明文書に明細書が含まれている場合には、既に図面の情報(例えば図面文書)が生成されている可能性が十分にあると想定されることから、クレームベース図面情報生成処理の実行を省略することとしてもよい。
[3−1−5−7−2−1.符号の決定]
クレーム情報生成部205aは、クレームベース図面情報の生成を行う場合には、発明文書取得部2021により取得された発明文書のクレームから重要語句抽出部2051により抽出された各重要語句のうち、符号を決定すべき所定の条件を満たす重要語句に、その重要語句が表す要素に対応させるべき符号を決定する符号決定処理を実行する。
クレーム情報生成部205aは、符号決定処理により符号を決定した重要語句と、その符号とを対応付けて、クレームベース図面情報を作成することになる。クレーム情報生成部205aは、発明文書取得部2021により取得された発明文書に明細書が含まれている場合には、符号決定処理を省略することとしてもよい。
発明文書のクレームから重要語句抽出部2051により抽出された各重要語句のうち、符号決定処理で符号の決定対象となる重要語句に係る所定の条件は、例えば、重要語句が表す要素のカテゴリー種別(例えば、プログラム、データ類、物及び方法のいずれかに分類されるカテゴリー種別)に関する条件である。例えば、プログラム又はデータ類のカテゴリー種別に分類される重要語句は、符号の決定対象となる所定の条件を満たさず、クレーム情報生成部205aは、その重要語句に対応する符号の決定を行わない。プログラム又はデータ類のカテゴリー種別に分類される重要語句は、その重要語句自体で、通常は理解可能だからである。重要語句が、プログラム、データ類、或いは、方法のうちのいずれのカテゴリー種別であるかについては、例えば、その重要語句が、予めカテゴリー別に定めた文字列を語尾に含むか否かによって特定でき、そのいずれにも該当しない重要語句は、物のカテゴリー種別であると特定できる。
例えば、方法又は物のカテゴリー種別と特定された複数の重要語句が表す要素同士が構成上の包含関係を有する場合にその複数の重要語句は、符号の決定対象となる所定の条件を満たし、クレーム情報生成部205aは、その複数の重要語句各々に対応する符号の決定を行う。その複数の重要語句各々が表す要素を示す構成図により、通常はその各要素を理解可能となる。なお、構成図において、各要素に符号が付されることは有用である。複数の重要語句が表す要素同士が構成上の包含関係を有するか否かは、属性特定部2056により特定された、各重要語句の一属性としての「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」を参照することにより実現可能である。
クレーム情報生成部205aは、符号の決定対象となる所定の条件を満たす各重要語句が表す要素の構成上の包含関係に基づいて、符号を決定する。
具体的な一例としては、他のいずれかの重要語句が表す要素を構成上包含した要素であって他のいずれかの重要語句が表す要素に構成上包含されていない要素を、表す第1の重要語句について、符号として利用可能な文字である符号文字で表現される符号を決定する。そして、クレーム情報生成部205aは、第1の重要語句が表す要素が第2の重要語句が表す要素を構成上包含している場合に第1の重要語句に対する符号の末尾に符号文字を追加したものを第2の重要語句に対する符号として決定する。この例においては、クレーム情報生成部205aは、第1の重要語句に対応する符号を例えば「10」と決定した場合に、第2の重要語句に対応する符号を例えば「101」と決定する。
具体的な別の一例としては、他のいずれかの重要語句が表す要素を構成上包含した要素であって他のいずれかの重要語句が表す要素に構成上包含されていない要素を、表す第1の重要語句について、アラビア数字の文字列で示される符号を仮決定する。そして、クレーム情報生成部205aは、第1の重要語句が表す要素がn個(nは自然数)の重要語句各々が表す要素を構成上包含している場合に、第1の重要語句に対して仮決定した符号の末尾に、n個を表すために必要なk桁(kは自然数)の桁数分のゼロ「0」を付加してその符号を最終決定する。つまり、クレーム情報生成部205aは、重要語句に対して符号を決定する符号決定処理で、他の重要語句が表す要素を構成上包含する要素を表すその重要語句に対して符号を決定する場合においては、その重要語句が表す要素が構成上包含する、他の重要語句が表す要素の数(例えばn個)に応じてその符号を決定し得る。クレーム情報生成部205aは、そのn個の重要語句各々に対する符号として、第1の重要語句に対して仮決定した符号に、k桁のアラビア数字で表した1〜nに相当する文字列を付加してなる符号を決定する。この例においては、クレーム情報生成部205aは、第1の重要語句に対応する符号を例えば「1」と仮決定し、第1の重要語句が表す要素が例えば15個の重要語句各々が表す要素を構成上包含している場合に、第1の重要語句に対応して仮決定した符号「1」に、その15個を表すために必要な2桁の桁数分の「0」を付加して、第1の重要語句に対応する符号「100」を最終決定する。続いて、クレーム情報生成部205aは、第1の重要語句により表される要素が包含する15個の要素を表す15個の重要語句に対応して「101」〜「115」の各符号を決定する。上述の例における、他のいずれかの重要語句が表す要素を構成上包含した要素であって他のいずれかの重要語句が表す要素に構成上包含されていない要素を、表す第1の重要語句に該当する重要語句は、複数存在してもよい。
クレーム情報生成部205aは、発明文書取得部2021により取得された発明文書に明細書が含まれている場合にも、符号決定処理を実行することとしてもよい。クレーム情報生成部205aは、符号の決定対象となる所定の条件を満たす重要語句について、既に符号が対応している場合には、その対応している符号を用いることで符号の決定を行う。クレーム情報生成部205aは、例えば、重要語句に既に符号が対応している場合における符号の決定については、発明文書の明細書の「符号の説明」の欄に記載された符号を、発明文書のその他の部分に記載された符号よりも優先的に採用して、符号の決定を行うこととしてもよい。なお、発明文書の明細書の「符号の説明」の欄において、同一の重要語句に複数の符号が対応付けて記載されている場合には、クレーム情報生成部205aは、先頭に記載された符号、或いは、例えば自然順(natural ordering)等のソートにより最先となる符号の1つを選択的に採用して、符号の決定を行うこととしてもよい。なお、発明文書分析システム20は、例えば、Python(登録商標)のソートのための標準ライブラリ「sort」、或いは、自然順ソートのための、サードパーティにより提供されたライブラリである「natsort」等を利用して、ソートを実行することとしてもよい。重要語句に既に符号が対応しているか否かは、属性特定部2056により特定された重要語句の一属性としての「符号」に基づいて判別可能である。クレーム情報生成部205aは、符号の決定対象となる所定の条件を満たす重要語句のいずれか1つ以上について、既に符号が対応しており、その所定の条件を満たす重要語句の1つ以上については、未だ符号が対応していない場合においては、クレーム情報生成部205aは、未だ符号が対応していない重要語句に対応して符号を決定するときには、その符号が既に対応している符号と重複しないようにするため、或いは、その符号が自動決定された符号であることを識別可能にするために、その符号の一部分(例えば末尾等)に予め定められた一文字列(例えば「auto」、「at」等)を付加することとしてもよい。
[3−1−5−7−2−2.図面内容の決定]
クレーム情報生成部205aは、クレームベース図面情報生成処理として、図面内容の決定を行う。
具体的には、クレーム情報生成部205aは、クレームベース図面情報生成処理として、例えば、発明文書取得部2021により取得された発明文書のクレームから重要語句抽出部2051により抽出された複数の重要語句が表す要素間に構成上の包含関係がある場合に、包含関係に基づいて構成図を生成する。構成上の包含関係がある要素各々を表す重要語句は、要素間関係判別部2058の判別結果に基づいて属性特定部2056が特定した属性の「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」の項目により判別可能である。
構成図は、例えば、被包含側の要素を表す重要語句を囲み、その重要語句に対応する符号を引出線で結んだ枠線(例えば矩形枠)の外側に、包含側の要素を表す重要語句を配置してその包含側の重要語句とその被包含側の要素に係る枠線とを取り囲み、その包含側の重要語句に対応する符号(例えば符号決定処理において決定された符号)を引出線で結んだ枠線とを描いた図である。構成図に含まれる重要語句に対応する符号が決定されないものである場合には符号及び引出線は省略される。包含関係が入れ子構造である場合には、複数の重要語句に係る枠線が入れ子状になる。構成図は、例えば、上述の枠線及び引出線を省略して、相対的に適切な位置に配置された複数の文字列で構成される未完成の図面であってもよい。
クレーム情報生成部205aは、上述の構成図を、特許出願関連情報に含まれ、表示用文書において表示されるべきクレームベース図面情報における図面として生成し得る。
物に係る各要素を表す重要語句a、重要語句b、重要語句c、重要語句d及び重要語句eを用いて、構成図の一具体例を挙げると、重要語句aが表す要素が、重要語句b、重要語句c及び重要語句dの各々が表す要素を並列的に含み、重要語句dが表す要素が、重要語句eが表す要素を含む場合には、図面中に、重要語句aを枠内に記載した矩形枠の中に、重要語句aを囲まないようにして重要語句b、重要語句c及び重要語句dの各々を枠内に記載した各矩形枠が、互いに囲み合わないように並列して配置され、重要語句dを枠内に記載した矩形枠の中に、重要語句dを囲まないようにして重要語句eを枠内に記載した矩形枠が、配置され、それぞれの矩形枠には、枠内に記載された重要語句に対応して定められた符号があるときにはその符号が、その矩形枠と結んだ引出線で繋がれて記載される。
なお、重要語句の一属性としての「初出行番号」が、発明文書のクレームに記載された最先の行の番号を表すように定められている場合においては、構成図中で並列的に配置される要素各々は、その要素を表す重要語句の一属性としての「初出行番号」の小さい順に、図面の上方から下方へ順に並べて記載されることとしてもよい。これにより、例えばクレームの項が、構成要件列挙型で記載されている場合に、クレーム情報生成部205aが、その列挙順に対応した構成図を生成することとなるので、生成された構成図の把握が容易となり得る。
発明文書における方法に係るクレームの各項が、理解の容易化を狙って、構成要件列挙型で、かつ、動作順に構成要素を並べて、記載されていることを前提とする場合等においては、クレーム中で方法に係る複数の重要語句が表す要素間に包含関係があるときに、クレーム情報生成部205aは、構成図の代わりにフローチャートを生成することとしてもよい。具体例としては、重要語句「機器制御方法」が重要語句「センシング手順」と重要語句「動作パターン決定手順」と重要語句「機器動作制御手順」とを包含する包含関係がある場合であって、重要語句の属性としての「初出行番号」が小さい順に、「センシング手順」、「動作パターン決定手順」、「機器動作制御手順」となっている場合には、図面中に、「機器制御処理」に文字列「開始」を加えて枠内に記載した角丸四角形枠を記載し、その角丸四角形枠の下方に「センシング手順」を枠内に記載した矩形枠を配置して、その下方に「動作パターン決定手順」を枠内に記載した矩形枠を配置して、その下方に「機器動作制御手順」を枠内に記載した矩形枠を配置して、その下方に「動作制御処理」に文字列「終了」を枠内に記載した角丸四角形枠を配置し、各枠間を上方から下方へと線分で接続することでフローチャートが描かれる。
クレーム情報生成部205aは、クレームベース図面情報生成処理として、例えば、発明文書取得部2021により取得された発明文書のクレームから重要語句抽出部2051により抽出された複数の重要語句が表す要素間に、記録媒体とその記録媒体の内容との関係がある場合に、その関係に基づいて記録媒体の記録内容を表す図を生成する。記録媒体とその記録媒体の内容との関係にある要素各々を表す重要語句は、要素間関係判別部2058の判別結果に基づいて属性特定部2056が特定した属性の「重要語句が表す要素の記録内容」の項目により判別可能である。クレーム情報生成部205aは、発明文書のクレームから重要語句抽出部2051により抽出された複数の重要語句が表す要素間に、記録媒体とその記録媒体の内容との関係がある場合であっても、記録媒体の内容が1つのプログラムに分類される要素だけであるときには、構成図の生成を省略し得る。
記録媒体の記録内容を表す図は、例えば、記録媒体の要素を表す重要語句を囲み、その重要語句に対応する符号を引出線で結んだ枠線(例えば矩形枠)の内側に、記録媒体の要素の記録内容に該当するデータ、情報等を表す1つ以上の重要語句各々を最小の枠線(例えば角丸四角形枠)で囲んだものを描いた図である。なお、記録媒体の記録内容を表す図は、上述の枠線及び引出線を省略した、未完成の図面であってもよい。
クレーム情報生成部205aは、クレームベース図面情報生成処理として、例えば、発明文書取得部2021により取得された発明文書のクレームから重要語句抽出部2051により抽出された複数の重要語句が表す要素間に、プログラムとその実現内容との関係がある場合に、その関係に基づいてプログラムで実現される手段、機能等を表す図を生成する。プログラムとその実現内容との関係にある要素各々を表す重要語句は、要素間関係判別部2058の判別結果に基づいて属性特定部2056が特定した属性の「重要語句が表す要素の実現内容」の項目により判別可能である。
[3−1−5−7−2−3.図面番号の決定]
クレーム情報生成部205aは、クレームベース図面情報生成処理として、決定した図面内容毎についての図面番号を決定する。
具体例としては、クレーム情報生成部205aは、決定した構成図等の図面毎に、図面内容として含まれる要素を表す重要語句のうち、属性としての「初出クレーム番号」が最小の重要語句におけるその「初出クレーム番号」をその図面の「初出クレーム番号」として特定する。そして、クレーム情報生成部205aは、各図面の図面番号を、各図面について特定した「初出クレーム番号」の小さい順に、1を先頭とする連続番号となるように決定する。複数の図面の「初出クレーム番号」が同一である場合には、クレーム情報生成部205aは、例えば、予め定められた図面優先順序に基づいて、その同一の「初出クレーム番号」の複数の図面間の順を定めて、図面番号を決定する。予め定められた図面優先順序の一例としては、物に係る構成図、データに係る構成図、記録媒体の記録内容を表す図、方法に係る構成図、プログラムで実現される手段、機能等を表す図の順が、挙げられる。
[3−1−5−7−2−4.表示用文書におけるクレームベース図面情報部分の生成]
発明文書分析システム20において出力部208が、クレームベース図面情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、クレーム情報生成部205aは、表示用文書としての特許出願関連情報に含まれるクレームベース図面情報を生成する。
クレーム情報生成部205aが生成する、表示用文書としての特許出願関連情報のクレームベース図面情報部分は、例えば、各図面の図面番号と、各図面に記載されるべき重要語句、重要語句間の関連性、重要語句に符号が対応する場合には符号等とに対応する1つ以上の表示要素を含む。具体例としては、クレーム情報生成部205aは、HTML文書においてクレームベース図面情報を<article>タグと</article>タグとで挟んで記述する場合において、その<article>タグ配下に、図面番号が小さい順に各図面について、その図面の図面番号を示す表示要素を<span>タグと</span>タグとでその図面番号を挟むことで記述し、更に、その図面に対応する各表示要素を記述し、符号については、例えば、各符号を識別するためのクラス名等を含ませた<span>タグと</span>タグとで挟んで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。クレーム情報生成部205aは、クレームベース図面情報部分に含まれる図面番号、符号、或いは、重要語句に対応する表示要素に、例えば、その表示要素の表示態様の制御(例えば強調表示、色付き表示等)をするための表示制御情報を付加し得る。
クレーム情報生成部205aは、例えば、表示用文書としての特許出願関連情報におけるクレームベース図面情報を、HTML5に準拠したHTML文書として生成する場合に、HTMLファイルに所定のid属性を付加した<canvas>タグを含めて、関数等で、そのid属性の値を指定したgetElementByIdメソッドでcanvasオブジェクトを取得し、canvasオブジェクトのgetContextメソッドで描画コンテキストを取得して、描画コンテキストのfillTextメソッド、strokeRectメソッド、quadraticCurveToメソッド等により、文字列、矩形枠、引出線等を描画する処理を定義しておくことで、構成図の描画を実現し得る。
[3−1−5−7−3.クレームベース明細書情報の生成]
クレーム情報生成部205aは、クレームベース明細書情報生成処理を、発明文書取得部2021により取得された発明文書に含まれるクレームに基づいて、クレームベース明細書情報を生成することにより実現する。クレームベース明細書情報は、未完成の明細書の内容を表し、そのまま特許出願用の明細書として利用できる程度に完成した内容である必要はない。クレームベース明細書情報は、発明文書における明細書が未完成である場合等において、適切な明細書を効率的に作成するために利用される可能性がある。
クレームベース明細書情報は、例えば、日本国の特許出願の明細書と同様の見出し(例えば、「発明の名称」、「発明が解決しようとする課題」、「発明を実施するための形態」等)を含み、その各見出しに後続した記載内容を含む。
クレーム情報生成部205aは、発明文書取得部2021により取得された発明文書に含まれるクレームから重要語句抽出部2051により抽出された重要語句を用いて、発明文書のクレームにおける各項(例えば各請求項)のうち全ての請求対象起点項を抽出する。請求対象起点項は、他の項を引用していない項、或いは、他の項を引用しているが引用先の項とは請求対象が異なる項である。
クレーム情報生成部205aは、抽出した各請求対象起点項について、その請求対象起点項の請求対象を表す重要語句を特定する。重要語句抽出部2051により抽出された重要語句には、属性特定部2056により、一属性として「クレームの請求対象の要素を表すか否か」が特定されているので、クレーム情報生成部205aは、この属性等を参照して、請求対象起点項の請求対象を表す重要語句を特定する。クレーム情報生成部205aは、その特定した全ての請求対象の重要語句の集合の要素として、同一の複数の重要語句が存在する場合にはその複数の重要語句のうち1つの重要語句以外を除去する。そして、クレーム情報生成部205aは、残る請求対象の重要語句の集合(つまり相互に異なる請求対象の重要語句の集合)から、クレームベース明細書情報の「発明の名称」の欄に記載する内容としての発明名称文字列を決定する。発明名称文字列は、例えば、相互に異なる請求対象の重要語句の集合の要素としての重要語句が1つしか存在しない場合は、その1つの重要語句の文字列である。発明名称文字列は、例えば、相互に異なる請求対象の重要語句の集合の要素としての重要語句が複数存在する場合は、その各重要語句を所定の順に列挙して予め定められた所定の形式で配置した文字列である。この列挙に係る所定の順の一例としては、相互に異なる請求対象の重要語句の集合における各重要語句のうち、その重要語句の属性として属性特定部2056により特定されている初出クレーム番号の、自然数のうち、小さい順が、挙げられる。この列挙に係る所定の順の一例によれば、クレームでの記載順に適合して請求対象の重要語句が列挙された発明名称文字列が定まることになる。配置に係る所定の形式の一例としては、最後以外の重要語句間を読点文字「、」で接続し、最後の重要語句間を「及び」で接続する形式が、挙げられる。具体例として、初出クレーム番号順に並べた、相互に異なる請求対象の重要語句の集合における重要語句が、「照明制御装置」と「照明制御方法」と「照明制御プログラム」とであった場合には、クレームベース明細書情報において「発明の名称」に後続されるべき、所定の形式で配置した発明名称文字列は、例えば、「照明制御装置、照明制御方法及び照明制御プログラム」となる。
クレーム情報生成部205aは、例えば、各請求対象起点項についての請求対象を表す重要語句に基づいて定めた、相互に異なる請求対象の重要語句の集合を用いて、クレームベース明細書情報の「発明が解決しようとする課題」の欄の記載内容を決定する。クレーム情報生成部205aは、相互に異なる請求対象の重要語句の集合における各重要語句と、その各重要語句に対応して特定した所定の文字列とを利用して、予め定められた所定の形式で連結した1つ又は複数の文を生成し、その生成された文を「発明が解決しようとする課題」の見出しに後続する記載内容として決定する。この所定の文字列の内容は、例えば、設定情報取得部201により取得された設定情報に含まれる未完成メッセージ情報により示される、記載支援用未完成メッセージである。なお、クレーム情報生成部205aは、相互に異なる請求対象の重要語句の集合における各重要語句が表す要素が、例えば、物、方法、プログラム、プログラム記録媒体、データ構造、データ記録媒体等といったカテゴリーのいずれに属するかに応じて、そのカテゴリー毎に予め定められた、所定の文字列を、特定してもよいし、一律に、所定の文字列を、特定してもよい。具体例として、相互に異なる請求対象の重要語句の集合における重要語句が、「照明制御装置」と「照明制御方法」と「照明制御プログラム」とである場合において、クレーム情報生成部205aは、クレームベース明細書情報の「発明が解決しようとする課題」に後続する記載内容を、例えば、「従来の技術は、■{理由等}、■{課題/効果:〜の低減/〜の向上等}に必ずしも有用とは限らない。本開示は、■{課題/効果:〜の低減/〜の向上等}に有用となり得る照明制御装置を提供する。また、本開示は、その照明制御装置に関連する照明制御方法及び照明制御プログラムを提供する。」とする。ここで、未完成の明細書に係るクレームベース明細書情報の内容におけるソリッドブロック及び始め波括弧「■{」と、終わり波括弧「}」とで、文字列を挟んだ形式例により示した部分である未完成記載部分は、記載支援用未完成メッセージにおいて、特許出願用の明細書として活用するためには、未完成の部分であり、つまり適宜編集されるべき部分であることを示す。
クレーム情報生成部205aは、例えば、各請求対象起点項についての請求対象を表す重要語句に基づいて定めた請求対象の重要語句の集合を用いて、クレームベース明細書情報の「課題を解決するための手段」の欄の記載内容を決定する。クレーム情報生成部205aは、各請求対象起点項の項番と、請求対象の各重要語句と、その各重要語句に対応して特定した所定の文字列との少なくとも1つを利用して、予め定められた所定の形式で連結した1つ又は複数の文を生成し、その生成された文を「課題を解決するための手段」の見出しに後続する記載内容として決定する。この所定の文字列の内容は、例えば、設定情報取得部201により取得された設定情報に含まれる未完成メッセージ情報により示される、記載支援用未完成メッセージである。なお、クレーム情報生成部205aは、請求対象の重要語句の集合における各重要語句が表す要素が、例えば、物、方法、プログラム、プログラム記録媒体、データ構造、データ記録媒体等といったカテゴリーのいずれに属するかに応じて、そのカテゴリー毎に予め定められた、所定の文字列を、特定してもよいし、一律に、所定の文字列を、特定してもよい。具体例として、相互に異なる請求対象の重要語句の集合における重要語句が、「照明制御装置」と「照明制御方法」と「照明制御プログラム」とである場合において、クレーム情報生成部205aは、明細書の「課題を解決するための手段」に後続する記載内容を、例えば、「本開示における照明制御装置は、■請求項1。また、本開示における照明制御方法は、■請求項2。また、本開示における照明制御プログラムは、■請求項3。」とする。この記載内容は複数の行に分割されてもよい。この記載内容において「■請求項n」というソリッドブロックを付加した請求項nの形式例で示した部分は、請求項n(nは自然数)の記載内容に、又はその記載内容に予め定められた所定の変換処理(例えば、改行の削除、句点文字の削除等を行う変換処理)を施した内容に、置換可能である部分であることを示す。なお、クレーム情報生成部205aは、この記載内容中の「■請求項n」の部分を、請求項nの記載内容に、又はその記載内容に予め定められた所定の変換処理を施した内容に、置換しておくこととしてもよい。
クレーム情報生成部205aは、例えば、クレームベース図面情報生成処理において生成したクレームベース図面情報等に基づいて、クレームベース明細書情報の「図面の簡単な説明」の欄の記載内容を決定し得る。具体例として、まず、クレーム情報生成部205aは、クレームベース図面情報及び図面種別情報に基づいて、各図について、その図の図面種別に対応して主要な重要語句を特定する。例えば、図面種別が構成図又はフローチャートである図面においては、最も多くの要素を構成上包含する要素を表す重要語句が、その図面の主要な重要語句になる。また、図面種別が、記録媒体の記録内容を表す図である図面においては、記録媒体である要素を表す重要語句が、その図面の主要な重要語句になる。また、図面種別が、プログラムで実現される手段、機能等を表す図である図面においては、プログラムである要素を表す重要語句が、その図面の主要な重要語句になる。そして、クレーム情報生成部205aは、各図について、図面番号と、特定した主要な重要語句と、図面種別とを含む、予め定められた形式の文字列を特定することで、クレームベース明細書情報の「図面の簡単な説明」の欄の記載内容を決定する。一例としては、図面番号が1の図面の主要な重要語句が「制御システム」であり、図面種別が構成図である場合には、クレーム情報生成部205aは、「図面の簡単な説明」の欄の一行の記載内容を、始め隅付き括弧と終わり隅付き括弧とで挟んで記載される「図1」に、「図1は制御システムの構成の一例を示す構成図である。」という文が後続する文字列とする。
クレーム情報生成部205aは、例えば、発明文書のクレームの各項についての項番と、その項の請求対象を表す重要語句と、所定の文字列に基づいて、クレームベース明細書情報の「発明を実施するための形態」の欄の記載内容(つまり「発明を実施するための形態」の見出しに後続する記載内容)の一部を決定し得る。この所定の文字列の内容は、例えば、設定情報取得部201により取得された設定情報に含まれる未完成メッセージ情報により示される、記載支援用未完成メッセージである。なお、クレーム情報生成部205aは、発明文書のクレームの各項の請求対象の重要語句が表す要素が、例えば、物、方法、プログラム、プログラム記録媒体、構造化されたデータ、データ記録媒体等といったカテゴリーのいずれに属するかに応じて、そのカテゴリー毎に、所定の文字列(例えばプログラムについてはコンピュータ等へのインストールに言及する文字列等)を、特定してもよいし、一律に、所定の文字列を、特定してもよい。具体例として、発明文書のクレームの請求項1〜4の請求対象の重要語句が、順に、「照明制御装置」、「照明制御装置」、「照明制御方法」、「照明制御プログラム」であり、請求項2が請求項1を引用している場合において、クレーム情報生成部205aは、「発明を実施するための形態」の欄の一部(例えば先頭部分等)に記載する内容として、例えば、「本開示における照明制御装置は、■請求項1。これにより、■{理由等}、■{効果:〜できる/〜し得る/〜の可能性が高まり得る/〜に有用であり得る等}。ここで、■請求項2としてもよい。これにより、■{理由等}、■{効果:〜できる/〜し得る/〜の可能性が高まり得る/〜に有用であり得る等}。また、本開示における照明制御方法は、■請求項3。これにより、■{効果}。また、本開示における照明制御プログラムは、■請求項4。この照明制御プログラムをマイクロプロセッサ(Microprocessor)を備える機器等にインストールすることで、その機器等は、■{プログラム実現内容等:照明制御方法、照明制御機能等}を実現し得る。従って、この照明制御プログラムにより、■{効果}が実現され得る。なお、上述した照明制御装置及びこれに関連する技術は、機器、装置、集積回路、システム、方法、コンピュータプログラム、コンピュータで読み取り可能な記録媒体等の全体又は一部としての各種態様で具現化され得る。」を決定する。この記載内容は、複数の行に分割されてもよい。この記載内容において「■請求項n」というソリッドブロックを付加した請求項nの形式例で示した部分は、請求項n(nは自然数)の記載内容に、又は、その記載内容に対して予め定められた所定の変換処理(例えば、改行の削除、句点文字の削除、クレームの項を引用する引用記載部分の削除等を行う変換処理)を施した内容に、置換可能である部分であることを示す。なお、クレーム情報生成部205aは、この記載内容中の「■請求項n」の部分を、請求項nの記載内容に、又は、その記載内容に対して上述した所定の変換処理を施した内容に、置換しておくこととしてもよい。クレーム情報生成部205aは、この置換した後の記載内容における重要語句抽出部2051により抽出された重要語句のうち、符号決定処理により対応する符号が決定されている重要語句の直後に、対応する符号を挿入することとしてもよい。上述した所定の変換処理の具体的な一例としては、請求項5の内容が「請求項1記載の照明制御装置を搭載した自動車の・・・」という記載を含む場合において、その記載を「上述した照明制御装置を搭載した自動車の・・・」等と、引用先の請求項の記載内容が上述されていることを前提として「請求項」を用いない表現に、変換する例が挙げられる。
クレーム情報生成部205aは、例えば、クレームベース図面情報生成処理において生成したクレームベース図面情報及び図面種別情報、並びに、所定の文字列に基づいて、クレームベース明細書情報の「発明を実施するための形態」の欄の記載内容の一部を決定し得る。この所定の文字列の内容は、例えば、設定情報取得部201により取得された設定情報に含まれる未完成メッセージ情報により示される、記載支援用未完成メッセージである。具体例として、クレーム情報生成部205aは、「発明を実施するための形態」の欄の一部に、順次記載するために、クレームベース図面情報及び図面種別に基づいて、図面番号が小さい順に各図面に関連した次の記載を行う。即ち、クレーム情報生成部205aは、「発明を実施するための形態」の欄の一部に、図面番号が小さい順に各図面について、その図面の図面番号と図面種別とを含む文を記載し、その文に続いてその図面に含まれる要素間の関係に基づいてその各要素について、その要素を表す重要語句と、その重要語句を説明するために必要である場合においては他の重要語句と、その重要語句を説明するための記載支援用未完成メッセージとを含む文を記載する。なお、重要語句設定辞書取得部203により取得された重要語句設定辞書において、重要語句と対応付けてその重要語句を説明する文が含まれている場合には、クレーム情報生成部205aは、クレームベース明細書情報の「発明を実施するための形態」の欄において、その重要語句を説明するための記載支援用未完成メッセージの代わりに、又は、記載支援用未完成メッセージに付加して、その重要語句設定辞書におけるその重要語句に対応する、その重要語句を説明する文を記載してもよい。重要語句を説明するために必要である、他の重要語句、及び、重要語句を説明するための記載支援用未完成メッセージは、例えば、「重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係」、「重要語句が表す要素の記録内容」、重要語句が表す要素の実現内容」等といった重要語句の属性、及び、重要語句に応じて定められ得る。クレーム情報生成部205aは、例えば、発明文書のクレームから重要語句抽出部2051により抽出された複数の重要語句各々についての、その重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係、その重要語句が表す要素の記録内容、又は、その重要語句が表す要素の実現内容に基づいて定められた、その重要語句を説明するための記載支援用未完成メッセージに基づいて、クレームベース明細書情報における「発明を実施するための形態」の見出しに後続する記載内容の一部を決定し得る。クレーム情報生成部205aは、例えば、発明文書のクレームから重要語句抽出部2051により抽出された複数の重要語句各々について、その重要語句が表す要素が、他の重要語句が表す要素を構成上包含するか、又は、他の重要語句が表す要素に構成上包含されるときには、その重要語句、及び、その他の重要語句の、構成上の包含関係に基づいて、その重要語句に対して符号を決定する符号決定処理を行い得る。クレーム情報生成部205aは、クレームベース明細書情報における「発明を実施するための形態」の見出しに後続する記載内容の少なくとも一部に含まれる重要語句のうち、符号決定処理において重要語句に対して符号が決定されている重要語句については、その重要語句の直後にその符号を挿入する。具体的な一例として、クレームベース図面情報において「図1」が主要な重要語句「制御システム」の「構成図」であり、「制御システム」が「人感センサ」と「制御内容決定装置」と「照明制御信号送信装置」とを構成上包含しており、「制御システム」に対応する符号が「10」、「人感センサ」に対応する符号が「11」、「制御内容決定装置」に対応する符号が「12」、「照明制御信号送信装置」に対応する符号が「13」と決定されている場合においては、クレーム情報生成部205aは、クレームベース明細書情報における「発明を実施するための形態」の欄の一部に、「図1は、制御システム10の構成の一例を示す構成図である。制御システム10は、■{制御システム10の説明(機能/作用/動作原理/属性/形状/サイズ/材質/態様/入出力/生成関連情報等)}。制御システム10は、人感センサ11と、制御内容決定装置12と、照明制御信号送信装置13とを含む。人感センサ11は、■{人感センサ11の説明}。制御内容決定装置12は、■{制御内容決定装置12の説明}。照明制御信号送信装置13は、■{照明制御信号送信装置13の説明}。」という文字列を記載する。クレーム情報生成部205aは、例えば、クレームベース明細書情報における「発明を実施するための形態」の欄の一部に「図1」に関連する記載をした後に、その記載に後続するように、図2に関連する記載をする。なお、クレームベース図面情報が示す複数の図面に同一の要素が含まれる場合もあるので、クレーム情報生成部205aは、冗長な記載を防止すべく、クレームベース明細書情報における「発明を実施するための形態」の欄において、同一内容の文を、重複的に複数記載しないこととしてもよい。クレーム情報生成部205aは、例えば、発明文書取得部2021が取得した発明文書のクレームから重要語句抽出部2051が抽出した全ての重要語句のうち、クレームベース明細書情報における「発明を実施するための形態」の欄で上述の各図面に関連した説明等に用いられていない重要語句がある場合には、その説明等に用いられていない重要語句を説明するための記載支援用未完成メッセージを含む文を、「発明を実施するための形態」の欄に追記し得る。これにより、クレームベース明細書情報における「発明を実施するための形態」の欄に、発明文書のクレームに記載された全ての重要語句の説明が網羅され得る。
なお、クレーム情報生成部205aの変形例としては、クレーム情報生成部205aは、例えば、クレームベース図面情報及び図面種別情報を用いずに、発明文書のクレーム中に表されていた重要語句間の包含関係に基づいてその重要語句間の包含関係を示す文章をクレームベース明細書情報における「発明を実施するための形態」の見出しに後続する記載内容の一部として決定してもよい。また、クレーム情報生成部205aの別の例としては、クレーム情報生成部205aは、発明文書のクレームから重要語句抽出部2051により抽出された複数の重要語句各々についての、その重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係、その重要語句が表す要素の記録内容、又は、その重要語句が表す要素の実現内容に基づいて定められた、その重要語句を説明するための記載支援用未完成メッセージ等に基づいて、クレームベース明細書情報における「発明を実施するための形態」の見出しに後続する記載内容の一部を決定してもよい。例えば、クレームから抽出された重要語句「制御システム」が、重要語句「人感センサ」と重要語句「制御内容決定装置」と重要語句「照明制御信号送信装置」とを構成上包含している場合に、この例に係るクレーム情報生成部205aは、「発明を実施するための形態」の見出しに後続する記載内容の一部として、「制御システムは、例えば、人感センサと制御内容決定装置と照明制御信号送信装置とを含むものであってもよいし、例えば人感センサと制御内容決定装置と照明制御信号送信装置とのいずれかを含まないものであってもよい■{独立請求項に鑑みた必須要素か否かの判断、この実施形態例に盛り込むべき要素か否かの判断等に基づきこの文を適宜修正等して下さい)}。」等といった、包含の許容を表すが必ずしも包含関係を示している訳ではない、適宜修正されて利用されるための記載支援用未完成メッセージ付きの文字列を記載することとしてもよい。また、この文字列における各重要語句について、その重要語句の直後に、対応する符号を付記してもよい。これにより、発明者等又は弁理士は、クレームベース明細書情報を基にして、将来的な独立請求項の変更等に対応可能な実施形態例を含む明細書の作成を容易に行うことができる可能性がある。
クレーム情報生成部205aは、クレームベース明細書情報に、例えば、設定情報取得部201により取得された設定情報における定型文情報に従って、定型文を含ませ得る。また、クレーム情報生成部205aは、クレームベース明細書情報において、例えば、各行毎等に、段落番号を挿入し得る。
発明文書分析システム20において出力部208が、クレームベース明細書情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、クレーム情報生成部205aは、表示用文書としての特許出願関連情報に含まれるクレームベース明細書情報を生成する。図25は、ブラウザに表示された表示用文書としての特許出願関連情報におけるクレームベース明細書情報の一例を示す。図25は、図22に例示したクレーム情報に対応して生成されたクレームベース明細書情報の例である。図25では、便宜上、クレームベース明細書情報の一部を省略している。例えば、図25に例示したクレームベース明細書情報中のソリッドブロック及び始め波括弧「■{」と終わり波括弧「}」と文字列を挟んだ形式の記載支援用未完成メッセージ(例えば、重要語句「A部」に係る「■{A部11の説明}」という記載支援用未完成メッセージ)の表示要素は操作対応GUI要素とされ、マウスクリック操作等に応じて、発明文書取得部2021が取得した発明文書に関連する別の発明文書から、記載支援用未完成メッセージに係る重要語句を含む各行の記載を列挙する重要語句包含記載列挙処理が、実行されるように表示制御情報が付加されていることとしてもよい。この別の発明文書は、例えばユーザによる指定(例えば設定情報中での指定)により特定される1つ以上の発明文書である。この記載支援用未完成メッセージに係る重要語句包含記載列挙処理の実行用の操作対応GUI要素により、ユーザ(例えば発明者等又は弁理士)にとって、記載支援用未完成メッセージを、既存の発明文書を活用した適切な内容の文へ修正することが、容易となる可能性がある。例えば、重要語句「A部」に係る「■{A部11の説明}」という記載支援用未完成メッセージに係る重要語句包含記載列挙処理では、例えば、重要語句「A部」に、格助詞「は」又は格助詞複合「とは」が後続された記載を、その発明文書に関連する別の発明文書における検索対象としてもよい。これにより、重要語句包含記載列挙処理により、重要語句「A部」を主語として説明した文を含む行が列挙され得る。
クレーム情報生成部205aが生成する、表示用文書としての特許出願関連情報のクレームベース明細書情報部分は、例えば、上述したクレームベース明細書情報生成処理で生成した未完成の明細書に係るクレームベース明細書情報における各行の内容に対応する、1つ以上の表示要素を含み、その各項の各行内に重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する、1つ以上の表示要素を含む。具体例としては、クレーム情報生成部205aは、HTML文書においてクレームベース明細書情報を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、クレームベース明細書情報生成処理で生成した、未完成の明細書に係るクレームベース明細書情報の各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の各重要語句について、その重要語句に対応する表示要素を、<span>タグと</span>タグとでその重要語句を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。クレームベース明細書情報部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
クレーム情報生成部205aは、表示用文書におけるクレームベース明細書情報部分に含まれる見出し、重要語句、記載支援用未完成メッセージ、或いは、符号に対応する表示要素に、例えば、その表示要素についての表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。この表示制御情報については、例えば、上述した、表示用文書におけるクレーム情報中の表示要素に付加された表示制御情報と同様の方式で実現し得る。従って、表示用文書におけるクレームベース明細書情報部分に記載された重要語句の表示要素は、例えば、操作に応じて、表示用文書におけるクレーム情報中でのその重要語句を含む記載部分を表示するための操作対応GUI要素として機能し得る。クレーム情報生成部205aは、例えば、表示用文書におけるクレームベース明細書情報に含まれる重要語句の表示要素に、その表示要素の表示態様を制御するための表示制御情報を付加し、その表示制御情報は、その重要語句のその表示要素を、その表示要素の操作に応じて、表示用文書におけるクレーム情報中のその重要語句を含む記載部分を表示(例えばリンク表示)するためのGUIとして機能させるためのものである。ユーザ(例えば発明者等又は弁理士)は、ブラウザでクレームベース明細書情報を表示させることで、効率的に適切な明細書の作成が可能となり得る。また、ユーザは、作成した明細書を、クレームベース明細書情報の作成の基礎となった発明文書等に含ませて、クレーム及び明細書を含む発明文書を作成し得る。そして、ユーザは、クレーム及び明細書を含む発明文書を、再び、発明文書分析システム20により分析させることができ、発明文書の明細書の分析結果として出力される警告情報、明細書情報等を含む特許出願関連情報を、利用できるようになる。
以下、表示用文書におけるクレームベース明細書情報部分に含まれる符号に対応する表示要素に付加される表示制御情報の例について説明する。
クレーム情報生成部205aは、クレームベース明細書情報に符号が含まれる場合に、その符号を、操作に応じて表示用文書におけるクレームベース図面情報におけるその符号と同一の符号を含む部分を表示するためのGUIの機能を有する表示要素とするための表示制御情報を、その符号の表示要素に付加することとしてもよい。この表示制御情報は、例えば、操作に応じて符号を引数として起動されるスクリプトの関数の関数名又はその関数自体を定義するものであり、その関数は、例えば、引数の符号を含む、クレームベース図面情報中の部分を、その符号を検索することで、特定するように定められる。クレーム情報生成部205aは、例えば、クレームベース明細書情報中の符号に対する操作に応じて、クレームベース図面情報におけるその符号と同一の符号を含む部分を表示するための表示制御情報に係る関数を、ブラウザで表示されて操作がなされたその符号の表示要素が隠れない範囲に、クレームベース図面情報におけるその符号と同一の符号を含む部分を表示するように定めておくこととしてもよい。クレーム情報生成部205aは、例えば、ブラウザによる表示画面を複数の表示領域に分割し、クレームベース明細書情報の表示領域と、クレームベース明細書情報中の符号に係る操作に応じて表示されるクレームベース図面情報の一部分等の表示領域とを並列的に表示してもよい。クレーム情報生成部205aは、例えば、符号に対する表示要素に付加する表示制御情報により、その符号に対する操作に応じて起動される関数を、更なる操作に応じてクレームベース図面情報におけるその符号と同一の符号を含む複数の部分(例えばその符号を含む2以上の図面)を切り替えて表示する処理を実行するように定めてもよいし、クレームベース図面情報におけるその符号と同一の符号を含む全ての部分を必要に応じて縮小して一括表示する処理を実行するように定めてもよい。クレーム情報生成部205aは、例えば、クレームベース明細書情報中の符号に対する操作に応じて、クレームベース図面情報におけるその符号と同一の符号を含む部分を表示するための表示制御情報に係る関数を、クレームベース図面情報におけるその符号と同一の符号を強調表示するように定めておくこととしてもよい。
以下、表示用文書におけるクレームベース明細書情報部分に含まれる記載支援用未完成メッセージに対応する表示要素に付加される表示制御情報の例について説明する。
クレーム情報生成部205aは、クレームベース明細書情報に記載支援用未完成メッセージが含まれる場合に、その記載支援用未完成メッセージの内容を、操作に応じて変更するためのGUIの機能を有する表示要素(つまり操作対応GUI要素)とするための表示制御情報を、その記載支援用未完成メッセージの表示要素(例えば<span>タグ等を記載支援用未完成メッセージに付加して構成される表示要素)に付加することとしてもよい。表示制御情報の付加は、例えば記載支援用未完成メッセージに付加された<span>タグ内に操作を示す情報及び操作で起動される関数を示す情報を記載すること等で実現される。この表示制御情報は、記載支援用未完成メッセージに重要語句が含まれる場合に操作に応じて上述の重要語句包含記載列挙処理を実行するスクリプトを起動するための情報であり、或いは、以下に例示する処理等を、実行するスクリプトを起動するための情報である。この表示制御情報は、例えば、操作に応じて記載支援用未完成メッセージを引数として起動されるスクリプトの関数の関数名又はその関数自体を定義するものであり、その関数は、例えば、引数の記載支援用未完成メッセージを既定値とする入力フィールドを表示し、入力フィールドに対する編集操作を反映して、編集操作結果の文字列を、元の記載支援用未完成メッセージの代わりに表示要素の表示内容とするように定められる。また、クレーム情報生成部205aは、例えば、クレームベース明細書情報に含ませた「X装置1は、」という主語に続く記載支援用未完成メッセージが、例えば、「■{X装置1の説明(機能/作用/動作原理/属性/形状/サイズ/材質/態様/入出力/生成関連情報等)}」である場合、つまり、「機能/作用/動作原理/属性/形状/サイズ/材質/態様/入出力/生成関連情報」といった選択肢を列挙したメッセージである場合に、その記載支援用未完成メッセージを選択肢の選択操作を可能とするためのGUIの機能を有する表示要素とするための表示制御情報を、その記載支援用未完成メッセージの表示要素に付加することとしてもよい。そして、クレーム情報生成部205aは、表示制御情報に係るスクリプトの関数を、表示されている記載支援用未完成メッセージの選択肢の選択操作がなされた場合に、その記載支援用未完成メッセージの内容を、選択操作された選択肢に適した別の予め定められた記載支援用未完成メッセージ(例えば機能、作用、動作、原理、属性、形状、サイズ、材質、態様、入出力、或いは、生成関連情報といった選択肢毎にその説明を行うために適した未完成の例文のうち、選択肢に対応する1つの例文を含む記載支援用未完成メッセージ)へと変更するように、定めておくこととしてもよい。例えば、この例の選択肢を含む記載支援用未完成メッセージのGUIに対して、「入出力」が選択操作された場合には、その選択肢を含む記載支援用未完成メッセージは、「入出力」に適した例えば「■{(どこ)から(何)が入力され、X装置1はその入力を受けてX装置1の処理結果としての(何)を(どこ)へ出力する}」といった記載支援用未完成メッセージへと変更される。
[3−1−5−7−4.クレームベース要約書情報の生成]
クレーム情報生成部205aは、クレームベース要約書情報生成処理を、発明文書取得部2021により取得された発明文書に含まれるクレームに基づいて、クレームベース要約書情報を生成することにより実現する。クレームベース要約書情報は、未完成の要約書の内容を表す。クレームベース要約書情報は、そのまま特許出願用の要約書として利用できる程度に完成した内容である必要はない。
クレームベース要約書情報は、例えば、日本国の特許出願の要約書と同様の見出し(例えば「要約」、「選択図」等)を含み、その各見出しに後続した記載内容を含む。
クレーム情報生成部205aは、発明文書取得部2021により取得された発明文書に含まれるクレームの最初の項(例えば請求項1)の内容と、予め定められた所定の文字列とに基づいて、「要約」の欄の記載内容を決定する。この所定の文字列の内容は、例えば、設定情報取得部201により取得された設定情報に含まれる未完成メッセージ情報により示される、記載支援用未完成メッセージである。具体例としては、クレーム情報生成部205aは、未完成の要約書に係るクレームベース要約書情報における「要約」の欄に、「課題」の見出しに後続して、例えば「■{技術的課題/効果:〜の低減/〜の向上等}に有用な制御システムを提供する。」等といった、要約書の課題のための記載支援用未完成メッセージと、クレームの最初の項の請求の対象である重要語句とを含む文を記載し、「解決手段」の見出しに後続して、発明文書に含まれるクレームの最初の項の内容に、改行削除処理、請求の対象を主語とする処理等の変換処理を施した結果を記載して、その記載のおける各重要語句の直後に、その重要語句に対応する符号(例えば重要語句の一属性としての「符号」の内容)を挿入する。これにより、「解決手段」の見出しに後続する記載内容は、例えば、「制御システム10は、人感センサ11と、制御内容決定装置12と、照明制御信号送信装置13とを含む。」となる。クレーム情報生成部205aは、例えば、「要約」の欄の文字数が所定の上限(例えば400)を超える場合に、その旨を示すメッセージを、クレームベース要約書情報中に含ませてもよい。
クレーム情報生成部205aは、クレームベース要約書情報における「選択図」の欄には、例えば、通常の発明文書においてはクレームの1つの請求対象に関連する特徴的事項を表す図の図面番号を1と定める可能性が比較的高いとの推定等に基づいて、「図1」を記載する。なお、発明文書で用いる図の順により何らかの効果を狙う場合等もあり、発明文書においてクレームの1つの請求対象に関連する図の図面番号を、必ずしも1とする必要はない。
別の例としては、クレーム情報生成部205aは、例えば、クレームベース要約書情報における「選択図」の欄には、文字「図」に後続して、クレームの最初の項に含まれる、重要語句抽出部2051により抽出された重要語句が表す要素を最も多く含む図面の図面番号を記載する。
クレーム情報生成部205aは、クレームベース要約書情報生成処理により生成するクレームベース要約書情報に、日本国の特許出願の未完成の要約書とは別に、米国出願用の日本語版の要約書(つまり要約書の翻訳用和文原稿)に相当する記載内容を含ませることとしてもよい。クレーム情報生成部205aは、米国出願用の日本語版の要約書に相当する記載内容として、例えば、発明文書に含まれるクレームの最初の項の内容に、改行削除処理、請求の対象を主語とする処理等の変換処理を施した結果を用いる。クレーム情報生成部205aは、例えば、米国出願用の日本語版の要約書に相当する記載内容を、翻訳部2054に機械翻訳させた結果の単語数が、所定の上限(例えば150語)を超える場合に、文字数の削減が望ましい旨等を示すメッセージを、クレームベース要約書情報中に含ませてもよい。
クレーム情報生成部205aは、クレームベース要約書情報生成処理により生成するクレームベース要約書情報に、日本国の特許出願の未完成の要約書とは別に、日本語の国際出願の未完成の要約書に相当する記載内容を含ませることとしてもよい。クレーム情報生成部205aは、日本語の国際出願の未完成の要約書に相当する記載内容として、例えば、発明文書に含まれるクレームの最初の項の内容に、改行削除処理、請求の対象を主語とする処理等の変換処理を施した結果を含ませて、各重要語句の直後に、その重要語句に対応する符号(例えば重要語句の一属性としての「符号」の内容、或いは、符号決定処理により決定した符号)を始め丸括弧及び終わり丸括弧で挟んで挿入する。
発明文書分析システム20において出力部208が、クレームベース要約書情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、クレーム情報生成部205aは、表示用文書としての特許出願関連情報に含まれるクレームベース要約書情報を生成する。
クレーム情報生成部205aが生成する、表示用文書としての特許出願関連情報のクレームベース要約書情報部分は、例えば、上述したクレームベース要約書情報生成処理で生成したクレームベース要約書情報の各行の内容に対応する、1つ以上の表示要素を含み、その各行内に重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する、1つ以上の表示要素を含む。具体例としては、クレーム情報生成部205aは、HTML文書においてクレームベース要約書情報を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、クレームベース要約書情報生成処理で生成した、クレームベース要約書情報の内容となる各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の各重要語句について、その重要語句に対応する表示要素を、<span>タグと</span>タグとでその重要語句を挟むことで記述する。クレームベース要約書情報の各行のうち、その行の内容に、見出し、記載支援用未完成メッセージ、又は、符号が含まれる場合に、その行の表示要素は、その見出し、記載支援用未完成メッセージ、又は、符号に対応する表示要素を、含み得る。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。クレームベース要約書情報部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
クレーム情報生成部205aは、表示用文書におけるクレームベース要約書情報部分に含まれる見出し、重要語句、記載支援用未完成メッセージ、或いは、符号に対応する表示要素に、例えば、その表示要素についての表示態様の制御(例えば強調表示、色付き表示等)をするための表示制御情報を付加する。
[3−1−5−7−5.修正版クレーム情報の生成]
クレーム情報生成部205aは、修正版クレーム情報生成処理を、発明文書取得部2021により取得された発明文書に含まれるクレームを修正した修正版クレーム情報を生成することにより実現する。修正版クレーム情報は、クレーム情報生成処理によって生成されるクレーム情報の一部を修正したものである。ユーザは、例えば、修正版クレーム情報の内容を、発明文書のクレームとして用いて、その発明文書を、再び発明文書分析システム20で分析させることにより、新たに発明文書評価情報を含む警告情報等で構成される特許出願関連情報を得ることが可能となる。
[3−1−5−7−5−1.不適切な記載についての修正及び不要な記載の削除]
クレーム情報生成部205aは、発明文書取得部2021により取得された発明文書のクレーム中の記載が、警告情報生成部2059で指摘情報を生成する対象となるような場合において、予め修正方法が定められているときには、その修正方法に従って、その記載を修正することで、修正版クレーム情報を生成する。以下、クレームの記載の修正による修正版クレーム情報の生成の具体例を説明する。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレーム中の記載が、翻訳用発明文書標準規定取得部204により取得された翻訳用発明文書標準規定(図14参照)において修正情報が付加されている条件項目のパターン情報が示すパターンに該当する場合に、その修正情報に基づいて、クレーム中の記載を修正することで、修正したクレームを表す修正版クレーム情報を生成する。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームの各項の番号(例えば各項先頭行の「請求項n」という見出しの「n」の部分に記載されたアラビア数字の文字列が表す番号)が行順に沿って連続番号となっていない場合には、行順に沿って1から始まる連続番号となるように、クレームの各項の番号を修正し、更に、いずれかのクレームの項中に他の項を引用した他項引用記載部分があれば、修正後の各項の番号に呼応するように、他項引用記載部分における引用先項番を修正することで、修正版クレーム情報を生成する。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームの各項の番号(例えば各項先頭行の「請求項n」という見出しの「n」の部分に記載された文字列が表す番号)に半角文字と全角文字とが混在している場合には、その一方の種類の文字(例えば全角文字)となるようにクレームの各項の番号を修正し、更に、いずれかのクレームの項中に他の項を引用した他項引用記載部分における引用先項番がその一方の種類の文字でないような記載が含まれている場合には、他項引用記載部分における引用先項番をその一方の種類の文字(例えば全角文字)に修正することで、修正版クレーム情報を生成する。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームに、隅付き括弧内に記載された「数n」といった見出しで表される数式の記載が含まれる場合において、その数式の番号が行順に沿って、枝番を考慮した上でも連続番号となっていないときには、行順に沿って連続番号となるように修正することで、修正版クレーム情報を生成する。クレーム情報生成部205aは、この数式の番号の修正と同様に、例えば、化学式、或いは、表の修正を行い得る。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームに、設定情報取得部201により取得された設定情報のコメント特定用情報に基づいて特定できるコメント行又はコメントが含まれている場合に、そのコメント行又はコメントを削除することで、修正版クレーム情報を生成する。なお、修正版クレーム情報においてクレーム中のコメント行又はコメントを削除する機能を実行するか抑止するかについては、設定情報取得部201により取得される設定情報中等で、指定可能にしてもよい。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームに、読点文字「、」が連続する記載か、句点文字「。」が連続する記載かが含まれている場合に、その読点文字「、」を1つにし、又は、その句点文字「。」を1つにするように修正することで、修正版クレーム情報を生成する。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームの行末に全角若しくは半角の空白文字又はタブが含まれている場合には、その空白文字又はタブを削除することで、修正版クレーム情報を生成する。また、クレーム情報生成部205aは、クレームの行末の改行コードを、予め定められた行末用の所定のコードでなかった場合にその行末用の所定のコードに修正することで、修正版クレーム情報を生成することとしてもよい。この行末用の所定のコードは、例えば、0x0dと0x0aとをこの順に並べて構成されるコード等である。行末用の所定のコードは、設定情報取得部201により取得される設定情報等で指定可能としてもよい。クレーム情報生成部205aは、例えば、改行コードの、行末用の所定のコードへの修正を、特許出願関連情報が、表示用文書としてではなく、例えばテキストファイル等として出力される場合に限って、実行することとしてもよい。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームに半角文字が含まれている場合には、その半角文字を、対応する全角文字に変更することで、修正版クレーム情報を生成する。この場合に、クレーム情報生成部205aは、発明文書のクレームにおいて始め丸括弧と終わり丸括弧とで挟まれた英字の半角文字が含まれているときには、全角文字への変更を行わないこととしてもよい。また、クレーム情報生成部205aは、発明文書のクレームの各項の番号が全て半角文字で統一されている場合においては、その各項の番号の全角文字への変更を行わないこととしてもよい。発明文書のクレームに半角文字が含まれている場合に全角文字に変更する対象となる半角文字の種類(例えば英字、片仮名文字、記号等)、文字コード範囲等を、設定情報取得部201により取得される設定情報等で指定可能として、その指定に従ってクレーム情報生成部205aは、修正版クレーム情報の生成のためのクレーム中の半角文字の全角文字への変更を行うこととしてもよい。また、逆に、発明文書のクレームに全角文字が含まれている場合に半角文字に変更する対象となる全角文字の種類、文字コード範囲等を、設定情報取得部201により取得される設定情報等で指定可能として、その指定に従ってクレーム情報生成部205aは、修正版クレーム情報の生成のためのクレーム中の全角文字の半角文字への変更を行うこととしてもよい。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームの各行の行頭に1つ以上の半角の空白文字が含まれている場合に、その1つ以上の半角の空白文字を1つの全角の空白文字に変更することで、修正版クレーム情報を生成する。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームの各行の行頭以外の部分に2つ以上の半角の空白文字が連続して含まれている場合に、その2つ以上の半角の空白文字を1つの半角の空白文字に変更することで、修正版クレーム情報を生成する。これは、例えば、英単語間に誤って複数の空白文字を挟んだ記載を修正するために有用となる。例えば、各文末等に意図的に複数の空白を入れた英文等を、発明文書におけるクレーム中に表記する必要があるような場合を想定して、この修正を行わないことを設定情報等でユーザが選択可能とし、設定情報に従ってこの修正の抑止がなされ得るようにしてもよい。
[3−1−5−7−5−2.指定された形式に適合させる修正]
設定情報取得部201が取得した設定情報に、修正版クレーム情報におけるクレームの形式に関して指定する情報が含まれる場合には、クレーム情報生成部205aは、発明文書のクレームをその指定に従った形式となるように修正することで、修正版クレーム情報を生成する。
設定情報に含まれる、修正版クレーム情報におけるクレームの形式に関して指定する情報の一例としては、クレーム中の語句に対して対応する符号がある場合にその符号をその語句に付加するか否かについて指定した情報が挙げられる。語句に対して対応する符号がある場合とは、その語句に対して符号決定処理により決定された符号がある場合、発明文書取得部2021により取得された発明文書(例えばクレーム、明細書等)においてその語句に対して符号が付加された記載がある場合、発明文書の明細書の「符号の説明」の欄においてその語句に対応する符号の記載がある場合等である。
設定情報取得部201が取得した設定情報に、クレーム中の語句に対して対応する符号がある場合においてその符号をその語句に付加することを指定した情報が含まれるときには、クレーム情報生成部205aは、発明文書のクレーム中の、重要語句抽出部2051により抽出された重要語句のうち、対応する符号がある重要語句に符号が付加されていない記載部分について、その重要語句の記載部分の直後に始め丸括弧と終わり丸括弧とで挟んだその符号の記載を挿入することで、修正版クレーム情報を生成する。なお、重要語句に対応する符号が複数存在する場合には、クレーム情報生成部205aは、例えば、複数の符号に対する自然順等のソートにより最先となる符号の1つを選択して、その選択した1つの符号を、重要語句の後への挿入に用いることとしてもよい。また、設定情報取得部201が取得した設定情報に、クレーム中の語句に対して対応する符号がある場合においてその符号をその語句に付加しないことを指定した情報が含まれるときには、クレーム情報生成部205aは、クレーム中の、重要語句抽出部2051により抽出された重要語句のうち、対応する符号がある重要語句に符号が付加されている記載部分について、その記載部分における符号に係る記載(例えば、始め丸括弧と終わり丸括弧とで挟んだ符号の記載)を削除することで、修正版クレーム情報を生成する。
設定情報取得部201が取得した設定情報に、修正版クレーム情報におけるクレームの形式に関して指定する情報として、例えば、クレームの各項において、請求対象の記載又は引用先の項の指定から請求対象までの記載に、先行する記載部分が、「と」、「と、」及び省略のいずれかの第1部分と、改行及び省略のいずれかの第2部分と、「を含む」、「を備える」、「を備えることを特徴とする」、「を含むことを特徴とする」のいずれかの第3部分と、改行及び省略のいずれかの第4部分とが、この順に連なって構成される場合において、第1部分〜第4部分の各々を指定した文字列又は省略に変更することを指定する情報が含まれるときには、クレーム情報生成部205aは、発明文書のクレームをその指定に従った形式となるように修正することで、修正版クレーム情報を生成する。
[3−1−5−7−5−3.クレームの項の追加]
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームに、構成要件列挙型で物のカテゴリーに属する請求対象を記載した独立項が存在し、方法のカテゴリーに属する請求対象を記載した項が存在しない場合に、物のカテゴリーに属する請求対象を記載したその独立項に対して、予め定められた、文字列の変換処理を行うことで、その独立項とある程度同様の内容を表すような、方法のカテゴリーに属する請求対象を記載した項を生成し、生成した項を発明文書のクレームの最終項の後に追加することで、修正版クレーム情報を生成する。なお、クレーム情報生成部205aは、発明文書のクレームの項が独立項か否かを、例えば、クレーム引用関係検出部2057が保持するクレーム引用関係情報に基づいて判別可能である。クレーム情報生成部205aは、発明文書のクレームの項の記載が構成要件列挙型であるか否かを如何なる方式で判別してもよい。クレーム情報生成部205aは、例えば、発明文書のクレームの項のいずれかの行の行末に、「と」又は「と、」という文字列が存在する場合に、その項の記載が構成要件列挙型であると推定的に判別し得る。
クレーム情報生成部205aは、例えば、発明文書取得部2021により取得された発明文書のクレームに、構成要件列挙型で方法のカテゴリーに属する請求対象を記載した独立項が存在し、プログラムのカテゴリー又はプログラム記録媒体のカテゴリーに属する請求対象を記載した項が存在しない場合に、方法のカテゴリーに属する請求対象を記載したその独立項に対して、予め定められた、文字列の変換処理を行うことで、或いは、その独立項を引用した項の生成処理を行うことで、その独立項とある程度同様の内容を表すような、プログラムのカテゴリーに属する請求対象を記載した項、又は、プログラム記録媒体のカテゴリーに属する請求対象を記載した項を生成し、生成した項を発明文書のクレームの最終項の後に追加することで、修正版クレーム情報を生成する。
設定情報取得部201が取得する設定情報に、修正版クレーム情報に、上述した方法のカテゴリー、プログラムのカテゴリー及びプログラム記録媒体のカテゴリーのいずれかに属する請求対象を記載したクレームの項の追加をするか否かについて指定する情報を含ませることとし、クレーム情報生成部205aは、その指定に応じて、修正版クレーム情報へのクレームの項の追加の、実行又は抑止を行うこととしてもよい。
クレーム情報生成部205aは、修正版クレーム情報へのクレームの項の追加を行う場合に、例えば、クレーム引用関係検出部2057に、クレーム情報におけるクレームの各項間の引用関係を表すこととなるクレーム引用関係情報に加えて、修正版クレーム情報におけるクレームの各項間の引用関係を表す修正版クレーム引用関係情報を、生成させ、保持させる。
[3−1−5−7−5−4.出願先となり得る各地域に対応したクレームの追加]
クレーム情報生成部205aは、上述した修正版クレーム情報生成処理を行って、発明文書に含まれるクレームを上述した不適切な記載についての修正及び不要な記載の削除、指定された形式に適合させる修正、クレームの項の追加等によって修正済みのクレームを表す修正版クレーム情報を生成した後において、その修正したクレームの記載に基づいて、出願先となり得る各地域(例えば米国、欧州等)に対応したクレームを生成して、生成した各クレームを、その修正版クレーム情報に、更に含ませてもよい。
クレーム情報生成部205aは、例えば、設定情報取得部201が取得する設定情報に、出願先として予定する地域に向けて修正版クレーム情報を生成するときに用いられる修正方法を定義した修正情報を含む場合に、その修正情報に従って修正したクレームを、修正版クレーム情報に追加することとしてもよい。
また、例えば、設定情報取得部201が取得する設定情報に、クレームを生成すべき出願先となり得る地域を指定する情報を含ませることとして、クレーム情報生成部205aは、その指定された地域に対応したクレームを生成して、修正版クレーム情報に追加することとしてもよい。この追加されたクレームは、出願先への特許出願のための翻訳用和文原稿におけるクレームとして、活用可能なものとなり得る。また、例えば、設定情報取得部201が取得する設定情報に、クレームを生成すべき出願先となり得る地域に出願するために有用となるクレームの修正内容を指定する情報を含ませることとして、クレーム情報生成部205aは、その指定されたクレームの修正内容に対応したクレームを生成して、修正版クレーム情報に追加することとしてもよい。クレームの修正内容を指定する情報の例としては、クレームにおいて複数項を引用した1つの項を、その複数項のうちの1つだけを引用した1つの項に変更することを指定する情報、クレームにおいて複数項を引用した1つの項を、各々がその複数項のうちの相互に異なる1つだけを引用する、その複数と同数の項に変更することを指定する情報、クレームにおいて複数項を引用した1つの項の引用先のいずれかの項が複数の項を引用している場合にその1つの項をその複数項のうちの1つだけを引用した1つの項に変更することを指定する情報等が、挙げられる。これらの設定情報の指定に対応して、クレーム情報生成部205aが、修正版クレーム情報に追加するクレームの各項(つまりクレームセット)に対して、クレーム情報生成部205aは、設定情報での指定に呼応した見出しを付加してもよい。修正版クレーム情報に追加するクレームセットに対する見出しの一例としては、「米国向けクレーム」、「欧州向けクレーム」、「複数従属解消クレーム」、「多重複数従属解消クレーム」等が、挙げられる。
以下、クレーム情報生成部205aによる、出願先となり得る各地域に対応したクレームの生成の具体例について、説明する。
設定情報取得部201により取得された設定情報が、出願先となり得る地域として米国を指定する情報を含む場合、或いは、クレームにおいて複数項を引用した1つの項を、その複数項のうちの1つだけを引用した1つの項に変更することを指定する情報を含む場合において、クレーム情報生成部205aは、例えば、修正済みのクレームを表す修正版クレーム情報(つまり上述した修正について施した状態のクレーム情報)中のクレームに、複数項を引用した1つの項があるときには、その項を、その複数項のうちの項番の最も小さい1つだけを引用した項に変更した、クレームの各項を、更に、元の修正済みのクレームを表す修正版クレーム情報に追加する。また、設定情報取得部201により取得された設定情報が、出願先となり得る地域として米国を指定する情報を含む場合に、クレーム情報生成部205aは、クレームの項数が所定数(例えば20)を超えない範囲で、クレームにおける複数項を引用した1つの項を、例えば、その複数項のうちの項番の最も小さい1つだけを引用した項と、その複数項のうちの項番の次に小さい1つだけを引用した項との2つの項に変更したクレームの各項を、更に、元の修正済みのクレームを表す修正版クレーム情報に追加することとしてもよい。なお、米国の特許出願で、クレームにおいて複数項を引用した項の記載は必ずしも不適切ではないが、このような変更が有用な場合もあり得る。
設定情報取得部201により取得された設定情報が、クレームにおいて複数項を引用した1つの項の引用先のいずれかの項が複数の項を引用しているときにその1つの項をその複数項のうちの1つだけを引用した1つの項に変更することを指定する情報を、含む場合において、クレーム情報生成部205aは、例えば、修正済みのクレームを表す修正版クレーム情報中のクレームに、複数項を引用した1つの項の引用先のいずれかの項が複数の項を引用しているときにその1つの項を、その複数項のうちの項番が最小の項を引用する項に変更し、その項番が最小の項が複数の項を引用しているときには更に、その項番が最小の項を、引用している複数の項のうち項番が最小の項を引用する項に変更して、変更後のクレームの各項を、更に、元の修正済みのクレームを表す修正版クレーム情報に追加する。
設定情報取得部201により取得された設定情報が、出願先となり得る地域として米国を指定する情報を含む場合において、クレーム情報生成部205aは、例えば、修正済みのクレームを表す修正版クレーム情報中のクレームに、プログラムのカテゴリーに属する請求対象を記載した項が含まれ、その項のプログラムの記載と相関性が所定基準より高いプログラムの記載を含むプログラム記録媒体のカテゴリーに属する請求対象を記載した項が別途含まれているときには、そのプログラムのカテゴリーに属する請求対象を記載した項を削除した後のクレームの各項を、更に、元の修正済みのクレームを表す修正版クレーム情報に追加する。
設定情報取得部201により取得された設定情報が、出願先となり得る地域として米国を指定する情報を含む場合において、クレーム情報生成部205aは、例えば、修正済みのクレームを表す修正版クレーム情報中のクレームに、プログラムのカテゴリーに属する請求対象を記載した項が含まれ、その項のプログラムの記載と相関性が所定基準より高いプログラムの記載を含むプログラム記録媒体のカテゴリーに属する請求対象を記載した項が別途含まれていないときには、そのプログラムのカテゴリーに属する請求対象を記載した項の内容に、予め定められた所定の文字列の変換処理を施すことで、その項を、そのプログラムのカテゴリーに属する請求対象を非一時的に記録した記録媒体を、請求対象とする項に変更し、変更後のクレームの各項を、更に、元の修正済みのクレームを表す修正版クレーム情報に追加する。
設定情報取得部201により取得された設定情報が、出願先となり得る地域として欧州を指定する情報を含む場合に、クレーム情報生成部205aは、例えば、修正済みのクレームを表す修正版クレーム情報中のクレームにおける重要語句抽出部2051により抽出された重要語句のうち、対応する符号がある重要語句に符号が付加されていない記載部分について、その重要語句の記載部分の直後に始め丸括弧と終わり丸括弧とで挟んだその符号の記載を挿入し、挿入後のクレームの各項を、更に、元の修正済みのクレームを表す修正版クレーム情報に追加する。重要語句に対応する符号は、例えば、符号決定処理により決定された符号、発明文書取得部2021により取得された発明文書(例えばクレーム、明細書等)においてその重要語句に対して符号が付加された記載があるところのその符号、或いは、発明文書の明細書の「符号の説明」の欄においてその重要語句に対応する符号の記載があるところのその符号である。なお、重要語句に対応する符号が複数存在する場合には、クレーム情報生成部205aは、例えば、複数の符号に対する自然順等のソートにより最先となる符号の1つを選択して、その選択した1つの符号を、重要語句の後への挿入に用いることとしてもよい。
クレーム情報生成部205aは、修正版クレーム情報への、出願先となり得る各地域等に対応したクレームの各項(つまりクレームセット)の追加を行う場合に、例えば、クレーム引用関係検出部2057に、クレーム情報におけるクレームの各項間の引用関係を表すこととなるクレーム引用関係情報に加えて、修正版クレーム情報におけるクレームセット毎についての、クレームの各項間の引用関係を表す修正版クレーム引用関係情報を、生成させ、保持させる。
[3−1−5−7−5−5.表示用文書における修正版クレーム情報部分の生成]
発明文書分析システム20において出力部208が、修正版クレーム情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、クレーム情報生成部205aは、表示用文書としての特許出願関連情報に含まれる修正版クレーム情報を生成する。
クレーム情報生成部205aが生成する、表示用文書としての特許出願関連情報の修正版クレーム情報部分は、例えば、修正版クレーム情報における修正したクレームの各項の各行の内容に対応する、1つ以上の表示要素を含み、その各項の各行内に重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する、1つ以上の表示要素を含み、その各項の各行内に、「請求項n」(nは自然数)等といった見出しが含まれている場合に、その見出しに対応する、1つ以上の表示要素を含む。具体例としては、クレーム情報生成部205aは、HTML文書において修正版クレーム情報を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、修正版クレーム情報としての修正済みのクレームの各項の各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の各重要語句について、その重要語句に対応する表示要素を、<span>タグと</span>タグとでその重要語句を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。修正版クレーム情報部分に含まれる各項の各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
クレーム情報生成部205aにより、生成される表示用文書における修正版クレーム情報中の1つの重要語句の表示要素の具体例を挙げると、修正版クレーム情報に重要語句「機器制御部」が複数記載されている場合における4番目の「機器制御部」に対応する表示要素は、例えば、「<span class=”c003” id=”revclaiminfo−c003−004” onclick=’wordProc(”revclaiminfo−c003−004”)’ title=”・・・(情報付加表示内容)・・・”>機器制御部</span>」等となる。この例では、重要語句「機器制御部」の識別コードは、「c003」であり、表示要素の<span>タグのid属性の値として、修正版クレーム情報の識別記号「revclaiminfo」と、重要語句の識別コード「c003」と、記載順の番号「004」とを含んだ文字列が定められている。また、この例では、表示要素に対するマウスクリック操作がなされた場合にid属性の値を引数としてwordProc関数が呼び出されるように定められている。これにより、wordProc関数では、例えば、引数から、その表示要素を特定して、表示要素に係る重要語句の文字列を参照する処理を実現することが可能となり、また、引数の一部から、重要語句の識別コード「c003」、記載順の番号「004」等を抽出して、例えば同一の重要語句の先頭の表示要素のid属性が「revclaiminfo−c003−001」であることを特定してその先頭の表示要素を表示させる処理を実現することが可能となり、例えば、修正版クレーム情報の全ての重要語句「機器制御部」の表示要素の表示内容を、ユーザに入力された文字列等に置換する処理を実現すること等が可能となる。
表示用文書における修正版クレーム情報部分の各表示要素は、ブラウザにより表示された場合に、例えば、その表示された内容(例えば複数行の内容)を、ユーザがコピー&ペースト等によって、文書作成編集機能を有するアプリケーションプログラム(例えばテキストエディタ等)等に取り込ませて、特許出願用のクレーム、又は、特許出願用のクレームの翻訳用和文原稿として活用可能なように、構成される。ユーザは、例えば、文書作成編集機能を有するアプリケーションプログラムに対する操作により、取り込ませた修正版クレーム情報部分の一部又は全部の内容を、自由に編集したり、ファイルに出力したりすることができる。また、コピー&ペースト、編集、出力等の操作を介して、ユーザは、修正版クレーム情報部分の一部又は全部の内容、或いは、その編集結果を、特許出願用アプリケーションプログラム(例えばインターネット出願ソフト)に取り込ませることができる。また、ユーザは、修正版クレーム情報の編集結果等を含む発明文書を、発明文書分析システム20の発明文書取得部2021に取得させ、再び分析させることで、分析結果としての警告情報等を含む特許出願関連情報を利用することができる。
クレーム情報生成部205aは、表示用文書における修正版クレーム情報部分に含まれる見出し、或いは、重要語句に対応する表示要素に、例えば、その見出し、或いは、重要語句についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。表示制御情報については、例えば、表示用文書としての特許出願関連情報におけるクレーム情報部分の表示要素に付加された表示制御情報と同様である。
クレーム情報生成部205aは、表示用文書における修正版クレーム情報部分に含まれる、発明文書のクレームから修正した記載部分を表示要素として、その表示要素について、下線を付加する等で強調した表示態様で表示するように、その表示要素に、例えば表示属性としてのtext−decorationプロパティ、border−bottomプロパティ等を調整する表示制御情報を付加することとしてもよい。表示用文書における修正版クレーム情報中で、発明文書のクレームから削除することで修正した記載部分については、文字列を挟まない<span></span>タグで構成した表示要素において表示属性のborderプロパティ等を調整して他と異なる幅の境界線を表示する等のようにした表示制御情報を付加することとしてもよい。修正版クレーム情報における、発明文書のクレームから修正した記載部分は、必ずしも適切な修正が施されているとは限らないので、その修正した記載部分を強調した表示態様で表示されるようにすることにより、ユーザは、警告情報及びクレーム情報を参考にして、修正版クレーム情報における修正が適切か否かを確認した上で、修正版クレーム情報の内容を活用することが、比較的容易となる。
[3−1−5−8.明細書情報生成部]
明細書情報生成部205bは、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれる明細書情報を、生成する明細書情報生成処理を実行する。明細書情報は、発明文書中の明細書に関する情報である。
明細書情報生成部205bは、例えば、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれる明細書見出しリストを、生成する明細書見出しリスト生成処理を実行し得る。明細書見出しリストは、発明文書中の明細書における各種の見出しを列挙したリストである。
明細書情報生成部205bは、例えば、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれる、発明文書の明細書を修正した修正版明細書情報を、生成する修正版明細書情報生成処理を実行し得る。
明細書情報生成部205bは、発明文書取得部2021により取得された発明文書に明細書が含まれない場合には、明細書情報生成処理、明細書見出しリスト生成処理、及び、修正版明細書情報生成処理の実行を省略する。
明細書情報生成部205bは、例えば、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれる符号リストを生成する符号リスト生成処理を実行し得る。
[3−1−5−8−1.明細書情報の生成]
明細書情報生成部205bは、明細書情報生成処理を、発明文書取得部2021により取得された発明文書に含まれる明細書を表した明細書情報を生成することにより実現する。明細書情報は、発明文書取得部2021により取得された発明文書に含まれる明細書の一部を修正したものであってもよい。この修正の例としては、明細書にベル制御の「0x07」等の所定の制御コードが含まれている場合にその所定の制御コードを「●」等といった所定の文字に変換することが挙げられる。
発明文書分析システム20において出力部208が、明細書情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、明細書情報生成部205bは、表示用文書としての特許出願関連情報に含まれる明細書情報を生成する。
明細書情報生成部205bが生成する、表示用文書としての特許出願関連情報の明細書情報部分は、例えば、明細書の各行の内容に対応する、1つ以上の表示要素を含み、その各行内に重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する、1つ以上の表示要素を含み、その各行内に、「発明の名称」、「発明を実施するための形態」、各段落番号等といった見出し(例えば、始め隅付き括弧と終わり隅付き括弧とが付加された記載等)、或いは、コメントが含まれている場合に、その見出し、或いは、コメントに対応する、1つ以上の表示要素を含む。具体例としては、明細書情報生成部205bは、HTML文書において明細書情報を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、明細書の各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の各重要語句について、その重要語句に対応する表示要素を、<span>タグと</span>タグとでその重要語句を挟むことで記述し、その行内の重要語句に付加された符号について、その符号に対応する表示要素を、<span>タグと</span>タグとでその符号を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。明細書情報部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
明細書情報生成部205bは、表示用文書における明細書情報部分に含まれる見出し、コメント、重要語句、図面番号記載(例えば「図1」、「図2」等)、或いは、符号に、対応する表示要素に、例えば、その見出し、コメント、重要語句、図面番号記載、或いは、符号についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。明細書情報生成部205bは、例えば、明細書情報部分に含まれる重要語句及び符号のうち、設定情報取得部201により取得された設定情報中の重要語句抽出範囲情報に従った重要語句の抽出範囲(例えば「発明を実施するための形態」及び「実施例」)内に記載されている重要語句及び符号に限って、表示制御情報を付加することとしてもよい。
相違する重要語句各々を互いに異なる表示態様(例えば互いに異なる色の色付き表示等)で表示するために、ある重要語句に付加する表示制御情報を生成する具体例としては、明細書情報生成部205bは、HTML文書のHTMLファイルに<span>タグと</span>タグとで挟んでその重要語句を記述している場合に、その<span>タグに、その重要語句を他の重要語句と識別するように定められた識別情報としてクラス名を付ける例が挙げられる。明細書情報生成部205bは、重要語句の識別情報としてのクラス名を、例えば、その重要語句が発明文書のクレームに記載されているか否かについても区別可能なように定める。なお、明細書情報生成部205bは、重要語句が発明文書のクレームに記載されているか否かを、属性特定部2056により特定された、その重要語句の一属性としての「初出クレーム番号」の値が0以外であるか否かにより判別可能である。各重要語句のクラス名の具体的な一例を挙げると、クレームに記載されている、互いに異なる複数の重要語句のクラス名が、それぞれ「c001」、「c002」、「c003」、・・・等であり、クレームに記載されていない、互いに異なる複数の重要語句のクラス名が、それぞれ「s001」、「s002」、「s003」、・・・等である。このような例においては、HTML文書のCSSファイルに、重要語句の識別情報として用いられるクラス名毎の<span>タグの内容の表示態様としての色を定めた情報(つまり重要語句に付加される色を示す情報)を含ませておくこと等により、明細書情報部分において、例えば、クレームにも記載されている相互に異なる重要語句同士は、クレーム情報部分において重要語句毎に付加された色と同一の色で表示され、クレームに記載されていない相互に異なる重要語句同士は、クレームにも記載されている重要語句とは異なる色を付加された態様によって互いに異なる色で表示される。具体的な一例を挙げると、明細書情報における、クレームにも記載されている相互に異なる重要語句同士は、クレーム情報での表示態様と同様に、例えばborder−leftプロパティにより、ある程度の幅を有し相互に異なる色(つまり表示色)で塗られた左境界線が付加された表示態様で表示され、クレームには記載されていない相互に異なる重要語句同士は、例えば、background−colorプロパティにより、相互に異なる文字背景色が付加された表示態様で表示されるようになる。これにより、ブラウザで表示された場合に、表示用文書における明細書情報中の重要語句が、クレームで記載されている重要語句であるか否かの把握が容易となる。なお、例えば、クレームに記載されている重要語句に、ある程度幅のある左境界線を付加して強調表示するような場合において、明細書情報生成部205bは、明細書情報における、クレームには記載されていない相互に異なる重要語句同士については、例えば、ある程度幅のある左境界線を付加せずに、background−colorプロパティにより、クレームに記載されている重要語句の文字背景色とは異なる、同一の文字背景色が付加された表示態様で表示されるように、表示制御情報等を定めることとしてもよい。これにより、明細書情報において、クレームに記載されていない重要語句に対して、クレームに記載されている重要語句が、左境界線を有することにより、十分に強調され得る。即ち、明細書情報における、複数の重要語句各々について、その重要語句が、クレーム情報における相互に異なる文字列で構成される複数の重要語句のうちのいずれか1つの重要語句と同一であれば、明細書情報におけるその重要語句に係る表示制御情報は、その重要語句を、クレーム情報におけるその前述の1つの重要語句の表示態様に係る左境界線の表示色と同一の表示色で所定幅を有する左境界線が付加された表示態様で表示するように制御し、明細書情報におけるその重要語句が、クレーム情報におけるその前述の複数の重要語句のいずれとも相違すれば、明細書情報におけるその重要語句に係る表示制御情報は、その重要語句を、左境界線が付加されていない表示態様で表示するように制御するためのものであることとしてもよい。図26は、ブラウザに表示された表示用文書としての特許出願関連情報における明細書情報の一例を示す。図26の例では、表示用文書における明細書情報の各行中の重要語句のうち、クレームに記載されている重要語句については、同図中でパターン模様で表現された、色付きの左境界線が、付加され、クレームに記載されていない重要語句については、左境界線が付加されずに、同図中で、矩形枠で表現された、同一の文字背景色が、付加されている。
明細書情報生成部205bは、重要語句に対応する表示要素に、例えば、ブラウザへの操作に応じて重要語句に関連した表示遷移等を行うためのGUIとしての機能を付加するために、表示制御情報を付加し得る。明細書情報生成部205bは、例えば、クレーム情報生成部205aと同様の方式で、操作に対応するGUIとしての機能を重要語句に付加する(つまり重要語句の表示要素を操作対応GUI要素とする)ための表示制御情報の生成を行い得る。
明細書情報生成部205bにより、生成される表示用文書における明細書情報中の1つの重要語句の表示要素の具体例を挙げると、明細書情報にクレームの重要語句「機器制御部」が複数記載されている場合における11番目の「機器制御部」に対応する表示要素は、例えば、「<span class=”c003” id=”specinfo−c003−011” onclick=’wordProc(”specinfo−c003−011”)’ title=”・・・(情報付加表示内容)・・・”>機器制御部</span>」等となる。この例では、重要語句「機器制御部」の識別コードは、「c003」であり、表示要素の<span>タグのid属性の値として、明細書情報の識別記号「specinfo」と、重要語句の識別コード「c003」と、記載順の番号「011」とを含んだ文字列が定められている。また、この例では、表示要素に対するマウスクリック操作がなされた場合にid属性の値を引数としてwordProc関数が呼び出されるように定められている。これにより、wordProc関数では、例えば、引数から、その表示要素を特定して、表示要素に係る重要語句の文字列を参照する処理を実現することが可能となり、また、引数の一部から、重要語句の識別コード「c003」、記載順の番号「011」等を抽出して、例えば同一の重要語句の先頭の表示要素のid属性が「specinfo−c003−001」であることを特定してその先頭の表示要素を表示させる処理を実現することが可能となり、例えば、クレーム情報、修正版クレーム情報、明細書情報等の全ての重要語句「機器制御部」の表示要素の表示内容を、ユーザに入力された文字列等に置換する処理を実現すること等が可能となる。
明細書情報生成部205bは、例えば、明細書情報部分に含まれる「発明を実施するための形態」、各段落番号等といった見出しに対応する表示要素に、例えば、強調表示のために、或いは、ブラウザへの操作に応じて例えば直前又は直後の見出しに対応する表示要素への表示遷移等を行うためのGUIとしての機能を付加するために、表示制御情報を付加し得る。明細書情報生成部205bは、例えば、クレーム情報生成部205aと同様の方式で、操作に対応するGUIとしての機能を見出しに付加する表示制御情報の生成を行う。
明細書情報生成部205bは、例えば、警告情報生成部2059により生成された警告情報における指摘情報で示された不適切な記載が、明細書情報部分に含まれる場合には、その不適切な記載を、例えば<span>タグと</span>タグとで挟む表示要素として、その表示要素に、その不適切な記載について強調表示等を行うための表示制御情報を付加してもよい。<span>タグを付加した文字列に係る表示要素の強調表示は、例えば、CSSにおけるtext−decorationプロパティ、font−weightプロパティ、borderプロパティ、colorプロパティ、background−colorプロパティ等の値を調整する表示制御情報により実現可能である。
発明文書取得部2021により取得された分析部205の分析対象となった発明文書における明細書に基づいて明細書情報を生成する明細書情報生成部205bは、その発明文書に対応する図面文書(例えばPDFファイル)が図面文書取得部2022により取得可能である場合においては、発明文書に含まれる符号付きの要素名と同一である重要語句が明細書情報に含まれるときに、その重要語句を、操作に応じて図面文書におけるその符号を含む部分(例えばその符号を含む頁)を表示するためのGUIの機能を有する表示要素とするための表示制御情報を、その重要語句の表示要素に付加することとしてもよい。また、明細書情報生成部205bは、明細書情報に含まれる符号を、操作に応じて図面文書におけるその符号を含む部分(例えばその符号を含む頁)を表示するためのGUIの機能を有する表示要素とするための表示制御情報を、その明細書情報における符号の表示要素に付加することとしてもよい。この表示制御情報は、例えば、操作に応じて符号を引数として起動されるスクリプトの関数の関数名又はその関数自体を定義するものであり、その関数は、例えば、引数の符号を含む、図面文書中の部分を、例えば図面文書が検索可能PDFファイルの内容である場合、又は、図面文書を内容として含むPDFファイルを検索可能PDFファイルへと変換できる場合等において、検索可能PDFファイルからその符号を検索することで、特定するように定められる。明細書情報生成部205bは、例えば、符号に対する操作に応じて、図面文書におけるその符号を含む部分を表示するための表示制御情報に係る関数を、ブラウザで表示されて操作がなされたその符号の表示要素が隠れない範囲に、図面文書におけるその符号を含む部分を表示するように定めておくこととしてもよい。明細書情報生成部205bは、例えば、ブラウザによる表示画面を複数の表示領域に分割し、明細書情報の表示領域と、操作に応じて表示される図面文書の一部分等の表示領域とを並列的に表示してもよい。明細書情報生成部205bは、例えば、符号の表示要素に付加する表示制御情報により、その符号に対する操作に応じて起動される関数を、更なる操作に応じて図面文書におけるその符号を含む複数の部分(例えばその符号を含む2以上の頁)を切り替えて表示する処理を実行するように定めてもよいし、図面文書におけるその符号を含む全ての部分を必要に応じて縮小して一括表示する処理を実行するように定めてもよい。明細書情報生成部205bは、例えば、符号に対する操作に応じて、図面文書におけるその符号を含む部分を表示するための表示制御情報に係る関数を、図面文書におけるその符号を含む部分におけるその符号を強調表示するように定めておくこととしてもよい。図27は、ブラウザに表示された特許出願関連情報の明細書情報における重要語句に付加された符号の表示要素に対するマウスクリック操作に応じて表示されたポップアップ画面の一例を示す。図27に例示するポップアップ画面は、明細書情報中で重要語句「B部」に後続する符号「12」に対するマウスクリック操作がなされた場合に表示され、符号「12」が含まれる図面「図1」を内容とし、図面「図1」中の符号「12」が強調表示されている。
明細書情報生成部205bにより、生成される表示用文書における明細書情報中の1つの符号の表示要素の具体例を挙げると、明細書情報に符号「123」が複数記載されている場合における3番目の「123」に対応する表示要素は、例えば、「<span class=”sign” id=”specinfo−sign123−003” onclick=’refSignProc(”specinfo−sign123−003”)’>123</span>」等となる。この例では、明細書情報における3番目の符号「123」の表示要素の<span>タグのクラス名として「sign」が定められており、id属性の値として、明細書情報の識別記号「specinfo」と、符号の識別情報「sign123」と、記載順の番号「003」とを含んだ文字列が定められている。また、この例では、表示要素に対するマウスクリック操作がなされた場合にid属性の値を引数としてrefSignProc関数が呼び出されるように定められている。これにより、refSignProc関数では、例えば、引数から、その表示要素を特定して、表示要素に係る符号の文字列を参照する処理を実現することが可能となり、また、引数に基づいて、例えば、明細書情報等における全ての符号「123」の表示要素の表示内容を、ユーザに入力された新たな符号を表す文字列等に置換し、符号「123」を属性情報の「符号」の内容として含む重要語句についてのその属性情報の「符号」の内容を、新たな符号に置換する処理を実現すること等が可能となる。
明細書情報生成部205bは、例えば、表示用文書としての明細書情報部分に「図面の簡単な説明」の欄が含まれる場合に、その欄の始め隅付き括弧と終わり隅付き括弧とで挟まれた図面番号に係る記載部分を、1つの表示要素として、その表示要素に、その図面番号に対する操作(例えばマウスクリック操作等)に応じて、明細書情報におけるその図面番号の図面についての記載を含む各行を検索して検索結果の各行を列挙等して表示するためのGUIとしての機能を持たせるために、表示制御情報を付加することとしてもよい。また、明細書情報生成部205bは、例えば、表示用文書としての明細書情報部分において「図n」(nは自然数)を含む図面番号記載が含まれる場合に、その図面番号記載を、1つの表示要素として、その表示要素に、その図面番号に対する操作(例えばマウスクリック操作等)に応じて、明細書情報におけるその図面番号と同一の図面番号を示す図面番号記載を含む各行を検索して検索結果の各行を列挙等して表示するためのGUIとしての機能を持たせるために、表示制御情報を付加することとしてもよい。また、明細書情報生成部205bは、例えば、表示用文書としての明細書情報部分において図面番号記載が含まれる場合に、その図面番号記載を、1つの表示要素として、その表示要素に、操作(例えばマウスクリック操作等)に応じて、明細書情報における図面番号記載を含む各行を、図面番号に拘わらず、検索して検索結果の各行を列挙等して表示するためのGUIとしての機能を持たせるために、表示制御情報を付加することとしてもよい。
明細書情報生成部205bは、例えば、表示用文書としての明細書情報部分に「■請求項n」等といった、請求項n(nは自然数)の記載内容に、又は、その記載内容に対して予め定められた所定の変換処理(例えば、改行の削除、句点文字の削除、クレームの項を引用する引用記載部分の削除等を行う変換処理)を施した内容に、置換可能である部分であることを示す記載が含まれている場合には、この記載内容中の「■請求項n」の部分を1つの表示要素として、その表示要素に、操作(例えばマウスクリック操作)に応じてその表示要素の内容を、請求項nの記載内容に、又は、その記載内容に対して上述した所定の変換処理を施した内容に、置換して表示するためのGUIとしての機能を持たせるために、表示制御情報を付加することとしてもよい。
明細書情報生成部205bは、例えば、HTML文書である表示用文書における各情報部分(例えば明細書情報、修正版明細書情報等)の各行末の、全角又は半角の空白文字、タブ、改行、リターン、改頁、或いは、垂直タブの各文字コードを除去し、行末の改行を改行用のHTMLタグ<br>で表すこととしてもよい。
[3−1−5−8−2.明細書見出しリストの生成]
明細書情報生成部205bは、明細書見出しリスト生成処理を、発明文書取得部2021により取得された発明文書に含まれる明細書に基づいて、明細書見出しリストを生成することにより実現する。明細書見出しリストは、発明文書の明細書における、見出しの記載を含む行を、発明文書の明細書における記載順に、全て列挙したリストである。
明細書情報生成部205bは、例えば、始め隅付き括弧と終わり隅付き括弧とで挟まれた記載を含む行を、見出しの記載を含む行として扱う。明細書情報生成部205bは更に、行頭の位置に、又は、行頭の1つ以上の空白文字に後続した位置に、予め定められた1種類以上の括弧(例えば丸括弧、角括弧、山括弧等)のいずれかに係る始め括弧と終わり括弧とで挟まれた記載を含む行を、無条件で、又は、行末に句点文字「。」がないことを条件として、見出しの記載を含む行と看做すこととしてもよい。これにより、例えば、(実施の形態1)、(実施の形態2)、[1−1.X装置の構成]、[1−2.効果等]等の各種の見出しが、明細書見出しリストに列挙されることとなり、出力された特許出願関連情報における明細書見出しリストを閲覧するユーザは、各種の見出し内に記述した番号及び文字列が適切であるか否か等を比較的容易に確認し得る。
明細書情報生成部205bは、例えば、明細書見出しリストに列挙する行のうち、段落番号を表す見出しの記載を含む行については、その段落番号の段落範囲内において、重要語句抽出部2051により抽出された重要語句がある場合に、その重要語句の全てをその行に追記することとしてもよい。この場合に、明細書情報生成部205bは、追記する重要語句が重複しないように同一の重要語句については1つだけ追記することとしてもよい。また、この場合に、明細書情報生成部205bは、その段落範囲内における重要語句のうち、発明文書のクレームに記載されている重要語句だけを、追記することとしてもよい。また、明細書情報生成部205bは、追記する重要語句が複数ある場合には、その重要語句を、重要度決定部2055により決定された重要度の順に追記してもよいし、その段落範囲内に多く記載されている重要語句ほど、その重要語句を前方に配置されるように追記してもよいし、発明文書のクレームに記載されている重要語句をクレームに記載されていない重要語句よりも前方に配置されるように追記してもよい。また、明細書情報生成部205bは、明細書見出しリストに列挙する行には、段落番号を表す見出しの記載を含む行を含めないこととしてもよい。例えば、設定情報取得部201により取得される設定情報に、段落番号を明細書見出しリストに列挙するか否かが定義されることとした場合には、明細書情報生成部205bは、その設定情報に従って、明細書見出しリストに列挙する行に段落番号を含む行を含めるか否かを決めて、明細書見出しリスト生成処理を実行することとしてもよい。また、明細書情報生成部205bは、明細書見出しリストに列挙する行には、見出しではないが、図面番号記載(例えば「図1」、「図2」等)の含まれる行における図面番号記載以外を除去した内容の行(例えば図面番号記載が複数であればカンマ等の区切り文字で区切った図面番号記載を並べた行)を、見出しの行に混ぜて、発明文書の明細書での出現順に列挙してもよい。例えば、設定情報取得部201により取得される設定情報に、図面番号記載を明細書見出しリストに列挙するか否かが定義されることとした場合には、明細書情報生成部205bは、その設定情報に従って、明細書見出しリストに列挙する行に図面番号記載を含めるか否かを決めて、明細書見出しリスト生成処理を実行することとしてもよい。
明細書見出しリストは、例えば、発明文書における明細書の各種見出しの記載様式、各図面番号記載等が適正であるか否かの確認、段落毎の重要語句の確認、明細書の概要の俯瞰等に有用となり得る。
明細書情報生成部205bは、例えば、始め隅付き括弧と終わり隅付き括弧とで挟まれた記載を含む行のうちその記載が段落番号である行を、見出しの記載を含む行ではないと看做すこととしてもよい。また、明細書情報生成部205bは、明細書見出しリストに、見出しの記載を含む行と、記載順に織り交ぜて、発明文書の明細書における見出しの記載を含まない各行についての先頭から所定の文字数(例えば30文字)までの文字列以外を削除した後におけるその各行を、含ませることとしてもよい。
発明文書分析システム20において出力部208が、明細書見出しリストを含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、明細書情報生成部205bは、表示用文書としての特許出願関連情報に含まれる明細書見出しリストを生成する。
明細書情報生成部205bが生成する、表示用文書としての特許出願関連情報の明細書見出しリスト部分は、例えば、明細書見出しリストの各行の内容に対応する、1つ以上の表示要素を含み、その各行内に見出し(例えば、始め隅付き括弧と終わり隅付き括弧とが付加された記載等)が含まれている場合に、その見出しに対応する、1つ以上の表示要素を含む。具体例としては、明細書情報生成部205bは、HTML文書において明細書見出しリストを<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、明細書見出しリストの各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の見出しについて、その見出しに対応する表示要素を、<span>タグと</span>タグとでその見出しを挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。明細書見出しリスト部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
明細書情報生成部205bは、表示用文書における明細書見出しリスト部分に含まれる見出しに対応する表示要素に、例えば、その見出しについての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。明細書情報生成部205bは、見出しに対応する表示要素に、例えば、ブラウザへの操作に応じて、その見出しに対応した明細書情報の部分(つまり、明細書情報における、その見出しが記載されていた発明文書の明細書の行を表す部分)への表示遷移等を行うためのGUIとしての機能を付加するために、表示制御情報を付加し得る。
図28及び図29は、ブラウザに表示された表示用文書としての特許出願関連情報における明細書見出しリストの一例を示す。図28は、段落番号を明細書見出しリストに列挙しない例を示している。図29は、段落番号を明細書見出しリストに列挙し、図面番号記載を各見出しと混在させて出現順に明細書見出しリストに列挙し、明細書見出しリストにおける段落番号を示す各行には明細書情報においてその段落番号の段落に含まれる重要語句を列挙した例を示している。
明細書情報生成部205bは、表示用文書における明細書見出しリスト部分に重要語句が含まれる場合においては、重要語句に対応する表示要素を定めて、その表示要素に、強調表示のため、或いは、操作に対応するGUIとしての機能を重要語句に付加するための、表示制御情報を付加し得る。
[3−1−5−8−3.修正版明細書情報の生成]
明細書情報生成部205bは、修正版明細書情報生成処理を、発明文書取得部2021により取得された発明文書に含まれる明細書を修正した修正版明細書情報を生成することにより実現する。修正版明細書情報は、明細書情報生成処理によって生成される明細書情報の一部を修正したものである。明細書情報生成部205bによる修正版明細書情報生成処理では、クレーム情報生成部205aによる修正版クレーム情報生成処理におけるクレームへの修正内容のうち、発明文書の明細書に適用可能なものに係る修正(例えば、数式、化学式等の番号が連続番号でない場合の修正等)を、同様に実行し得る。ユーザは、例えば、修正版明細書情報の内容を、発明文書の明細書として用いて、その発明文書を、再び発明文書分析システム20で分析させることにより、新たに発明文書評価情報を含む警告情報等で構成される特許出願関連情報を得ることが可能となる。
[3−1−5−8−3−1.不適切な記載についての修正及び不要な記載の削除]
明細書情報生成部205bは、発明文書取得部2021により取得された発明文書の明細書中の記載が、警告情報生成部2059で指摘情報を生成する対象となるような場合において、予め修正方法が定められているときには、その修正方法に従って、その記載を修正することで、修正版明細書情報を生成する。以下、明細書の記載の修正による修正版明細書情報の生成の具体例を説明する。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書中の記載が、翻訳用発明文書標準規定取得部204により取得された翻訳用発明文書標準規定(図14参照)において修正情報が付加されている条件項目のパターン情報が示すパターンに該当する場合に、その修正情報に基づいて、明細書中の記載を修正することで、修正した明細書を表す修正版明細書情報を生成こととしてもよい。具体例としては、明細書情報生成部205bは、例えば、発明文書の明細書に、翻訳用発明文書標準規定取得部204により取得された翻訳用発明文書標準規定における「米国出願で他の表現に変更した方が望ましい場合がある文字列」という条件項目名の条件項目におけるパターン情報で示されるパターンに該当する「本発明の特徴は」等の記載があるときには、その記載を、その条件項目における修正情報に従って「本開示における一実施態様例の特徴は」等に修正して、修正後の明細書を表す修正版明細書情報を生成する。また、例えば、明細書情報生成部205bは、翻訳用発明文書標準規定における「米国出願で他の表現に変更した方が望ましい場合がある文字列」に係る条件項目に該当する例として、発明文書の明細書中に「図2の(1)は、・・・を表した図であり、図2の(2)は、・・・」といった、1つの図面内に分離された複数の図が存在する可能性を示す記載があるときには、その記載を、その条件項目で定められた修正情報に従って、例えば、「図2Aは、・・・を表した図であり、図2Bは、・・・」等と修正して、修正後の明細書を表す修正版明細書情報を生成する。明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書中の記載が、翻訳用発明文書標準規定(図14参照)において「除去が望ましいと推定される文字列」の条件項目に係る不適切な記載を抽出するためのパターン情報が示すパターンに該当する文字列(例えば「のみ」、「好ましくは」等)の記載を探索し、そのパターンに該当する文字列の記載を検出した場合に、その文字列を除去することで、修正版明細書情報を生成する。なお、翻訳用発明文書標準規定の内容は、図14に例示する内容に限定されることはなく、例えば、明細書情報生成部205bは、「好ましくは、・・・するとよい。」という記載が該当するように定めたパターン情報を含む条件項目を定めた翻訳用発明文書標準規定のその条件項目の修正情報に従うことで、例えば、発明文書の明細書の記載における「好ましくは、・・・するとよい。」という記載を、「例えば、・・・してもよい。」という記載に変更して、修正版明細書情報を生成することとしてもよい。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書の段落番号が行順に沿って連続番号となっていない場合には、行順に沿って4桁の連続番号となるように、或いは、全段落番号数が4桁では足りない場合には5桁の連続番号となるように、明細書の段落番号を修正することで、修正版明細書情報を生成する。明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書の段落番号に半角文字と全角文字とが混在している場合には、その一方の種類の文字(例えば全角文字)となるように明細書の段落番号を修正することで、修正版明細書情報を生成する。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書に段落番号が含まれていない場合において、予め定められた適切な位置と、予め定められた、段落番号の付加間隔の基準となる所定行数毎に段落番号を連続番号となるように付加して、修正版明細書情報を生成することとしてもよい。明細書情報生成部205bは、この段落番号の付加を、例えば、設定情報取得部201により取得された設定情報において、段落番号の付加を指定する情報が含まれている場合に限って行うこととしてもよい。段落番号の付加を指定する情報は、例えば、上述の段落番号の付加間隔の基準となる所定行数の指定を含んでもよい。また、明細書情報生成部205bは、例えば、設定情報取得部201により取得された設定情報において、段落番号の削除を指定する情報が含まれている場合に、発明文書の明細書中の段落番号の記載を削除することで、修正版明細書情報を生成することとしてもよい。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書に「図面の簡単な説明」の欄が記載されている場合において、その欄の図面番号が行順に沿って、枝番を考慮した上でも連続番号となっていないときには、行順に沿って連続番号となるように図面番号を修正することで、修正版明細書情報を生成する。明細書情報生成部205bは、「図面の簡単な説明」の欄の図面番号を修正した場合に、明細書のその他の欄における図面番号の記載部分(例えば「図」で始まり枝番を含む図面番号に使用可能な文字が1つ以上連続した文字列の部分等)を、その「図面の簡単な説明」の欄の図面番号の修正と呼応するように、文字列の置換処理によって修正して、修正版明細書情報を生成することとしてもよい。これにより、例えば、明細書における図面番号を変更したいユーザは、発明文書分析システム20の発明文書取得部2021に取得させる発明文書中の明細書の「図面の簡単な説明」の欄における各図面番号に対応した各行の並び順を修正しておくだけで、明細書の全ての図面番号の記載が修正された修正版明細書情報を得ることができる。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書に「図面の簡単な説明」の欄が記載されていない場合において、明細書において「図n」(nは自然数)を含む図面番号の記載が、図面番号の初出行の順において、枝番を考慮した上でも連続番号となっていないときには、その図面番号の記載について初出行の順に沿って連続番号となるように図面番号を修正し、図面番号順に図面番号の記載行の内容又は記載支援用未完成メッセージを列挙した内容を含むように「図面の簡単な説明」の欄を適切な位置に追記することで、修正版明細書情報を生成することとしてもよい。明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書の図面番号の記載部分における図面番号に半角文字と全角文字とが混在している場合には、その一方の種類の文字(例えば全角文字)となるようにその図面番号を修正することで、修正版明細書情報を生成する。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書に半角文字が含まれている場合には、その半角文字を、対応する全角文字に変更することで、修正版明細書情報を生成することとしてもよい。この場合に、明細書情報生成部205bは、発明文書の明細書において、「非特許文献」の欄に英字の半角文字が含まれているとき、及び、始め丸括弧と終わり丸括弧とで挟まれた英字の半角文字が含まれているときには、その英字の半角文字の全角文字への変更を行わないこととしてもよい。また、明細書情報生成部205bは、発明文書の明細書の段落番号又は図面番号が全て半角文字で統一されている場合においては、その番号の全角文字への変更を行わないこととしてもよい。発明文書の明細書に半角文字が含まれている場合に全角文字に変更する対象となる半角文字の種類(例えば英字、片仮名文字、記号等)、文字コード範囲等を、設定情報取得部201により取得される設定情報等で指定可能として、その指定に従って明細書情報生成部205bは、修正版明細書情報の生成のための明細書中の半角文字の全角文字への変更を行うこととしてもよい。また、逆に、発明文書の明細書に全角文字が含まれている場合に半角文字に変更する対象となる全角文字の種類、文字コード範囲等を、設定情報取得部201により取得される設定情報等で指定可能として、その指定に従って明細書情報生成部205bは、修正版明細書情報の生成のための明細書中の全角文字の半角文字への変更を行うこととしてもよい。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書に「■請求項n」等といった、請求項n(nは自然数)の記載内容に、又は、その記載内容に対して予め定められた所定の変換処理(例えば、改行の削除、句点文字の削除、クレームの項を引用する引用記載部分の削除等を行う変換処理)を施した内容に、置換可能である部分であることを示す記載が含まれている場合には、この記載内容中の「■請求項n」の部分を、請求項nの記載内容に、又は、その記載内容に対して上述した所定の変換処理を施した内容に、置換することで、修正版明細書情報を生成することとしてもよい。明細書情報生成部205bは、この置換を、例えば、設定情報取得部201により取得された設定情報において、請求項への置換可能部分の記載の、請求項の内容を表した記載への置換を指定する情報が含まれている場合に限って行うこととしてもよい。明細書情報生成部205bは、この置換した後の記載内容における重要語句抽出部2051により抽出された重要語句のうち、発明文書においてその重要語句に対して符号が付加された記載があるところの重要語句、或いは、発明文書の明細書の「符号の説明」の欄において重要語句に対応する符号の記載があるところの重要語句については、その重要語句の直後にその重要語句に対応する符号を挿入することとしてもよい。なお、重要語句に対応する符号が複数存在する場合には、明細書情報生成部205bは、例えば、その複数の符号を読点等で区切って列挙したものを、重要語句の後への挿入に用いることとしてもよいし、その複数の符号に対する自然順等のソートにより最先となる符号の1つを選択して、その選択した1つの符号を、重要語句の後への挿入に用いることとしてもよい。
明細書情報生成部205bは、例えば、発明文書取得部2021により取得された発明文書の明細書に、クレームの項の内容と実質的に同一な内容の記載部分(つまり所謂クレームコピーの部分)が含まれている場合に、その部分の直前、又は、直後等に、そのクレームの項の項番nを、「■(クレームn)」等といった、予め定められた形式で含めた文字列によるコメントを挿入することとしてもよい。明細書情報生成部205bは、このコメントの挿入を、例えば、設定情報取得部201により取得された設定情報において、クレームコピー部分への項番に係るコメントの挿入を指定する情報が含まれている場合に限って行うこととしてもよい。なお、設定情報に含まれ得るクレームコピー部分への項番に係るコメントの挿入を指定する情報は、挿入されるべきコメントの形式を指定する情報を含むこととしてもよい。
[3−1−5−8−3−2.表示用文書における修正版明細書情報部分の生成]
発明文書分析システム20において出力部208が、修正版明細書情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、明細書情報生成部205bは、表示用文書としての特許出願関連情報に含まれる修正版明細書情報を生成する。
明細書情報生成部205bが生成する、表示用文書としての特許出願関連情報の修正版明細書情報部分は、例えば、修正版明細書情報における修正した明細書の各行の内容に対応する、1つ以上の表示要素を含み、その各行内に重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する、1つ以上の表示要素を含み、その各行内に、「発明の名称」、「発明を実施するための形態」等といった見出しが含まれている場合にその見出しに対応する、1つ以上の表示要素を含み、その各行内に1つ以上の符号が含まれている場合にその各符号に対応する1つ以上の表示要素を含む。具体例としては、明細書情報生成部205bは、HTML文書において修正版明細書情報を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、修正版明細書情報としての修正済みの明細書の各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の各重要語句について、その重要語句に対応する表示要素を、<span>タグと</span>タグとでその重要語句を挟むことで記述し、その行内の見出しについて、その見出しに対応する表示要素を、<span>タグと</span>タグとでその見出しを挟むことで記述し、その行内の符号について、その符号に対応する表示要素を、<span>タグと</span>タグとでその符号を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。修正版明細書情報部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
明細書情報生成部205bにより、生成される表示用文書における修正版明細書情報中の1つの重要語句の表示要素の具体例を挙げると、修正版明細書情報にクレームの重要語句「機器制御部」が複数記載されている場合における9番目の「機器制御部」に対応する表示要素は、例えば、「<span class=”c003” id=”revspecinfo−c003−009” onclick=’wordProc(”revspecinfo−c003−009”)’ title=”・・・(情報付加表示内容)・・・”>機器制御部</span>」等となる。この例では、重要語句「機器制御部」の識別コードは、「c003」であり、表示要素の<span>タグのid属性の値として、修正版明細書情報の識別記号「revspecinfo」と、重要語句の識別コード「c003」と、記載順の番号「009」とを含んだ文字列が定められている。また、この例では、表示要素に対するマウスクリック操作がなされた場合にid属性の値を引数としてwordProc関数が呼び出されるように定められている。これにより、wordProc関数では、例えば、引数から、その表示要素を特定して、表示要素に係る重要語句の文字列を参照する処理を実現することが可能となり、また、引数の一部から、重要語句の識別コード「c003」、記載順の番号「009」等を抽出して、例えば同一の重要語句の先頭の表示要素のid属性が「revspecinfo−c003−001」であることを特定してその先頭の表示要素を表示させる処理を実現することが可能となり、例えば、クレーム情報、修正版クレーム情報、明細書情報、修正版明細書情報等の全ての重要語句「機器制御部」の表示要素の表示内容を、ユーザに入力された文字列等に置換する処理を実現すること等が可能となる。
表示用文書における修正版明細書情報部分の各表示要素は、ブラウザにより表示された場合に、その表示された内容を、ユーザがコピー&ペースト等によって、文書作成編集機能を有するアプリケーションプログラム(例えばテキストエディタ等)等に取り込ませて、特許出願用の明細書、又は、特許出願用の明細書の翻訳用和文原稿として活用可能なように、構成される。ユーザは、例えば、文書作成編集機能を有するアプリケーションプログラムに対する操作により、取り込ませた修正版明細書情報部分の一部又は全部の内容を、自由に編集したり、ファイルに出力したりすることができる。また、コピー&ペースト、編集、出力等の操作を介して、ユーザは、修正版明細書情報部分の一部又は全部の内容、或いは、その編集結果を、特許出願用アプリケーションプログラムに取り込ませることができる。また、ユーザは、修正版明細書情報の編集結果等を含む発明文書を、発明文書分析システム20の発明文書取得部2021に取得させ、再び分析させることで、分析結果としての警告情報等を含む特許出願関連情報を利用することができる。
明細書情報生成部205bは、表示用文書における修正版明細書情報部分に含まれる見出し、符号、或いは、重要語句に対応する表示要素に、例えば、その見出し、符号、或いは、重要語句についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。表示制御情報については、例えば、表示用文書としての特許出願関連情報における明細書情報部分の表示要素に付加された表示制御情報と同様である。
明細書情報生成部205bは、表示用文書における修正版明細書情報部分に含まれる、発明文書の明細書から修正した記載部分を表示要素として、その表示要素について、下線を付加する等で強調した表示態様で表示するように、その表示要素に、例えば表示属性としてのtext−decorationプロパティ、border−bottomプロパティ等を調整する表示制御情報を付加することとしてもよい。表示用文書における修正版明細書情報中で、発明文書の明細書から削除することで修正した記載部分については、文字列を挟まない<span></span>タグで構成した表示要素において表示属性のborderプロパティ等を調整して他と異なる幅の境界線を表示する等のようにした表示制御情報を付加することとしてもよい。修正版明細書情報における、発明文書の明細書から修正した記載部分は、必ずしも適切な修正が施されているとは限らないので、その修正した記載部分を強調した表示態様で表示されるようにすることにより、ユーザは、警告情報及び明細書情報を参考にして、修正版明細書情報における修正が適切か否かを確認した上で、修正版明細書情報の内容を活用することが、比較的容易となる。
[3−1−5−8−4.符号リストの生成]
明細書情報生成部205bは、符号リスト生成処理を、発明文書取得部2021により取得された発明文書に含まれる明細書等に基づいて、符号リストを生成することにより実現する。
符号リストは、発明文書の明細書から重要語句抽出部2051により抽出された重要語句が表す要素名に後続して記載された符号を列挙して、符号と対応する重要語句とを関連付けて表したリストである。明細書情報生成部205bは、符号リストを、例えば、日本国の特許出願用の明細書の「符号の説明」の欄に記載可能な形式で生成する。明細書情報生成部205bは、符号リストとして、例えば、一行には1つの重要語句と、その重要語句に対応する1つ以上の符号とを、例えば、1つ以上の符号、重要語句の順に、空白文字を挟んで記載する。明細書情報生成部205bは、符号リストの一行において1つの重要語句に対応する複数の符号を記載する場合には、例えば、その複数の符号を、読点文字「、」、カンマ等の区切り文字によって区切って、自然順等のソートの結果に従った順で並べて、記載し得る。符号リストにおける区切り文字は、設定情報取得部201により取得される設定情報で設定可能としてもよい。明細書情報生成部205bは、例えば、符号リストの各行を、その行における最先の符号についての、自然順等のソートの結果に従った行順で、並べる。
明細書情報生成部205bは、例えば、重要語句抽出部2051により抽出された重要語句に符号が付加された記載が、発明文書の明細書中に存在しない場合において、その重要語句に符号が付加された記載が、発明文書のクレーム中に存在するときには、そのクレーム中でその重要語句に付加された符号をその重要語句に関連付けて、符号リストに含ませ得る。
明細書情報生成部205bは、例えば、重要語句抽出部2051により抽出された重要語句に符号が付加された記載が、発明文書中に存在しない場合において、その重要語句が表す要素が他の要素を構成上包含するか、他の要素に構成上包含されるときには、その重要語句について、クレーム情報生成部205aによる符号決定処理で決定された符号を、その重要語句に関連付けて、符号リストに含ませ得る。
明細書情報生成部205bは、例えば、符号リストにおいて符号に関連付けられる各重要語句について、その重要語句の一属性として属性特定部2056で特定された「初出クレーム番号」を参照することで、その重要語句が発明文書のクレームに記載された重要語句であるか否かを識別可能に表現するように符号リストを生成することとしてもよい。
明細書情報生成部205bは、例えば、符号リストにおいて符号に関連付けられる各重要語句について、その重要語句の対応翻訳語又は翻訳語候補集合を付記することとしてもよい。
発明文書分析システム20において出力部208が、符号リストを含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、明細書情報生成部205bは、表示用文書としての特許出願関連情報に含まれる符号リストを生成する。
明細書情報生成部205bが生成する、表示用文書としての特許出願関連情報の符号リスト部分は、例えば、符号リストの各行の内容に対応する、1つ以上の表示要素を含み、その各行内における各符号及び重要語句の各々に対応する、1つ以上の表示要素を含む。具体例としては、明細書情報生成部205bは、HTML文書において符号リストを<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、符号リストの各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の各符号或いは重要語句について、その符号或いは重要語句に対応する表示要素を、<span>タグと</span>タグとでその符号或いは重要語句を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。符号リスト部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。図30の一部は、ブラウザに表示された表示用文書としての特許出願関連情報における符号リストの一例を示す。なお、図30には、後述する図面符号リストの一例が含まれている。
明細書情報生成部205bは、表示用文書における符号リスト部分に含まれる各符号或いは重要語句に対応する表示要素に、例えば、その符号或いは重要語句についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。
明細書情報生成部205bは、例えば、表示用文書における符号リスト部分の重要語句に対応する表示要素に付加する表示制御情報を、表示用文書における明細書情報部分の重要語句に対応する表示要素に付加する表示制御情報と同様に生成し得る。
明細書情報生成部205bは、例えば、表示用文書における符号リスト部分の符号に対応する表示要素に、その表示要素の操作(例えばマウスクリック操作)に応じて、クレーム情報又は修正版クレーム情報におけるその符号を含む各行と、明細書情報又は修正版明細書情報におけるその符号を含む各行との記載内容を表示するGUIとしての機能を持たせるための表示制御情報を付加し得る。
明細書情報生成部205bにより、生成される表示用文書における符号リスト中の符号の表示要素の具体例を挙げると、符号リストに記載されている符号「123」の表示要素は、例えば、「<span class=”sign” id=”signlist−sign123” onclick=’refSignProc(”signlist−sign123”)’>123</span>」等となる。この例では、符号リストにおける符号「123」の表示要素の<span>タグのクラス名として「sign」が定められており、id属性の値として、符号リストの識別記号「signlist」と、符号の識別情報「sign123」とを含んだ文字列が定められている。また、この例では、表示要素に対するマウスクリック操作がなされた場合にid属性の値を引数としてrefSignProc関数が呼び出されるように定められている。これにより、refSignProc関数では、例えば、引数から、その表示要素を特定して、表示要素に係る符号の文字列を参照する処理を実現することが可能となり、また、引数に基づいて、例えば、符号リスト、明細書情報等における全ての符号「123」の表示要素の表示内容を、ユーザに入力された新たな符号を表す文字列等に置換し、符号「123」を属性情報の「符号」の内容として含む重要語句についてのその属性情報の「符号」の内容を、新たな符号に置換する処理を実現すること等が可能となる。
明細書情報生成部205bは、例えば、発明文書に基づいて生成された表示用文書における符号リスト部分の符号に対応する表示要素に、その表示要素の操作に応じて、その発明文書に関連する、図面文書取得部2022により取得された図面文書における、その符号が表された部分を表示するGUIとしての機能を持たせるための表示制御情報を付加し得る。明細書情報生成部205bは、例えば、符号の表示要素に付加された表示制御情報を、GUIによりその符号が操作された場合に、図面文書におけるその符号が表された部分を強調表示するように、生成してもよい。図31は、ブラウザに表示された特許出願関連情報の符号リスト(図30参照)における符号の表示要素に対するマウスクリック操作に応じて表示されたポップアップ画面の一例を示す。図31に例示するポップアップ画面は、符号リスト中で重要語句「処理部」に後続する符号「30a」に対するマウスクリック操作がなされた場合に表示され、符号「30a」が含まれる図面「図5」を内容とし、図面「図5」中の符号「30a」が強調表示されている。
[3−1−5−9.クレームツリー生成部]
クレームツリー生成部205cは、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれ得るクレームツリーを生成するクレームツリー生成処理を実行する。クレームツリーは、特許出願関連情報中のクレーム情報において表されるクレームの各項の引用関係を木構造の形式で表現した情報である。
クレームツリー生成部205cは、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれ得る修正版クレームツリーを生成する修正版クレームツリー生成処理を実行し得る。修正版クレームツリーは、特許出願関連情報中の修正版クレーム情報において表されるクレームの各項の引用関係を木構造の形式で表現した情報である。
クレームツリー生成部205cは、発明文書取得部2021により取得された発明文書にクレームが含まれない場合には、クレームツリー生成処理、及び、修正版クレームツリー生成処理の実行を省略する。
[3−1−5−9−1.クレームツリーの生成]
クレームツリー生成部205cは、クレームツリー生成処理を、クレーム引用関係検出部2057が保持するクレーム引用関係情報を参照して、クレーム情報におけるクレーム各項の引用関係を表現したクレームツリーを生成することにより実現する。
クレームツリー生成部205cは、クレーム情報におけるクレームの各項について、項番が小さい順に、行を改めて、その項が、どの項番の項を引用しているかを示す情報を、記号、項番等によって表記することで、クレームツリーを生成する。
クレームツリー生成部205cは、例えば、クレーム情報におけるクレームの各項のうち、請求対象起点項(つまり、他の項を引用していない項、或いは、他の項を引用しているが引用先の項とは請求対象が異なる項)の項番を記載する、クレームツリーにおける行に、その請求対象起点項における請求対象を表す語句を付記する、或いは、請求対象起点項の項番を記載する行の直上に一行を挿入してその挿入した一行にその請求対象起点項における請求対象を表す語句を記載する。
クレームツリー生成部205cは、例えば、発明文書のクレームを表すクレーム情報におけるクレームの各項のうち、その項の直前行がコメント行である場合には、そのコメント行の内容を、クレームツリーにおけるその項の項番を記載する行に、付記する。また、クレームツリー生成部205cは、例えば、発明文書のクレームを表すクレーム情報におけるクレームの各項のうち、その項の直前行がコメント行でない場合において、その項の見出し(例えば隅付き括弧で挟まれた「請求項n」(nは自然数)の記載)と同一の行に、始め丸括弧と終わり丸括弧とで挟む等の所定の形式で、コメントが記載されているときには、そのコメントの内容を、クレームツリーにおけるその項の項番を記載する行に、付記する。クレームツリー生成部205cは、コメント行及びコメントを、例えば、設定情報取得部201により取得された設定情報におけるコメント特定用情報に基づいて特定し得る。
クレームツリー生成部205cは、例えば、発明文書のクレームを表すクレーム情報におけるクレームの各項のうち、その項の直前行がコメント行でなく、その行の見出しと同一の行にコメントが記載されていない場合に、発明文書のクレームのその項に記載されて重要語句抽出部2051により抽出された1つ以上の重要語句が存在するときには、その1つ以上の各重要語句の少なくとも1つを、クレームツリーにおけるその項の項番を記載する行に、付記する。この場合の一例として、クレームツリー生成部205cは、その項に記載されて重要語句抽出部2051により抽出された重要語句のうち、クレームのその項に先行する他のいずれの項にも記載されていない重要語句を、優先的に選択して、クレームツリーにおけるその項の項番を記載する行に、付記してもよい。また、この場合にその項に記載されて重要語句抽出部2051により抽出された重要語句が複数存在するときにおける一例として、クレームツリー生成部205cは、その項に記載された複数の重要語句各々が表す要素間が構成上の包含関係を有するならば、重要語句間の関係を表すような記載(例えば、被包含側に係る重要語句を包含側に係る重要語句に後続した括弧内に記載)を、クレームツリーにおけるその項の項番を記載する行に、付記してもよい。
[3−1−5−9−2.修正版クレームツリーの生成]
クレームツリー生成部205cは、修正版クレームツリー生成処理を、クレーム引用関係検出部2057が保持する修正版クレーム引用関係情報を参照して、修正版クレーム情報におけるクレーム各項の引用関係を表現した修正版クレームツリーを生成することにより実現する。なお、クレームツリー生成部205cは、修正版クレーム情報が複数のクレームセット各々におけるクレーム各項の引用関係を示す場合には、修正版クレームツリー生成処理を、修正版クレーム情報のクレームセット毎に、そのクレームセットにおけるクレーム各項の引用関係を表現した修正版クレームツリーを生成することにより、実現する。
クレームツリー生成部205cにおける修正版クレーム情報のクレームの各項の引用関係を示す修正版クレームツリーの生成の方法は、上述したクレーム情報のクレームの各項の引用関係を示すクレームツリーの生成の方法と同様である。
[3−1−5−9−3.構成クレームツリー及び修正版構成クレームツリーの生成]
クレームツリー生成部205cは、発明文書取得部2021により取得された発明文書にクレームが含まれる場合において、発明文書分析システム20が出力部208により出力する特許出願関連情報に含まれるクレーム情報に係るクレームツリー、及び、修正版クレーム情報に係る修正版クレームツリーと看做すものとして、或いは、特許出願関連情報に更に追加するものとして、クレーム情報に係る構成クレームツリー、及び、修正版クレーム情報に係る修正版構成クレームツリーを生成することとしてもよい。
クレームツリー生成部205cは、例えば、クレーム引用関係検出部2057が保持するクレーム引用関係情報を参照して、クレーム情報におけるクレーム各項の引用関係を表現した構成クレームツリーを生成する。
クレームツリー生成部205cは、クレーム情報におけるクレームの各項について、項番が小さい順に、行を改めて、その項が、どの項番の項を引用しているかを示す情報を、引用関係の表現用の記号(例えば「└」)、項番等によって表記し、更にその項に記載されて重要語句抽出部2051により抽出された1つ以上の重要語句が存在するときには、その各重要語句を、構成クレームツリーにおけるその項の項番を記載する行に、付記することで、構成クレームツリーを生成する。この場合に、その項に記載されて重要語句抽出部2051により抽出された重要語句が複数存在するときには、クレームツリー生成部205cは、その項に記載された複数の重要語句各々が表す要素間が構成上の包含関係を有するならば、重要語句間の関係を表すような記載(例えば、被包含側に係る重要語句を包含側に係る重要語句に後続した括弧内に記載)を、構成クレームツリーにおけるその項の項番を記載する行に、付記する。
クレームツリー生成部205cは、例えば、クレーム引用関係検出部2057が保持する修正版クレーム引用関係情報を参照して、修正版クレーム情報におけるクレーム各項の引用関係を表現した修正版構成クレームツリーを生成する。
クレームツリー生成部205cは、修正版クレーム情報におけるクレームの各項について、項番が小さい順に、行を改めて、その項が、どの項番の項を引用しているかを示す情報を、引用関係の表現用の記号、項番等によって表記し、更にその項に記載されて重要語句抽出部2051により抽出された1つ以上の重要語句が存在するときには、その各重要語句を、修正版構成クレームツリーにおけるその項の項番を記載する行に、付記することで、修正版構成クレームツリーを生成する。この場合に、その項に記載されて重要語句抽出部2051により抽出された重要語句が複数存在するときには、クレームツリー生成部205cは、その項に記載された複数の重要語句各々が表す要素間が構成上の包含関係を有するならば、重要語句間の関係を表すような記載(例えば、被包含側に係る重要語句を包含側に係る重要語句に後続した括弧内に記載)を、修正版構成クレームツリーにおけるその項の項番を記載する行に、付記する。
[3−1−5−9−4.表示用文書における各種クレームツリー部分の生成]
発明文書分析システム20において出力部208が、クレームツリー、修正版クレームツリー、構成クレームツリー、及び、修正版構成クレームツリーといった各種クレームツリーの少なくとも1つを含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、クレームツリー生成部205cは、表示用文書としての特許出願関連情報に含まれる各種クレームツリーを生成する。
クレームツリー生成部205cが生成する、表示用文書としての特許出願関連情報の各種クレームツリー部分は、例えば、各種クレームツリー(例えば構成クレームツリー)における各行の内容に対応する、1つ以上の表示要素を含み、その各行内に、項番があればその各項番に対応する1つ以上の表示要素を含み、引用関係の表現用の記号があればその各記号に対応する1つ以上の表示要素を含み、重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する1つ以上の表示要素を含む。具体例としては、クレームツリー生成部205cは、HTML文書において各種クレームツリー(例えば構成クレームツリー)を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、その各種クレームツリー(例えば構成クレームツリー)における各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の項番、引用関係の表現用の各記号、或いは、各重要語句について、対応する表示要素を、<span>タグと</span>タグとでその項番、引用関係の表現用の記号、或いは、重要語句を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。各種クレームツリーの各々の部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
クレームツリー生成部205cは、表示用文書における各種クレームツリー部分に含まれる項番、引用関係の表現用の記号、或いは、重要語句に対応する表示要素に、例えば、その項番、引用関係の表現用の記号、或いは、重要語句についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。表示用文書における各種クレームツリー部分の重要語句に対応する表示要素に付加される表示制御情報については、例えば、表示用文書におけるクレーム情報部分の重要語句についての表示要素に付加された表示制御情報と同様である。
クレームツリー生成部205cは、例えば、表示用文書におけるクレームツリー部分、或いは、構成クレームツリー部分の項番についての表示要素に、その表示要素の操作に応じて、表示用文書におけるクレーム情報のその項番の項の記載部分を表示するためのGUIとしての機能をその表示要素に持たせるための表示制御情報を付加する。クレームツリー生成部205cは、例えば、表示用文書における修正版クレームツリー部分、或いは、修正版構成クレームツリー部分の項番についての表示要素に、その表示要素の操作に応じて、表示用文書における修正版クレーム情報のその項番の項の記載部分を表示するためのGUIとしての機能をその表示要素に持たせるための表示制御情報を付加する。
クレームツリー生成部205cは、例えば、表示用文書におけるクレームツリー部分、或いは、構成クレームツリー部分の、引用関係の表現用の記号(例えば「└」)についての表示要素に、その表示要素の操作(例えばマウスクリック操作)に応じて、その記号で表されていた引用関係を切断する引用関係切断処理を実行するためのGUIとしての機能をその表示要素に持たせるための表示制御情報を、付加する。その引用関係の表現用の記号についての表示要素に対する操作に応じて実行される引用関係切断処理は、例えば、その引用関係の切断のために表示用文書における修正版クレーム情報の内容を更新する処理と、その更新後の修正版クレーム情報の内容と整合するように修正版クレームツリー部分、或いは、修正版構成クレームツリー部分の内容を更新する処理と、その表示要素としての引用関係の表現用の記号を、引用関係が切断されたことを表現するために予め定められた記号(例えば「×」)に変更して、その表示要素を再表示する処理とを含む。この引用関係の切断のために表示用文書における修正版クレーム情報の内容を更新する処理では、例えば、修正版クレーム情報の該当の項における引用先の項番を含む引用記載から引用先の項番に関する記載を削除した場合に、修正版クレーム情報が表すクレームのいずれかの項において、その項における被参照語句(つまり参照文字列に後続する語句)の記載が、その項のその記載に先行する部分又はその項の引用先の項又は引用の連鎖先の項に記載されていないという不適切な状態が生じないときに限って、その引用先の項番に関する記載の削除を実行し、そのような不適切な状態が生じるのであれば、その旨を表示して引用関係切断処理の実行を抑止して、表示用文書としての特許出願関連情報を、引用関係切断処理の実行前の状態に戻す。この引用関係切断処理において、引用先の項番(例えば2)を含む引用記載(例えば「請求項1〜3のいずれか一項」)から引用先の項番に関する記載を削除した場合に上述の不適切な状態が生じるか否かは、クレーム引用関係検出部2057が保持するクレーム引用関係情報を参照して警告情報生成部2059が行う被参照語句の検出処理(つまり、クレームの項についての、参照文字列に後続して記載されている語句と同一の被参照語句が、その項のその参照文字列に先行した部分又は、その項が引用した項内に記載されている必要があるという条件を、満たしていない参照文字列に係る記載が含まれていることを検出する処理)と、同様の方法で、判別可能である。
図32は、ブラウザに表示された表示用文書としての特許出願関連情報における構成クレームツリーの一例を示す。また、図33は、ブラウザに表示された特許出願関連情報の構成クレームツリーにおける引用関係の表現用の記号の表示要素に対するマウスクリック操作に応じてその表示要素が、引用関係が切断されたことを表現するものに、変化した例を示す。図33の例では、図32に示した引用関係の表現用の2つの記号「└」を順次、マウスクリック操作をした後の状態を示し、図32における引用関係の表現用の2つの記号「└」が、図33では引用関係が切断したことを表現する記号「×」に変化している。図32に例示する構成クレームツリーでは、クレームの第4項が、第1項〜第3項の各々を引用していることを示していたが、図33に例示する2回のマウスクリック操作後の構成クレームツリーでは、クレームの第4項が、第1項のみを引用していることを示している。図33に例示する状態では、マウスクリック操作に対応した引用関係切断処理により、クレームの第4項は、第2項及び第3項を引用しないように修正されて修正版クレーム情報が更新されていることになる。
[3−1−5−10.分類部]
分類部2053は、実施形態1で示した分類部1053を一部変形したものであり、ここで特に示さない点については、分類部1053と同様である。
分類部2053は、発明文書取得部2021により取得された複数の発明文書各々についてグループ分類を行う。
分類部2053は、例えば、発明文書取得部2021により取得された複数の発明文書各々について、重要語句抽出部2051により抽出された複数の重要語句である重要語句群を用いて、その各々抽出された重要語句群間の相関性に基づいて、その複数の発明文書各々が複数のグループのうちいずれに属するかを特定するためのグループ分類を行う。分類部2053は、複数の発明文書各々から抽出された重要語句群の各重要語句について、その重要語句に対応して重要度決定部2055により決定された重要度の高さに対応した重み付けを行った上で、重要語句群間の相関性についての算定を行い得る。分類部2053は、例えば、複数の発明文書各々から抽出された重要語句群の各重要語句について、その重要語句に対応して重要度決定部2055により決定された重要度が予め定められた所定値より低いところの重要語句は無視して、重要語句群間の相関性についての算定を行うこととしてもよい。分類部2053は、重要語句群間の相関性を評価するために、両重要語句群に共通する同一の重要語句の数を計数するアルゴリズム、類義語辞書を利用して両重要語句群における同一又は類似する重要語句の数を計数するアルゴリズム、重要語句群各々に対して、ある程度十分な数(例えば数千、数万等)の重要語句として用いられると想定される文字列各々を要素として、例えばその要素の文字列が重要語句として存在する場合にその重要語句の重要度に対応して定めた0より大きく1以下の要素値と、重要語句として存在しない場合に0という要素値とを定めたベクトルデータを定義して、そのベクトルデータ間の相関係数を算定する各種アルゴリズム等の、如何なるアルゴリズムを用いてもよい。また、分類部2053は、各発明文書の重要語句群について、クラスタリング(clustering)手法に係る各種アルゴリズムのいずれかを利用して、グループ分類を行うこととしてもよい。分類部2053は、ある程度十分な数(例えば数千、数万等)の重要語句として用いられると想定される文字列各々として、例えば、ある程度十分な数(例えば数十、数百等)の発明文書を発明文書分析システム20の発明文書取得部2021で取得させて、各発明文書から重要語句抽出部2051で抽出された重要語句を重複なく統合した、重要語句の集合の各要素を、利用することができる。
分類部2053は、各発明文書のグループ分類の1つとして、各発明文書が複数の技術分野のうちいずれに属するかを特定するための技術分野の分類を行う技術分野特定部20531を含む。分類部2053は、グループの種類の1つとしての技術分野に限らず、各種のグループ分類を行い得る。例えば、分類部2053は、ユーザの指定等に応じて、発明文書を、発明者の所属部門別のグループに分類することとしてもよい。グループの分類の単位、方法等は、発明文書分析システム20の運用単位(例えば発明文書、対訳辞書情報、或いは、発明文書分析システム20が出力する情報を、相互に伝達し合うユーザ各々が利用する各発明文書分析システム20)において統一されていることが有用となり得る。
技術分野特定部20531は、実施形態1で示した技術分野特定部10531を一部変形したものであり、ここで特に示さない点については技術分野特定部10531と同様である。
技術分野特定部20531は、複数の技術分野各々について、その技術分野に関することが知られている1つ以上の発明文書各々を発明文書取得部2021で過去に取得して重要語句抽出部2051により重要語句群を過去に抽出した結果を利用することで、複数の技術分野のうち、発明文書取得部2021で取得された、技術分野が特定されていない発明文書から、重要語句抽出部2051により抽出された重要語句群との相関性が予め定められた程度以上であるところのいずれかの技術分野を、その技術分野が特定されていない発明文書に対応する技術分野として特定する。技術分野特定部20531は、複数の発明文書各々から抽出された重要語句群の各重要語句について、その重要語句に対応して重要度決定部2055により決定された重要度の高さに対応した重み付けを行った上で、重要語句群間の相関性についての算定を行い得る。これにより、相対的に高い重み付けが行われた重要語句間について算定された相関性の要素は相対的に高く評価され、相対的に低い重み付けが行われた重要語句間について算定された相関性の要素は相対的に低く評価される。従って、例えば、発明文書Aにおける重要度が比較的高い重要語句群と、発明文書Bにおける重要度が比較的高い重要語句群とが、概ね同一であった場合における両発明文書の相関性は、比較的高いものと評価され、例えば、発明文書Aにおける重要度が比較的高い重要語句群と、発明文書Bにおける重要度が比較的高い重要語句群とが、全く相違し、かつ、発明文書Aにおける重要度が比較的低い重要語句群と、発明文書Bにおける重要度が比較的低い重要語句群とが、概ね同一であった場合における両発明文書の相関性は比較的低いものと評価される。技術分野特定部20531は、例えば、複数の発明文書各々から抽出された重要語句群の各重要語句について、その重要語句に対応して重要度決定部2055により決定された重要度が予め定められた所定値より低いところの重要語句は無視して、重要語句群間の相関性についての算定を行うこととしてもよい。技術分野は、例えばIPCで表現される。技術分野特定部20531は、技術分野として、IPCのどの階層までの分類を用いてもよく、例えばセクションだけ、或いは、セクション及びクラスだけ等を用いて1つの技術分野として取り扱うこととしてもよい。また、技術分野特定部20531は、技術分野を、IPCのセクション、クラス、サブクラス、メイングループ及びサブグループの全てを用いて表現することとしてもよい。例えば、技術分野をIPCのセクションだけで区別することとした場合に、技術分野特定部20531は、特許公報等を用いて、IPCのセクション毎にそのセクションに属する複数の発明文書を取得し、その各発明文書を発明文書分析システム20に取得させて重要語句抽出部2051により抽出された、セクションに対応した重要語句群を得ることができる。例えば、この過去に得られたセクション毎の重要語句群を利用することで、技術分野特定部20531は、発明文書取得部2021で取得された、技術分野としてのセクションが特定されていない発明文書から重要語句抽出部2051により抽出された重要語句群との相関性が予め定められた程度以上であると評価されたところのセクションを、その発明文書の技術分野として特定することができる。
技術分野特定部20531は、例えば、技術分野特定用学習モデルを用いて予め定められた演算処理を行うことで、発明文書から抽出した重要語句群に基づいて、発明文書が属する技術分野を特定することとしてもよい。また、技術分野特定部20531は、例えば、複数の技術分野各々についての1つ又は複数の既存の専門用語辞書の項目群(つまり見出し語群)に相当するデータと、発明文書から抽出した重要語句群とを照合して、一致する語句の数を計数して評価することで、発明文書が属する技術分野を特定することとしてもよい。
発明文書取得部2021で取得した発明文書に対応して技術分野特定部20531により特定された技術分野(例えばIPC)を示す情報である技術分野情報は、例えば、発明文書分析システム20が出力する特許出願関連情報に含まれる。
また、分類部2053により発明文書が属すると特定されたグループ、又は、技術分野特定部20531により発明文書に対応して特定された技術分野は、例えば、翻訳部2054において、翻訳に利用するために、グループ毎又は技術分野毎の対訳辞書情報等の各種情報を、選択するために利用され得る。また、技術分野特定部20531による技術分野の分類を含む、分類部2053によるグループ分類は、機械学習部207においてグループ毎の翻訳用学習モデルを生成するために利用され得る。
[3−1−5−11.翻訳部]
翻訳部2054は、クレーム情報生成部205aにより生成されたクレーム情報及び修正版クレーム情報、並びに、明細書情報生成部205bにより生成された明細書情報及び修正版明細書情報を、入力として、翻訳用学習モデルを利用した、翻訳のために予め定められた演算処理により、そのクレーム情報及び修正版クレーム情報に表されるクレームの各項の内容、及び、明細書情報及び修正版明細書情報に表される明細書の内容についての機械翻訳を実行する。発明文書取得部2021が取得した発明文書の内容次第で、クレーム情報、修正版クレーム情報、明細書情報、及び、修正版明細書情報のうちのいずれかは生成されない場合がある。このため、翻訳部2054は、クレーム情報、修正版クレーム情報、明細書情報、及び、修正版明細書情報のうち、生成されているものに限って、入力として、機械翻訳の実行を行う。
翻訳用学習モデルは、発明文書と、その発明文書に基づいて翻訳者等によって翻訳された結果としての翻訳結果文書との複数組を教師データとした機械学習により生成された、機械翻訳のための学習モデルである。ここでは、一例として、翻訳用学習モデルは、日本語の発明文書を英語の文書に機械翻訳するために用いられる学習モデルであることとして説明するが、日本語の発明文書を、英語の代わりに中国語その他の言語の文書に、機械翻訳するために用いられる学習モデルであってもよい。
複数のグループ毎或いは技術分野毎に、翻訳用学習モデルが存在する場合において、翻訳部2054は、例えば、発明文書取得部2021で取得された発明文書が属するグループ或いは技術分野を分類部2053或いは技術分野特定部20531により特定し、その発明文書が属するグループ或いは技術分野に対応する翻訳用学習モデルを選択的に利用することで、その発明文書に基づいて生成された、クレーム情報及び修正版クレーム情報に表されるクレーム、及び、明細書情報及び修正版明細書情報に表される明細書の全部又は一部の機械翻訳を実行することとしてもよい。翻訳用学習モデルが重要語句翻訳用学習モデルを内包しているような場合における機械翻訳は、文章の翻訳に際して文章中の各語句を重要語句翻訳用学習モデルを用いた演算処理により対応する翻訳語句に置き換えて、その結果に対して翻訳用学習モデルを用いた演算処理(例えば翻訳語句に対する単数形と複数形とのいずれかの選択等といった翻訳対象言語の文法に従った演算を含む演算処理)を行うことにより、翻訳対象言語の文章を生成することで実現される。なお、あるグループ毎或いはある技術分野用の翻訳用学習モデルは、そのグループ或いはその技術分野用の重要語句翻訳用学習モデルを内包していてもよい。
翻訳部2054は、例えば、設定情報取得部201により取得された設定情報における翻訳補助情報の特定用情報に基づいて翻訳補助情報を取得して利用し得る。
翻訳部2054は、例えば、発明文書取得部2021により取得された発明文書にある程度関連する他の発明文書に対応する翻訳補助情報を取得して、その翻訳補助情報を、発明文書取得部2021により取得された発明文書に係るクレーム情報、修正版クレーム情報、明細書情報、或いは、修正版明細書情報の機械翻訳に利用することとしてもよい。発明文書同士の関連の程度は、例えば、その各発明文書から重要語句抽出部2051により抽出された各重要語句を示す重要語句群情報に基づいて、重要語句群情報の表す重要語句群同士の相関性、重要語句群同士における同一の重要語句の割合の高さ、重要語句群から特定した発明文書が属する技術分野間の関連性等に基づいて、判定可能である。
翻訳部2054は、例えば、実施形態1で示した発明文書分析システム10により過去に生成された翻訳補助情報、発明文書分析システム20により過去に生成された翻訳補助情報、或いは、これらの翻訳補助情報がシステムの運用形態に応じて収集して統合された結果としての翻訳補助情報のうちのいずれかを、取得して、取得した翻訳補助情報を、発明文書取得部2021により取得された発明文書に係るクレーム情報、修正版クレーム情報、明細書情報、或いは、修正版明細書情報の機械翻訳に利用することとしてもよい。翻訳部2054は、例えば、翻訳補助情報を、設定情報取得部201により取得された設定情報における翻訳補助情報の特定用情報に基づいて、取得し得る。
翻訳部2054は、重要語句についての翻訳用の重要語句翻訳用学習モデルを利用した、重要語句の翻訳のために予め定められた演算処理により、上述したクレーム情報及び修正版クレーム情報に表されるクレーム、及び、明細書情報及び修正版明細書情報に表される明細書の全部又は一部に含まれる重要語句(つまり重要語句抽出部2051により抽出された重要語句)の機械翻訳を実行することとしてもよい。この機械翻訳の結果により、重要語句についての対応翻訳語が決定され得る。また、翻訳部2054は、上述した翻訳補助情報を取得して、その翻訳補助情報を用いることで、或いは、重要語句設定辞書取得部203により取得された1つ以上の重要語句に対して対応翻訳語を対応付けた重要語句設定辞書を用いることで、クレーム情報及び修正版クレーム情報に表されるクレーム、及び、明細書情報及び修正版明細書情報に表される明細書の全部又は一部に含まれる重要語句についての対応翻訳語を決定することとしてもよい。翻訳部2054は、重要語句についての対応翻訳語を決定した場合に、決定した対応翻訳語を反映するように、分析部205が保持する重要語句管理情報を更新する。翻訳補助情報は、グループ或いは技術分野毎に分類されていてもよく、翻訳部2054は、発明文書取得部2021により取得された発明文書が属するグループ或いは技術分野に対応する翻訳補助情報を選択的に用いて、重要語句についての対応翻訳語の決定、機械翻訳等を実行することとしてもよい。
翻訳部2054は、例えば、クレームツリー生成部205cにより生成された構成クレームツリー及び修正版構成クレームツリーに、その各ツリーに含まれる重要語句を、重要語句翻訳用学習モデルを用いた演算処理による機械翻訳の結果に、或いは、翻訳補助情報に基づく対応翻訳語に、置換したものである置換後クレームツリーを、包含させることとしてもよい。
翻訳部2054は、上述したクレーム情報及び修正版クレーム情報に表されるクレーム、及び、明細書情報及び修正版明細書情報に表される明細書の全部又は一部について、その全部又は一部に含まれる各重要語句を機械翻訳結果に置き換えたものを入力として、翻訳用学習モデルを用いた機械翻訳を実行することとしてもよい。
また、翻訳部2054は、例えば、上述したクレーム情報及び修正版クレーム情報に表されるクレーム、及び、明細書情報及び修正版明細書情報に表される明細書の全部又は一部について、その全部又は一部に含まれる各重要語句を機械翻訳結果に置き換えたものを所定の機械翻訳プログラムに対する入力とし、この所定の機械翻訳プログラムにより出力される翻訳結果を取得することによって、機械翻訳を実行することとしてもよい。この所定の機械翻訳プログラムでは、各重要語句に対する機械翻訳結果を含むクレーム情報及び修正版クレーム情報に表されるクレーム、及び、明細書情報及び修正版明細書情報に表される明細書の全部又は一部に係る各文についての機械翻訳においては、各重要語句に対しる機械翻訳結果を、各文の内容等に応じて複数形又は単数形のうち適切な形式に変更して、機械翻訳を行うような翻訳アルゴリズムを用い得る。所定の機械翻訳プログラムは、例えば、既存の機械翻訳技術を用いて入力された日本語の文章に対する翻訳結果としての文章を出力するプログラムであり、発明文書分析システム20の内部に存在しても、外部に存在してもよい。例えば、所定の機械翻訳プログラムは、発明文書分析システム20を構成する端末装置とインターネット等のネットワークを通じて通信可能な、例えば翻訳用API等を提供しているサーバ装置(つまりコンピュータ)上で動作し、翻訳部2054は、所定の機械翻訳プログラムに入力する情報を暗号化してそのサーバ装置に送信し、そのサーバ装置では所定の機械翻訳プログラムの出力する情報を暗号化して端末装置に送信し、翻訳部2054は、所定の機械翻訳プログラムの出力する情報を受信して復号することとしてもよい。この暗号化及び復号では、如何なる暗号方式が用いられてもよい。
翻訳部2054が機械翻訳に用いる翻訳用学習モデル及び重要語句翻訳用学習モデルは、如何なる方法で生成されたものであってもよい。翻訳部2054が機械翻訳に用いる翻訳用学習モデル及び重要語句翻訳用学習モデルは、例えば、過去に機械学習部207により生成されたもの、或いは、過去に他の発明文書分析システム20による出力部208から出力されたものであってもよい。
[3−1−5−11−1.各種翻訳情報の生成]
翻訳部2054による、クレーム情報に表されるクレームについての機械翻訳の結果は、例えば、クレーム翻訳情報として、発明文書分析システム20が出力する特許出願関連情報に含まれ得る。クレーム翻訳情報は、例えば、クレーム情報の各行を包含し、その包含したクレーム情報の行毎或いはクレームの項毎について、その行或いはクレームの項の内容の直後に、その行或いはクレームの項の内容に対応する機械翻訳の結果を表す一行或いはクレームの一項を挿入したものであってもよい。クレーム翻訳情報における、そのクレーム情報の行或いは項の内容に対応する機械翻訳の結果を表す一行或いは一項の内容は、一行又は複数行からなる翻訳行であり、その翻訳行は、そのクレーム情報の行或いは項の全体を翻訳先言語で表した完全翻訳行であってもよいし、そのクレーム情報の行或いは項に含まれる翻訳可能な重要語句だけを対応翻訳語で表して、翻訳可能な重要語句以外の部分は日本語の記載のまま残した、部分翻訳行であってもよい。なお、クレーム情報の重要語句を含む行或いは項の全体を翻訳先言語で表した完全翻訳行において、その重要語句に対応する翻訳先言語で表した語句は対応翻訳語と扱うことができる。従って、クレーム翻訳情報は、クレーム情報の内容に含まれる重要語句をその重要語句に対応する対応翻訳語に置換した結果を表す情報とも言える。翻訳部2054は、クレーム翻訳情報に完全翻訳行を含ませる場合には、更に、その完全翻訳行の直前又は直後に、その完全翻訳行の翻訳対象行に対応する部分翻訳行を挿入することとしてもよい。翻訳部2054は、クレーム翻訳情報に、クレーム情報の各行を混在させるか、混在させずに翻訳行(つまり完全翻訳行又は部分翻訳行)だけにするかを、設定情報取得部201が取得した設定情報における指定に基づいて決定して、その決定に従ってクレーム翻訳情報を生成することとしてもよい。なお、クレーム翻訳情報が、クレーム情報の各行を包含する場合において、発明文書分析システム20は、そのクレーム翻訳情報を、クレーム情報と取り扱うこととして、特許出願関連情報に含ませることとしてもよい。
翻訳部2054による、修正版クレーム情報に表されるクレームについての機械翻訳の結果は、例えば、修正版クレーム翻訳情報として、発明文書分析システム20が出力する特許出願関連情報に含まれ得る。修正版クレーム翻訳情報は、例えば、修正版クレーム情報の各行を包含し、その包含した修正版クレーム情報の行毎について、その行の直後に、その行に対応する機械翻訳の結果を表す一行を挿入したものであってもよい。修正版クレーム翻訳情報における、その修正版クレーム情報の行に対応する機械翻訳の結果を表す一行は、その修正版クレーム情報の行の全体を翻訳先言語で表した完全翻訳行であってもよいし、その修正版クレーム情報の行に含まれる翻訳可能な重要語句だけを対応翻訳語で表して、翻訳可能な重要語句以外の部分は日本語の記載のまま残した、部分翻訳行であってもよい。翻訳部2054は、修正版クレーム翻訳情報に完全翻訳行を含ませる場合には、更に、その完全翻訳行の直前又は直後に、その完全翻訳行の翻訳対象行に対応する部分翻訳行を挿入することとしてもよい。翻訳部2054は、修正版クレーム翻訳情報に、修正版クレーム情報の各行を混在させるか、混在させずに完全翻訳行又は部分翻訳行だけにするかを、設定情報取得部201が取得した設定情報における指定に基づいて決定して、その決定に従って修正版クレーム翻訳情報を生成することとしてもよい。なお、修正版クレーム翻訳情報が、修正版クレーム情報の各行を包含する場合において、発明文書分析システム20は、その修正版クレーム翻訳情報を、修正版クレーム情報と取り扱うこととして特許出願関連情報に含ませることとしてもよい。
翻訳部2054による、明細書情報に表される明細書についての機械翻訳の結果は、例えば、明細書翻訳情報として、発明文書分析システム20が出力する特許出願関連情報に含まれ得る。明細書翻訳情報は、例えば、明細書情報の各行を包含し、その包含した明細書情報の行毎について、その行の直後に、その行に対応する機械翻訳の結果を表す一行を挿入したものであってもよい。明細書翻訳情報における、その明細書情報の行に対応する機械翻訳の結果を表す一行は、翻訳行であり、その翻訳行は、その明細書情報の行の全体を翻訳先言語で表した完全翻訳行であってもよいし、その明細書情報の行に含まれる翻訳可能な重要語句だけを対応翻訳語で表して、翻訳可能な重要語句以外の部分は日本語の記載のまま残した、部分翻訳行であってもよい。なお、明細書情報の重要語句を含む行の全体を翻訳先言語で表した完全翻訳行において、その重要語句に対応する翻訳先言語で表した語句は対応翻訳語と扱うことができる。従って、明細書翻訳情報は、明細書情報の内容に含まれる重要語句をその重要語句に対応する対応翻訳語に置換した結果を表す情報とも言える。翻訳部2054は、明細書翻訳情報に完全翻訳行を含ませる場合には、更に、その完全翻訳行の直前又は直後に、その完全翻訳行の翻訳対象行に対応する部分翻訳行を挿入することとしてもよい。翻訳部2054は、明細書翻訳情報に、明細書情報の各行を混在させるか、混在させずに翻訳行(つまり完全翻訳行又は部分翻訳行)だけにするかを、設定情報取得部201が取得した設定情報における指定に基づいて決定して、その決定に従って明細書翻訳情報を生成することとしてもよい。なお、明細書翻訳情報が、明細書情報の各行を包含する場合において、発明文書分析システム20は、その明細書翻訳情報を、明細書情報と取り扱うこととして特許出願関連情報に含ませることとしてもよい。
翻訳部2054による、修正版明細書情報に表される明細書についての機械翻訳の結果は、例えば、修正版明細書翻訳情報として、発明文書分析システム20が出力する特許出願関連情報に含まれ得る。修正版明細書翻訳情報は、例えば、修正版明細書情報の各行を包含し、その包含した修正版明細書情報の行毎について、その行の直後に、その行に対応する機械翻訳の結果を表す一行を挿入したものであってもよい。修正版明細書翻訳情報における、その修正版明細書情報の行に対応する機械翻訳の結果を表す一行は、その修正版明細書情報の行の全体を翻訳先言語で表した完全翻訳行であってもよいし、その修正版明細書情報の行に含まれる翻訳可能な重要語句だけを対応翻訳語で表して、翻訳可能な重要語句以外の部分は日本語の記載のまま残した、部分翻訳行であってもよい。翻訳部2054は、修正版明細書翻訳情報に完全翻訳行を含ませる場合には、更に、その完全翻訳行の直前又は直後に、その完全翻訳行の翻訳対象行に対応する部分翻訳行を挿入することとしてもよい。翻訳部2054は、修正版明細書翻訳情報に、修正版明細書情報の各行を混在させるか、混在させずに完全翻訳行又は部分翻訳行だけにするかを、設定情報取得部201が取得した設定情報における指定に基づいて決定して、その決定に従って修正版明細書翻訳情報を生成することとしてもよい。なお、修正版明細書翻訳情報が、修正版明細書情報の各行を包含する場合において、発明文書分析システム20は、その修正版明細書翻訳情報を、修正版明細書情報と取り扱うこととして特許出願関連情報に含ませることとしてもよい。
翻訳部2054は、例えば、部分翻訳行の生成において、翻訳対象行における重要語句に対応する対応翻訳語が特定できない場合には、翻訳対象行の重要語句を、その重要語句についての翻訳語候補集合に置換したものを、部分翻訳行として生成する。
翻訳部2054は、翻訳先の言語が英語である場合には、例えば、生成するクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報における部分翻訳行中又は完全翻訳行中の符号を、半角文字で表現可能であれば半角文字にして、その符号の前後に半角の空白文字を挿入して記載し得る。
翻訳部2054は、翻訳先の言語が英語である場合において、例えば、生成するクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報における部分翻訳行又は完全翻訳行の翻訳対象となった行の行頭に空白文字があるときには、部分翻訳行又は完全翻訳行では、その空白文字を、予め定められた所定数の半角の空白文字へと置換して行頭に含むように記載し得る。この部分翻訳行又は完全翻訳行の行頭に記載され得る半角の空白文字の個数としての所定数は、例えば、設定情報取得部201により取得される設定情報により定められることとしてもよい。
例えば、設定情報取得部201により取得される設定情報により、翻訳先の言語が英語である場合にその英語での翻訳文の形式(文末に挿入する半角の空白文字の数等)について設定されるようにしてもよく、翻訳部2054は、その設定情報で設定された形式に従って、明細書翻訳情報、修正版明細書翻訳情報等における各翻訳文を生成するようにしてもよい。
翻訳部2054は、例えば、生成するクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報における部分翻訳行又は完全翻訳行の翻訳対象となった行に見出し(例えば隅付き始め括弧で始まり隅付き終わり括弧で終わる記載部分)が記載されていた場合には、予め定められた見出しの対訳表に従って、その見出しを翻訳することで、見出しの翻訳結果を含ませた部分翻訳行又は完全翻訳行を生成することとしてもよい。予め定められた見出しの対訳表(つまり複数の日本語の見出し各々に、予め定められた、見出しの翻訳結果を対応付けた表)は、例えば、設定情報取得部201により取得される設定情報により定められることとしてもよい。例えば翻訳先の言語が英語である場合において、見出しの対訳表の一例としては、日本語の各見出し(例えば「発明の名称」、「発明を実施するための形態」等)について、日本語の見出しと、三極特許庁の合意内容に準拠した国際出願用の見出しの英文とを対応付けたものが、挙げられる。
翻訳部2054は、翻訳語候補集合特定部20541を含む。翻訳語候補集合特定部20541は、実施形態1で示した翻訳語候補集合特定部1052を一部変形したものであり、ここで特に示さない点については、翻訳語候補集合特定部1052と同様である。
翻訳語候補集合特定部20541は、例えば設定情報の対訳辞書情報の特定用情報に基づいて、対訳辞書情報を取得して、保持し得る。翻訳語候補集合特定部20541は、例えば予め対訳辞書情報を保持していてもよい。
翻訳語候補集合特定部20541は、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された重要語句各々について、対訳辞書情報を用いて、その重要語句についての対応翻訳語の候補の集合である翻訳語候補集合を特定する。翻訳語候補集合特定部20541は、各重要語句について、その重要語句に対応する翻訳語候補集合の要素数を、可能な限り1以上にするように、各種処理を行い得るが、結果的に、その重要語句に対応する翻訳語候補集合の要素数が0となる場合は生じ得る。この各種処理の例としては、翻訳語候補集合の要素が見つからないその重要語句が複合語であれば複数の語句に分解して対訳辞書情報から得た対訳を合成する処理、翻訳語候補集合の要素が見つからないその重要語句の語幹に所定の限定語句(例えば序数、各種数詞、限定文字列「所定の」等)が含まれている場合にその日本語の所定の限定語句とその重要語句の語幹以外の部分について対訳辞書情報から得た対訳とを合成する処理、翻訳語候補集合の要素が見つからないその重要語句の語尾に所定の語尾文字列(例えば「部」、「手段」等)が含まれている場合にその重要語句の語尾以外の部分について対訳辞書情報から得た対訳と、その日本語の所定の語尾文字列、又は、所定の語尾文字列に対応する対訳辞書情報から得た対訳とを、合成する処理等が、挙げられる。この所定の語尾文字列は、設定情報取得部201により取得された設定情報に含まれる技術用語特有語尾情報により示される1つ以上の各技術用語特有語尾文字列であってもよい。
翻訳語候補集合特定部20541が特定する重要語句についての翻訳語候補集合の要素は、一部に日本語の語句を含むものであってもよい。翻訳語候補集合特定部20541は、各重要語句について、その重要語句に対応する翻訳語候補集合に、翻訳補助情報においてその重要語句に対応付けられた対応翻訳語を、既存の要素と重複しない限り新たな要素として追加することとしてもよい。翻訳語候補集合特定部20541は、各重要語句について、重要語句翻訳用学習モデルを用いた予め定められた演算処理を実行してその演算結果に基づいて、その重要語句に対応する翻訳語候補集合の特定又は修正(例えばその演算処理により生成された機械翻訳結果の追加等)をすることとしてもよい。また、翻訳語候補集合特定部20541は、各重要語句について、重要語句の抽出対象となった発明文書からその重要語句を含む各行を抽出して、その各行を、所定の機械翻訳プログラムに対する入力とし、この所定の機械翻訳プログラムにより出力される翻訳結果のうちその重要語句が翻訳された部分に該当する1つ又は複数の対訳を取得し、その各対訳をその重要語句に対応する翻訳語候補集合の要素として追加することとしてもよい。
翻訳語候補集合特定部20541は、重要語句についての翻訳語候補集合を特定、修正等した場合に、その翻訳語候補集合を反映するように、分析部205が保持する重要語句管理情報を更新する。
翻訳先の言語が英語である場合において翻訳語候補集合特定部20541が、対訳辞書情報等に基づいて重要語句について特定する翻訳語候補集合の例としては、重要語句「ねじ回し」についての翻訳語候補集合「screwdriver」、重要語句「処理部」についての翻訳語候補集合「processor、handler」、「判定」と「部」とに分解可能な重要語句「判定部」についての翻訳語候補集合「judgement部、decision部、adjudication部」、重要語句「変化量」についての翻訳語候補集合「variation、amount of change」、「所定」と「基準」とに分解可能な重要語句「所定基準」についての翻訳語候補集合「所定standard、所定basis、所定criterion」、「支援」と「処理」とに分解可能な重要語句「支援処理」についての翻訳語候補集合「support処理、backing処理、aid処理」、重要語句「文字」についての翻訳語候補集合「letter、character、writing」等が挙げられる。
翻訳語候補集合特定部20541は、例えば、分類部2053により発明文書が属すると特定されたグループ、又は、技術分野特定部20531により発明文書に対応して特定された技術分野を、グループ別又は技術分野別の複数の対訳辞書情報のうちから、翻訳語候補集合を特定するための対訳辞書情報を、選択するために利用する。この複数の対訳辞書情報各々においては、例えば、その対訳辞書情報に対応するグループ又は技術分野における発明文書中の重要語句に対応する語句として選択される可能性が高いと推定される順(つまり対応翻訳語としての妥当性の高い順)に、重要語句に対応する1つ以上の対訳の語句を順序付けておき、翻訳語候補集合特定部20541は、選択した対訳辞書情報における語句の順序と合わせるように、翻訳語候補集合の要素の並び順を定めることとしてもよい。翻訳語候補集合の要素の並び順は、翻訳語候補集合が特許出願関連情報の一部として出力(例えば表示)される場合に、その並び順に並べて出力(例えば表示)され得る。グループ別又は技術分野別の複数の対訳辞書情報各々は、その対訳辞書情報の検索効率を向上させるために、そのグループ又は技術分野において使用頻度の高い重要語句ほど迅速に検索されるように構成されるようにしてもよい。
翻訳先の言語を英語とした場合における技術分野別の複数の対訳辞書情報の例としては、例えば、コンピュータ技術の分野に対応する対訳辞書情報における重要語句「移植」についての翻訳語候補集合の要素では「porting」の妥当性が比較的高く、医療機器の分野に対応する対訳辞書情報における重要語句「移植」についての翻訳語候補集合の要素では「transplant」の妥当性が比較的高い例、化学の分野に対応する対訳辞書情報における重要語句「分子」についての翻訳語候補集合の要素では「molecule」の妥当性が比較的高く、測定技術、コンピュータ技術等の分野に対応する対訳辞書情報における重要語句「分子」についての翻訳語候補集合の要素では「numerator」の妥当性が比較的高い例等が、挙げられる。
翻訳先の言語を英語とした場合における、発明者の所属部門別というグループ別の複数の対訳辞書情報の一例としては、例えば部門毎における発明文書に係る翻訳方針(例えば翻訳表現についての規則)の相違等により、第1の部門に対応する対訳辞書情報における重要語句「分析工程」及び「制御工程」のそれぞれについての翻訳語候補集合の要素では、それぞれ「analysis process」、「control process」の妥当性を最高に定めてあり、第2の部門に対応する対訳辞書情報における重要語句「分析工程」及び「制御工程」のそれぞれについての翻訳語候補集合の要素では、それぞれ「analyzing step」、「controlling step」の妥当性を最高に定めてあり、第3の部門に対応する対訳辞書情報における重要語句「分析工程」及び「制御工程」のそれぞれについての翻訳語候補集合の要素では、それぞれ「analyzing」、「controlling」の妥当性を最高に定めてある例が、挙げられる。
[3−1−5−11−2.表示用文書における各種翻訳情報部分の生成]
発明文書分析システム20において出力部208が、クレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、及び、修正版明細書翻訳情報といった各種翻訳情報の少なくとも1つを含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、翻訳部2054は、表示用文書としての特許出願関連情報に含まれるクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報を生成する。
翻訳部2054が生成する、表示用文書としての特許出願関連情報のクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報の部分は、例えば、そのクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報における各行の内容に対応する、1つ以上の表示要素を含み、その各行内に、重要語句抽出部2051により抽出された1つ以上の重要語句があればその各重要語句に対応する1つ以上の表示要素を含み、その各行内に、1つ以上の重要語句が翻訳された機械翻訳結果があればその各機械翻訳結果に対応する1つ以上の表示要素を含む。具体例としては、翻訳部2054は、HTML文書において、クレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報を<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、そのクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、或いは、修正版明細書翻訳情報における各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の重要語句、或いは、重要語句が翻訳された機械翻訳結果について、対応する表示要素を、<span>タグと</span>タグとでその重要語句、或いは、機械翻訳結果を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。表示用文書における各種翻訳情報部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
翻訳部2054は、表示用文書における各種翻訳情報部分に含まれる重要語句、或いは、重要語句が翻訳された機械翻訳結果に対応する表示要素に、例えば、その重要語句、或いは、機械翻訳結果についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。表示用文書における各種翻訳情報部分の重要語句、或いは、重要語句が翻訳された機械翻訳結果に対応する表示要素に付加される表示制御情報については、例えば、表示用文書における明細書情報部分の重要語句についての表示要素に付加された表示制御情報と同様である。
翻訳部2054は、例えば、表示用文書における各種翻訳情報部分の、重要語句を構成する文字列が互いに相違する複数の重要語句各々を、互いに異なる表示態様(例えば互いに異なる色を付加した態様)で表示するように、各重要語句に対応する表示要素に付加する表示制御情報を定め得る。また、翻訳部2054は、例えば、表示用文書における各種翻訳情報部分の、重要語句の表示要素の表示態様と、その重要語句を翻訳した機械翻訳結果の表示要素の表示態様とにおける少なくとも一部(例えば、重要語句又は機械翻訳結果に付加され、ある程度の幅を有する左境界線を塗る色)を同一となるように、その各表示要素に付加する表示制御情報を定め得る。翻訳部2054は、具体例を挙げると、クレーム翻訳情報及び明細書翻訳情報における重要語句を機械翻訳対象とした機械翻訳の結果の表示要素に付加する情報として、その重要語句が、クレーム情報における重要語句を構成する文字列が互いに相違する複数の重要語句各々と同一の重要語句である場合においては、その機械翻訳の結果の表示態様の少なくとも一部がクレーム情報及び明細書情報におけるその重要語句の表示態様の少なくとも一部と同一となるように(例えば重要語句の機械翻訳の結果に付加された表示色がその重要語句に付加された表示色と同一となるように)、その機械翻訳の結果の表示態様を制御するための表示制御情報を定める。例えば、クレーム情報における重要語句に係る表示制御情報が、その重要語句を、所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであるところの重要語句を機械翻訳対象とする、クレーム翻訳情報及び明細書翻訳情報におけるその重要語句についての機械翻訳の結果に係る表示制御情報は、その機械翻訳の結果を、その重要語句の表示態様に係る左境界線の表示色と同一の表示色でその所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものである。これにより、表示用文書としての各種翻訳情報部分において、一行毎或いはクレームの一項毎に、機械翻訳対象と機械翻訳結果とが交互に記載されているような場合等において、ブラウザにより表示された各種翻訳情報部分における重要語句と、その重要語句が翻訳された機械翻訳結果との対応関係を、ユーザが比較的容易に把握できるようになる。
翻訳部2054は、表示用文書における各種翻訳情報部分の重要語句の表示要素に付加する、操作に応じたGUIとしての機能に係る表示制御情報を、例えば、明細書情報生成部205bが表示用文書における明細書情報部分の重要語句の表示要素に付加する、操作に応じたGUIとしての機能に係る表示制御情報と同様に定め得る。また、翻訳部2054は、表示用文書における各種翻訳情報部分の、重要語句が翻訳された機械翻訳結果の表示要素に付加する、操作に応じたGUIとしての機能に係る表示制御情報を、例えば、その重要語句の表示要素に付加する、操作に応じたGUIとしての機能に係る表示制御情報と同様に定め得る。
翻訳部2054は、表示用文書における各種翻訳情報部分の、重要語句が翻訳された機械翻訳結果の表示要素に、例えば、その表示要素の操作に応じてその重要語句を表示するGUIとしての機能を持たせるための表示制御情報を付加してもよい。
翻訳部2054は、表示用文書における各種翻訳情報部分の、重要語句が翻訳された機械翻訳結果の表示要素に、例えば、その表示要素の操作に応じて、その重要語句に対する、その機械翻訳結果とは異なる翻訳語候補集合を表示するGUIとしての機能を持たせるための、翻訳語候補情報を含む表示制御情報を付加してもよい。重要語句に対する翻訳語候補集合は、翻訳語候補集合特定部20541により特定される。この翻訳語候補集合を表示するGUIとしての機能は、翻訳語候補集合の各要素を選択肢とする選択メニューを表示するものであってもよいし、更に、翻訳語候補集合の各要素に妥当性を付記して表示するものであってもよいし、妥当性の高い順に各要素を並べて表示するものであってもよい。翻訳部2054は、その表示要素に係るGUIに対する操作の結果として表示された、重要語句に対する翻訳語候補集合から1つの要素の選択操作がなされた場合に、機械翻訳結果の表示要素の内容をその選択操作により選択された要素に変更するようにその表示要素に付加する表示制御情報を定めてもよい。翻訳部2054は、この機械翻訳結果の変更を、例えば、翻訳先言語が英語である場合においては変更対象の機械翻訳結果が単数形か複数形かに応じて、選択された要素を、同じ、単数形か複数形かの形式に変換し、変換後の要素への変更により実現し得る。翻訳部2054は、更に、その表示制御情報を、重要語句に対する翻訳語候補集合から1つの要素の選択操作がなされた場合に、表示用文書における各種翻訳情報部分中の、その重要語句の機械翻訳結果と同一の全ての機械翻訳結果の各表示要素の内容を、その選択操作により選択された要素に一括して変更するように、定めてもよい。また、翻訳部2054は、その表示要素に係るGUIに対する操作の結果として表示された、重要語句に対する翻訳語候補集合から1つの要素の選択操作がなされた場合に、その重要語句とその選択された1つの要素との組を、重要語句翻訳用学習モデルを生成するための機械学習用の教師データとして機械学習部207に伝達するように、その表示要素に付加する表示制御情報を定めてもよい。図34は、ブラウザに表示された表示用文書としての特許出願関連情報におけるクレーム翻訳情報の一例を示す。図34の例では、クレームの項毎にクレームの内容とその内容に対応する部分翻訳行とを交互に表示している。図35は、ブラウザに表示された特許出願関連情報のクレーム翻訳情報の部分翻訳行における重要語句に対応する翻訳語句(例えば機械翻訳結果)の表示要素に対するマウスクリック操作に応じて表示された翻訳語候補集合の要素についての選択メニューの一例を示す。図35に例示した選択メニューから1つの要素が選択されると、例えば、各部分翻訳行におけるその重要語句に対するその翻訳語句はその選択された要素に置き換えられて表示される。
翻訳部2054は、例えば、表示用文書としての各種翻訳情報部分において、一行毎或いはクレームの一項毎に、機械翻訳対象と機械翻訳結果とを交互に記載しているような場合において、機械翻訳対象の行の表示要素の表示態様と、機械翻訳結果の行(例えば部分翻訳行又は完全翻訳行)の表示要素の表示態様とにおける少なくとも一部(例えば、文字背景色)を相違させるように、その各表示要素に付加する表示制御情報を定め得る。例えば、クレーム翻訳情報及び明細書翻訳情報には、クレーム翻訳情報及び明細書翻訳情報における機械翻訳対象の少なくとも一部分の表示要素の表示態様と、その機械翻訳対象に対応する機械翻訳の結果の少なくとも一部分の表示要素の表示態様とが、少なくとも一部で相違(例えば、文字背景色、文字色、文字装飾、フォントサイズ、フォントスタイル、及び、フォントウェイトのうちの少なくとも1つにおいて相違)するように制御するために、その各表示要素に表示制御情報が付加される。
翻訳部2054は、例えば、表示用文書としての各種翻訳情報部分における部分翻訳行の表示要素に、操作に応じてその行を、インターネット等のネットワークによりアクセス可能な翻訳サイト(例えば所定の機械翻訳プログラムを実行するサーバ装置)で翻訳させるためのGUIとしての機能を持たせる表示制御情報を付加することとしてもよい。
[3−1−5−11−3.重要語句リストの生成]
翻訳部2054は、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された各重要語句について、その重要語句と、その重要語句に対して翻訳語候補集合特定部20541により特定された翻訳語候補集合(つまりその重要語句に対応する翻訳語候補情報が表す内容)とを対応付けて構成される重要語句リストを生成する重要語句リスト生成処理を実行する。翻訳部2054により生成される重要語句リストは、例えば、発明文書分析システム20が出力する特許出願関連情報に含まれる。
翻訳部2054は、重要語句リストを、例えば、重要語句毎に行を改めて、各行に、1つの重要語句とその重要語句に対応する翻訳語候補集合とを記載したリストとして生成する。翻訳部2054は、例えば、重要語句設定辞書取得部203により取得された重要語句設定辞書において対応翻訳語が対応付けられている重要語句については、その重要語句を記載した行に、翻訳語候補集合の代わりに対応翻訳語を記載してもよい。また、翻訳部2054は、例えば、重要語句設定辞書取得部203により取得された重要語句設定辞書において対応翻訳語が対応付けられている重要語句については、その重要語句を記載した行に、対応翻訳語と翻訳語候補集合とを識別可能な表現で記載してもよい。翻訳部2054は、重要語句リストに列挙される対象となる重要語句を、その重要語句に対して重要度決定部2055により決定された重要度が、予め定められた程度より高いものに限定することとしてもよい。
翻訳部2054は、例えば、重要語句リストの各行において、その行の重要語句と対応付けて記載される翻訳語候補集合の要素数が0である場合には、その行には翻訳語候補集合を記載しない。翻訳部2054は、例えば、重要語句リストの各行において、その行の重要語句と対応付けて記載される翻訳語候補集合の要素数が2以上である場合には、その翻訳語候補集合の要素毎に、重要語句の翻訳語句として妥当な度合いの評価値を表す妥当性の値を付記することとしてもよいし、翻訳語候補集合の要素を妥当性の高い順に並べて記載してもよい。この妥当性の値は、例えば、発明文書分析システム20が過去に出力した複数の翻訳補助情報(つまり重要語句と、翻訳語候補集合からユーザに選択された対応翻訳語とを対応付けた情報)を収集統合して生成されたデータ(例えば、翻訳補助情報から生成された、重要語句の機械翻訳用の機械学習による重要語句翻訳用学習モデル)に基づく、予め定められた演算処理により、算定可能である。翻訳部2054は、例えば、複数の翻訳補助情報を収集統合して生成されたデータに基づいて、1つの重要語句についての翻訳語候補集合の各要素のうち、その重要語句の対応翻訳語として、相対的に多くのユーザに選択された要素に、相対的に高い値の妥当性を対応付けることとしてもよい。
翻訳部2054は、例えば、重要語句毎に行を改めて生成される重要語句リストの各行において、その行に記載された重要語句に対して重要度決定部2055により決定された重要度が、予め定められた程度より低い場合にはその行に、その重要語句の有用性に疑問がある旨を示す所定の表記(例えば記号「?」)を付加的に記載することとしてもよい。翻訳部2054は、重要語句リストの各行において、その行に記載された重要語句がクレームに記載された重要語句であるか否か、及び、その重要語句が明細書の「発明を実施するための形態」に記載されているか否かを、識別可能にするための表記を付加することとしてもよい。この例の重要語句リストは、例えば、クレームに記載されている重要語句に関連して、如何なる重要語句が明細書の「発明を実施するための形態」に記載されているかの把握を可能にし、また、クレームには現在記載されていないが、追記、補正、出願分割、優先権主張出願等により将来的にクレームに記載される可能性がある重要語句の推定を可能にし得る。なお、重要語句がクレームに記載されているか否かは、分析部205が保持する重要語句管理情報における属性情報のうち、属性特定部2056により特定された重要語句の一属性としての「初出クレーム番号」の項目の内容等により特定可能であり、重要語句が「発明を実施するための形態」に記載されているか否かは、重要語句の一属性としての「発明文書全体、クレーム部分、明細書部分及び発明実施形態部分での使用数」の項目の内容により特定可能である。
翻訳部2054は、重要語句リストの各行において、その行に記載された重要語句に対応する符号が存在する場合にはその行に、その重要語句に対応する1つ以上の符号を付記することとしてもよく、例えば、更に、発明文書の明細書においてその重要語句に符号が付加されて記載されている部分とその重要語句に符号が付加されずに記載されている部分とが混在するときには、符号なし記載が存在する旨を示す表記を、その行に付加することとしてもよい。なお、重要語句に対応する符号、或いは、発明文書の明細書における重要語句についての符号付き記載と符号なし記載との混在は、分析部205が保持する重要語句管理情報における属性情報のうち、属性特定部2056により特定された重要語句の一属性としての「符号」の項目の内容により特定可能である。
要素間関係判別部2058により判別されることで、分析部205が保持する重要語句管理情報における属性情報に「重要語句が表す要素の下位概念的要素」の項目が含まれる場合において、翻訳部2054は、その項目の内容を参照することで、重要語句リストの各行において、その行に記載された重要語句に対応する下位概念要素が存在するときにはその行に、その重要語句に対応する1つ以上の下位概念要素を付記することとしてもよい。
翻訳部2054は、重要語句リストの各行において、その行に記載された重要語句について属性特定部2056により特定された属性情報のおける1つ以上の一属性としての項目の内容を、付記することとしてもよい。翻訳部2054は、例えば、重要語句リストにおける各重要語句について、その重要語句についての一属性としての「数」に係る項目の内容を付記し得る。翻訳部2054は、重要語句リストの各行において、その行に記載された重要語句について重要度決定部2055により決定された重要度を付記することとしてもよい。
翻訳部2054が重要語句リストにおいて各重要語句について付記する各種情報は、翻訳者等による、重要語句に対応する対応翻訳語の選択、決定等に有用となり得る。
翻訳部2054は、例えば、重要語句リストの各行を、所定の順序で並べる。翻訳部2054は、例えば、重要語句リストの各行を、各行に記載された重要語句が表す要素が属するカテゴリー(例えば、方法、物、プログラム等)別に連続するように区分した上で、所定の順序で並べることとしてもよい。所定の順序の具体例としては、各行に記載された重要語句について重要度決定部2055により決定された重要度の高い順に並べる例、各行に記載された重要語句について文字コード順等でソートした結果に従って並べる例、各行に記載された重要語句の発明文書における使用数又は発明文書のクレームにおける使用数が多い順に並べる例が挙げられ、これらの例に示す並べ方を予め定められた優先順に従って併用してもよい。翻訳部2054は、例えば、重要語句リストの各行を互いに異なる順序で並べた、複数の重要語句リストを、特許出願関連情報に含まれるものとして、生成してもよい。
翻訳部2054は、出力部208により特許出願関連情報に含まれるものとしての重要語句リストの先頭行として、設定情報取得部201により取得された設定情報における重要語句設定辞書の特定用情報で定められた所定の見出し(例えば、「重要語句リスト」等)を挿入することとしてもよい。これにより、発明文書分析システム20から出力された特許出願関連情報の重要語句リストについてユーザが編集した結果を、発明文書に含ませて、再び発明文書分析システム20によりその発明文書を分析させることができる。この場合に発明文書分析システム20では、ユーザによる編集後の重要語句リストが重要語句設定辞書として扱われるので、発明文書からの重要語句の抽出精度が向上する可能性があり、その編集後の重要語句リストを踏まえて重要語句の対応翻訳語の決定がなされるので発明文書の機械翻訳の精度が向上する可能性がある。
[3−1−5−11−4.表示用文書における重要語句リスト部分の生成]
発明文書分析システム20において出力部208が、重要語句リストを含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、翻訳部2054は、表示用文書としての特許出願関連情報に含まれる重要語句リストを生成する。
翻訳部2054が生成する、表示用文書としての特許出願関連情報の重要語句リストの部分は、例えば、重要語句リストにおける各行の内容に対応する、1つ以上の表示要素を含み、その各行内に、重要語句抽出部2051により抽出された重要語句があればその重要語句に対応する表示要素を含み、その各行内に、その重要語句に対応する翻訳語候補集合があれば翻訳語候補集合に対応する表示要素を含み、その各行内に、その重要語句に対応する対応翻訳語があれば対応翻訳語に対応する表示要素を含む。具体例としては、翻訳部2054は、HTML文書において、重要語句リストを<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、その重要語句リストの各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の重要語句、翻訳語候補集合、或いは、対応翻訳語について、対応する表示要素を、<span>タグと</span>タグとでその重要語句、翻訳語候補集合、或いは、対応翻訳語を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。表示用文書における重要語句リスト部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。
翻訳部2054が生成する特許出願関連情報の重要語句リストの行の内容として、重要語句について、その重要語句の重要度、明細書の「発明を実施するための形態」内での記載数、符号、符号が付加されていない記載と符号が付加された記載との混在の有無等の情報を付記する場合等に、その重要語句についての翻訳語候補集合、対応翻訳語についての情報を次の行に記載してもよい。翻訳部2054は1つの重要語句について複数行を用いてその重要語句についての情報を表してもよい。
翻訳部2054は、表示用文書における重要語句リストに含まれる重要語句、翻訳語候補集合、或いは、対応翻訳語に対応する表示要素に、例えば、その重要語句、翻訳語候補集合、或いは、対応翻訳語についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。表示用文書における重要語句リスト部分の重要語句に対応する表示要素に付加される表示制御情報については、例えば、表示用文書における明細書情報部分の重要語句についての表示要素に付加された表示制御情報と同様である。
翻訳部2054により、生成される表示用文書における重要語句リストに含まれる重要語句の表示要素の具体例を挙げると、重要語句リストにおけるクレームの重要語句「機器制御部」に対応する表示要素は、例えば、「<span class=”c003” id=”keywordlist−c003” onclick=’wordProc(”keywordlist−c003”)’ title=”・・・(情報付加表示内容)・・・”>機器制御部</span>」等となる。この例では、重要語句「機器制御部」の識別コードは、「c003」であり、表示要素の<span>タグのid属性の値として、重要語句リストの識別記号「keywordlist」と、重要語句の識別コード「c003」とを含んだ文字列が定められている。また、この例では、表示要素に対するマウスクリック操作がなされた場合にid属性の値を引数としてwordProc関数が呼び出されるように定められている。これにより、wordProc関数では、例えば、引数から、その表示要素を特定して、表示要素に係る重要語句の文字列を参照する処理を実現することが可能となり、また、引数の一部から、重要語句の識別コード「c003」を抽出して、例えば、クレーム情報、修正版クレーム情報、明細書情報、修正版明細書情報等の全ての重要語句「機器制御部」の表示要素の表示内容を、ユーザに入力された文字列等に置換する処理を実現すること等が可能となる。
翻訳部2054は、例えば、表示用文書における重要語句リストに含まれる、複数の要素を含む翻訳語候補集合に対応する表示要素に、翻訳語候補集合の各要素を選択可能に表示して選択された要素に対応した翻訳語候補集合選択処理を実行するGUIとしての機能を持たせるための表示制御情報を付加する。この表示制御情報は、例えば、ユーザによる翻訳語候補集合に対する選択操作に応じて、選択された翻訳語候補集合の要素と、翻訳語候補集合に係る重要語句とを引数として起動されるスクリプトの関数の関数名又はその関数自体を定義するものであり、その関数は、例えば、引数の要素と重要語句とを対応付けて、重要語句設定辞書取得部203により取得された重要語句設定辞書(例えば、重要語句を列挙して重要語句に対応翻訳語を付記可能なファイル等)に反映する処理等を含む翻訳語候補集合選択処理を実行するための関数である。翻訳語候補集合の要素と重要語句とを対応付けて重要語句設定辞書に反映する処理は、例えば、その重要語句が、重要語句設定辞書に既に含まれている場合には、重要語句設定辞書のその重要語句に係る情報について上書きするか否かをユーザに選択させる処理を含み得る。また、その関数により実行される翻訳語候補集合選択処理は、その関数の引数である要素と重要語句との組を、重要語句翻訳用学習モデルを生成するための機械学習用の教師データとして、機械学習部207に伝達する処理を、含んでもよい。
図36は、ブラウザに表示された表示用文書としての特許出願関連情報における重要語句リストの一例を示す。図37は、ブラウザに表示された特許出願関連情報の重要語句リストにおける翻訳語候補集合をその1つの要素を選択するマウスクリック操作に応じて対応翻訳語に変更した一例を示す。図37に示す例は、図36に例示した重要語句「処理部」に対応する翻訳語候補集合の要素「processor」と要素「handler」とのうち要素「processor」が選択操作されたことにより重要語句「処理部」に対応する対応翻訳語として「processor」が決定された状態を示している。例えば、ユーザは、設定情報における重要語句設定辞書の特定用情報で発明文書中の<重要語句リスト>を重要語句設定情報として利用することを設定している場合においては、図37に例示するような重要語句リストを、発明文書ファイルへとコピー&ペーストすることで、発明文書ファイルに重要語句リストを含ませて、その発明文書ファイルをテキストエディタ等により編集することができ、その編集後の重要語句リストを含む発明文書ファイルを、発明文書分析システム20で再び分析させることが可能となる。
図38は、ブラウザに表示された表示用文書としての特許出願関連情報における重要語句リストの別の一例を示す。図38の例では、重要語句リストの各行の内容として、重要語句と、その重要語句についての重要度と、その重要語句の明細書の「発明を実施するための形態」内での記載数と、その重要語句に対応する符号があればその符号と、その重要語句についての符号が付加されていない記載と符号が付加された記載との混在の有無を記号「●」の有無で表す情報と、その重要語句についての翻訳語候補集合とを記載した例を示している。この例では、重要度は、「Level」という文字を付した、0〜5の6段階の値で、表現されており、対訳辞書情報から検索できなかった重要語句についての翻訳語候補集合は省略されており、各行は、重要語句の文字順に(つまり文字コードの昇順のソートにより)、並べられている。図38の例における重要語句「制御用プログラム」は、重要語句「制御プログラム」の誤記である可能性があり、このような誤記の可能性は、例えば警告情報でも指摘され得るが、重要語句リストの全体又は一部に文字順に重要語句を並べる形式のリストを含ませることにより、このような誤記の可能性がある記載を確認し易くなり得る。
翻訳部2054は、例えば、表示用文書における重要語句リストに含まれる、重要語句に対応する表示要素に、操作に応じてその重要語句についての非重要語句化処理を実行するGUIとしての機能を持たせるための表示制御情報を付加してもよい。この表示制御情報は、例えば、ユーザによる重要語句に対する操作に応じて、その重要語句を引数として起動されるスクリプトの関数の関数名又はその関数自体を定義するものであり、その関数は、例えば、引数の重要語句を、非重要語句化することを選択可能にするメニューを表示し、ユーザにより非重要語句化することが選択された場合に、その重要語句を、重要語句設定辞書取得部203により取得された重要語句設定辞書から削除して、非重要語句設定辞書に追加する非重要語句化処理を実行するための関数であり、更に、その関数は、発明文書分析システム20の分析部205に、発明文書取得部2021により取得されている発明文書の再分析を実行させるための処理を含んでもよい。
[3−1−5−11−5.図面符号リストの生成]
翻訳部2054は、例えば、図面文書取得部2022により取得された図面文書の内容、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された各重要語句についての属性情報における「符号」の項目等に基づいて、図面符号リストを生成する図面符号リスト生成処理を実行する。翻訳部2054により生成される図面符号リストは、例えば、発明文書分析システム20が出力する特許出願関連情報に含まれる。
翻訳部2054は、図面符号リスト生成処理として、図面文書取得部2022により例えば検索可能PDFファイル等から取得された図面文書における各図面について、図面番号順に、例えば、その図面番号と、その図面で使用されている各符号と、その各符号に対応する重要語句と、その重要語句について対応する対応翻訳語又は翻訳語候補集合とを列挙した図面符号リストを生成する。図面符号リストにおける各図面についての各符号は、予め定められた順序(例えば自然順等のソート結果に従った順序)で記載される。具体的な一例としての図面符号リストの1行目は、「図1:1 生体情報処理システム biological information processing system、10 生体センサ biometric sensor、20 記録部 storage unit、30 処理部 processing unit、・・・」であり、2行目は、「図2:S101 センシングステップ sensing step、S102 記録ステップ storing step、S103 処理ステップ processing step、・・・」である。
翻訳部2054は、図面符号リストに、図面文書における各図面について、符号に対応する重要語句以外のその図面に記載されている文字列と、その文字列を、翻訳用学習モデル等を用いて機械翻訳した結果とを、付記することとしてもよい。これにより、図面符号リストは、図面の翻訳(つまり図面の中の説明の翻訳)に有用な情報となり得る。
[3−1−5−11−6.表示用文書における図面符号リスト部分の生成]
発明文書分析システム20において出力部208が、図面符号リストを含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、翻訳部2054は、表示用文書としての特許出願関連情報に含まれる図面符号リストを生成する。
翻訳部2054が生成する、表示用文書としての特許出願関連情報の図面符号リストの部分は、例えば、図面符号リストにおける各行の内容に対応する、1つ以上の表示要素を含み、その各行内に、図面番号があればその図面番号に対応する表示要素を含み、その各行内に、重要語句抽出部2051により抽出された重要語句があればその重要語句に対応する表示要素を含み、その各行内に、その重要語句に対応する対応翻訳語又は翻訳語候補集合があれば対応翻訳語又は翻訳語候補集合に対応する表示要素を含み、その各行内に、符号があればその符号に対応する表示要素を含む。具体例としては、翻訳部2054は、HTML文書において、図面符号リストを<article>タグと</article>タグとで挟んで記述する場合においてその<article>タグ配下に、その図面符号リストの各行について、その行に対応する表示要素を、<span>タグと</span>タグとでその行の内容を挟むことで記述し、その1つの行に対応する表示要素の<span>タグ配下に、その行内の図面番号、重要語句、対応翻訳語、翻訳語候補集合、或いは、符号について、対応する表示要素を、<span>タグと</span>タグとでその図面番号、重要語句、対応翻訳語、翻訳語候補集合、或いは、符号を挟むことで記述する。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。表示用文書における図面符号リスト部分に含まれる各行に対応する各表示要素は、例えば、その対応する行の内容を表示可能にする。図30の一部は、ブラウザに表示された表示用文書としての特許出願関連情報における図面符号リストの一例を示す。
翻訳部2054は、表示用文書における図面符号リストに含まれる図面番号、重要語句、対応翻訳語、翻訳語候補集合、或いは、符号に対応する表示要素に、例えば、その図面番号、重要語句、対応翻訳語、翻訳語候補集合、或いは、符号についての、表示態様の制御(例えば強調表示、色付き表示、表示遷移等)をするための表示制御情報を付加する。表示用文書における図面符号リスト部分の重要語句又は符号に対応する表示要素に付加される表示制御情報については、例えば、表示用文書における符号リスト部分の重要語句又は符号についての表示要素に付加された表示制御情報と同様である。表示用文書における図面符号リスト部分の図面番号に対応する表示要素に付加される表示制御情報については、例えば、表示用文書における明細書情報部分の図面番号の記載についての表示要素に付加された表示制御情報と同様である。また、表示用文書における図面符号リスト部分の対応翻訳語又は翻訳語候補集合に対応する表示要素に付加される表示制御情報については、例えば、表示用文書における各種翻訳情報部分の対応翻訳語又は翻訳語候補集合についての表示要素に付加された表示制御情報と同様である。
[3−1−5−11−7.重要語句関係翻訳情報の生成]
翻訳部2054は、例えば、要素間関係判別部2058により生成された重要語句関係情報に基づいて、その重要語句関係情報における重要語句を、その重要語句について対応する対応翻訳語又は翻訳語候補集合に置換した重要語句関係翻訳情報を生成する。翻訳部2054は、例えば、重要語句関係翻訳情報における対応翻訳語又は翻訳語候補集合に、対応する重要語句を付記してもよい。翻訳部2054により生成される重要語句関係翻訳情報は、例えば、発明文書分析システム20が出力する特許出願関連情報に含まれる。
翻訳部2054が生成する重要語句関係翻訳情報は、要素間関係判別部2058により生成された包含関係情報における重要語句を対応翻訳語又は翻訳語候補集合に置換した包含関係翻訳情報を含む。翻訳部2054が生成する重要語句関係翻訳情報は、例えば、要素間関係判別部2058により生成された記録関係情報における重要語句を対応翻訳語又は翻訳語候補集合に置換した記録関係翻訳情報を含み得る。翻訳部2054が生成する重要語句関係翻訳情報は、例えば、要素間関係判別部2058により生成されたプログラム実現関係情報における重要語句を対応翻訳語又は翻訳語候補集合に置換したプログラム実現関係翻訳情報を含み得る。翻訳部2054が生成する重要語句関係翻訳情報は、例えば、要素間関係判別部2058により生成された等価関係情報における重要語句を対応翻訳語又は翻訳語候補集合に置換した等価関係翻訳情報を含み得る。翻訳部2054が生成する重要語句関係翻訳情報は、例えば、要素間関係判別部2058により生成された上下概念関係情報における重要語句を対応翻訳語又は翻訳語候補集合に置換した上下概念関係翻訳情報を含み得る。
発明文書分析システム20において出力部208が、重要語句関係翻訳情報を含む特許出願関連情報を、表示用文書(例えばHTML文書)として出力する場合には、翻訳部2054は、表示用文書としての特許出願関連情報に含まれる重要語句関係翻訳情報を生成する。翻訳部2054が生成する、表示用文書としての特許出願関連情報の重要語句関係翻訳情報部分は、例えば、重要語句についての対応翻訳語又は翻訳語候補集合毎に対応する表示要素を含む。例えば、ブラウザによって、表示用文書が解釈されて、各表示要素が表示され得る。翻訳部2054は、例えば、重要語句についての対応翻訳語又は翻訳語候補集合毎に対応する表示要素には、表示態様の制御等を行うための表示制御情報を付加し得る。
[3−1−5−12.集計情報の生成]
分析部205は、例えば、発明文書取得部2021により取得された発明文書に基づいて算定された値を表す集計情報を生成し得る。分析部205により生成される集計情報は、出力部208により出力される特許出願関連情報に含まれ得る。
分析部205は、例えば、発明文書取得部2021により取得された発明文書におけるクレームの項数、独立項の項数、各項毎の文字数等の計数結果を、各々識別可能に表現して、集計情報に含める。
分析部205は、例えば、発明文書取得部2021により取得された発明文書の明細書についての行数、文の数、段落数、全文字数、1文当たりの平均文字数等の計数結果を、各々識別可能に表現して、集計情報に含める。
分析部205は、例えば、クレーム翻訳情報又は修正版クレーム翻訳情報における全ての完全翻訳行の語句(word)の数の総和、明細書翻訳情報又は修正版明細書翻訳情報における全ての完全翻訳行の語句の数の総和、明細書翻訳情報又は修正版明細書翻訳情報における全て完全翻訳行の1文当たりの平均語句数等の計数結果を、各々識別可能に表現して、集計情報に含める。
分析部205は、例えば、発明文書取得部2021により取得された発明文書におけるクレームから重要語句抽出部2051により抽出された重要語句各々についての、その発明文書の明細書の「発明を実施するための形態」の欄におけるその重要語句の記載数の計数結果を、集計情報に含める。
分析部205は、例えば、ユーザによる指定又は設定情報取得部201により取得された設定情報における指定等に基づいて発明文書取得部2021により取得された複数の発明文書全体における、上述した各種情報(例えばクレームの項数、明細書についての1文当たりの平均文字数等)の平均値の算定結果を、集計情報に含める。
分析部205は、例えば、ユーザによる指定又は設定情報取得部201により取得された設定情報における指定等に基づいて発明文書取得部2021により取得された複数の発明文書間の、各発明文書から重要語句抽出部2051により抽出された各重要語句群に基づいて算定した相関性の評価値(例えば相関係数の算定結果)を、集計情報に含める。分析部205は、例えば、この相関性の評価値の算定において、重要語句群における各重要語句について重要度決定部2055により決定された重要度による重み付けを行って評価値を算定することとしてもよい。
分析部205は、例えば、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された各重要語句のうち、選択操作等によって対応翻訳語が決定されている重要語句について、その対応翻訳語と、その発明文書と同一分類のグループに属する別の複数の発明文書においてその重要語句に対応して選択操作等で決定された各対応翻訳語とその決定の割合とを示す、対応翻訳語句比較情報を、集計情報に含めることとしてもよい。
[3−1−5−13.料金情報の生成]
分析部205は、例えば、発明文書取得部2021により取得された発明文書について、日本国への特許出願を行う場合に必要となる各種費用を算定して、算定結果を示す料金情報を生成し得る。分析部205により生成される料金情報は、出力部208により出力される特許出願関連情報に含まれ得る。
分析部205は、例えば、特許出願料を、料金情報に含める。分析部205は、例えば、出願審査請求料を、発明文書のクレームにおける項数に応じて算定して、料金情報に含める。分析部205は、例えば、発明文書のクレームを修正して表した修正版クレーム情報中のクレームにおける項数に応じて算定した、修正版クレーム情報を出願に用いた場合の出願審査請求料を、料金情報に付記してもよい。分析部205は、例えば、各期間における特許料を、発明文書のクレームにおける項数に応じて算定して、料金情報に含める。分析部205は、例えば、発明文書のクレームを修正して表した修正版クレーム情報中のクレームにおける項数に応じて算定した、修正版クレーム情報を出願に用いた場合の、各期間における特許料を、料金情報に付記してもよい。
分析部205は、例えば、発明文書取得部2021により取得された発明文書について、発明文書に基づくクレームの項数、独立項の項数その他の各種集計結果等を用いて、米国その他の地域への特許出願を行う場合に必要となる各種費用を算定して、その算定結果を、日本国への特許出願を行う場合に係る各種費用と識別可能に表現して、料金情報に付加してもよい。
[3−1−6.機械学習部]
機械学習部207は、実施形態1で示した機械学習部107を一部変形したものであり、ここで特に示さない点については、機械学習部107と同様である。
機械学習部207は、複数の発明文書各々に対する分析部205による分析結果を利用して、機械学習により、発明文書の処理に関わる学習モデルを生成して、学習モデルを保持して管理する。この機械学習は、例えば、一般的な機械学習アルゴリズムを用い、一定の相関関係を有する、発明文書、又は、発明文書の文と、これに対応する翻訳結果文書、又は、翻訳結果文書における文との組を教師データとした演算処理により実現され、或いは、重要語句と、これに対応する対応翻訳語との組を教師データとした演算処理により実現され、或いは、発明文書から抽出された重要語句群と、発明文書が属する技術分野との組を教師データとした演算処理により実現される。
機械学習部207が生成する学習モデルは、例えば、発明文書の機械翻訳のための翻訳用学習モデル、発明文書から重要語句抽出部2051により抽出される重要語句の機械翻訳のための重要語句翻訳用学習モデル、或いは、発明文書の属する技術分野を特定するための技術分野特定用学習モデルである。機械学習部207が生成する学習モデルは、例えば演算等の処理に利用可能なデータ群であり、例えばデータベースにおけるデータ群等として実装され得る。
機械学習部207は、機械学習の学習モデル生成等の処理に、例えば、Python(登録商標)の機械学習用の各種ライブラリ(例えばサードパーティにより提供されているscikit−learnライブラリ等)を利用する。
機械学習部207は、文書評価部2071と、教師データ蓄積部2072と、学習モデル管理部2073とを含む。
[3−1−6−1.翻訳用学習モデルの生成]
以下、機械学習部207が生成する翻訳用学習モデルに着目して、機械学習部207及び関連する各部について説明する。
文書評価部2071は、発明文書取得部2021により取得された発明文書について、分析部205による分析結果として生成される発明文書評価情報に基づいて、評価する。文書評価部2071は、例えば、発明文書に対して警告情報生成部2059が生成した発明文書評価情報が含む評価値が0から1までの数値で表されるとした場合においては、その評価値が予め定めた閾値(例えば0.8)を超えるか否かにより、その発明文書が翻訳用学習モデルの生成に利用できる程度に適正か否かを評価することで、翻訳用学習モデルの生成に利用できる発明文書を選出する。不適切な発明文書は、正確な翻訳を妨げる可能性があり、結果的に、翻訳によりその発明文書の内容とは多少異なる内容の翻訳結果文書が生成される可能性があり、教師データとしての利用に適さない可能性がある。このため、機械学習部207では、文書評価部2071により、選出された発明文書(つまり適正と評価された発明文書)を、翻訳用学習モデルの生成のための機械学習用の教師データの一部として利用する。
教師データ蓄積部2072は、文書評価部2071により、翻訳用学習モデルの生成に利用できる程度に適正と評価された発明文書と、例えばその発明文書に呼応する翻訳結果文書を与えるシステム運用等を前提として、翻訳結果文書取得部2023により取得された、その発明文書に呼応すると想定される翻訳結果文書との組を、翻訳用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積して、保持する。例えば、適正と評価された発明文書と、その発明文書に基づいて翻訳者により生成された翻訳結果文書とを、各々、発明文書取得部2021、翻訳結果文書取得部2023に、取得させると、教師データ蓄積部2072は、その発明文書と翻訳結果文書との組を教師データとして蓄積する。また、翻訳先の言語を英語とした場合において、例えば、日本語で記載された国際出願の国際公開公報を発明文書取得部2021に発明文書として取得させ、その発明文書が文書評価部2071により適正と評価されたときに、その国際出願を米国等の英語を用いる指定国の国内段階に移行するために英語に翻訳した翻訳結果文書に相当する内容が掲載された、その指定国の官庁等により公開された文書を翻訳結果文書取得部2023に取得させることで、教師データ蓄積部2072は、その発明文書と翻訳結果文書との組を教師データとして蓄積する。
不適正な発明文書の翻訳においては、翻訳者が発明文書の不適正な記載内容を修正して翻訳する可能性があり、また、翻訳者が、発明文書中の不適切な記載で表された部分の内容を理解できずに、誤って翻訳する可能性がある。従って、不適正な発明文書と、その発明文書の翻訳により生成された翻訳結果文書とは、言語が異なる他に、内容が相違する関係にある可能性がある。これに対して、文書評価部2071により適正と評価された発明文書と、その翻訳結果である翻訳結果文書とは、言語が異なる他は、内容が同一である関係にある可能性が比較的高く、その発明文書と翻訳結果文書との組は、機械学習のための教師データに適している可能性が比較的高い。
発明文書分析システム20の利用が繰り返されることで、複数(例えば数百、数千等)の発明文書及び翻訳結果文書が取得されるようになり、教師データ蓄積部2072により、複数の教師データが記録媒体等に蓄積され得る。なお、教師データ蓄積部2072が、教師データを蓄積している記録媒体等に、他の幾つかの発明文書分析システム20において蓄積されている教師データを収集して追加的に格納するような運用も可能である。また、機械学習用の教師データとしての発明文書と翻訳結果文書との組は、文単位であってもよい。つまり、教師データ蓄積部2072は、発明文書の各文について、その文と、その文に呼応する翻訳結果文書の文との組を、機械学習用の教師データとして蓄積してもよい。発明文書における1文は、例えば、改行、句点文字「。」等により、区切ることができ、英語の翻訳結果文書における1文は、例えば、改行、ピリオド「.」等により、区切ることができる。
教師データ蓄積部2072は、例えば、各教師データとしての一組の発明文書と翻訳結果文書との各々に、重要語句抽出部2051で抽出されたいずれかの重要語句に対応する符号が記載されている場合には、その符号を除去し、除去後の発明文書と翻訳結果文書との組を機械学習用の教師データとして、記録媒体等に蓄積することとしてもよい。これにより、翻訳段階での符号の記載漏れが生じる場合、或いは、発明文書で符号の記載漏れに対して翻訳段階で符号を追記することが生じる場合に、翻訳用学習モデルを生成するための機械学習に悪影響を及ぼさないようにすることが可能となり得る。
機械学習部207は、教師データ蓄積部2072に蓄積された、翻訳用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、発明文書の機械翻訳のための翻訳用学習モデルを生成する。機械学習部207により生成された翻訳用学習モデルは、発明文書の文に基づいて翻訳結果としての文を予測するために利用可能であり、例えば、翻訳部2054における機械翻訳等に利用され得る。
教師データ蓄積部2072は、教師データとして蓄積する発明文書と翻訳結果文書との組を、発明文書のクレームと翻訳結果文書のクレームとの組と、発明文書の明細書と翻訳結果文書の明細書との組とに区別してもよい。この場合には、機械学習部207は、教師データ蓄積部2072に蓄積された複数のクレームに係る教師データを用いた機械学習により、発明文書のクレームの翻訳用の翻訳用学習モデルを生成し、教師データ蓄積部2072に蓄積された複数の明細書に係る教師データを用いた機械学習により、発明文書の明細書の翻訳用の翻訳用学習モデルを生成し得る。機械学習部207が、教師データを用いた機械学習により翻訳用学習モデルを生成する時期はいつであってもよい。機械学習部207は、例えば、教師データ蓄積部2072における教師データを蓄積する記録媒体の記録領域の内容としての教師データに変動がある度に、各教師データを用いた機械学習により、翻訳用学習モデルを生成することとしてもよいし、一定周期で、その記録領域の内容としての教師データの変動を確認してその変動が確認された場合に、各教師データを用いた機械学習により、翻訳用学習モデルを生成することとしてもよい。
教師データ蓄積部2072は、発明文書のクレームと翻訳結果文書のクレームとの組の代わりに、その発明文書についてクレーム情報生成部205aにより生成されたクレーム情報と、翻訳結果文書のクレームとの組を、教師データとして蓄積することとしてもよいし、その発明文書についてクレーム情報生成部205aにより生成された修正版クレーム情報と、翻訳結果文書のクレームとの組を、教師データとして蓄積することとしてもよい。教師データ蓄積部2072は、クレームの各項の数及び各項の引用関係等の予め定めた共通性判定基準に基づいて、クレーム情報と修正版クレーム情報とのうち、翻訳結果文書のクレームとの共通性の高い方を選択して、選択した方と、翻訳結果文書のクレームとの組を、教師データとして蓄積することとしてもよい。また、教師データ蓄積部2072は、クレーム情報と修正版クレーム情報とに、既に生成済みの翻訳用学習モデルを用いた機械翻訳を施し、その機械翻訳結果と翻訳結果文書のクレームとの差異が小さい方の機械翻訳の基礎となった、クレーム情報と修正版クレーム情報とのうちの一方と、翻訳結果文書のクレームとの組を、教師データとして蓄積することとしてもよい。
教師データ蓄積部2072は、教師データとして蓄積する発明文書の明細書と翻訳結果文書の明細書との組の代わりに、その発明文書について明細書情報生成部205bにより生成された明細書情報と、翻訳結果文書の明細書との組を、教師データとして蓄積することとしてもよいし、その発明文書について明細書情報生成部205bにより生成された修正版明細書情報と、翻訳結果文書の明細書との組を、教師データとして蓄積することとしてもよい。教師データ蓄積部2072は、明細書の全行数、段落番号等の予め定めた共通性判定基準に基づいて、明細書情報と修正版明細書情報とのうち、翻訳結果文書の明細書との共通性の高い方を選択して、選択した方と、翻訳結果文書の明細書との組を、教師データとして蓄積することとしてもよい。また、教師データ蓄積部2072は、明細書情報と修正版明細書情報とに、既に生成済みの翻訳用学習モデルを用いた機械翻訳を施し、その機械翻訳結果と翻訳結果文書の明細書との差異が小さい方の機械翻訳の基礎となった、明細書情報と修正版明細書情報とのうちの一方と、翻訳結果文書の明細書との組を、教師データとして蓄積することとしてもよい。
学習モデル管理部2073は、機械学習部207により生成された翻訳用学習モデルを記録媒体等に保持して管理する。学習モデル管理部2073は、機械学習部207により、クレームの翻訳用の翻訳用学習モデルと明細書の翻訳用の翻訳用学習モデルとが区別されて生成された場合には、各々を区別して記録媒体等に保持して管理する。学習モデル管理部2073は、機械学習部207により翻訳用学習モデルが生成される毎に、既に保持している翻訳用学習モデルを、生成された翻訳用学習モデルで上書き更新することとしてもよいし、各々の生成日時と対応付けて、最新の翻訳用学習モデルを含む、複数の生成された翻訳用学習モデル(例えば新しい順に予め定められた数の翻訳用学習モデル)を保持することとしてもよい。学習モデル管理部2073は、例えば、翻訳用学習モデルをデータベースに登録して管理してもよい。学習モデル管理部2073が保持する翻訳用学習モデルは出力部208により出力され得る。
[3−1−6−2.重要語句翻訳用学習モデルの生成]
以下、機械学習部207が生成する重要語句翻訳用学習モデルに着目して、機械学習部207及び関連する各部について説明する。
教師データ蓄積部2072は、重要語句設定辞書取得部203により取得された重要語句設定辞書(例えば発明文書の一部、その他のファイル等)における、対応翻訳語が付記された重要語句とその対応翻訳語との組を、重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積して、保持する。教師データ蓄積部2072は、例えば、設定情報取得部201により取得された設定情報における翻訳補助情報の特定用情報に基づいて、翻訳補助情報を取得し、翻訳補助情報における重要語句と対応翻訳語との組を、重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積して、保持してもよい。
ところで、発明文書分析システム20では、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された重要語句に対して翻訳語候補集合特定部20541により特定された翻訳語候補集合を表示要素として含む表示用文書が生成され、その表示要素はブラウザ等で表示される。翻訳部2054により、その表示要素に、操作に応じて翻訳語候補集合の要素を選択するGUI機能を実行するための表示制御情報が付加されており、ユーザにより、重要語句についての翻訳語候補集合から1つの要素の選択操作がなされ得る。これに対応して、教師データ蓄積部2072は、例えば、文書評価部2071により選出された発明文書(つまり適正と評価された発明文書)に基づいて表示用文書が生成されて翻訳語候補集合に係るGUI要素が表示された結果として、重要語句と、その重要語句についての翻訳語候補集合から選択操作された1つの要素との組を、重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積して、保持し得る。なお、教師データ蓄積部2072は、例えば、文書評価部2071による評価に依らず、発明文書に基づいて表示用文書が生成されて翻訳語候補集合に係るGUI要素が表示された結果として、重要語句と、その重要語句についての翻訳語候補集合から選択操作された1つの要素との組を、重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積して、保持することとしてもよい。文書評価部2071により適正と評価された発明文書は適切に理解される可能性が比較的高いことが想定されるので、適切と評価された発明文書における重要語句についての翻訳語候補集合からの選択操作に係る選択は、妥当性の比較的高い選択である可能性があり、その選択結果を教師データとして活用することは、より適切に重要語句翻訳用学習モデルを生成するために有用となり得る。
また、教師データ蓄積部2072は、例えば、文書評価部2071により適正と評価された発明文書から重要語句抽出部2051により抽出された各重要語句について、その重要語句と、その発明文書に基づいて翻訳者により生成されて翻訳結果文書取得部2023により取得された翻訳結果文書から抽出したその重要語句に対応する翻訳語句との組を、重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積して、保持し得る。教師データ蓄積部2072は、発明文書における重要語句に対応する、翻訳結果文書における翻訳語句の抽出を、例えば、既存の構文解析技術に基づいて行う。翻訳語句の言語が英語である場合の具体例として、発明文書における、ある行の、2つの重要語句をA及びBの各々で表した文が「AはBを・・・する。」であり、この文がSVO(つまり主語、動詞、目的語)の文型に翻訳されると推定でき、翻訳結果文書における対応する位置の行の、翻訳語句をS、V及びOで表した文が「SVO.」である場合に、重要語句Aに翻訳語句Sが対応し、重要語句Bに翻訳語句Oが対応すると推定する例が、挙げられる。このような推定結果に基づいて、教師データ蓄積部2072は、重要語句に対応する、翻訳結果文書における翻訳語句の抽出を実行し得る。また、教師データ蓄積部2072は、発明文書における符号が後続して記載されている重要語句に対応する、翻訳結果文書における翻訳語句の抽出を、翻訳結果文書中でその符号が半角文字で表されて後続している語句を探索することで、実行してもよい。
発明文書分析システム20の利用が繰り返されることで、教師データ蓄積部2072により、複数(例えば数千、数万等)の重要語句と対応翻訳語との組が教師データとして記録媒体等に蓄積され得る。なお、教師データ蓄積部2072が、教師データを蓄積している記録媒体等に、他の幾つかの発明文書分析システム20において蓄積されている教師データを収集して追加的に格納するような運用も可能である。
教師データ蓄積部2072は、例えば、発明文書から重要語句抽出部2051により抽出された重要語句を含む、重要語句翻訳用学習モデルの生成のための機械学習用の教師データを、その発明文書が、分類部2053により分類されたグループ、或いは、技術分野特定部20531により属すると特定された技術分野と対応付けて、記録媒体に蓄積することとしてもよい。これにより、教師データ蓄積部2072は、例えば、グループ又は技術分野毎に、重要語句翻訳用学習モデルの生成のための機械学習用の各教師データを、記録媒体に蓄積し得る。
機械学習部207は、教師データ蓄積部2072に蓄積された、重要語句翻訳用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、重要語句の機械翻訳のための重要語句翻訳用学習モデルを生成する。教師データ蓄積部2072により、重要語句翻訳用学習モデルの生成のための機械学習用の複数の教師データがグループ又は技術分野毎に記録媒体等に蓄積されている場合においては、機械学習部207は、教師データ蓄積部2072に蓄積された、グループ又は技術分野毎の重要語句翻訳用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、グループ又は技術分野毎に、重要語句の機械翻訳のための重要語句翻訳用学習モデルを生成する。
機械学習部207により生成された重要語句翻訳用学習モデルは、発明文書の重要語句に基づいてその重要語句に対応する翻訳結果の語句を予測するために利用可能であり、例えば、翻訳部2054において、重要語句の機械翻訳により対応翻訳語を決定するため等に利用され得る。機械学習部207が、教師データを用いた機械学習により重要語句翻訳用学習モデルを生成する時期はいつであってもよい。機械学習部207は、例えば、教師データ蓄積部2072における教師データを蓄積する記録媒体の記録領域の内容としての、重要語句翻訳用学習モデルの生成のための機械学習用の教師データに、変動がある度に、各教師データを用いた機械学習により、重要語句翻訳用学習モデルを生成することとしてもよいし、一定周期で、その記録領域の内容としての重要語句翻訳用学習モデルの生成のための機械学習用の教師データの変動を確認して、その変動が確認された場合に、各教師データを用いた機械学習により、重要語句翻訳用学習モデルを生成することとしてもよい。また、機械学習部207は、重要語句翻訳用学習モデル(例えば各種の重要語句についてその重要語句と重要語句翻訳用学習モデルに基づいて機械翻訳された結果との複数の組)を、翻訳用学習モデルの生成のための機械学習用の教師データとして用いて、翻訳用学習モデルを生成してもよい。なお、機械学習部207は、重要語句翻訳用学習モデルを内包させた翻訳用学習モデルを生成してもよい。
学習モデル管理部2073は、機械学習部207により生成された重要語句翻訳用学習モデルを記録媒体等に保持して管理する。学習モデル管理部2073は、機械学習部207により、重要語句翻訳用学習モデルがグループ又は技術分野毎に区別されて生成された場合には、グループ又は技術分野を区別して重要語句翻訳用学習モデルを記録媒体等に保持して管理する。学習モデル管理部2073は、機械学習部207により重要語句翻訳用学習モデルが生成される毎に、既に保持している重要語句翻訳用学習モデルを、生成された重要語句翻訳用学習モデルで上書き更新することとしてもよいし、各々の生成日時と対応付けて、最新の重要語句翻訳用学習モデルを含む、複数の生成された重要語句翻訳用学習モデル(例えば新しい順に予め定められた数の重要語句翻訳用学習モデル)を保持することとしてもよい。学習モデル管理部2073は、例えば、重要語句翻訳用学習モデルをデータベースに登録して管理してもよい。学習モデル管理部2073が保持する重要語句翻訳用学習モデルは出力部208により出力され得る。
[3−1−6−3.技術分野特定用学習モデルの生成]
以下、機械学習部207が生成する技術分野特定用学習モデルに着目して、機械学習部207及び関連する各部について説明する。
同じ技術分野における発明について記載した複数の発明文書同士において共通して同一の重要語句が記載される可能性は、相違する技術分野における発明について記載した複数の発明文書同士において共通して同一の重要語句が記載される可能性よりも高い。機械学習部207は、技術分野と発明文書中の重要語句群との相関性に基づく機械学習を行う。技術分野特定用学習モデルを用いて予め定められた演算処理により、発明文書から抽出された重要語句群に基づいて、その発明文書が属する技術分野の特定が可能となる。この特定される技術分野は、IPCで表現されても、Fターム分類体系によるFタームで表現されてもよいし、また、IPCのどの階層までの分類(例えばセクション及びクラスだけの分類等)を用いて表現されてもよい。
教師データ蓄積部2072は、発明文書取得部2021により取得された発明文書がIPC、Fターム等の技術分野情報を含む場合に、その発明文書から重要語句抽出部2051により抽出された各重要語句の集合である重要語句群と、その発明文書に記載されたIPC、Fターム等の技術分野情報との組を、技術分野特定用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積して、保持する。発明文書がIPC等の技術分野情報を含む場合の例としては、発明文書が願書(例えば、「国際特許分類」欄を含む日本国の特許出願の願書の記載内容)を含む場合、発明文書が特許公報である場合、或いは、発明文書の明細書の先行技術文献に係る「特許文献」の欄に公報番号(例えば特許出願の出願公開に係る公開番号)が記載されておりその公報番号に基づく、インターネット等を介する特許公報検索の結果としてIPC等を取得可能な場合等が、挙げられる。
教師データ蓄積部2072に蓄積された、技術分野特定用学習モデルの生成のための機械学習用の教師データにおける、発明文書から抽出された重要語句群は、各重要語句に重要度決定部2055により決定された重要度を付加したデータ群であってもよい。発明文書から抽出された重要語句群の具体的な一例は、ある程度十分な所定数(例えば数千、数万等)の予め定められた文字列各々を要素として、例えばその要素の文字列が発明文書に重要語句として存在する場合には0より大きく1以下の値で表した重要度である要素値、重要語句として存在しない場合に0という要素値を定めた、順序付きの所定数の要素値を含むベクトルデータである。
機械学習部207は、教師データ蓄積部2072に蓄積された、技術分野特定用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、重要語句群から技術分野を特定するための重要語句翻訳用学習モデルを生成する。
教師データ蓄積部2072に蓄積された、技術分野特定用学習モデルの生成のための機械学習用の教師データにおける重要語句群が、各重要語句に重要度を付加したデータである場合には、機械学習部207は、例えば、教師データ蓄積部2072に蓄積された、技術分野特定用学習モデルの生成のための機械学習用の複数の教師データに基づいて、各重要語句に、対応する重要度での重み付けを行ったデータと、技術分野との複数組各々を教師データとした機械学習を行うことで、重要語句翻訳用学習モデルを生成する。
機械学習部207により生成された技術分野特定用学習モデルは、発明文書から抽出された重要語句群から、技術分野を予測するために利用可能であり、例えば、技術分野特定部20531において、発明文書に係る重要語句群から、技術分野を特定するため等に利用され得る。機械学習部207が、教師データを用いた機械学習により技術分野特定用学習モデルを生成する時期はいつであってもよい。機械学習部207は、例えば、教師データ蓄積部2072における教師データを蓄積する記録媒体の記録領域の内容としての、技術分野特定用学習モデルの生成のための機械学習用の教師データに、変動がある度に、各教師データを用いた機械学習により、技術分野特定用学習モデルを生成することとしてもよいし、一定周期で、その記録領域の内容としての技術分野特定用学習モデルの生成のための機械学習用の教師データの変動を確認して、その変動が確認された場合に、各教師データを用いた機械学習により、技術分野特定用学習モデルを生成することとしてもよい。
学習モデル管理部2073は、機械学習部207により生成された技術分野特定用学習モデルを記録媒体等に保持して管理する。学習モデル管理部2073は、機械学習部207により技術分野特定用学習モデルが生成される毎に、既に保持している技術分野特定用学習モデルを、生成された技術分野特定用学習モデルで上書き更新することとしてもよいし、各々の生成日時と対応付けて、最新の技術分野特定用学習モデルを含む、複数の生成された技術分野特定用学習モデル(例えば新しい順に予め定められた数の技術分野特定用学習モデル)を保持することとしてもよい。学習モデル管理部2073は、例えば、技術分野特定用学習モデルをデータベースに登録して管理してもよい。学習モデル管理部2073が保持する技術分野特定用学習モデルは出力部208により出力され得る。
[3−1−7.出力部]
出力部208は、実施形態1で示した出力部108を一部変形したものであり、ここで特に示さない点については、出力部108と同様である。
出力部208は、発明文書取得部2021により取得された発明文書についての分析部205による分析結果に基づいて生成された情報を出力する。出力部208は、例えば、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された複数の重要語句各々に基づいて生成された情報を出力する。出力部208は、分析部205により生成された各種分析結果(重要語句、符号等に関する各種情報)に対して予め定められた演算処理を行った結果を出力する処理を実行するプラグインモジュールを利用して、出力を行ってもよい。出力部208は、例えば、プラグインモジュールに対して、分析部205により生成された各種分析結果を、プラグインモジュールにおいて利用可能にするAPI、プラグインモジュールが生成した情報を、出力部208が出力する特許出願関連情報の一部に追加するためのAPI等を、提供することとしてもよい。
出力部208は、学習モデル出力部2081と、特許出願関連情報出力部2082と、表示用文書生成部2083と、表示用文書を表示するブラウザとしての機能を有する表示部2084とを含む。
[3−1−7−1.学習モデル出力部]
学習モデル出力部2081は、学習モデル管理部2073により保持及び管理されている各種学習モデルを出力する。
学習モデル出力部2081は、例えば、送信先を指定したユーザの指示に応じて、翻訳用学習モデル、重要語句翻訳用学習モデル、或いは、技術分野特定用学習モデルを、発明文書分析システム20の外部の、指定された送信先に送信することで、出力し得る。学習モデル出力部2081は、例えば、学習モデル出力ファイルを指定したユーザの指示に応じて、翻訳用学習モデル、重要語句翻訳用学習モデル、或いは、技術分野特定用学習モデルを、指定された学習モデル出力ファイルの内容として出力し得る。
学習モデル出力部2081により出力された翻訳用学習モデル、又は、重要語句翻訳用学習モデルは、例えば、別の発明文書分析システム20、又は、発明文書の翻訳用の機械翻訳システム若しくは機械翻訳用のプログラム、又は、一般的な機械翻訳システム等において利用され得る。学習モデル出力部2081により出力された技術分野特定用学習モデルは、例えば、別の発明文書分析システム20、又は、発明文書から技術分野を特定するためのシステム等において利用され得る。
学習モデル出力部2081は、例えば、教師データ蓄積部2072に蓄積されている、各種学習モデルの生成の基礎となる機械学習用の教師データを出力することとしてもよい。発明文書分析システム20の学習モデル出力部2081により出力された教師データは、他の発明文書分析システム20の教師データ蓄積部2072に格納するために利用されてもよいし、他のシステムにおいて機械学習の実行のために利用されてもよい。
[3−1−7−2.特許出願関連情報出力部]
特許出願関連情報出力部2082は、発明文書取得部2021により取得された発明文書についての分析部205による分析結果に基づいて生成された特許出願関連情報(図15参照)を出力する。
特許出願関連情報出力部2082は、例えば、特許出願関連情報に、発明文書取得部2021により取得され分析部205の分析対象となった発明文書の各行へ行番号を追加した情報を含ませる。この発明文書の各行へ行番号を追加した情報における行番号は、警告情報における指摘情報に指摘の対象となった発明文書の記載部分の行番号が含まれる場合に、警告情報の指摘と発明文書の記載部分との対応を把握可能にするために有用である。特許出願関連情報出力部2082は、例えば、発明文書の各行へ行番号を追加した情報に、所定の制御コード(例えば、「0x00」〜「0x1f」の範囲内のコード)が含まれている場合にはその所定の制御コードを「●」等といった所定の文字に変換することとしてもよい。
特許出願関連情報出力部2082は、例えば、特許出願関連情報に、発明文書評価情報を含む警告情報を含ませる。
特許出願関連情報出力部2082は、例えば、特許出願関連情報に、重要語句リスト、重要語句関係情報、及び、重要語句関係翻訳情報を含ませる。特許出願関連情報出力部2082は、例えば、重要語句関係情報に、包含関係情報、記録関係情報、プログラム実現関係情報、等価関係情報、及び、上下概念関係情報を含ませ得る。特許出願関連情報出力部2082は、例えば、重要語句関係翻訳情報に、包含関係翻訳情報、記録関係翻訳情報、プログラム実現関係翻訳情報、等価関係翻訳情報、及び、上下概念関係翻訳情報を含ませ得る。
特許出願関連情報出力部2082は、例えば、特許出願関連情報に、クレーム情報、クレーム翻訳情報、修正版クレーム情報、修正版クレーム翻訳情報、クレームベース図面情報、クレームベース明細書情報、及び、クレームベース要約書情報を含ませ得る。
特許出願関連情報出力部2082は、例えば、特許出願関連情報に、クレームツリー、修正版クレームツリー、構成クレームツリー、及び、修正版構成クレームツリーを含ませ得る。
特許出願関連情報出力部2082は、例えば、特許出願関連情報に、明細書情報、明細書翻訳情報、修正版明細書情報、修正版明細書翻訳情報、及び、明細書見出しリストを含ませ得る。
特許出願関連情報出力部2082は、例えば、特許出願関連情報に、符号リスト、図面符号リスト、技術分野情報、料金情報、及び、集計情報を含ませ得る。
特許出願関連情報出力部2082は、特許出願関連情報を、例えば、出力ファイルの内容として出力する。出力ファイルは、記録媒体等に記録され得る。出力ファイルは、例えば、Microsoft(登録商標)のWord等の文書作成編集機能を有する各種アプリケーションプログラムに主として用いられる形式のファイルであっても、テキストファイルであっても、XMLファイルであっても、PDFファイルであってもよい。また、出力ファイルは、1つ又は複数のファイルで構成される表示用文書(例えばHTML文書)であってもよい。また、特許出願関連情報出力部2082は、特許出願関連情報を、互いに異なる形式の複数の出力ファイル(例えば、テキストファイルとHTML文書)として出力してもよい。表示用文書は、マークアップ言語で記述された文書を含み得る。表示用文書は、ブラウザ等で解釈されその内容が表示されるHTML文書であってもよいし、表示用アプリケーションプログラムにより解釈されその内容が表示されるXML文書(例えば1つのXMLファイル、或いは、XMLファイルとそのXMLファイルから参照される1つ以上のファイルの集合)であってもよいし、既存の変換用アプリケーションプログラムによりHTML文書に変換可能なXML文書であってもよい。
特許出願関連情報出力部2082は、例えば、設定情報取得部201により取得された設定情報における、出力ファイルの格納先の特定用情報を参照して、ファイルシステムにおける所定フォルダーを特定することで、その所定フォルダー内に、特許出願関連情報を含む出力ファイルを格納し得る。
特許出願関連情報出力部2082は、特許出願関連情報を表示用文書(例えばHTML文書)として生成する場合には、分析部205において生成された、表示用文書としての特許出願関連情報における各部分(例えば、重要語句リスト部分、クレーム情報部分、明細書情報部分等)の内容を、表示用文書生成部2083に伝達し、表示用文書としての特許出願関連情報の出力を表示用文書生成部2083に委ねる。表示用文書生成部2083により生成された表示用文書としての特許出願関連情報は、ブラウザとしての機能を有する表示部2084により、表示されることで出力され得る。
表示用文書生成部2083により生成された表示用文書としての特許出願関連情報は、例えばHTML文書としてのファイル群(例えばHTMLファイル、CSSファイル、スクリプトファイル等)として、記録媒体等に記録されることで出力され得る。出力されたHTML文書は、発明文書分析システム20の表示部2084で解釈され表示されてもよいし、発明文書分析システム20の外部のブラウザにより解釈され表示されてもよい。
発明文書分析システム20が図8に示すような構成である場合においては、例えば、表示用文書生成部2083により生成されたHTML文書としての特許出願関連情報は、発明文書分析システム20を構成する1台の端末装置におけるOS配下でブラウザ機能を実現するためのアプリケーションプログラムにより、解釈され、表示されることになる。この場合に、表示用文書生成部2083が出力したHTML文書のHTMLファイルであるローカルファイルを、ブラウザ機能を実現するためのアプリケーションプログラムが読み込むことで、HTML文書を解釈し、表示してもよい。また、表示用文書生成部2083は、ローカルホストの予め定めた、ウェブサーバとして使用するポートで、HTML文書を提供することとし、ブラウザ機能を実現するためのアプリケーションプログラムがそのローカルホストのそのポートにHTTP(Hypertext Transfer Protocol)通信でアクセスして、HTML文書を、取得し、解釈し、表示することとしてもよい。
発明文書分析システム20が図10に示すような構成である場合においては、例えば、サーバ装置に実装される表示用文書生成部2083により生成されたHTML文書としての特許出願関連情報は、そのサーバ装置と通信可能な端末装置におけるブラウザにより、取得され、解釈され、表示されることになる。
なお、特許出願関連情報出力部2082による、特許出願関連情報の出力は、出力ファイルとしての出力に限られず、発明文書分析システム20を構成する装置に着脱自在な、メモリカード等の記録媒体への特許出願関連情報の書き出し、発明文書分析システム20の外部の記録媒体への特許出願関連情報の書き出し、特許出願関連情報を示す信号の送信、表示装置での特許出願関連情報の表示、特許出願関連情報の印刷、音声合成技術を用いた特許出願関連情報を表す音声の出力、その他の特許出願関連情報を表す物理現象を起こすこと等であってもよい。例えば、発明文書分析システム20の機能を実現する発明文書分析処理プログラムの全部又は一部が、Microsoft(登録商標)のWindows(登録商標)のコマンドプロンプト上で実行される場合において、特許出願関連情報は、例えば、コマンドプロンプトウィンドウ中への表示等という方法で、出力されてもよい。
表示用文書生成部2083に生成される表示用文書の一例としてのHTML文書は、HTMLファイルを含み、例えば、更に、HTMLファイル内での指定に対応したCSSファイルを含んでもよいし、更に、HTMLファイル内での指定に対応したスクリプトファイルを含んでもよい。表示用文書生成部2083が、特許出願関連情報に係る表示用文書の一例としてのHTML文書を生成する場合に、発明文書分析システム20の分析対象となる各発明文書に応じて、表示用文書生成部2083により生成されるHTML文書を構成するHTMLファイルの内容は変化し得るが、例えば、HTML文書を構成するCSSファイル及びスクリプトファイルの内容は、発明文書間の相違に依らずに、不変であり得る。
表示用文書生成部2083は、例えば、分析部205により生成された表示用文書としての特許出願関連情報の各部分(図15参照)を含むHTMLファイルと、HTMLファイルにおける表示要素の表示態様の制御のためのCSSファイルと、JavaScript(登録商標)により記述された関数等を含むスクリプトファイルとを生成する。表示用文書生成部2083は、例えば、<body>タグ配下に、表示用文書(この例ではHTML文書)としての特許出願関連情報の複数の部分(例えば、発明文書、警告情報、重要語句リスト、クレーム情報、明細書情報等)を、各々<article>タグと</article>タグとで挟む記述として含むHTMLファイルにおけるその<body>タグ配下に、<nav>タグと</nav>タグとで挟んでメニューを記述する。このメニューは、例えば、各<article>タグ配下の内容の表題、名称等を表すメニュー項目(例えば、「発明文書」、「警告情報」、「重要語句リスト」、「クレーム情報」、「明細書情報」等)の表示要素を複数列挙したリストであり、各<article>タグ配下の内容のうち、ユーザにより選択されたメニュー項目に対応する<article>タグ配下の内容を表示できるように、各メニュー項目の表示要素に、例えば各<article>タグ配下の内容を非表示状態と表示状態との間で切り替えるための関数を定義した表示制御情報を付加して構成されたものである。図17に例示する表示画面では、<nav>タグと</nav>タグとで挟んで記述されたメニューがメニュー欄に表示され、メニューに応じて選択された<article>タグ配下の内容が、メニュー選択に応じた特許出願関連情報の項目の内容表示欄に表示される。メニューには、設定情報取得部201により取得された設定情報を表示し編集可能とする設定情報表示用文書(例えば設定情報表示用文書としてのHTMLファイル)へリンクするメニュー項目を含ませてもよい。
表示用文書生成部2083は、例えば、HTML文書における特許出願関連情報の複数の部分各々に対応する<article>タグ配下の内容の表示属性の既定値として、例えばCSSファイル等で、背景色が白色、文字色が黒色等というように、背景色、文字色等を定義しておいてもよく、例えばスクリプトファイル等で、HTML文書が表示された際における所定のユーザ操作(例えば所定の操作対応GUI要素へのマウスクリック操作等)に応じて背景色を白色から黒色へ、文字色を黒色から白色へ等というように、背景色、文字色等を変更する関数等を定義しておいてもよい。このように、表示用文書において、暗い背景色(例えば黒色)に対して明るい文字色(例えば白色)、或いは、明るい背景色に対して暗い文字色を用いることは、表示内容の視認性を向上させ得る。また、発明文書分析システム20における表示装置の周囲の環境の明暗等に応じてユーザが、暗い背景色と明るい文字色との組と、明るい背景色と暗い文字色との組とを切り替えられることは、表示内容の視認性の向上に有用となり得る。
表示部2084、或いは、その他のHTML文書を解釈して表示するブラウザにおいては、例えば、<article>タグ配下の内容の既定値としての背景色、文字色等より、<article>タグ配下の重要語句等といった個々の表示要素に対して定義された背景色、文字色等が優先的に適用され得る。
表示用文書生成部2083は、複数の<article>タグ配下の内容を並べて表示するように表示用文書を生成してもよい。表示用文書における各<article>タグ配下の内容は、ブラウザで表示用文書が解釈されて表示される際に、スクリプトファイルに記述された関数の処理等により、表示状態にしたり、非表示状態にしたりすることができる他に、透明度、表示サイズ、表示位置等を指定して表示することができる。表示用文書生成部2083は、表示用文書がブラウザで解釈されて表示される際において、例えば、各種<article>タグ配下の、重要語句についての操作対応GUI要素としての表示要素の操作により、インターネット等のネットワーク上の検索サイト等でその重要語句を含むウェブページ等を検索する処理、或いは、インターネット等のネットワーク上の翻訳サイト等でその重要語句を翻訳させる処理等を、スクリプトファイルに記述された関数等により行う場合には、その関数等により、その検索サイト、翻訳サイト等に係る画面を、表示用文書の表示用のものとは、別の表示領域(例えば図17に例示する表示画面中の「操作対応GUI要素の事項の表示欄」)、別のウィンドウ、又は、別のタブとして表示するように制御するように、表示用文書を生成することとしてもよい。
表示用文書生成部2083は、例えば、特許出願関連情報に係る表示用文書に、表示要素を操作に応じて発明文書の再分析を実行するGUI要素とするための表示制御情報を付加したその表示要素を含ませることとしてもよい。これにより、設定情報取得部201により取得される設定情報、重要語句設定辞書取得部203により取得される重要語句設定辞書等が更新された場合等に対応して、発明文書を再び分析させることが容易となり得る。
本実施形態では、一例として、HTML5に準拠したHTML文書としての特許出願関連情報の各部分(例えばクレーム情報、明細書情報、クレームツリー、重要語句リスト等)を、各々別の<article>タグ配下に記述する例を挙げて各種の説明を行ったが、特許出願関連情報の各部分の記述に利用されるタグは<article>タグに限定されることはなく、その他のタグ(例えば<section>タグ等)であってもよい。また、表示用文書生成部2083が生成する特許出願関連情報に係るHTML文書は、必ずしもHTML5に準拠していなくてもよい。
表示用文書生成部2083は、分析部205において生成された、表示用文書としての特許出願関連情報の各部分に、HTMLファイルで使用できないコードがある場合には、コード変換して、HTMLファイルを生成する。このコード変換は、例えば、表示用文書生成部2083が、一例としてPython(登録商標)言語で記述されたプログラムを実行するコンピュータにより実現される場合には、Python(登録商標)の標準ライブラリの関数xml.sax.saxutils.escapeを利用して実装可能である。既存の幾つかのブラウザアプリで、表示用文書としての特許出願関連情報が表示された場合に表示内容の複数行のコピー&ペーストが適切に実行されるようにする等のために、表示用文書生成部2083は、例えば、分析部205において生成された、表示用文書としての特許出願関連情報の各部分に、半角の空白文字が含まれるときには、その半角の空白文字を所定コード「 」に置換することとしてもよいし、例えば、分析部205において生成された、表示用文書としての特許出願関連情報の各部分の行末に、<br>タグが付加されていないときに<br>タグを付加することとしてもよい。
表示用文書生成部2083が、生成した表示用文書を出力する具体的な一例としては、表示用文書生成部2083は、例えば、所定フォルダー内に、発明文書の分析日時を示す情報を含ませたサブフォルダー名を定めたサブフォルダーを作成し、そのサブフォルダーに、表示用文書としてのHTML文書の主要部分としての、特許出願関連情報を含むHTMLファイルを格納する。この所定フォルダーは、例えば、設定情報取得部201により取得された設定情報における、出力ファイルの格納先の特定用情報で示されるフォルダーであってもよいし、発明文書分析システム20のユーザが定めたフォルダーであってもよいし、発明文書分析システム20を構成するマイクロプロセッサを備える端末装置等における、発明文書分析処理プログラムがインストールされたフォルダー等であってもよい。また、発明文書の分析日時を示す情報を含ませたサブフォルダー名には、例えば、更に、発明文書取得部2021によりその発明文書がファイルから取得された場合には、そのファイルのファイル名を、含ませることとしてもよいし、発明文書取得部2021によりその発明文書がクリップボードから取得された場合には、クリップボードを示す語句を、含ませることとしてもよい。表示用文書生成部2083は、更に、その所定フォルダー内の1つのサブフォルダーを、共通リソースの格納先として定めて、そのHTML文書における一部分としての、特許出願関連情報に関する表示要素に付加される表示制御情報に対応して機能するリソースである、表示態様の制御のためのCSSファイル、及び、スクリプトファイルを、その共通リソースの格納先のサブフォルダーに、未格納である場合に限り、格納する。この例によれば、発明文書分析システム20において、所定フォルダー内の各サブフォルダーをサブフォルダー名によりソートして、例えば、発明文書の分析結果に基づく特許出願関連情報を含むHTMLファイルを格納するサブフォルダー名を、最新のものから順に、並べて表示すること等が可能となる。例えば、各サブフォルダー内のHTMLファイルは、それぞれ異なる内容の発明文書の分析結果としての特許出願関連情報と含むものとなり得るが、その各HTMLファイルは、共通リソースの格納先の1つのサブフォルダーにおけるCSSファイル、及び、スクリプトファイルと組をなしてHTML文書を構成する。なお、表示部2084は、上述の所定フォルダー内の各サブフォルダーを列挙したリストを表示して、1つのサブフォルダーに対する選択操作に応じて、その選択操作に係るサブフォルダー内のHTMLファイルを含んで構成されるHTML文書をブラウザによる解釈及び表示の対象とするようなGUI画面を表示することとしてもよく、そのGUI画面内には、ユーザ操作に応じて、いずれかのサブフォルダーをその配下の内容を含めて削除する処理を行うための操作対応GUI要素を表示することとしてもよい。このGUI画面の表示をHTMLファイル等のHTML文書により実現することとしてもよく、1つのサブフォルダーに対する選択操作に応じて対応するHTMLファイルへ表示内容を遷移させるハイパーリンクを行うこととしてもよい。なお、このような表示用文書生成部2083、表示部2084等の動作は、上述の発明文書分析処理プログラムがマイクロプロセッサを備える端末装置等にインストールされて実行されることにより、実現される発明文書分析処理の一部を構成することとしてもよい。
図39は、表示部2084により表示されるGUI画面としての表示画面の一例を示す図である。図39に例示する表示画面では、分析対象の発明文書を、発明文書ファイルの選択により、又は、クリップボードから、取得するためのGUI要素が表示されている。発明文書ファイルの選択は、例えば、HTMLの<input>タグにおけるtype属性でfileを指定することにより、実現可能である。図39に例示する表示画面では、分析済み発明文書リストとして、特許出願関連情報を含むHTMLファイルを格納するサブフォルダー名(例えば発明文書の分析日時と分析対象となった発明文書のファイル名又は文字列「clipboard」とを合成した名称)を列挙し、各サブフォルダー名の左に、そのサブフォルダーの削除のための関数を起動するためのプッシュボタンを表示している。例えば、この表示画面に表示されたサブフォルダー名に対してマウスクリック操作がなされると、リンクに係る表示遷移が起こり、そのサブフォルダーに格納された、HTML文書としての特許出願関連情報を含むHTMLファイルに基づく表示内容(図17参照)が表示されることになる。所定フォルダー内の1つのサブフォルダーに格納されたHTML文書としての特許出願関連情報におけるクレーム情報、明細書情報等における重要語句の表示要素が操作対応GUI要素である場合において、ブラウザ等により表示されたその操作対応GUI要素への操作に応じて実行され得る、上述の重要語句包含記載列挙処理は、例えば、その所定フォルダー内の、その1つのサブフォルダーとは別の各サブフォルダー内の、HTML文書としての特許出願関連情報におけるクレーム情報及び明細書情報から、その重要語句が記載されている各行の内容を、重要語句を検索することで収集して、その収集結果である各行を列挙して各行中の重要語句を強調して表示する処理であってもよい。これにより、ユーザは、特許出願関連情報中の重要語句について、発明文書分析システム20に過去に分析させた発明文書に基づいて既に生成されている1つ以上の特許出願関連情報におけるクレーム情報及び明細書情報に含まれる、その重要語句を記載した各行を参照することが可能になる。サブフォルダーの削除のための関数は、例えば、JavaScript(登録商標)で記述され、例えば、ローカルホスト上で動作するPython(登録商標)で記述されたサブフォルダーの削除処理の関数を呼び出す。
別の具体的な一例としては、表示用文書生成部2083は、例えば、設定情報における、出力ファイルの格納先の特定用情報で示される所定フォルダー内に、発明文書の分析日時を示す情報を含ませたサブフォルダー名を定めたサブフォルダーを作成し、そのサブフォルダー内に、特許出願関連情報に係る表示用文書としてのHTML文書を構成するHTMLファイル、CSSファイル、及び、スクリプトファイルを格納する。この例によれば、そのサブフォルダーの内容を可搬性のある記録媒体に記録して移送すること、或いは、そのサブフォルダーの内容を、例えば圧縮等して、送信することにより、移送先又は送信先のブラウザ機能を有する各種端末(例えば、デスクトップPC、ノートPC、スマートフォン)等においても、その表示用文書としての特許出願関連情報を閲覧し活用し得る。
発明者等又は弁理士は、発明文書分析システム20から発明文書の分析結果に基づいて出力された特許出願関連情報が適切ではないと判断した場合においては、発明文書取得部2021により取得される発明文書、設定情報取得部201により取得される設定情報、重要語句設定辞書取得部203により取得される重要語句設定辞書等を修正して、発明文書分析システム20に発明文書を再分析させることで特許出願関連情報を、より適切な内容となるように更新させることができる。発明者等又は弁理士から、例えば、適切な内容となるように更新された表示用文書としての特許出願関連情報の提供を受けた翻訳者は、その適切な特許出願関連情報等に基づいて、翻訳作業を、適正に又は効率的に、行うことが可能となり得る。また、発明文書分析システム20を利用可能な翻訳者は、発明者等又は弁理士から、例えば、発明文書、設定情報、重要語句設定辞書等の提供を受けた場合に、発明文書分析システム20により特許出願関連情報を得ることができ、その特許出願関連情報等に基づいて、翻訳作業を、適正に又は効率的に、行うことが可能となり得る。
表示用文書生成部2083は、発明文書の各行へ行番号を追加した情報を含む特許出願関連情報を表示用文書として生成する場合に、例えば、発明文書の各行に対応する各表示要素について、その行が警告情報での指摘の対象となった行であるか否かに応じてその行の表示態様(例えば行の文字列の文字色)を相違させて表示するように定めた表示制御情報を付加することとしてもよい。また、この代わりに、表示用文書生成部2083は、発明文書の各行へ行番号を追加した情報を含む特許出願関連情報を表示用文書として生成する場合に、例えば、発明文書の各行における行番号を1つの表示要素とし、各行番号に対応する表示要素に、警告情報での指摘の対象となった行の行番号と、警告情報での指摘の対象となっていない行の行番号とでは表示態様(例えば行番号の文字色)を相違させて表示するように定めた表示制御情報を付加することとしてもよい。また、表示用文書生成部2083は、発明文書の各行へ行番号を追加した情報を含む特許出願関連情報を表示用文書として生成する場合に、例えば、発明文書の各行に、警告情報での指摘の対象となった不適切な記載が含まれるときには、各行中のその不適切な記載に1つの表示要素を対応付けて、その不適切な記載の文字列をその他の文字列と表示態様を相違させて表示(例えば不適切な記載の文字列の文字色を赤色等にして強調表示)するように定めた表示制御情報を付加することとしてもよい。
表示部2084は、表示用文書生成部2083により生成された表示用文書としての特許出願関連情報を表示する。表示部2084は、例えば、HTML5に準拠してHTML文書を解釈し、HTMLファイルで定められた表示要素を、CSSファイル等に従って表示するブラウザである。表示部2084は、表示用文書生成部2083が、特許出願関連情報に係る表示用文書をHTML5に準拠しないHTML文書(つまりその他のHTML5以外の規格に準拠したHTML文書)として生成する場合には、表示部2084は、表示用文書生成部2083が生成するHTML文書を解釈し表示できるような規格に対応したブラウザとしての機能を有する。なお、表示用文書としての特許出願関連情報における、ブラウザにより表示された表示内容の全部又は一部は、ユーザの操作により、選択可能であってコピー&ペースト又はカット&ペーストの対象となり得るので、そのペーストにより、発明文書分析システム20を構成する端末装置上で実行されている、あるアプリケーションプログラムが使用している文書等の内容として包含させることができる。また、特許出願関連情報に係るGUI要素に対するユーザ操作に応じて実行される処理の実行結果として、ブラウザにより表示される内容が変化した場合において変化後の表示内容の全部又は一部も、ユーザの操作により、選択可能であってコピー&ペースト等の対象となり得る。
表示部2084は、表示用文書を解釈して表示するブラウザとしての機能を有する他に、例えば、表示用文書以外のファイル(例えばテキストファイル)として出力された特許出願関連情報を表示する機能を有してもよく、更に、従来の文書作成編集機能を有するアプリケーションプログラム(例えばテキストエディタ等)のように、その表示された特許出願関連情報をユーザの操作に応じて編集して出力する機能を有していてもよい。表示部2084は、特許出願関連情報をユーザの操作に応じて編集して出力する機能を実行する場合において、ユーザの入力を支援するために、特許出願関連情報における重要語句リストに含まれる複数の重要語句を所定の順序(例えば重要度順)で列挙して表示したポップアップ画面等からユーザに選択された1つの重要語句をカーソル位置に入力する機能を提供することとしてもよい。
表示部2084は、操作受付部20841を含む。操作受付部20841は、例えば、HTMLファイルで定められた表示要素に付加された表示制御情報が、その表示要素を操作対応GUI要素とするものである場合(つまり操作に応じて処理を起動するGUIとしての機能を表示要素に持たせるものである場合)に、ユーザによる操作を受け付けて、表示制御情報で定められた関数等を実行する。
具体例としては、操作受付部20841は、例えば、表示用文書としての特許出願関連情報における重要語句リスト部分で重要語句に付加された翻訳語候補集合に係る表示要素から、翻訳語候補集合のうちの1つの要素の選択操作を受け付けて、その要素を引数として予め定められた関数を起動して、重要語句についての対応翻訳語を決定する処理を実行する。操作受付部20841により、重要語句についての翻訳語候補集合からのユーザの選択操作の受け付けにより、選択された要素は、例えば、その重要語句と組を成して、重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして、教師データ蓄積部2072に蓄積され得る。また、出力部208は、1つ以上の各重要語句について、その重要語句と、操作受付部20841によりその重要語句についての翻訳語候補集合からのユーザの選択に応じて決定された対応翻訳語との組を、含む翻訳補助情報を生成して出力し得る。
また、操作受付部20841は、例えば、表示用文書としての特許出願関連情報における重要語句リスト部分で、重要語句に対応する表示要素についての操作を受け付けて、操作に応じて、その重要語句を引数として予め定められた関数を起動してその重要語句についての非重要語句化処理を実行する。非重要語句化処理では、その重要語句が発明文書において記載された文の一部(例えば、読点文字及び句点文字で区切られた部分)を、その重要語句と対応付けて、非重要語句設定辞書に含ませることとしてもよい。発明文書分析システム20では、この非重要語句化処理で更新される重要語句設定辞書と非重要語句設定辞書との内容から、入力となる文の一部又は語句について、その文の一部又は語句が重要語句を含むか否か、及び、重要語句を含むならばその重要語句を、予測するための重要語句抽出用学習モデルを生成する機械学習のための教師データを生成して、機械学習部207により重要語句抽出用学習モデルを生成させることとしてもよいし、学習モデル出力部2081により重要語句抽出用学習モデルを出力させることとしてもよい。この重要語句抽出用学習モデルは、例えば、重要語句抽出部2051において、発明文書から重要語句を抽出するために用いられ得る。
[3−1−7−3.設定情報表示用文書の表示]
表示用文書生成部2083は、例えば、設定情報取得部201により取得された設定情報のうちの全部又は一部の情報について表示するためのHTML文書等である設定情報表示用文書を生成することとしてもよい。設定情報表示用文書においては、例えば、設定情報に含まれる各種情報が表示要素として含まれ、その各種情報のうち一部の情報についての表示要素には、その表示要素を操作対応GUI要素とするための表示制御情報が付加され得る。表示用文書生成部2083は、設定情報表示用文書に、設定情報中の翻訳用発明文書標準規定の特定用情報に基づいて翻訳用発明文書標準規定取得部204により取得された翻訳用発明文書標準規定における各条件項目の全部又は一部の内容を表示要素として含ませることとしてもよく、その表示要素には、その表示要素を操作対応GUI要素とするための表示制御情報が付加され得る。
表示用文書生成部2083により生成される設定情報表示用文書で操作対応GUI要素となる表示要素の一例としては、出願先として予定する地域に向けて修正版クレーム情報を生成する場合に用いられる修正方法を定義した修正情報が挙げられる。この修正情報の操作対応GUI要素の具体例としては、複数の修正方法各々にチェックボックスを付加して表示し、チェックボックスが操作によりチェックされた修正方法を、この修正情報の内容として選択するように設定情報を更新する例が、挙げられる。この複数の修正方法の例としては、「クレームの請求対象がプログラムである項が存在する場合にその項をプログラム記録媒体である項に変更する」、「クレームにおいて複数項を引用した1つの項の引用先のいずれかの項が複数の項を引用している場合にその1つの項をその複数項のうちの1つだけを引用した1つの項に変更する」、「クレームにおいて複数項を引用した1つの項を、その複数項のうちの1つだけを引用した1つの項に変更する」、「クレームにおいて複数項を引用した1つの項を、各々がその複数項のうちの相互に異なる1つだけを引用する、その複数と同数の項に変更する」、「明細書中に重要語句が表す要素に対応する符号が記載されている場合にクレーム中でその重要語句に符号を付記する」等が、挙げられる。設定情報表示用文書は、ブラウザにより、解釈され、表示され得る。
表示部2084は、例えば、設定情報表示用文書を表示し得る。表示部2084により設定情報表示用文書の表示要素が表示された状態では、操作対応GUI要素により、例えば、設定情報に含まれる各種情報(例えば条件情報)の内容をユーザが編集可能となり、例えば、翻訳用発明文書標準規定における各条件項目のうち、発明文書評価情報の生成の基礎としての評価に利用する条件項目を絞り込むために、ユーザが条件項目を選択可能となり得る。ユーザによる編集、選択等の操作を操作受付部20841が受け付けて、操作対象の表示項目と操作とに応じて予め定められた処理を実行する。この処理として、例えば、設定情報の内容(例えば参照文字列パターン情報、特定助詞文字列パターン情報、出願先として予定する地域に向けて修正版クレーム情報を生成する場合に用いられる修正方法を定義した修正情報等)の更新(例えば設定情報を内容とする設定情報ファイルの更新)、警告情報の生成に用いられる発明文書の不適切な記載の条件の更新、発明文書評価情報の生成に用いられる翻訳用発明文書標準規定における条件項目の絞り込み等が実行され得る。
[3−1−7−4.重要語句群情報の出力]
出力部208は、例えば、発明文書取得部2021により取得された発明文書から重要語句抽出部2051により抽出された複数の重要語句を列挙した重要語句群情報を、出力し得る。
出力部208は、重要語句群情報における各重要語句に、分析部205が保持する重要語句管理情報を参照することで、重要度決定部2055により決定された重要度を付加してもよいし、属性特定部2056により特定された属性情報を付加してもよい。出力部208は、重要語句抽出部2051により抽出された重要語句のうち、重要語句についての重要度が予め定められた値を超える重要語句だけに関する情報を、重要語句群情報に含ませることとしてもよい。
出力部208は、重要語句群情報における各重要語句について、その重要語句に対応して翻訳部2054で決定された対応翻訳語、或いは、その重要語句に対応して翻訳語候補集合特定部20541で特定された翻訳語候補集合の要素のうち操作受付部20841により選択された要素を、付加してもよい。
発明文書に基づいて出力された重要語句群情報は、例えば、複数の発明文書の分類、発明文書間の相関性の判断、重要語句設定辞書の生成、翻訳補助情報の生成等に利用可能である。
[3−2.実施形態2に係る発明文書分析処理例]
上述した構成を備える発明文書分析システム20が実行する発明文書分析処理の一例について説明する。
図40は、発明文書分析処理の一例を示すフローチャートである。
発明文書分析システム20は、発明文書分析処理として、例えば、図40に示すように、設定情報の取得処理(ステップS11)と、重要語句設定辞書の取得(ステップS12)と、翻訳用発明文書標準規定の取得(ステップS13)と、発明文書の取得(ステップS14)と、図面文書の取得(ステップS15)と、クレームに係る引用関係分析処理(ステップS16)と、重要語句抽出処理(ステップS17)と、要素間関係判別処理(ステップS18)と、各重要語句の属性情報の特定(ステップS19)と、各重要語句の重要度の決定処理(ステップS20)と、翻訳語候補集合の特定処理(ステップS21)と、技術分野の特定処理(ステップS22)と、重要語句の表示色の決定処理(ステップS23)と、警告情報生成処理(ステップS24)と、クレーム情報等生成処理(ステップS25)と、クレームツリー等生成処理(ステップS26)と、明細書情報等生成処理(ステップS27)と、各種翻訳情報の生成処理(ステップS28)と、重要語句リスト等生成処理(ステップS29)と、特許出願関連情報の生成処理(ステップS30)と、表示用文書の生成処理(ステップS31)と、特許出願関連情報の出力処理(ステップS32)とを実行する。なお、図40の例は、一例にすぎず、発明文書分析システム20は、発明文書分析処理として、図40に示す一部のステップを省略又は変更した処理を実行してもよいし、図40に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図40に示す複数のステップの実行順序を変更して実行してもよいし、図40に示す複数のステップの全部又は一部を並列に実行してもよい。
以下、図40に示す各処理について、随時図面を参照して、説明する。
設定情報の取得処理(ステップS11)では、設定情報取得部201が設定情報を取得する。
重要語句設定辞書の取得(ステップS12)では、重要語句設定辞書取得部203が、例えば設定情報に基づいて、重要語句設定辞書を取得する。
翻訳用発明文書標準規定の取得(ステップS13)では、翻訳用発明文書標準規定取得部204が、例えば設定情報に基づいて、翻訳用発明文書標準規定を取得する。
発明文書の取得(ステップS14)では、発明文書取得部2021が、発明文書分析システム20のユーザの指定等に従って、発明文書分析システム20の分析部205の分析対象となる発明文書を取得する。
図面文書の取得(ステップS15)では、図面文書取得部2022が、例えばユーザの指定等に従って、発明文書取得部2021で取得された発明文書に対応する図面を含む図面文書を取得する。
クレームに係る引用関係分析処理(ステップS16)では、クレーム引用関係検出部2057が、ステップS14で取得された発明文書のクレームの各項間の引用関係を分析する引用関係分析処理を実行する。
図41は、引用関係分析処理(ステップS16)の一例を示すフローチャートである。クレーム引用関係検出部2057は、引用関係分析処理として、例えば、発明文書中のクレームの各項について、所定の引用先項番記載パターンに該当する先行項番記載部分を探索し、先行項番記載部分があれば抽出し(ステップS161)、抽出した先行項番記載部分から1つ以上の項番を特定する(ステップS162)。そして、クレーム引用関係検出部2057は、引用関係分析処理として、クレームの各項毎に、その項とステップS162で特定した項番の集合とを対応付けた情報を含むクレーム引用関係情報を、更新して保持することで、クレーム引用関係情報の保存管理を行う(ステップS163)。
重要語句抽出処理(ステップS17)では、重要語句抽出部2051が、ステップS11で取得された設定情報に基づいて、ステップS14で取得された発明文書のクレームから重要語句を抽出するクレーム重要語句抽出処理と、その発明文書の明細書から重要語句を抽出する明細書重要語句抽出処理とを実行する。
図42は、クレーム重要語句抽出処理の一例を示すフローチャートである。クレーム重要語句抽出処理として、重要語句抽出部2051は、例えば、発明文書のクレームから、ステップS12で取得された重要語句設定辞書に含まれる重要語句と同一の重要語句を抽出し(ステップS1711)、クレームの請求対象を重要語句として抽出し(ステップS1712)、クレーム中の符号文字列パターンに該当する文字列(つまり符号)の直前の重要語句候補文字列パターンに該当する文字列を重要語句として抽出し(ステップS1713)、クレーム中の参照文字列パターンに該当する文字列に後続する重要語句候補文字列パターンに該当する文字列を重要語句として抽出し(ステップS1714)、クレーム中の重要語句候補文字列パターンに該当する文字列(つまり重要語句の候補)のうち一定条件を満たすもの(例えば複数の重要語句の候補の記載範囲が記載上の包含関係を有する場合における包含側と被包含側とのうち包含側)を重要語句として抽出する(ステップS1715)。なお、図42の例は、一例にすぎず、重要語句抽出部2051は、クレーム重要語句抽出処理として、図42に示す一部のステップを省略又は変更した処理を実行してもよいし、図42に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図42に示す複数のステップの実行順序を変更して実行してもよいし、図42に示す複数のステップの全部又は一部を並列に実行してもよい。
図43は、明細書重要語句抽出処理の一例を示すフローチャートである。明細書重要語句抽出処理として、重要語句抽出部2051は、例えば、発明文書の明細書から、ステップS12で取得された重要語句設定辞書に含まれる重要語句と同一の重要語句を抽出し(ステップS1721)、明細書中にクレーム重要語句抽出処理により抽出された重要語句があればその重要語句を抽出し(ステップS1722)、明細書中の符号文字列パターンに該当する文字列(つまり符号)の直前の重要語句候補文字列パターンに該当する文字列を重要語句として抽出し(ステップS1723)、明細書中の特定助詞文字列パターンに該当する文字列(つまり所定の助詞)の直前の重要語句候補文字列パターンに該当する文字列を重要語句として抽出し(ステップS1724)、明細書中の重要語句候補文字列パターンに該当する文字列(つまり重要語句の候補)のうち一定条件を満たすもの(例えば複数の重要語句の候補のうちクレーム重要語句抽出処理で抽出された重要語句を語尾に含むもの)を重要語句として抽出する(ステップS1725)。なお、図43の例は、一例にすぎず、重要語句抽出部2051は、明細書重要語句抽出処理として、図43に示す一部のステップを省略又は変更した処理を実行してもよいし、図43に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図43に示す複数のステップの実行順序を変更して実行してもよいし、図43に示す複数のステップの全部又は一部を並列に実行してもよい。
要素間関係判別処理(ステップS18)では、要素間関係判別部2058が、重要語句抽出処理(ステップS17)で抽出された複数の重要語句各々が表す要素間の関係を判別する。
図44は、要素間関係判別処理(ステップS18)の一例を示すフローチャートである。要素間関係判別処理(ステップS18)として、要素間関係判別部2058は、例えば、重要語句抽出処理(ステップS17)で抽出された複数の重要語句が表す要素間の構成上の包含関係について判別する包含関係判別処理を実行し(ステップS181)、複数の重要語句各々が表す要素間が記録媒体とその記録媒体の内容との関係を有することについて判別する記録関係判別処理を実行し(ステップS182)、複数の重要語句各々が表す要素間がプログラムとそのプログラムによる実現内容との関係を有することについて判別するプログラム実現関係判別処理を実行し(ステップS183)、複数の重要語句が表す要素間に等価関係があることを判別する等価関係判別処理を実行し(ステップS184)、複数の重要語句が表す要素間に概念上の上下関係があることを判別する上下概念関係判別処理を実行する(ステップS185)。そして、要素間関係判別部2058は、包含関係判別処理の結果を示す包含関係情報と、記録関係判別処理の結果を示す記録関係情報と、プログラム実現関係判別処理の結果を示すプログラム実現関係情報と、等価関係判別処理の結果を示す等価関係情報と、上下概念関係判別処理の結果を示す上下概念関係情報とを含む重要語句関係情報を生成する(ステップS186)。なお、図44の例は、一例にすぎず、要素間関係判別部2058は、要素間関係判別処理として、図44に示す一部のステップを省略又は変更した処理を実行してもよいし、図44に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図44に示す複数のステップの実行順序を変更して実行してもよいし、図44に示す複数のステップの全部又は一部を並列に実行してもよい。
各重要語句の属性情報の特定(ステップS19)では、属性特定部2056が、重要語句抽出処理(ステップS17)で抽出された各重要語句について、要素間関係判別処理(ステップS18)の結果等を用いて、重要語句の属性情報(図19参照)を特定する。
各重要語句の重要度の決定処理(ステップS20)では、重要度決定部2055が、重要語句抽出処理(ステップS17)で抽出された各重要語句について、重要度の決定を行う。
図45は、各重要語句の重要度の決定処理(ステップS20)の一例を示すフローチャートである。各重要語句の重要度の決定処理(ステップS20)として、重要度決定部2055は、例えば、重要語句抽出処理(ステップS17)で抽出された各重要語句についてステップS19で属性特定部2056により特定された属性情報に基づいてその重要語句の重要度を決定し(ステップS201)、更に、構成上の包含関係を有する要素同士を表す重要語句間では包含する側が包含される側と同一以上の重要度となるように、重要度を再決定する(ステップS202)。なお、図45の例は、一例にすぎず、重要度決定部2055は、各重要語句の重要度の決定処理として、図45に示す一部のステップを省略又は変更した処理を実行してもよいし、図45に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図45に示す複数のステップの実行順序を変更して実行してもよいし、図45に示す複数のステップの全部又は一部を並列に実行してもよい。
翻訳語候補集合の特定処理(ステップS21)では、翻訳語候補集合特定部20541が、重要語句抽出処理(ステップS17)で抽出された各重要語句について、対訳辞書情報を用いて、その重要語句についての対応翻訳語の候補の集合である翻訳語候補集合を特定する。翻訳語候補集合の特定処理(ステップS21)では、翻訳語候補集合特定部20541は、各重要語句について、例えば、その重要語句を入力とした、重要語句翻訳用学習モデルを用いた演算処理により、生成された機械翻訳結果を、その重要語句についての翻訳語候補集合に追加し得る。
技術分野の特定処理(ステップS22)では、技術分野特定部20531が、ステップS14で取得された発明文書から重要語句抽出処理(ステップS17)で抽出された重要語句の集合である重要語句群に基づいて、その発明文書の技術分野を特定する。技術分野特定部20531は、技術分野の特定処理(ステップS22)において、技術分野との対応が知られている複数の発明文書各々における技術分野とその発明文書から過去に重要語句抽出処理で抽出された重要語句群との関係を用いることで、技術分野が知られていない発明文書の技術分野を特定する。技術分野特定部20531は、技術分野の特定処理(ステップS22)において、例えば、技術分野特定用学習モデルを用いて予め定められた演算処理を行うことで、発明文書から抽出した重要語句群に基づいて、その発明文書が属する技術分野を特定し得る。
重要語句の表示色の決定処理(ステップS23)では、例えば、分析部205が、重要語句抽出処理(ステップS17)で抽出された重要語句を、表示用文書としての特許出願関連情報の一部となる各種情報に表示要素として含ませ、その表示要素に付加する表示制御情報に、その重要語句の初出行番号に基づいて、小さい順となるように定めた通番を含む識別コードを含ませ、分析部205或いは表示用文書生成部2083は、その識別コードの通番部分が相対的に近い表示要素同士の表示態様としての表示色が、相対的に大きな差異を有するように、その表示制御情報を定める。ここで、例えば、クレームを表すクレーム情報における重要語句を構成する文字列が互いに相違する複数の重要語句についての、その重要語句の識別コードに含まれる通番は、例えば、その重要語句と同一の文字列で構成された重要語句がそのクレームに記載されていた最先の位置(例えばその重要語句の初出行番号)の昇順に定められたものである。この例において、クレーム情報における重要語句を構成する文字列が互いに相違する複数の重要語句各々に係る表示制御情報は、その複数の重要語句各々について、重要語句毎の識別情報における識別コードに係る通番が連続する重要語句同士の表示色の差異(例えば色相成分の差異、RGB値の各成分の差異等)を、その通番が連続しない重要語句同士の表示色の差異より大きくするように、各重要語句に付加する表示色を制御するためのものとしてもよい。例えばその通番が1の重要語句の表示制御情報によりその重要語句に付加される表示色(例えばその重要語句に付加される有幅の左境界線の色等)のRGB値(ここではRGB各成分0〜255(0xff)の256段階の値を持ち得る例で説明する。)が、赤「255」(0xff)、緑「0」、青「0」であり、その通番が2の重要語句の表示制御情報によりその重要語句に付加される表示色のRGB値が赤0、緑「255」(0xff)、青「0」であり、その通番が3の重要語句の表示制御情報によりその重要語句に付加される表示色のRGB値が赤「0」、緑「0」、青「255」(0xff)であり、その通番が4の重要語句の表示制御情報によりその重要語句に付加される表示色のRGB値が赤「153」(0x99)、緑「0」、青「0」であり、その通番が5の重要語句の表示制御情報によりその重要語句に付加される表示色のRGB値が赤「0」、緑「153」(0x99」、青「0」であるとすれば、通番が所定数(この例では3)以下である第1グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値は、通番が所定数より大きい第2グループの複数の重要語句とその第1グループの複数の重要語句とを混合した混合グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値より大きい。例えば、簡易的にRGB値が直交3軸の各成分であるとして、2つの重要語句各々に付加される表示色のRGB値間の距離を求める等により表示色の差異は算定され得る。このように各重要語句に付加される表示色の差異に係る制御を行う、重要語句の表示制御情報により、表示用文書としての特許出願関連情報におけるクレーム情報中の各重要語句が表示された場合に、クレーム情報を閲覧した翻訳者等にとって、クレーム情報中の各重要語句の迅速な識別が可能となり得る。上述のような重要語句の識別情報に係る通番(つまり重要語句の初出行番号)に基づく表示色の調整は、クレーム情報の先頭に近い比較的重要な部分(例えばクレームの項番が比較的小さい項の記載部分)においての重要語句間の識別性を向上させるために有用である。
別の例として、例えば、通番が1から216以下の第1所定数(例えば200)までの第1グループの重要語句に付加される表示色は、RGB値の各成分の値として「0」、「51」(0x33)、「102」(0x66)、「153」(0x99)、「204」(0xcc)、及び、「255」(0xff)のいずれかを用いて相互に異なるものとなるように定められ、通番が第1所定数(例えば200)より大きく第2所定数(例えば300)までの第2グループの重要語句に付加される表示色は、RGB値の各成分の値として「34」(0x22)、「85」(0x55)、「136」(0x88)、「187」(0xbb)、及び、「238」(0xee)のいずれかを用いて相互に異なるものとなるように定められ、通番が第2所定数う(例えば300)より大きく第3所定数(例えば400)までの第3グループの重要語句に付加される表示色は、RGB値の各成分の値として「17」(0x11)、「68」(0x44)、「119」(0x77)、「170」(0xaa)、及び、「221」(0xdd)のいずれかを用いて相互に異なるものとなるように定められることとしてもよい。この例でも、通番が第1所定数(この例では200)以下である第1グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値は、通番が所定数より大きい第2グループ、或いは、第2グループ及び第3グループの複数の重要語句と、その第1グループの複数の重要語句とを混合した混合グループの複数の重要語句のうち、2つの重要語句の組各々における各重要語句に付加される表示色の差異の、その全組での最小値より大きい。各重要語句の表示色の差異の最小値が大きいグループでは、その各重要語句を、表示色の差異により、比較的迅速に又正しく識別可能となる。この例では、表示用文書としての特許出願関連情報におけるクレーム情報中の各重要語句が表示された場合に、クレーム情報を閲覧した翻訳者等にとって、クレーム情報中の比較的先頭に近い部分に記載されている第1グループの各重要語句を相互に比較的迅速又は正しく識別可能となる。
表示用文書としての特許出願関連情報における各種の表示要素に付加される表示制御情報は、表示要素の表示色を変更して表示要素を強調する他、表示要素の内容の文字列の太字化、文字サイズの変更等で表示要素を強調するものであってもよいし、表示要素の内容に対して情報を付加する情報付加表示を行うもの(例えば重要語句に対する重要度、属性情報等の付加を行うもの)であってもよいし、表示要素を操作に応じて情報付加表示を行うためのGUI要素とするものであってもよいし、表示要素を操作に応じて表示要素の内容に基づく検索、翻訳等の処理を行うためのGUI要素とするものであってもよいし、表示要素を操作に応じて表示要素の内容に関連する情報を表示するように表示遷移を行うためのGUI要素とするものであってもよい。
警告情報生成処理(ステップS24)では、警告情報生成部2059が、ステップS11で取得された設定情報、ステップS13で取得された翻訳用発明文書標準規定等に基づいて、ステップS14で取得された発明文書における不適切な記載を指摘する指摘情報を含む警告情報を生成する。
図46は、警告情報生成処理(ステップS24)の一例を示すフローチャートである。警告情報生成処理(ステップS24)として、警告情報生成部2059は、例えば、発明文書の記載が「翻訳用発明文書標準規定」に適合していなければ指摘する指摘情報を警告情報に含ませ(ステップS241)、クレーム引用関係情報を参照し、発明文書のクレーム中の参照記載に対応する先行語句が不存在であればその旨を指摘する指摘情報を警告情報に含ませ(ステップS242)、発明文書のクレーム、明細書等の各見出し、図面番号、段落番号等の記載様式の不備があればその旨を指摘する指摘情報を警告情報に含ませ(ステップS243)、発明文書の文の不備、符号に関する不備、表記の不統一、及び、誤記の可能性のいずれか1つ以上が存在すればその旨を指摘する指摘情報を警告情報に含ませ(ステップS244)、表示用文書における警告情報中の各指摘情報に係る表示要素に、指摘対象となった発明文書の行、指摘に関連するクレーム情報の項、或いは、明細書情報の段落への表示遷移用のGUI要素として機能するための表示制御情報を付加し(ステップS245)、発明文書評価情報を生成して警告情報に追加する(ステップS246)。なお、図46の例は、一例にすぎず、警告情報生成部2059は、警告情報生成処理として、図46に示す一部のステップを省略又は変更した処理を実行してもよいし、図46に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図46に示す複数のステップの実行順序を変更して実行してもよいし、図46に示す複数のステップの全部又は一部を並列に実行してもよい。
クレーム情報等生成処理(ステップS25)では、クレーム情報生成部205aが、ステップS14で取得された発明文書のクレームに基づいて、特許出願関連情報に含まれるべきクレーム情報等を生成する。
図47は、クレーム情報等生成処理(ステップS25)の一例を示すフローチャートである。クレーム情報等生成処理(ステップS25)として、クレーム情報生成部205aは、例えば、クレーム情報生成処理を実行し(ステップS251)、符号決定処理を実行し(ステップS252)、クレームベース図面情報生成処理を実行し(ステップS253)、クレームベース明細書情報生成処理を実行し(ステップS254)、クレームベース要約書情報生成処理を実行し(ステップS255)、修正版クレーム情報生成処理を実行する(ステップS256)。
図48は、クレーム情報生成処理(ステップS251)の一例を示すフローチャートである。クレーム情報生成処理(ステップS251)として、クレーム情報生成部205aは、例えば、ステップS14で取得された発明文書中のクレームに基づいてクレームを表すクレーム情報を生成し(ステップS2511)、表示用文書としての特許出願関連情報におけるクレーム情報中の各重要語句の表示要素に対して、基本的に重要語句毎に異なる表示色を付加し、操作に応じて重要語句に関連する情報付加表示を行うためのGUI機能を持たせ、別の操作に応じて重要語句についての検索、翻訳等の処理を実行するためのGUI機能を持たせる等のために、表示制御情報を付加し(ステップS2512)、クレーム情報中の各項の見出しの表示要素に対して、強調表示、次の見出し等への表示遷移の操作対応GUI機能を持たせる等のために、表示制御情報を付加し(ステップS2513)、クレーム情報中の参照文字列の表示要素に対して、強調表示等のために、表示制御情報を付加し(ステップS2514)、クレーム情報中のコメントの表示要素に対して、強調表示等のために、表示制御情報を付加し(ステップS2515)、クレーム情報中で、警告情報の指摘対象となった部分の表示要素に対して、強調表示等のために、表示制御情報を付加する(ステップS2516)。
図49は、符号決定処理(ステップS252)の一例を示すフローチャートである。符号決定処理(ステップS252)として、クレーム情報生成部205aは、例えば、ステップS14で取得された発明文書中のクレームから重要語句抽出処理(ステップS17)により抽出された各重要語句のうち、その重要語句が表す要素のカテゴリー種別が物及び方法のいずれかであれば符号決定対象として選定し(ステップS2521)、符号決定対象として選定した重要語句が、発明文書における「符号の説明」で符号と対応していればその符号を最優先で採用し(ステップS2522)、符号決定対象として選定した重要語句が、発明文書における明細書で符号が付されている場合にはその符号を、最優先の次に優先して採用し(ステップS2523)、符号決定対象として選定した各重要語句について、重要語句が表す要素の構成上の包含関係に基づいて、包含側の重要語句の符号の文字列と被包含側の重要語句の符号の文字列とが、文字列間に包含関係を有する等といった予め定められた関係となるように、符号を決定する(ステップS2524)。
図50は、クレームベース図面情報生成処理(ステップS253)の一例を示すフローチャートである。クレームベース図面情報生成処理(ステップS253)として、クレーム情報生成部205aは、例えば、ステップS14で取得された発明文書中のクレームから重要語句抽出処理(ステップS17)により抽出された重要語句が表す請求対象が他の重要語句が表す要素を包含している場合にその各重要語句を囲む矩形枠が包含関係に従って配置された構成図を生成し(ステップS2531)、クレームの重要語句が表す記録媒体に係る要素が他の重要語句が表す要素を記録している場合にその記録媒体の記録内容を列挙する図を生成し(ステップS2532)、クレームの重要語句が表すプログラムに係る要素が他の重要語句が表す要素の機能、処理等を実現する場合にその実現される機能等に係る要素の集合を示す図を生成し(ステップS2533)、符号決定処理(ステップS252)により符号が決定されている重要語句については、図中の重要語句に係る描画内容(例えば矩形枠)から引出線で結んだ符号を付加し(ステップS2534)、各図について各図中の重要語句の最小の初出クレーム番号の小さい順に図面番号を決定し(ステップS2535)、クレームベース図面情報における各符号の表示要素に対応して符号検索による表示制御(例えば符号を表示するように表示遷移を行って符号を強調表示する制御)を可能にするための表示制御情報を付加する(ステップS2536)。
図51は、クレームベース明細書情報生成処理(ステップS254)の一例を示すフローチャートである。クレームベース明細書情報生成処理(ステップS254)として、クレーム情報生成部205aは、例えば、ステップS14で取得された発明文書中のクレームの各請求対象起点項の請求対象に基づいて、「発明の名称」、「発明が解決しようとする課題」及び「課題を解決するための手段」の内容を生成し(ステップS2541)、クレームベース図面情報生成処理(ステップS253)で生成されたクレームベース図面情報に基づいて「図面の簡単な説明」の内容を生成し(ステップS2542)、クレームの各項毎に、その内容と対応する効果の記載支援用未完成メッセージとを含ませた「発明を実施するための形態」の内容を生成し(ステップS2543)、ステップS186で生成された重要語句関係情報と、クレームベース図面情報とに基づいて、各重要語句の説明順序を決定し(ステップS2544)、決定した説明順序に従い、各重要語句を主語とし、符号が決定されている重要語句には符号を付加して、必要に応じて記載支援用未完成メッセージを付加した文を「発明を実施するための形態」に追記し(ステップS2545)、表示用文書としての特許出願関連情報におけるクレームベース明細書情報中の重要語句、符号及び記載支援用未完成メッセージの表示要素に、強調表示等といった表示態様の制御、操作対応GUI要素としての機能を持たせる制御等のために、表示制御情報を付加する(ステップS2546)。
図52は、クレームベース要約書情報生成処理(ステップS255)の一例を示すフローチャートである。クレームベース要約書情報生成処理(ステップS255)として、クレーム情報生成部205aは、例えば、日本国の特許出願の要約書と同様の様式の「要約」配下の「課題」欄に設定情報の取得処理(ステップS11)で取得された設定情報の未完成メッセージ情報に基づく記載支援用未完成メッセージを記載し(ステップS2551)、「解決手段」欄に、ステップS14で取得された発明文書中のクレームの先頭の項の内容を含ませ、符号決定処理(ステップS252)で符号が決定されている重要語句には符号を付加し(ステップS2552)、「選択図」の欄に、「図1」を記載し(ステップS2553)、米国出願用の日本語版の要約書として、クレームの先頭の項の内容を記載し(ステップS2554)、日本語の国際出願の様式の要約書として、クレームの先頭の項の内容を含ませ、符号決定処理(ステップS252)で符号が決定されている重要語句には後続させた丸括弧内にその符号を付加し(ステップS2555)、表示用文書としての特許出願関連情報におけるクレームベース要約書情報中の各重要語句等の表示要素に強調表示等のための表示制御情報を付加する(ステップS2556)。
図53は、修正版クレーム情報生成処理(ステップS256)の一例を示すフローチャートである。修正版クレーム情報生成処理(ステップS256)として、クレーム情報生成部205aは、例えば、クレーム情報生成処理(ステップS251)で生成されたクレーム情報に基づき、警告情報生成処理(ステップS24)で生成される警告情報の指摘情報で指摘される不適切な記載の、修正情報等に基づく、修正等により、修正版クレーム情報を生成し(ステップS2561)、修正版クレーム情報のクレームの記載を、ステップS11で取得された設定情報で指定された形式(例えば数字を全角文字にする、重要語句に符号を付加する等といった指定)に適合させるように修正し(ステップS2562)、設定情報に基づいて、プログラムのカテゴリーに属する請求対象を記載した項等の、修正版クレーム情報のクレームへの追加を行い(ステップS2563)、特許出願され得る地域(例えば米国等)に対応したクレームの各項記載(例えばクレーム情報における複数項を引用する項を、単数項を引用する項に変更する等の処理後の各項記載)の、修正版クレーム情報への追加を行い(ステップS2564)、表示用文書としての特許出願関連情報における修正版クレーム情報中の重要語句等の表示要素に、その表示要素を強調表示するため、或いは、その表示要素を操作対応GUI要素とする等のために、表示制御情報を付加する(ステップS2565)。
なお、図47〜図53の各例は、一例にすぎず、クレーム情報生成部205aは、図47〜図53の各々に示す一部のステップを省略又は変更した処理を実行してもよいし、図47〜図53の各々に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図47〜図53の各々に示す複数のステップの実行順序を変更して実行してもよいし、図47〜図53の各々に示す複数のステップの全部又は一部を並列に実行してもよい。
クレームツリー等生成処理(ステップS26)では、クレームツリー生成部205cが、例えば、クレームツリー、修正版クレームツリー、構成クレームツリー、及び、修正版クレームツリーを生成する。
図54は、クレームツリー等生成処理(ステップS26)の一例を示すフローチャートである。クレームツリー等生成処理(ステップS26)として、クレームツリー生成部205cは、例えば、クレーム引用関係情報を参照し、クレーム情報生成処理(ステップS251)で生成されたクレーム情報及び修正版クレーム情報生成処理(ステップS256)で生成された修正版クレーム情報の各々に基づいて、クレームツリー及び修正版クレームツリーを生成し(ステップS261)、クレーム情報及び包含関係情報に基づいて構成クレームツリーを生成し(ステップS262)、修正版クレーム情報及び包含関係情報に基づいて修正版構成クレームツリーを生成し(ステップS263)、表示用文書としての特許出願関連情報における、その生成した各種クレームツリー中の引用関係の表現用の記号及び重要語句の各々の表示要素に、その表示要素を強調表示するため、或いは、その表示要素を操作対応GUI要素とする等のために、表示制御情報を付加する(ステップS264)。なお、図54の例は、一例にすぎず、クレームツリー生成部205cは、クレームツリー等生成処理として、図54に示す一部のステップを省略又は変更した処理を実行してもよいし、図54に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図54に示す複数のステップの実行順序を変更して実行してもよいし、図54に示す複数のステップの全部又は一部を並列に実行してもよい。
明細書情報等生成処理(ステップS27)では、明細書情報生成部205bが、例えば、明細書情報、明細書見出しリスト、符号リスト、及び、修正版明細書情報を生成する。
図55は、明細書情報等生成処理(ステップS27)の一例を示すフローチャートである。明細書情報等生成処理(ステップS27)として、明細書情報生成部205bは、例えば、ステップS14で取得された発明文書の明細書に基づいて明細書を表す明細書情報を生成する明細書情報生成処理を行い(ステップS271)、明細書情報の見出しを抽出して明細書見出しリストを生成する明細書見出しリスト生成処理を行い(ステップS272)、明細書情報に記載された重要語句に付加されている符号をソートして列挙した符号リストを生成する符号リスト生成処理を行い(ステップS273)、警告情報生成処理(ステップS24)で生成された警告情報中の指摘情報に対応して明細書情報の内容における不適切な記載を修正等することで修正版明細書情報を生成する修正版明細書情報生成処理を行う(ステップS274)。なお、図55の例は、一例にすぎず、明細書情報生成部205bは、明細書情報等生成処理として、図55に示す一部のステップを省略又は変更した処理を実行してもよいし、図55に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図55に示す複数のステップの実行順序を変更して実行してもよいし、図55に示す複数のステップの全部又は一部を並列に実行してもよい。
各種翻訳情報の生成処理(ステップS28)では、翻訳部2054が、例えば、クレーム情報、修正版クレーム情報、明細書情報、及び、修正版明細書情報の各々に対応して、その情報の内容の少なくとも一部の翻訳結果を含む、クレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、及び、修正版明細書翻訳情報を生成する。
図56は、各種翻訳情報の生成処理(ステップS28)の一例を示すフローチャートである。各種翻訳情報の生成処理(ステップS28)として、翻訳部2054は、例えば、クレーム情報等(つまりクレーム情報、修正版クレーム情報、明細書情報、及び、修正版明細書情報)の項又は行と、その項又は行について、過去に発明文書分析システム20により生成された重要語句翻訳用学習モデルを利用して重要語句の機械翻訳を実行した部分翻訳行とを、交互に含むクレーム翻訳情報等(つまりクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、及び、修正版明細書翻訳情報)を生成し(ステップS281)、クレーム翻訳情報等の部分翻訳行について、過去に発明文書分析システム20により生成された翻訳用学習モデルを利用した機械翻訳、或いは、他の機械翻訳プログラム等を利用した機械翻訳を実行した結果である完全翻訳行を生成し(ステップS282)、クレーム翻訳情報等の部分翻訳行を完全翻訳行に置換又は部分翻訳行に完全翻訳行を追加し(ステップS283)、表示用文書としての特許出願関連情報のクレーム翻訳情報等における各重要語句に対応する対応翻訳語の表示要素に、元の重要語句の表示要素と共通性を有する表示態様で表示するための表示制御情報を付加し(ステップS284)、そのクレーム翻訳情報等における各重要語句に対応する対応翻訳語の表示要素に、元の重要語句に係るGUIの機能を含みその重要語句に対する翻訳語候補集合を表示する操作対応GUI要素とするための表示制御情報を付加する(ステップS285)。なお、図56の例は、一例にすぎず、翻訳部2054は、各種翻訳情報の生成処理として、図56に示す一部のステップを省略又は変更した処理を実行してもよいし、図56に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図56に示す複数のステップの実行順序を変更して実行してもよいし、図56に示す複数のステップの全部又は一部を並列に実行してもよい。
重要語句リスト等生成処理(ステップS29)では、翻訳部2054が、例えば、重要語句リスト、図面符号リスト、及び、重要語句関係翻訳情報を生成する。
図57は、重要語句リスト等生成処理(ステップS29)の一例を示すフローチャートである。重要語句リスト等生成処理(ステップS29)として、翻訳部2054は、例えば、ステップS14で取得された発明文書から重要語句抽出処理(ステップS17)で抽出された各重要語句について、その重要語句と、翻訳語候補集合、或いは、対応翻訳語とを、対応付けて構成される重要語句リストを生成する重要語句リスト生成処理を実行し(ステップS291)、表示用文書としての特許出願関連情報における重要語句リスト中の重要語句、対応翻訳語、及び、翻訳語候補集合の各々の表示要素について表示態様の制御等のための表示制御情報を付加し(ステップS292)、ステップS15で取得された図面文書の内容と発明文書から重要語句抽出処理(ステップS17)で抽出された各重要語句についてステップS19で特定された属性情報の「符号」の項目等に基づいて、図面符号リストを生成する図面符号リスト生成処理を実行し(ステップS293)、表示用文書としての特許出願関連情報における図面符号リスト中の図面番号、重要語句、対応翻訳語、翻訳語候補集合、及び、符号の各々の表示要素について表示態様の制御等のための表示制御情報を付加し(ステップS294)、ステップS186で生成された重要語句関係情報における重要語句を、その重要語句について対応する対応翻訳語又は翻訳語候補集合に置換した重要語句関係翻訳情報を生成する(ステップS295)。なお、図57の例は、一例にすぎず、翻訳部2054は、重要語句リスト等生成処理として、図57に示す一部のステップを省略又は変更した処理を実行してもよいし、図57に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図57に示す複数のステップの実行順序を変更して実行してもよいし、図57に示す複数のステップの全部又は一部を並列に実行してもよい。
特許出願関連情報の生成処理(ステップS30)では、特許出願関連情報出力部2082が、例えば、ステップS14で取得され分析部205の分析対象となった発明文書の各行へ行番号を追加した情報と、要素間関係判別処理(ステップS18)で生成された重要語句関係情報と、技術分野の特定処理(ステップS22)で特定された技術分野を示す技術分野情報と、警告情報生成処理(ステップS24)で生成された警告情報と、クレーム情報等生成処理(ステップS25)で生成されたクレーム情報、クレームベース図面情報、クレームベース明細書情報、クレームベース要約書情報、及び、修正版クレーム情報と、クレームツリー等生成処理(ステップS26)で生成されたクレームツリー、修正版クレームツリー、構成クレームツリー、及び、修正版構成クレームツリーと、明細書情報等生成処理(ステップS27)で生成された明細書情報、明細書見出しリスト、符号リスト、及び、修正版明細書情報と、各種翻訳情報の生成処理(ステップS28)で生成されたクレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、及び、修正版明細書翻訳情報と、重要語句リスト等生成処理(ステップS29)で生成された重要語句リスト、図面符号リスト、及び、重要語句関係翻訳情報と、発明文書等に基づいて分析部205により生成された料金情報、及び、集計情報とを、含ませることで特許出願関連情報(図15参照)を生成する。
表示用文書の生成処理(ステップS31)では、分析部205により生成された、表示用文書としての特許出願関連情報の一部となった各情報を統合して、表示用文書(例えばHTML文書)を生成する。
特許出願関連情報の出力処理(ステップS32)では、例えば、表示部2084が、表示用文書の生成処理(ステップS31)で生成された表示用文書としての特許出願関連情報を表示することで、特許出願関連情報を出力し、或いは、特許出願関連情報出力部2082が、表示用文書の生成処理(ステップS31)で生成された特許出願関連情報に係る表示用文書を1つ又は複数のファイルとして出力し、或いは、特許出願関連情報出力部2082が、特許出願関連情報の生成処理(ステップS30)で生成された特許出願関連情報を、テキストファイルその他のファイルとして出力する。
[3−3.実施形態2に係る重要語句翻訳用学習モデル生成処理例]
発明文書分析システム20は、発明文書における重要語句についての機械翻訳のための重要語句翻訳用学習モデルを生成する重要語句翻訳用学習モデル生成処理を実行し得る。以下、重要語句翻訳用学習モデル生成処理の一例について説明する。
図58は、重要語句翻訳用学習モデル生成処理の一例を示すフローチャートである。
発明文書分析システム20は、重要語句翻訳用学習モデル生成処理として、例えば、図58に示すように、設定情報の取得処理(ステップS11)と、重要語句設定辞書の取得(ステップS12)と、翻訳用発明文書標準規定の取得(ステップS13)と、発明文書の取得(ステップS14)と、図面文書の取得(ステップS15)と、クレームに係る引用関係分析処理(ステップS16)と、重要語句抽出処理(ステップS17)と、要素間関係判別処理(ステップS18)と、各重要語句の属性情報の特定(ステップS19)と、各重要語句の重要度の決定処理(ステップS20)と、翻訳語候補集合の特定処理(ステップS21)と、技術分野の特定処理(ステップS22)と、重要語句の表示色の決定処理(ステップS23)と、警告情報生成処理(ステップS24)と、警告情報生成処理(ステップS24)で生成される警告情報における発明文書評価情報に基づく評価値に係る評価(ステップS51)とを実行し、例えば、ステップS51での評価において不適正な場合(つまり評価値が閾値を超えない場合)にはステップS14に戻って別の発明文書の取得を行う。ステップS51での評価において適正な場合(つまり評価値が閾値を超える場合)には、発明文書分析システム20は、特許出願関連情報の生成処理(ステップS52)と、表示用文書の生成処理(ステップS53)と、発明文書のグループ分類(ステップS54)と、特許出願関連情報の表示(ステップS55)と、翻訳語候補集合要素の選択受付け(ステップS56)と、重要語句と選択結果とを教師データとして蓄積(ステップS57)と、重要語句翻訳用学習モデルの生成(ステップS58)と、重要語句翻訳用学習モデルの出力(ステップS59)とを実行する。なお、図58の例は、一例にすぎず、発明文書分析システム20は、重要語句翻訳用学習モデル生成処理として、図58に示す一部のステップを省略又は変更した処理を実行してもよいし、図58に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図58に示す複数のステップの実行順序を変更して実行してもよいし、図58に示す複数のステップの全部又は一部を並列に実行してもよい。発明文書分析システム20は、例えば、図58におけるステップS56及びステップS57での処理を、ユーザの操作に応じて、複数回繰り返し得る。また、発明文書分析システム20は、図58におけるステップS14〜S57での処理をある程度の回数又は期間、繰り返し実行した後に、ステップS58及びステップS59での処理を、実行することとしてもよい。
図58の例におけるステップS11〜ステップS24での処理は、図40の例に即して上述した発明文書分析処理におけるステップS11〜ステップS24での処理と同様である。
ステップS51での、警告情報生成処理(ステップS24)で生成される警告情報における発明文書評価情報に基づく評価値に係る評価では、機械学習部207の文書評価部2071が、ステップS14で取得された発明文書について、発明文書評価情報が含む評価値が閾値を超えるか否かに基づいて、その発明文書が重要語句翻訳用学習モデルの生成に利用できる程度に適正か否かを評価する。
図58の例における特許出願関連情報の生成(ステップS52)は、図40の例に即して上述した発明文書分析処理におけるステップS25〜ステップS29での処理を経て実行されるステップS30での処理と同様である。
図58の例における表示用文書の生成処理(ステップS53)は、図40の例に即して上述した発明文書分析処理におけるステップS31での処理と同様である。
発明文書のグループ分類(ステップS54)では、分類部2053が、ステップS14で現在取得している発明文書について重要語句抽出処理(ステップS17)で抽出された重要語句群と、複数の発明文書各々から抽出された重要語句群との間の相関性等に基づいてグループ分類を行い、ステップS14で現在取得している発明文書が属するグループを特定し、或いは、ユーザ(例えば翻訳者)等によるグループの指定に応じてその発明文書が属するグループを特定する。なお、ステップS54でのグループ分類により発明文書について特定されるグループは、例えば、技術分野であってもよい。
特許出願関連情報の表示(ステップS55)では、ブラウザ機能を有する表示部2084が、表示用文書(例えばHTML文書)としての特許出願関連情報について、表示用文書を解釈して、表示装置に、特許出願関連情報を表示する(図17参照)。
翻訳語候補集合要素の選択受付け(ステップS56)では、操作受付部20841が、ステップS55で表示された特許出願関連情報において重要語句と対応付けられた翻訳語候補集合の1つの要素についてのユーザ(例えば翻訳者)による選択の操作を受け付ける。例えば、各重要語句について翻訳語候補集合からの要素の選択の操作が受け付けられる毎に、ステップS57での処理が実行され得る。
重要語句と選択結果とを教師データとして蓄積(ステップS57)では、機械学習部207の教師データ蓄積部2072が、重要語句と、その重要語句に対応する翻訳語候補集合からのステップS56で受け付けられた操作により選択された要素(つまりその重要語句に対応する対応翻訳語)との組を、重要語句翻訳用学習モデル生成のための機械学習用の教師データとして、記録媒体等に、蓄積する。なお、教師データ蓄積部2072は、ステップS54で特定された発明文書が属するグループと対応付けて教師データを蓄積してもよい。また、教師データ蓄積部2072は、例えば、ステップS12で取得された重要語句設定辞書における、対応翻訳語が付記された重要語句とその対応翻訳語との組を、重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして、記録媒体等に蓄積してもよい。
重要語句翻訳用学習モデルの生成(ステップS58)では、機械学習部207が、教師データ蓄積部2072により記録媒体等に蓄積された、重要語句翻訳用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、重要語句の機械翻訳のための重要語句翻訳用学習モデルを生成する。教師データ蓄積部2072により、重要語句翻訳用学習モデルの生成のための機械学習用の複数の教師データがグループと対応付けて記録媒体等に蓄積されている場合においては、機械学習部207は、教師データ蓄積部2072に蓄積された、グループ毎の重要語句翻訳用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、グループ毎に、重要語句の機械翻訳のための重要語句翻訳用学習モデルを生成する。例えば、グループが発明者の所属部門別に分類されているような場合において、重要語句「受信部」と対応翻訳語「receiving unit」との組、重要語句「制御部」と対応翻訳語「controlling unit」との組、重要語句「送信部」と対応翻訳語「transmitting unit」との組等を教師データとして機械学習により生成された重要語句翻訳用学習モデルには、そのグループである部門の翻訳方針等が反映されている可能性があり、その重要語句翻訳用学習モデルを用いた演算処理により重要語句「処理部」を入力として機械翻訳すると、例えば「processing unit」という機械翻訳結果が生成されることが予測され得る。また、別の翻訳方針等を有する別部門に係るグループに対応して、重要語句「受信部」と対応翻訳語「receiving circuit」との組、重要語句「制御部」と対応翻訳語「controlling circuit」との組、重要語句「送信部」と対応翻訳語「transmitting circuit」との組等を教師データとして機械学習により生成された重要語句翻訳用学習モデルにはそのグループの翻訳方針等が反映されている可能性があり、その重要語句翻訳用学習モデルを用いた演算処理により重要語句「処理部」を入力として機械翻訳すると、例えば「processing circuit」という機械翻訳結果が生成されることが予測され得る。また、更に別の翻訳方針等を有する別部門に係るグループに対応して、重要語句「受信部」と対応翻訳語「receiver」との組、重要語句「制御部」と対応翻訳語「controller」との組、重要語句「送信部」と対応翻訳語「transmitter」との組等を教師データとして機械学習により生成された重要語句翻訳用学習モデルにはそのグループの翻訳方針等が反映されている可能性があり、その重要語句翻訳用学習モデルを用いた演算処理により重要語句「処理部」を入力として機械翻訳すると、例えば「processor」という機械翻訳結果が生成されることが予測され得る。機械学習部207は、その生成した重要語句翻訳用学習モデルを、学習モデル管理部2073により、記録媒体等に保持して管理する。生成された重要語句翻訳用学習モデルは、発明文書分析システム20が発明文書分析処理(図40参照)において、翻訳語候補集合の特定処理(ステップS21)を実行する際に重要語句についての翻訳語候補集合の要素を決めるために、或いは、各種翻訳情報の生成処理(ステップS28)を実行する際等に重要語句を機械翻訳するために、利用され得る。
重要語句翻訳用学習モデルの出力(ステップS59)では、学習モデル出力部2081が、学習モデル管理部2073により保持されている重要語句翻訳用学習モデルを、例えばユーザの指定に応じたファイルの内容として出力する。出力された重要語句翻訳用学習モデルは、別の発明文書分析システム20が発明文書分析処理(図40参照)において、各種翻訳情報の生成処理(ステップS28)を実行する際等に、重要語句を機械翻訳するために、利用され得るし、発明文書における重要語句を一旦機械翻訳した後にその結果を利用して発明文書全体を機械翻訳するような発明文書の翻訳用の機械翻訳システム若しくは機械翻訳用のプログラム、又は、一般的な機械翻訳システム等において利用され得る。
[3−4.実施形態2に係る翻訳用学習モデル生成処理例]
発明文書分析システム20は、発明文書の機械翻訳のための翻訳用学習モデルを生成する翻訳用学習モデル生成処理を実行し得る。以下、翻訳用学習モデル生成処理の一例について説明する。
図59は、翻訳用学習モデル生成処理の一例を示すフローチャートである。
発明文書分析システム20は、翻訳用学習モデル生成処理として、例えば、図59に示すように、設定情報の取得処理(ステップS11)と、重要語句設定辞書の取得(ステップS12)と、翻訳用発明文書標準規定の取得(ステップS13)と、発明文書の取得(ステップS14)と、図面文書の取得(ステップS15)と、クレームに係る引用関係分析処理(ステップS16)と、重要語句抽出処理(ステップS17)と、要素間関係判別処理(ステップS18)と、各重要語句の属性情報の特定(ステップS19)と、各重要語句の重要度の決定処理(ステップS20)と、警告情報生成処理(ステップS24)と、警告情報生成処理(ステップS24)で生成される警告情報における発明文書評価情報に基づく評価値に係る評価(ステップS51)とを実行し、例えば、ステップS51での評価において不適正な場合(つまり評価値が閾値を超えない場合)にはステップS14に戻って別の発明文書の取得を行う。ステップS51での評価において適正な場合(つまり評価値が閾値を超える場合)には、発明文書分析システム20は、修正版発明文書の生成(ステップS61)と、翻訳結果文書の取得(ステップS62)と、発明文書のグループ分類(ステップS63)と、修正版発明文書と翻訳結果文書とを教師データとして蓄積(ステップS64)と、翻訳用学習モデルの生成(ステップS65)と、翻訳用学習モデルの出力(ステップS66)とを実行する。なお、図59の例は、一例にすぎず、発明文書分析システム20は、翻訳用学習モデル生成処理として、図59に示す一部のステップを省略又は変更した処理を実行してもよいし、図59に示す複数のステップに更に幾つかの処理のステップを追加して実行してもよいし、図59に示す複数のステップの実行順序を変更して実行してもよいし、図59に示す複数のステップの全部又は一部を並列に実行してもよい。発明文書分析システム20は、例えば、図59におけるステップS14〜ステップS64での処理をある程度の回数又は期間、繰り返し実行した後に、ステップS65及びステップS66での処理を、実行することとしてもよい。
図59の例におけるステップS11〜ステップS20及びステップS24は、図40の例に即して上述した発明文書分析処理におけるステップS11〜ステップS20及びステップS24と同様である。図59の例におけるステップS63での処理は、図58の例におけるステップS54での処理と同様である。
ステップS51での、警告情報生成処理(ステップS24)で生成される警告情報における発明文書評価情報に基づく評価値に係る評価では、機械学習部207の文書評価部2071が、ステップS14で取得された発明文書について、発明文書評価情報が含む評価値が閾値を超えるか否かに基づいて、その発明文書が重要語句翻訳用学習モデルの生成に利用できる程度に適正か否かを評価する。
修正版発明文書の生成(ステップS61)では、機械学習部207が、クレーム情報生成部205aが生成した修正版クレーム情報と、明細書情報生成部205bが生成した修正版明細書情報とを統合することで修正版発明文書を生成する。修正版発明文書は、ステップS51で発明文書評価情報が含む評価値が閾値を超えた発明文書に基づいて生成されることになるが、予め定められた閾値次第では、その発明文書より、修正版発明文書の内容の方が、翻訳結果文書との整合性が高い可能性があるので、修正版発明文書を生成する。
翻訳結果文書の取得(ステップS62)では、翻訳結果文書取得部2023が、ユーザ(例えば翻訳者)から指定を受ける等により、ステップS14で現在取得されている発明文書に対応した翻訳結果である翻訳結果文書を取得する。
修正版発明文書と翻訳結果文書とを教師データとして蓄積(ステップS64)では、機械学習部207の教師データ蓄積部2072が、ステップS61で生成された修正版発明文書と、ステップS62で取得された翻訳結果文書との組を、翻訳用学習モデル生成のための機械学習用の教師データとして、記録媒体等に、蓄積する。教師データ蓄積部2072は、ステップS63で特定された発明文書が属するグループと対応付けて教師データを蓄積してもよい。教師データ蓄積部2072は、ステップS61で生成された修正版発明文書が、クレーム情報生成部205aが生成した修正版クレーム情報における複数のクレームセットを有する場合には、修正版発明文書における複数のクレームセットのうち、翻訳結果文書との整合性の高い1つのクレームセット以外の全てのクレームセットを修正版発明文書から除去した上で、修正版発明文書と翻訳結果文書との組を翻訳用学習モデル生成のための機械学習用の教師データとして、記録媒体等に、蓄積する。修正版発明文書における複数のクレームセットのうち、翻訳結果文書との整合性の高い1つのクレームセットを特定する具体的方法の一例としては、翻訳結果文書のクレームの記載との間で、クレームの項数の同一性と、クレームの各項の記載中の各引用項の項番の同一性と、クレームの各項において丸括弧内に符号が含まれる記載が含まれるか否かについての同一性とが、例えばその同一性の各項目の全てが同一である等のように、総合的に最も高い、修正版発明文書におけるクレームセットを、整合性の高いクレームセットとして特定する例が、挙げられる。なお、教師データ蓄積部2072は、修正版発明文書における符号の記載を除去したものと翻訳結果文書における符号の記載を除去したものとの組を翻訳用学習モデル生成のための機械学習用の教師データとして、記録媒体等に、蓄積することとしてもよい。また、教師データ蓄積部2072は、修正版発明文書における文毎に、その文と、その文に対応する翻訳結果文書における文との組を翻訳用学習モデル生成のための機械学習用の教師データとして、記録媒体等に、蓄積することとしてもよい。
翻訳用学習モデルの生成(ステップS65)では、機械学習部207が、教師データ蓄積部2072により記録媒体等に蓄積された、翻訳用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、発明文書の機械翻訳のための翻訳用学習モデルを生成する。教師データ蓄積部2072により、翻訳用学習モデルの生成のための機械学習用の複数の教師データがグループと対応付けて記録媒体等に蓄積されている場合においては、機械学習部207は、教師データ蓄積部2072に蓄積された、グループ毎の翻訳用学習モデルの生成のための機械学習用の複数の教師データを用いた機械学習により、グループ毎に、発明文書の機械翻訳のための翻訳用学習モデルを生成する。機械学習部207は、その生成した翻訳用学習モデルを、学習モデル管理部2073により、記録媒体等に保持して管理する。生成された翻訳用学習モデルは、発明文書分析システム20が発明文書分析処理(図40参照)において、各種翻訳情報の生成処理(ステップS28)を実行する際等に、発明文書に係るクレーム情報、明細書情報等を機械翻訳するために、利用され得る。
翻訳用学習モデルの出力(ステップS66)では、学習モデル出力部2081が、学習モデル管理部2073により保持されている翻訳用学習モデルを、例えばユーザの指定に応じたファイルの内容として出力する。出力された翻訳用学習モデルは、別の発明文書分析システム20が発明文書分析処理(図40参照)において、各種翻訳情報の生成処理(ステップS28)を実行する際等に、発明文書に係るクレーム情報、明細書情報等を機械翻訳するために、利用され得るし、発明文書の翻訳用の機械翻訳システム若しくは機械翻訳用のプログラム、又は、一般的な機械翻訳システム等において利用され得る。
[3−5.実施形態2に係る発明文書分析システムの効果]
発明文書分析システム20は、実施形態1で示した発明文書分析システム10の一部を変形したものであるので、上述した発明文書分析システム10の効果の多くを発揮し得る。
発明文書分析システム20は、分析部205により、設定情報に基づいて、重要語句抽出部2051で発明者等又は弁理士により作成された発明文書から重要語句を抽出して各重要語句に基づく各種分析を行い、分析結果として生成された各種情報を含む特許出願関連情報を、出力部208により出力するので、翻訳者等にとっては、特許出願関連情報を参照することにより、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。
発明文書分析システム20において発明文書の分析結果に基づいて生成される特許出願関連情報は、例えば、表示用文書生成部2083等により、見出し、コメント、重要語句、符号等の強調表示、操作に応じて重要語句等に基づく各種検索又は翻訳語候補集合からの対応翻訳語の選択等を行うGUI要素の表示等を実現する表示制御情報が付加された、HTML文書等の表示用文書として出力部208に出力されるので、翻訳者等にとっては、ブラウザ機能を有する各種の端末装置において、特許出願関連情報を閲覧でき、重要語句等の強調表示、重要語句等に係るGUI要素の操作等により、発明文書の迅速な理解が可能となり得るし、重要語句に対応する対応翻訳語の決定を効率的に行い得る。また、発明文書分析システム20において発明文書の分析結果に基づいて生成される表示用文書(例えばHTML文書)としての特許出願関連情報は、表示部2084により表示されるので、翻訳者等にとっては、特許出願関連情報を閲覧でき、重要語句等の強調表示、重要語句等に係るGUI要素の操作等により、発明文書の迅速な理解が可能となり得るし、重要語句に対応する対応翻訳語の決定を効率的に行い得る。なお、ブラウザ等により表示された特許出願関連情報の内容は、コピー&ペーストの対象となり得るので、翻訳者等は、必要な内容をコピー&ペーストすることで、その内容をペースト先となる、テキストエディタ等の文書作成編集機能を有するアプリケーションプログラムで、編集することができる。
発明文書分析システム20は、例えば、発明文書の分析結果に基づいて生成される特許出願関連情報をHTML文書(例えばHTMLファイル、及び、HTMLファイルで指定されたファイル等)として出力する。これにより、HTMLに対応した各種ブラウザにより特許出願関連情報の閲覧が可能となるので、発明者等又は弁理士から、HTML文書としての特許出願関連情報の提供を受けた翻訳者等は、特別なシステム、特別なアプリケーションプログラム等を有さなくても、ブラウザ機能を有する端末装置(例えばアプリケーションプログラムとしてのブラウザを実行するPC)により、特許出願関連情報を閲覧し得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成される表示用文書(例えばHTML文書)としての特許出願関連情報では、例えば、発明文書におけるクレームを表すクレーム情報、発明文書における明細書を表す明細書情報等に記載された各重要語句が、クレームに記載されている重要語句か否か識別する表示態様(例えば表示色)で表示され、内容が相違する重要語句間では相違する色となる左境界線等が付されて表示されるので、翻訳者等にとっては、各重要語句を迅速に把握することが可能となり得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成されて出力される特許出願関連情報は、例えば、警告情報を含み、警告情報は、発明文書が翻訳用発明文書標準規定に適合していない等の不適切な記載を含む場合にその旨を指摘する指摘情報を含み、また、発明文書の翻訳用発明文書標準規定への適合性に係る評価値を含む発明文書評価情報を含むので、発明文書を作成した発明者等又は弁理士にとっては、警告情報を参照することで、翻訳し易い発明文書となるように発明文書を修正することが可能となり得る。また、例えば、発明者等又は弁理士から、発明文書と特許出願関連情報とを受領して翻訳を依頼される翻訳者にとっては、適切な発明文書が提供されることが期待でき、発明文書を適正又は効率的に翻訳することが可能となり得る。また、例えば、翻訳者が発明文書分析システム20を有する場合においては、発明者等又は弁理士から、発明文書と、設定情報と、重要語句設定辞書と、図面文書との提供を受けて利用することで、発明文書分析システム20により、特許出願関連情報を出力させて、特許出願関連情報を参照することで、発明文書を適正又は効率的に翻訳することが可能となり得る。発明文書分析システム20を翻訳者が利用することを前提とする場合、或いは、特許出願関連情報が翻訳者に提供されることを前提とする場合において、発明文書を受け取り翻訳する翻訳者は、特許出願関連情報を閲覧することで、発明文書を適正又は効率的に翻訳することが可能となり得るし、特許出願関連情報中の警告情報を確認することで、発明者等又は弁理士がその警告情報を無視できると判断していることを知ることが可能となり得る。発明者等又は弁理士は、必要に応じて発明文書における重要語句についての対応翻訳語を指定する情報(例えば重要語句設定辞書)を、翻訳者に提供することができ、翻訳者は、この重要語句についての対応翻訳語に係る情報を参照することで、重要語句を適切又は効率的に翻訳することが可能となり得る。なお、発明者等又は弁理士は、発明文書における重要語句についての対応翻訳語を指定する情報を、発明文書を発明文書分析システム20で分析させた結果として出力される特許出願関連情報における重要語句リスト(例えば重要語句と翻訳語候補集合との組が列挙されたリスト)を参照、編集等することで、比較的容易に生成することが可能となる。また、翻訳者等は、ブラウザ等で表示された表示用文書としての特許出願関連情報を閲覧し、特許出願関連情報中で、操作対応GUI要素として表示された重要語句等に対して操作することで、その特許出願関連情報の基礎となった発明文書に関連する他の1つ又は複数の発明文書における重要語句等の記載内容、或いは、他の1つ又は複数の発明文書における翻訳補助情報等を確認し得るし、その特許出願関連情報の基礎となった発明文書に対応する図面文書における重要語句等に関連する部分を確認し得るし、検索サイト等で表示される重要語句等の定義、翻訳語句等を確認し得る。これにより、翻訳者等は、発明文書の重要語句等について十分把握して適切又は効率的に翻訳し得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成される表示用文書としての特許出願関連情報は、例えば、重要語句等が強調表示された、クレーム情報、修正版クレーム情報、明細書情報、明細書見出しリスト、修正版明細書情報、クレームツリー、修正版クレームツリー、構成クレームツリー、及び、修正版構成クレームツリーを含むので、特許出願関連情報を閲覧する翻訳者等にとっては、発明文書の内容を迅速に把握することが可能となり得る。発明者等又は弁理士は、例えば、特許出願関連情報における明細書見出しリストを閲覧することで、発明文書の明細書の見出しが適切か否かの判断等が容易となり得る。発明者等又は弁理士は、例えば、設定情報に、クレームを生成すべき出願先となり得る地域(例えば米国)を指定する情報等を定めておき、発明文書分析システム20が出力した特許出願関連情報における修正版クレームツリー或いは修正版構成クレームツリーを参照して修正版クレーム情報を採用するようにといった簡潔な連絡を翻訳者に対して行うことで、翻訳者は、例えば米国出願用の翻訳のために、発明文書のクレームの各項における引用項の記載をどのように修正すればよいかを、修正版クレーム情報、修正版クレームツリー或いは修正版構成クレームツリーに基づいて、明確に把握することが可能となり得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成されて出力される特許出願関連情報は、例えば、重要語句リスト、重要語句関係情報(例えば、包含関係情報、記録関係情報、プログラム実現関係情報、等価関係情報、及び、上下概念関係情報)、及び、重要語句関係翻訳情報(例えば、包含関係翻訳情報、記録関係翻訳情報、プログラム実現関係翻訳情報、等価関係翻訳情報、及び、上下概念関係翻訳情報)を含むので、翻訳者等にとっては、重要語句に対応する対応翻訳語の決定を適正又は効率的に行うことが可能となり得る。発明文書分析システム20において発明文書の分析結果に基づいて生成される表示用文書としての特許出願関連情報は、例えば、重要語句に翻訳語候補集合を対応付けた重要語句リストを含み、翻訳語候補集合の表示要素に、操作に応じて翻訳語候補集合から1つの要素を対応翻訳語として決定するためのGUI機能を持たせる表示制御情報が付加されているので、翻訳者等にとっては、ブラウザ等により表示された翻訳語候補集合の要素の選択操作により、重要語句に対応する対応翻訳語の決定を効率的に行うことが可能となり得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成されて出力される特許出願関連情報は、例えば、符号リスト及び図面符号リストを含むので、翻訳者等にとっては、符号に対応する重要語句を効率的に把握し、符号に対応する図面の内容を効率的に参照することが可能となり得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成される特許出願関連情報は、例えば、クレーム翻訳情報、修正版クレーム翻訳情報、明細書翻訳情報、修正版明細書翻訳情報を含むので、翻訳者にとっては、これらの情報を参照することで、発明文書の翻訳を適正又は効率的に行うことが可能となり得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成されて出力される特許出願関連情報は、例えば、クレームベース図面情報、クレームベース明細書情報、及び、クレームベース要約書情報を含ませ得る。これにより、例えば、クレームを含み明細書を含まない発明文書を作成して発明文書分析システム20に分析させた発明者等又は弁理士は、クレームベース図面情報、クレームベース明細書情報、及び、クレームベース要約書情報を、参照して、修正等して利用することにより、図面文書、及び、クレーム、明細書等を含む発明文書を、効率的に生成することが可能となり得る。例えば、発明者等又は弁理士は、クレームベース明細書情報において所定の様式で記載された記載支援用未完成メッセージ部分を修正することで、発明文書における明細書の生成を効率的に行える可能性がある。発明者等又は弁理士は、クレームベース図面情報、クレームベース明細書情報、及び、クレームベース要約書情報を参照して生成した発明文書を、発明文書分析システム20に分析させることにより、出力される特許出願関連情報を参照して、その発明文書を、より適切に、修正することが可能となり得る。
発明文書分析システム20において発明文書の分析結果に基づいて生成されて出力される特許出願関連情報は、例えば、技術分野情報、料金情報、及び、集計情報を含むので、発明者等又は弁理士は、その特許出願関連情報を参照することで、必要に応じて、発明文書を修正し得る。
発明文書分析システム20は、例えば、取得した翻訳用発明文書標準規定に基づいて発明文書について生成して出力する特許出願関連情報の警告情報に、その翻訳用発明文書標準規定を公開しているウェブサイトのネットワークアドレス等の、翻訳用発明文書標準規定にアクセスするために必要な規定アクセス情報を含ませてもよい。これにより、翻訳者等は、警告情報中の規定アクセス情報を参照することで、翻訳用発明文書標準規定にアクセスしてその内容を閲覧することが可能になる。
発明文書分析システム20は、例えば、翻訳用発明文書標準規定の新しいバージョンが取得可能であれば取得し、取得した翻訳用発明文書標準規定に基づいて、発明文書について生成して出力する特許出願関連情報の警告情報には、例えば、利用した翻訳用発明文書標準規定のバージョンを示すバージョン情報を含ませる。これにより、翻訳用発明文書標準規定が時を経て洗練されて改定されることに対応でき、翻訳者等は、警告情報中の翻訳用発明文書標準規定のバージョン情報を参照することで、どのバージョンの翻訳用発明文書標準規定が利用されたかについて確認することが可能になる。
発明文書分析システム20は、例えば、発明文書が翻訳用発明文書標準規定の複数の項目各々に適合しているか否かに係る判定を行うための処理を担うプログラムモジュール、重要語句の抽出処理を担うプログラムモジュール等であるところの各プラグインモジュールを取得して利用し、プラグインモジュールのバージョン情報を管理して、新しいバージョンのプラグインモジュールが入手可能であれば取得して利用する。これにより、時を経て洗練された新しいプラグインモジュールが利用されるので、より適切に各種処理を実行することが可能となり得る。
発明文書分析システム20の機械学習部207により生成された各種学習モデルを出力する学習モデル出力部2081は、例えば技術分野特定用学習モデルを出力する。この技術分野特定用学習モデルを利用することにより、発明文書から抽出された重要語句群を入力として、予め定められた演算処理を行うことで、その発明文書が属する技術分野の特定が可能となり得る。
発明文書分析システム20の学習モデル出力部2081は、例えば機械学習部207により生成された重要語句翻訳用学習モデルを出力する。この重要語句翻訳用学習モデルを利用することにより、発明文書から抽出された各重要語句を入力として、予め定められた演算処理を行うことで、その重要語句の機械翻訳結果を得ることが可能となり得る。
発明文書分析システム20の学習モデル出力部2081は、例えば機械学習部207により生成された翻訳用学習モデルを出力する。この翻訳用学習モデルを利用することにより、発明文書を入力として、予め定められた演算処理を行うことで、その発明文書の機械翻訳結果を得ることが可能となり得る。
発明文書分析システム20は、例えば、複数の発明文書各々から重要語句抽出部2051により抽出した重要語句群間の相関性、或いは、ユーザによる指定等に基づいて、分類部2053により発明文書のグループ分類を実行し、機械学習部207によりグループ毎に、発明文書から抽出された重要語句と、対応する対応翻訳語との複数組を教師データとした機械学習により重要語句翻訳用学習モデルを生成する。これにより、発明文書が属するグループに適合した重要語句翻訳用学習モデルを利用した演算処理により発明文書における各重要語句を機械翻訳することが可能となり得る。また、発明文書分析システム20が、例えば、発明文書が属するグループに適合した重要語句翻訳用学習モデルを利用した演算処理により発明文書から抽出された重要語句を機械翻訳して、重要語句と、その機械翻訳結果を含む翻訳語候補集合との組を列挙した重要語句リストを含む特許出願関連情報を出力することとしてもよい。この重要語句リストを参照することで、翻訳者は、発明文書の重要語句を効率的に又は適正に翻訳することが可能となり得る。発明文書分析システム20は、グループ分類を行わずに重要語句翻訳用学習モデルを生成してもよい。グループ分類されていない重要語句翻訳用学習モデルを利用しても、発明文書における重要語句の適切な機械翻訳が実現される可能性はある。
発明文書分析システム20は、例えば、複数の発明文書各々から重要語句抽出部2051により抽出した重要語句群間の相関性、或いは、ユーザによる指定等に基づいて、分類部2053により発明文書のグループ分類を実行し、機械学習部207によりグループ毎に、発明文書と、対応する翻訳結果文書との組を教師データとした機械学習により翻訳用学習モデルを生成する。これにより、例えば機械翻訳システム等において、グループ毎の翻訳用学習モデルのうち、発明文書が属するグループに適合した翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。また、発明文書分析システム20が、例えば、グループ毎の翻訳用学習モデルのうち、発明文書が属するグループに適合した翻訳用学習モデルを利用した演算処理により発明文書の少なくとも一部を機械翻訳して、その機械翻訳結果を含む特許出願関連情報を出力することとしてもよい。このような発明文書の機械翻訳結果を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。発明文書分析システム20は、グループ分類を行わずに翻訳用学習モデルを生成してもよい。グループ分類されていない翻訳用学習モデルを利用しても、発明文書の適切な機械翻訳が実現される可能性はある。
発明文書分析システム20は、例えば、翻訳用学習モデル又は重要語句翻訳用学習モデルの生成のための機械学習用の教師データの蓄積のために用いる発明文書を、文書評価部2071による評価結果に応じて絞り込むので、これにより、適切な翻訳用学習モデル又は重要語句翻訳用学習モデルの生成が可能となり得る。適切な翻訳用学習モデル又は重要語句翻訳用学習モデルの生成が可能となることは、これらの学習モデルを用いた機械翻訳の精度の向上に有用となり得る。
発明文書分析システム20は、例えば、発明文書に基づいて生成した修正版発明文書と翻訳結果文書との組、或いは、その修正版発明文書の各文毎の、その文とその文に対応する翻訳結果文書の文との組を、機械学習用の教師データとしてもよく、これにより、より適切な翻訳用学習モデルが生成される可能性がある。発明文書分析システム20は、例えば、教師データに用いる発明文書と翻訳結果文書とから符号を除去して教師データとするので、これにより、発明文書における符号の付け忘れを翻訳時に修正して翻訳結果文書を作成したような場合に生じる両文書の内容の齟齬が抑制され、適切な翻訳用学習モデルの生成が可能となり得るし、その適切な翻訳用学習モデルを用いることは、機械翻訳の精度の向上に有用となり得る。
発明文書分析システム20は、例えば、マイクロプロセッサを備える機器に、図40に例示したような発明文書分析処理を実行させるための発明文書分析処理プログラムをインストールして構成される。発明文書分析システム20において発明文書分析処理プログラムが起動されると、発明文書分析処理が実行される。発明文書分析処理プログラムは、発明文書分析処理のために用いられるデータを包含し得る。翻訳者等にとっては、発明文書分析処理により出力された情報(例えば表示用文書としての特許出願関連情報)を参照することで、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。
(他の実施形態等)
以上のように、本開示における技術の例示として、実施形態1及び2で発明文書分析システム10、20等を説明した。しかしながら、本開示における技術は、これに限定されず、上述した実施形態1又は2に対して適宜、変更、置換、付加、省略等を行った実施形態としても具体化可能である。
上述の実施形態では、発明文書分析システム10、20が、設定情報、翻訳用発明文書標準規定、重要語句設定辞書、発明文書、図面文書、翻訳結果文書等を取得する例を示したが、このような各種の情報の取得は、如何なる方式で実現されてもよい。各種の情報の取得は、例えば、外部の通信可能な装置からの情報信号の受信により実現されてもよいし、メモリカード等の着脱自在な記録媒体から情報を読み出すことで実現されてもよいし、キーボード、マウス、音声入力装置その他の入力装置を介してユーザ(例えば発明者等、弁理士、翻訳者等)から入力される情報を取得することであってもよく、イメージセンサによる撮像を含む各種センサによるセンシング結果としての情報の取得であってもよい。また、上述の実施形態では、発明文書分析システム10、20が、表示用文書における操作対応GUI要素に対する操作を受け付ける例を示したが、このような操作の受付けは、如何なる方式で実現されてもよい。操作の受付けは、例えば、キーボード、ポインティングデバイス、タッチパッド、音声入力装置その他の入力装置を介してユーザ(例えば発明者等、弁理士、翻訳者等)から入力される何らかの情報を取得することであってもよく、イメージセンサによる撮像を含む各種センサによるセンシング結果としてユーザから得られる何らかの情報(例えば予め定められたジェスチャー)を取得することであってもよい。また、上述の実施形態で示したユーザは、必ずしも人間に限られることはなく、人間の一部の機能と同様な機能を有するロボット等であってもよい。
また、上述した発明文書分析システム10、20における上述した各部の機能分担は一例に過ぎず、任意に変更することができ、複数の部分を統合してもよい。また、発明文書分析システム10、20は、発明文書分析処理、各種の学習モデルの生成に係る処理等の一部を、発明文書分析システム10、20を構成する装置と通信可能な外部の装置に分担させてもよい。また、発明文書分析システム10、20における各部の全部又は一部の機能は、IC(Integrated Circuit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、LSI(Large Scale Integration)等の半導体装置により実現されてもよく、その半導体装置には、その各部の全部又は一部の機能を実現するプログラムを記録したメモリ及びマイクロプロセッサを含めてもよい。発明文書分析システム10、20における各種処理の全部又は一部は、専用の電子回路等のハードウェアにより実現されても、マイクロプロセッサ及びソフトウェア(例えばプログラム及びプログラムに用いられる情報)を用いて実現されてもよい。発明文書分析システム10、20の処理の全部又は一部を実現するためのプログラム(例えば発明文書分析処理プログラム)は、コンピュータが読み取り可能なROM、光ディスク、ハードディスク等の非一時的な記録媒体に記録して頒布、或いは、流通させられ得る。発明文書分析システム10、20の処理の全部又は一部を実現するためのプログラムが頒布された場合に、そのプログラムを、マイクロプロセッサを備える機器にインストールして、そのインストール先の装置のマイクロプロセッサに実行させることにより、その装置に、その処理の全部又は一部を行わせることが可能となる。なお、そのプログラムは、発明文書分析システム10、20が備える記録媒体に予め格納されていてもよいし、例えば、配信され、インターネット等を含む広域通信網等を介して、その記録媒体へ供給されてもよい。また、如何なる方式で処理を行うコンピュータであるかを問わず、コンピュータを、マイクロプロセッサを備える機器であると看做すこととしてもよい。また、発明文書分析処理プログラム等の、発明文書分析システム10、20の処理の全部又は一部を実現するためのプログラムは、如何なる言語で記述されたプログラムであってもよいし、インタープリタ、実行時コンパイラ(Just-In-Time Compiler)等を介して実行されるプログラムでもよいし、OS又は既存の各種の実行環境の上で動作するプログラムであってもよい。また、発明文書分析処理プログラムは、複数のプログラムで構成されてもよく、その複数のプログラムの各々は、複数のコンピュータ上に分散されていてもよく、複数の互いに異なる実行環境上で動作するものであってもよい。発明文書分析システム10、20の処理の全部又は一部を実現するために、互いに異なる言語で記述された複数のプログラムが、連携して動作してもよい。
また、上述した発明文書分析システム20は、重要語句抽出部2051により、発明文書のクレームから複数の重要語句を抽出し、抽出した複数の重要語句各々が表す要素間の構成上の包含関係に基づいて、その複数の重要語句の幾つかに対応する符号を決定する符号決定処理を実行し、抽出した複数の重要語句各々が表す要素間の各種関係(例えば重要語句関係情報で表される関係)に基づいて、図面番号で特定可能な各図面についてその図面に記載されるべき内容に関連する重要語句を決定する図面内容決定処理を実行し、発明文書のクレームから抽出された各重要語句と、符号決定処理と図面内容決定処理との結果とに基づいて、明細書に記載されるべき内容を決定する明細書内容決定処理と、明細書内容決定処理で決定された内容の明細書を出力する明細書内容出力処理とを実行することとしてもよい。発明文書分析システム20は、明細書内容決定処理では、発明文書のクレームにおいて請求対象とされた重要語句に基づいて、「発明の名称」の欄の内容となる発明名称文字列を生成し、符号決定処理と図面内容決定処理との結果に基づいて、図面番号順に各図に記載されるべき内容に関連する各重要語句について、その重要語句に符号を付して、その重要語句の属性(例えば図19に示す属性情報で表される属性)に応じてその重要語句について説明する文(例えば重要語句設定辞書において重要語句に付記されている文、或いは、記載支援用未完成メッセージを含む文)を、「発明を実施するための形態」の欄の内容として生成することとしてもよい。また、発明文書分析システム20は、重要語句抽出部2051により、発明文書から複数の重要語句を抽出し、抽出した複数の重要語句各々が表す要素間に、構成上の包含関係がある場合に、例えば要素間の包含関係を表す図等の、包含関係情報(図20参照)を出力することとしてもよい。また、発明文書分析システム20は、発明文書のクレームに基づいて、クレームの項間の引用関係を表現する線又は記号を含むクレームツリーを生成して、クレームの項間の引用関係を表現する線又は記号をGUI要素としてそのクレームツリーを表示し、GUI要素に対するユーザによる操作に応じて、そのGUI要素に係る線又は記号で表現されたクレームの項間の引用関係を切断した内容の、クレームの各項を含む修正版クレーム情報を生成し、修正版クレーム情報を出力することとしてもよい。また、発明文書分析システム20は、重要語句抽出部2051により、発明文書のクレームから複数の重要語句を抽出し、抽出した複数の重要語句各々を、相違する重要語句同士は相違する表示態様(例えば相違する色の、幅を有する左境界線を重要語句に付加した表示態様)のGUI要素として表示し、GUI要素に対するユーザによる操作に応じて、そのGUI要素に係る重要語句を含むその発明文書中の各行又は各文を列挙したリストを表示することとしてもよいし、そのGUI要素に対するユーザによる操作に応じて、そのGUI要素に係る重要語句を含む、その発明文書とは別の発明文書(例えばユーザに指定された発明文書)中の各行又は各文を列挙したリストを表示することとしてもよいし、そのGUI要素に係る重要語句についての重要語句管理情報(図18参照)に含まれている情報を表示することとしてもよい。また、発明文書分析システム20は、発明文書の明細書を表す明細書情報を表示し、明細書情報における符号をGUI要素として表示し、符号のGUI要素に対するユーザによる操作に応じて、そのGUI要素に係る符号を含む図面文書中のその符号が記載された図面又はその図面の図面番号を表示することとしてもよい。
また、上述した発明文書分析システム20は、翻訳結果文書取得部2023が、発明文書に基づく翻訳の結果として生成された翻訳結果文書を取得した場合に、翻訳結果文書を表す翻訳結果情報を、出力部208が出力するHTML文書等の表示用文書としての特許出願関連情報中に含ませてもよい。この場合においては、発明文書分析システム20は、その発明文書から重要語句抽出部2051により抽出された各重要語句について、その重要語句に対応する、その翻訳結果文書における翻訳語句を、重要語句翻訳モデルに基づく機械翻訳の結果、重要語句設定辞書、翻訳補助情報等に基づく演算処理、或いは、重要語句と同一符号が付されている記載を検索する処理等により、特定し、表示用文書の翻訳結果情報部分におけるその特定された翻訳語句を表示要素とし、その翻訳語句の表示要素に、表示用文書のクレーム情報部分、明細書情報部分等におけるその重要語句の表示要素に付加された表示制御情報と同様の表示態様の制御(例えば同一の表示色による色付き左境界線の付加等による強調表示、表示要素の操作対応GUI要素化等)を行うような表示制御情報を付加することとしてもよい。重要語句に対応する翻訳語句の表示要素の操作対応GUI要素化により、操作に応じて、起動される関数により、同一の重要語句に対応する全ての翻訳語句をユーザに指定された語句へ一括置換する処理等の実現が可能となり得る。発明文書分析システム20が、出力部208が出力するHTML文書等の表示用文書としての特許出願関連情報中に翻訳結果情報を含ませる場合において、翻訳結果情報中における、記載様式が定まっている見出し(例えばクレームの各項の見出し、明細書の段落番号)を表示要素とし、その見出しの表示要素に、その表示要素を、操作に応じて対応するクレーム情報、明細書情報等における対応する見出し部分(例えば対応するクレームの項の内容、対応する明細書の段落の内容等)を表示するGUI要素にするための表示制御情報を付加することとしてもよい。例えば、図17に示す「メニュー選択に応じた特許出願関連情報の項目の内容表示欄」に翻訳結果情報が表示されている際に、その表示内容における明細書の段落番号である見出しの表示要素が操作(例えばマウスクリック操作)されると、図17に示す「操作対応GUI要素の操作に応じた事項の表示欄」に明細書情報における対応する段落番号の部分が表示されるように、その表示要素に付加される表示制御情報に係るスクリプトの関数を定義しておくことができる。翻訳者は、例えば、ブラウザ等で表示される、表示用文書としての特許出願関連情報の翻訳結果情報部分における表示内容の閲覧、操作等により、翻訳結果文書の妥当性の確認、重要語句に対応する翻訳語句の修正等を、効率的に行うことが可能となり得る。また、発明文書分析システム20は、翻訳結果文書のクレームの項数等、或いは、翻訳結果文書の明細書の行数、文の数、段落数等、或いは、翻訳結果文書の行数、文の数、全語句(word)数等、或いは、翻訳結果文書における明細書の実施形態記載部分における重要語句に対応する翻訳語句の記載数、或いは、翻訳結果文書における符号の記載数等を、計数して、各々の計数結果を識別可能に表現して、出力部208が出力する特許出願関連情報中の集計情報に含ませることとしてもよい。翻訳者は、例えば、特許出願関連情報の集計情報を参照して、発明文書における明細書の行数等と翻訳結果文書における明細書の行数等とを比較すること等により、翻訳結果文書の妥当性の確認等を、効率的に行うことが可能となり得る。
また、上述した発明文書分析システム20は、発明文書分析処理を実行し、その発明文書分析処理では、例えば、重要語句の抽出の条件を示す条件情報を含む設定情報を取得し、技術的思想を日本語で表した特許出願用のクレーム又は明細書を記載した文書である発明文書を取得し、その設定情報に基づいてその発明文書を分析する分析処理を行い、分析処理の結果に基づいて生成された情報を出力する出力処理を行い、その分析処理はその条件情報に基づいてその発明文書から重要語句を抽出する抽出処理を含み、その出力処理では、その抽出処理により抽出された複数の重要語句各々に基づいて生成された情報を出力することとしてもよい。
また、上述した実施の形態で示した構成要素及び機能を任意に組み合わせることで実現される形態も本開示の範囲に含まれる。
(変形例グループ1)
本開示における発明文書分析システムは、重要語句の抽出の条件を示す条件情報を含む設定情報を取得する設定情報取得部と、技術的思想を日本語で表した特許出願用のクレーム又は明細書を記載した文書である発明文書を取得する文書取得部と、前記文書取得部により取得された発明文書を、前記設定情報に基づいて分析する分析部と、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された情報を出力する出力部とを含み、前記分析部は、前記文書取得部により取得された発明文書から前記設定情報に基づいて重要語句を抽出する重要語句抽出部を含み、前記出力部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々に基づいて生成された情報を出力する発明文書分析システムである。
ここで、例えば、前記条件情報は、重要語句の候補となる文字列のパターンを表した重要語句候補文字列パターンを示す重要語句候補文字列パターン情報と、先行記載した文字列の参照用に用いられる参照文字列のパターンを表した参照文字列パターンを示す参照文字列パターン情報とを含み、前記重要語句抽出部は、前記文書取得部により取得された発明文書に、前記参照文字列パターンに該当する第1文字列に後続して前記重要語句候補文字列パターンに該当する第2文字列が存在する場合に、当該第2文字列と同一の文字列を重要語句として抽出する第1抽出部と、前記文書取得部により取得された発明文書にクレームが含まれている場合において、当該クレーム中に、前記重要語句候補文字列パターンに該当する第3文字列に後続して句点文字が存在するときには、当該第3文字列と同一の文字列を重要語句として抽出する第2抽出部とを含むこととしてもよい。
これにより、重要語句抽出部は、例えば、発明文書において語句を参照する表現がある場合に参照される語句を一定条件下で重要語句と扱い、発明文書のクレームにおいて句点文字の直前に記載された語句を一定条件下で重要語句と扱うので、参照する程に注目して記載された語句及びクレームの請求対象を表す語句が重要語句として扱われる可能性がある。通常の発明文書のクレームにおいて請求対象に後続して句点文字が記載される傾向が十分に存在すると想定される。従って、発明文書分析システムが発明文書において重要と推定される重要語句に基づいて、出力部により情報が出力され得るので、その出力される情報は有用であり得る。
また、例えば、前記条件情報は、要素名を表す文字列に後続して付記される符号の文字列のパターンを表した符号文字列パターンを示す符号文字列パターン情報と、所定の助詞である文字列のパターンを表した特定助詞文字列パターンを示す特定助詞文字列パターン情報とを含み、前記重要語句候補文字列パターン情報は、少なくとも、先頭文字が漢字である所定の文字列、及び、先頭文字が片仮名である所定の文字列が、当該重要語句候補文字列パターンに該当するように定められており、前記参照文字列パターン情報は、少なくとも、「前記」という文字列が、当該参照文字列パターンに該当するように定められており、前記符号文字列パターン情報は、少なくとも、先頭文字が数字である所定の文字列が、当該符号文字列パターンに該当するように定められており、前記特定助詞文字列パターン情報は、少なくとも、「を」、「に」、「が」、「と」、「から」、「へ」及び「は」のいずれかの文字が、当該特定助詞文字列パターンに該当するように定められており、前記重要語句抽出部は、前記文書取得部により取得された発明文書に、前記重要語句候補文字列パターンに該当する第4文字列に後続して前記符号文字列パターンに該当する第5文字列が存在する場合に、当該第4文字列と同一の文字列を重要語句として抽出する第3抽出部と、前記文書取得部により取得された発明文書に、前記重要語句候補文字列パターンに該当する第6文字列に後続して前記特定助詞文字列パターンに該当する第7文字列が存在する場合に、当該第6文字列と同一の文字列を重要語句として抽出する第4抽出部を含むこととしてもよい。
これにより、重要語句抽出部は、例えば、発明文書において所定の助詞に先行する語句(例えば名詞句等)を一定条件下で重要語句と扱い、発明文書において符号が付されて記載された語句を一定条件下で重要語句と扱うので、主語、目的語等の比較的重要な語句及び発明文書に関連する図面中に図示されると推定される要素を表す語句が重要語句として扱われ得る。発明文書が日本語で記述されているので、漢字又は片仮名で始まる語句が重要語句である可能性は十分にある。従って、発明文書分析システムが、発明文書において重要と推定される重要語句に基づいて、出力部により情報が出力され得るので、その出力される情報は有用であり得る。
また、例えば、前記出力部は、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された特許出願関連情報を出力し、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々について、当該重要語句に、当該重要語句に関連する付加情報を付加した情報を含むこととしてもよい。付加情報の例としては、重要語句に係る強調表示、情報付加表示、表示遷移その他の処理を実行するための表示制御情報、重要語句に対応する対応翻訳語、重要語句の対応翻訳語の候補の集合としての翻訳語候補集合、重要語句の属性情報等が、挙げられる。
これにより、発明文書分析システムにより出力される特許出願関連情報を得ることで翻訳者等は、発明文書の複数の重要語句を把握でき、翻訳者は、発明文書の翻訳のために付加情報に基づいて、重要語句に対応する、重要語句と同じ意味の翻訳先の言語である翻訳語句を、効率的に又は適正に決定することが可能となり得る。
また、例えば、前記特許出願関連情報における、前記文書取得部により取得された発明文書から抽出された前記複数の重要語句各々について付加された、当該重要語句に関連する前記付加情報は、当該重要語句の意味を表す翻訳語句である対応翻訳語に関する情報としての翻訳語情報であることとしてもよい。翻訳語句は、例えば、日本語以外の一種類の言語(例えば英語、中国語等)で表された語句である。翻訳語情報は、例えば、対応翻訳語自体を表す情報であってもよいし、対応翻訳語の候補の集合としての翻訳語候補集合を表す情報であってもよい。
これにより、発明文書分析システムにより出力される特許出願関連情報に含まれる翻訳語情報を参照することで翻訳者は、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記分析部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された重要語句各々について、当該重要語句についての対応翻訳語の候補の集合である翻訳語候補集合を特定するための翻訳語候補集合特定部を含み、前記文書取得部により取得された発明文書の前記重要語句に関連する前記付加情報としての翻訳語情報は、前記翻訳語候補集合特定部により特定された、当該重要語句についての翻訳語候補集合を表す翻訳語候補情報を含むこととしてもよい。
これにより、発明文書分析システムにより出力される特許出願関連情報に含まれる翻訳語候補情報を参照することで翻訳者は、重要語句に対応する翻訳語候補集合から1つの翻訳語句を選択する等により、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記文書取得部は、第1発明文書を含む複数の発明文書を取得し、前記分析部は、前記複数の発明文書各々について、前記重要語句抽出部により複数の重要語句である重要語句群を抽出して、各々抽出した重要語句群間の相関性に基づいて、当該複数の発明文書各々が複数のグループのうちいずれに属するかを特定するためのグループ分類を行う分類部を含み、前記翻訳語候補集合特定部は、前記複数のグループ各々について、当該グループに属する発明文書における日本語の語句と翻訳先の言語の語句とを対応付けた、グループ別の各対訳辞書情報のうちから、前記分類部のグループ分類により前記第1発明文書が属すると特定されたグループの対訳辞書情報を用いて、前記第1発明文書から前記重要語句抽出部により抽出された重要語句各々についての翻訳語候補集合の特定を実行することとしてもよい。
これにより、発明文書分析システムにおいて、発明文書に適したグループの対訳辞書情報が用いられるので、重要語句に対して適切な翻訳語候補集合が特定され得る。
また、例えば、前記分類部は、複数の技術分野各々について当該技術分野に関することが知られている1つ以上の発明文書各々から前記重要語句抽出部により重要語句群を抽出した結果を利用することで、前記複数の技術分野のうち前記第1発明文書から前記重要語句抽出部により抽出された重要語句群との相関性が予め定められた程度以上であるところのいずれかの技術分野を、前記第1発明文書に対応する第1技術分野として特定する技術分野特定部を含み、前記翻訳語候補集合特定部は、複数の技術分野各々について、当該技術分野における日本語の語句と翻訳先の言語の語句とを対応付けた、技術分野別の各対訳辞書情報のうちから、前記技術分野特定部により特定された前記第1技術分野の対訳辞書情報を用いて、前記第1発明文書から前記重要語句抽出部により抽出された重要語句各々についての翻訳語候補集合の特定を実行することとしてもよい。
これにより、発明文書分析システムにおいて、発明文書が属する技術分野に対応する対訳辞書情報が用いられるので、重要語句に対して適切な翻訳語候補集合が特定され得る。
また、例えば、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が、表示されるべき内容として含まれた、表示用文書(例えばHTML文書)として出力され、前記発明文書から抽出された前記重要語句に関連する前記付加情報は、当該重要語句についての前記翻訳語候補集合のうちのいずれかの要素を操作に応じて選択可能にするように、当該翻訳語候補集合をGUI要素として表示するための表示制御情報を含み、前記重要語句に関連する前記付加情報に含まれる前記表示制御情報は、前記GUI要素として表示された状態の、当該重要語句についての前記翻訳語候補集合から、操作に応じて選択された要素を、当該重要語句に対応する対応翻訳語として決定する決定処理を実行するためのスクリプトと、当該決定処理の実行結果として対応翻訳語が決定された各重要語句について当該重要語句と該当の対応翻訳語とを対応付けた情報である翻訳補助情報を生成して出力する処理を実行するためのスクリプトとを含み、前記翻訳語候補集合特定部は、前記文書取得部により取得された、前記第1発明文書以外の1つ以上の発明文書各々について、当該発明文書の前記分析部による分析結果に基づいて生成された前記特許出願関連情報に係る前記表示用文書が前記出力部に出力されて表示のために利用された結果としての、当該1つ以上の発明文書各々における各重要語句について生成された前記翻訳補助情報に基づいて、前記第1発明文書から前記重要語句抽出部により抽出された重要語句各々についての前記翻訳語候補集合の特定を実行することとしてもよい。
これにより、翻訳者は、表示用文書のGUI要素に対する選択の操作により、翻訳語候補集合から重要語句に対応する対応翻訳語を容易に決定することができる。また、翻訳者は、例えば、ブラウザ等による表示用文書の表示内容から、決定された対応翻訳語を、所謂コピー&ペースト、所謂カット&ペースト等により、容易に取得可能となる。なお、コピー&ペースト又はカット&ペーストは、概ね、コピー(つまり複製)又はカット(つまり切り取り)の対象となるデータを選択してそのデータを、他の場所を指定してその場所にペースト(つまり貼り付け)する操作であり、この操作により、コピー又はカットの対象のデータが、OS等の管理下で所定のメモリ領域に保持され、ペーストの操作によりそのデータがその所定のメモリ領域からペースト先として指定された場所に貼り付けられる。また、翻訳者による表示用文書のGUI要素に対する選択の結果が、その後に、翻訳補助情報を介して、発明文書分析システムによる重要語句に対応する翻訳語候補集合の特定についての妥当性を向上させる可能性がある。
また、例えば、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が、表示されるべき内容として含まれた、表示用文書として出力され、前記発明文書から抽出された重要語句に関連する前記付加情報は、当該重要語句についての前記翻訳語候補集合のうちのいずれかの要素を操作に応じて選択可能にするように、当該翻訳語候補集合をGUI要素として表示するための表示制御情報を含み、前記重要語句に関連する前記付加情報に含まれる前記表示制御情報は、前記GUI要素として表示された状態の、当該重要語句についての前記翻訳語候補集合から、操作に応じて選択された要素を、当該重要語句に対応する対応翻訳語として決定する決定処理を実行するためのスクリプトと、当該決定処理の実行結果として対応翻訳語が決定された各重要語句について当該重要語句と該当の対応翻訳語とを対応付けた情報である翻訳補助情報を生成して出力する処理を実行するためのスクリプトとを含むこととしてもよい。
これにより、発明文書分析システムにより出力された翻訳補助情報を活用でき、この活用により、その後における発明文書分析システムによる重要語句に対応する翻訳語候補集合の特定についての妥当性を向上させることが、可能となり得る。
また、例えば、前記文書取得部は複数の発明文書を取得し、前記出力部は、前記文書取得部により取得された複数の発明文書各々に対して出力された前記表示用文書各々が表示された結果として生成された複数の前記翻訳補助情報各々における、重要語句と、対応する対応翻訳語との組を、重要語句翻訳用の機械学習のための教師データとして用いて、機械学習により生成された学習モデルである重要語句翻訳用学習モデルを出力する学習モデル出力部を含むこととしてもよい。
これにより、その重要語句翻訳用学習モデルを用いて重要語句を入力とする演算処理により、発明文書における重要語句についての機械翻訳が、実現され得る。この機械翻訳の結果を参照することで、翻訳者は、発明文書における重要語句を翻訳した翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が、表示されるべき内容として含まれた、表示用文書として出力され、前記設定情報は、抽出対象とすべき重要語句を列挙した重要語句設定辞書の特定用情報を含み、前記重要語句設定辞書では、列挙されている重要語句の少なくとも一部に対して対応翻訳語が対応付けられており、前記発明文書分析システムは、前記設定情報に基づいて前記重要語句設定辞書を取得する重要語句設定辞書取得部を含み、前記重要語句抽出部は、前記重要語句設定辞書に列挙されている重要語句が前記文書取得部により取得された発明文書に含まれている場合には、当該発明文書から当該重要語句を抽出し、前記重要語句抽出部が、前記重要語句設定辞書で対応翻訳語が対応付けられている重要語句を、前記文書取得部により取得された発明文書から抽出した場合には、前記特許出願関連情報における、当該発明文書から抽出された当該重要語句に関連する前記付加情報は、当該対応翻訳語を表し、前記重要語句抽出部が、前記重要語句設定辞書で対応翻訳語が対応付けられている重要語句以外の重要語句を前記文書取得部により取得された発明文書から抽出した場合には、前記特許出願関連情報における、当該発明文書から抽出された当該重要語句に関連する前記付加情報は、当該重要語句の翻訳語候補集合のうちのいずれかの要素を操作に応じて選択可能となるように、当該翻訳語候補集合をGUI要素として、表示するための表示制御情報を含み、当該表示制御情報は、前記GUI要素として表示された状態の、当該重要語句の当該翻訳語候補集合から、操作に応じて選択された要素を、当該重要語句に対応する対応翻訳語として決定する決定処理を実行するためのスクリプトと、当該決定処理の実行結果として対応翻訳語が決定された各重要語句について当該重要語句と該当の対応翻訳語とを対応付けた情報を含むように前記重要語句設定辞書を更新する更新処理を実行するためのスクリプトとを含むこととしてもよい。
これにより、例えば、発明文書を作成した発明者等又は弁理士は、特定の語句を重要語句として定めておきたい場合、重要語句についての対応翻訳語を定めておきたい場合等に、重要語句設定辞書を生成しておくことで、発明文書分析システムにより、適切な特許出願関連情報が出力されるようになり得る。このため、翻訳者は、その特許出願関連情報を参考にして発明文書の翻訳を、効率的に又は適正に行うことが可能となり得る。また、翻訳者が、重要語句について対応翻訳語を定めている場合等において重要語句設定辞書を生成しておくことで、発明者等又は弁理士から提供された発明文書を、発明文書分析システムで分析させた場合に、適切な特許出願関連情報が出力されるようになり得る。
また、例えば、前記文書取得部は、第1発明文書と、当該第1発明文書以外の複数の発明文書とを取得し、前記文書取得部は更に、取得した前記複数の発明文書各々について、当該発明文書の翻訳結果である翻訳結果文書を取得し、前記分析部は、前記第1発明文書及び前記複数の発明文書各々について、前記重要語句抽出部により複数の重要語句である重要語句群を抽出して、各々抽出した重要語句群間の相関性に基づいて、前記第1発明文書及び前記複数の発明文書各々が複数のグループのうちいずれに属するかを特定するためのグループ分類を行う分類部を含み、前記翻訳語候補集合特定部は、前記分類部のグループ分類により前記第1発明文書が属すると特定されたグループに属する前記複数の発明文書と、対応する前記翻訳結果文書とから抽出した、重要語句と、当該重要語句に対応する対応翻訳語との複数組を、重要語句翻訳用の機械学習のための教師データとして用いて機械学習により生成された学習モデルである重要語句翻訳用学習モデルを利用する機械翻訳により、前記第1発明文書から前記重要語句抽出部により抽出された重要語句各々についての翻訳語候補集合の要素を、特定することとしてもよい。
これにより、発明文書分析システムでは翻訳語候補集合の特定が適切になされ得る。
また、例えば、前記特許出願関連情報は、表示用文書として出力され、前記文書取得部により取得された発明文書にクレームが含まれている場合には、前記特許出願関連情報は、前記表示用文書において表示されるべき前記クレームの内容を表すクレーム情報を含み、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報は、当該発明文書から前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々についての当該重要語句に関連する前記付加情報として、当該重要語句の表示態様を制御するための表示制御情報を含むこととしてもよい。
これにより、例えば、翻訳者等は、ブラウザ等により表示された表示用文書に係る特許出願関連情報のクレーム情報において表示態様が制御された重要語句を識別することが可能となり得る。
また、例えば、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報が含む、前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々についての当該重要語句に関連する前記付加情報としての前記表示制御情報は更に、当該重要語句についての重要度、属性情報、対応翻訳語、若しくは、翻訳語候補集合、又は、当該重要語句の検索結果、を表示する情報付加表示のための情報と、当該重要語句を、操作に応じて当該重要語句に係る当該情報付加表示を実行するためのGUI要素として表示するための情報とを含むこととしてもよい。重要語句の検索は、例えば、その発明文書内の検索であっても、別の発明文書内の検索であっても、インターネット等のネットワーク上の検索サイト等における検索であってもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報におけるクレーム情報を閲覧した翻訳者等は、表示された重要語句に対する操作により、重要度、属性情報、検索結果等の情報を知得することが可能となり得るので、発明文書における重要語句について効率的に又は適正に理解することが可能となり得る。このため、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記表示用文書は、HTML(Hypertext Markup Language)で記載されたHTMLファイルを含むHTML文書であり、前記文書取得部により取得された発明文書に明細書が含まれている場合には、前記特許出願関連情報は、前記表示用文書において表示されるべき前記明細書の内容を表す明細書情報を含み、前記文書取得部により取得された発明文書の明細書の内容を表す前記明細書情報は、当該発明文書から前記重要語句抽出部により抽出された当該明細書中の複数の重要語句各々についての当該重要語句に関連する前記付加情報として、当該重要語句の表示態様を制御する表示制御情報を含み、前記クレーム情報及び前記明細書情報における、前記重要語句抽出部により抽出された複数の重要語句各々についての、当該重要語句の表示態様を制御するための前記表示制御情報は、当該表示制御情報に対応する当該重要語句の表示態様を、前記クレーム情報及び前記明細書情報における前記複数の重要語句以外の語句の表示態様と相違させるための強調表示情報を含み、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々に対応する、表示態様を制御するための前記表示制御情報各々は、当該複数の重要語句各々を互いに相違する表示態様で表示するように制御するための、互いに相違する識別情報を含み、前記明細書情報における、前記重要語句抽出部により抽出された複数の重要語句各々についての、当該重要語句の表示態様を制御するための前記表示制御情報は、当該重要語句が、前記クレーム情報における、前記重要語句抽出部により抽出された前記クレーム中の複数の重要語句のいずれかと同一であれば、当該重要語句を、前記クレーム情報における当該同一の重要語句と同様の表示態様で表示させ、当該重要語句が、前記クレーム情報における、前記重要語句抽出部により抽出された前記クレーム中の前記複数の重要語句のいずれとも相違すれば、当該重要語句を、前記クレーム情報における当該複数の重要語句のいずれとも相違する表示態様で表示させるように制御する情報を含むこととしてもよい。
これにより、HTMLに対応しているブラウザを搭載したPC、スマートフォンその他のコンピュータを用いて、翻訳者等はHTML文書である表示用文書としての特許出願関連情報を閲覧できる。ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中の明細書情報において記載された各重要語句が、クレームに記載されている重要語句か否かを識別することが可能となり、複数の重要語句が同一か相違するかを、各重要語句の表示態様により、迅速に把握することが可能となり得る。なお、発明文書分析システムにおいて、重要語句の表示態様の制御として、例えば強調表示(例えば太字で表示する等)がなされたとすれば、翻訳者等は、クレーム情報における重要語句の迅速な把握が可能となり得る。
また、例えば、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報は、前記表示用文書において表示されるべき当該クレームの内容に加えて、当該クレームの内容における前記重要語句抽出部により抽出された複数の重要語句各々について、当該クレームの内容における当該重要語句の部分を、当該重要語句に対応する対応翻訳語又は翻訳語候補集合に、置換した内容を含み、前記発明文書の明細書の内容を表す前記明細書情報は、前記表示用文書において表示されるべき明細書の内容に加えて、当該明細書の内容における前記重要語句抽出部により抽出された複数の重要語句各々について、当該明細書の内容における当該重要語句の部分を、当該重要語句に対応する対応翻訳語又は翻訳語候補集合に、置換した内容を含むこととしてもよい。
これにより、翻訳者は、クレーム情報及び明細書情報における重要語句を対応翻訳語又は翻訳語候補集合に置換した内容の部分について編集することで、効率的に、発明文書の翻訳を行うことが可能となり得る。
また、例えば、前記文書取得部は更に、当該文書取得部により取得された発明文書に対応する図面文書を取得し、前記文書取得部により取得された発明文書についての分析結果に基づいて生成された前記特許出願関連情報の前記クレーム情報又は前記明細書情報における、前記重要語句抽出部により当該発明文書から抽出された複数の重要語句のうち、当該発明文書において符号が付加されて記載された要素名を表す語句と同一の重要語句について、当該重要語句に関連する前記付加情報としての前記表示制御情報は、当該重要語句を、操作に応じて、当該発明文書に対応する前記図面文書中の当該重要語句に係る当該符号が記載された部分を表示するためのGUI要素として表示するための情報を含むこととしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、クレーム情報又は明細書情報中に表示された重要語句のGUI要素の操作により、図面文書中の、その重要語句が表す要素に対応する部分を表示させて確認することができるようになり、その重要語句の理解を効率的又は適正に行うことが可能となり得る。
また、例えば、前記出力部による前記特許出願関連情報の前記出力は、当該特許出願関連情報の表示により行われ、前記文書取得部により取得された発明文書にクレームが含まれている場合には、前記特許出願関連情報は、当該クレームの内容を表すクレーム情報を含み、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報が含む、前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々についての当該重要語句に関連する前記付加情報は、当該重要語句に付加される色を示し、前記文書取得部により取得された発明文書に明細書が含まれている場合には、前記特許出願関連情報は、当該明細書の内容を表す明細書情報を含み、前記文書取得部により取得された発明文書の明細書の内容を表す前記明細書情報が含む、前記重要語句抽出部により抽出された当該明細書中の複数の重要語句各々についての当該重要語句に関連する前記付加情報は、当該重要語句に付加される色を示し、前記出力部は、前記クレーム情報及び前記明細書情報における前記重要語句抽出部により抽出された複数の重要語句の表示態様を、前記複数の重要語句以外の語句の表示態様と相違させて表示し、前記出力部は、前記クレーム情報における、前記重要語句抽出部により抽出された、重要語句を構成する文字列が互いに相違する複数の重要語句各々を、互いに相違する色を付加して、表示し、前記出力部は、前記明細書情報における前記重要語句抽出部により抽出された複数の重要語句各々について、当該重要語句が、前記クレーム情報における前記重要語句抽出部により抽出された複数の重要語句のいずれかと同一であれば、前記明細書情報における当該重要語句を、前記クレーム情報における当該同一の重要語句と同一の表示色を付加して表示し、前記明細書情報における当該重要語句が、前記クレーム情報における前記重要語句抽出部により抽出された前記複数の重要語句のいずれとも相違すれば、前記明細書情報における当該重要語句を、前記クレーム情報における当該複数の重要語句のいずれとも相違する表示態様で表示し、前記出力部は、前記クレーム情報における前記重要語句抽出部により抽出された複数の重要語句各々について、当該重要語句を、操作に応じて当該重要語句に係る情報付加表示を実行するためのGUI要素として表示し、重要語句に係る前記情報付加表示は、当該重要語句についての重要度、属性情報、対応翻訳語、若しくは、翻訳語候補集合、又は、当該重要語句の検索結果、を表示することであることとしてもよい。重要語句への色の付加は、例えば、重要語句への文字色の付加、重要語句への文字背景色の付加、重要語句を囲む矩形枠の全辺又はいずれか一辺である、色付きの線幅を有する境界線の付加等である。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報で示された各重要語句が、クレームに記載されている重要語句か否かを識別することが可能となり、複数の重要語句が同一か相違するかを、各重要語句に付加された色により、迅速に把握することが可能となり得る。
また、例えば、前記発明文書分析システムは、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する翻訳用発明文書標準規定取得部を含み、前記分析部は、前記文書取得部により取得された発明文書が前記翻訳用発明文書標準規定で定められた前記複数の条件のうちの少なくとも一部の各条件を満たすか否かについての判定を行い、当該判定の結果に基づいて、当該発明文書における、不適切な可能性がある部分を指摘するための警告情報を生成し、前記発明文書についての前記分析部による分析結果に基づいて生成された前記特許出願関連情報は、前記警告情報を含むこととしてもよい。
これにより、発明文書分析システムにより出力された特許出願関連情報を参考にすることにより、発明文書を作成した発明者等又は弁理士は、必要であれば発明文書の修正を行い得る。また、翻訳者は、例えば、発明者等又は弁理士から、翻訳対象となる発明文書及び特許出願関連情報の提供を受けることにより、特許出願関連情報中の警告情報での指摘が残っていてもその指摘は特に対処の必要がないと発明者等又は弁理士が判断した結果であると推定できるので、翻訳対象となる適切な発明文書を取得することができ、この結果として、発明文書の翻訳を効率的に又は適正に行うことが可能となり得る。
また、例えば、前記発明文書についての分析結果に基づいて生成された前記特許出願関連情報における前記警告情報は、当該発明文書の、前記翻訳用発明文書標準規定への適合性を示す発明文書評価情報を含むこととしてもよい。適合性は、例えば、適合性の評価の結果としての評価値等で表される。
これにより、発明文書分析システムにより出力された特許出願関連情報に含まれる発明文書評価情報を参考にすることで、発明者等又は弁理士は、その発明文書を適切に修正できる可能性がある。また、翻訳者は、発明文書評価情報を確認することで、翻訳対象として適切な発明文書であるか否かを認識することが可能となり得る。不適切な記載を含む発明文書は、例えば、翻訳ミスを招き易く、翻訳者が適切な権利取得(例えば特許権の取得)のために発明文書を修正した上で翻訳するような事態も生じ得る。従って、発明文書に基づいて生成された特許出願関連情報における警告情報に、翻訳用発明文書標準規定への適合性が比較的低いことを示す発明文書評価情報が含まれていた場合には、その発明文書は、その発明文書に基づいて翻訳された結果である翻訳結果文書との間で、言語が異なる以外に内容の齟齬がある可能性が十分にあり得ると判断でき、例えば、機械翻訳に用いる翻訳用学習モデルの生成のために、その発明文書と翻訳結果文書との組とを機械学習用の教師データとして用いることが有用ではないとの判断等が、可能となり得る。
また、例えば、前記翻訳用発明文書標準規定は、翻訳対象となる発明文書が満たすべき条件を定める情報として、当該条件を満たさない不適切な可能性がある記載部分についての文字列のパターンを表した不適切文字列パターンを示す不適切文字列パターン情報と、当該記載部分の修正方法に関する修正情報とを対応付けて含み、前記分析部による前記翻訳用発明文書標準規定で定められた条件を満たすか否かについての前記判定は、前記不適切文字列パターン情報が示す前記不適切文字列パターンに該当する文字列が存在するか否かにより行われ、前記翻訳用発明文書標準規定で定められた条件に係る前記不適切文字列パターン情報が示す前記不適切文字列パターンに該当する文字列が、前記文書取得部により取得された発明文書におけるクレーム中に存在した場合には、前記特許出願関連情報は、当該クレームと、当該不適切文字列パターン情報に対応付けられた前記修正情報とに基づいて、当該条件を満たすように当該クレームを修正することで生成される修正版クレーム情報を含み、前記翻訳用発明文書標準規定で定められた条件に係る前記不適切文字列パターン情報が示す前記不適切文字列パターンに該当する文字列が、前記文書取得部により取得された発明文書における明細書中に存在した場合には、前記特許出願関連情報は、当該明細書と、当該不適切文字列パターン情報に対応付けられた前記修正情報とに基づいて、当該条件を満たすように当該明細書を修正することで生成される修正版明細書情報を含むこととしてもよい。
これにより、発明文書を作成した発明者等又は弁理士は、発明文書分析システムにより出力される特許出願関連情報に含まれる修正版クレーム情報及び修正版明細書情報を参照することにより、効率的に発明文書を修正できる可能性がある。また、翻訳者は、修正版クレーム情報及び修正版明細書情報を参照することで修正された発明文書を提供されることで、その発明文書を効率的に又は適正に翻訳し得る。また、発明者等又は弁理士から発明文書及び特許出願関連情報の提供を受けて更に修正版クレーム情報及び修正版明細書情報に基づいて翻訳をすべき旨の指示を受けた翻訳者は、特許出願関連情報に含まれる修正版クレーム情報及び修正版明細書情報を参照して翻訳作業を効率的又は適正に行うことが可能となり得る。
また、例えば、前記文書取得部により取得された発明文書にクレームが含まれている場合において、当該クレームの所定の一項が、複数の項を引用しているときには、当該発明文書の分析結果に基づいて生成される前記特許出願関連情報は、当該所定の一項を、当該複数の項のうちの項番が最先の1つの項のみを引用するように変更した内容を含むように、当該クレームを修正した結果を表す修正版クレーム情報と、前記修正版クレーム情報が表すクレームの各項の引用関係を、相互に引用関係のある項同士の項番間を線又は記号を用いて対応付けた表現で、表した情報としての修正版クレームツリーとを含むこととしてもよい。
これにより、発明者等又は弁理士から特許出願関連情報の提供を受け、発明文書のクレーム部分については修正版クレーム情報に基づいて翻訳すべき旨を伝達された翻訳者は、発明文書における複数項を引用する項を修正するか否か、修正するとしたらどのように修正すべきか等について迷うことなく、効率的に、翻訳を行うことが可能となり得る。また、翻訳者等は、修正版クレームツリーにより、修正版クレーム情報に表されたクレームの各項の引用関係を迅速に把握し得る。
また、例えば、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々の間の関係を示す重要語句関係情報を含み、前記重要語句関係情報は、複数の重要語句各々が表す要素相互間における構成上の包含関係を示す包含関係情報を含むこととしてもよい。
これにより、発明文書分析システムにより出力された特許出願関連情報を取得した翻訳者は、特許出願関連情報中の重要語句関係情報により発明文書における複数の重要語句間の関係を比較的迅速に把握可能となり、その関係の把握により各重要語句に対応する翻訳語句を効率的に又は適正に決定できる可能性があり、その結果として、発明文書を効率的に又は適正に翻訳することが可能となり得る。
また、例えば、前記文書取得部は、複数の発明文書と、当該複数の発明文書各々の翻訳結果である、複数の翻訳結果文書とを取得し、前記分析部は、前記複数の発明文書各々について、前記重要語句抽出部により複数の重要語句である重要語句群を抽出して、各々抽出した重要語句群間の相関性に基づいて、当該複数の発明文書各々が複数のグループのうちいずれに属するかを特定するためのグループ分類を行う分類部を含み、前記発明文書分析システムは、当該複数のグループの各々毎に、前記複数の発明文書のうち当該グループに分類された各発明文書についての、当該発明文書と当該発明文書の翻訳結果である翻訳結果文書との各組を教師データとした機械学習により、機械翻訳のための学習モデルである翻訳用学習モデルを生成する機械学習部を含むこととしてもよい。
これにより、例えば機械翻訳システム、発明文書分析システム等において、グループ毎の翻訳用学習モデルのうち、発明文書が属するグループに適合した翻訳用学習モデルを利用した演算処理により、発明文書を機械翻訳することが可能となる。
また、例えば、前記文書取得部は、複数の発明文書と、当該複数の発明文書各々の翻訳結果である、複数の翻訳結果文書とを取得し、前記発明文書分析システムは、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する翻訳用発明文書標準規定取得部と、前記文書取得部により取得された前記複数の発明文書各々について、当該発明文書が前記翻訳用発明文書標準規定で定められた前記複数の条件のうちの少なくとも一部の各条件を満たすか否かについての判定を行い、当該複数の発明文書のうち、当該判定がなされた前記条件を満たす程度が予め定めた所定程度を超えるところの発明文書を選出する文書評価部と、前記文書評価部により選出された発明文書と、当該発明文書に対応する翻訳結果文書との組を教師データとして用いた機械学習により、機械翻訳のための学習モデルである翻訳用学習モデルを生成する機械学習部とを含み、前記出力部は、前記機械学習部により生成された前記翻訳用学習モデルを出力する学習モデル出力部を含むこととしてもよい。
これにより、不適切な記載を含む発明文書と、その発明文書に基づいて生成された翻訳ミス等によりその発明文書と内容に齟齬のある翻訳結果文書との組が教師データに用いられにくくなり、発明文書分析システムから、適切な翻訳用学習モデルが出力されるようになり得る。このため、例えば機械翻訳システム等において、発明文書分析システムから出力された適切な翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。この発明文書の機械翻訳の結果を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
また、例えば、前記発明文書分析システムは、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する翻訳用発明文書標準規定取得部を含み、前記翻訳用発明文書標準規定は、翻訳対象となる発明文書が満たすべき条件を定める情報として、当該条件を満たさない不適切な可能性がある記載部分についての文字列のパターンを表した不適切文字列パターンを示す不適切文字列パターン情報と、当該記載部分の修正方法に関する修正情報とを対応付けて含み、前記発明文書分析システムは、前記文書取得部により取得された発明文書中に、前記翻訳用発明文書標準規定で定められた条件に係る前記不適切文字列パターン情報が示す前記不適切文字列パターンに該当する文字列が存在した場合には、当該発明文書の内容と、当該不適切文字列パターン情報に対応付けられた前記修正情報とに基づいて、当該条件を満たすように当該発明文書の内容を修正することで生成される修正版発明文書と、当該発明文書に対応する翻訳結果文書との組を教師データとして用いた機械学習により、機械翻訳のための学習モデルである翻訳用学習モデルを生成する機械学習部を含み、前記出力部は、前記機械学習部により生成された前記翻訳用学習モデルを出力する学習モデル出力部を含むこととしてもよい。
これにより、機械学習用の教師データとして用いられる修正版発明文書と翻訳結果文書とは、相互の内容の齟齬が低減されたものとなる可能性があるので、発明文書分析システムから適切な翻訳用学習モデルが出力される可能性がある。このため、例えば機械翻訳システム等において、発明文書分析システムから出力された適切な翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。この発明文書の機械翻訳の結果を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
また、例えば、前記分析部は、機械翻訳を実行する翻訳部を含み、複数の発明文書各々について、当該発明文書から前記重要語句抽出部と同様の方式で複数の重要語句である重要語句群を抽出して、各々抽出した重要語句群間の相関性に基づいて、当該複数の発明文書各々が複数のグループのうちいずれに属するかを特定するためのグループ分類が行われ、当該複数のグループの各々毎に、当該複数の発明文書のうち当該グループに分類された各発明文書についての当該発明文書と当該発明文書の翻訳結果である翻訳結果文書との各組を教師データとした機械学習により、機械翻訳のための学習モデルである翻訳用学習モデルが生成されている状態において、前記文書取得部は所定の発明文書を取得し、前記翻訳部は、前記所定の発明文書から前記重要語句抽出部により抽出された複数の重要語句である重要語句群に基づいて当該所定の発明文書が前記複数のグループのうちいずれに属するかが特定された結果に応じて、当該所定の発明文書が属するグループに対応する前記翻訳用学習モデルを利用して、当該所定の発明文書の少なくとも一部の機械翻訳を実行し、前記出力部は、前記所定の発明文書についての前記分析部による分析結果に基づいて生成された、前記翻訳部による前記機械翻訳の結果を含む、特許出願関連情報を出力することとしてもよい。
これにより、発明文書分析システムにより出力された特許出願関連情報における所定の発明文書の少なくとも一部の機械翻訳の結果を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
(変形例グループ2)
本開示における発明文書分析システムは、技術的思想を日本語で表した、特許出願用のクレームの記載を含む文書である発明文書を、分析する発明文書分析システムであって、重要語句の抽出の条件を示す条件情報を含む設定情報を取得する設定情報取得部と、発明文書を取得する文書取得部と、前記文書取得部により取得された発明文書を、前記設定情報に基づいて分析する分析部と、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された情報を出力する出力部とを含み、前記分析部は、前記文書取得部により取得された発明文書から前記設定情報に基づいて重要語句を抽出する重要語句抽出部を含み、前記出力部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々に基づいて生成された情報を出力する発明文書分析システムである。
これにより、発明文書分析システムは、例えば発明者等又は弁理士により作成されたクレームを含む発明文書を分析した結果に基づく情報を出力する。例えば、発明者等又は弁理士は、その出力された情報を参照することにより、発明文書をより適切なものへと完成させることを効率的に実現できる可能性があり得る。より適切なものへと完成された発明文書は、発明文書を翻訳する翻訳者にとって、適切に又は効率的に翻訳するために有用である。
また、例えば、前記条件情報は、重要語句の候補となる文字列のパターンを表した重要語句候補文字列パターンを示す重要語句候補文字列パターン情報と、先行記載した文字列の参照用に用いられる参照文字列のパターンを表した参照文字列パターンを示す参照文字列パターン情報と、所定の助詞である文字列のパターンを表した特定助詞文字列パターンを示す特定助詞文字列パターン情報とを含み、前記重要語句候補文字列パターン情報は、少なくとも、先頭文字が漢字である所定の文字列、及び、先頭文字が片仮名である所定の文字列が、当該重要語句候補文字列パターンに該当するように定められており、前記参照文字列パターン情報は、少なくとも、「前記」という文字列が、当該参照文字列パターンに該当するように定められており、前記特定助詞文字列パターン情報は、少なくとも、「を」、「に」、「が」、「と」、「から」、「へ」及び「は」のいずれかの文字が、当該特定助詞文字列パターンに該当するように定められており、前記重要語句抽出部は、前記文書取得部により取得された発明文書に、前記参照文字列パターンに該当する第1文字列に後続して前記重要語句候補文字列パターンに該当する第2文字列が存在する場合に、当該第2文字列と同一の文字列を重要語句として抽出し、前記文書取得部により取得された発明文書のクレーム中に、前記重要語句候補文字列パターンに該当する第3文字列に後続して句点文字が存在するときには、当該第3文字列と同一の文字列を重要語句として抽出し、前記文書取得部により取得された発明文書に、前記重要語句候補文字列パターンに該当する文字列である重要語句候補文字列に後続して前記特定助詞文字列パターンに該当する文字列である特定助詞文字列が存在する場合に、当該重要語句候補文字列と同一の文字列を重要語句として抽出し、前記重要語句抽出部は重要語句の前記抽出においては、前記重要語句候補文字列パターンに複数の文字列が該当していた場合において当該複数の文字列のうちの一の文字列が他の文字列に発明文書の記載上包含されていたときには、当該複数の文字列のうち当該一の文字列を除外した残余の文字列を選択対象として重要語句を選択して抽出し、前記分析部は、前記文書取得部により取得された発明文書のクレームから前記重要語句抽出部により抽出された各重要語句に基づいて、未完成の明細書の内容を表すクレームベース明細書情報を生成し、前記出力部は、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された特許出願関連情報を出力し、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々が、表示されるべき内容として含まれた、表示用文書として出力され、前記特許出願関連情報は、前記表示用文書において表示されるべき、前記文書取得部により取得された発明文書のクレームの内容を表すクレーム情報と、前記クレームベース明細書情報とを含み、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報は、当該発明文書から前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々について、当該重要語句の表示態様を制御するための表示制御情報を含み、前記クレーム情報における、前記重要語句抽出部により抽出された複数の重要語句各々についての、当該重要語句の表示態様を制御するための前記表示制御情報は、当該表示制御情報に対応する当該重要語句の表示態様を、前記クレーム情報における当該複数の重要語句以外の語句の表示態様と相違させるための強調表示情報を含み、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々に対応する、表示態様を制御するための前記表示制御情報各々は、当該複数の重要語句各々を互いに相違する表示態様で表示するように制御するための、互いに相違する識別情報を含むこととしてもよい。
これにより、特許出願関連情報を閲覧した発明者等又は弁理士は、クレーム情報における、発明文書のクレームから抽出された互いに文字列の異なる重要語句同士を迅速に識別可能であるので、クレーム内容を効率的に確認でき、クレームから抽出された重要語句に基づいて生成されたクレームベース明細書情報を参照することで、効率的に、発明文書の明細書を生成又は更新できる可能性があり得る。
また、例えば、前記分析部は、生成する前記クレームベース明細書情報に、日本国の特許出願の明細書の見出しと同様の見出しを含ませ、前記分析部は、前記発明文書のクレームにおける各項のうち全ての請求対象起点項を抽出し、当該抽出した各請求対象起点項の請求対象を表す重要語句を特定し、当該特定した重要語句に同一の複数の重要語句が含まれる場合には当該複数の重要語句のうち1つの重要語句以外を除去した結果として残る、相互に異なる請求対象を表す重要語句の集合から、当該集合の要素を所定の順に列挙して予め定められた所定の形式で配置した文字列を、当該クレームベース明細書情報における「発明の名称」の見出しに後続する発明名称文字列として決定し、前記請求対象起点項は、他の項を引用していない項、又は、他の項を引用しているが引用先の項とは請求対象が異なる項であり、前記分析部は、前記全ての請求対象起点項各々についての請求対象を表す重要語句に基づいて定めた、相互に異なる請求対象を表す重要語句の前記集合を用いて、当該集合における各重要語句と当該各重要語句に対応して特定した記載支援用未完成メッセージとを予め定められた形式で連結した1つ又は複数の文を生成し、当該生成した文を、前記クレームベース明細書情報における「発明が解決しようとする課題」の見出しに後続する記載内容として決定し、前記記載支援用未完成メッセージは、未完成記載部分であることを示す、未完成部分開始記号と未完成部分終了記号とで挟んだ文字列を含み、前記分析部は、前記全ての請求対象起点項各々の項番と、前記全ての請求対象起点項各々についての請求対象を表す重要語句に基づいて定めた、相互に異なる請求対象を表す重要語句の前記集合における各重要語句と当該各重要語句に対応して特定した記載支援用未完成メッセージとを予め定められた形式で連結した1つ又は複数の文を生成し、当該生成した文を、前記クレームベース明細書情報における「課題を解決するための手段」の見出しに後続する記載内容として決定し、前記分析部は、前記発明文書のクレームの各項についての項番と、当該項の請求対象を表す重要語句と、記載支援用未完成メッセージとに基づいて、前記クレームベース明細書情報における「発明を実施するための形態」の見出しに後続する記載内容の一部を決定し、前記分析部は、前記発明文書のクレームから前記重要語句抽出部により抽出された複数の重要語句各々についての、当該重要語句が表す要素と他の重要語句が表す要素との構成上の包含関係、当該重要語句が表す要素の記録内容、又は、当該重要語句が表す要素の実現内容に基づいて定められた、当該重要語句を説明するための記載支援用未完成メッセージに基づいて、前記クレームベース明細書情報における「発明を実施するための形態」の見出しに後続する記載内容の一部を決定し、前記分析部は、前記発明文書のクレームから前記重要語句抽出部により抽出された複数の重要語句各々について、当該重要語句が表す要素が、他の重要語句が表す要素を構成上包含するか、又は、他の重要語句が表す要素に構成上包含されるときには、当該重要語句及び当該他の重要語句の構成上の包含関係に基づいて当該重要語句に対して符号を決定する符号決定処理を行い、前記クレームベース明細書情報における「発明を実施するための形態」の見出しに後続する記載内容の少なくとも一部に含まれる重要語句のうち、当該符号決定処理において重要語句に対して符号が決定されている重要語句については、当該重要語句の直後に決定されている当該符号を挿入することとしてもよい。
これにより、発明者等又は弁理士は、クレームベース明細書情報における記載支援用未完成メッセージを修正(例えば未完成部分開始記号と未完成部分終了記号とで挟まれた文字列の部分等を修正)することで、効率的に、発明文書の明細書を適切に生成又は更新できる可能性がある。
また、例えば、重要語句に対して符号を決定する前記符号決定処理で、他の重要語句が表す要素を構成上包含する要素を表す当該重要語句に対して符号を決定する場合においては、当該重要語句が表す要素が構成上包含する、他の重要語句が表す要素の数に応じて当該符号を決定することとしてもよい。
これにより、符号決定処理により、例えば、他の重要語句が表す要素をn個(nは自然数)包含する要素を表す重要語句についての符号を、n個を表すために必要なk桁(kは自然数)の桁数分のゼロ「0」を末尾に付加した数等として決定されることが可能となり得る。例えばnが10以上99以下であればkは2となり、他の重要語句が表す要素をn個(nは自然数)包含する要素を表す重要語句についての符号は、2桁のゼロを末尾に付加した数等、例えば「500」等と、決定され得る。そして例えば符号「500」が付加された重要語句が表す要素に包含される要素を表す各重要語句についての符号は、例えば「501」、「502」、…、「510」、…、「599」等と決定され得る。このため、各重要語句が表す要素間の包含関係を一見して認識し易いように、各重要語句の符号が決定され得る。
また、例えば、前記分析部は、前記表示用文書における前記クレームベース明細書情報に含まれる重要語句の表示要素に、当該表示要素の表示態様を制御するための表示制御情報を付加し、当該表示制御情報は、当該重要語句の当該表示要素を、当該表示要素の操作に応じて、前記表示用文書における前記クレーム情報中の当該重要語句を含む記載部分を表示するためのグラフィカルユーザインタフェース(GUI)として機能させるためのものであり、前記分析部は、前記表示用文書における前記クレームベース明細書情報に含まれる少なくとも1つの記載支援用未完成メッセージが複数の選択肢を列挙したメッセージである場合において、当該記載支援用未完成メッセージの表示要素に、当該表示要素の表示態様を制御するための表示制御情報を付加し、当該表示制御情報は、当該記載支援用未完成メッセージの当該表示要素を、当該記載支援用未完成メッセージの前記複数の選択肢の選択操作を可能にするためのGUIとして機能させ、前記複数の選択肢のうちのいずれかの選択肢の選択操作がなされた場合に、当該表示要素の表示内容としての当該記載支援用未完成メッセージを、選択操作がなされた当該選択肢に適した別の予め定められた記載支援用未完成メッセージへと変更するためのものであることとしてもよい。
これにより、表示用文書としての特許出願関連情報におけるクレームベース明細書情報を閲覧した発明者等又は弁理士は、クレームベース明細書情報中の記載支援用未完成メッセージに含まれる複数の選択肢のうち、明細書に記載したい事項に関連する1つの選択肢の選択操作を行うことで、その記載支援用未完成メッセージが変更された結果の、その選択操作した選択肢に適した、別の記載支援用未完成メッセージを閲覧することができる。このため、発明者等又は弁理士は、例えば、その選択操作後に表示されているクレームベース明細書情報を活用して(例えばテキストエディタ等にそのクレームベース明細書情報をコピー&ペーストして適宜修正する等により)、効率的に、発明文書の明細書を適切に生成又は更新できる可能性がある。
また、例えば、前記分析部は、前記文書取得部により取得された発明文書のクレームに基づいてクレームベース図面情報を生成し、前記特許出願関連情報は、前記表示用文書において表示されるべき、前記クレームベース図面情報を含み、前記クレームベース図面情報は、1つ以上の各図面の図面番号と、各図面に記載されるべき重要語句と、重要語句間の関連性と、重要語句に符号が対応する場合には符号を示す情報を含み、前記分析部は、前記文書取得部により取得された発明文書のクレームから前記重要語句抽出部により抽出された複数の重要語句が表す要素間に構成上の包含関係がある場合に当該包含関係に基づいて、被包含側の要素を表す重要語句を囲み、当該重要語句に対応する符号を引出線で結んだ枠線の外側に、包含側の要素を表す重要語句を配置して当該包含側の重要語句と当該被包含側の要素に係る枠線とを取り囲み、当該包含側の重要語句に対して前記符号決定処理において決定された符号を引出線で結んだ枠線とを描いた構成図を、前記クレームベース図面情報における図面として生成し、前記分析部は、前記表示用文書における前記クレームベース明細書情報に含まれる符号の表示要素に、当該表示要素の表示態様を制御するための表示制御情報を付加し、当該表示制御情報は、符号の当該表示要素を、当該表示要素の操作に応じて、前記表示用文書における前記クレームベース図面情報における当該符号と同一の符号を含む部分を表示するためのGUIとして機能させるためのものであり、前記クレームベース明細書情報に含まれる当該符号の表示要素に係る当該表示制御情報は、当該符号の操作に応じて当該符号を引数として起動され、当該引数の符号を含む前記クレームベース図面情報中の部分を符号の検索により特定するスクリプトの関数名又は関数自体を定義するものであることとしてもよい。
これにより、発明文書のクレームから抽出された重要語句間の包含関係に基づいて、図面を含むクレームベース図面情報が生成されるので、発明者等又は弁理士は、クレームベース図面情報を参照することで、効率的に適切な図面を生成できる可能性がある。また、発明者等又は弁理士は、表示用文書としての特許出願関連情報のクレームベース明細書情報に含まれる符号に係るGUIに対して操作することで、その符号が記載されたクレームベース図面情報中の部分を迅速に確認することができるので、クレームベース明細書情報等を活用して、効率的に発明文書の明細書を適切に生成又は更新することが可能になり得る。
(変形例グループ3)
本開示における発明文書分析システムは、技術的思想を日本語で表した、特許出願用のクレーム又は明細書を記載した文書である発明文書を、分析する発明文書分析システムであって、重要語句の抽出の条件を示す条件情報を含む設定情報を取得する設定情報取得部と、発明文書を取得する文書取得部と、前記文書取得部により取得された発明文書を、前記設定情報に基づいて分析する分析部と、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された情報を出力する出力部とを含み、前記分析部は、前記文書取得部により取得された発明文書から前記設定情報に基づいて重要語句を抽出する重要語句抽出部を含み、前記出力部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々に基づいて生成された情報を出力する発明文書分析システムである。
これにより、発明文書分析システムは、例えば発明者等(例えば発明者若しくはその関係者)又は弁理士により作成された発明文書を分析した結果に基づく情報を出力するので、例えば、その発明文書を翻訳する翻訳者等(例えば翻訳者又はその他の発明文書を用いる者)にとっては、出力された情報を参照することにより、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。発明文書における重要語句に基づいて生成された情報は、翻訳者が、発明文書の重要語句に対応する対応翻訳語を決定してから発明文書全体を翻訳するような場合において、有用となり得る。
ここで、例えば、前記出力部は、前記文書取得部により取得された発明文書についての前記分析部による分析結果に基づいて生成された特許出願関連情報を出力し、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された複数の重要語句各々について、当該重要語句に、当該重要語句に関連する付加情報を付加した情報を含み、前記特許出願関連情報における、前記文書取得部により取得された発明文書から抽出された前記複数の重要語句各々について付加された、当該重要語句に関連する前記付加情報は、当該重要語句の意味を表す翻訳語句である対応翻訳語に関する情報としての翻訳語情報を含み、前記分析部は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された重要語句各々について、当該重要語句についての対応翻訳語の候補の集合である翻訳語候補集合を特定するための翻訳語候補集合特定部を含み、前記文書取得部により取得された発明文書の前記重要語句に関連する前記付加情報に含まれる、対応翻訳語に関する情報としての前記翻訳語情報は、前記翻訳語候補集合特定部により特定された、当該重要語句についての翻訳語候補集合を表す翻訳語候補情報、又は、当該対応翻訳語を含むこととしてもよい。翻訳語句は、例えば、日本語以外の一種類の言語(例えば英語、中国語等)で表された語句である。
これにより、発明文書分析システムにより出力される特許出願関連情報を得ることで翻訳者等は、発明文書の複数の重要語句を把握でき、翻訳者は、発明文書の翻訳のために付加情報に基づいて、重要語句に対応する、重要語句と同じ意味の翻訳先の言語である翻訳語句を、効率的に又は適正に決定することが可能となり得る。また、発明文書分析システムにより出力される特許出願関連情報に含まれる翻訳語情報を参照することで翻訳者は、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。また、発明文書分析システムにより出力される特許出願関連情報に含まれる翻訳語候補情報又は対応翻訳語を参照することで翻訳者は、例えば重要語句に対応する翻訳語候補情報が表す翻訳語候補集合から1つの翻訳語句を選択する等により、重要語句に対応する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された前記複数の重要語句各々が、表示されるべき内容として含まれた、表示用文書として出力され、前記発明文書から抽出された重要語句に関連する前記付加情報は、当該重要語句についての前記翻訳語候補集合のうちのいずれかの要素を操作に応じて選択可能にするように、当該翻訳語候補集合をグラフィカルユーザインタフェース(GUI:Graphical User Interface)要素として表示するための表示制御情報を含み、前記重要語句に関連する前記付加情報に含まれる前記表示制御情報は、前記GUI要素として表示された状態の、当該重要語句についての前記翻訳語候補集合から、操作に応じて選択された要素を、当該重要語句に対応する対応翻訳語として決定する決定処理を実行するためのスクリプトを含み、前記翻訳語候補集合から選択された要素を対応翻訳語として決定する前記決定処理は、表示されていた当該翻訳語候補集合を、当該対応翻訳語へと置換して表示する処理を含むこととしてもよい。
これにより、翻訳者は、表示用文書のGUI要素に対する選択の操作により、翻訳語候補集合から重要語句に対応する対応翻訳語を容易に決定することができる。また、翻訳者は、例えば、ブラウザ等による表示用文書の表示内容から、決定処理により表示された対応翻訳語等を、所謂コピー&ペースト、所謂カット&ペースト等により、容易に取得可能となる。なお、コピー&ペースト又はカット&ペーストは、概ね、コピー(つまり複製)又はカット(つまり切り取り)の対象となるデータを選択してそのデータを、他の場所を指定してその場所にペースト(つまり貼り付け)する操作であり、この操作により、コピー又はカットの対象のデータが、オペレーティングシステム(OS:Operating System)等の管理下で所定のメモリ領域に保持され、ペーストの操作によりそのデータがその所定のメモリ領域からペースト先として指定された場所に貼り付けられる。
また、例えば、前記条件情報は、重要語句の候補となる文字列のパターンを表した重要語句候補文字列パターンを示す重要語句候補文字列パターン情報と、先行記載した文字列の参照用に用いられる参照文字列のパターンを表した参照文字列パターンを示す参照文字列パターン情報と、要素名を表す文字列に後続して付記される符号の文字列のパターンを表した符号文字列パターンを示す符号文字列パターン情報と、所定の助詞である文字列のパターンを表した特定助詞文字列パターンを示す特定助詞文字列パターン情報とを含み、前記重要語句候補文字列パターン情報は、少なくとも、先頭文字が漢字である所定の文字列、及び、先頭文字が片仮名である所定の文字列が、当該重要語句候補文字列パターンに該当するように定められており、前記参照文字列パターン情報は、少なくとも、「前記」という文字列が、当該参照文字列パターンに該当するように定められており、前記符号文字列パターン情報は、少なくとも、先頭文字が数字である所定の文字列が、当該符号文字列パターンに該当するように定められており、前記特定助詞文字列パターン情報は、少なくとも、「を」、「に」、「が」、「と」、「から」、「へ」及び「は」のいずれかの文字が、当該特定助詞文字列パターンに該当するように定められており、前記重要語句抽出部は、前記文書取得部により取得された発明文書に、前記参照文字列パターンに該当する第1文字列に後続して前記重要語句候補文字列パターンに該当する第2文字列が存在する場合に、当該第2文字列と同一の文字列を重要語句として抽出する第1抽出部と、前記文書取得部により取得された発明文書にクレームが含まれている場合において、当該クレーム中に、前記重要語句候補文字列パターンに該当する第3文字列に後続して句点文字が存在するときには、当該第3文字列と同一の文字列を重要語句として抽出する第2抽出部と、前記文書取得部により取得された発明文書に、前記重要語句候補文字列パターンに該当する第4文字列に後続して前記符号文字列パターンに該当する第5文字列が存在する場合に、当該第4文字列と同一の文字列を重要語句として抽出する第3抽出部と、前記文書取得部により取得された発明文書に、前記重要語句候補文字列パターンに該当する第6文字列に後続して前記特定助詞文字列パターンに該当する第7文字列が存在する場合に、当該第6文字列と同一の文字列を重要語句として抽出する第4抽出部とを含み、前記重要語句抽出部は重要語句の前記抽出においては、前記重要語句候補文字列パターンに複数の文字列が該当していた場合において当該複数の文字列のうちの一の文字列が他の文字列に発明文書の記載上包含されていたときには、当該複数の文字列のうち当該一の文字列を除外した残余の文字列を選択対象として重要語句を選択して抽出し、前記設定情報は、抽出対象とすべき重要語句を列挙した重要語句設定辞書の特定用情報を含み、前記重要語句設定辞書では、列挙されている重要語句の少なくとも一部に対して対応翻訳語が対応付けられており、前記発明文書分析システムは、前記設定情報に基づいて前記重要語句設定辞書を取得する重要語句設定辞書取得部を含み、前記重要語句抽出部は、前記重要語句設定辞書に列挙されている重要語句が前記文書取得部により取得された発明文書に含まれている場合には、当該発明文書から当該重要語句を抽出し、前記重要語句抽出部が、前記重要語句設定辞書で対応翻訳語が対応付けられている重要語句を、前記文書取得部により取得された発明文書から抽出した場合には、前記特許出願関連情報における、当該発明文書から抽出された当該重要語句に関連する前記付加情報は、当該対応翻訳語を表し、前記重要語句抽出部が、前記重要語句設定辞書で対応翻訳語が対応付けられている重要語句以外の重要語句を前記文書取得部により取得された発明文書から抽出した場合には、前記特許出願関連情報における、当該発明文書から抽出された当該重要語句に関連する前記付加情報に含まれる前記表示制御情報は、前記翻訳語候補集合特定部により特定された当該重要語句の翻訳語候補集合のうちのいずれかの要素を操作に応じて選択可能となるように、当該翻訳語候補集合をGUI要素として表示するための情報を含み、当該表示制御情報は、前記GUI要素として表示された状態の、当該重要語句の当該翻訳語候補集合から、操作に応じて選択された要素を、当該重要語句に対応する対応翻訳語として決定する前記決定処理を実行するためのスクリプトを含むこととしてもよい。
これにより、重要語句抽出部は、例えば、発明文書において語句を参照する表現がある場合に参照される語句を一定条件下で重要語句と扱い、発明文書のクレームにおいて句点文字の直前に記載された語句を一定条件下で重要語句と扱うので、参照する程に注目して記載された語句及びクレームの請求対象を表す語句が重要語句として扱われる可能性がある。通常の発明文書のクレームにおいて請求対象に後続して句点文字が記載される傾向が十分に存在すると想定される。従って、発明文書分析システムが発明文書において重要と推定される重要語句に基づいて、出力部により情報が出力され得るので、その出力される情報は有用であり得る。また、重要語句抽出部は、例えば、他の重要語句の記載の一部をなす語句を重要語句として抽出しないように扱い、発明文書において所定の助詞に先行する語句(例えば名詞句等)を一定条件下で重要語句と扱い、発明文書において符号が付されて記載された語句を一定条件下で重要語句と扱うので、主語、目的語等の比較的重要な語句及び発明文書に関連する図面中に図示されると推定される要素を表す語句が重要語句として扱われ得る。発明文書が日本語で記述されているので、漢字又は片仮名で始まる語句が重要語句である可能性は十分にある。従って、発明文書分析システムが、発明文書において重要と推定される重要語句に基づいて、出力部により情報が出力され得るので、その出力される情報は有用であり得る。また、これにより、例えば、発明文書を作成した発明者等又は弁理士は、特定の語句を重要語句として定めておきたい場合、重要語句についての対応翻訳語を定めておきたい場合等に、重要語句設定辞書を生成しておくことで、発明文書分析システムにより、適切な特許出願関連情報が出力されるようになり得る。このため、翻訳者は、その特許出願関連情報を参考にして発明文書の翻訳を、効率的に又は適正に行うことが可能となり得る。また、翻訳者が、重要語句について対応翻訳語を定めている場合等において重要語句設定辞書を生成しておくことで、発明者等又は弁理士から提供された発明文書を、発明文書分析システムで分析させた場合に、適切な特許出願関連情報が出力されるようになり得る。
また、例えば、前記重要語句抽出部が、前記重要語句設定辞書で対応翻訳語が対応付けられている重要語句以外の重要語句を前記文書取得部により取得された発明文書から抽出した場合に、前記特許出願関連情報における、当該発明文書から抽出された当該重要語句に関連する前記付加情報に含まれる前記表示制御情報は、前記決定処理の実行結果として対応翻訳語が決定された重要語句について当該重要語句と該当の対応翻訳語とを対応付けた情報を含むように前記重要語句設定辞書を更新する更新処理を実行するためのスクリプトを含むこととしてもよい。
これにより、翻訳語候補集合が選択操作されることで重要語句設定辞書の内容が、その後の発明文書の分析に際してより適切に活用されるような内容に更新され得る。
また、例えば、前記特許出願関連情報は、前記文書取得部により取得された発明文書から前記重要語句抽出部により抽出された各重要語句について、当該重要語句と、当該重要語句についての対応翻訳語、又は、当該重要語句についての翻訳語候補集合とを、対応付けて構成される重要語句リストを含み、前記表示用文書としての前記特許出願関連情報における前記重要語句リスト中の重要語句、対応翻訳語、及び、翻訳語候補集合の各々の表示要素には、重要語句に関連する前記付加情報としての、当該表示要素の表示態様の制御のための表示制御情報が付加されていることとしてもよい。
これにより、翻訳者は、重要語句リストを参照することで、発明文書に含まれる重要語句を迅速に把握でき、効率的な翻訳を行うことが可能になる。また、発明者等、弁理士、或いは、翻訳者は、発明文書分析システムに一旦発明文書を分析させた結果として出力される特許出願関連情報における重要語句リストを、編集することで、効率的に、重要語句設定辞書の生成、更新等を行うことが可能となり得る。
また、例えば、前記文書取得部により取得された発明文書にクレームが含まれている場合には、前記特許出願関連情報は、前記表示用文書において表示されるべき前記クレームの内容を表すクレーム情報と、前記クレーム情報に表されるクレームについての機械翻訳の結果を表すクレーム翻訳情報とを含み、前記クレーム翻訳情報における、前記クレーム情報の一行又は一項を機械翻訳対象とした機械翻訳の結果を表す一行又は一項は、当該クレーム情報の行若しくは項の全体を翻訳先言語で表した完全翻訳行、又は、当該クレーム情報の行若しくは項に含まれる重要語句を、当該重要語句に対応する対応翻訳語、若しくは、当該重要語句についての翻訳語候補集合に、置換した結果である部分翻訳行であり、前記文書取得部により取得された発明文書に明細書が含まれている場合には、前記特許出願関連情報は、前記表示用文書において表示されるべき前記明細書の内容を表す明細書情報と、前記明細書情報に表される明細書についての機械翻訳の結果を表す明細書翻訳情報とを含み、前記明細書翻訳情報における、前記明細書情報の一行を機械翻訳対象とした機械翻訳の結果を表す一行は、当該明細書情報の行の全体を翻訳先言語で表した完全翻訳行、又は、当該明細書情報の行に含まれる重要語句を、当該重要語句に対応する対応翻訳語、若しくは、当該重要語句についての翻訳語候補集合に、置換した結果である部分翻訳行であり、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報は、当該発明文書から前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々について、当該重要語句の表示態様を制御するための表示制御情報を含み、前記文書取得部により取得された発明文書の明細書の内容を表す前記明細書情報は、当該発明文書から前記重要語句抽出部により抽出された当該明細書中の複数の重要語句各々について、当該重要語句の表示態様を制御するための表示制御情報を含み、前記クレーム情報及び前記明細書情報における、前記重要語句抽出部により抽出された複数の重要語句各々についての、当該重要語句の表示態様を制御するための前記表示制御情報は、当該表示制御情報に対応する当該重要語句の表示態様を、前記クレーム情報及び前記明細書情報における当該複数の重要語句以外の語句の表示態様と相違させるための強調表示情報を含み、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々に対応する、表示態様を制御するための前記表示制御情報各々は、当該複数の重要語句各々を互いに相違する表示態様で表示するように制御するための、互いに相違する識別情報を含み、前記明細書情報における、前記重要語句抽出部により抽出された複数の重要語句各々についての、当該重要語句の表示態様を制御するための前記表示制御情報は、当該重要語句が、前記クレーム情報における、重要語句を構成する文字列が互いに相違する前記複数の重要語句のいずれかと同一であれば、当該重要語句を、前記クレーム情報における当該同一の重要語句と同様の表示態様で表示させ、当該重要語句が、前記クレーム情報における、重要語句を構成する文字列が互いに相違する当該複数の重要語句のいずれとも相違すれば、当該重要語句を、前記クレーム情報における当該複数の重要語句のいずれとも相違する表示態様で表示させるように制御する情報を含み、前記クレーム翻訳情報及び前記明細書翻訳情報は、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句各々と同一の重要語句については、当該重要語句を機械翻訳対象とした機械翻訳の結果の表示要素に付加する情報として、当該機械翻訳の結果の表示態様の少なくとも一部が前記クレーム情報及び前記明細書情報における当該重要語句の表示態様の少なくとも一部と同一となるように、当該機械翻訳の結果の表示態様を制御するための表示制御情報を含むこととしてもよい。
これにより、例えば、翻訳者等は、ブラウザ等により表示された表示用文書に係る特許出願関連情報のクレーム情報及び明細書情報において表示態様が制御された重要語句を識別することが可能となり得るし、クレーム翻訳情報及び明細書翻訳情報において表示態様が制御された重要語句の翻訳結果を識別し、どの翻訳結果がどの重要語句と対応するかを迅速に把握することが可能となり得る。また、特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中の明細書情報において記載された各重要語句が、クレームに記載されている重要語句か否かを識別することが可能となり、複数の重要語句が同一か相違するかを、各重要語句の表示態様により、迅速に把握することが可能となり得る。なお、発明文書分析システムにおいて、重要語句の表示態様の制御として、例えば強調表示(例えば太字で表示する等)がなされたとすれば、翻訳者等は、クレーム情報における重要語句の迅速な把握が可能となり得る。
また、例えば、前記表示用文書は、前記特許出願関連情報を表示されるべき内容として含み、HTML(Hypertext Markup Language)で記載されたHTMLファイルを含むHTML文書であり、前記文書取得部により取得された発明文書のクレームの内容を表す前記クレーム情報が含む、前記重要語句抽出部により抽出された当該クレーム中の複数の重要語句各々についての、当該重要語句に係る前記表示制御情報は、当該重要語句に付加される表示色を示し、前記文書取得部により取得された発明文書の明細書の内容を表す前記明細書情報が含む、前記重要語句抽出部により抽出された当該明細書中の複数の重要語句各々についての、当該重要語句に係る前記表示制御情報は、当該重要語句に付加される表示色を示し、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々に係る前記表示制御情報は、当該複数の重要語句各々を、重要語句毎に相違する表示色を付加した表示態様で表示するように制御するためのものであり、前記クレーム情報における、重要語句を構成する文字列が互いに相違する前記複数の重要語句のうちのいずれか1つの重要語句と同一の文字列で構成される、前記クレーム情報における重要語句に係る表示制御情報は、当該重要語句を、前記1つの重要語句と同一の表示色を付加した表示態様で表示するように制御するためのものであり、前記明細書情報における、複数の重要語句各々について、当該重要語句が、前記クレーム情報における前記複数の重要語句のうちのいずれか1つの重要語句と同一であれば、前記明細書情報における当該重要語句に係る前記表示制御情報は、当該重要語句を、前記クレーム情報における前記1つの重要語句の表示態様として付加された表示色と同一の表示色を付加した表示態様で表示するように制御するためのものであり、前記クレーム翻訳情報及び前記明細書翻訳情報は、前記クレーム情報における重要語句を構成する文字列が互いに相違する前記複数の重要語句各々と同一の重要語句については、当該重要語句を機械翻訳対象とした機械翻訳の結果の表示要素に付加する情報として、当該機械翻訳の結果の表示態様の少なくとも一部の表示色が前記クレーム情報及び前記明細書情報における当該重要語句の表示態様の少なくとも一部の表示色と同一となるように、当該機械翻訳の結果の表示態様を制御するための表示制御情報を含むこととしてもよい。
これにより、HTMLに対応しているブラウザを搭載したPC、スマートフォンその他のコンピュータを用いて、翻訳者等はHTML文書である表示用文書としての特許出願関連情報を閲覧できる。ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中において重要語句、及び、重要語句の翻訳結果に対して付加された表示色を識別することにより、ある重要語句がクレームに記載されている重要語句か否かを識別することが可能となり、複数の重要語句が同一であるのか相違するのであるのかを迅速に把握でき、ある翻訳結果がどの重要語句に対応するのかを迅速に把握できる。
また、例えば、前記クレーム情報における、重要語句を構成する文字列が互いに相違する複数の重要語句各々に係る前記表示制御情報は、当該複数の重要語句各々を、重要語句毎に相違する表示色で所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであり、前記明細書情報における、複数の重要語句各々について、当該重要語句が、前記クレーム情報における前記複数の重要語句のうちのいずれか1つの重要語句と同一であれば、前記明細書情報における当該重要語句に係る前記表示制御情報は、当該重要語句を、前記クレーム情報における前記1つの重要語句の表示態様に係る左境界線の表示色と同一の表示色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御し、前記明細書情報における当該重要語句が、前記クレーム情報における当該複数の重要語句のいずれとも相違すれば、前記明細書情報における当該重要語句に係る前記表示制御情報は、当該重要語句を、前記左境界線が付加されていない表示態様で表示するように制御するためのものであり、前記クレーム情報における重要語句に係る前記表示制御情報が、当該重要語句を、前記所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであるところの重要語句を機械翻訳対象とする、前記クレーム翻訳情報及び前記明細書翻訳情報における当該重要語句についての機械翻訳の結果に係る前記表示制御情報は、当該機械翻訳の結果を、当該重要語句の表示態様に係る左境界線の表示色と同一の表示色で前記所定幅を有する左境界線が付加された表示態様で表示するように制御するためのものであることとしてもよい。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中においてクレーム情報に含まれる相違する重要語句同士を、その各重要語句に付加された左境界線の表示色を識別することで、迅速に区別できる。なお、相違する重要語句同士について、重要語句に付加された左境界線の表示色を相違させて表現する方法には、重要語句の文字色或いは文字背景色を相違させて表現する方法より、表示領域の背景色が暗い色(例えば黒)か明るい色(例えば白)かに拘わらず重要語句自体の判読性を低下させないという利点がある。またHTML文書で一部の表示要素に付加可能な左境界線は、文字ではないので、重要語句を含む記載の表示内容のテキストについてのコピー&ペースト等を行う場合に無視されるため、表示内容をテキストエディタ等へとコピー&ペーストして、重要語句を含む記載等を編集するような場合において、邪魔にならない。また、特許出願関連情報を閲覧した翻訳者等は、特許出願関連情報中において重要語句、及び、重要語句の翻訳結果に対して付加された左境界線の表示色を識別することにより、あるクレームの重要語句の翻訳結果が、クレームに記載されているどの重要語句に対応するのかを迅速に把握することが可能となる。
また、例えば、前記クレーム翻訳情報は、前記クレーム情報の各行を包含し、包含したクレーム情報の一行毎又は一項毎について、当該一行又は一項の内容の直後に、当該一行又は一項の内容である機械翻訳対象に対応する機械翻訳の結果を表す、完全翻訳行又は部分翻訳行を、挿入したものであり、前記明細書翻訳情報は、前記明細書情報の各行を包含し、包含した明細書情報の一行毎について、当該一行の直後に、当該一行である機械翻訳対象に対応する機械翻訳の結果を表す、完全翻訳行又は部分翻訳行を挿入したものであり、前記クレーム翻訳情報及び前記明細書翻訳情報には、前記クレーム翻訳情報及び前記明細書翻訳情報における機械翻訳対象の少なくとも一部分の表示要素の表示態様と、当該機械翻訳対象に対応する機械翻訳の結果の少なくとも一部分の表示要素の表示態様とが、少なくとも一部で相違するように制御するために、当該各表示要素に表示制御情報が付加されていることとしてもよい。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、クレーム翻訳情報及び明細書翻訳情報において、機械翻訳対象の行と、機械翻訳結果の行とを迅速に識別可能となる。
また、翻訳者等は、クレーム翻訳情報或いは明細書翻訳情報における機械翻訳対象の行を目視して確認しながら、その機械翻訳対象の行の後方に配置されている機械翻訳結果の行の内容を適宜修正して、より適切な翻訳文を効率的に作成することが可能となり得る。
また、例えば、前記クレーム翻訳情報及び前記明細書翻訳情報には、前記クレーム翻訳情報及び前記明細書翻訳情報における機械翻訳対象の少なくとも一部分の表示要素の表示態様と、当該機械翻訳対象に対応する機械翻訳の結果の少なくとも一部分の表示要素の表示態様とが、文字背景色、文字色、文字装飾、フォントサイズ、フォントスタイル、及び、フォントウェイトのうちの少なくとも1つにおいて相違するように制御するために、当該各表示要素に表示制御情報が付加されていることとしてもよい。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、クレーム翻訳情報及び明細書翻訳情報において、機械翻訳対象の行と、機械翻訳結果の行とを、文字背景色、文字色、文字装飾、フォントサイズ、フォントスタイル、及び、フォントウェイトのうちの少なくとも1つの相違により、迅速に識別可能となる。
また、例えば、前記クレーム翻訳情報及び前記明細書翻訳情報における重要語句を機械翻訳対象とする機械翻訳の結果の表示要素には、当該表示要素の操作に応じて当該重要語句に対する、当該機械翻訳の結果とは異なる翻訳語候補集合を表示するGUIとしての機能を当該表示要素に持たせるための、翻訳語候補情報を含む表示制御情報が付加されており、当該表示制御情報は、当該操作の結果として表示された当該翻訳語候補集合を表示する当該GUIに対する、当該翻訳語候補集合から1つの要素の選択操作がなされた場合に、機械翻訳の結果の当該表示要素の内容を当該選択操作により選択された当該1つの要素に変更するように定められていることとしてもよい。
これにより、ブラウザ等により表示された表示用文書としての特許出願関連情報を閲覧した翻訳者等は、クレーム翻訳情報及び明細書翻訳情報における重要語句についての機械翻訳の結果を、必要に応じて選択操作により容易に変更できるようになる。
また、例えば、前記文書取得部は複数の発明文書を取得し、前記クレーム翻訳情報及び前記明細書翻訳情報の前記部分翻訳行における対応翻訳語は、重要語句の機械翻訳のための学習モデルである重要語句翻訳用学習モデルを利用した機械翻訳の結果として生成され、前記発明文書分析システムは、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する翻訳用発明文書標準規定取得部と、前記文書取得部により取得された前記複数の発明文書各々について、当該発明文書が前記翻訳用発明文書標準規定で定められた前記複数の条件のうちの少なくとも一部の各条件を満たすか否かについての判定を行い、当該複数の発明文書のうち、当該判定がなされた前記条件を満たす程度が予め定めた所定程度を超えるところの発明文書を選出する文書評価部と、機械学習部とを含み、前記機械学習部は、前記文書評価部により選出された発明文書に基づいて、前記発明文書分析システムにより表示用文書が生成されて重要語句についての翻訳語候補集合に係るGUIが表示された結果として当該重要語句と当該翻訳候補集合から選択された1つの要素との組を、前記重要語句翻訳用学習モデルの生成のための機械学習用の教師データとして蓄積して、過去に蓄積された複数の教師データを用いた機械学習により、重要語句の機械翻訳のための前記重要語句翻訳用学習モデルを生成する機能を含むこととしてもよい。
これにより、翻訳用発明文書標準規定への適合性が比較的高い発明文書が選出されて、その発明文書における重要語句と、対応する翻訳候補集合から選択された要素とが重要語句翻訳用学習モデルの生成に利用され、翻訳が困難なような不適切な発明文書が重要語句翻訳用学習モデルの生成材料から除外されるので、重要語句翻訳用学習モデルが適切に生成され得る。また、生成された重要語句翻訳用学習モデルが後に発明文書の分析に利用されることにより、発明文書における重要語句についてのより適切な機械翻訳が、実現され得る。より適切な機械翻訳の結果を参照することで、翻訳者は、発明文書における重要語句を翻訳した翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記クレーム翻訳情報及び前記明細書翻訳情報における前記完全翻訳行は、機械翻訳のための学習モデルである翻訳用学習モデルを利用した機械翻訳の結果として生成され、前記文書取得部は、複数の発明文書と、当該複数の発明文書各々の翻訳結果である、複数の翻訳結果文書とを取得し、前記発明文書分析システムは、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する翻訳用発明文書標準規定取得部と、前記文書取得部により取得された前記複数の発明文書各々について、当該発明文書が前記翻訳用発明文書標準規定で定められた前記複数の条件のうちの少なくとも一部の各条件を満たすか否かについての判定を行い、当該複数の発明文書のうち、当該判定がなされた前記条件を満たす程度が予め定めた所定程度を超えるところの発明文書を選出する文書評価部と、機械学習部とを含み、前記機械学習部は、前記文書評価部により選出された発明文書と、当該発明文書に基づいて翻訳された結果としての翻訳結果文書との複数組を教師データとして用いた機械学習により、前記翻訳用学習モデルを生成する機能を含むこととしてもよい。
これにより、翻訳用発明文書標準規定に基づいて発明文書の選出がなされるので、不適切な記載を含む発明文書と、その発明文書に基づいて生成された翻訳ミス等によりその発明文書と内容に齟齬のある翻訳結果文書との組が教師データに用いられにくくなり、発明文書分析システムで、適切な翻訳用学習モデルが生成されるようになり得る。また、発明文書分析システムにおいて、その適切な翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。この発明文書の機械翻訳の結果としてのクレーム翻訳情報及び明細書翻訳情報における完全翻訳行を参照し、適宜修正することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
また、例えば、前記分析部は、前記文書取得部により取得された発明文書に基づいて一定条件下で警告情報を生成し、前記特許出願関連情報は、前記警告情報を含み、前記警告情報は、前記文書取得部により取得された発明文書が前記翻訳用発明文書標準規定に定められた複数の条件を満たすか否かを検査して条件が満たされない場合にその旨を指摘する指摘情報と、前記文書取得部により取得された発明文書が前記翻訳用発明文書標準規定に定められた複数の条件のうちの少なくとも一部の各条件を満たすか否かの検査の結果に基づいて予め定められた演算により算出された、当該発明文書の翻訳用発明文書標準規定への適合性の評価値を示す発明文書評価情報とを含むこととしてもよい。
これにより、発明文書分析システムにより出力された特許出願関連情報を参考にすることにより、発明文書を作成した発明者等又は弁理士は、必要であれば発明文書の修正を行い得る。また、翻訳者は、例えば、発明者等又は弁理士から、翻訳対象となる発明文書及び特許出願関連情報の提供を受けることにより、特許出願関連情報中の警告情報での指摘が残っていてもその指摘は特に対処の必要がないと発明者等又は弁理士が判断した結果であると推定できるので、翻訳対象となる適切な発明文書を取得することができ、この結果として、発明文書の翻訳を効率的に又は適正に行うことが可能となり得る。
また、発明文書分析システムにより出力された特許出願関連情報に含まれる発明文書評価情報を参考にすることで、発明者等又は弁理士は、その発明文書を適切に修正できる可能性がある。また、翻訳者は、発明文書評価情報を確認することで、翻訳対象として適切な発明文書であるか否かを認識することが可能となり得る。不適切な記載を含む発明文書は、例えば、翻訳ミスを招き易く、翻訳者が適切な権利取得(例えば特許権の取得)のために発明文書を修正した上で翻訳するような事態も生じ得る。従って、発明文書に基づいて生成された特許出願関連情報における警告情報に、翻訳用発明文書標準規定への適合性が比較的低いことを示す発明文書評価情報が含まれていた場合には、その発明文書は、その発明文書に基づいて翻訳された結果である翻訳結果文書との間で、言語が異なる以外に内容の齟齬がある可能性が十分にあり得ると判断でき、例えば、機械翻訳に用いる翻訳用学習モデルの生成のために、その発明文書と翻訳結果文書との組とを機械学習用の教師データとして用いることが有用ではないとの判断等が、可能となり得る。
また、例えば、前記翻訳用発明文書標準規定は、当該翻訳用発明文書標準規定のバージョンを示すバージョン情報と、発明文書が当該翻訳用発明文書標準規定で定められた複数の条件各々に適合しているか否かに係る判定を行う処理のための検査プログラムとを含み、前記翻訳用発明文書標準規定取得部は、ネットワーク上のリソースとしての前記翻訳用発明文書標準規定にアクセスして、既に取得している前記翻訳用発明文書標準規定の前記バージョン情報が示すバージョンより新しいバージョンの翻訳用発明文書標準規定が取得可能であれば、当該新しいバージョンの翻訳用発明文書標準規定を取得し、前記分析部は、前記翻訳用発明文書標準規定に含まれる前記検査プログラムの実行により、前記文書取得部により取得された発明文書が前記翻訳用発明文書標準規定で定められた複数の条件各々に適合しているか否かを判定し、当該判定の結果を用いることで前記警告情報の生成を行うこととしてもよい。
翻訳用発明文書標準規定が、例えば、翻訳用の発明文書の標準化を目的とした団体等といった特定団体又は特定者により制定された規定であって、インターネット等のネットワーク上に提供(例えば公開等)されたものである場合においては、時を経るにつれて、制定した特定団体又は特定者によって翻訳用発明文書標準規定をより適切なものにするためのバージョンアップがなされ得るが、この発明文書分析システムによれば、必要な時において新しいバージョンの翻訳用発明文書標準規定をネットワークから取得して発明文書の分析、(つまり警告情報の生成等)に利用するので、分析時において適切な分析(つまり警告情報の生成等)がなされ得る。
また、例えば、前記クレーム翻訳情報及び前記明細書翻訳情報における前記完全翻訳行は、機械翻訳のための学習モデルである翻訳用学習モデルを利用した機械翻訳の結果として生成され、前記発明文書分析システムは、翻訳対象となる発明文書が満たすべき複数の条件を定めた翻訳用発明文書標準規定を取得する翻訳用発明文書標準規定取得部を含み、前記翻訳用発明文書標準規定は、翻訳対象となる発明文書が満たすべき条件を定める情報として、当該条件を満たさない不適切な可能性がある記載部分についての文字列のパターンを表した不適切文字列パターンを示す不適切文字列パターン情報と、当該記載部分の修正方法に関する修正情報とを対応付けて含み、前記発明文書分析システムは、機械学習部を含み、前記機械学習部は、前記文書取得部により取得された発明文書中に、前記翻訳用発明文書標準規定で定められた条件に係る前記不適切文字列パターン情報が示す前記不適切文字列パターンに該当する文字列が存在した場合には、当該発明文書の内容と、当該不適切文字列パターン情報に対応付けられた前記修正情報とに基づいて、当該条件を満たすように当該発明文書の内容を修正することで生成される修正版発明文書と、当該発明文書に対応する翻訳結果文書との組を教師データとして用いた機械学習により、機械翻訳のための学習モデルである前記翻訳用学習モデルを生成する機能を含むこととしてもよい。
これにより、機械学習用の教師データとして用いられる修正版発明文書と翻訳結果文書とは、相互の内容の齟齬が低減されたものとなる可能性があるので、発明文書分析システムにより適切な翻訳用学習モデルが生成される可能性がある。また、発明文書分析システムにおいて、その適切な翻訳用学習モデルを利用した演算処理により発明文書を機械翻訳することが可能となる。この発明文書の機械翻訳の結果としてのクレーム翻訳情報及び明細書翻訳情報における完全翻訳行を参照し、適宜修正することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
また、例えば、前記発明文書分析システムは、複数の発明文書各々から前記重要語句抽出部により抽出された重要語句群間の相関性に基づいて、又は、ユーザによる指定に基づいて、発明文書のグループ分類を実行し、グループ毎に、発明文書から抽出された重要語句と、対応する対応翻訳語との複数組を教師データとした機械学習により、重要語句の機械翻訳のための学習モデルである重要語句翻訳用学習モデルを生成し、前記文書取得部により取得された一の発明文書に基づき生成された前記クレーム翻訳情報及び前記明細書翻訳情報の前記部分翻訳行における対応翻訳語は、当該一の発明文書が属するグループの重要語句翻訳用学習モデルを利用した機械翻訳の結果として生成されたものであることとしてもよい。このグループ分類は、例えば発明の属する技術分野が同一である複数の発明文書各々から抽出された重要語句群間の相関性は一定程度以上高いと想定できることから、発明文書に係る発明の属する技術分野の分類であり得るし、ユーザによる指定に基づいて、IPCで分類した場合におけるIPCのセクション、或いは、セクション及びクラスが相違するものを互いに異なるグループとするような分類であり得るし、ユーザによる指定に基づいて、一の発明文書で示された発明を創作した発明者の所属部門を、他の部門と区別するように、発明文書に係る発明者の所属部門別に異なるグループとするような分類であり得るが、発明者等、弁理士、或いは、翻訳者にとって有用なグループ分類がなされるように運用することが想定される。
これにより、発明文書が属するグループに適合した重要語句翻訳用学習モデルを利用した演算処理により発明文書における各重要語句を機械翻訳することが可能となり得る。また、クレーム翻訳情報及び明細書翻訳情報の部分翻訳行を参照することで、翻訳者は、発明文書の重要語句を効率的に又は適正に翻訳することが可能となり得る。
また、例えば、前記発明文書分析システムは、複数の発明文書各々から前記重要語句抽出部により抽出された重要語句群間の相関性に基づいて、又は、ユーザによる指定に基づいて、複数の発明文書のグループ分類を実行し、グループ毎に、発明文書と、対応する翻訳結果文書との複数組を教師データとした機械学習により、機械翻訳のための学習モデルである翻訳用学習モデルを生成し、前記文書取得部により取得された一の発明文書に基づき生成された前記クレーム翻訳情報及び前記明細書翻訳情報における前記完全翻訳行は、当該一の発明文書が属するグループの翻訳用学習モデルを利用した機械翻訳の結果として生成されたものであることとしてもよい。
これにより、発明文書が属するグループに適合した翻訳用学習モデルを利用した演算処理により発明文書における各重要語句を機械翻訳することが可能となり得る。また、クレーム翻訳情報及び明細書翻訳情報の完全翻訳行を参照することで、翻訳者は、発明文書を効率的に又は適正に翻訳することが可能となり得る。
また、例えば、発明文書の前記グループ分類は、複数の発明文書各々から前記重要語句抽出部により抽出された重要語句群間の相関性に基づいて実行され、前記複数の発明文書各々から抽出された重要語句群間の相関性は、前記複数の発明文書各々から抽出された重要語句群の各重要語句について、当該重要語句の属性情報に基づいて決定された当該重要語句の重要度の高さに対応した重み付けを行った上で、算定され、発明文書から抽出された重要語句の前記属性情報は、当該発明文書のクレーム中で当該重要語句が使用されているか否かを識別する情報、当該発明文書中において当該重要語句に対応する符号が存在するか否かを識別する情報、当該発明文書中で当該重要語句の主語としての使用があるか否かを識別する情報、及び、当該重要語句が予め定められた技術用語特有語尾文字列を有するか否かを識別する情報を含むこととしてもよい。
これにより、各重要語句の重要度が、重要語句群間の相関性に反映されるので、グループ分類が重要語句翻訳用学習モデル又は翻訳用学習モデルの生成のためにおいて一層適切なものとなり得る。発明文書分析システムが、そのグループ分類の結果として生成された重要語句翻訳用学習モデル又は翻訳用学習モデルを用いて発明文書を機械翻訳した結果を参照することで、翻訳者は、発明文書をより効率的に翻訳することが可能となり得る。
また、例えば、発明文書から抽出された各重要語句についての前記属性情報に基づいて決定された重要度は、当該発明文書における各重要語句が表す各要素の相互間における構成上の包含関係に基づいて、包含側の要素に係る重要語句の重要度が、当該包含側の要素に係る重要語句が表す要素に包含される全ての被包含側の要素に係る各重要語句についての重要度のうちで最高値の重要度の値と同一以上の値となるように更新された後に、重要語句群間の前記相関性の算定に用いられることとしてもよい。
これにより、構成上の包含関係を有する要素間における被包含側の要素群に係る重要語句のうち、重要度が属性情報に基づいて一旦最も高く決定された重要語句の重要度が、最終的には、包含側の要素に係る重要語句の重要度へ伝播されるので、重要語句に係る構成上の包含関係を踏まえて算定される上述の重要語句群間の相関性に基づくグループ分類の結果は、重要語句翻訳用学習モデル又は翻訳用学習モデルの生成のためにおいて一層適切なものとなり得る。
また、例えば、前記文書取得部により取得された発明文書について生成された前記特許出願関連情報に係る前記表示用文書における重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、当該表示要素の操作に応じて、当該重要語句に対する前記属性情報を表示する処理と、当該発明文書に基づく前記クレーム情報、前記明細書情報、又は、当該発明文書とは別の発明文書から、当該重要語句を含む行を列挙して表示する重要語句包含記載列挙処理と、ネットワーク上の検索サイトで、当該重要語句を含むウェブページ、当該重要語句の定義、当該重要語句の類義語、若しくは、当該重要語句の関連画像を検索する処理、又は、ネットワーク上の翻訳サイトで当該重要語句を翻訳させる処理とを実行するGUIとして機能させるものであり、前記重要語句包含記載列挙処理は、操作対象となった重要語句を含む行を、前記クレーム情報、前記明細書情報又は前記別の発明文書から、列挙して表示し、当該列挙して表示した各行における当該重要語句については強調表示を行い、表示した行には、当該行に対する操作に応じて、前記クレーム情報、前記明細書情報又は前記別の発明文書における当該行を含む複数行へのリンク表示のためのGUIとして当該行を機能させるための表示制御情報を付加する処理であることとしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された特許出願関連情報中の重要語句に対する操作により、その重要語句の属性情報、重要語句の検索結果(例えば重要語句を含むウェブページ、重要語句の定義、類義語、関連画像)、重要語句の翻訳結果等の情報を知得することが可能となり得るので、発明文書における重要語句について効率的に又は適正に理解することが可能となり得る。このため、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、翻訳者等は、操作した重要語句を含むことで重要語句包含記載列挙処理により列挙された行におけるその重要語句が強調表示されるので、その重要語句を的確に識別できる。また、翻訳者等は、操作した重要語句を含むことで重要語句包含記載列挙処理により列挙された行のうちの1つの行に対して更に操作することで、更に表示されることになるその1つの行に前後する、クレーム情報、明細書情報又は別の発明文書における複数行を、容易に確認可能となる。
また、例えば、前記発明文書から抽出された重要語句に関連する前記付加情報に含まれる前記表示制御情報は、前記決定処理を実行するための前記スクリプトの実行によって当該決定処理の実行結果として対応翻訳語が決定された各重要語句について当該重要語句と該当の対応翻訳語とを対応付けた情報である翻訳補助情報を生成して出力する処理を実行するためのスクリプトを含み、前記文書取得部により取得された発明文書の一の重要語句に関連する前記付加情報に含まれる前記翻訳語情報が前記翻訳語候補集合である場合には、当該翻訳語候補集合の要素は、前記発明文書システムによって、過去に、1つ以上の発明文書各々について、当該発明文書の前記分析部による分析結果に基づいて生成された前記特許出願関連情報に係る前記表示用文書が前記出力部に出力されて表示のために利用された結果としての、当該1つ以上の発明文書各々における各重要語句について生成された前記翻訳補助情報に基づいて、特定されたものであり、前記文書取得部により取得された発明文書の一の重要語句に関連する前記付加情報に含まれる前記翻訳語情報が対応翻訳語である場合には、当該対応翻訳語は、当該一の重要語句に対する前記翻訳補助情報を用いることで決定されたものであることとしてもよい。
これにより、翻訳者による表示用文書の翻訳語候補集合に係るGUI要素に対する選択操作の結果が、その後に、翻訳補助情報を介して、発明文書分析システムによる重要語句に対応する対応翻訳語の決定について又は重要語句に対する翻訳語候補集合の特定についての妥当性を向上させる可能性がある。
また、例えば、前記文書取得部により取得された発明文書の一の重要語句に関連する前記付加情報に含まれる前記翻訳語情報が前記翻訳語候補集合である場合には、当該翻訳語候補集合の要素は、前記発明文書分析システムによって、過去に、複数の発明文書各々に基づいて出力された前記表示用文書各々が表示された結果として生成された複数の前記翻訳補助情報各々における、重要語句と、対応する対応翻訳語との組を、重要語句翻訳用の機械学習のための教師データとして用いて、機械学習により生成された学習モデルである重要語句翻訳用学習モデルを利用した機械翻訳の結果として、特定されたものであり、前記文書取得部により取得された発明文書の一の重要語句に関連する前記付加情報に含まれる前記翻訳語情報が対応翻訳語である場合には、当該対応翻訳語は、前記翻訳補助情報に基づいて生成された前記重要語句翻訳用学習モデルを利用した、当該一の重要語句の機械翻訳の結果として、決定されたものであることとしてもよい。
これにより、翻訳者による表示用文書の翻訳語候補集合に係るGUI要素に対する選択操作の結果として生成された翻訳補助情報に基づき生成された重要語句翻訳用学習モデルが、後に、発明文書分析システムに用いられることにより、発明文書分析システムによる重要語句に対応する対応翻訳語の決定について又は重要語句に対する翻訳語候補集合の特定についての妥当性が向上し得る。
また、例えば、前記文書取得部は複数の発明文書を取得し、前記出力部は、前記文書取得部により取得された複数の発明文書各々に対して出力された前記表示用文書各々が表示された結果として生成された複数の前記翻訳補助情報各々における、重要語句と、対応する対応翻訳語との組を、重要語句翻訳用の機械学習のための教師データとして用いて、機械学習により生成された学習モデルである重要語句翻訳用学習モデルを出力する学習モデル出力部を含むこととしてもよい。
これにより、発明文書の機械翻訳を行うための機械翻訳システム等において、その重要語句翻訳用学習モデルを用いて重要語句を入力とする演算処理を実行することで、発明文書における重要語句についての機械翻訳が、実現され得る。
この機械翻訳の結果を参照することで、翻訳者は、発明文書における重要語句を翻訳した翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、例えば、前記文書取得部により取得された発明文書について生成された前記特許出願関連情報に係る前記表示用文書における、当該発明文書から前記重要語句抽出部により抽出された重要語句に係る前記表示制御情報は、当該重要語句の表示要素を、当該表示要素の操作に応じて、当該重要語句の属性情報を表示する処理と、当該発明文書に基づく前記クレーム情報及び前記明細書情報から当該重要語句を含む行を列挙して表示する重要語句包含記載列挙処理と、ネットワーク上の検索サイトで当該重要語句を含むウェブページ、当該重要語句の定義、当該重要語句の類義語、若しくは、当該重要語句の関連画像を検索する処理、又は、ネットワーク上の翻訳サイトで当該重要語句を翻訳させる処理とを実行するGUIとして機能させるものであり、前記発明文書から抽出された重要語句の前記属性情報は、当該発明文書のクレーム中で当該重要語句が使用されている場合に当該重要語句が記載されたクレームの項の項番を示す情報と、当該発明文書中において当該重要語句に符号が付加された記載が存在する場合に当該符号を示す情報とを含むこととしてもよい。
これにより、ブラウザ等により表示された表示用文書に係る特許出願関連情報を閲覧した翻訳者等は、表示された特許出願関連情報中の重要語句に対する操作により、その重要語句の属性情報としての重要語句が記載されたクレームの項番及び重要語句に対応する符号、重要語句の検索結果(例えば重要語句を含むウェブページ、重要語句の定義、類義語、関連画像)、重要語句の翻訳結果等の情報を知得することが可能となり得るので、発明文書における重要語句について効率的に又は適正に理解することが可能となり得る。このため、翻訳者は、重要語句に対する翻訳語句を効率的に又は適正に決定することが可能となり得る。
また、本開示における発明文書分析処理プログラムは、マイクロプロセッサ(Microprocessor)を備える機器に、技術的思想を日本語で表した特許出願用のクレーム又は明細書を記載した文書である発明文書を分析する発明文書分析処理を、行わせるための発明文書分析処理プログラムであって、前記発明文書分析処理は、重要語句の抽出の条件を示す条件情報を含む設定情報を取得する設定情報取得ステップと、発明文書を取得する文書取得ステップと、前記文書取得ステップにより取得された発明文書を、前記設定情報に基づいて分析する分析ステップと、前記文書取得ステップにより取得された発明文書についての前記分析ステップによる分析結果に基づいて生成された情報を出力する出力ステップとを含み、前記分析ステップは、前記文書取得ステップにより取得された発明文書から前記設定情報に基づいて重要語句を抽出する重要語句抽出ステップを含み、前記出力ステップでは、前記文書取得ステップにより取得された発明文書から前記重要語句抽出ステップにより抽出された複数の重要語句各々に基づいて生成された情報を出力する発明文書分析処理プログラムである。
この発明文書分析処理プログラムを、マイクロプロセッサを備える機器等にインストールすることで、その機器等は、発明文書分析処理を実現し得る。この発明文書分析処理プログラムにより実現される発明文書分析処理により、出力された情報を参照することで、翻訳者等にとっては、発明文書の理解が促進される可能性がある。発明文書の理解の促進は、翻訳者にとって発明文書を適切に又は効率的に翻訳するために有用となる。
また、本開示における表示用文書は、上述した発明文書分析システムにより出力され、コンピュータプログラムとしてのスクリプトを含み得るデータであり、マークアップ言語で記述された文書を含むデータである。本開示における表示用文書は、マークアップ言語で記述された文書を含み、マイクロプロセッサを備える機器におけるブラウザによる解釈の対象とされ、上述した発明文書分析システムにより生成された上述の特許出願関連情報を、表示されるべき内容として含む。
この表示用文書を、マイクロプロセッサを備える機器におけるブラウザに解釈させることで、特許出願関連情報が表示される。この特許出願関連情報を参照することで、翻訳者等にとって発明文書の理解が促進される可能性がある。