JP2005216321A - 文書評価部署割り当てシステム - Google Patents

文書評価部署割り当てシステム Download PDF

Info

Publication number
JP2005216321A
JP2005216321A JP2005059054A JP2005059054A JP2005216321A JP 2005216321 A JP2005216321 A JP 2005216321A JP 2005059054 A JP2005059054 A JP 2005059054A JP 2005059054 A JP2005059054 A JP 2005059054A JP 2005216321 A JP2005216321 A JP 2005216321A
Authority
JP
Japan
Prior art keywords
evaluation department
keyword
evaluation
correspondence table
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005059054A
Other languages
English (en)
Inventor
Hiroshi Nakano
拓 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005059054A priority Critical patent/JP2005216321A/ja
Publication of JP2005216321A publication Critical patent/JP2005216321A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 数多くの文書の評価において、1つ1つの文書に対して複数の評価部署から自動的に最適な評価部署を割り当てるシステムを提供する。
【解決手段】 優先、通常、補助の3種類のキーワードと評価部署との対応テーブルを設定し(101)、文書のテキストデータを解析して、対応テーブルに含まれるキーワードの出現回数を計数し(105)、優先、通常、補助の順で、対応テーブルに含まれるキーワードの出現回数にゼロでないものがあれば出現回数の最大のキーワードに対応する部署を評価部署として決定する(107,108,109)。
【選択図】 図5

Description

本発明は、特許文書等の文書評価において、1つ1つの文書に対して複数の評価部署から自動的に最適な評価部署を割り当てるシステムに関するものである。
従来、技術文書データベースは技術文書を評価する技術者の意図する範囲で検索されてきた。例えば、特開平6−139291号(名称「情報検索方法およびシステム」)では予め登録した検索条件による高速な検索を行い、利用者の要求する条件に合う情報を指定部署に早期に配布するシステムが示されている。このシステムでは技術文書を評価する技術者が作成した検索条件によって検索されるため、企業として調査すべき文書が残らず検索される保証はない。
しかし、知的財産権に関する紛争件数が多くなり、また知的財産権侵害に対する賠償額が高額になり、経営者が自社の取り扱う製品に関する技術に関して広範囲の評価を研究開発部署に課して、自社の製品の知的財産権に関する安全性、つまり他者の知的財産権を侵害しないことを確認したいと切望するような時代となってきた。
本発明の目的は、数多くの技術文書の1つ1つを複数の研究開発部署の中から自動的に評価部署として最適な部署に割り当てるシステムを提供することにある。
本発明では上記目的を達成するために、キーワードと評価部署との対応テーブルを格納するテーブル記憶手段と、前記テーブル記憶手段からキーワードと評価部署との対応テーブルを入力するテーブル入力手段と、複数の文書を格納する文書記憶手段と、前記文書記憶手段から文書を入力する文書入力手段と、前記文書入力手段から得られた文書から前記対応テーブルに含まれるキーワードを抽出して何個含まれているか計数するキーワード抽出・計数手段と、前記キーワード抽出・計数手段により計数されたキーワードの出現回数の最大値を判定する最大値判定手段と、前記最大値判定手段から得られた最大値を持つキーワードを少なくとも入力として前記対応テーブルを索引することにより評価部署を決定する評価部署決定手段とを備えた構成を採用することとしたものである。
本発明によれば、特に大量の文書に対して評価部署を自動的に適切に割り当てることが可能となり、企業の経営戦略の強力なツールの1つとなる。
以下、図面を参照して、本発明の文書評価部署割り当てシステムをモデル会社に適用した例を説明する。図1にモデル会社の組織図を、図2に図1中のA事業部の組織図をそれぞれ示す。ここでは図1中のA事業部について、中でも図2に示すZ開発センターに所属する各開発チームT1〜T8に対して図3に示す30件の米国特許文書の評価をどのように割り当てるかを説明する。図4に示すとおり、Z開発センターの各開発チームT1〜T8では種々のデジタルAV製品に使用されるシステムLSIを研究開発しているものとする。
《第1の実施形態》
まず、キーワードと評価部署との対応テーブルを使用した文書評価部署割り当てシステムの例を説明する。
図5は本発明の第1の実施形態の構成を示すブロック図である。図5において、101はキーワードと評価部署との対応テーブルを格納するテーブル記憶手段、102はキーワード評価部署対応テーブル入力手段、103は複数の特許文書を格納する文書記憶手段、104は文書入力手段、105は特許文書からキーワードを抽出し、キーワード毎の出現回数を計数するキーワード抽出・計数手段、106はキーワードの出現回数の最大値判定手段、107は優先評価部署決定手段、108は評価部署決定手段、109は補助評価部署決定手段、110は評価部署決定結果出力手段、111は表示装置、112は評価部署決定結果記憶手段、113はプリンタである。
文書記憶手段103には図3に示す30件の米国特許のテキストデータが格納されている。また、キーワード評価部署対応テーブル記憶手段101には図6A〜図6Cに示すキーワードと評価部署との対応テーブルが格納されている。“T1”〜“T8”は上記Z開発センターに所属する各開発チームを、“Y”は図2に示すY開発センターをそれぞれ意味する。Y開発センターではアナログAV製品用システムLSIの研究開発を担当しているものとする。“該当なし”はこの会社では該当製品を開発・製造していないことを表している。なお、図6A〜図6Cではキーワードは評価部署と1対1に対応しているが、例えばキーワード“video disk”が開発チームT3及びT4と1対2に対応する場合には、“video disk”に対応する評価部署の欄を“T3,T4”とすればよい。図6A〜図6Cを逆引きして各評価部署がどのようなキーワードに対応しているかを、図7に示す。
また、本実施形態の文書評価部署割り当てシステムでは、図6A〜図6Cの対応テーブル(以下、通常対応テーブルと呼ぶ)とあわせて、図8に示す優先対応テーブルと、図9に示す補助対応テーブルとをキーワード評価部署対応テーブル記憶手段101に更に格納しておく。なお、図6A〜図6Cの通常対応テーブル、図8の優先対応テーブル、図9の補助対応テーブルにそれぞれ、キーワード毎の重みを追加して格納しておく。
はじめにキーワード評価部署対応テーブル入力手段102が図6A〜図6C、図8、図9に示すテーブルを読み出す。次に図3に示す30件の米国特許文書を1件毎に処理する。文書入力手段104が特許文書テキストデータを1件毎に読み出し、キーワード抽出・計数手段105では図6A〜図6C、図9に示すテーブルのキーワードについては特許テキストの全体を抽出の対象とし、図8に示すテーブルのキーワードについては要約とクレームの部分を抽出の対象とする。抽出されたキーワードは出現回数が計数される。キーワード出現回数最大値判定手段106では優先、通常、補助の3種の対応テーブルそれぞれについて出現回数が最大値を有するキーワードを判定する。これより、キーワード出現回数最大値判定手段106の判定結果をもとにして、優先評価部署決定手段107では図8に示す優先テーブルのキーワードの出現回数がゼロでないとき、出現回数が最も多いキーワードに対応する評価部署を最適な評価部署として決定する。最も多いキーワードが複数ある場合には先に見つかったキーワードから評価部署を選択しても、また最も多いキーワードの数だけ評価部署を選択しても、いずれにせよ評価部署を割り当てることができたという点では同じである。
優先評価部署決定手段107によって評価部署が決まらなかったとき、評価部署決定手段108では図6A〜図6Cに示す通常対応テーブルのキーワードの出現回数がゼロでないものがあるとき、出現回数が最も多いキーワードに対応する評価部署を最適な評価部署として決定する。
評価部署決定手段108によっても評価部署が決まらなかったとき、補助評価部署決定手段109では図9に示す補助対応テーブルのキーワードの出現回数がゼロでないものがあるとき、出現回数が最も多いキーワードに対応する評価部署を最適な評価部署として決定する。図9の補助対応テーブルに登録するキーワードとしては、出現回数が図6A〜図6Cの通常対応テーブルに登録するキーワードよりも優先度として劣るが評価部署が未選定とならないような働きをするキーワードを登録する。
評価部署決定結果出力手段110で優先評価部署決定手段107、評価部署決定手段108、補助評価部署決定手段109での決定をまとめた結果を表示装置111及び評価部署決定結果記憶手段112へ出力し、後に必要があれば、評価部署決定結果記憶手段112に記憶された決定結果をプリンタ113へ更に出力する。
図10に表示装置111への出力例を示す。図10では最初に文書評価部署割り当てシステムを起動したあと、開始時刻が出力され、以降30件の特許明細書のファイル名と選定された評価部署が出力されている。ファイル名は米国特許番号に“0”を冠し、ファイル拡張子“.TXT”が付加された形で表示されている。“stage 1”とは優先評価部署決定手段107で評価部署が決定されたこと、“stage 2”とは評価部署決定手段108で評価部署が決定されたこと、“stage 3”とは補助評価部署決定手段109で評価部署が決定されたことをそれぞれ示している。各行の最後は評価部署を示しており、最後に文書評価部署割り当てシステムの終了時刻が出力される。なお、図10にはないが、優先評価部署決定手段107、評価部署決定手段108、補助評価部署決定手段109で評価部署が決定されない場合には評価部署は「未選定」と表示される。
評価部署決定結果記憶手段112へは、最初に図11に示す全件のまとめ結果が出力されたあと、一時的に溜め込んでおいた各特許文書に対する結果が出力される。評価部署決定結果記憶手段112への出力はHTML形式で出力されるが本実施形態の説明ではブラウザを通した形で表示する。図11で左上の縦線を伴わない右矢印は1番目の決定結果へのリンクボタン、また縦線を伴った右矢印は本出力最後尾へのリンクボタンである。特許ファイルの欄の各特許はそれぞれ個別の結果へとリンクが張られている。
各個別の結果については優先評価部署決定手段107で決定される場合、評価部署決定手段108で決定される場合、補助評価部署決定手段109で決定される場合、それぞれ1ケースずつ以下に示す。まず、図12に米国特許6148136に対する結果を示す。図12の左上の縦線を伴う左矢印は先頭の全体まとめ結果へのリンクボタン、縦線を伴わない左矢印は1つ前の結果へのリンクボタン、縦線を伴わない右矢印は1つ後の結果へのリンクボタン、縦線を伴った右矢印は本出力最後尾へのリンクボタンである。最後である30番目の結果に対しては縦線を伴わない右矢印は本出力最後尾へのリンクボタンと同じ作用になる。リンクボタンのあと、通し番号、特許文書ファイル名、タイトル、登録日、要約が出力されている。米国特許6148136の要約で図8の優先対応テーブルに含まれる“digital VCR”が1回出現しているので、評価部署として開発チームT6が選択されている。以下、評価部署決定手段108、補助評価部署決定手段109で決定が行われた場合に使用されるキーワードと出現回数が評価部署とともに出力されている。図6A〜図6C、図8、図9に含まれるキーワードが全くない場合には30番目の結果の「補助割り当てによる評価推薦部署」のようにキーワード欄に「部署に対応するキーワードなし」と表示される。
更に、オプションとして単語を解析して出現回数順に出力するかどうかが選択可能であり、選択した場合、米国特許6148136に対しては図13A及び図13Bが出力される。図13A及び図13Bの結果は図6A〜図6C、図8、図9の対応テーブルに登録したキーワードに不足はないか検討するときに参考になる。
次に評価部署決定手段108で決定される場合の例を図14に示す。図12と共通する事柄については説明を省略して米国特許5699125に対して優先評価部署決定手段107では評価部署が決定されなかったため、「優先割り当てによる評価推薦部署」では推薦部署が「未選定」と表示されている。評価部署決定手段108では図6A〜図6Cの通常対応テーブルに登録されているキーワードの中で“electronic TV program guide”と“EPG”が見つかり、最大出現回数を与える“electronic TV program guide”に対応する開発チームT2が評価部署として決定される。以下、補助評価部署決定手段109で決定が行われた場合に使用されるキーワードと出現回数が評価部署とともに出力されている。米国特許5699125に対する単語と出現回数の結果は図13A及び図13Bと中身は異なるが形式は同じであり省略する。
更に補助評価部署決定手段109で決定される場合の例を図15に示す。図12と共通する事柄については説明を省略する。米国特許5657098に対して優先評価部署決定手段107、評価部署決定手段108で評価部署が決定されなかったため、「優先割り当てによる評価推薦部署」、「通常割り当てによる評価推薦部署」ではそれぞれ推薦部署が「未選定」と表示されている。補助評価部署決定手段109では図9の補助対応テーブルに登録されているキーワードの中で“color temperature”と“television”が見つかり、最大出現回数を与える“color temperature”に対応するY開発センターが評価部署として決定される。
本実施形態によれば、優先、通常、補助の3種類のキーワードと評価部署との対応テーブルを設定し、文書のテキストデータを解析して、対応テーブルに含まれるキーワードの出現回数を計数し、優先対応テーブルに含まれるキーワードの出現回数にゼロでないものがあれば出現回数の最大のキーワードに対応する部署を評価部署として決定し、優先対応テーブルに含まれるキーワードの出現回数が全てゼロのときには、通常対応テーブルに含まれるキーワードの出現回数にゼロでないものがあれば出現回数の最大のキーワードに対応する部署を評価部署として決定し、優先対応テーブル、通常対応テーブルそれぞれに含まれるキーワードの出現回数が全てゼロのときには、補助対応テーブルに含まれるキーワードの出現回数にゼロでないものがあれば出現回数の最大のキーワードに対応する部署を評価部署として決定し、優先、通常、補助の3種の対応テーブルそれぞれに含まれるキーワードの出現回数が全てゼロのときには未選定とすることとしたので、簡単な検索のみで評価部署を決定することができる。しかも、キーワードの抽出及び計数にあたり、優先対応テーブルのキーワードについては要約とクレームの部分を抽出の対象とし、通常対応テーブル及び補助対応テーブルのキーワードについては特許テキストの全体を抽出の対象としたので、割り当て洩れが最小限になるように最適な評価部署を決定することができる。
ここで、図6A〜図6C、図8、図9の各テーブルに示されるキーワード毎の重みの利用方法を説明する。キーワード抽出・計数手段105では、抽出したキーワード毎の計数値に、これに対応する重みを掛けて得た値を当該キーワードの出現回数としてキーワード出現回数最大値判定手段106へ渡す。キーワード出現回数最大値判定手段106では、優先、通常、補助の3種の対応テーブルそれぞれについて重み付けされた出現回数が最大値を有するキーワードを判定し、その判定結果を優先評価部署決定手段107、評価部署決定手段108、補助評価部署決定手段109へ渡すのである。なお、図6A〜図6C、図8、図9の例では重みを“1.0”、“0.5”、“0.1”の3種類しか設定していないが、重みの値は任意である。したがって、キーワード毎に任意の重みが設定可能であり、柔軟な評価部署選定条件をキーワードと評価部署との対応テーブルに設定することができる。
なお、キーワード出現回数最大値判定手段106では評価部署毎に対応するキーワードの出現回数の和を求めたあと、出現回数の和の最大値を判定することとし、評価部署決定手段108では出現回数の和の最大値を与える部署を評価部署として決定するようにしてもよい。例えば、キーワード出現回数最大値判定手段106では優先、通常、補助の3種の対応テーブルについて、評価部署毎の対応キーワードの重み付けされた出現回数の和を求めたあと、当該出現回数の和が最大値となる評価部署を最適な評価部署として決定する。図16にキーワード出現回数最大値判定手段106で最大値を判定する準備として各評価部署に対応するキーワードの出現回数に重みを掛けたあと、評価部署毎の重み付けされた出現回数の和(スコア)を1件毎の特許文書について表示した一例を示す。図16の例によれば、例えば米国特許5526045の評価部署として、最大スコアを示す開発チームT5が選択される。
また、上記説明では出現回数が最も多いキーワードに対応する評価部署を最適な評価部署として決定することとしたが、出現回数が一定範囲内にあるキーワードに対応する複数の評価部署を選択するようにしてもよい。
《第2の実施形態》
次に、特許分類コードと評価部署との対応テーブルを自動的に作成するシステムの例を説明する。
図17は本発明の第2の実施形態の構成を示すブロック図である。図17において、101はキーワードと評価部署との対応テーブルを格納するテーブル記憶手段、102はキーワード評価部署対応テーブル入力手段、103は複数の特許文書を格納する文書記憶手段、104は文書入力手段、105は特許文書からキーワードを抽出し、キーワード毎の出現回数を計数するキーワード抽出・計数手段、106はキーワードの出現回数の最大値判定手段、107は優先評価部署決定手段、108は評価部署決定手段、109は補助評価部署決定手段、210は特許分類コード抽出手段、211は特許分類コード評価部署対応テーブル作成手段、212は特許分類コード評価部署対応テーブル出力手段、213は表示装置、214は特許分類コード評価部署対応テーブル記憶手段、215はプリンタである。
図17において評価部署を決定するまでの動作は図5の第1の実施形態と同じであるので省略する。特許分類コードの抽出にあたっては評価部署を決定するために1つ1つ特許文書を文書入力手段104から入力したときに特許分類コード抽出手段210によって抽出してもよいし、評価部署を全て決定してから再度文書入力手段104により特許文書を1つ1つ入力して特許分類コード抽出手段210によって抽出してもよい。最終的に図18に示す特許文書に対応した評価部署、特許分類コードが得られる。
特許分類コード評価部署対応テーブル作成手段211では図18の表を特許分類コードに対応する評価部署の表に変換して図19A〜図19Dに示す表を得る。特許分類コードに対応する評価部署が1部署しかないときはその部署をその特許分類コードに対応する評価部署として決定し、特許分類コードに対応する評価部署が複数部署あるときは件数が最大の部署を評価部署として決定する。また、件数が最大の部署が複数部署あるときはその複数部署をその特許分類コードに対応する評価部署として決定してもよいし、先に見つかった部署をその特許分類コードに対応する評価部署として決定してもよいが、本実施形態では前者を採用する。図19A〜図19Dではほとんどの特許分類コードに対して1部署しか対応していないが、特許分類コード“358906”には開発チームT5、T6それぞれ1件ずつなので、開発チームT5、T6の2部署を同コード“358906”に対応する評価部署として決定する。特許分類コード“386 46”には開発チームT1が3件、開発チームT6が2件なので、開発チームT1を同コード“386 46”に対応する評価部署として決定する。特許分類コード“386 95”には開発チームT3が2件、開発チームT5が1件なので、開発チームT3を同コード“386 95”に対応する評価部署として決定する。特許分類コード“386 98”には開発チームT3が3件、開発チームT6が1件なので、開発チームT3を同コード“386 98”に対応する評価部署として決定する。この結果を特許分類コードに対応する評価部署として表すと図20A〜図20Cのテーブル、すなわち特許分類コード評価部署対応テーブルが得られる。また、同じ結果を評価部署に対応する特許分類コードとして表すと図21の表を得る。特許分類コード評価部署対応テーブル作成手段211が作成した特許分類コード評価部署対応テーブルを、特許分類コード評価部署対応テーブル出力手段212ではHTML形式で特許分類コード評価部署対応テーブル記憶手段213に出力する。
本実施形態によれば、キーワード評価部署対応テーブルをもとにして特許分類コード評価部署対応テーブルを自動的に作成することができ、例えば次に説明する第3の実施形態に係る文書評価部署割り当てシステムにおいてその結果が利用される。
《第3の実施形態》
次に、特許分類コードと評価部署との対応テーブルを使用した文書評価部署割り当てシステムの例を説明する。
図22は本発明の第3の実施形態の構成を示すブロック図である。図22において、301は特許分類コードと評価部署との対応テーブルを格納する特許分類コード評価部署対応テーブル記憶手段、302は特許分類コード評価部署対応テーブル入力手段、303は複数の特許文書を格納する文書記憶手段、304は文書入力手段、305は特許文書から特許分類コードを抽出し、特許分類コード毎の出現回数を計数する特許分類コード抽出・計数手段、306は特許分類コード出現回数最大値判定手段、307は評価部署決定手段、308は評価部署決定結果出力手段、309は表示装置、310は評価部署決定結果記憶手段、311はプリンタである。
文書記憶手段303には図3に示す30件の米国特許のテキストデータが格納されている。また、特許分類コード評価部署対応テーブル記憶手段301には図20A〜図20Cに示す特許分類コードと評価部署との対応テーブルが格納されている。図20A〜図20Cでは、特許分類コード“358906”が開発チームT5及びT6の2部署に対応している以外は、特許分類コードが評価部署と1対1に対応している。
はじめに特許分類コード評価部署対応テーブル入力手段302が特許分類コード評価部署対応テーブル記憶手段301に格納されている図20A〜図20Cに示すテーブルを読み出す。次に図3に示す30件の米国特許文書を1件毎に処理する。文書入力手段304が文書記憶手段303から特許文書テキストデータを1件毎に読み出し、特許分類コード抽出・計数手段305では図20A〜図20Cに示すテーブルの特許分類コードについて特許テキストの当該特許に付けられた米国特許分類コードの主分類、及び主分類以外から抽出し、引用特許からは特許分類コードを抽出しないものとする。次に抽出された特許分類コードの出現回数を特許分類コード抽出・計数手段305で求める。特許分類コード抽出・計数手段305で求めた特許分類コードの出現回数を入力として特許分類コード出現回数最大値判定手段306では図20A〜図20Cに示すテーブルの特許分類コードの出現回数がゼロでないものがあるとき、各評価部署に対応する特許分類コードの出現回数の和を求め、出現回数の和が最も多い評価部署を判定する。次に評価部署決定手段307では特許分類コード出現回数最大値判定手段306の判定した出現回数の和が最も多い評価部署を最適な評価部署として決定する。最も多い出現回数の和が複数ある場合には先に見つかった評価部署を選択しても、また最も多い出現回数の和を有する評価部署の数だけ評価部署を選択しても、いずれにせよ評価部署を割り当てることができたという点では同じである。
評価部署決定手段307での決定を評価部署決定結果出力手段308でまとめた結果を表示装置309、評価部署決定結果記憶手段310へ出力する。図23に表示装置309への出力例を示す。図23では最初にプログラムを起動したあと、開始時刻が出力され、以降30件の特許明細書のファイル名と選定された評価部署が出力されている。以下、“stage 1”、“stage 2”、“stage 3”が図23にはないことが図10と異なっているだけでそれ以外は同じである。
評価部署決定結果記憶手段310へは、最初に第1の実施形態の図11に示した全件のまとめ結果と同様な結果が出力されたあと、一時的に溜め込んでおいた各特許文書に対する結果が出力される。評価部署決定結果記憶手段310への出力はHTML形式で出力されるが本実施形態の説明ではブラウザを通した形で表示する。
各個別の結果については米国特許6044198の1ケースを図24に示す。図24の左上のリンクボタンは第1の実施形態と同じなので説明を省略する。リンクボタンのあと、通し番号、特許文書ファイル名、タイトル、登録日、要約が出力されている。図24に含まれる表の「出現回数」の欄には部署に対応した全ての特許分類コードの出現回数が表示されている。表の「出現回数和」の欄には部署毎の特許分類コードの出現回数の和が表示されている。米国特許6044198の米国特許分類コードは、
主分類 :“386 98”
主分類以外:“386 46”、“386 52”、“348705”、“358906”
であり、“386 98”には開発チームT3が、“386 46”には開発チームT1が、“386 52”には開発チームT6が、“348705”には開発チームT6が、“358906”には開発チームT5及びT6がそれぞれ対応している。最も出現回数の和が大きい開発チームT6が評価部署に決定される。
本実施形態(特許分類コードによる割り当て)によれば、第1の実施形態(キーワードによる割り当て)に比べて短時間で評価部署を決定することができる。30件の米国特許を処理するのに要した時間を、第1の実施形態では単語解析を行うかどうかのオプション指定の有無についても測定し、結果を図25に示す。割り当てシステムを実行する環境も3つの場合について測定したが、どの場合も特許分類コードによる割り当てがキーワードによる割り当てに比べて100倍以上速い。米国特許10000件については、図25を単純に比例計算すると図26を得る。
第3の実施形態で使用した特許分類コードは10部署で82個であり、1部署平均8.2であるがより多くの部署を扱うためには特許分類コードを増やしていく必要があり、処理時間は特許分類コードに比例するという粗い見積もりを行うと1部署平均100の特許分類コードで部署の数を20にしても2000÷82≒24.3倍となり、仮にキーワードの種類を増やさないことにしてもキーワードによる割り当て時間よりも短く、5分の1以下となることが予想される。よって、本発明の文書評価部署割り当てシステムを特許文書に適用する場合にはキーワードによる割り当てから評価部署の対応する特許分類コードを求め、非常に数が多い特許文書の割り当ては特許分類コードにより割り当てることが推奨される。
《第4の実施形態》
次に、キーワードと評価部署との対応テーブルを自動的に作成するシステムの例を説明する。
図27は本発明の第4の実施形態の構成を示すブロック図である。図27において、401は人名と評価部署との対応テーブルを格納するテーブル記憶手段、402は人名評価部署対応テーブル入力手段、403は複数のキーワードを格納するキーワード記憶手段、404はキーワード入力手段、405は複数の特許文書を格納する文書記憶手段、406は文書入力手段、407は特許文書から発明者を抽出し、特許文書に記載されている発明者数を評価部署毎に計数する発明者抽出・計数手段、408は発明者数最大値判定手段、409は特許文書からキーワードを抽出し、キーワード毎の出現回数を計数するキーワード抽出・計数手段、410はキーワード評価部署対応テーブル作成手段、411はキーワード評価部署対応テーブル出力手段、412は表示装置、413はキーワード評価部署対応テーブル記憶手段、414はプリンタである。
文書記憶手段405には図3に示す30件の米国特許のテキストデータが格納されている。また、人名評価部署対応テーブル記憶手段401には図28A及び図28Bに示す人名と評価部署との対応テーブルが格納されている。図28A及び図28Bを逆引きして各評価部署にどのようなメンバが含まれているかを図29に示す。ただし、図28A、図28B、図29の例は本発明を説明するために、実際に存在する特許文書に記載されている発明者をメンバとして架空的に構成したものである。キーワード記憶手段403には図30に示すキーワードが格納されている。
はじめに人名評価部署対応テーブル入力手段402が図28A及び図28Bに示すテーブルを、またキーワード入力手段404が図30に示すキーワードをそれぞれ読み出す。次に図3に示す30件の米国特許文書を1件毎に処理する。文書入力手段406が特許文書テキストデータを1件毎に読み出し、発明者抽出・計数手段407では図28A及び図28Bに示すテーブルの人名について特許テキストの発明者を記述している領域を抽出の対象とする。抽出された発明者は評価部署毎に発明者数が計数される。ただし、図1の会社とは別の会社に所属する同姓同名人を計数から排除するため、特許文書テキストデータから更に出願人又は譲受人を抽出し、当該出願人又は譲受人が上記評価部署の属する法人(図1の会社)であることを確認したあと、抽出した発明者を図28A及び図28Bに示すテーブルに含まれる人名と照合し、評価部署毎に発明者が何名記載されているか計数するのがよい。発明者数最大値判定手段408では発明者数が最大値である評価部署を判定する。発明者数がゼロの場合には評価部署の「該当なし」と判定する。一方、キーワード抽出・計数手段409では図30に示すキーワードについて特許テキスト全体を対象として抽出し、抽出されたキーワードは出現回数が計数される。キーワード評価部署対応テーブル作成手段410では1件毎に発明者数最大値判定手段408から評価部署を、またキーワード抽出・計数手段409からキーワードと出現回数とを受け取り、例えば第1番目の特許文書の評価部署が“T5”である場合には第1番目の特許文書で抽出されたキーワードは全て“T5”に対応するものとする。
本実施形態では図3に示す30件の特許文書に対してキーワード毎に、発明者数が最大値である評価部署を発明者数最大値判定手段408が判定する。図31A及び図31Bは、キーワード評価部署対応テーブル作成手段410でキーワードに対して評価部署を対応させるための準備として、評価部署毎にキーワード出現回数の和を求めた結果を示す。そして、キーワード出現回数の和の最大値を与える評価部署をキーワードに対応付けることによって図32A及び図32Bに示すキーワード評価部署対応テーブルを作成する。図32A及び図32Bを逆引きして評価部署毎のキーワード群を表示すると図33となる。第1の実施形態の図7と比較すると、例えば“EDTV”が図7では“Y”のキーワードであるのに対して図33では“T1”のキーワードになっているなど、少し違いはあるものの類似したキーワード評価部署対応テーブルになっている。
本実施形態によれば、評価部署が出願した特許をもとにしてキーワード評価部署対応テーブルを自動的に作成することができ、少し人手修正を必要とするにしてもキーワード評価部署対応テーブルの作成時間を格段に短縮できる。なお、発明者抽出・計数手段407、発明者数最大値判定手段408に依らずに、評価部署が出願した特許に類似した特許を使用して前もって評価部署と特許文書とを対応付け、キーワード抽出・計数手段409の処理を本実施形態のようにしても、キーワード評価部署対応テーブルを自動的に作成可能なことは明らかである。
《第5の実施形態》
最後に、特許分類コードと評価部署との対応テーブルと、キーワードと評価部署との対応テーブルとの両方を使用した文書評価部署割り当てシステムの例を説明する。
図34は本発明の第5の実施形態の構成を示すブロック図である。図34において、501は特許分類コードと評価部署との対応テーブルを格納する特許分類コード評価部署対応テーブル記憶手段、502は特許分類コード評価部署対応テーブル入力手段、503はキーワードと評価部署との対応テーブルを格納するキーワード評価部署対応テーブル記憶手段、504はキーワード評価部署対応テーブル入力手段、505は複数の特許文書を格納する文書記憶手段、506は文書入力手段、507は特許文書から特許分類コードを抽出する特許分類コード抽出手段、508は特許文書からキーワードを抽出し、キーワード毎の出現回数を計数するキーワード抽出・計数手段、509はキーワードの出現回数の最大値判定手段、510は優先評価部署決定手段、511は評価部署決定手段、512は補助評価部署決定手段、513は評価部署決定結果出力手段、514は表示装置、515は評価部署決定結果記憶手段、516はプリンタである。
文書記憶手段505には図3に示す30件の米国特許のテキストデータが格納されている。また、特許分類コード評価部署対応テーブル記憶手段501には図35に示す特許分類コードと評価部署との対応テーブルが格納されている。図35を逆引きして各評価部署がどのような特許分類コードに対応しているかを図36に示す。更にキーワード評価部署対応テーブル記憶手段503には図6A〜図6Cの通常対応テーブル、図8の優先対応テーブル、図9の補助対応テーブルが格納されている。
はじめに特許分類コード評価部署対応テーブル入力手段502が図35に示すテーブルを、またキーワード評価部署対応テーブル入力手段504が図6A〜図6C、図8、図9に示す3種のキーワード評価部署対応テーブルをそれぞれ読み出す。次に図3に示す30件の米国特許文書を1件毎に処理する。文書入力手段506が特許文書テキストデータを1件毎に読み出し、特許分類コード抽出手段507では図35に示すテーブルの特許分類コードについて特許テキストのその特許自体の米国特許分類コードを記述している領域を抽出の対象とする。ここで、抽出された特許分類コードにより特許分類コード評価部署対応テーブルから評価部署を一意に決定できる場合には、キーワード抽出・計数手段508から補助評価部署決定手段512までの処理を省略する。例えば、図35の例では特許分類コード“375”から評価部署“T1”を一意に決定できるので、評価部署決定結果出力手段513に直ちに処理を移す。評価部署を一意に決定できない場合には、キーワード抽出・計数手段508へ進む。キーワード抽出・計数手段508では図6A〜図6C、図9に示すテーブルのキーワードについては特許テキストの全体を抽出の対象とし、図8に示すテーブルのキーワードについては要約とクレームの部分を抽出の対象とするのに加えて、特許分類コード抽出手段507で抽出された特許分類コードに対応した評価部署のみについて、当該評価部署に対応したキーワードを抽出する。抽出されたキーワードは出現回数が計数される。キーワード出現回数最大値判定手段509では優先、通常、補助の3種の対応テーブルそれぞれについて出現回数が最大値を有するキーワードを判定する。これ以降の処理は第1の実施形態と同じである。ただし、評価部署決定手段511では、キーワード出現回数最大値判定手段509から得られた最大値を持つキーワードを少なくとも入力として、特許分類コード抽出手段507により抽出された特許分類コードに対応する評価部署に対応したキーワード評価部署対応テーブルを索引することにより、評価部署を決定する。
本実施形態においてキーワード抽出・計数手段508で特許文書1件毎にどの評価部署に対応したキーワードが使用されるかを図37に示す。図37で“1”は評価部署に対応するキーワードを抽出対象にしたことを、“0”は評価部署に対応するキーワードを抽出対象にしなかったことをそれぞれ示している。CPU333MHz、メモリ384MB、ハードディスク30GBの環境で特許分類コード評価部署対応テーブルを使用せず、全てのキーワードを抽出の対象としたときの評価部署割り当て実行時間が27秒、特許分類コード評価部署対応テーブルを使用して、特許分類コードに対応しない評価部署に対応したキーワードを抽出の対象外としたときの評価部署割り当て実行時間が30秒となったが、これは図3の30件の米国特許が技術的に近接しているものになっていることと、本実施形態の評価部署どうしも近接した技術を扱っていることにより、図37から分かるようにキーワード抽出・計数手段508で抽出対象外となるキーワードは多くないことに起因しており、調査対象特許の技術範囲が広く、また評価部署もいろいろな技術を扱う組織に対して本発明を実施すれば、評価部署割り当て実行時間の短縮が図れることが予想される。
なお、上記各実施形態では米国特許文書を対象に説明したが本発明は一般の文書にも適用可能であり、また米国以外の特許文書の場合にも本発明は適用可能であること、また特許分類コードとして国際特許分類コードや各国独自の特許分類コードにも本発明は適用可能であることは明白である。
キーワード評価部署対応テーブルの作成に例えば学会発表文書を利用する場合には、図27中の発明者抽出・計数手段407に代えて、学会発表文書から執筆者を抽出して人名評価部署対応テーブルに含まれる人名と照合し、評価部署毎に執筆者が何名いるか計数する執筆者抽出・計数手段を設ければよい。
本発明に係る文書評価部署割り当てシステムの適用対象の一例であるモデル会社の組織図である。 図1中のA事業部の詳細な組織図である。 本発明に係る文書評価部署割り当てシステムの評価対象の一例である30件の米国特許文書の番号を示す説明図である。 図2中の各開発チームの研究開発対象の例を示す説明図である。 本発明の第1の実施形態に係る文書評価部署割り当てシステムの構成を示すブロック図である。 図5中のキーワード評価部署対応テーブル記憶手段に格納されているテーブル(通常対応テーブル)の一例を示す説明図である。 図6Aに続く説明図である。 図6Bに続く説明図である。 図6A〜図6Cに対応した逆引きテーブルを示す説明図である。 図5中のキーワード評価部署対応テーブル記憶手段に更に格納されている優先対応テーブルの一例を示す説明図である。 図5中のキーワード評価部署対応テーブル記憶手段に更に格納されている補助対応テーブルの一例を示す説明図である。 図5中の表示装置への出力例を示す説明図である。 図5中の評価部署決定結果記憶手段へ出力される、まとめ結果の一例を示す説明図である。 図5中の評価部署決定結果記憶手段へ出力される、あるケースに関する決定結果の例を示す説明図である。 第1の実施形態のオプションである単語解析の結果の一例を示す説明図である。 図13Aに続く説明図である。 図5中の評価部署決定結果記憶手段へ出力される、他のケースに関する決定結果の例を示す説明図である。 図5中の評価部署決定結果記憶手段へ出力される、更に他のケースに関する決定結果の例を示す説明図である。 図5のシステムにおける図6A〜図6C、図8、図9中のキーワード毎の重みの使用例を示す説明図である。 本発明の第2の実施形態に係る特許分類コード評価部署対応テーブル作成システムの構成を示すブロック図である。 図17中の特許分類コード評価部署対応テーブル作成手段の2入力を示す図であって、特許文書毎の評価部署決定結果と、抽出された特許分類コードとを示す説明図である。 図18中の特許分類コードと評価部署との対応関係を示す説明図である。 図19Aに続く説明図である。 図19Bに続く説明図である。 図19Cに続く説明図である。 図19A〜図19Dの対応関係をもとにして作成された、特許分類コード評価部署対応テーブルの一例を示す説明図である。 図20Aに続く説明図である。 図20Bに続く説明図である。 図20A〜図20Cに対応した逆引きテーブルを示す説明図である。 本発明の第3の実施形態に係る文書評価部署割り当てシステムの構成を示すブロック図である。 図22中の表示装置への出力例を示す説明図である。 図22中の評価部署決定結果記憶手段へ出力される、あるケースに関する決定結果の例を示す説明図である。 図3の30件の米国特許文書について、上記第1の実施形態と第3の実施形態との各々の処理時間を比較して示す説明図である。 図25の内容を10,000件の米国特許文書の処理に敷衍した場合の説明図である。 本発明の第4の実施形態に係るキーワード評価部署対応テーブル作成システムの構成を示すブロック図である。 図27中の人名評価部署対応テーブル記憶手段に格納されているテーブルの一例を示す説明図である。 図28Aに続く説明図である。 図28A及び図28Bに対応した逆引きテーブルを示す説明図である。 図27中のキーワード記憶手段に格納されているキーワードの一例を示す説明図である。 図27のシステムでキーワードに対して評価部署を対応させるための準備として、各々の評価部署に対応した特許文書でのキーワード出現回数の和を求めた結果の一例を示す説明図である。 図31Aに続く説明図である。 図27のシステムで作成された、キーワード評価部署対応テーブルの一例を示す説明図である。 図32Aに続く説明図である。 図32A及び図32Bに対応した逆引きテーブルを示す説明図である。 本発明の第5の実施形態に係る文書評価部署割り当てシステムの構成を示すブロック図である。 図34中の特許分類コード評価部署対応テーブル記憶手段に格納されているテーブルの一例を示す説明図である。 図35に対応した逆引きテーブルを示す説明図である。 図34中のキーワード抽出・計数手段で特許文書1件毎にどの評価部署に対応したキーワードが使用されるか、一例を示す説明図である。
符号の説明
101 キーワード評価部署対応テーブル記憶手段
102 キーワード評価部署対応テーブル入力手段
103 文書記憶手段
104 文書入力手段
105 キーワード抽出・計数手段
106 キーワード出現回数最大値判定手段
107 優先評価部署決定手段
108 評価部署決定手段
109 補助評価部署決定手段
110 評価部署決定結果出力手段
111 表示装置
112 評価部署決定結果記憶手段
113 プリンタ
210 特許分類コード抽出手段
211 特許分類コード評価部署対応テーブル作成手段
212 特許分類コード評価部署対応テーブル出力手段
213 表示装置
214 特許分類コード評価部署対応テーブル記憶手段
215 プリンタ
301 特許分類コード評価部署対応テーブル記憶手段
302 特許分類コード評価部署対応テーブル入力手段
303 文書記憶手段
304 文書入力手段
305 特許分類コード抽出・計数手段
306 特許分類コード出現回数最大値判定手段
307 評価部署決定手段
308 評価部署決定結果出力手段
309 表示装置
310 評価部署決定結果記憶手段
311 プリンタ
401 人名評価部署対応テーブル記憶手段
402 人名評価部署対応テーブル入力手段
403 キーワード記憶手段
404 キーワード入力手段
405 文書記憶手段
406 文書入力手段
407 発明者抽出・計数手段
408 発明者数最大値判定手段
409 キーワード抽出・計数手段
410 キーワード評価部署対応テーブル作成手段
411 キーワード評価部署対応テーブル出力手段
412 表示装置
413 キーワード評価部署対応テーブル記憶手段
414 プリンタ
501 特許分類コード評価部署対応テーブル記憶手段
502 特許分類コード評価部署対応テーブル入力手段
503 キーワード評価部署対応テーブル記憶手段
504 キーワード評価部署対応テーブル入力手段
505 文書記憶手段
506 文書入力手段
507 特許分類コード抽出手段
508 キーワード抽出・計数手段
509 キーワード出現回数最大値判定手段
510 優先評価部署決定手段
511 評価部署決定手段
512 補助評価部署決定手段
513 評価部署決定結果出力手段
514 表示装置
515 評価部署決定結果記憶手段
516 プリンタ

Claims (6)

  1. キーワードと評価部署との対応テーブルを格納するテーブル記憶手段と、
    前記テーブル記憶手段からキーワードと評価部署との対応テーブルを入力するテーブル入力手段と、
    複数の文書を格納する文書記憶手段と、
    前記文書記憶手段から文書を入力する文書入力手段と、
    前記文書入力手段から得られた文書から前記対応テーブルに含まれるキーワードを抽出して何個含まれているか計数するキーワード抽出・計数手段と、
    前記キーワード抽出・計数手段により計数されたキーワードの出現回数の最大値を判定する最大値判定手段と、
    前記最大値判定手段から得られた最大値を持つキーワードを少なくとも入力として前記対応テーブルを索引することにより評価部署を決定する評価部署決定手段とを備えたことを特徴とする文書評価部署割り当てシステム。
  2. 請求項1記載の文書評価部署割り当てシステムにおいて、
    前記テーブル記憶手段にキーワードと評価部署との優先対応テーブルを追加して格納するとともに、
    前記キーワード抽出・計数手段では前記優先対応テーブルに含まれるキーワードを抽出して何個含まれているか計数し、
    前記最大値判定手段では前記キーワード抽出・計数手段で計数した前記優先対応テーブルに含まれるキーワードの出現回数の最大値を判定し、
    前記優先対応テーブルに含まれるキーワードの出現回数がゼロでないときには、前記評価部署決定手段よりも優先して前記優先対応テーブルに含まれるキーワードの出現回数の最大値を持つキーワードを少なくとも入力として前記優先対応テーブルを索引することにより評価部署を決定する優先評価部署決定手段を更に備えたことを特徴とする文書評価部署割り当てシステム。
  3. 請求項2記載の文書評価部署割り当てシステムにおいて、
    前記文書は複数の領域に分かれており、前記キーワード抽出・計数手段では前記優先対応テーブルに含まれるキーワードについて前記文書中の特定の領域のみを参照することを特徴とする文書評価部署割り当てシステム。
  4. 請求項1記載の文書評価部署割り当てシステムにおいて、
    前記テーブル記憶手段にキーワードと評価部署との補助対応テーブルを追加して格納するとともに、
    前記キーワード抽出・計数手段では前記補助対応テーブルに含まれるキーワードを抽出して何個含まれているか計数し、
    前記最大値判定手段では前記キーワード抽出・計数手段で計数した前記補助対応テーブルに含まれるキーワードの出現回数の最大値を判定し、
    前記評価部署決定手段によって評価部署が決定されないときには、前記補助対応テーブルに含まれるキーワードの出現回数の最大値を持つキーワードを少なくとも入力として前記補助対応テーブルを索引することにより評価部署を決定する補助評価部署決定手段を更に備えたことを特徴とする文書評価部署割り当てシステム。
  5. 請求項1記載の文書評価部署割り当てシステムにおいて、
    前記最大値判定手段では評価部署毎に対応するキーワードの出現回数の和を求めたあと、出現回数の和の最大値を判定し、
    前記評価部署決定手段では前記出現回数の和の最大値を与える部署を少なくとも評価部署として決定することを特徴とする文書評価部署割り当てシステム。
  6. 請求項1記載の文書評価部署割り当てシステムにおいて、
    前記対応テーブルにキーワード毎の重みを追加して格納するとともに、
    前記キーワード抽出・計数手段では、キーワード毎の計数値に前記重みを掛けて得た値を当該キーワードの出現回数とすることを特徴とする文書評価部署割り当てシステム。
JP2005059054A 2001-11-01 2005-03-03 文書評価部署割り当てシステム Withdrawn JP2005216321A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005059054A JP2005216321A (ja) 2001-11-01 2005-03-03 文書評価部署割り当てシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001336052 2001-11-01
JP2005059054A JP2005216321A (ja) 2001-11-01 2005-03-03 文書評価部署割り当てシステム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002199997A Division JP3670629B2 (ja) 2001-11-01 2002-07-09 文書分類システム

Publications (1)

Publication Number Publication Date
JP2005216321A true JP2005216321A (ja) 2005-08-11

Family

ID=34913820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005059054A Withdrawn JP2005216321A (ja) 2001-11-01 2005-03-03 文書評価部署割り当てシステム

Country Status (1)

Country Link
JP (1) JP2005216321A (ja)

Similar Documents

Publication Publication Date Title
US7444325B2 (en) Method and system for information extraction
US20070244882A1 (en) Document management system and method
WO2013147304A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
US7672958B2 (en) Method and system to identify records that relate to a pre-defined context in a data set
JP4473893B2 (ja) 作業項目抽出装置、作業項目抽出方法、および、作業項目抽出プログラム
JP2000511671A (ja) 自動文書分類システム
AU2010249253A1 (en) A method for automatically indexing documents
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
US6985908B2 (en) Text classification apparatus
JP2007079948A (ja) 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
CN115114426A (zh) 一种基于关键词打分的评审专家推荐方法
WO2014049708A1 (ja) 文書分析装置およびプログラム
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
TWI556128B (zh) Forensic system, forensic method and evidence collection program
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
JP3670629B2 (ja) 文書分類システム
JP2005339510A (ja) 特許文書評価部署割り当てシステム
JP3598711B2 (ja) 文書ファイリング装置
JP2003281159A (ja) 文書処理装置及び文書処理方法、文書処理プログラム
JP2005216321A (ja) 文書評価部署割り当てシステム
JP2007108886A (ja) 出願情報管理システム、出願情報管理方法および出願情報管理プログラム
JPH05233719A (ja) 複合的な情報間の関連性識別方法
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2000172698A (ja) 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080111