JP2008171164A

JP2008171164A - 分類付与支援装置及び方法及びプログラム

Info

Publication number: JP2008171164A
Application number: JP2007003061A
Authority: JP
Inventors: Maki Murata; 真樹村田; Toshiyuki Kanamaru; 敏幸金丸
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2007-01-11
Filing date: 2007-01-11
Publication date: 2008-07-24

Abstract

【課題】分類を付与するのに重点的にチェックすればよい所が容易にわかるようにすること。
【解決手段】分類を付与する文書と分類が記載された文書が入力される入力手段１と、前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段２と、前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と他方の両方の文書で強調表示する強調表示手段３とを備える。
【選択図】図１

Description

本発明は、特許文書等にＦターム等の分類をふる際に利用できる分類付与支援装置及び方法及びプログラムに関する。特許へのＦターム付与は、１特許あたり専門家が１時間以上かけて行うものであり、かなりコストの高い仕事である。本発明によりそのコストが削減できる。また、本発明は、他の文書対への分類の付与にも利用できるものである。

従来、特許文書にふるべきＦタームを計算機により自動で推定してそれをユーザに提示する技術はあった（非特許文献１参照）。しかし、計算機の提示したＦタームは間違っている可能性があり、計算機の出力を提示するだけではユーザのＦターム付与の支援において効果的でなかった。
Masaki Murata et al. Using the K Nearest Neighbor Method and BM25 in the Patent Document Categorization Subtask at NTCIR-5, Proceedings of the Fifth NTCIR Workshop Meeting, p.324-331, 2005.

上記従来のＦタームを計算機により自動で推定する技術は、計算機の提示したＦタームは間違っている可能性があり、正確には専門家が特許文書を読み再度付与する必要があった。

本発明は上記問題点の解決を図り、入力文書に出てくる分類表にあった単語を強調表示して分類を付与するときの参考にし、分類表では入力文書に出てくる単語を強調表示することで、重点的にチェックすればよい所が容易にわかるようにすることを目的とする。

図１は分類付与支援装置の説明図である。図１中、１は入力部（入力手段）、２は単語抽出部（単語抽出手段）、３は強調表示部（強調表示手段）、４は出力部（出力手段）である。

本発明は、前記従来の課題を解決するため次のような手段を有する。

（１）：文書と分類が記載された文書が入力される入力手段１と、前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段２と、前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段３とを備える。このため、分類を付与するのに重点的にチェックすればよい所が容易にわかる。

（２）：前記（１）の分類付与支援装置において、前記単語抽出手段２は、指定した品詞の単語のみを抽出する。このため、不要な単語を少なくして検索することができる。

（３）：前記（１）又は（２）の分類付与支援装置において、前記一方の文書と他方の文書の言語が異なった文書とし、前記単語抽出手段２は、抽出した単語を翻訳する。このため、他の言語の文書の分類付与の支援を行うことができる。

（４）：前記（１）〜（３）の分類付与支援装置において、前記単語抽出手段２は、前記抽出した単語に類似する単語も抽出する。このため、分類が記載された文書（分類表）の単語と類似する単語で記載された文書に対して分類付与の支援を行うことができる。

（５）：前記（１）〜（４）の分類付与支援装置において、前記強調表示手段３は、前記単語を検索するとき、前記単語の一致度により異なる強調表示を行う。このため、より正確な情報で分類付与の支援を行うことができる。

（６）：前記（１）〜（５）の分類付与支援装置において、前記強調表示手段３は、前記単語を予め決められた分野ごとに異なる強調表示を行う。このため、分類付与に必要な分野を容易に見つけることができる。

（７）：前記（１）〜（６）の分類付与支援装置において、前記入力手段１に入力される前記文書と前記分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルとする。このため、入力した一つのファイルにおいて、分類付与の支援を行うことができる。

（８）：前記（１）〜（７）の分類付与支援装置において、前記入力された文書を画面表示する出力手段４を備え、前記出力手段４の画面のツールバーに前記強調表示を選択する選択部を備える。このため、この選択部をクリック等で指示して、画面に表示された文書を強調表示することで、分類を付与するのに重点的にチェックすればよい所が容易にわかるようになる。

本発明によれば次のような効果がある。

（１）：単語抽出手段で入力されたいずれか一方の文書の単語を抽出し、強調表示手段で前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を両方の文書で強調表示するため、分類を付与するのに重点的にチェックすればよい所が容易にわかる。

（２）：単語抽出手段で指定した品詞の単語のみを抽出するため、不要な単語を少なくして検索することができる。

（３）：単語抽出手段で抽出した単語を翻訳するため、他の言語の文書の分類付与の支援を行うことができる。

（４）：単語抽出手段で抽出した単語に類似する単語も抽出するため、分類が記載された文書（分類表）の単語と類似する単語で記載された文書に対しても分類付与の支援を行うことができる。

（５）：強調表示手段で単語を検索するとき、単語の一致度により異なる強調表示を行うため、より正確な情報で分類付与の支援を行うことができる。

（６）：強調表示手段で単語を予め決められた分野ごとに異なる強調表示を行うため、分類付与に必要な分野を容易に見つけることができる。

（７）：入力手段に入力される文書と分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルとするため、入力した一つのファイルにおいて、分類付与の支援を行うことができる。

（８）：出力手段の画面のツールバーに強調表示を選択する選択部を備えるため、この選択部をクリック等で指示して、画面に表示された文書を強調表示することで、分類を付与するのに重点的にチェックすればよい所が容易にわかるようになる。

本発明は、特許文書にＦタームとよばれる分類コードを手際よくふるための分類付与支援装置である。例えば、テーマ（theme ）コードまではわかったとして、そのテーマコードのＦタームの定義の表と、ふる特許文書を用意する。そして、特許文書に出ていた単語を、Ｆタームの定義の表で強調表示する。また、Ｆタームの定義の表にあった単語を特許文書中で強調表示する。そうすると、その特許にかかわりの多いＦタームの項目が強調表示され、Ｆタームをふるときの参考に使えて便利である。また、特許文書中でもＦタームが強調表示され、重点的にチェックすればよいところ（周辺の情報）がわかり便利である。ここでは特許文書とＦタームの定義の表を例にあげるが、他の文書対（例えば、ＩＰＣ分類表と特許文書、論文の分類表と論文等）でも同様のことができる。

（１）：分類付与支援装置の説明
図１は分類付与支援装置の説明図である。図１において、分類付与支援装置には、入力部１、単語抽出部２、強調表示部３、出力部４が設けてある。

入力部１は、キーボード、マウス、読み取り装置等の情報の入力を行う入力手段である。単語抽出部２は、形態素解析を行って単語を抽出する単語抽出手段である。強調表示部３は、検索した単語の強調表示を行う強調表示手段である。出力部４は、表示装置、プリンタ等の情報の出力を行う出力手段である。

（２）：分類付与支援処理の説明
ａ）入力した文書が同じ言語の場合の説明
図２は分類付与支援処理フローチャートである。以下、図２の処理Ｓ１〜Ｓ３にしたがって説明する。

Ｓ１：入力部１により、分類を付与すべき文書と、分類が記載された文書（分類表）の２つの文書を入力する。

Ｓ２：単語抽出部２は、入力された文のいずれか一方の文書の形態素解析（単語分割）を行って単語を抽出する。

Ｓ３：強調表示部３は、前記抽出した単語で他の文書を検索し、他の文書中の前記抽出した単語があれば強調表示するとともに、該強調表示した単語を前記単語を抽出した一方の文書中でも強調表示し、出力部からこれら２つの文書を出力する。

ｂ）異なる言語間での分類付与支援処理の説明
図３は異なる言語間での分類付与支援処理フローチャートである。以下、図３の処理Ｓ１１〜Ｓ１３にしたがって説明する。

Ｓ１１：入力部１により、分類を付与すべき文書（例えば日本語）と、分類が記載された文書（例えば英語のＦタームの表）の２つの文書を入力する。

Ｓ１２：単語抽出部２は、入力された文のいずれか一方の文書（例えば日本語）の形態素解析（単語分割）を行って単語を抽出し、該抽出した単語の翻訳（日本語を英語に）を行う。

Ｓ１３：強調表示部３は、前記翻訳した単語で他の文書（英語のＦタームの表）を検索し、他の文書中の前記翻訳した単語を強調表示するとともに、該強調表示した単語を前記単語を抽出した一方の文書中でも（その単語に相当する単語を）強調表示し、出力部からこれら２つの文書を出力する。

ここで、翻訳方法は、訳語辞書で翻訳する方法と既存の翻訳システムで翻訳する方法がある。訳語辞書とは、例えば、car --車、house --家等のように訳語が対になって表記されているもので、単語マッチで変換して利用するものである。

なお、上記単語抽出部２の処理では、全ての品詞を抽出する説明をしたが、処理性能（時間）等により、名詞だけを抽出する、名詞と形容詞と動詞を抽出する、助詞と助動詞以外の全てを抽出する等を行うことができる。更に、単語抽出部２で抽出した単語に類似している単語も含めて抽出するようにできる。

（３）：強調表示の説明
強調表示とは、文字の色を変えて表示する、文字の背景の色を変える（色濃度を変える場合も含む）又は網かけを行う、文字の字体を変える（太文字、斜体文字等）、下線付けや括弧で囲む、文字の上に記号等を設ける等で行うことができる。また、単語の一致具合（一致度）により、色等を変えて異なる強調表示を行うこともできる。一致具合も分類単語の文の１０％以下なら強調表示しない、１０％と５０％の間なら強調表示を行い、５０％以上なら異なる強調表示する等としてもよい。

また、Ｆタームの表等の分類表（又は分類する文書）において強調する単語が密集していればその部分が分かるように全体の色を濃くすることもできる。分類する文書においては、例えば、段落単位で色を変えることもできる。

更に、Ｆタームの表等の一つの枠（例えば、図４（ａ）の用途の枠）で所定個数（例えば３個）以上のＦタームが強調表示される場合、その枠自体も強調表示することができ、その場合に強調表示されるＦタームの数により、異なる強調表示を行うこともできる。

分類表の場合、下位の分類が強調表示された場合、その上位の分類も強調表示することができ、その場合、上位は下位と異なる強調表示（色の濃さを変える等）とすることができる。また、強調表示される下位の分類の数により、上位の分類を異なる強調表示とすることもできる。

図４は強調表示の説明図であり、図４（ａ）は分類を付与する特許文書例の説明である。図４（ａ）において、特許文書の単語（記号も含む）のうちＦタームリストに出てくる単語が強調表示（ここでは斜線を付与）されている。図４（ｂ）はＦタームリスト例の説明である。図４（ｂ）において、Ｆタームリストの単語（記号も含む）のうち特許文書に出てくる単語が強調表示（ここでは斜線を付与）されている。

ａ）分野ごとの色分けの説明
分野ごとに色分けして、強調表示することもできる。

(1) 感情表現の分野の単語を登録して、怒っている色（例えば赤）、喜んでいる色（例えば黄）、悲しんでいる色（例えば青）などを出すこともできる。この場合、単語を強調表示するだけでもいいし、段落や、文書ごとに、色の多かったものの色を全体に色付けしてもよい。

(2) 普通の分野の説明
経済、政治、スポーツ、などの分野ごとに色分けする。

(3) 分類語彙表の説明
分類語彙表だと、人、組織名、生産物、概念単語に応じて色分けする。

(4) 表形式の分類の説明
表形式の分類だと、行ごと、または、列ごとの分類などで、色分けする。例えば、原子記号の表、Ｆタームの表など。

なお、頻度ごとに色分けするようにもできる。例えば、高頻度は赤、中頻度は黄色、緑、低頻度は青など。

ｂ）ツールバー表示の説明
ツールバーの本体の部分（インタフェース部分、ＷＥＢ情報の取得表示など）は visual c のプログラミング言語で作成し、ツールバーの外側の部分であるテキスト処理（文の文字列処理）は、Perlのプログラミング言語で作成する。

Perlは、インタプリターな言語（事前にコンパイルせずに、実行時にコンパイルして動作する。速度は遅いがメインテナス、システム構築が容易）であり、また、正規表現を含む文字列処理に便利なものである。

ツールバー本体（インタフェース部分、ＷＥＢ情報の取得表示など) では、ｈｔｍｌ（hypertext markup language ）の表示を行う。テキスト処理を正規表現を含む文字列処理が可能なインタプリターなプログラミング言語では、元のｈｔｍｌを変換して新しいｈｔｍｌを作る。ツールバー本体（インタフェース部分、ＷＥＢ情報の取得表示など) で新しいｈｔｍｌの表示を行うようにする。ｈｔｍｌ内部に、強調表示したい単語にはｈｔｍｌのタグで色付けなど行う。

また、辞書ファイルを外部（交換可能）に持って、ファイルで単語と、各単語の色を定義して、それに基づいて強調表示することもできる。副詞以外（形容詞等）も同様にファイルを作れば同様に強調表示でき便利なものである。例えば、分類表を入れれば分類が強調表示される。

さらに、別のperlプログラムを外部（交換可能）に持って、そのプログラムにより、強調表示することもできる。perlは、インタプリターな言語なので、ツールバー本体の外にもテキストファイルとしてプログラムを持つことができる。そのプログラムを交換すると、ほとんどあらゆる他の種類のｈｔｍｌの変更が可能となる。これは、強調表示にとどまらないものである。このような変更が外のプログラムを修正するだけでできるようになる。

また、強調表示手段３で、強調表示する入力された文書のファイルの大きさが所定値より大きい（この所定値は入力する部分を設けてユーザが自由に設定できるようになっている）場合、強調表示を行わないようにする。これは、強調表示する入力された文であるｈｔｍｌファイルが大きくて時間がかかり過ぎる処理を行うことを防止するものである。

本発明は、インターネットエクスプローラーのツールバーとして組み込んで利用できる。

ツールバーでも、この特許の強調表示をすることがきる。ツールバーの場合、一つのＨＴＭＬしか見れないので、分類と、本文を、一つのファイルにする。ただし、ファイル中、どこからどこが分類で、どこからどこが本文であるかがわかるように印をいれておく。単語抽出部２では、この印により、分類と本文を判断することができる。このようにすると、一つのファイルで、強調表示をすることができる。

ツールバー表示では、上記印を設け、ツールバー上の「分類支援」という表示を選択して、強調表示を行って分類付与の支援を行うこともできる。もちろん、二つのファイルを入力して、ＨＴＭＬで一つのファイルとすることもできる。

図５はツールバー表示の説明図である。図５において、出力部４の表示画面１０には、最上段にはデータのタイトル１１、２段目には処理を指定するコマンド列１２、３段目には閲覧している場所を示している。１段目にはツールバーにオプション領域を設け、オプション領域を選択（指定）すると、「分類支援」、「原子記号」等の表示が現れる。なお、オプション領域の代わりに直接「分類支援」、「原子記号」等の表示を設けることもできる。

この「分類支援」を選択することにより、図２、図３の処理が行われ、下の画面１５に表示されている文書（テキストデータ）の分類表にある単語の強調表示を行い、文書の分類付与支援を行うことができる。また、「原子記号」を選択することにより、文書（画面１５）中の原子記号を強調表示することができる。

（４）：単語の認識の説明
ａ）形態素解析の説明
日本語の単語を抽出（認識）するために、単語抽出部２が行う形態素解析システムが必要になる。ここではChaSenについて説明する（奈良先端大で開発されている形態素解析システム茶筌http://chasen.aist-nara.ac.jp/index.html.jp で公開されている）。

これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。

学校ガッコウ学校名詞−一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本型
ＥＯＳ
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。ここで、分割された単語を抽出の単位に用い、付与された品詞により単語抽出が行われる。

ｂ）英語の品詞タグつけの説明
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。

Eric Brill, Transformation-Based Error-Driven Learning and
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。

（５）：同義語、類義語の認定方法の説明
前記単語抽出部２の処理で、強調表示する単語を抽出する場合、該抽出した単語の同義語及び類義語（類似する単語）も抽出するようにできる。同義語、類義語の認定方法としては次のものがある。

ａ）辞書を利用する方法
（分類語彙表の説明）
各単語がどういう意味クラスを持つかを記述した表のようなものがある。それを使えば単語の意味クラスを求めることができる。例えば、分類語彙表がある。分類語彙表では、単語は分類番号と呼ばれる１０桁の数字で表現され、この数字の良く似ている単語ほど良く似た単語となる。この数字の最初の３桁や５桁を単語の意味クラスと利用することが多い。

例えば、「村人] の分類番号は 1230102050 であり、これは 123（人種、国民、社会階層などの意味クラス）、 12301（国民、住民などの意味クラス）に属する単語であることが示される。

この分類語彙表を用いて、同じ意味クラスのものを、類義語として、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示することができる。ただし、同じ単語でなく、類義語としてあった場合の強調表示の仕方を、同じ単語の場合と変えて行うこともできる。

なお、上記分類語彙表は例であり、予め同義語、類義語を表などで整理しておき、その情報を用いて、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示してもよい。また、分類語彙表以外の同義語、類義語辞書を用いてもよい。

（分類語彙表の詳細な説明）
分類語彙表の一部の例をあげると次のように表現される。
1. 体の類
・・・ 1.1 抽象的関係・・・
1.100 こそあど
.101 事柄
.102 事項
.103 真・実
.104 本体
1.1100類・例
1等級・系列
1.1110関係
1本
2因果
3理由・目的・証拠
1.1120異同
1類似・一致
：

ｂ）自動処理に基づくものの説明
入力された文書において、各単語と、それと同一文に出現する単語群の組を作成する。「それと同一文に出現する単語群」が良く似た単語同士を類義語として、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示する。

「それと同一文に出現する単語群」が良く似ているかどうかの判定では、「それと同一文に出現する単語群」を単語をベクトルの要素、同一文に出現する頻度を要素の値とする。ベクトルを作成して、ベクトル同士の角度の小さいものを良く似ているとしてもよいし、比較する２つの単語x,y の「それと同一文に出現する単語群」において、単語x の「それと同一文に出現する単語群」の単語の種類の数を b、単語y の「それと同一文に出現する単語群」の単語の種類の数を c、２つの単語x,y で共通して出現する単語の種類の数を a、として、2a/(b+c)が大きいものほど類似するとしてもよいし、また、a/max(b+c)が大きいものほど類似するとしてもよい。なお、これらの方法に類似する方法でもよい。

また、上記では入力された文書において、各単語と、それと同一文に出現する単語群の組を作成する。としたが、各単語と、それの直前直後にくる文字列の組を作成し、この直前直後にくる文字列が似ている単語同士ほど類似するとしてもよい。

なお、分類表では、分類（数字や記号）だけを書いて、文書で強調表示する単語を分類表には書かなくする（分類付与支援装置に分類表の単語は入力する）こともできる。この場合、分類表の分類が強調表示される。そして、文書では単語が強調表示されることになる。

（６）：他の文書への応用の説明
前記の説明では、特許文書とＦタームの定義の表を例にあげたが、他の文書対でも同様のことができる。例えば、論文の分野コード表と論文で強調表示して、論文を分野に分類するということも考えられる。また、原子記号の周期律表と原子分子関係の論文で本発明の強調表示をして、原子記号の強調と原子記号による論文の分類を行うこともできる。また、単語を分類した表である分類語彙表とテキスト文書によりテキスト文書の分類を行うことも考えられる。

このように、分類コードの定義表にあった確実な情報に基づいて、それらを相互的に強調表示することで、ユーザの分類付与の支援をするため、ユーザはこの支援結果の情報を確実に信頼して利用することができ便利である。

なお、前記の分類付与支援装置は、文書に具体的に分類を付与する場合だけでなく、単語を強調表示だけで終わる場合も含むものである。

（７）：プログラムインストールの説明
入力部（入力手段）１、単語抽出部（単語抽手段）２、強調表示部（強調表示手段）３、出力部（出力手段）４等は、プログラムで構成でき、主制御部（ＣＰＵ）が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ（情報処理装置）で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録（記憶）媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、ＬＡＮ等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。

本発明の分類付与支援装置の説明図である。本発明の分類付与支援処理フローチャートである。本発明の異なる言語間での分類付与支援処理フローチャートである。本発明の強調表示の説明図である。本発明のツールバー表示の説明図である。

符号の説明

１入力部（入力手段）
２単語抽出部（単語抽出手段）
３強調表示部（強調表示手段）
４出力部（出力手段）

Claims

文書と分類が記載された文書が入力される入力手段と、
前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段と、
前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段とを備えることを特徴とした分類付与支援装置。
前記単語抽出手段は、指定した品詞の単語のみを抽出することを特徴とした請求項１記載の分類付与支援装置。
前記一方の文書と前記他方の文書の言語が異なった文書とし、前記単語抽出手段は、抽出した単語を翻訳することを特徴とした請求項１又は２記載の分類付与支援装置。
前記単語抽出手段は、前記抽出した単語に類似する単語も抽出することを特徴とした請求項１〜３のいずれかに記載の分類付与支援装置。
前記強調表示手段は、前記単語を検索するとき、前記単語の一致度により異なる強調表示を行うことを特徴とした請求項１〜４のいずれかに記載の分類付与支援装置。
前記強調表示手段は、前記単語を予め決められた分野ごとに異なる強調表示を行うことを特徴とした請求項１〜５のいずれかに記載の分類付与支援装置。
前記入力手段に入力される前記文書と前記分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルであることを特徴とした請求項１〜６のいずれかに記載の分類付与支援装置。
前記入力された文書を画面表示する出力手段を備え、
前記出力手段の画面のツールバーに前記強調表示を選択する選択部を備えることを特徴とした請求項１〜７のいずれかに記載の分類付与支援装置。
入力手段より文書と分類が記載された文書を入力し、
単語抽出手段で前記入力されたいずれか一方の文書の単語を抽出し、
強調表示手段で前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示することを特徴とした分類付与支援方法。
文書と分類が記載された文書が入力される入力手段と、
前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段と、
前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段として、
コンピュータを機能させるためのプログラム。