JP2008171164A - 分類付与支援装置及び方法及びプログラム - Google Patents
分類付与支援装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2008171164A JP2008171164A JP2007003061A JP2007003061A JP2008171164A JP 2008171164 A JP2008171164 A JP 2008171164A JP 2007003061 A JP2007003061 A JP 2007003061A JP 2007003061 A JP2007003061 A JP 2007003061A JP 2008171164 A JP2008171164 A JP 2008171164A
- Authority
- JP
- Japan
- Prior art keywords
- word
- classification
- document
- input
- highlighting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】分類を付与するのに重点的にチェックすればよい所が容易にわかるようにすること。
【解決手段】分類を付与する文書と分類が記載された文書が入力される入力手段1と、前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段2と、前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と他方の両方の文書で強調表示する強調表示手段3とを備える。
【選択図】図1
【解決手段】分類を付与する文書と分類が記載された文書が入力される入力手段1と、前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段2と、前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と他方の両方の文書で強調表示する強調表示手段3とを備える。
【選択図】図1
Description
本発明は、特許文書等にFターム等の分類をふる際に利用できる分類付与支援装置及び方法及びプログラムに関する。特許へのFターム付与は、1特許あたり専門家が1時間以上かけて行うものであり、かなりコストの高い仕事である。本発明によりそのコストが削減できる。また、本発明は、他の文書対への分類の付与にも利用できるものである。
従来、特許文書にふるべきFタームを計算機により自動で推定してそれをユーザに提示する技術はあった(非特許文献1参照)。しかし、計算機の提示したFタームは間違っている可能性があり、計算機の出力を提示するだけではユーザのFターム付与の支援において効果的でなかった。
Masaki Murata et al. Using the K Nearest Neighbor Method and BM25 in the Patent Document Categorization Subtask at NTCIR-5, Proceedings of the Fifth NTCIR Workshop Meeting, p.324-331, 2005.
Masaki Murata et al. Using the K Nearest Neighbor Method and BM25 in the Patent Document Categorization Subtask at NTCIR-5, Proceedings of the Fifth NTCIR Workshop Meeting, p.324-331, 2005.
上記従来のFタームを計算機により自動で推定する技術は、計算機の提示したFタームは間違っている可能性があり、正確には専門家が特許文書を読み再度付与する必要があった。
本発明は上記問題点の解決を図り、入力文書に出てくる分類表にあった単語を強調表示して分類を付与するときの参考にし、分類表では入力文書に出てくる単語を強調表示することで、重点的にチェックすればよい所が容易にわかるようにすることを目的とする。
図1は分類付与支援装置の説明図である。図1中、1は入力部(入力手段)、2は単語抽出部(単語抽出手段)、3は強調表示部(強調表示手段)、4は出力部(出力手段)である。
本発明は、前記従来の課題を解決するため次のような手段を有する。
(1):文書と分類が記載された文書が入力される入力手段1と、前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段2と、前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段3とを備える。このため、分類を付与するのに重点的にチェックすればよい所が容易にわかる。
(2):前記(1)の分類付与支援装置において、前記単語抽出手段2は、指定した品詞の単語のみを抽出する。このため、不要な単語を少なくして検索することができる。
(3):前記(1)又は(2)の分類付与支援装置において、前記一方の文書と他方の文書の言語が異なった文書とし、前記単語抽出手段2は、抽出した単語を翻訳する。このため、他の言語の文書の分類付与の支援を行うことができる。
(4):前記(1)〜(3)の分類付与支援装置において、前記単語抽出手段2は、前記抽出した単語に類似する単語も抽出する。このため、分類が記載された文書(分類表)の単語と類似する単語で記載された文書に対して分類付与の支援を行うことができる。
(5):前記(1)〜(4)の分類付与支援装置において、前記強調表示手段3は、前記単語を検索するとき、前記単語の一致度により異なる強調表示を行う。このため、より正確な情報で分類付与の支援を行うことができる。
(6):前記(1)〜(5)の分類付与支援装置において、前記強調表示手段3は、前記単語を予め決められた分野ごとに異なる強調表示を行う。このため、分類付与に必要な分野を容易に見つけることができる。
(7):前記(1)〜(6)の分類付与支援装置において、前記入力手段1に入力される前記文書と前記分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルとする。このため、入力した一つのファイルにおいて、分類付与の支援を行うことができる。
(8):前記(1)〜(7)の分類付与支援装置において、前記入力された文書を画面表示する出力手段4を備え、前記出力手段4の画面のツールバーに前記強調表示を選択する選択部を備える。このため、この選択部をクリック等で指示して、画面に表示された文書を強調表示することで、分類を付与するのに重点的にチェックすればよい所が容易にわかるようになる。
本発明によれば次のような効果がある。
(1):単語抽出手段で入力されたいずれか一方の文書の単語を抽出し、強調表示手段で前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を両方の文書で強調表示するため、分類を付与するのに重点的にチェックすればよい所が容易にわかる。
(2):単語抽出手段で指定した品詞の単語のみを抽出するため、不要な単語を少なくして検索することができる。
(3):単語抽出手段で抽出した単語を翻訳するため、他の言語の文書の分類付与の支援を行うことができる。
(4):単語抽出手段で抽出した単語に類似する単語も抽出するため、分類が記載された文書(分類表)の単語と類似する単語で記載された文書に対しても分類付与の支援を行うことができる。
(5):強調表示手段で単語を検索するとき、単語の一致度により異なる強調表示を行うため、より正確な情報で分類付与の支援を行うことができる。
(6):強調表示手段で単語を予め決められた分野ごとに異なる強調表示を行うため、分類付与に必要な分野を容易に見つけることができる。
(7):入力手段に入力される文書と分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルとするため、入力した一つのファイルにおいて、分類付与の支援を行うことができる。
(8):出力手段の画面のツールバーに強調表示を選択する選択部を備えるため、この選択部をクリック等で指示して、画面に表示された文書を強調表示することで、分類を付与するのに重点的にチェックすればよい所が容易にわかるようになる。
本発明は、特許文書にFタームとよばれる分類コードを手際よくふるための分類付与支援装置である。例えば、テーマ(theme )コードまではわかったとして、そのテーマコードのFタームの定義の表と、ふる特許文書を用意する。そして、特許文書に出ていた単語を、Fタームの定義の表で強調表示する。また、Fタームの定義の表にあった単語を特許文書中で強調表示する。そうすると、その特許にかかわりの多いFタームの項目が強調表示され、Fタームをふるときの参考に使えて便利である。また、特許文書中でもFタームが強調表示され、重点的にチェックすればよいところ(周辺の情報)がわかり便利である。ここでは特許文書とFタームの定義の表を例にあげるが、他の文書対(例えば、IPC分類表と特許文書、論文の分類表と論文等)でも同様のことができる。
(1):分類付与支援装置の説明
図1は分類付与支援装置の説明図である。図1において、分類付与支援装置には、入力部1、単語抽出部2、強調表示部3、出力部4が設けてある。
図1は分類付与支援装置の説明図である。図1において、分類付与支援装置には、入力部1、単語抽出部2、強調表示部3、出力部4が設けてある。
入力部1は、キーボード、マウス、読み取り装置等の情報の入力を行う入力手段である。単語抽出部2は、形態素解析を行って単語を抽出する単語抽出手段である。強調表示部3は、検索した単語の強調表示を行う強調表示手段である。出力部4は、表示装置、プリンタ等の情報の出力を行う出力手段である。
(2):分類付与支援処理の説明
a)入力した文書が同じ言語の場合の説明
図2は分類付与支援処理フローチャートである。以下、図2の処理S1〜S3にしたがって説明する。
a)入力した文書が同じ言語の場合の説明
図2は分類付与支援処理フローチャートである。以下、図2の処理S1〜S3にしたがって説明する。
S1:入力部1により、分類を付与すべき文書と、分類が記載された文書(分類表)の2つの文書を入力する。
S2:単語抽出部2は、入力された文のいずれか一方の文書の形態素解析(単語分割)を行って単語を抽出する。
S3:強調表示部3は、前記抽出した単語で他の文書を検索し、他の文書中の前記抽出した単語があれば強調表示するとともに、該強調表示した単語を前記単語を抽出した一方の文書中でも強調表示し、出力部からこれら2つの文書を出力する。
b)異なる言語間での分類付与支援処理の説明
図3は異なる言語間での分類付与支援処理フローチャートである。以下、図3の処理S11〜S13にしたがって説明する。
図3は異なる言語間での分類付与支援処理フローチャートである。以下、図3の処理S11〜S13にしたがって説明する。
S11:入力部1により、分類を付与すべき文書(例えば日本語)と、分類が記載された文書(例えば英語のFタームの表)の2つの文書を入力する。
S12:単語抽出部2は、入力された文のいずれか一方の文書(例えば日本語)の形態素解析(単語分割)を行って単語を抽出し、該抽出した単語の翻訳(日本語を英語に)を行う。
S13:強調表示部3は、前記翻訳した単語で他の文書(英語のFタームの表)を検索し、他の文書中の前記翻訳した単語を強調表示するとともに、該強調表示した単語を前記単語を抽出した一方の文書中でも(その単語に相当する単語を)強調表示し、出力部からこれら2つの文書を出力する。
ここで、翻訳方法は、訳語辞書で翻訳する方法と既存の翻訳システムで翻訳する方法がある。訳語辞書とは、例えば、car --車、house --家等のように訳語が対になって表記されているもので、単語マッチで変換して利用するものである。
なお、上記単語抽出部2の処理では、全ての品詞を抽出する説明をしたが、処理性能(時間)等により、名詞だけを抽出する、名詞と形容詞と動詞を抽出する、助詞と助動詞以外の全てを抽出する等を行うことができる。更に、単語抽出部2で抽出した単語に類似している単語も含めて抽出するようにできる。
(3):強調表示の説明
強調表示とは、文字の色を変えて表示する、文字の背景の色を変える(色濃度を変える場合も含む)又は網かけを行う、文字の字体を変える(太文字、斜体文字等)、下線付けや括弧で囲む、文字の上に記号等を設ける等で行うことができる。また、単語の一致具合(一致度)により、色等を変えて異なる強調表示を行うこともできる。一致具合も分類単語の文の10%以下なら強調表示しない、10%と50%の間なら強調表示を行い、50%以上なら異なる強調表示する等としてもよい。
強調表示とは、文字の色を変えて表示する、文字の背景の色を変える(色濃度を変える場合も含む)又は網かけを行う、文字の字体を変える(太文字、斜体文字等)、下線付けや括弧で囲む、文字の上に記号等を設ける等で行うことができる。また、単語の一致具合(一致度)により、色等を変えて異なる強調表示を行うこともできる。一致具合も分類単語の文の10%以下なら強調表示しない、10%と50%の間なら強調表示を行い、50%以上なら異なる強調表示する等としてもよい。
また、Fタームの表等の分類表(又は分類する文書)において強調する単語が密集していればその部分が分かるように全体の色を濃くすることもできる。分類する文書においては、例えば、段落単位で色を変えることもできる。
更に、Fタームの表等の一つの枠(例えば、図4(a)の用途の枠)で所定個数(例えば3個)以上のFタームが強調表示される場合、その枠自体も強調表示することができ、その場合に強調表示されるFタームの数により、異なる強調表示を行うこともできる。
分類表の場合、下位の分類が強調表示された場合、その上位の分類も強調表示することができ、その場合、上位は下位と異なる強調表示(色の濃さを変える等)とすることができる。また、強調表示される下位の分類の数により、上位の分類を異なる強調表示とすることもできる。
図4は強調表示の説明図であり、図4(a)は分類を付与する特許文書例の説明である。図4(a)において、特許文書の単語(記号も含む)のうちFタームリストに出てくる単語が強調表示(ここでは斜線を付与)されている。図4(b)はFタームリスト例の説明である。図4(b)において、Fタームリストの単語(記号も含む)のうち特許文書に出てくる単語が強調表示(ここでは斜線を付与)されている。
a)分野ごとの色分けの説明
分野ごとに色分けして、強調表示することもできる。
分野ごとに色分けして、強調表示することもできる。
(1) 感情表現の分野の単語を登録して、怒っている色(例えば赤)、喜んでいる色(例えば黄)、悲しんでいる色(例えば青)などを出すこともできる。この場合、単語を強調表示するだけでもいいし、段落や、文書ごとに、色の多かったものの色を全体に色付けしてもよい。
(2) 普通の分野の説明
経済、政治、スポーツ、などの分野ごとに色分けする。
経済、政治、スポーツ、などの分野ごとに色分けする。
(3) 分類語彙表の説明
分類語彙表だと、人、組織名、生産物、概念単語に応じて色分けする。
分類語彙表だと、人、組織名、生産物、概念単語に応じて色分けする。
(4) 表形式の分類の説明
表形式の分類だと、行ごと、または、列ごとの分類などで、色分けする。例えば、原子記号の表、Fタームの表など。
表形式の分類だと、行ごと、または、列ごとの分類などで、色分けする。例えば、原子記号の表、Fタームの表など。
なお、頻度ごとに色分けするようにもできる。例えば、高頻度は赤、中頻度は黄色、緑、低頻度は青など。
b)ツールバー表示の説明
ツールバーの本体の部分(インタフェース部分、WEB情報の取得表示など)は visual c のプログラミング言語で作成し、ツールバーの外側の部分であるテキスト処理(文の文字列処理)は、Perlのプログラミング言語で作成する。
ツールバーの本体の部分(インタフェース部分、WEB情報の取得表示など)は visual c のプログラミング言語で作成し、ツールバーの外側の部分であるテキスト処理(文の文字列処理)は、Perlのプログラミング言語で作成する。
Perlは、インタプリターな言語(事前にコンパイルせずに、実行時にコンパイルして動作する。速度は遅いがメインテナス、システム構築が容易)であり、また、正規表現を含む文字列処理に便利なものである。
ツールバー本体(インタフェース部分、WEB情報の取得表示など) では、html(hypertext markup language )の表示を行う。テキスト処理を正規表現を含む文字列処理が可能なインタプリターなプログラミング言語では、元のhtmlを変換して新しいhtmlを作る。ツールバー本体(インタフェース部分、WEB情報の取得表示など) で新しいhtmlの表示を行うようにする。html内部に、強調表示したい単語にはhtmlのタグで色付けなど行う。
また、辞書ファイルを外部(交換可能)に持って、ファイルで単語と、各単語の色を定義して、それに基づいて強調表示することもできる。副詞以外(形容詞等)も同様にファイルを作れば同様に強調表示でき便利なものである。例えば、分類表を入れれば分類が強調表示される。
さらに、別のperlプログラムを外部(交換可能)に持って、そのプログラムにより、強調表示することもできる。perlは、インタプリターな言語なので、ツールバー本体の外にもテキストファイルとしてプログラムを持つことができる。そのプログラムを交換すると、ほとんどあらゆる他の種類のhtmlの変更が可能となる。これは、強調表示にとどまらないものである。このような変更が外のプログラムを修正するだけでできるようになる。
また、強調表示手段3で、強調表示する入力された文書のファイルの大きさが所定値より大きい(この所定値は入力する部分を設けてユーザが自由に設定できるようになっている)場合、強調表示を行わないようにする。これは、強調表示する入力された文であるhtmlファイルが大きくて時間がかかり過ぎる処理を行うことを防止するものである。
本発明は、インターネットエクスプローラーのツールバーとして組み込んで利用できる。
ツールバーでも、この特許の強調表示をすることがきる。ツールバーの場合、一つのHTMLしか見れないので、分類と、本文を、一つのファイルにする。ただし、ファイル中、どこからどこが分類で、どこからどこが本文であるかがわかるように印をいれておく。単語抽出部2では、この印により、分類と本文を判断することができる。このようにすると、一つのファイルで、強調表示をすることができる。
ツールバー表示では、上記印を設け、ツールバー上の「分類支援」という表示を選択して、強調表示を行って分類付与の支援を行うこともできる。もちろん、二つのファイルを入力して、HTMLで一つのファイルとすることもできる。
図5はツールバー表示の説明図である。図5において、出力部4の表示画面10には、最上段にはデータのタイトル11、2段目には処理を指定するコマンド列12、3段目には閲覧している場所を示している。1段目にはツールバーにオプション領域を設け、オプション領域を選択(指定)すると、「分類支援」、「原子記号」等の表示が現れる。なお、オプション領域の代わりに直接「分類支援」、「原子記号」等の表示を設けることもできる。
この「分類支援」を選択することにより、図2、図3の処理が行われ、下の画面15に表示されている文書(テキストデータ)の分類表にある単語の強調表示を行い、文書の分類付与支援を行うことができる。また、「原子記号」を選択することにより、文書(画面15)中の原子記号を強調表示することができる。
(4):単語の認識の説明
a)形態素解析の説明
日本語の単語を抽出(認識)するために、単語抽出部2が行う形態素解析システムが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
a)形態素解析の説明
日本語の単語を抽出(認識)するために、単語抽出部2が行う形態素解析システムが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本型
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。ここで、分割された単語を抽出の単位に用い、付与された品詞により単語抽出が行われる。
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本型
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。ここで、分割された単語を抽出の単位に用い、付与された品詞により単語抽出が行われる。
b)英語の品詞タグつけの説明
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。
Eric Brill, Transformation-Based Error-Driven Learning and
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。
(5):同義語、類義語の認定方法の説明
前記単語抽出部2の処理で、強調表示する単語を抽出する場合、該抽出した単語の同義語及び類義語(類似する単語)も抽出するようにできる。同義語、類義語の認定方法としては次のものがある。
前記単語抽出部2の処理で、強調表示する単語を抽出する場合、該抽出した単語の同義語及び類義語(類似する単語)も抽出するようにできる。同義語、類義語の認定方法としては次のものがある。
a)辞書を利用する方法
(分類語彙表の説明)
各単語がどういう意味クラスを持つかを記述した表のようなものがある。それを使えば単語の意味クラスを求めることができる。例えば、分類語彙表がある。分類語彙表では、単語は分類番号と呼ばれる10桁の数字で表現され、この数字の良く似ている単語ほど良く似た単語となる。この数字の最初の3桁や5桁を単語の意味クラスと利用することが多い。
(分類語彙表の説明)
各単語がどういう意味クラスを持つかを記述した表のようなものがある。それを使えば単語の意味クラスを求めることができる。例えば、分類語彙表がある。分類語彙表では、単語は分類番号と呼ばれる10桁の数字で表現され、この数字の良く似ている単語ほど良く似た単語となる。この数字の最初の3桁や5桁を単語の意味クラスと利用することが多い。
例えば、「村人] の分類番号は 1230102050 であり、これは 123(人種、国民、社会階層などの意味クラス)、 12301(国民、住民などの意味クラス)に属する単語であることが示される。
この分類語彙表を用いて、同じ意味クラスのものを、類義語として、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示することができる。ただし、同じ単語でなく、類義語としてあった場合の強調表示の仕方を、同じ単語の場合と変えて行うこともできる。
なお、上記分類語彙表は例であり、予め同義語、類義語を表などで整理しておき、その情報を用いて、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示してもよい。また、分類語彙表以外の同義語、類義語辞書を用いてもよい。
(分類語彙表の詳細な説明)
分類語彙表の一部の例をあげると次のように表現される。
1. 体の類
・・・ 1.1 抽象的関係・・・
1.100 こそあど
.101 事柄
.102 事項
.103 真・実
.104 本体
1.1100類・例
1等級・系列
1.1110関係
1本
2因果
3理由・目的・証拠
1.1120異同
1類似・一致
:
分類語彙表の一部の例をあげると次のように表現される。
1. 体の類
・・・ 1.1 抽象的関係・・・
1.100 こそあど
.101 事柄
.102 事項
.103 真・実
.104 本体
1.1100類・例
1等級・系列
1.1110関係
1本
2因果
3理由・目的・証拠
1.1120異同
1類似・一致
:
b)自動処理に基づくものの説明
入力された文書において、各単語と、それと同一文に出現する単語群の組を作成する。「それと同一文に出現する単語群」が良く似た単語同士を類義語として、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示する。
入力された文書において、各単語と、それと同一文に出現する単語群の組を作成する。「それと同一文に出現する単語群」が良く似た単語同士を類義語として、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示する。
「それと同一文に出現する単語群」が良く似ているかどうかの判定では、「それと同一文に出現する単語群」を単語をベクトルの要素、同一文に出現する頻度を要素の値とする。ベクトルを作成して、ベクトル同士の角度の小さいものを良く似ているとしてもよいし、比較する2つの単語x,y の「それと同一文に出現する単語群」において、単語x の「それと同一文に出現する単語群」の単語の種類の数を b、単語y の「それと同一文に出現する単語群」の単語の種類の数を c、2つの単語x,y で共通して出現する単語の種類の数を a、として、2a/(b+c)が大きいものほど類似するとしてもよいし、また、a/max(b+c)が大きいものほど類似するとしてもよい。なお、これらの方法に類似する方法でもよい。
また、上記では入力された文書において、各単語と、それと同一文に出現する単語群の組を作成する。としたが、各単語と、それの直前直後にくる文字列の組を作成し、この直前直後にくる文字列が似ている単語同士ほど類似するとしてもよい。
なお、分類表では、分類(数字や記号)だけを書いて、文書で強調表示する単語を分類表には書かなくする(分類付与支援装置に分類表の単語は入力する)こともできる。この場合、分類表の分類が強調表示される。そして、文書では単語が強調表示されることになる。
(6):他の文書への応用の説明
前記の説明では、特許文書とFタームの定義の表を例にあげたが、他の文書対でも同様のことができる。例えば、論文の分野コード表と論文で強調表示して、論文を分野に分類するということも考えられる。また、原子記号の周期律表と原子分子関係の論文で本発明の強調表示をして、原子記号の強調と原子記号による論文の分類を行うこともできる。また、単語を分類した表である分類語彙表とテキスト文書によりテキスト文書の分類を行うことも考えられる。
前記の説明では、特許文書とFタームの定義の表を例にあげたが、他の文書対でも同様のことができる。例えば、論文の分野コード表と論文で強調表示して、論文を分野に分類するということも考えられる。また、原子記号の周期律表と原子分子関係の論文で本発明の強調表示をして、原子記号の強調と原子記号による論文の分類を行うこともできる。また、単語を分類した表である分類語彙表とテキスト文書によりテキスト文書の分類を行うことも考えられる。
このように、分類コードの定義表にあった確実な情報に基づいて、それらを相互的に強調表示することで、ユーザの分類付与の支援をするため、ユーザはこの支援結果の情報を確実に信頼して利用することができ便利である。
なお、前記の分類付与支援装置は、文書に具体的に分類を付与する場合だけでなく、単語を強調表示だけで終わる場合も含むものである。
(7):プログラムインストールの説明
入力部(入力手段)1、単語抽出部(単語抽手段)2、強調表示部(強調表示手段)3、出力部(出力手段)4等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
入力部(入力手段)1、単語抽出部(単語抽手段)2、強調表示部(強調表示手段)3、出力部(出力手段)4等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
1 入力部(入力手段)
2 単語抽出部(単語抽出手段)
3 強調表示部(強調表示手段)
4 出力部(出力手段)
2 単語抽出部(単語抽出手段)
3 強調表示部(強調表示手段)
4 出力部(出力手段)
Claims (10)
- 文書と分類が記載された文書が入力される入力手段と、
前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段と、
前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段とを備えることを特徴とした分類付与支援装置。 - 前記単語抽出手段は、指定した品詞の単語のみを抽出することを特徴とした請求項1記載の分類付与支援装置。
- 前記一方の文書と前記他方の文書の言語が異なった文書とし、前記単語抽出手段は、抽出した単語を翻訳することを特徴とした請求項1又は2記載の分類付与支援装置。
- 前記単語抽出手段は、前記抽出した単語に類似する単語も抽出することを特徴とした請求項1〜3のいずれかに記載の分類付与支援装置。
- 前記強調表示手段は、前記単語を検索するとき、前記単語の一致度により異なる強調表示を行うことを特徴とした請求項1〜4のいずれかに記載の分類付与支援装置。
- 前記強調表示手段は、前記単語を予め決められた分野ごとに異なる強調表示を行うことを特徴とした請求項1〜5のいずれかに記載の分類付与支援装置。
- 前記入力手段に入力される前記文書と前記分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルであることを特徴とした請求項1〜6のいずれかに記載の分類付与支援装置。
- 前記入力された文書を画面表示する出力手段を備え、
前記出力手段の画面のツールバーに前記強調表示を選択する選択部を備えることを特徴とした請求項1〜7のいずれかに記載の分類付与支援装置。 - 入力手段より文書と分類が記載された文書を入力し、
単語抽出手段で前記入力されたいずれか一方の文書の単語を抽出し、
強調表示手段で前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示することを特徴とした分類付与支援方法。 - 文書と分類が記載された文書が入力される入力手段と、
前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段と、
前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段として、
コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007003061A JP2008171164A (ja) | 2007-01-11 | 2007-01-11 | 分類付与支援装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007003061A JP2008171164A (ja) | 2007-01-11 | 2007-01-11 | 分類付与支援装置及び方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008171164A true JP2008171164A (ja) | 2008-07-24 |
Family
ID=39699204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007003061A Pending JP2008171164A (ja) | 2007-01-11 | 2007-01-11 | 分類付与支援装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008171164A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203868A (ja) * | 2011-03-28 | 2012-10-22 | Toshiba Corp | 拾い読み支援システム、拾い読み支援方法及びプログラム |
JP2014115858A (ja) * | 2012-12-11 | 2014-06-26 | Hitachi Ltd | 文書作成支援装置、文書作成支援方法及び文書作成支援プログラム |
WO2019160152A1 (ja) * | 2018-02-19 | 2019-08-22 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06348755A (ja) * | 1993-06-07 | 1994-12-22 | Hitachi Ltd | 文書分類方法およびそのシステム |
JP2006344010A (ja) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | 文書検索装置 |
-
2007
- 2007-01-11 JP JP2007003061A patent/JP2008171164A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06348755A (ja) * | 1993-06-07 | 1994-12-22 | Hitachi Ltd | 文書分類方法およびそのシステム |
JP2006344010A (ja) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | 文書検索装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203868A (ja) * | 2011-03-28 | 2012-10-22 | Toshiba Corp | 拾い読み支援システム、拾い読み支援方法及びプログラム |
JP2014115858A (ja) * | 2012-12-11 | 2014-06-26 | Hitachi Ltd | 文書作成支援装置、文書作成支援方法及び文書作成支援プログラム |
WO2019160152A1 (ja) * | 2018-02-19 | 2019-08-22 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
JP2019145102A (ja) * | 2018-02-19 | 2019-08-29 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551567B2 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
Vijayarani et al. | Text mining: open source tokenization tools-an analysis | |
US10157171B2 (en) | Annotation assisting apparatus and computer program therefor | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
US20180366013A1 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
US20210124876A1 (en) | Evaluating the Factual Consistency of Abstractive Text Summarization | |
Mitkov et al. | Coreference and anaphora: developing annotating tools, annotated resources and annotation strategies | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN110770735A (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
Eika et al. | Authoring WCAG2. 0-compliant texts for the web through text readability visualization | |
CN113343706A (zh) | 基于多模态特征和语义规则的文本抑郁倾向检测系统 | |
Malik et al. | Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017) | |
JP2008171164A (ja) | 分類付与支援装置及び方法及びプログラム | |
Blessing et al. | An end-to-end environment for research question-driven entity extraction and network analysis | |
KR20100068929A (ko) | 전자 문서에 의미 정보를 부착하는 시스템 및 방법 | |
Hajbi et al. | Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect | |
Aziz et al. | A hybrid model for spelling error detection and correction for Urdu language | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
Sukhareva et al. | Crowdsourcing a large dataset of domain-specific context-sensitive semantic verb relations | |
Ihsan et al. | A Corpus-based Study of Reporting Verbs in Citation Texts Using Natural Language Processing | |
KR20070067058A (ko) | 웹 문서 제목 추출 방법 및 그 장치 | |
Iwashokun et al. | Structural vetting of academic proposals | |
JP2838984B2 (ja) | 汎用参照装置 | |
Percillier | Creating and analyzing literary corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111115 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120313 |