JP2008171164A - 分類付与支援装置及び方法及びプログラム - Google Patents

分類付与支援装置及び方法及びプログラム Download PDF

Info

Publication number
JP2008171164A
JP2008171164A JP2007003061A JP2007003061A JP2008171164A JP 2008171164 A JP2008171164 A JP 2008171164A JP 2007003061 A JP2007003061 A JP 2007003061A JP 2007003061 A JP2007003061 A JP 2007003061A JP 2008171164 A JP2008171164 A JP 2008171164A
Authority
JP
Japan
Prior art keywords
word
classification
document
input
highlighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007003061A
Other languages
English (en)
Inventor
Maki Murata
真樹 村田
Toshiyuki Kanamaru
敏幸 金丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007003061A priority Critical patent/JP2008171164A/ja
Publication of JP2008171164A publication Critical patent/JP2008171164A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】分類を付与するのに重点的にチェックすればよい所が容易にわかるようにすること。
【解決手段】分類を付与する文書と分類が記載された文書が入力される入力手段1と、前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段2と、前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と他方の両方の文書で強調表示する強調表示手段3とを備える。
【選択図】図1

Description

本発明は、特許文書等にFターム等の分類をふる際に利用できる分類付与支援装置及び方法及びプログラムに関する。特許へのFターム付与は、1特許あたり専門家が1時間以上かけて行うものであり、かなりコストの高い仕事である。本発明によりそのコストが削減できる。また、本発明は、他の文書対への分類の付与にも利用できるものである。
従来、特許文書にふるべきFタームを計算機により自動で推定してそれをユーザに提示する技術はあった(非特許文献1参照)。しかし、計算機の提示したFタームは間違っている可能性があり、計算機の出力を提示するだけではユーザのFターム付与の支援において効果的でなかった。
Masaki Murata et al. Using the K Nearest Neighbor Method and BM25 in the Patent Document Categorization Subtask at NTCIR-5, Proceedings of the Fifth NTCIR Workshop Meeting, p.324-331, 2005.
上記従来のFタームを計算機により自動で推定する技術は、計算機の提示したFタームは間違っている可能性があり、正確には専門家が特許文書を読み再度付与する必要があった。
本発明は上記問題点の解決を図り、入力文書に出てくる分類表にあった単語を強調表示して分類を付与するときの参考にし、分類表では入力文書に出てくる単語を強調表示することで、重点的にチェックすればよい所が容易にわかるようにすることを目的とする。
図1は分類付与支援装置の説明図である。図1中、1は入力部(入力手段)、2は単語抽出部(単語抽出手段)、3は強調表示部(強調表示手段)、4は出力部(出力手段)である。
本発明は、前記従来の課題を解決するため次のような手段を有する。
(1):文書と分類が記載された文書が入力される入力手段1と、前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段2と、前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段3とを備える。このため、分類を付与するのに重点的にチェックすればよい所が容易にわかる。
(2):前記(1)の分類付与支援装置において、前記単語抽出手段2は、指定した品詞の単語のみを抽出する。このため、不要な単語を少なくして検索することができる。
(3):前記(1)又は(2)の分類付与支援装置において、前記一方の文書と他方の文書の言語が異なった文書とし、前記単語抽出手段2は、抽出した単語を翻訳する。このため、他の言語の文書の分類付与の支援を行うことができる。
(4):前記(1)〜(3)の分類付与支援装置において、前記単語抽出手段2は、前記抽出した単語に類似する単語も抽出する。このため、分類が記載された文書(分類表)の単語と類似する単語で記載された文書に対して分類付与の支援を行うことができる。
(5):前記(1)〜(4)の分類付与支援装置において、前記強調表示手段3は、前記単語を検索するとき、前記単語の一致度により異なる強調表示を行う。このため、より正確な情報で分類付与の支援を行うことができる。
(6):前記(1)〜(5)の分類付与支援装置において、前記強調表示手段3は、前記単語を予め決められた分野ごとに異なる強調表示を行う。このため、分類付与に必要な分野を容易に見つけることができる。
(7):前記(1)〜(6)の分類付与支援装置において、前記入力手段1に入力される前記文書と前記分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルとする。このため、入力した一つのファイルにおいて、分類付与の支援を行うことができる。
(8):前記(1)〜(7)の分類付与支援装置において、前記入力された文書を画面表示する出力手段4を備え、前記出力手段4の画面のツールバーに前記強調表示を選択する選択部を備える。このため、この選択部をクリック等で指示して、画面に表示された文書を強調表示することで、分類を付与するのに重点的にチェックすればよい所が容易にわかるようになる。
本発明によれば次のような効果がある。
(1):単語抽出手段で入力されたいずれか一方の文書の単語を抽出し、強調表示手段で前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を両方の文書で強調表示するため、分類を付与するのに重点的にチェックすればよい所が容易にわかる。
(2):単語抽出手段で指定した品詞の単語のみを抽出するため、不要な単語を少なくして検索することができる。
(3):単語抽出手段で抽出した単語を翻訳するため、他の言語の文書の分類付与の支援を行うことができる。
(4):単語抽出手段で抽出した単語に類似する単語も抽出するため、分類が記載された文書(分類表)の単語と類似する単語で記載された文書に対しても分類付与の支援を行うことができる。
(5):強調表示手段で単語を検索するとき、単語の一致度により異なる強調表示を行うため、より正確な情報で分類付与の支援を行うことができる。
(6):強調表示手段で単語を予め決められた分野ごとに異なる強調表示を行うため、分類付与に必要な分野を容易に見つけることができる。
(7):入力手段に入力される文書と分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルとするため、入力した一つのファイルにおいて、分類付与の支援を行うことができる。
(8):出力手段の画面のツールバーに強調表示を選択する選択部を備えるため、この選択部をクリック等で指示して、画面に表示された文書を強調表示することで、分類を付与するのに重点的にチェックすればよい所が容易にわかるようになる。
本発明は、特許文書にFタームとよばれる分類コードを手際よくふるための分類付与支援装置である。例えば、テーマ(theme )コードまではわかったとして、そのテーマコードのFタームの定義の表と、ふる特許文書を用意する。そして、特許文書に出ていた単語を、Fタームの定義の表で強調表示する。また、Fタームの定義の表にあった単語を特許文書中で強調表示する。そうすると、その特許にかかわりの多いFタームの項目が強調表示され、Fタームをふるときの参考に使えて便利である。また、特許文書中でもFタームが強調表示され、重点的にチェックすればよいところ(周辺の情報)がわかり便利である。ここでは特許文書とFタームの定義の表を例にあげるが、他の文書対(例えば、IPC分類表と特許文書、論文の分類表と論文等)でも同様のことができる。
(1):分類付与支援装置の説明
図1は分類付与支援装置の説明図である。図1において、分類付与支援装置には、入力部1、単語抽出部2、強調表示部3、出力部4が設けてある。
入力部1は、キーボード、マウス、読み取り装置等の情報の入力を行う入力手段である。単語抽出部2は、形態素解析を行って単語を抽出する単語抽出手段である。強調表示部3は、検索した単語の強調表示を行う強調表示手段である。出力部4は、表示装置、プリンタ等の情報の出力を行う出力手段である。
(2):分類付与支援処理の説明
a)入力した文書が同じ言語の場合の説明
図2は分類付与支援処理フローチャートである。以下、図2の処理S1〜S3にしたがって説明する。
S1:入力部1により、分類を付与すべき文書と、分類が記載された文書(分類表)の2つの文書を入力する。
S2:単語抽出部2は、入力された文のいずれか一方の文書の形態素解析(単語分割)を行って単語を抽出する。
S3:強調表示部3は、前記抽出した単語で他の文書を検索し、他の文書中の前記抽出した単語があれば強調表示するとともに、該強調表示した単語を前記単語を抽出した一方の文書中でも強調表示し、出力部からこれら2つの文書を出力する。
b)異なる言語間での分類付与支援処理の説明
図3は異なる言語間での分類付与支援処理フローチャートである。以下、図3の処理S11〜S13にしたがって説明する。
S11:入力部1により、分類を付与すべき文書(例えば日本語)と、分類が記載された文書(例えば英語のFタームの表)の2つの文書を入力する。
S12:単語抽出部2は、入力された文のいずれか一方の文書(例えば日本語)の形態素解析(単語分割)を行って単語を抽出し、該抽出した単語の翻訳(日本語を英語に)を行う。
S13:強調表示部3は、前記翻訳した単語で他の文書(英語のFタームの表)を検索し、他の文書中の前記翻訳した単語を強調表示するとともに、該強調表示した単語を前記単語を抽出した一方の文書中でも(その単語に相当する単語を)強調表示し、出力部からこれら2つの文書を出力する。
ここで、翻訳方法は、訳語辞書で翻訳する方法と既存の翻訳システムで翻訳する方法がある。訳語辞書とは、例えば、car --車、house --家等のように訳語が対になって表記されているもので、単語マッチで変換して利用するものである。
なお、上記単語抽出部2の処理では、全ての品詞を抽出する説明をしたが、処理性能(時間)等により、名詞だけを抽出する、名詞と形容詞と動詞を抽出する、助詞と助動詞以外の全てを抽出する等を行うことができる。更に、単語抽出部2で抽出した単語に類似している単語も含めて抽出するようにできる。
(3):強調表示の説明
強調表示とは、文字の色を変えて表示する、文字の背景の色を変える(色濃度を変える場合も含む)又は網かけを行う、文字の字体を変える(太文字、斜体文字等)、下線付けや括弧で囲む、文字の上に記号等を設ける等で行うことができる。また、単語の一致具合(一致度)により、色等を変えて異なる強調表示を行うこともできる。一致具合も分類単語の文の10%以下なら強調表示しない、10%と50%の間なら強調表示を行い、50%以上なら異なる強調表示する等としてもよい。
また、Fタームの表等の分類表(又は分類する文書)において強調する単語が密集していればその部分が分かるように全体の色を濃くすることもできる。分類する文書においては、例えば、段落単位で色を変えることもできる。
更に、Fタームの表等の一つの枠(例えば、図4(a)の用途の枠)で所定個数(例えば3個)以上のFタームが強調表示される場合、その枠自体も強調表示することができ、その場合に強調表示されるFタームの数により、異なる強調表示を行うこともできる。
分類表の場合、下位の分類が強調表示された場合、その上位の分類も強調表示することができ、その場合、上位は下位と異なる強調表示(色の濃さを変える等)とすることができる。また、強調表示される下位の分類の数により、上位の分類を異なる強調表示とすることもできる。
図4は強調表示の説明図であり、図4(a)は分類を付与する特許文書例の説明である。図4(a)において、特許文書の単語(記号も含む)のうちFタームリストに出てくる単語が強調表示(ここでは斜線を付与)されている。図4(b)はFタームリスト例の説明である。図4(b)において、Fタームリストの単語(記号も含む)のうち特許文書に出てくる単語が強調表示(ここでは斜線を付与)されている。
a)分野ごとの色分けの説明
分野ごとに色分けして、強調表示することもできる。
(1) 感情表現の分野の単語を登録して、怒っている色(例えば赤)、喜んでいる色(例えば黄)、悲しんでいる色(例えば青)などを出すこともできる。この場合、単語を強調表示するだけでもいいし、段落や、文書ごとに、色の多かったものの色を全体に色付けしてもよい。
(2) 普通の分野の説明
経済、政治、スポーツ、などの分野ごとに色分けする。
(3) 分類語彙表の説明
分類語彙表だと、人、組織名、生産物、概念単語に応じて色分けする。
(4) 表形式の分類の説明
表形式の分類だと、行ごと、または、列ごとの分類などで、色分けする。例えば、原子記号の表、Fタームの表など。
なお、頻度ごとに色分けするようにもできる。例えば、高頻度は赤、中頻度は黄色、緑、低頻度は青など。
b)ツールバー表示の説明
ツールバーの本体の部分(インタフェース部分、WEB情報の取得表示など)は visual c のプログラミング言語で作成し、ツールバーの外側の部分であるテキスト処理(文の文字列処理)は、Perlのプログラミング言語で作成する。
Perlは、インタプリターな言語(事前にコンパイルせずに、実行時にコンパイルして動作する。速度は遅いがメインテナス、システム構築が容易)であり、また、正規表現を含む文字列処理に便利なものである。
ツールバー本体(インタフェース部分、WEB情報の取得表示など) では、html(hypertext markup language )の表示を行う。テキスト処理を正規表現を含む文字列処理が可能なインタプリターなプログラミング言語では、元のhtmlを変換して新しいhtmlを作る。ツールバー本体(インタフェース部分、WEB情報の取得表示など) で新しいhtmlの表示を行うようにする。html内部に、強調表示したい単語にはhtmlのタグで色付けなど行う。
また、辞書ファイルを外部(交換可能)に持って、ファイルで単語と、各単語の色を定義して、それに基づいて強調表示することもできる。副詞以外(形容詞等)も同様にファイルを作れば同様に強調表示でき便利なものである。例えば、分類表を入れれば分類が強調表示される。
さらに、別のperlプログラムを外部(交換可能)に持って、そのプログラムにより、強調表示することもできる。perlは、インタプリターな言語なので、ツールバー本体の外にもテキストファイルとしてプログラムを持つことができる。そのプログラムを交換すると、ほとんどあらゆる他の種類のhtmlの変更が可能となる。これは、強調表示にとどまらないものである。このような変更が外のプログラムを修正するだけでできるようになる。
また、強調表示手段3で、強調表示する入力された文書のファイルの大きさが所定値より大きい(この所定値は入力する部分を設けてユーザが自由に設定できるようになっている)場合、強調表示を行わないようにする。これは、強調表示する入力された文であるhtmlファイルが大きくて時間がかかり過ぎる処理を行うことを防止するものである。
本発明は、インターネットエクスプローラーのツールバーとして組み込んで利用できる。
ツールバーでも、この特許の強調表示をすることがきる。ツールバーの場合、一つのHTMLしか見れないので、分類と、本文を、一つのファイルにする。ただし、ファイル中、どこからどこが分類で、どこからどこが本文であるかがわかるように印をいれておく。単語抽出部2では、この印により、分類と本文を判断することができる。このようにすると、一つのファイルで、強調表示をすることができる。
ツールバー表示では、上記印を設け、ツールバー上の「分類支援」という表示を選択して、強調表示を行って分類付与の支援を行うこともできる。もちろん、二つのファイルを入力して、HTMLで一つのファイルとすることもできる。
図5はツールバー表示の説明図である。図5において、出力部4の表示画面10には、最上段にはデータのタイトル11、2段目には処理を指定するコマンド列12、3段目には閲覧している場所を示している。1段目にはツールバーにオプション領域を設け、オプション領域を選択(指定)すると、「分類支援」、「原子記号」等の表示が現れる。なお、オプション領域の代わりに直接「分類支援」、「原子記号」等の表示を設けることもできる。
この「分類支援」を選択することにより、図2、図3の処理が行われ、下の画面15に表示されている文書(テキストデータ)の分類表にある単語の強調表示を行い、文書の分類付与支援を行うことができる。また、「原子記号」を選択することにより、文書(画面15)中の原子記号を強調表示することができる。
(4):単語の認識の説明
a)形態素解析の説明
日本語の単語を抽出(認識)するために、単語抽出部2が行う形態素解析システムが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本型
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。ここで、分割された単語を抽出の単位に用い、付与された品詞により単語抽出が行われる。
b)英語の品詞タグつけの説明
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。
Eric Brill, Transformation-Based Error-Driven Learning and
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。
(5):同義語、類義語の認定方法の説明
前記単語抽出部2の処理で、強調表示する単語を抽出する場合、該抽出した単語の同義語及び類義語(類似する単語)も抽出するようにできる。同義語、類義語の認定方法としては次のものがある。
a)辞書を利用する方法
(分類語彙表の説明)
各単語がどういう意味クラスを持つかを記述した表のようなものがある。それを使えば単語の意味クラスを求めることができる。例えば、分類語彙表がある。分類語彙表では、単語は分類番号と呼ばれる10桁の数字で表現され、この数字の良く似ている単語ほど良く似た単語となる。この数字の最初の3桁や5桁を単語の意味クラスと利用することが多い。
例えば、「村人] の分類番号は 1230102050 であり、これは 123(人種、国民、社会階層などの意味クラス)、 12301(国民、住民などの意味クラス)に属する単語であることが示される。
この分類語彙表を用いて、同じ意味クラスのものを、類義語として、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示することができる。ただし、同じ単語でなく、類義語としてあった場合の強調表示の仕方を、同じ単語の場合と変えて行うこともできる。
なお、上記分類語彙表は例であり、予め同義語、類義語を表などで整理しておき、その情報を用いて、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示してもよい。また、分類語彙表以外の同義語、類義語辞書を用いてもよい。
(分類語彙表の詳細な説明)
分類語彙表の一部の例をあげると次のように表現される。
1. 体の類
・・・ 1.1 抽象的関係・・・
1.100 こそあど
.101 事柄
.102 事項
.103 真・実
.104 本体
1.1100類・例
1等級・系列
1.1110関係
1本
2因果
3理由・目的・証拠
1.1120異同
1類似・一致
b)自動処理に基づくものの説明
入力された文書において、各単語と、それと同一文に出現する単語群の組を作成する。「それと同一文に出現する単語群」が良く似た単語同士を類義語として、一方の文書にあった単語の類義語が他方の文書にあった場合、それらを強調表示する。
「それと同一文に出現する単語群」が良く似ているかどうかの判定では、「それと同一文に出現する単語群」を単語をベクトルの要素、同一文に出現する頻度を要素の値とする。ベクトルを作成して、ベクトル同士の角度の小さいものを良く似ているとしてもよいし、比較する2つの単語x,y の「それと同一文に出現する単語群」において、単語x の「それと同一文に出現する単語群」の単語の種類の数を b、単語y の「それと同一文に出現する単語群」の単語の種類の数を c、2つの単語x,y で共通して出現する単語の種類の数を a、として、2a/(b+c)が大きいものほど類似するとしてもよいし、また、a/max(b+c)が大きいものほど類似するとしてもよい。なお、これらの方法に類似する方法でもよい。
また、上記では入力された文書において、各単語と、それと同一文に出現する単語群の組を作成する。としたが、各単語と、それの直前直後にくる文字列の組を作成し、この直前直後にくる文字列が似ている単語同士ほど類似するとしてもよい。
なお、分類表では、分類(数字や記号)だけを書いて、文書で強調表示する単語を分類表には書かなくする(分類付与支援装置に分類表の単語は入力する)こともできる。この場合、分類表の分類が強調表示される。そして、文書では単語が強調表示されることになる。
(6):他の文書への応用の説明
前記の説明では、特許文書とFタームの定義の表を例にあげたが、他の文書対でも同様のことができる。例えば、論文の分野コード表と論文で強調表示して、論文を分野に分類するということも考えられる。また、原子記号の周期律表と原子分子関係の論文で本発明の強調表示をして、原子記号の強調と原子記号による論文の分類を行うこともできる。また、単語を分類した表である分類語彙表とテキスト文書によりテキスト文書の分類を行うことも考えられる。
このように、分類コードの定義表にあった確実な情報に基づいて、それらを相互的に強調表示することで、ユーザの分類付与の支援をするため、ユーザはこの支援結果の情報を確実に信頼して利用することができ便利である。
なお、前記の分類付与支援装置は、文書に具体的に分類を付与する場合だけでなく、単語を強調表示だけで終わる場合も含むものである。
(7):プログラムインストールの説明
入力部(入力手段)1、単語抽出部(単語抽手段)2、強調表示部(強調表示手段)3、出力部(出力手段)4等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
本発明の分類付与支援装置の説明図である。 本発明の分類付与支援処理フローチャートである。 本発明の異なる言語間での分類付与支援処理フローチャートである。 本発明の強調表示の説明図である。 本発明のツールバー表示の説明図である。
符号の説明
1 入力部(入力手段)
2 単語抽出部(単語抽出手段)
3 強調表示部(強調表示手段)
4 出力部(出力手段)

Claims (10)

  1. 文書と分類が記載された文書が入力される入力手段と、
    前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段と、
    前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段とを備えることを特徴とした分類付与支援装置。
  2. 前記単語抽出手段は、指定した品詞の単語のみを抽出することを特徴とした請求項1記載の分類付与支援装置。
  3. 前記一方の文書と前記他方の文書の言語が異なった文書とし、前記単語抽出手段は、抽出した単語を翻訳することを特徴とした請求項1又は2記載の分類付与支援装置。
  4. 前記単語抽出手段は、前記抽出した単語に類似する単語も抽出することを特徴とした請求項1〜3のいずれかに記載の分類付与支援装置。
  5. 前記強調表示手段は、前記単語を検索するとき、前記単語の一致度により異なる強調表示を行うことを特徴とした請求項1〜4のいずれかに記載の分類付与支援装置。
  6. 前記強調表示手段は、前記単語を予め決められた分野ごとに異なる強調表示を行うことを特徴とした請求項1〜5のいずれかに記載の分類付与支援装置。
  7. 前記入力手段に入力される前記文書と前記分類が記載された文書が、それぞれの文書がわかるように印を付けた一つのファイルであることを特徴とした請求項1〜6のいずれかに記載の分類付与支援装置。
  8. 前記入力された文書を画面表示する出力手段を備え、
    前記出力手段の画面のツールバーに前記強調表示を選択する選択部を備えることを特徴とした請求項1〜7のいずれかに記載の分類付与支援装置。
  9. 入力手段より文書と分類が記載された文書を入力し、
    単語抽出手段で前記入力されたいずれか一方の文書の単語を抽出し、
    強調表示手段で前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示することを特徴とした分類付与支援方法。
  10. 文書と分類が記載された文書が入力される入力手段と、
    前記入力されたいずれか一方の文書の単語を抽出する単語抽出手段と、
    前記抽出した単語を前記入力された他方の文書で検索し、その単語があったらその単語を前記一方と前記他方の両方の文書で強調表示する強調表示手段として、
    コンピュータを機能させるためのプログラム。
JP2007003061A 2007-01-11 2007-01-11 分類付与支援装置及び方法及びプログラム Pending JP2008171164A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007003061A JP2008171164A (ja) 2007-01-11 2007-01-11 分類付与支援装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007003061A JP2008171164A (ja) 2007-01-11 2007-01-11 分類付与支援装置及び方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2008171164A true JP2008171164A (ja) 2008-07-24

Family

ID=39699204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007003061A Pending JP2008171164A (ja) 2007-01-11 2007-01-11 分類付与支援装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2008171164A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203868A (ja) * 2011-03-28 2012-10-22 Toshiba Corp 拾い読み支援システム、拾い読み支援方法及びプログラム
JP2014115858A (ja) * 2012-12-11 2014-06-26 Hitachi Ltd 文書作成支援装置、文書作成支援方法及び文書作成支援プログラム
WO2019160152A1 (ja) * 2018-02-19 2019-08-22 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JP2006344010A (ja) * 2005-06-09 2006-12-21 Fuji Xerox Co Ltd 文書検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JP2006344010A (ja) * 2005-06-09 2006-12-21 Fuji Xerox Co Ltd 文書検索装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203868A (ja) * 2011-03-28 2012-10-22 Toshiba Corp 拾い読み支援システム、拾い読み支援方法及びプログラム
JP2014115858A (ja) * 2012-12-11 2014-06-26 Hitachi Ltd 文書作成支援装置、文書作成支援方法及び文書作成支援プログラム
WO2019160152A1 (ja) * 2018-02-19 2019-08-22 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
JP2019145102A (ja) * 2018-02-19 2019-08-29 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US11551567B2 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
Vijayarani et al. Text mining: open source tokenization tools-an analysis
US10157171B2 (en) Annotation assisting apparatus and computer program therefor
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及系统
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20210124876A1 (en) Evaluating the Factual Consistency of Abstractive Text Summarization
Mitkov et al. Coreference and anaphora: developing annotating tools, annotated resources and annotation strategies
CN110609983B (zh) 一种政策文件结构化分解方法
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
Eika et al. Authoring WCAG2. 0-compliant texts for the web through text readability visualization
CN113343706A (zh) 基于多模态特征和语义规则的文本抑郁倾向检测系统
Malik et al. Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017)
JP2008171164A (ja) 分類付与支援装置及び方法及びプログラム
Blessing et al. An end-to-end environment for research question-driven entity extraction and network analysis
KR20100068929A (ko) 전자 문서에 의미 정보를 부착하는 시스템 및 방법
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
Aziz et al. A hybrid model for spelling error detection and correction for Urdu language
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Sukhareva et al. Crowdsourcing a large dataset of domain-specific context-sensitive semantic verb relations
Ihsan et al. A Corpus-based Study of Reporting Verbs in Citation Texts Using Natural Language Processing
KR20070067058A (ko) 웹 문서 제목 추출 방법 및 그 장치
Iwashokun et al. Structural vetting of academic proposals
JP2838984B2 (ja) 汎用参照装置
Percillier Creating and analyzing literary corpora

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313