JP5526199B2 - 文書分類装置および文書分類処理プログラム - Google Patents

文書分類装置および文書分類処理プログラム Download PDF

Info

Publication number
JP5526199B2
JP5526199B2 JP2012183534A JP2012183534A JP5526199B2 JP 5526199 B2 JP5526199 B2 JP 5526199B2 JP 2012183534 A JP2012183534 A JP 2012183534A JP 2012183534 A JP2012183534 A JP 2012183534A JP 5526199 B2 JP5526199 B2 JP 5526199B2
Authority
JP
Japan
Prior art keywords
word
document
category
words
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012183534A
Other languages
English (en)
Other versions
JP2014041481A (ja
Inventor
和之 後藤
国威 祖
泰成 宮部
秀樹 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012183534A priority Critical patent/JP5526199B2/ja
Priority to CN201380042988.1A priority patent/CN104584005B/zh
Priority to PCT/JP2013/072481 priority patent/WO2014030721A1/ja
Publication of JP2014041481A publication Critical patent/JP2014041481A/ja
Application granted granted Critical
Publication of JP5526199B2 publication Critical patent/JP5526199B2/ja
Priority to US14/627,734 priority patent/US20150161144A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Description

本発明の実施形態は、電子化された大量の文書を、その内容に応じて分類するための文書分類装置および文書分類処理プログラムに関する。
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された文書の情報を、計算機システムを用いて大量に収集、記憶し、利用することが可能となった。このような大量の文書を利用しやすい形に整理するための技術として、文書の自動分類やクラスタリングなどの技術が期待されている。
とくに昨今は、企業等の活動の急速な国際化が進む中、1つの言語だけでなく、日本語、英語、中国語といった複数の自然言語で記述された文書を、効率よく分類することが求められている。
例えば、複数の国で出願された特許文書を、言語の違いに依らず、内容の類似性に基づいて分類して、出願傾向を分析したいというニーズがある。また例えば、複数の国で販売している製品に対する、顧客からの質問や苦情などの情報を、各国のコンタクトセンターで受け付け、これを分類・分析したいというニーズもある。また、例えば、インターネットで公開されている、様々な言語で書かれたニュース記事や、製品・サービス等についての評判・意見などの情報を、収集して分析したいというニーズもある。
複数の異なる言語で記述された文書集合を、内容の類似性に基づき、言語横断的に分類する方法の1つに、機械翻訳技術を用いる方法がある。これは、母国語以外の言語(例えば日本語を母国語とした場合は英語や中国語)で記述された文書を翻訳し、全ての文書を1つの言語(すなわち母国語)の文書として処理できるようにした上で、自動分類やクラスタリングなどを行う方法である。
しかしながら、この方法では、機械翻訳の精度によって、自動分類などの処理の精度が左右されてしまい、翻訳誤りなどが原因で、文書が適切に分類できないといった、精度面の問題がある。また、一般に、機械翻訳の処理は計算コストが大きいため、大量の文書を対象にする場合は、性能面の問題がある。さらに、複数のユーザが文書を分類して利用する場合、その母国語も様々であると考えられるが、これを予め想定して大量の文書を複数の言語に翻訳しておくことは難しいという問題もある。
複数の言語で記述された文書集合を言語横断的に分類するもう1つの方法に、対訳辞書を用いる方法がある。ここでの対訳辞書とは、ある言語で記述された単語や語句などの表現と、別の言語の同じ意味の表現とを、互いに対応付けた辞書やシソーラスのことである(以下では簡単のため、複合語やフレーズなども含め、単に単語と記す)。
対訳辞書を用いて言語横断分類を実現する方法の例としては、まず、複数の言語で記述された文書集合のうち、ある言語1で記述された文書の部分集合を分類してカテゴリを作成するとともに、その各カテゴリの特徴を表す言語aの単語を、例えば単語ベクトルの形で求める。一方、別の言語bの文書については、その特徴を表す言語bの単語ベクトルを求める。
ここで、言語aの各カテゴリの単語ベクトルの各次元(つまり言語aの単語)と、言語bの文書の単語ベクトルの各次元(つまり言語bの単語)を、対訳辞書を用いて対応付けることができれば、言語aの単語ベクトルと言語bの単語ベクトルの類似度を計算することができ、この類似度に基づいて、言語bの文書を、言語aのカテゴリのうち、適切なカテゴリに分類することが可能となる。
このような、対訳辞書を用いる方法では、対訳辞書の質と量が重要であるが、これを全て人手で作成するには労力がかかる。そこで、対訳辞書を半自動的に作成する方法として、ある言語で記述されたある単語に対し、その対訳として適切な、別の言語で記述された単語を、各言語のコーパス(corpus:文例を集めたデータベース)での単語の共起頻度と、汎用的な対訳辞書に基づいて求める方法がある。
この方法では、まず、対訳辞書を作成する対象の単語として、例えば、一方の言語での表現が既知であり、これに対応する他方の言語での表現が未知であるような、専門用語などを指定する必要がある。しかしながら、内容が未知の文書を分類する場合には、どのような単語について対訳辞書を作成すべきかを予め想定することはできない。
よって、クラスタリングなどの発見的な分類手法によって未知の内容の文書を分類するという目的には、この方法は適していない。また、上述した方法では、半自動的に作成する対訳辞書とは別に、汎用的な対訳辞書を必要とするが、対象とする言語によっては、この汎用的な対訳辞書を予め十分に用意できない場合もある。
また、例えば、英語の単語「character」に対する日本の単語には、「性格」「特性」「人物」「文字」などがあり、とくに汎用的な対訳辞書を用いる場合には、分類の対象とする文書集合に応じて適切な対訳語を選択する必要があるという問題もある。
また、上述の方法によって作成した対訳のシソーラスを用いて、文書を自動分類する方法がある。この方法では、文書が適切なカテゴリに分類されない場合に、カテゴリに対応するシソーラスの語義をユーザが修正することで、分類の誤りなどに対処できるとしているが、この作業は、対象とする言語に不慣れなユーザにとっては特に、労力を要する。
特開2001−331484号公報 特開2010−55298号公報 特開2005−107705号公報
本発明が解決しようとする課題は、複数の異なる自然言語で記述された大量の文書を、内容の類似性に基づいて、言語横断的に分類するための分類構造を効率よく作成することが可能になる文書分類装置および文書分類処理プログラムを提供することにある。
実施形態によれば、文書分類装置は、複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段と、前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段とをもつ。
実施形態に係る多言語文書分類装置の構成例を表すブロック図。 実施形態に係る多言語文書分類装置の構成例を表すブロック図。 実施形態に係る多言語文書分類装置の構成例を表すブロック図。 実施形態に係る多言語文書分類装置の構成例を表すブロック図。 実施形態に係る多言語文書分類装置の構成例を表すブロック図。 文書記憶部に記憶される文書の一例を表形式で示す図。 カテゴリ記憶部に記憶されるカテゴリの一例を表形式で示す図。 文書間対応関係記憶部に記憶される文書間の関係の一例を表形式で示す図。 辞書記憶部に記憶される辞書語の一例を表形式で示す図。 単語抽出部の処理手順の一例を示すフローチャート。 単語間対応関係抽出部の処理手順の一例を表すフローチャート。 単語間対応関係抽出部によって抽出される単語間の関係の例を示す図。 カテゴリ生成部の処理手順の一例を示すフローチャート。 カテゴリの複数の単語ベクトルを生成するための処理手順の一例を示すフローチャート。 カテゴリ間対応関係抽出部の処理手順の一例を示すフローチャート。 カテゴリ間対応関係抽出部によって抽出されるカテゴリ間の関係の一例を表形式で示す図。 事例ベース文書分類部の処理手順の一例を示すフローチャート。 カテゴリ特徴語抽出部の処理手順の一例を示すフローチャート。 カテゴリ特徴語変換部の処理手順の一例を示すフローチャート。 カテゴリ特徴語抽出部によって抽出されてカテゴリ特徴語変換部によって変換される特徴語の一例を表形式で示す図。 分類ルール変換部の処理手順の一例を示すフローチャート。 分類ルール変換部によって変換されるカテゴリの分類ルールの一例を表形式で示す図。 辞書変換部の処理手順の一例を示すフローチャート。 辞書変換部によって変換される辞書語の一例を表形式で示す図。
以下、実施の形態について、図面を参照して説明する。
図1〜図5は、各実施形態に係る多言語文書分類装置の構成例を表すブロック図である。図1〜図5に示した各構成では、実現する機能によって部分的に異なる手段を設けているが、基本的な手段である文書記憶部1、単語抽出部2、カテゴリ記憶部3、カテゴリ操作部4、文書間対応関係記憶部5、単語間対応関係抽出部6は、各構成に共通した手段である。以下は、代表的な構成である図1を主に用いて説明する。
図1中、文書記憶部1は、文書分類装置が分類の対象とする複数の文書のデータを記憶する手段であり、例えば不揮発性メモリといった記憶装置により実現される。この文書記憶部1には、複数の異なる言語で記述した文書のデータを各々記憶して管理するようにしている。図1にはこれを、第1言語文書記憶部、第2言語文書記憶部、…、第n言語文書記憶部といった形で示しているが、具体的には、例えば、日本語、英語、中国語といった言語で記述された文書が、各言語用の文書記憶部に記憶される。
次に、単語抽出部2は、文書のデータから単語を抽出するための手段であり、具体的には後述するように、形態素解析などによって、文書の分類などの処理に必要なデータである単語を抽出し、各単語の各文書での出現頻度などを求める処理を行う。
この単語抽出部2は、複数の異なる言語で記述された文書に対応するために、図1に示すように、第1言語単語抽出部、第2言語単語抽出部、…、第n言語単語抽出部といった、各言語用の手段で構成している。具体的には、日本語、英語、中国語といった言語を対象に、形態素解析などの処理を行う手段を各々設ける。
次に、カテゴリ記憶部3は、文書を分類するカテゴリのデータを記憶して管理する手段であり、例えば不揮発性メモリといった記憶装置により実現される。一般的には、カテゴリ記憶部3では、階層構造を成す複数のカテゴリによって、文書を内容に応じて分類するようにしており、このカテゴリ記憶部3には、各カテゴリに分類する文書のデータや、カテゴリの階層構造におけるカテゴリ間の親子関係などのデータが記憶される。
次に、カテゴリ操作部4は、カテゴリ記憶部3に記憶されたカテゴリのデータに対するユーザによる閲覧や編集などの操作を受け付ける。
このカテゴリ操作部4は、一般的には、グラフィカル・ユーザ・インタフェース(GUI)を用いて実現される。このカテゴリ操作部4によって、ユーザは、カテゴリの作成、削除、移動(階層構造で親子関係の付け替える)、コピー、統合(複数のカテゴリを1つにまとめる)といった、カテゴリを対象とした操作や、カテゴリに文書を分類させたり、カテゴリに分類されている文書を別のカテゴリに移動したりといった、文書を対象とした操作を行なうことができる。
次に、文書間対応関係記憶部5は、文書記憶部1に記憶された文書間の対応関係を記憶する手段であり、例えば不揮発性メモリといった記憶装置により実現される。一般的には、文書間対応関係記憶部5では、異なる言語で記述された文書間の対応関係を表すデータが記憶されて管理される。文書間の対応関係の具体例としては、特許文書を分類対象とした場合、例えば、日本国特許と米国特許との、優先権や国際特許出願による対応関係などが挙げられる。
次に、単語間対応関係抽出部6は、単語抽出部2によって各言語で記述された文書から抽出した単語と、文書間対応関係記憶部5に記憶した文書間の対応関係とに基づいて、異なる言語で記述された単語間の対応関係を自動的に抽出する手段である。
単語間対応関係抽出部6により抽出される、異なる言語で記述された単語間の対応関係の具体例としては、例えば、日本語の単語「文字」と、英語の単語「character」と、中国語の単語「字符」といった、対訳に近い対応関係である。
図1に示したカテゴリ生成部7と、カテゴリ間対応関係抽出部8は、図1の構成に固有な機能を実現するための手段である。
カテゴリ生成部7は、同一の言語で記述された複数の文書を対象にして、単語抽出部2によって各文書から抽出された単語の出現頻度の類似性に基づき、文書をクラスタリングすることで、カテゴリを自動的に生成する手段である。
カテゴリ間対応関係抽出部8は、一般的には、カテゴリ生成部7によって生成された、複数の異なる言語で記述された文書群を分類する複数のカテゴリの間の対応関係を自動的に抽出する手段である。これらの手段によって生成されたカテゴリや、カテゴリ間の対応関係は、カテゴリ記憶部3によって記憶される。
図1に示した実施形態によれば、複数の異なる自然言語で記述された複数の文書を対象にして、各言語で記述された文書を分類する分類構造が言語毎に自動的に生成されるとともに、異なる言語で記述された文書を分類するカテゴリ間の対応関係が自動的に抽出されるので、対応関係が得られたカテゴリ同士を統合することで、言語によらず、内容が類似した文書を分類するカテゴリを、容易に作成することができる。
次に、図2に示した実施形態の構成では、図1に示した文書記憶部1、単語抽出部2、カテゴリ記憶部3、カテゴリ操作部4、文書間対応関係記憶部5、単語間対応関係抽出部6を有するほか、図2の構成に固有な機能を実現するための手段である事例ベース文書分類部9をさらに有する。
この事例ベース文書分類部9は、カテゴリ記憶部3に記憶した1つまたは複数のカテゴリを対象に、各カテゴリにすでに分類されている1つまたは複数の既分類文書に基づき、当該カテゴリに未だ分類されていない未分類文書を、当該カテゴリに分類すべきかどうかを、自動的に決定する手段である。
この自動分類の処理は、後述するように、単語抽出部2によって各文書から抽出した単語と、単語間対応関係抽出部6によって抽出した単語間の対応関係とに基づき、カテゴリの既分類文書と同じ言語で記述された未分類文書のみならず、別の言語で記述された未分類文書も対象にして、これを当該カテゴリに分類するかどうかを決定できることが特徴である。
図2に示した実施形態によれば、あるカテゴリにすでに分類されている、ある言語で記述された文書に基づいて、これと内容が類似した、別の言語で記述された文書を当該カテゴリに自動的に分類することができるので、全ての言語で記述された文書をカテゴリに教師文書として分類する必要がなく、ユーザにとって内容が理解しやすい言語で記述された文書のみを教師文書として分類すればよいので、文書を容易に分類することができる。
次に、図3に示した実施形態の構成では、図1に示した文書記憶部1、単語抽出部2、カテゴリ記憶部3、カテゴリ操作部4、文書間対応関係記憶部5、単語間対応関係抽出部6を有するほか、図3の構成に固有な機能を実現するための手段であるカテゴリ特徴語抽出部10と、カテゴリ特徴語変換部11とを有する。
カテゴリ特徴語抽出部10は、カテゴリ記憶部3に記憶した1つまたは複数のカテゴリを対象に、各カテゴリに分類された文書の内容を表す特徴的な単語を抽出する手段である。以下、必要に応じて、特徴的な単語を特徴語と称する。
この特徴語は、後述するように、カテゴリに分類された文書から、単語抽出部2によって抽出した単語のうち、カテゴリの特徴をよく表す適切な単語が選別されることによって抽出される語である。
カテゴリ特徴語変換部11は、カテゴリから抽出した、ある言語で記述された特徴語を、単語間対応関係抽出部6によって抽出した異なる言語で記述された単語間の対応関係に基づき、別の言語で記述された特徴語に変換する手段である。
図3に示した実施形態によれば、カテゴリの特徴語を自動的に抽出し、さらにこれを、ユーザが理解しやすい言語に変換して提示することができるので、ユーザは、カテゴリに分類されている文書の内容を、容易に理解することができる。
次に、図4に示した実施形態の構成では、図1に示した文書記憶部1、単語抽出部2、カテゴリ記憶部3、カテゴリ操作部4、文書間対応関係記憶部5、単語間対応関係抽出部6を有するほか、図4の構成に固有な機能を実現するための手段であるルールベース文書分類部12と、分類ルール変換部13とを有する。
ルールベース文書分類部12は、カテゴリ記憶部3に記憶したカテゴリに設定された分類ルールによって、当該カテゴリに分類する文書を決定する手段である。一般的に、各カテゴリの分類ルールは、単語抽出部2によって文書から抽出した単語のうち、1つまたは複数の単語が出現する文書を、当該カテゴリに分類するよう規定されている。
分類ルール変換部13は、この分類ルールを、単語間対応関係抽出部6によって抽出した異なる言語で記述された単語間の対応関係に基づき、ある言語で記述された文書を分類するための分類ルールを、別の言語で記述された文書を分類するための分類ルールへと変換するための手段である。
図4に示した実施形態によれば、カテゴリに分類する文書を規定する分類ルールについて、ある言語で記述された文書を分類するための分類ルールを、別の言語で記述された文書を分類する分類ルールに、自動的に変換することができるので、分類ルールの作成や保守の作業が軽減される。
次に、図5に示した実施形態の構成では、図1に示した文書記憶部1、単語抽出部2、カテゴリ記憶部3、カテゴリ操作部4、文書間対応関係記憶部5、単語間対応関係抽出部6、カテゴリ生成部7、カテゴリ間対応関係抽出部8を有するほか、図5の構成に固有な機能を実現するための手段である辞書記憶部14と、辞書設定部15と、辞書変換部16とをさらに有する。図5では、これら14〜16の手段を図1に示した構成に追加した例を示している。ただし、これら14〜16の手段は、図2〜図4に示した構成に追加して具備させることも可能である。
すなわち、辞書記憶部14は、図1のカテゴリ生成部7、または、図2の事例ベース文書分類部9、または、図3のカテゴリ特徴語抽出部10の処理での、単語の使用方法を規定する辞書を記憶する手段であり、例えば不揮発性メモリなどの記憶装置により実現される。
図5に示した実施形態によれば、カテゴリの自動生成や文書の自動分類の処理で使用する、重要語、不要語、同義語を定める辞書について、ある言語で記述された辞書語を、別の言語で記述された辞書語に自動的に変換することができるので、辞書の作成や保守の作業が軽減される。
後述するように、辞書記憶部14に記憶される辞書には、文書の分類やカテゴリの特徴語の抽出などの処理において、重視すべき単語である重要語、無視すべき単語である不要語、同一視すべき単語の組である同義語の、いずれかまたは複数を辞書語として設定できるようにしている。辞書設定部15は、これらの辞書語を辞書に設定する手段である。
辞書変換部16は、辞書に設定された、ある言語で記述された辞書語を、単語間対応関係抽出部6によって抽出した異なる言語で記述された単語間の対応関係に基づき、別の言語で記述された辞書語に変換する手段である。
図6は、文書記憶部1に記憶されている文書のデータの一例を表形式で示す図である。図6(a),(b),(c)で示した合計3つの文書のデータの例では、図6(a)で示した行601でユニークな文書番号「dj01」が付与され、図6(b)で示した行605でユニークな文書番号「dj02」が付与され、図6(c)で示した行606でユニークな文書番号「de03」が付与されている。
また、文書を記述する言語として、図6(a)で示した行602に「日本語」、図6(c)で示した行607に「英語」が記されている。この例では特許の抄録のデータの一部を表しており、各文書は、図6(a)の行603における名称「デジタルカメラ」や行604における要約「撮像素子によって入力した…」といったテキストのデータを有する。一般的には、これらのテキストの内容に応じて、文書の分類が行なわれるが、図6に示したように、各文書のテキストは異なる言語で記述されている。
図7は、図1〜図5のカテゴリ記憶部に記憶されているカテゴリのデータの例を表す図である。
図7(a),(b),(c),(d)で示したように、各カテゴリには、例えば、図7(a)の行701のカテゴリ番号「c01」、図7(b)の行706のカテゴリ番号「c02」などのように、ユニークなカテゴリ番号が付与されている。各カテゴリのデータには、当該カテゴリと親カテゴリとの関係が記されており、これにより、複数のカテゴリが成す階層構造が表現される。
例えば図7(a)に示したカテゴリの親カテゴリは行702に示される「(なし)」であるので、このカテゴリは階層構造の最上位、つまりルートのカテゴリである。また、図7(b)のカテゴリの親カテゴリは行707に示される「c01」であるので、図7(a)で示したカテゴリ番号「c01」に対応するカテゴリが、この図7(b)で示したカテゴリの親カテゴリである。
各カテゴリには、図7(a)の行703の「デジタルカメラ」や、図7(b)の行708の「顔−検出」のように名称が記されている。これらの名称は、文書分類装置が自動的にカテゴリに付与する場合もあるし、ユーザが明示的に付与する場合もある。
各カテゴリのデータには、当該カテゴリに分類する文書を、分類ルールまたは文書集合の形で記しており、例えば図7(a)に示したカテゴリでは、行704に示すように分類ルールは「(なし)」であり、行705に示すように文書集合は「(全て)」であるため、このカテゴリには、文書記憶部1に記憶された全ての文書が分類されている。
図7(b)に示したカテゴリでは、行709に示すように分類ルールは「(なし)」で、行710に示すように文書集合には「dj02」や「dj17」などの文書番号が記されているため、このカテゴリには、これらの文書番号に対応する文書が分類されている。
図7(c)のカテゴリには、行712に示すように分類ルール「contains(要約、”露光”)」が設定されており、この分類ルールによって、文書の「要約」のテキストに「露光」という単語を含む文書が、このカテゴリに分類される。なお、図7(c)に示したカテゴリでは、行713に示すように、文書集合には、図7(b)中の行710に示した例とは異なり、文書番号は明示的には記されておらず、「(分類ルールによる)」とされており、この分類ルールによる文書集合が、このカテゴリに分類されることになる。
分類ルールによって文書を分類する処理は、図4に示したルールベース文書分類部12によって実行されるが、この処理は、一般的には、データベース等の記憶手段から分類ルールを満足する文書を検索することで実行される。例えば、図7(c)に示した行712における分類ルール「contains(要約、”露光”)」の場合、「要約」のテキストに「露光」という単語を含む文書を全文検索することで、当該カテゴリに分類する文書を求めることができる。このような処理は従来技術によって実現可能であるので、詳細な説明は省略する。
図8は、図1〜図5の文書間対応関係記憶部5に記憶されている文書間の対応関係のデータの例を表す図である。
図8に示した行801や行802の各行によって、文書間の対応関係が1つずつ表されており、例えば行801では、文書番号が「dj02」である文書と、文書番号が「de03」である文書とに対応関係があることを示している。すなわちこれは、図6(b)で示した日本語の文書と、図6(c)で示した英語の文書との対応関係を表す。
同様に、図8に示した行802によれば、文書番号が「dj02」である日本語の文書と文書番号が「dc08」である中国語の文書とに対応関係がある。また、行803によれば、文書番号が「de03」である英語の文書と文書番号が「dc08」である中国語の文書とに対応関係がある。結果として、文書番号が「dj02」である文書と文書番号が「de03」である文書と文書番号が「dc08」である文書でなる3つ文書が全て互いに関係していることが分かる。
また、図8に示した行804と行805によれば、文書番号が「dj26」である日本語の文書は、文書番号が「de33」である英語の文書と、文書番号が「de51」である英語の文書との両方に対応関係があることが示されているが、このように、1つの文書と、同じ言語(この場合は英語)の複数の文書とに対応関係があってもよいこととする。
図9は、図5に示した辞書記憶部14に記憶された辞書のデータの例を表す図である。辞書記憶部14に記憶された辞書では、図9に示した行901や行902といった各行によって、辞書の辞書語が1つずつ表されており、例えば行901は「日本語」の「重要語」で表記が「フラッシュ」である辞書語を表し、行903は「日本語」の「不要語」で表記が「発明」である辞書語を表し、行905は「日本語」の「同義語」で表記が「フラッシュ」と「ストロボ」である辞書語を表す。
ここで、重要語とは、後述する文書の分類などの処理で重視する単語のことであり、例えば本実施形態のように、単語ベクトルを用いた方法で文書の分類などの処理を行う場合は、単語ベクトルでの重要語の重みを、例えば2倍重くするという処理が行なわれる。また、不要語とは、文書の分類などの処理で無視する単語であり、例えば単語ベクトルから不要語を除いて、単語ベクトルの次元にはしないようにするといった処理が行なわれる。
例えば、特許文書を分類対象とする場合、「発明」や「装置」といった単語は、特許の内容をほとんど表さないため、図9に示したように、このような単語を不要語とする。また、同義語とは、文書の分類などの処理で同一視する単語であり、例えば単語ベクトルでは異なる表記であっても、同じ単語、すなわち同じ次元として処理される。
図10は、図1〜図5の単語抽出部2の処理の流れの一例を表すフローチャートである。
まず、単語抽出部2は、単語を抽出する対象の文書からテキストを取得する(S1001)。図6に示した例では、図6(a)中の行603で示される、文書の「名称」である「デジタルカメラ」や、行604で示される「要約」である「撮像領域によって入力した…」とのテキストが取得される。単語抽出部2は、この取得したテキストを形態素解析する(S1002)。この処理の内容は言語によって異なるが、例えば日本語や中国語の場合には、テキストを形態素に分解すなわち分かち書きし、各形態素に対して名詞や動詞などの品詞を付与する。英語の場合には、分かち書きの処理は主に空白文字に基づいて行うが、品詞の付与は日本語や中国と同様に行う。
次に、単語抽出部2は、所定の品詞が付与された形態素を選別して、必要な形態素のみを残し、不要な形態素を除く(S1003)。一般的には、単語抽出部2は、自立語や内容語は、分類などの処理に使用する形態素として残し、付属語や機能語は除くという処理を行うが、この処理は言語に依存する。単語抽出部2は、例えば動詞については、英語と中国語の場合は必要な形態素として残し、日本語の場合は不要な形態素として除くようにしてもよいし、英語の動詞であっても「have」や「make」はいわゆるストップワードとして除くようにしてもよい。
次に、単語抽出部2は、形態素の表記を正規化する(S1004)。この処理も言語に依存する処理である。単語抽出部2は、例えば抽出したテキストが日本語である場合には、「組み合わせ」と「組合せ」などの表記揺れを吸収して、同一の形態素として扱うようにしてもよいし、抽出したテキストが英語である場合には、いわゆるステミング(stemming)と呼ばれる処理を行い、語幹が同じ形態素を同一の形態素として扱うようにしてもよい。
次に、単語抽出部2は、S1004で正規化した形態素毎に、文書中での出現頻度(ここではTF(Term Frequency)すなわち単語頻度)を求め(S1005)、最後に、S1004で正規化した形態素と、その出現頻度との組を出力する(S1006)。
図11は、図1〜図5で示した単語間対応関係抽出部6の処理の流れの一例を表すフローチャートである。
まず、単語間対応関係抽出部6は、文書間対応関係記憶部5に記憶されているデータを用いて、言語kの文書集合Dkに属する文書dkと、言語lの文書集合Dlに属する文書dlとの、文書間の対応関係の集合を、Dkl={(dk,dl):dk∈Dk,dl∈Dl,dk⇔dl}とする(S1101)。
次に単語間対応関係抽出部6は、Dkl中の言語kの文書dkの各々から、単語抽出部2によって抽出した単語を、Dkl中の全ての文書dkについて和集合をとることで、言語kの単語集合Tkを求める(S1102)。その結果、Dkl中の文書に含まれる言語kの単語と、その出現頻度(ここではDF(Document Frequency)つまり文書頻度)が得られる。
単語間対応関係抽出部6は、言語lについても同様に、Dkl中の言語lの文書dlの各々から単語抽出部2によって抽出した単語をDkl中の全ての文書dlについて和集合をとることで、言語lの単語集合Tlを求める(S1103)。次に、単語間対応関係抽出部6は、単語集合Tk中の各単語tkについて繰り返して(S1104)、以下のS1105からS1112までの処理を行う。
まず、単語間対応関係抽出部6は、単語tkのDklでの文書頻度df(tk,Dkl)を求め(S1105)、この文書頻度が所定の閾値以上であれば(S1106のYES)、単語集合Tl中の各単語tlについて繰り返して(S1107)、以下のS1108からS1112までの処理を行う。
まず、単語間対応関係抽出部6は、単語tlの文書頻度df(tl,Dkl)を求め(S1108)、この文書頻度が所定の閾値以上であれば(S1109)、以下のS1110以降の処理を行う。
ここで、単語間対応関係抽出部6は、単語tkの文書頻度df(tk,Dkl)、すなわち当該単語が出現する文書数が、所定の閾値未満(例えば5件未満)であれば(S1106のNO)、当該単語について別の言語で記述された単語との対応関係を精度よく求めるためのデータがDkl中で不足しているとみなして、S1104に戻る。
また、単語間対応関係抽出部6は、単語tlの文書頻度df(tl,Dkl)、すなわち当該単語が出現する文書数が、所定の閾値未満(例えば5件未満)であれば(S1109のNO)、当該単語について別の言語で記述された単語との対応関係を精度よく求めるためのデータがDkl中で不足しているとみなして、S1107に戻る。
単語間対応関係抽出部6は、文書頻度df(tl,Dkl)が所定の閾値以上であれば(S1109のYES)、単語tkと単語tlのDklでの共起頻度df(tk,tl,Dkl)を求める。この共起頻度とは、単語tkを含む文書と、単語tlを含む文書との、文書間の対応関係の個数である。また、単語間対応関係抽出部6は、この共起頻度を用いて、単語tkと単語klとの、Dklでの共起の大きさを表すダイス(Dice)係数を以下の式(1)に基づいて求め、Dklでの共起の大きさを同じく表すシンプソン(Simpson)係数を以下の式(2)によって求める(S1110)。
dice(tk,tl,Dkl)=df(tk,tl,Dkl)/(df(tk,Dkl)+df(tl,Dkl)) …式(1)
simp(tk,tl,Dkl)=df(tk,tl,Dkl)/min(df(tk,Dkl),df(tl,Dkl)) …式(2)
次に、単語間対応関係抽出部6は、共起頻度df(tk,tl,Dkl)と、ダイス係数dice(tk,tl,Dkl)と、シンプソン係数simp(tk,tl,Dkl)が、それぞれ所定の閾値以上であれば(S1111のYES)、単語tkと単語tlの関係を単語間の対応関係の候補とし、そのスコアを、α*dice(tk,tl,Dkl)+β*simp(tk,tl,Dkl)とする(αとβは定数)(S1112)。最後に、単語間対応関係抽出部6は、このようにして求めた単語間の対応関係の複数個の候補を、スコアの大きい順に出力する(S1113)。
本実施形態では、このように、異なる言語で記述された単語tkと単語tlとの関係が、対訳語や関連語として適切かどうかを、文書頻度(DF)に基づいたDice係数とSimpson係数を用いて判定している。この方法によれば、文書単位の対応関係、すなわち文章単位の対訳関係でない大まかな対応関係のみを用いて、単語間の対応関係を精度よく抽出することができる。ただし、本実施形態では、上述の方法や数式には限定されず、例えば相互情報量など別の数式を用いてもよいし、あるいは、単語頻度(TF)を考慮した方法を用いてもよい。
図12は、図11で説明した、単語間対応関係抽出部6の処理の結果として抽出された、日本語と英語の単語間の対応関係の例を表す図である。
図12に示すように、例えば行1201では、日本語の単語「露光」に対する英語の単語「exposure」が抽出され、スコアとともに出力される。行1201と行1202の例のように、英語の1つの単語「exposure」と、日本語の複数の単語「露光」と「露出」との対応関係を得ることができるし、逆に、行1206と行1207の例のように、日本語の1つの単語「検索」に対し、英語の複数の単語「search」と「retrieve」を得ることもできる。また、単語間の対応関係に付与されたスコアによって、対応関係の適切さの度合いが定量的に示されるので、用途によっては、例えば、スコアが高い対応関係、すなわち正しい対訳語である可能性の高い対応関係のみを選んで使用することも可能である。
図13は、図1または図5のカテゴリ生成部7の処理の流れの一例を表すフローチャートである。
この処理は、ある1つの言語で記述された文書集合を対象にクラスタリングを行うことで、内容が類似した文書をまとめたカテゴリ(クラスタ)を自動生成する処理である。
まず、カテゴリ生成部7は、カテゴリ生成の対象とする言語lの文書集合をDlとし、カテゴリ生成の結果であるカテゴリ集合Clの初期値を空集合とする(S1301)。カテゴリ生成部7は、この文書集合Dl中の各文書dlについて繰り返して(S1302)、以下のS1303からS1314までの処理を実行する。
カテゴリ生成部7は、単語抽出部2を用いて文書dlから抽出した単語によって、dlの単語ベクトルvdlを求める(S1303)。単語ベクトルとは、文書中に出現する各単語をベクトルの次元とし、各単語の重みをベクトルの当該次元の値としたベクトルであり、従来技術を用いて求めることができる。単語ベクトルの各単語の重みは、例えば以下の式(3)で示したように、一般的にTFIDFと呼ばれる方法で計算できる。
tfidf(tl,dl,Dl)=tf(tl,dl)*log(|Dl|/df(tl,Dl)) …式(3)
式(3)中の、tf(tl,dl)は、単語tlについての文書dlでの単語頻度(TF)であり、df(tl,Dl)は、単語tlについての文書集合Dlでの文書頻度(DF)である。なお、tf(tl,dl)は、単純に、文書dlでの単語tlの出現回数としてもよいが、例えば、文書dlに出現する全ての単語の出現回数の総和によって、各単語の出現回数を割って正規化した値でもよい。
また、カテゴリ生成部7は、ある文書の部分集合Dcl(Dcl⊆Dl)について単語ベクトルを求める場合は、単語ベクトルの単語tlの重みは、以下の式(4)に示すように、Dcl中の各文書dlの単語ベクトルの単語tlの重みの総和として計算することができる。
tfidf(tl,Dcl,Dl)=(Σdl∈Dcl(tf(tl,dl)))*log(|Dl|/df(tl,Dl)) …式(4)
なお、図5にて説明した、辞書を使用するように構成した実施形態では、カテゴリ生成部7は、単語ベクトルの中の重要語の重みを重くしたり、不要語を削除したり、同義語である複数の単語を1つの次元にまとめたりといった処理を、このS1303のステップで行ってもよい。
また、カテゴリ生成部7における計算については、式(3)や式(4)には限られず、単語ベクトルの各単語の重みを求められる計算ができるものであれば良いし、同様の処理がなされれば、必ずしもカテゴリ生成部7で行なわれなくても差し支えない。
次に、カテゴリ生成部7は、文書dlの分類先カテゴリcmaxの初期値を「なし」とし、dlとcmaxとの類似度の最大値smaxの初期値を0とする(S1304)。そして、カテゴリ生成部7は、カテゴリ集合Cl中の各カテゴリclについて繰り返して(S1305)、以下のS1306からS1308までの処理を実行する。
カテゴリ生成部7は、カテゴリclと文書dlとの類似度sを、カテゴリclの単語ベクトルvclと、文書dlの単語ベクトルvdlとの余弦値cos(vcl,vdl)によって求める(S1306)。
次に、カテゴリ生成部7は、類似度sが所定の閾値以上で、かつ、smaxより大きければ(S1307のYES)、cmax=cl、smax=sとする(S1308)。カテゴリ生成部7は、この繰り返し処理(S1305)の結果、カテゴリcmaxが存在すれば(S1309のYES)、このカテゴリcmaxに文書dlを分類し(S1310)、カテゴリcmaxの単語ベクトルvcmaxに文書dlの単語ベクトルvdlを加える(S1311)。その結果、単語ベクトルvcmaxの各単語の重みは、式(4)で示したように、文書dlの単語頻度による重みが加わった値となる。
一方、カテゴリ生成部7は、カテゴリcmaxが存在しなければ(S1309のNO)、カテゴリcnewを新規に作成して、これをカテゴリ集合Clに追加し(S1312)、文書dlをカテゴリcnewに分類し(S1313)、カテゴリcnewの単語ベクトルvcnewを、文書dlの単語ベクトルvdlとする(S1314)。
以上の繰り返し処理(S1302)の結果として、文書集合をクラスタリングした結果のカテゴリがカテゴリ集合Clに生成されるが、カテゴリ生成部7は、このうち文書数が所定の閾値未満のカテゴリは削除する(S1315)。すなわち、カテゴリ生成部7は、例えば文書数が1件のみのカテゴリは意味がないので、このようなカテゴリを結果から除く。
また、カテゴリ生成部7は、生成された各カテゴリclについて、その単語ベクトルvclを用いて、当該カテゴリの名称を設定する(S1316)。カテゴリ生成部7は、例えば、カテゴリの単語ベクトルのうち、最も重みが大きい単語を1つまたは複数個選んで名称とすればよく、例えば図7(b)に示した例では、行708で示される2つの単語「顔」と「検出」を用いて、カテゴリの名称「顔−検出」を設定する。このようにして生成されたカテゴリは、単語ベクトルの類似度が大きい文書同士をまとめたカテゴリとなる。図13で説明した処理は、一般的にはleader−follower法と呼ばれるクラスタリング手法であるが、本実施形態はこの方法に限定せず、例えば階層型クラスタリングの手法や、k−means法などの手法を用いてもよい。
図14は、カテゴリの複数の言語の単語ベクトルを生成する処理の流れの一例を表すフローチャートである。
この処理は、後述する図15と図17に示す処理で用いる単語ベクトルを求めるために図15のS1504(カテゴリ間対応関係抽出部8)と図17のS1704(事例ベース文書分類部9)において、それぞれ行なわれる処理として実行される。カテゴリに分類されている文書の言語は、カテゴリによって異なり、例えばあるカテゴリには、日本語の文書のみが分類されており、別のカテゴリには、多数の英語の文書と少数の中国語の文書とが分類されている、といった場合がある。このような様々なカテゴリの間で、内容の類似性を判定するために、例えば日本語の文書のみが分類されているカテゴリに基づいて、英語や中国語の単語ベクトルを生成することが、図14の処理の目的である。
なお、図1に対応する第1の実施形態においてはカテゴリ間対応関係抽出部8で以下の処理は実施され、図2に対応する第2の実施形態においては事例ベース文書分類部9で以下の処理は実施されるため、以下の「単語ベクトル生成処理」は、カテゴリ間対応関係抽出部8または事例ベース文書分類部9で実施される処理であることを予め明示しておく。
まず、単語ベクトル生成処理では、複数の言語のうちの各言語lについて繰り返して(S1401)、以下のS1402からS1406までの処理を実行する。単語ベクトル生成処理では、カテゴリcに分類されている言語lの文書集合をDclとする(S1402)。単語ベクトル生成処理では、カテゴリcと言語lの種別によっては、文書集合Dclは空集合である場合もある。次に単語ベクトル生成処理では、カテゴリcの言語lの単語ベクトルの初期値vclを空ベクトル(全ての次元の重みが0)とする(S1403)。
次に、単語ベクトル生成処理では、文書集合Dcl中の各文書dlについて繰り返し(S1404)、文書dlの単語ベクトルvdlを求め(S1405)、カテゴリcの言語lの単語ベクトルvclに、文書dlの単語ベクトルvdlを加える(式(4)参照)(S1406)。このようにして、まず、カテゴリcに実際に分類されている言語lの文書集合Dcl自体をもとに、各言語lの単語ベクトルが生成される。ただし、前述のように、文書集合Dclが空集合であれば、単語ベクトルvclも空ベクトルとなる。
次に、単語ベクトル生成処理では、再度、複数の言語のうちの各言語lについて繰り返して(S1407)、以下のS1408からS1413までの処理を実行する。単語ベクトル生成処理では、カテゴリcの言語lの単語ベクトルvcl’を空ベクトルとする(S1408)。この単語ベクトルvcl’は、S1405で求めた単語ベクトルvclとは別のベクトルであるが、単語ベクトル生成処理では、まず、単語ベクトルvcl’に単語ベクトルvclを加える(S1409)。
次に、単語ベクトル生成処理では、言語l以外の各言語kについて繰り返して(S1410)、以下のS1411からS1413までの処理を実行する。単語ベクトル生成処理では、図1〜図5で示した単語間対応関係抽出部6を用い、図1に示した処理によって、言語kと言語lの単語間の対応関係を取得する(S1411)。
次に単語ベクトル生成処理では、カテゴリcの言語kの単語ベクトルvckを、言語lの単語ベクトルvcklに変換する(S1412)。S1411で取得した単語間の対応関係では、図12で説明したように、言語kの単語tkと、言語lの単語tlと、その対応関係のスコアとが得られている。そこで、単語ベクトル生成処理では、以下の式(5)によって、言語kの単語ベクトルvckの単語tkの重みweight(vck,tk)と、単語tkと単語tlとの対応関係のスコアscore(tk,tl)とを用いて、言語lの単語ベクトルvcklの、単語tlの重みを求める。
weight(vckl,tl)=Σtk(weight(vck,tk)*score(tk,tl)) …式(5)
ここで、単語ベクトルvckの単語kの重みweight(vck,tk)は、式(4)で説明したTFIDFとしてよい。また、単語kと単語lとの対応関係のスコアscore(tk,tl)は、図11で説明したα*dice(tk,tl,Dkl)+β*simp(tk,tl,Dkl)としてよい。なお、単語tlと対応関係にある言語kの単語tkが存在しなければ、単語ベクトルvcklでの単語tlの重みは0となるが、単語ベクトルとしては、全ての次元の重みが0より大きい値である必要はない。
単語ベクトル生成処理では、このようにして言語kの単語ベクトルを言語lに変換した単語ベクトルvcklを単語ベクトルvcl’に加える(S1413)。
S1410の繰り返し処理によって、カテゴリcの言語lの単語ベクトルvcl’が生成され、S1407の繰り返し処理によって、カテゴリcの全ての言語の単語ベクトルが生成される。
以上の説明から明らかなように、例えば日本語の文書しか分類されていないカテゴリについても、日本語と英語の単語間の対応関係や、日本語と中国語の単語間の対応関係を用いることで、英語の単語ベクトルや、中国語の単語ベクトルを生成することができる。
また、図14のS1408からS1413までの処理は、各言語lの単語ベクトルvclをもとに単語ベクトルvcl’を生成する処理であるので、図14の処理を変形して、S1408からS1413までの処理を再帰的に実行することで、各言語の単語ベクトルvcl’をもとに、その次元をさらに増やして重みを洗練させた単語ベクトルvcl’’を生成することもできる。すなわち単語ベクトルvclと単語ベクトルvckから単語ベクトルvcl’を生成するのと同様に、単語ベクトルvcl’と単語ベクトルvck’から単語ベクトルvcl’’を生成することもできる。
図15は、図1または図5に示したカテゴリ間対応関係抽出部8の処理の流れの一例を表すフローチャートである。
この処理は、あるカテゴリ集合Clの各カテゴリclと、別のカテゴリ集合Ckの各カテゴリckとの間の対応関係を抽出する処理であり、特に、異なる言語で記述された文書が分類されたカテゴリ間で、内容の類似性に基づいた対応関係を抽出することを目的とする処理である。カテゴリ集合Ckとカテゴリ集合Clの各カテゴリに分類された文書の言語は、この図15の処理では特に制限を設けないが、一般的には、図1または図5に示したカテゴリ生成部7による図13に示した処理によって生成された、単一の言語(カテゴリ集合Ckについては言語k、カテゴリ集合Clについては言語l)の文書を分類するカテゴリの集合を主な処理対象とする。
カテゴリ間対応関係抽出部8は、カテゴリ集合Ckとの対応関係を求める対応先のカテゴリ集合をClとし(S1501)、カテゴリ集合Ckの各カテゴリckについて繰り返し(S1502)、以下のS1503からS1509までの処理を実行する。
カテゴリ間対応関係抽出部8は、まず、カテゴリckの対応先のカテゴリcmaxの初期値を「なし」とし、カテゴリckとカテゴリcmaxとの類似度の最大値smaxを0とする(S1503)。
次に、カテゴリ間対応関係抽出部8は、カテゴリckの言語kの単語ベクトルvckk’と、言語lの単語ベクトルvckl’とを求める(S1504)。このS1504の処理は、図14で説明した処理によって行う。次に、カテゴリ間対応関係抽出部8は、カテゴリ集合Clの各カテゴリclについて繰り返して(S1505)、以下のS1506からS1509までの処理を実行する。
まず、カテゴリ間対応関係抽出部8は、カテゴリclの言語kの単語ベクトルvclk’と、言語lの単語ベクトルvcll’とを求める(S1506)。このS1506の処理はS1504の処理と同様に、図14で説明した処理によって行う。
次に、カテゴリ間対応関係抽出部8は、カテゴリckとカテゴリclとの類似度を、S1504とS1506で求めた単語ベクトルを用いて、類似度をs=cos(vckk’,vclk’)+cos(vckl’,vcll’)として求める(S1507)。すなわち、カテゴリ間対応関係抽出部8は、言語kの単語ベクトル同士の余弦値と、言語lの単語ベクトル同士の余弦値との和によって、カテゴリ間の類似度を求める。
カテゴリ間対応関係抽出部8は、この類似度sが所定の閾値以上で、かつ、smaxより大きければ(S1508のYES)、カテゴリcmax=clとし、smax=sとする(S1509)。カテゴリ間対応関係抽出部8は、S1505の繰り返し処理の後、カテゴリcmaxが存在すれば、このカテゴリcmaxをカテゴリckの対応先のカテゴリとする(S1510)。すなわち、カテゴリ集合Clのうち、カテゴリckと内容が最も類似していると考えられるカテゴリとしてcmaxが得られる。また、この場合の対応関係の類似度(スコア)は、smaxとなる。
なお、S1507で、カテゴリckとclの対応関係のスコアを、言語kと言語lの単語ベクトルの余弦値の和としていたが、本実施形態はこの方法に限定しない。例えば、言語kの単語ベクトル同士の余弦値と、言語lの単語ベクトル同士の余弦値との最大値、すなわち、s=max(cos(vckk’,vclk’),cos(vckl’,vcll’))としてスコアを計算してもよい。
図16(a)は、図15の処理によって抽出されたカテゴリ間の関係の例を表す図である。
図16(a)の行1601や行1602などの各行では、対応関係が得られたカテゴリの名称(この例では日本語のカテゴリと英語のカテゴリ)と、その対応関係のスコア、つまり図15のS1507で求めた類似度を示している。
図13の処理によって自動生成されたカテゴリには、図13のS1316で説明したように、カテゴリに分類された文書に多く出現する単語を用いて、カテゴリの名称が設定されている。よって、ユーザは、図16(a)に示した行1601に示される結果である、カテゴリの名称(「顔−検出」と「face−detect」)、図16(a)に示した行1602に示される結果である、カテゴリの名称(「画像−検索」と「image−search」)や、対応関係のスコアを用いて、自動的に抽出されたカテゴリ間の対応関係が適切かどうかを簡単に確認することができる。
適切な対応関係が得られたカテゴリ同士は、図1〜図5に示したカテゴリ操作部4を用いて統合することも可能である。図16(b)には一例として、図16(a)の行1601の2つのカテゴリ、つまり図7の(b)に示されるカテゴリと図7(d)に示されるカテゴリを統合した結果を示す。
この例では、図16(b)の行1603に示すように、カテゴリの名称が「顔−検出−face−detect」という形で連結され、また、図16(b)の行1604に示すように、カテゴリに分類されている文書集合が、図7(b)の行710で示される文書集合と図7(d)の行710で示した文書集合との和集合となり、日本語と英語の文書が分類されるようになる。
このような構成によれば、例えば、日本語の文書と、英語の文書と、中国語の文書とが混在した文書集合を分類対象とする場合、これらの文書を内容の類似性に基づいて、言語横断的に分類するための分類構造を効率よく作成することができる。すなわち、まず、日本語、英語、中国語の文書集合を、各言語毎に別々にクラスタリングして、各言語において内容が類似した文書を分類するカテゴリを自動生成する。次に、異なる言語で記述された文書間の対応関係に基づいて、異なる言語で記述された単語間の対応関係を抽出する。ここで、異なる言語で記述された文書間の対応関係とは、一般的には対訳または対訳に近い関係で、その具体例としては、特許文書を分類対象とした場合、例えば、日本国特許と米国特許との、優先権や国際特許出願による対応関係などが挙げられる。抽出される単語間の対応関係としては、例えば、日本語の単語「文字」と、英語の単語「character」と、中国語の単語「字符」といった、対訳に近い対応関係が自動的に得られる。次に、このような単語間の対応関係に基づき、異なる言語で記述されたカテゴリ間の対応関係を自動的に抽出する。そして、対応関係が得られたカテゴリ同士を、言語横断的に統合することで、日本語、英語、中国語といった言語によらず、内容が類似した文書を分類するカテゴリを作成することができる。
次に、図2に示した実施形態における処理について説明する。図17は、図2に示した事例ベース文書分類部9の処理の流れの一例を表すフローチャートである。
従来技術として、カテゴリに既に分類されている文書を分類事例(教師文書)とし、これに基づいて、未分類の文書を当該カテゴリに分類すべきかどうかを決定する、事例ベース分類(教師あり自動分類)の技術が実現されているが、図2に示した実施形態における図17の処理によれば、カテゴリに既に分類されている文書と、当該カテゴリに分類すべきがどうかを決定する未分類の文書とが異なる言語で記述されていてもよい。
図17に示した処理の流れにおいて、まず、事例ベース文書分類部9は、文書の分類先の候補のカテゴリ集合をCとし、分類対象の文書集合をDとする(S1701)。事例ベース文書分類部9は、カテゴリ集合Cの各カテゴリcについて繰り返し(S1702)、各言語の単語ベクトルを求める。すなわち、事例ベース文書分類部9は、各言語lについて繰り返し(S1703)、カテゴリcの言語lの単語ベクトルvcl’を求める(S1704)。この処理は、図14で説明した処理によって行う。
次に、事例ベース文書分類部9は、文書集合Dの各文書dl(言語lで記述されている文書)について繰り返し(S1705)、以下のS1706からS1711までの処理を実行する。
まず、事例ベース文書分類部9は、文書dlの言語lの単語ベクトルvdlを求める(S1706)。この処理は、式(3)を用いて言語lの各単語の重みを求めることで行う単純な処理である。
次に、事例ベース文書分類部9は、カテゴリ集合Cの各カテゴリcについて繰り返し(S1707)、以下のS1708からS1711までの処理を実行する。
まず、事例ベース文書分類部9は、文書dlがカテゴリcに既に分類されていなければ(S1708のNO)、カテゴリcと文書dlとの類似度sを、単語ベクトルの余弦値により、s=cos(vcl’,vdl)として求める(S1709)。ここで、文書dlの単語ベクトルvdlは言語lの単語ベクトルであるため、これとの類似度を求めるカテゴリの単語ベクトルとしては、同じ言語lの単語ベクトルvcl’を用いる。これはS1704にて、各言語について求めた単語ベクトルのうち、言語lについて求めた単語ベクトルである。
事例ベース文書分類部9は、類似度sが所定の閾値以上であれば(S1710のYES)、カテゴリcに文書dlを分類する(S1711)。このS1710とS1711の処理は変形させることも可能で、例えば、類似度が最大である1つのカテゴリを選んで文書を分類させるようにしたり、あるいは、類似度が大きい順から最大3個まで選んだカテゴリに文書を分類させるようにしたりするといった変形を容易に行うことができる。
この図17の処理では、特にS1703とS1704によって、カテゴリに既に分類されている文書の言語によらず、複数の言語の単語ベクトルが得られるため、これを用いて、どのような言語で記述された文書についても分類先のカテゴリを選ぶことができる。
このような構成によれば、例えば、あるカテゴリに、まずユーザが理解しやすい母国語の文書、例えば日本語の文書のみを、いくつか手作業で分類した後、この日本語の文書の分類事例すなわち教師文書に基づいて、これと内容が類似した英語や中国語の文書を、当該カテゴリに自動的に分類することができる。
次に、図3に示した実施形態における処理について説明する。図18は、図3に示したカテゴリ特徴語抽出部10の処理の流れの一例を表すフローチャートである。
カテゴリの特徴語とは、カテゴリに分類された文書の内容を表す特徴的な単語であり、例えば、カテゴリにどのような文書が分類されているかを、ユーザが簡単に理解できるようにすることを目的として、各カテゴリから自動抽出される。
図18に示した処理において、まず、カテゴリ特徴語抽出部10は、特徴語を抽出する対象のカテゴリをcとし、抽出する特徴語の言語をlとした場合、カテゴリcに分類されている言語lの文書集合をDclとし、このDclの文書に出現する単語の単語集合をTclとする(S1801)。この単語集合Tclは、図1〜図5に示した単語抽出部2を用いて、図10に示した処理により、文書集合Dcl中の各文書から抽出した単語の和集合をとり、各単語の文書頻度(DF)を集計することで得られる。これは、例えば図11のS1102やS1103で行う処理と同じ処理である。
次に、カテゴリ特徴語抽出部10は、単語集合Tclの各単語tclについて繰り返して(S1802)、tclのスコアを以下の式(6)によって求める(S1803)。
mi(t,Dcl,Dl)=df(t,Dcl)/|Dl|*log(df(t,Dcl)*|Dl|/df(t,Dl)/|Dcl|)
+(df(t,Dl)-df(t,Dcl))/|Dl|*log((df(t,Dl)-df(t,Dcl))*|Dl|/df(t,Dl)/(|Dl|-|Dcl|))
+(|Dcl|-df(t,Dcl))/|Dl|*log((|Dcl|-df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/|Dcl|)
+(|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))/|Dl|*log((|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/(|Dl|-|Dcl|)) …式(6)
ただし、df(t,Dcl)/df(t,Dl)≦|Dcl|/|Dl|ならmi(t,Dcl,Dl)=0
ここでは、カテゴリ特徴語抽出部10は、相互情報量を用い、文書がカテゴリに分類されているかどうか、つまり文書が文書集合Dclに含まれているかどうかという事象と、文書に単語tclが出現するかどうかという事象の間の、相関の強さによって、特徴語のスコアを求める。ただし、式(6)中のDlは、言語lで記述された文書の全体集合(一般的にはDl⊇Dcl、多くの場合はDl⊃Dcl)である。また、カテゴリ特徴語抽出部10は、単語とカテゴリとの間には負の相関がある場合もあるので、これを除外するため、df(tcl,Dcl)/df(tcl,Dl)≦|Dc|/|Dl|の場合は、式(6)のただし書きに示したように、スコアを0とする。
最後に、カテゴリ特徴語抽出部10は、単語tclをスコアが大きい順に所定の個数(例えば10個)だけ選んだ結果を、カテゴリcの言語lの特徴語とする(S1804)。
図19は、図3に示したカテゴリ特徴語変換部11の処理の流れの一例を表すフローチャートである。
図18で説明した処理によれば、例えば中国語の文書のみが分類されているカテゴリからは、中国語の特徴語しか得られないため、例えば日本語を母国語とするユーザにとっては理解することが難しい。そこで、図19に示した処理によって、ある言語で記述された特徴語を別の言語で記述された特徴語に変換する。
図19に示した処理において、まず、カテゴリ特徴語変換部11は、カテゴリcの言語kの特徴語集合Tckを、図18に示した処理結果を用いて求める(S1901)。この特徴語集合Tckに対応する別の言語lの単語を得ることが、このカテゴリ特徴語変換部11による処理の目的である。
カテゴリ特徴語変換部11は、カテゴリcの言語lの特徴語集合Tclを、S1901と同様に、図18に示した処理結果を用いて求める(S1902)。このS1902の処理は必須ではなく、そもそも、カテゴリcに言語lの文書が分類されていない場合には、言語lの特徴語を得ることはできず、特徴語集合Tclは空集合になる。これらの特徴語集合Tckと特徴語集合Tclの各特徴語には、図18におけるS1803で説明したように、スコアが付与されている。
次にカテゴリ特徴語変換部11と、図1〜図5に示した単語間対応関係抽出部6(図11の処理)によって、言語kと言語lの単語の対応関係を取得する(S1903)。カテゴリ特徴語変換部11は、この図19に示した処理結果である、カテゴリcの言語kの特徴語と言語lの特徴語との組の集合をPcklとし、その初期値を空集合とする(S1904)。
そして、カテゴリ特徴語変換部11は、特徴語集合Tckの各特徴語tckについて繰り返して(S1905)、以下のS1906からS1910までの処理を実行する。
まず、カテゴリ特徴語変換部11は、特徴語tckに対応する言語lの単語tclを、S1903で取得した単語間の対応関係を用いて求める。一般には、tclは0個以上あり得るので、0個つまり存在しない場合も含め、特徴語tckと特徴語tclの組をpcklとする(S1906)。
カテゴリ特徴語変換部11は、pcklのスコアを求める。tckの特徴語としてのスコアはS1901の処理で求められている。一方、tclの特徴語としてのスコアは、S1902で得た特徴語集合Tclに特徴語tclが含まれる場合は求められているが、特徴語集合Tclに含まれていない特徴語tclのスコアは0である。以上の場合を考慮して、pcklのスコアは、特徴語tckのスコアと特徴語tclのスコアとの最大値とする(S1907)。
次に、カテゴリ特徴語変換部11は、特徴語の組の集合Pcklの中の、既に作成したいずれかの組qcklと、今回作成した組pcklとで、言語kまたは言語lの単語に重複があるかどうかを調べる(S1908)。
カテゴリ特徴語変換部11は、重複があるようなqcklが存在する場合には(S1908のYES)、qcklにpcklを統合する。例えばpckl=({tck1},{tcl1,tcl2})であり、qckl=({tck2},{tcl2,tcl3})であれば、pcklとqcklとは、言語lの特徴語tcl2が重複しているため、これらを統合してqckl=({tck1,tck2},{tcl1,tcl2,tcl3})とする。この統合後のqcklのスコアは、統合前のqcklとpcklの最大値(すなわち特徴語tck1、tck2、tcl1、tcl2、tcl3のスコアの最大値)となる(S1909)。
一方、カテゴリ特徴語変換部11は、pcklと単語が重複するqcklが存在しなければ(S1908のNO)、Pcklにpcklを追加する(S1910)。そして、カテゴリ特徴語変換部11は、S1905の繰り返し処理の後、Pckl中の特徴語の組をスコアが大きい順に出力する(S1911)。
図20は、図3に示したカテゴリ特徴語抽出部10(図18の処理に対応)によって抽出され、カテゴリ特徴語変換部11(図19の処理に対応)によって変換された特徴語の例を表形式で表す図である。
図20に示すように、例えば行2001に示すように英語の特徴語「face」が日本語の特徴語「顔」に変換され、同様に行2002に示すように英語の特徴語「detect」が日本語の特徴語「検出」に変換される。また、例えば行2003に示すように、英語の「area」と「region」という2つの特徴語は、日本語の「領域」という1つの特徴語に対応付けられる。逆に、行2004に示すように英語の「exposure」という1つの特徴語は、日本語の「露光」と「露出」という2つの特徴語に対応付けられる。このようにして変換した特徴語を用いることで、ユーザは、カテゴリに分類されている文書の内容を、様々な言語で容易に理解することができる。例えば、ユーザに対して、図20に示したような、英語と日本語の特徴語の対応関係を提示することで、ユーザは、不慣れな言語で記述された単語の意味を簡単に知ることができるようになる。
このような構成によれば、例えば、中国語の文書が多く分類されたカテゴリから、まず、当該カテゴリの特徴語として、中国語の特徴語が自動的に抽出され、次に、この特徴語が、日本語や英語の特徴語に、自動的に変換される。ユーザは、自分にとって理解しやすい言語で記述された特徴語を用いることで、カテゴリの内容を容易に把握することができる。
次に、図4に示した実施形態における処理について説明する。図21は、図4に示した分類ルール変換部13の処理の流れの一例を表すフローチャートである。
図7の(c)で説明したように、分類ルールを用いることで、例えば文書の「要約」に「露光」という単語を含むといった明示的な条件によって、文書を分類することができる。しかし、例えばこの「露光」という単語は、日本語の文書を分類する目的にしか適用できず、英語や中国語の文書を分類する目的には適用できない。そこで図21に示した処理により、ある言語で記述された分類ルールを別の言語で記述された分類ルールに変換する。
まず、分類ルール変換部13は、言語kと言語lの単語間の対応関係を取得する(S2101)。この処理は、図1〜図6に示した単語間対応関係抽出部6(図11の処理に対応)によって行われる。
次に、分類ルール変換部13は、変換の対象とする分類ルールの、言語kの要素(図7(c)の例では日本語の要素「contains(要約、”露光”)」)について繰り返して(S2102)、以下のS2103からS2106までの処理を実行する。
まず、分類ルール変換部13は、分類ルールの要素rkの中の単語tkに対応する言語lの単語tlが存在するかどうかを、S2101で取得した単語間の対応関係を用いて判断し(S2103)、単語tlが存在すれば(S2103のYES)、rkの単語tkを単語tlに置き換えた要素rlを作成する(S2104)。図7(c)の例では、単語tkは「露光」、単語tlは「exposure」、分類ルールの置き換え前の要素rkは「contains(要約、”露光”)」、置き換え後の要素rlは「contains(要約、”exposure”)」となる。そして、分類ルールの要素rkの部分を、(rk OR rl)という論理和に置き換える。
図22は、このようにして変換されたカテゴリの分類ルールの例を表す図であるが、S2104の処理の結果、図7(c)の行712で示した分類ルールが、図22(a)の行2201に示した分類ルールに変換される。
分類ルール変換部13は、図21のS2105以降の処理では、さらに、分類ルールの言語kの要素を拡張する(この処理は必須ではない)。分類ルール変換部13は、言語lの単語tlに対応する言語kの単語tk’(tkとは異なる単語)が存在するかどうかを、S2101で取得した単語間の対応関係を用いて判断し(S2105)、単語tk’が存在すれば(S2105のYES)、S2104で作成した要素rlの単語tlを単語tk’に置き換えた要素rk’を作成する(S2106)。図7(c)の行712に示した例では、単語tlは「exposure」であり、単語tk’は「露出」であり、分類ルールの要素rk’は「contains(要約、”露出”)」である。そして、分類ルールのrlの部分を、(rl OR rk’)に置き換える。この場合、もとの分類ルールの要素rkは、結局、(rk OR rl OR rk’)に置き換わることになる。
図22(b)の行2202に示した分類ルールでは、最終的に得られた分類ルールを示す。このような分類ルールにより、日本語の文書だけでなく、英語の文書も分類できるようになり、さらに、日本語の文書についても、もとの分類ルールと比べて、文書を漏れなく分類できるようになる。
このような構成によれば、例えばあるカテゴリに、まず、日本語の「暗号」という単語を含む文書を分類するように、分類ルールを作成した後、次にこの分類ルールを英語や中国語に変換することで、例えば、英語の「encrypt」や中国語の「加密」など、日本語の「暗号」の対訳語や関連語を含む文書を、当該カテゴリに分類することができる。
次に、図5に示した実施形態における処理について説明する。図23は、図5に示した辞書変換部16の処理の流れの一例を表すフローチャートである。
図9と図13のS1303などで説明したように、重要語、不要語、同義語などの辞書語を用いることで、文書を内容に応じて適切に分類できるようになるが、複数の異なる言語で記述された文書を分類する場合、辞書を作成する作業に労力がかかるという問題がある。そこで図23の処理により、ある言語で記述された辞書語を、別の言語で記述された辞書語に自動的に変換することで、様々な言語で記述された辞書を簡単に作成できるようにする。
図23に示した処理において、まず、辞書変換部16は、言語kと言語lの単語間の対応関係を取得する(S2301)。この処理は、図1〜図5に示した単語間対応関係抽出部6(図11の処理に対応)によって行われる。
次に、辞書変換部16は、変換の対象とする言語kの辞書語tkについて繰り返して(S2302)、以下のS2303からS2306までの処理を実行する。
まず、辞書変換部16は、辞書語tkに対応する言語lの単語tlが存在するかどうかを、S2301で取得した単語間の対応関係を用いて判断し(S2303)、単語tlが存在すれば(S2303のYES)、この単語tlを辞書語とし、その種類(重要語、不要語、同義語など)を、辞書語tkと同じ種類にし、さらに、1つの辞書語tkに対応する単語tlが複数個存在すれば、これらを同義語にする(S2304)。
図24(a)には、図9で示した日本語の辞書を英語の辞書に変換した結果の例を示す。
図24(a)の行2401では、図9の行901の日本語の重要語「フラッシュ」が、英語の重要語「flash」に変換されたことが示される。
図24(a)の行2402では、図9の行902の日本語の重要語「露光」が英語の重要語「exposure」に変換されたことが示される。
図24(a)の行2403では、図9の行904の日本語の不要語「装置」が、英語の2つの単語「apparatus」と「device」に変換されることが示され、これらの辞書語は図24(a)の行2403に示すように、不要語かつ同義語となる。
図24(a)の行2404に示すように、図9の行905の日本語の同義語「フラッシュ」と「ストロボ」は、各々の単語(表記)が英語の「flash」と「strobe」に変換されるため、これらは英語においても図24(a)の行2404に示した同義語となる。
なお、同義語を変換した結果、1つ以下の単語しか得られなかった場合(変換先の言語で対応する単語が存在しない場合、あるいは、同一の単語に変換される場合)には、同義語としての意味がなくなるため、変換先の辞書ではこの同義語を削除してもよい。
次に、辞書変換部16は、変換元である言語kの辞書の同義語を拡張する処理を行なう(この処理は必須ではない)。辞書変換部16は、言語lの単語tlに対応する言語kの単語tk’(tkとは異なる単語)が存在するかどうかを、S2301で取得した単語間の対応関係を用いて判断し(S2305)、単語tk’が存在すれば(S2305のYES)、言語kのもとの単語tkと単語tk’とを同義語にする(S2306)。
例えば図9の行902の重要語「露光」に対しては、図24(a)の行2402の英語の重要語「exposure」が対応するが、この「exposure」は、図12の行1202に示すように日本語の単語「露出」にも対応するため、結果として、日本語の辞書では、図24(b)の行2405に示すように、「露光」と「露出」は重要語かつ同義語となる。このようにして、例えば日本語の辞書を変換して英語の辞書を自動的に作成できるだけでなく、日本語の辞書についても、同義語を追加することができる。
このような構成によれば、例えば、まず、日本語の文書を適切に分類する目的で作成した辞書から、英語や中国語の文書を分類するのに適した辞書を、効率よく作成することができる。
これらの各実施形態では、分類対象の文書集合自体に含まれる、異なる言語で記述された文書間の対応関係のみを用いて、以上のような機能が実現できるので、予め対訳辞書などを用意する必要がない。さらに、既存の汎用的な対訳辞書を用いた場合には、分類対象の文書に応じて適切な対訳語を選択する必要があるが、本実施形態では、分類対象の文書自体から抽出した単語の対応関係を用いるので、対訳語を選択する必要はなく、また、不適切な対訳語を用いてしまうこともない。その結果、カテゴリ間の言語横断的な対応関係を自動的に抽出する処理や、文書を言語横断的に自動分類する処理が、高精度で実現できる。また、前述の分類ルールや辞書語を、汎用的な対訳辞書を用いて従来の方法で変換した場合には、不適切な分類ルールや辞書語が作られてしまうことが少なくないが、本実施形態ではこのような問題はなく、分類対象の文書を適切に分類するための分類ルールや辞書語を得ることができる。
また、これらの各実施形態によれば、複数の異なる自然言語で記述された大量の文書を、内容の類似性に基づいて、言語横断的に分類するための分類構造を効率よく作成することが可能になる文書分類装置および文書分類処理プログラムを提供することができる。
発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…文書記憶部、2…単語抽出部、3…カテゴリ記憶部、4…カテゴリ操作部、5…文書間対応関係記憶部、6…単語間対応関係抽出部、7…カテゴリ生成部、8…カテゴリ間対応関係抽出部、9…事例ベース文書分類部、10…カテゴリ特徴語抽出部、11…カテゴリ特徴語変換部、12…ルールベース文書分類部、13…分類ルール変換部、14…辞書記憶部、15…辞書設定部、16…辞書変換部。

Claims (8)

  1. 複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、
    前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、
    前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、
    前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、
    前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、
    前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段と、
    前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段と
    を具備することを特徴とする文書分類装置。
  2. 複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、
    前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、
    前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、
    前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、
    前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、
    前記カテゴリ記憶手段に記憶した1つまたは複数のカテゴリを対象に、各カテゴリにすでに分類されている1つまたは複数の既分類文書に基づき、当該カテゴリに未だ分類されていない未分類文書を当該カテゴリに分類すべきかどうかを決定する事例ベース文書分類手段とを具備し、
    前記事例ベース文書分類手段は、
    各カテゴリの既分類文書と未分類文書の各々に、前記単語抽出手段によって抽出した単語が出現する頻度と、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリの既分類文書に出現する頻度が多い単語と、ある未分類文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が所定条件を満たして多く存在する場合に、前記カテゴリの既分類文書を記述した言語とは別の言語で記述された未分類文書を、当該カテゴリに分類するかどうかを決定する
    ことを特徴とする文書分類装置。
  3. 前記カテゴリ記憶手段に記憶した1つまたは複数のカテゴリを対象に、各カテゴリに分類された、1つまたは複数の言語で記述された1つまたは複数の文書に、前記単語抽出手段によって抽出した単語が出現する頻度に基づき当該カテゴリの特徴語を抽出するカテゴリ特徴語抽出手段と、
    前記カテゴリ特徴語抽出手段によって抽出した、第1の言語で記述された特徴語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づき、第2の言語で記述された特徴語に変換するカテゴリ特徴語変換手段とをさらに具備する
    ことを特徴とする、請求項1に記載の文書分類装置。
  4. 前記カテゴリ記憶手段に記憶した1つまたは複数のカテゴリを対象に、前記単語抽出手段によって抽出した単語のうち、1つまたは複数の単語が出現する文書を当該カテゴリに分類するよう規定する分類ルールに基づいて、前記文書記憶手段に記憶した文書を分類するためのカテゴリを決定するルールベース文書分類手段と、
    前記ルールベース文書分類手段が用いる各カテゴリの分類ルールにおける第1の言語で記述された単語を、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係に基づき第2の言語で記述された単語に変換することで前記分類ルールを変換する分類ルール変換手段とをさらに具備する
    ことを特徴とする、請求項1に記載の文書分類装置。
  5. 前記カテゴリ生成手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
    前記辞書に対し、重視する重要語、または、無視する不要語、または、同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
    前記辞書に設定されたある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
    ことを特徴とする請求項1に記載の文書分類装置。
  6. 前記事例ベース文書分類手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
    前記辞書に対し、前記文書の分類にて重視する重要語、または、前記文書の分類にて無視する不要語、または、前記文書の分類にて同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
    前記辞書に設定されたある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
    ことを特徴とする請求項2に記載の文書分類装置。
  7. 前記カテゴリ特徴語抽出手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
    前記辞書に対し、前記文書の分類にて重視する重要語、または、前記文書の分類にて無視する不要語、または、前記文書の分類にて同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
    前記辞書に設定された、ある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
    ことを特徴とする請求項3に記載の文書分類装置。
  8. 複数の異なる言語で記述された複数の文書を記憶する文書記憶手段、前記文書記憶手段に記憶した複数の文書を対象に、異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段、および前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段を有するコンピュータを、
    前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段、
    前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段、
    前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段、および
    前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段
    として機能させるための文書分類処理プログラム。
JP2012183534A 2012-08-22 2012-08-22 文書分類装置および文書分類処理プログラム Active JP5526199B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012183534A JP5526199B2 (ja) 2012-08-22 2012-08-22 文書分類装置および文書分類処理プログラム
CN201380042988.1A CN104584005B (zh) 2012-08-22 2013-08-22 文档分类装置及文档分类方法
PCT/JP2013/072481 WO2014030721A1 (ja) 2012-08-22 2013-08-22 文書分類装置および文書分類方法
US14/627,734 US20150161144A1 (en) 2012-08-22 2015-02-20 Document classification apparatus and document classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012183534A JP5526199B2 (ja) 2012-08-22 2012-08-22 文書分類装置および文書分類処理プログラム

Publications (2)

Publication Number Publication Date
JP2014041481A JP2014041481A (ja) 2014-03-06
JP5526199B2 true JP5526199B2 (ja) 2014-06-18

Family

ID=50150025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012183534A Active JP5526199B2 (ja) 2012-08-22 2012-08-22 文書分類装置および文書分類処理プログラム

Country Status (4)

Country Link
US (1) US20150161144A1 (ja)
JP (1) JP5526199B2 (ja)
CN (1) CN104584005B (ja)
WO (1) WO2014030721A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858330B2 (en) * 2013-10-21 2018-01-02 Agile Legal Technology Content categorization system
US9977830B2 (en) * 2014-01-31 2018-05-22 Verint Systems Ltd. Call summary
JP6217468B2 (ja) * 2014-03-10 2017-10-25 富士ゼロックス株式会社 多言語文書分類プログラム及び情報処理装置
CN105512131A (zh) * 2014-09-25 2016-04-20 中国科学技术信息研究所 基于类目相似度计算的分类法类目映射的方法和装置
WO2016181470A1 (ja) * 2015-05-11 2016-11-17 株式会社東芝 認識装置、認識方法およびプログラム
JP5933863B1 (ja) * 2015-05-22 2016-06-15 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
JP6575327B2 (ja) * 2015-11-27 2019-09-18 富士通株式会社 工数推定プログラム、工数推定方法及び工数推定装置
US10055489B2 (en) * 2016-02-08 2018-08-21 Ebay Inc. System and method for content-based media analysis
US10552523B2 (en) * 2016-10-14 2020-02-04 Sap Se Automatically identifying synonyms within a token-based database management system
US10445431B1 (en) * 2016-12-22 2019-10-15 Shutterstock, Inc. Language translation of text input using an embedded set for images and for multilanguage text strings
US10169331B2 (en) * 2017-01-29 2019-01-01 International Business Machines Corporation Text mining for automatically determining semantic relatedness
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
JP6847812B2 (ja) * 2017-10-25 2021-03-24 株式会社東芝 文書理解支援装置、文書理解支援方法、およびプログラム
CN108153728B (zh) * 2017-12-22 2021-05-25 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
WO2019183543A1 (en) * 2018-03-23 2019-09-26 John Rankin System and method for identifying a speaker's community of origin from a sound sample
US10585922B2 (en) * 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
WO2020014354A1 (en) 2018-07-10 2020-01-16 John Rankin System and method for indexing sound fragments containing speech
CN109063184B (zh) * 2018-08-24 2020-09-01 广东外语外贸大学 多语言新闻文本聚类方法、存储介质及终端设备
US11087098B2 (en) * 2018-09-18 2021-08-10 Sap Se Computer systems for classifying multilingual text
CN109522554B (zh) * 2018-11-06 2022-12-02 中国人民解放军战略支援部队信息工程大学 一种低资源文档分类方法及分类系统
CN110209812B (zh) * 2019-05-07 2022-04-22 北京地平线机器人技术研发有限公司 文本分类方法和装置
US11699037B2 (en) 2020-03-09 2023-07-11 Rankin Labs, Llc Systems and methods for morpheme reflective engagement response for revision and transmission of a recording to a target individual
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム
US20230029058A1 (en) * 2021-07-26 2023-01-26 Microsoft Technology Licensing, Llc Computing system for news aggregation

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103478A (ja) * 1996-06-14 1998-01-06 Nippon Telegr & Teleph Corp <Ntt> 概念の類似性判別方法
FI111762B (fi) * 2000-12-28 2003-09-15 Fonecta Ltd Menetelmä tietojenkyselynpalvelun aikaansaamiseksi sekä tietojenkyselypalvelujärjestelmä
WO2002054265A1 (en) * 2001-01-02 2002-07-11 Julius Cherny Document storage, retrieval, and search systems and methods
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
JP3856778B2 (ja) * 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
CN1629837A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览及分类查询的方法、装置及其系统
JP4332129B2 (ja) * 2005-04-20 2009-09-16 富士通株式会社 文書分類プログラム、文書分類方法および文書分類装置
JP4640593B2 (ja) * 2005-07-14 2011-03-02 日本電気株式会社 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
PL2229784T3 (pl) * 2007-12-27 2019-10-31 Psholix Ag Sposób i urządzenie do wytwarzania w czasie rzeczywistym obrazów typu multiview
US8326785B2 (en) * 2008-09-30 2012-12-04 Microsoft Corporation Joint ranking model for multilingual web search
JP5508766B2 (ja) * 2009-06-15 2014-06-04 株式会社東芝 対訳文書校正装置
US8762300B2 (en) * 2011-10-18 2014-06-24 Ming Chuan University Method and system for document classification
CN102567529B (zh) * 2011-12-30 2013-11-06 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法
CN102411636A (zh) * 2011-12-30 2012-04-11 北京理工大学 一种针对主题漂移问题的跨语言文本分类方法

Also Published As

Publication number Publication date
WO2014030721A1 (ja) 2014-02-27
US20150161144A1 (en) 2015-06-11
JP2014041481A (ja) 2014-03-06
CN104584005A (zh) 2015-04-29
CN104584005B (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
JP5526199B2 (ja) 文書分類装置および文書分類処理プログラム
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
CN111858935A (zh) 一种航班点评的细粒度情感分类系统
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
CN113961685A (zh) 信息抽取方法及装置
CN111931500A (zh) 搜索信息的处理方法、装置
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Khawaja et al. Domain specific emotion lexicon expansion
CN115062135B (zh) 一种专利筛选方法与电子设备
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
Ahmed et al. Resource-size matters: Improving neural named entity recognition with optimized large corpora
Oliver et al. Termeval 2020: Using tsr filtering method to improve automatic term extraction
Goh Using named entity recognition for automatic indexing
Tohalino et al. Extractive multi-document summarization using dynamical measurements of complex networks
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
Bullard et al. Computational analysis to explore authors’ depiction of characters
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
Ganesh et al. An Overview of Semantic Based Document Summarization in Different Languages
Zehe et al. A White-Box Model for Detecting Author Nationality by Linguistic Differences in Spanish Novels
Ren et al. Unsupervised preference-aware language identification
Nawab et al. External plagiarism detection using information retrieval and sequence alignment
Balbi et al. Mining the ambiguity: correspondence and network analysis for discovering word sense
Bhole et al. Single Document Text Summarization Using Clustering Approach Implementing for News Article
JP2007102723A (ja) 文書検索装置、文書検索方法および文書検索プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414

R150 Certificate of patent or registration of utility model

Ref document number: 5526199

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350