JP5526199B2 - 文書分類装置および文書分類処理プログラム - Google Patents
文書分類装置および文書分類処理プログラム Download PDFInfo
- Publication number
- JP5526199B2 JP5526199B2 JP2012183534A JP2012183534A JP5526199B2 JP 5526199 B2 JP5526199 B2 JP 5526199B2 JP 2012183534 A JP2012183534 A JP 2012183534A JP 2012183534 A JP2012183534 A JP 2012183534A JP 5526199 B2 JP5526199 B2 JP 5526199B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- category
- words
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Description
図1〜図5は、各実施形態に係る多言語文書分類装置の構成例を表すブロック図である。図1〜図5に示した各構成では、実現する機能によって部分的に異なる手段を設けているが、基本的な手段である文書記憶部1、単語抽出部2、カテゴリ記憶部3、カテゴリ操作部4、文書間対応関係記憶部5、単語間対応関係抽出部6は、各構成に共通した手段である。以下は、代表的な構成である図1を主に用いて説明する。
図1中、文書記憶部1は、文書分類装置が分類の対象とする複数の文書のデータを記憶する手段であり、例えば不揮発性メモリといった記憶装置により実現される。この文書記憶部1には、複数の異なる言語で記述した文書のデータを各々記憶して管理するようにしている。図1にはこれを、第1言語文書記憶部、第2言語文書記憶部、…、第n言語文書記憶部といった形で示しているが、具体的には、例えば、日本語、英語、中国語といった言語で記述された文書が、各言語用の文書記憶部に記憶される。
このカテゴリ操作部4は、一般的には、グラフィカル・ユーザ・インタフェース(GUI)を用いて実現される。このカテゴリ操作部4によって、ユーザは、カテゴリの作成、削除、移動(階層構造で親子関係の付け替える)、コピー、統合(複数のカテゴリを1つにまとめる)といった、カテゴリを対象とした操作や、カテゴリに文書を分類させたり、カテゴリに分類されている文書を別のカテゴリに移動したりといった、文書を対象とした操作を行なうことができる。
カテゴリ生成部7は、同一の言語で記述された複数の文書を対象にして、単語抽出部2によって各文書から抽出された単語の出現頻度の類似性に基づき、文書をクラスタリングすることで、カテゴリを自動的に生成する手段である。
この事例ベース文書分類部9は、カテゴリ記憶部3に記憶した1つまたは複数のカテゴリを対象に、各カテゴリにすでに分類されている1つまたは複数の既分類文書に基づき、当該カテゴリに未だ分類されていない未分類文書を、当該カテゴリに分類すべきかどうかを、自動的に決定する手段である。
ルールベース文書分類部12は、カテゴリ記憶部3に記憶したカテゴリに設定された分類ルールによって、当該カテゴリに分類する文書を決定する手段である。一般的に、各カテゴリの分類ルールは、単語抽出部2によって文書から抽出した単語のうち、1つまたは複数の単語が出現する文書を、当該カテゴリに分類するよう規定されている。
図7(a),(b),(c),(d)で示したように、各カテゴリには、例えば、図7(a)の行701のカテゴリ番号「c01」、図7(b)の行706のカテゴリ番号「c02」などのように、ユニークなカテゴリ番号が付与されている。各カテゴリのデータには、当該カテゴリと親カテゴリとの関係が記されており、これにより、複数のカテゴリが成す階層構造が表現される。
図8に示した行801や行802の各行によって、文書間の対応関係が1つずつ表されており、例えば行801では、文書番号が「dj02」である文書と、文書番号が「de03」である文書とに対応関係があることを示している。すなわちこれは、図6(b)で示した日本語の文書と、図6(c)で示した英語の文書との対応関係を表す。
まず、単語抽出部2は、単語を抽出する対象の文書からテキストを取得する(S1001)。図6に示した例では、図6(a)中の行603で示される、文書の「名称」である「デジタルカメラ」や、行604で示される「要約」である「撮像領域によって入力した…」とのテキストが取得される。単語抽出部2は、この取得したテキストを形態素解析する(S1002)。この処理の内容は言語によって異なるが、例えば日本語や中国語の場合には、テキストを形態素に分解すなわち分かち書きし、各形態素に対して名詞や動詞などの品詞を付与する。英語の場合には、分かち書きの処理は主に空白文字に基づいて行うが、品詞の付与は日本語や中国と同様に行う。
まず、単語間対応関係抽出部6は、文書間対応関係記憶部5に記憶されているデータを用いて、言語kの文書集合Dkに属する文書dkと、言語lの文書集合Dlに属する文書dlとの、文書間の対応関係の集合を、Dkl={(dk,dl):dk∈Dk,dl∈Dl,dk⇔dl}とする(S1101)。
simp(tk,tl,Dkl)=df(tk,tl,Dkl)/min(df(tk,Dkl),df(tl,Dkl)) …式(2)
次に、単語間対応関係抽出部6は、共起頻度df(tk,tl,Dkl)と、ダイス係数dice(tk,tl,Dkl)と、シンプソン係数simp(tk,tl,Dkl)が、それぞれ所定の閾値以上であれば(S1111のYES)、単語tkと単語tlの関係を単語間の対応関係の候補とし、そのスコアを、α*dice(tk,tl,Dkl)+β*simp(tk,tl,Dkl)とする(αとβは定数)(S1112)。最後に、単語間対応関係抽出部6は、このようにして求めた単語間の対応関係の複数個の候補を、スコアの大きい順に出力する(S1113)。
図12に示すように、例えば行1201では、日本語の単語「露光」に対する英語の単語「exposure」が抽出され、スコアとともに出力される。行1201と行1202の例のように、英語の1つの単語「exposure」と、日本語の複数の単語「露光」と「露出」との対応関係を得ることができるし、逆に、行1206と行1207の例のように、日本語の1つの単語「検索」に対し、英語の複数の単語「search」と「retrieve」を得ることもできる。また、単語間の対応関係に付与されたスコアによって、対応関係の適切さの度合いが定量的に示されるので、用途によっては、例えば、スコアが高い対応関係、すなわち正しい対訳語である可能性の高い対応関係のみを選んで使用することも可能である。
この処理は、ある1つの言語で記述された文書集合を対象にクラスタリングを行うことで、内容が類似した文書をまとめたカテゴリ(クラスタ)を自動生成する処理である。
式(3)中の、tf(tl,dl)は、単語tlについての文書dlでの単語頻度(TF)であり、df(tl,Dl)は、単語tlについての文書集合Dlでの文書頻度(DF)である。なお、tf(tl,dl)は、単純に、文書dlでの単語tlの出現回数としてもよいが、例えば、文書dlに出現する全ての単語の出現回数の総和によって、各単語の出現回数を割って正規化した値でもよい。
なお、図5にて説明した、辞書を使用するように構成した実施形態では、カテゴリ生成部7は、単語ベクトルの中の重要語の重みを重くしたり、不要語を削除したり、同義語である複数の単語を1つの次元にまとめたりといった処理を、このS1303のステップで行ってもよい。
この処理は、後述する図15と図17に示す処理で用いる単語ベクトルを求めるために図15のS1504(カテゴリ間対応関係抽出部8)と図17のS1704(事例ベース文書分類部9)において、それぞれ行なわれる処理として実行される。カテゴリに分類されている文書の言語は、カテゴリによって異なり、例えばあるカテゴリには、日本語の文書のみが分類されており、別のカテゴリには、多数の英語の文書と少数の中国語の文書とが分類されている、といった場合がある。このような様々なカテゴリの間で、内容の類似性を判定するために、例えば日本語の文書のみが分類されているカテゴリに基づいて、英語や中国語の単語ベクトルを生成することが、図14の処理の目的である。
ここで、単語ベクトルvckの単語kの重みweight(vck,tk)は、式(4)で説明したTFIDFとしてよい。また、単語kと単語lとの対応関係のスコアscore(tk,tl)は、図11で説明したα*dice(tk,tl,Dkl)+β*simp(tk,tl,Dkl)としてよい。なお、単語tlと対応関係にある言語kの単語tkが存在しなければ、単語ベクトルvcklでの単語tlの重みは0となるが、単語ベクトルとしては、全ての次元の重みが0より大きい値である必要はない。
S1410の繰り返し処理によって、カテゴリcの言語lの単語ベクトルvcl’が生成され、S1407の繰り返し処理によって、カテゴリcの全ての言語の単語ベクトルが生成される。
この処理は、あるカテゴリ集合Clの各カテゴリclと、別のカテゴリ集合Ckの各カテゴリckとの間の対応関係を抽出する処理であり、特に、異なる言語で記述された文書が分類されたカテゴリ間で、内容の類似性に基づいた対応関係を抽出することを目的とする処理である。カテゴリ集合Ckとカテゴリ集合Clの各カテゴリに分類された文書の言語は、この図15の処理では特に制限を設けないが、一般的には、図1または図5に示したカテゴリ生成部7による図13に示した処理によって生成された、単一の言語(カテゴリ集合Ckについては言語k、カテゴリ集合Clについては言語l)の文書を分類するカテゴリの集合を主な処理対象とする。
カテゴリ間対応関係抽出部8は、まず、カテゴリckの対応先のカテゴリcmaxの初期値を「なし」とし、カテゴリckとカテゴリcmaxとの類似度の最大値smaxを0とする(S1503)。
図16(a)の行1601や行1602などの各行では、対応関係が得られたカテゴリの名称(この例では日本語のカテゴリと英語のカテゴリ)と、その対応関係のスコア、つまり図15のS1507で求めた類似度を示している。
従来技術として、カテゴリに既に分類されている文書を分類事例(教師文書)とし、これに基づいて、未分類の文書を当該カテゴリに分類すべきかどうかを決定する、事例ベース分類(教師あり自動分類)の技術が実現されているが、図2に示した実施形態における図17の処理によれば、カテゴリに既に分類されている文書と、当該カテゴリに分類すべきがどうかを決定する未分類の文書とが異なる言語で記述されていてもよい。
まず、事例ベース文書分類部9は、文書dlがカテゴリcに既に分類されていなければ(S1708のNO)、カテゴリcと文書dlとの類似度sを、単語ベクトルの余弦値により、s=cos(vcl’,vdl)として求める(S1709)。ここで、文書dlの単語ベクトルvdlは言語lの単語ベクトルであるため、これとの類似度を求めるカテゴリの単語ベクトルとしては、同じ言語lの単語ベクトルvcl’を用いる。これはS1704にて、各言語について求めた単語ベクトルのうち、言語lについて求めた単語ベクトルである。
カテゴリの特徴語とは、カテゴリに分類された文書の内容を表す特徴的な単語であり、例えば、カテゴリにどのような文書が分類されているかを、ユーザが簡単に理解できるようにすることを目的として、各カテゴリから自動抽出される。
+(df(t,Dl)-df(t,Dcl))/|Dl|*log((df(t,Dl)-df(t,Dcl))*|Dl|/df(t,Dl)/(|Dl|-|Dcl|))
+(|Dcl|-df(t,Dcl))/|Dl|*log((|Dcl|-df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/|Dcl|)
+(|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))/|Dl|*log((|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/(|Dl|-|Dcl|)) …式(6)
ただし、df(t,Dcl)/df(t,Dl)≦|Dcl|/|Dl|ならmi(t,Dcl,Dl)=0
ここでは、カテゴリ特徴語抽出部10は、相互情報量を用い、文書がカテゴリに分類されているかどうか、つまり文書が文書集合Dclに含まれているかどうかという事象と、文書に単語tclが出現するかどうかという事象の間の、相関の強さによって、特徴語のスコアを求める。ただし、式(6)中のDlは、言語lで記述された文書の全体集合(一般的にはDl⊇Dcl、多くの場合はDl⊃Dcl)である。また、カテゴリ特徴語抽出部10は、単語とカテゴリとの間には負の相関がある場合もあるので、これを除外するため、df(tcl,Dcl)/df(tcl,Dl)≦|Dc|/|Dl|の場合は、式(6)のただし書きに示したように、スコアを0とする。
最後に、カテゴリ特徴語抽出部10は、単語tclをスコアが大きい順に所定の個数(例えば10個)だけ選んだ結果を、カテゴリcの言語lの特徴語とする(S1804)。
図18で説明した処理によれば、例えば中国語の文書のみが分類されているカテゴリからは、中国語の特徴語しか得られないため、例えば日本語を母国語とするユーザにとっては理解することが難しい。そこで、図19に示した処理によって、ある言語で記述された特徴語を別の言語で記述された特徴語に変換する。
まず、カテゴリ特徴語変換部11は、特徴語tckに対応する言語lの単語tclを、S1903で取得した単語間の対応関係を用いて求める。一般には、tclは0個以上あり得るので、0個つまり存在しない場合も含め、特徴語tckと特徴語tclの組をpcklとする(S1906)。
図20に示すように、例えば行2001に示すように英語の特徴語「face」が日本語の特徴語「顔」に変換され、同様に行2002に示すように英語の特徴語「detect」が日本語の特徴語「検出」に変換される。また、例えば行2003に示すように、英語の「area」と「region」という2つの特徴語は、日本語の「領域」という1つの特徴語に対応付けられる。逆に、行2004に示すように英語の「exposure」という1つの特徴語は、日本語の「露光」と「露出」という2つの特徴語に対応付けられる。このようにして変換した特徴語を用いることで、ユーザは、カテゴリに分類されている文書の内容を、様々な言語で容易に理解することができる。例えば、ユーザに対して、図20に示したような、英語と日本語の特徴語の対応関係を提示することで、ユーザは、不慣れな言語で記述された単語の意味を簡単に知ることができるようになる。
図7の(c)で説明したように、分類ルールを用いることで、例えば文書の「要約」に「露光」という単語を含むといった明示的な条件によって、文書を分類することができる。しかし、例えばこの「露光」という単語は、日本語の文書を分類する目的にしか適用できず、英語や中国語の文書を分類する目的には適用できない。そこで図21に示した処理により、ある言語で記述された分類ルールを別の言語で記述された分類ルールに変換する。
まず、分類ルール変換部13は、分類ルールの要素rkの中の単語tkに対応する言語lの単語tlが存在するかどうかを、S2101で取得した単語間の対応関係を用いて判断し(S2103)、単語tlが存在すれば(S2103のYES)、rkの単語tkを単語tlに置き換えた要素rlを作成する(S2104)。図7(c)の例では、単語tkは「露光」、単語tlは「exposure」、分類ルールの置き換え前の要素rkは「contains(要約、”露光”)」、置き換え後の要素rlは「contains(要約、”exposure”)」となる。そして、分類ルールの要素rkの部分を、(rk OR rl)という論理和に置き換える。
図9と図13のS1303などで説明したように、重要語、不要語、同義語などの辞書語を用いることで、文書を内容に応じて適切に分類できるようになるが、複数の異なる言語で記述された文書を分類する場合、辞書を作成する作業に労力がかかるという問題がある。そこで図23の処理により、ある言語で記述された辞書語を、別の言語で記述された辞書語に自動的に変換することで、様々な言語で記述された辞書を簡単に作成できるようにする。
まず、辞書変換部16は、辞書語tkに対応する言語lの単語tlが存在するかどうかを、S2301で取得した単語間の対応関係を用いて判断し(S2303)、単語tlが存在すれば(S2303のYES)、この単語tlを辞書語とし、その種類(重要語、不要語、同義語など)を、辞書語tkと同じ種類にし、さらに、1つの辞書語tkに対応する単語tlが複数個存在すれば、これらを同義語にする(S2304)。
図24(a)の行2401では、図9の行901の日本語の重要語「フラッシュ」が、英語の重要語「flash」に変換されたことが示される。
図24(a)の行2402では、図9の行902の日本語の重要語「露光」が英語の重要語「exposure」に変換されたことが示される。
図24(a)の行2403では、図9の行904の日本語の不要語「装置」が、英語の2つの単語「apparatus」と「device」に変換されることが示され、これらの辞書語は図24(a)の行2403に示すように、不要語かつ同義語となる。
発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
Claims (8)
- 複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、
前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、
前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、
前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、
前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段と、
前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段と
を具備することを特徴とする文書分類装置。 - 複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、
前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、
前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、
前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、
前記カテゴリ記憶手段に記憶した1つまたは複数のカテゴリを対象に、各カテゴリにすでに分類されている1つまたは複数の既分類文書に基づき、当該カテゴリに未だ分類されていない未分類文書を当該カテゴリに分類すべきかどうかを決定する事例ベース文書分類手段とを具備し、
前記事例ベース文書分類手段は、
各カテゴリの既分類文書と未分類文書の各々に、前記単語抽出手段によって抽出した単語が出現する頻度と、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリの既分類文書に出現する頻度が多い単語と、ある未分類文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が所定条件を満たして多く存在する場合に、前記カテゴリの既分類文書を記述した言語とは別の言語で記述された未分類文書を、当該カテゴリに分類するかどうかを決定する
ことを特徴とする文書分類装置。 - 前記カテゴリ記憶手段に記憶した1つまたは複数のカテゴリを対象に、各カテゴリに分類された、1つまたは複数の言語で記述された1つまたは複数の文書に、前記単語抽出手段によって抽出した単語が出現する頻度に基づき当該カテゴリの特徴語を抽出するカテゴリ特徴語抽出手段と、
前記カテゴリ特徴語抽出手段によって抽出した、第1の言語で記述された特徴語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づき、第2の言語で記述された特徴語に変換するカテゴリ特徴語変換手段とをさらに具備する
ことを特徴とする、請求項1に記載の文書分類装置。 - 前記カテゴリ記憶手段に記憶した1つまたは複数のカテゴリを対象に、前記単語抽出手段によって抽出した単語のうち、1つまたは複数の単語が出現する文書を当該カテゴリに分類するよう規定する分類ルールに基づいて、前記文書記憶手段に記憶した文書を分類するためのカテゴリを決定するルールベース文書分類手段と、
前記ルールベース文書分類手段が用いる各カテゴリの分類ルールにおける第1の言語で記述された単語を、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係に基づき第2の言語で記述された単語に変換することで前記分類ルールを変換する分類ルール変換手段とをさらに具備する
ことを特徴とする、請求項1に記載の文書分類装置。 - 前記カテゴリ生成手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
前記辞書に対し、重視する重要語、または、無視する不要語、または、同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
前記辞書に設定されたある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
ことを特徴とする請求項1に記載の文書分類装置。 - 前記事例ベース文書分類手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
前記辞書に対し、前記文書の分類にて重視する重要語、または、前記文書の分類にて無視する不要語、または、前記文書の分類にて同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
前記辞書に設定されたある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
ことを特徴とする請求項2に記載の文書分類装置。 - 前記カテゴリ特徴語抽出手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
前記辞書に対し、前記文書の分類にて重視する重要語、または、前記文書の分類にて無視する不要語、または、前記文書の分類にて同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
前記辞書に設定された、ある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
ことを特徴とする請求項3に記載の文書分類装置。 - 複数の異なる言語で記述された複数の文書を記憶する文書記憶手段、前記文書記憶手段に記憶した複数の文書を対象に、異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段、および前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段を有するコンピュータを、
前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段、
前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段、
前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段、および
前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段
として機能させるための文書分類処理プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012183534A JP5526199B2 (ja) | 2012-08-22 | 2012-08-22 | 文書分類装置および文書分類処理プログラム |
CN201380042988.1A CN104584005B (zh) | 2012-08-22 | 2013-08-22 | 文档分类装置及文档分类方法 |
PCT/JP2013/072481 WO2014030721A1 (ja) | 2012-08-22 | 2013-08-22 | 文書分類装置および文書分類方法 |
US14/627,734 US20150161144A1 (en) | 2012-08-22 | 2015-02-20 | Document classification apparatus and document classification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012183534A JP5526199B2 (ja) | 2012-08-22 | 2012-08-22 | 文書分類装置および文書分類処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014041481A JP2014041481A (ja) | 2014-03-06 |
JP5526199B2 true JP5526199B2 (ja) | 2014-06-18 |
Family
ID=50150025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012183534A Active JP5526199B2 (ja) | 2012-08-22 | 2012-08-22 | 文書分類装置および文書分類処理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150161144A1 (ja) |
JP (1) | JP5526199B2 (ja) |
CN (1) | CN104584005B (ja) |
WO (1) | WO2014030721A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858330B2 (en) * | 2013-10-21 | 2018-01-02 | Agile Legal Technology | Content categorization system |
US9977830B2 (en) * | 2014-01-31 | 2018-05-22 | Verint Systems Ltd. | Call summary |
JP6217468B2 (ja) * | 2014-03-10 | 2017-10-25 | 富士ゼロックス株式会社 | 多言語文書分類プログラム及び情報処理装置 |
CN105512131A (zh) * | 2014-09-25 | 2016-04-20 | 中国科学技术信息研究所 | 基于类目相似度计算的分类法类目映射的方法和装置 |
WO2016181470A1 (ja) * | 2015-05-11 | 2016-11-17 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
JP5933863B1 (ja) * | 2015-05-22 | 2016-06-15 | 株式会社Ubic | データ分析システム、制御方法、制御プログラム、および記録媒体 |
JP6575327B2 (ja) * | 2015-11-27 | 2019-09-18 | 富士通株式会社 | 工数推定プログラム、工数推定方法及び工数推定装置 |
US10055489B2 (en) * | 2016-02-08 | 2018-08-21 | Ebay Inc. | System and method for content-based media analysis |
US10552523B2 (en) * | 2016-10-14 | 2020-02-04 | Sap Se | Automatically identifying synonyms within a token-based database management system |
US10445431B1 (en) * | 2016-12-22 | 2019-10-15 | Shutterstock, Inc. | Language translation of text input using an embedded set for images and for multilanguage text strings |
US10169331B2 (en) * | 2017-01-29 | 2019-01-01 | International Business Machines Corporation | Text mining for automatically determining semantic relatedness |
CN109101476A (zh) * | 2017-06-21 | 2018-12-28 | 阿里巴巴集团控股有限公司 | 一种词向量生成、数据处理方法和装置 |
JP6847812B2 (ja) * | 2017-10-25 | 2021-03-24 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
CN108153728B (zh) * | 2017-12-22 | 2021-05-25 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
WO2019183543A1 (en) * | 2018-03-23 | 2019-09-26 | John Rankin | System and method for identifying a speaker's community of origin from a sound sample |
US10585922B2 (en) * | 2018-05-23 | 2020-03-10 | International Business Machines Corporation | Finding a resource in response to a query including unknown words |
WO2020014354A1 (en) | 2018-07-10 | 2020-01-16 | John Rankin | System and method for indexing sound fragments containing speech |
CN109063184B (zh) * | 2018-08-24 | 2020-09-01 | 广东外语外贸大学 | 多语言新闻文本聚类方法、存储介质及终端设备 |
US11087098B2 (en) * | 2018-09-18 | 2021-08-10 | Sap Se | Computer systems for classifying multilingual text |
CN109522554B (zh) * | 2018-11-06 | 2022-12-02 | 中国人民解放军战略支援部队信息工程大学 | 一种低资源文档分类方法及分类系统 |
CN110209812B (zh) * | 2019-05-07 | 2022-04-22 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
US11699037B2 (en) | 2020-03-09 | 2023-07-11 | Rankin Labs, Llc | Systems and methods for morpheme reflective engagement response for revision and transmission of a recording to a target individual |
JP7445891B2 (ja) | 2020-06-12 | 2024-03-08 | パナソニックIpマネジメント株式会社 | 文書分類方法、文書分類装置及びプログラム |
US20230029058A1 (en) * | 2021-07-26 | 2023-01-26 | Microsoft Technology Licensing, Llc | Computing system for news aggregation |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH103478A (ja) * | 1996-06-14 | 1998-01-06 | Nippon Telegr & Teleph Corp <Ntt> | 概念の類似性判別方法 |
FI111762B (fi) * | 2000-12-28 | 2003-09-15 | Fonecta Ltd | Menetelmä tietojenkyselynpalvelun aikaansaamiseksi sekä tietojenkyselypalvelujärjestelmä |
WO2002054265A1 (en) * | 2001-01-02 | 2002-07-11 | Julius Cherny | Document storage, retrieval, and search systems and methods |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
JP3856778B2 (ja) * | 2003-09-29 | 2006-12-13 | 株式会社日立製作所 | 複数言語を対象とした文書分類装置及び文書分類方法 |
CN1629837A (zh) * | 2003-12-17 | 2005-06-22 | 国际商业机器公司 | 电子文档的处理、浏览及分类查询的方法、装置及其系统 |
JP4332129B2 (ja) * | 2005-04-20 | 2009-09-16 | 富士通株式会社 | 文書分類プログラム、文書分類方法および文書分類装置 |
JP4640593B2 (ja) * | 2005-07-14 | 2011-03-02 | 日本電気株式会社 | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム |
PL2229784T3 (pl) * | 2007-12-27 | 2019-10-31 | Psholix Ag | Sposób i urządzenie do wytwarzania w czasie rzeczywistym obrazów typu multiview |
US8326785B2 (en) * | 2008-09-30 | 2012-12-04 | Microsoft Corporation | Joint ranking model for multilingual web search |
JP5508766B2 (ja) * | 2009-06-15 | 2014-06-04 | 株式会社東芝 | 対訳文書校正装置 |
US8762300B2 (en) * | 2011-10-18 | 2014-06-24 | Ming Chuan University | Method and system for document classification |
CN102567529B (zh) * | 2011-12-30 | 2013-11-06 | 北京理工大学 | 一种基于双视图主动学习技术的跨语言文本分类方法 |
CN102411636A (zh) * | 2011-12-30 | 2012-04-11 | 北京理工大学 | 一种针对主题漂移问题的跨语言文本分类方法 |
-
2012
- 2012-08-22 JP JP2012183534A patent/JP5526199B2/ja active Active
-
2013
- 2013-08-22 WO PCT/JP2013/072481 patent/WO2014030721A1/ja active Application Filing
- 2013-08-22 CN CN201380042988.1A patent/CN104584005B/zh active Active
-
2015
- 2015-02-20 US US14/627,734 patent/US20150161144A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2014030721A1 (ja) | 2014-02-27 |
US20150161144A1 (en) | 2015-06-11 |
JP2014041481A (ja) | 2014-03-06 |
CN104584005A (zh) | 2015-04-29 |
CN104584005B (zh) | 2018-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5526199B2 (ja) | 文書分類装置および文書分類処理プログラム | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
Stamatatos et al. | Overview of the PAN/CLEF 2015 evaluation lab | |
CN111858935A (zh) | 一种航班点评的细粒度情感分类系统 | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN111931500A (zh) | 搜索信息的处理方法、装置 | |
Yalcin et al. | An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding | |
Khawaja et al. | Domain specific emotion lexicon expansion | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
Ahmed et al. | Resource-size matters: Improving neural named entity recognition with optimized large corpora | |
Oliver et al. | Termeval 2020: Using tsr filtering method to improve automatic term extraction | |
Goh | Using named entity recognition for automatic indexing | |
Tohalino et al. | Extractive multi-document summarization using dynamical measurements of complex networks | |
TW201822031A (zh) | 以文字資訊建立圖表索引方法及其電腦程式產品 | |
Bullard et al. | Computational analysis to explore authors’ depiction of characters | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
Ganesh et al. | An Overview of Semantic Based Document Summarization in Different Languages | |
Zehe et al. | A White-Box Model for Detecting Author Nationality by Linguistic Differences in Spanish Novels | |
Ren et al. | Unsupervised preference-aware language identification | |
Nawab et al. | External plagiarism detection using information retrieval and sequence alignment | |
Balbi et al. | Mining the ambiguity: correspondence and network analysis for discovering word sense | |
Bhole et al. | Single Document Text Summarization Using Clustering Approach Implementing for News Article | |
JP2007102723A (ja) | 文書検索装置、文書検索方法および文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140318 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140414 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5526199 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |