JP2014135045A5 - - Google Patents

Download PDF

Info

Publication number
JP2014135045A5
JP2014135045A5 JP2013247330A JP2013247330A JP2014135045A5 JP 2014135045 A5 JP2014135045 A5 JP 2014135045A5 JP 2013247330 A JP2013247330 A JP 2013247330A JP 2013247330 A JP2013247330 A JP 2013247330A JP 2014135045 A5 JP2014135045 A5 JP 2014135045A5
Authority
JP
Japan
Prior art keywords
field
document
documents
similarity
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013247330A
Other languages
English (en)
Other versions
JP2014135045A (ja
JP5751318B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2013247330A priority Critical patent/JP5751318B2/ja
Priority claimed from JP2013247330A external-priority patent/JP5751318B2/ja
Publication of JP2014135045A publication Critical patent/JP2014135045A/ja
Publication of JP2014135045A5 publication Critical patent/JP2014135045A5/ja
Application granted granted Critical
Publication of JP5751318B2 publication Critical patent/JP5751318B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

上記課題を解決するための第1の発明は、未分類の入力文書と複数の分野分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、前記類似度を用いることで記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間類似度を求める第二の分野判定手段と、前記第一の分野判定手段によって求まる書間の総類似度に対する第二の分野判定手段によって求まる野の文書間の総類似度から、前記入力文書分野に分類するためのスコアを求める第三の分野判定手段と、を備えたことを特徴とする。
上記課題を解決するための第2の発明は、文書分類装置における未分類の文書を分野分類する文書分類方法であって、前記文書分類装置の第一の分野判定手段は、未分類の入力文書と複数の分野分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定ステップ、前記文書分類装置の第二の分野判定手段は、前記類似度を用いることで記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間類似度を求める第二の分野判定ステップ、前記文書分類装置の第三の分野判定手段は、前記第一の分野判定手段によって求まる書間の総類似度に対する第二の分野判定手段によって求まる野の文書間の総類似度から、前記入力文書分野に分類するためのスコアを求める第三の分野判定ステップ、を含むことを特徴とする。
上記課題を解決するための第3の発明は、文書分類装置で読取実行可能なプログラムであって、前記文書分類装置を、未分類の入力文書と複数の分野分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、前記類似度を用いることで記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間類似度を求める第二の分野判定手段と、前記第一の分野判定手段によって求まる書間の総類似度に対する第二の分野判定手段によって求まる野の文書間の総類似度から、前記入力文書分野に分類するためのスコアを求める第三の分野判定手段と、して機能させることを特徴とする。

Claims (9)

  1. 未分類の入力文書と複数の分野分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、
    前記類似度を用いることで記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間類似度を求める第二の分野判定手段と、
    前記第一の分野判定手段によって求まる書間の総類似度に対する第二の分野判定手段によって求まる野の文書間の総類似度から、前記入力文書分野に分類するためのスコアを求める第三の分野判定手段と、
    を備えたことを特徴とする文書分類装置。
  2. 前記分野は、階層的に分類された分野であり、
    前記第一の分野判定手段は、前記類似度、及び前記階層的に分類された分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求め、
    前記第二の分野判定手段は、前記類似度を用いることで、前記分野分類された文書が属する階層的に分類された分野のうち、各階層のそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求めることを特徴とする請求項1に記載の文書分類装置。
  3. 前記未分類の入力文書は、複数の入力文書であり、
    前記入力文書のそれぞれに対して、それぞれの分野における前記スコアを用いて、前記入力文書間の類似度を求める第四の分野判定手段を備えたことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記第三の分野判定手段は、前記未分類の入力文書における単語の頻出度を求めてスコアとし、
    前記第四の分野判定手段は、前記入力文書のそれぞれに対して、それぞれの分野における前記スコア及び前記単語の頻出度から求まるスコアを用いて、前記入力文書間の類似度を求めることを特徴とする請求項3に記載の情報処理装置。
  5. 前記第四の分野判定手段は、前記入力文書のそれぞれに対して、それぞれの分野における前記スコアを用いて求まる前記入力文書間の類似度と、前記単語の頻出度から求まる前記分野に応じたスコアを用いた前記入力文書間の類似度と、から前記入力文書間の類似度を求めることを特徴とする請求項3または4に記載の情報処理装置。
  6. 前記第四の分野判定手段によって求まる入力文書間の類似度を用いた階層的クラスタリングによって、前記入力文書間の関係を、階層を有するクラスタとして出力する出力手段を備えたことを特徴とする請求項4または5に記載の情報処理装置。
  7. 前記第二の分野判定手段は、前記階層の深さに応じた各階層のそれぞれの分野における文書間の総類似度を求めることを特徴とする請求項2乃至6の何れか1項に記載の情報処理装置。
  8. 文書分類装置における未分類の文書を分野分類する文書分類方法であって、
    前記文書分類装置の第一の分野判定手段は、未分類の入力文書と複数の分野分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定ステップ、
    前記文書分類装置の第二の分野判定手段は、前記類似度を用いることで記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間類似度を求める第二の分野判定ステップ、
    前記文書分類装置の第三の分野判定手段は、前記第一の分野判定手段によって求まる書間の総類似度に対する第二の分野判定手段によって求まる野の文書間の総類似度から、前記入力文書分野に分類するためのスコアを求める第三の分野判定ステップ、
    を含むことを特徴とする文書分類方法。
  9. 文書分類装置で読取実行可能なプログラムであって、
    前記文書分類装置を、
    未分類の入力文書と複数の分野分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、
    前記類似度を用いることで記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間類似度を求める第二の分野判定手段と、
    前記第一の分野判定手段によって求まる書間の総類似度に対する第二の分野判定手段によって求まる野の文書間の総類似度から、前記入力文書分野に分類するためのスコアを求める第三の分野判定手段と、
    して機能させることを特徴とするプログラム。
JP2013247330A 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム Active JP5751318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013247330A JP5751318B2 (ja) 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012269853 2012-12-10
JP2012269853 2012-12-10
JP2013247330A JP5751318B2 (ja) 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2014135045A JP2014135045A (ja) 2014-07-24
JP2014135045A5 true JP2014135045A5 (ja) 2014-10-16
JP5751318B2 JP5751318B2 (ja) 2015-07-22

Family

ID=51413228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013247330A Active JP5751318B2 (ja) 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5751318B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6862331B2 (ja) * 2016-10-31 2021-04-21 株式会社東芝 思考・議論支援システムおよび思考・議論支援装置
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3693514B2 (ja) * 1999-02-26 2005-09-07 松下電器産業株式会社 文書検索・分類方法および装置
JP2004126883A (ja) * 2002-10-01 2004-04-22 Canon Inc 文書検索処理装置、文書検索処理方法、プログラム、及び記憶媒体
JP2007199966A (ja) * 2006-01-25 2007-08-09 Fuji Xerox Co Ltd 文書分類装置、文書分類方法および文書分類プログラム
JP5439235B2 (ja) * 2010-03-12 2014-03-12 株式会社日立製作所 文書分類方法、文書分類装置、およびプログラム

Similar Documents

Publication Publication Date Title
Sutton Introduction to k nearest neighbour classification and condensed nearest neighbour data reduction
WO2017023551A3 (en) Detection of unknown classes and initialization of classifiers for unknown classes
JP2013134781A5 (ja)
WO2015170191A3 (en) Method and apparatus for screening promotion keywords
JP2015053054A5 (ja)
NO20171576A1 (en) Enhancing oilfield operations with cognitive computing
JP2014115915A5 (ja)
GB201206444D0 (en) Data cleaning
GB2550777A (en) Classification and storage of documents
BR112017012247A2 (pt) clustering de objeto de áudio de metadados preservados
JP2017084349A5 (ja)
JP2014211718A5 (ja)
JP2014135045A5 (ja)
JP2018503864A5 (ja)
Pawar et al. Literature review on personnel scheduling
WO2012154457A3 (en) Staged element classification
JP2014056516A5 (ja) 情報処理装置、方法、およびプログラム
Egorov et al. Methodological base of urban agglomerations and their suburban areas
RU2014130519A (ru) Способ автоматической кластеризации объектов
KR20150052948A (ko) 문서에 포함된 토픽을 그룹화하는 방법
Li 2016 Presidential Election Prediction using Twitter
Kim et al. Technical limit analysis of the construction method of free-curved architectural structure using 3D printer
WO2018027054A8 (en) SYSTEM AND METHOD FOR MONITORING ELECTRONIC DOCUMENTS
JP2016148558A5 (ja)
Vandewiele Role and quality of monastic community life challenged by societal transitions. An ethnographic case-study of the Trappist community of the Abbey of Sint-Sixtus