JP2014135045A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2014135045A5 JP2014135045A5 JP2013247330A JP2013247330A JP2014135045A5 JP 2014135045 A5 JP2014135045 A5 JP 2014135045A5 JP 2013247330 A JP2013247330 A JP 2013247330A JP 2013247330 A JP2013247330 A JP 2013247330A JP 2014135045 A5 JP2014135045 A5 JP 2014135045A5
- Authority
- JP
- Japan
- Prior art keywords
- field
- document
- documents
- similarity
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Description
上記課題を解決するための第1の発明は、未分類の入力文書と複数の分野に分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、前記類似度を用いることで、前記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第二の分野判定手段と、前記第一の分野判定手段によって求まる文書間の総類似度に対する第二の分野判定手段によって求まる分野の文書間の総類似度から、前記入力文書を分野に分類するためのスコアを求める第三の分野判定手段と、を備えたことを特徴とする。
上記課題を解決するための第2の発明は、文書分類装置における未分類の文書を分野分類する文書分類方法であって、前記文書分類装置の第一の分野判定手段は、未分類の入力文書と複数の分野に分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定ステップ、前記文書分類装置の第二の分野判定手段は、前記類似度を用いることで、前記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第二の分野判定ステップ、前記文書分類装置の第三の分野判定手段は、前記第一の分野判定手段によって求まる文書間の総類似度に対する第二の分野判定手段によって求まる分野の文書間の総類似度から、前記入力文書を分野に分類するためのスコアを求める第三の分野判定ステップ、を含むことを特徴とする。
上記課題を解決するための第3の発明は、文書分類装置で読取実行可能なプログラムであって、前記文書分類装置を、未分類の入力文書と複数の分野に分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、前記類似度を用いることで、前記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第二の分野判定手段と、前記第一の分野判定手段によって求まる文書間の総類似度に対する第二の分野判定手段によって求まる分野の文書間の総類似度から、前記入力文書を分野に分類するためのスコアを求める第三の分野判定手段と、して機能させることを特徴とする。
Claims (9)
- 未分類の入力文書と複数の分野に分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、
前記類似度を用いることで、前記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第二の分野判定手段と、
前記第一の分野判定手段によって求まる文書間の総類似度に対する第二の分野判定手段によって求まる分野の文書間の総類似度から、前記入力文書を分野に分類するためのスコアを求める第三の分野判定手段と、
を備えたことを特徴とする文書分類装置。 - 前記分野は、階層的に分類された分野であり、
前記第一の分野判定手段は、前記類似度、及び前記階層的に分類された分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求め、
前記第二の分野判定手段は、前記類似度を用いることで、前記分野分類された文書が属する階層的に分類された分野のうち、各階層のそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求めることを特徴とする請求項1に記載の文書分類装置。 - 前記未分類の入力文書は、複数の入力文書であり、
前記入力文書のそれぞれに対して、それぞれの分野における前記スコアを用いて、前記入力文書間の類似度を求める第四の分野判定手段を備えたことを特徴とする請求項1または2に記載の情報処理装置。 - 前記第三の分野判定手段は、前記未分類の入力文書における単語の頻出度を求めてスコアとし、
前記第四の分野判定手段は、前記入力文書のそれぞれに対して、それぞれの分野における前記スコア及び前記単語の頻出度から求まるスコアを用いて、前記入力文書間の類似度を求めることを特徴とする請求項3に記載の情報処理装置。 - 前記第四の分野判定手段は、前記入力文書のそれぞれに対して、それぞれの分野における前記スコアを用いて求まる前記入力文書間の類似度と、前記単語の頻出度から求まる前記分野に応じたスコアを用いた前記入力文書間の類似度と、から前記入力文書間の類似度を求めることを特徴とする請求項3または4に記載の情報処理装置。
- 前記第四の分野判定手段によって求まる入力文書間の類似度を用いた階層的クラスタリングによって、前記入力文書間の関係を、階層を有するクラスタとして出力する出力手段を備えたことを特徴とする請求項4または5に記載の情報処理装置。
- 前記第二の分野判定手段は、前記階層の深さに応じた各階層のそれぞれの分野における文書間の総類似度を求めることを特徴とする請求項2乃至6の何れか1項に記載の情報処理装置。
- 文書分類装置における未分類の文書を分野分類する文書分類方法であって、
前記文書分類装置の第一の分野判定手段は、未分類の入力文書と複数の分野に分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定ステップ、
前記文書分類装置の第二の分野判定手段は、前記類似度を用いることで、前記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第二の分野判定ステップ、
前記文書分類装置の第三の分野判定手段は、前記第一の分野判定手段によって求まる文書間の総類似度に対する第二の分野判定手段によって求まる分野の文書間の総類似度から、前記入力文書を分野に分類するためのスコアを求める第三の分野判定ステップ、
を含むことを特徴とする文書分類方法。 - 文書分類装置で読取実行可能なプログラムであって、
前記文書分類装置を、
未分類の入力文書と複数の分野に分類された少なくとも1以上の文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第一の分野判定手段と、
前記類似度を用いることで、前記分野分類された文書が属するそれぞれの分野における、前記未分類の入力文書及び前記分野分類された文書間の総類似度を求める第二の分野判定手段と、
前記第一の分野判定手段によって求まる文書間の総類似度に対する第二の分野判定手段によって求まる分野の文書間の総類似度から、前記入力文書を分野に分類するためのスコアを求める第三の分野判定手段と、
して機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013247330A JP5751318B2 (ja) | 2012-12-10 | 2013-11-29 | 文書分類装置、文書分類方法、及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012269853 | 2012-12-10 | ||
JP2012269853 | 2012-12-10 | ||
JP2013247330A JP5751318B2 (ja) | 2012-12-10 | 2013-11-29 | 文書分類装置、文書分類方法、及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014135045A JP2014135045A (ja) | 2014-07-24 |
JP2014135045A5 true JP2014135045A5 (ja) | 2014-10-16 |
JP5751318B2 JP5751318B2 (ja) | 2015-07-22 |
Family
ID=51413228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013247330A Active JP5751318B2 (ja) | 2012-12-10 | 2013-11-29 | 文書分類装置、文書分類方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5751318B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6862331B2 (ja) * | 2016-10-31 | 2021-04-21 | 株式会社東芝 | 思考・議論支援システムおよび思考・議論支援装置 |
CN110119445A (zh) * | 2018-01-15 | 2019-08-13 | 北京京东尚科信息技术有限公司 | 生成特征向量和基于特征向量进行文本分类的方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3693514B2 (ja) * | 1999-02-26 | 2005-09-07 | 松下電器産業株式会社 | 文書検索・分類方法および装置 |
JP2004126883A (ja) * | 2002-10-01 | 2004-04-22 | Canon Inc | 文書検索処理装置、文書検索処理方法、プログラム、及び記憶媒体 |
JP2007199966A (ja) * | 2006-01-25 | 2007-08-09 | Fuji Xerox Co Ltd | 文書分類装置、文書分類方法および文書分類プログラム |
JP5439235B2 (ja) * | 2010-03-12 | 2014-03-12 | 株式会社日立製作所 | 文書分類方法、文書分類装置、およびプログラム |
-
2013
- 2013-11-29 JP JP2013247330A patent/JP5751318B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sutton | Introduction to k nearest neighbour classification and condensed nearest neighbour data reduction | |
WO2017023551A3 (en) | Detection of unknown classes and initialization of classifiers for unknown classes | |
JP2013134781A5 (ja) | ||
WO2015170191A3 (en) | Method and apparatus for screening promotion keywords | |
JP2015053054A5 (ja) | ||
NO20171576A1 (en) | Enhancing oilfield operations with cognitive computing | |
JP2014115915A5 (ja) | ||
GB201206444D0 (en) | Data cleaning | |
GB2550777A (en) | Classification and storage of documents | |
BR112017012247A2 (pt) | clustering de objeto de áudio de metadados preservados | |
JP2017084349A5 (ja) | ||
JP2014211718A5 (ja) | ||
JP2014135045A5 (ja) | ||
JP2018503864A5 (ja) | ||
Pawar et al. | Literature review on personnel scheduling | |
WO2012154457A3 (en) | Staged element classification | |
JP2014056516A5 (ja) | 情報処理装置、方法、およびプログラム | |
Egorov et al. | Methodological base of urban agglomerations and their suburban areas | |
RU2014130519A (ru) | Способ автоматической кластеризации объектов | |
KR20150052948A (ko) | 문서에 포함된 토픽을 그룹화하는 방법 | |
Li | 2016 Presidential Election Prediction using Twitter | |
Kim et al. | Technical limit analysis of the construction method of free-curved architectural structure using 3D printer | |
WO2018027054A8 (en) | SYSTEM AND METHOD FOR MONITORING ELECTRONIC DOCUMENTS | |
JP2016148558A5 (ja) | ||
Vandewiele | Role and quality of monastic community life challenged by societal transitions. An ethnographic case-study of the Trappist community of the Abbey of Sint-Sixtus |