JP2013182338A5 - - Google Patents

Download PDF

Info

Publication number
JP2013182338A5
JP2013182338A5 JP2012044382A JP2012044382A JP2013182338A5 JP 2013182338 A5 JP2013182338 A5 JP 2013182338A5 JP 2012044382 A JP2012044382 A JP 2012044382A JP 2012044382 A JP2012044382 A JP 2012044382A JP 2013182338 A5 JP2013182338 A5 JP 2013182338A5
Authority
JP
Japan
Prior art keywords
document
classification
unit
code
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012044382A
Other languages
English (en)
Other versions
JP5567049B2 (ja
JP2013182338A (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from JP2012044382A external-priority patent/JP5567049B2/ja
Priority to JP2012044382A priority Critical patent/JP5567049B2/ja
Priority to EP13754385.6A priority patent/EP2821927A4/en
Priority to CN201380011864.7A priority patent/CN104160395A/zh
Priority to CN201610879239.XA priority patent/CN106447300A/zh
Priority to PCT/JP2013/055330 priority patent/WO2013129548A1/ja
Priority to KR1020157034318A priority patent/KR101658794B1/ko
Priority to US14/472,296 priority patent/US9552570B2/en
Priority to KR1020147026134A priority patent/KR101582108B1/ko
Publication of JP2013182338A publication Critical patent/JP2013182338A/ja
Publication of JP2013182338A5 publication Critical patent/JP2013182338A5/ja
Publication of JP5567049B2 publication Critical patent/JP5567049B2/ja
Application granted granted Critical
Priority to HK15104590.9A priority patent/HK1204112A1/xx
Priority to US15/375,035 priority patent/US10445357B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (11)

  1. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように、該文書情報を分別する文書分別システムにおいて、
    前記文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、
    前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、
    前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、
    前記選定されたキーワードを前記文書情報から探索する探索部と、
    前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、
    前記スコアの結果に基づいて、前記文書情報に分別符号を付与する自動分別部を備えたことを特徴とする文書分別システム。
  2. 前記スコア算出部は、前記文書群の中に出現する前記キーワードと、各キーワードの持つ重みづけとによりスコアを算出することを特徴とする請求項1記載の文書分別システム。
  3. 前記重みづけは、前記キーワードが持つ、前記分別符号ごとにおける伝達情報量をもとに決定することを特徴とする請求項1又は2いずれか1項記載の文書分別システム。
  4. 前記抽出部は、前記文書情報から文書群をランダムにサンプリングし抽出する機能を備えることを特徴とする請求項1から3いずれか1項記載の文書分別システム。
  5. 前記探索部は、前記キーワードを前記分別符号の付与をされていない文書により構成される文書情報から探索するものであって、
    前記スコア算出部は、前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、
    前記自動分別部は、前記分別符号受付部において前記分別符号の付与を受け付けなかった文書を抽出し、文書情報に対して自動で分別符号を付与する機能を備えることを特徴とする請求項1から4いずれか1項記載の文書判別システム。
  6. 前記文書分別システムにおいて、
    前記データベースは、更に、前記分別符号と関連性のある関連用語を抽出し、記録する機能を備え、
    前記探索部は、更に、前記関連用語を前記文書情報から探索する機能を備え、
    前記スコア算出部は、更に、前記探索部が前記関連用語を探索した結果をもとにスコアを算出する機能を備え、
    前記自動分別部は、更に、前記関連用語を用いて算出したスコアに基づいて自動で分別符号を付与する機能を備えることを特徴とする請求項1記載の文書分別システム。
  7. 前記文書分別システムにおいて、
    前記データベースは、更に、前記分別符号と相関関係を有するキーワードを事前に記録する機能を備え、
    前記自動分別部は、更に、前記文書群中に分別符号と相関関係を有するキーワードを含む文書を探索すると、前記分別符号を決定する機能を備えることを特徴とする請求項6記載の文書分別システム。
  8. 前記文書分別システムは、更に、
    前記文書群に含まれる文書のうち、前記選定部が選定した前記キーワード、前記関連用語及び前記分別符号と相関関係を有するキーワードを含まない文書を選定し、
    前記自動分別部の分別対象から前記選定された文書を排除する文書排除部を備えることを特徴とする請求項6又は7記載の文書分別システム。
  9. 前記文書分別システムは、更に、
    前記選定部の分析結果と、前記スコア算出部の算出したスコアに基づいて
    前記選定部が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えることを特徴とする請求項6又は7項記載の文書分別システム。
  10. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように、該文書情報を分別する文書分別方法において、
    前記文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出ステップと
    前記抽出した文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付ステップと、
    前記分別符号に基づいて、前記抽出た文書群を分別符号ごとに分別し、該分別た文書群において、共通して出現するキーワードを解析し選定する選定ステップと、
    前記選定したキーワードを前記文書情報ら探索する探索ステップと、
    前記探索結果と前記解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出ステップと、
    前記スコアの結果に基づいて、前記文書情報に分別符号を付与する自動分別ステップとを含むことを特徴とする文書分別方法。
  11. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように、該文書情報を分別する文書分別プログラムにおいて、
    コンピュータに、
    前記文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出機能と、
    前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付機能と、
    前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定機能と、
    前記選定されたキーワードを前記文書情報から探索する探索機能と、
    前記探索結果と前記解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出機能と、
    前記スコアの結果に基づいて、前記文書情報に分別符号を付与する自動分別機能を実現させることを特徴とする文書分別プログラム。
JP2012044382A 2012-02-29 2012-02-29 文書分別システム及び文書分別方法並びに文書分別プログラム Expired - Fee Related JP5567049B2 (ja)

Priority Applications (10)

Application Number Priority Date Filing Date Title
JP2012044382A JP5567049B2 (ja) 2012-02-29 2012-02-29 文書分別システム及び文書分別方法並びに文書分別プログラム
KR1020157034318A KR101658794B1 (ko) 2012-02-29 2013-02-28 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
KR1020147026134A KR101582108B1 (ko) 2012-02-29 2013-02-28 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
CN201380011864.7A CN104160395A (zh) 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序
CN201610879239.XA CN106447300A (zh) 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序
PCT/JP2013/055330 WO2013129548A1 (ja) 2012-02-29 2013-02-28 文書分別システム及び文書分別方法並びに文書分別プログラム
EP13754385.6A EP2821927A4 (en) 2012-02-29 2013-02-28 CLASSIFICATION SYSTEM FOR DOCUMENTS, CLASSIFICATION PROCEDURE FOR DOCUMENTS AND DOCUMENT CLASSIFICATION PROGRAM
US14/472,296 US9552570B2 (en) 2012-02-29 2013-02-28 Document classification system, document classification method, and document classification program
HK15104590.9A HK1204112A1 (en) 2012-02-29 2015-05-14 Document classification system, document classification method, and document classification program
US15/375,035 US10445357B2 (en) 2012-02-29 2016-12-09 Document classification system, document classification method, and document classification program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012044382A JP5567049B2 (ja) 2012-02-29 2012-02-29 文書分別システム及び文書分別方法並びに文書分別プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014124951A Division JP5746403B2 (ja) 2014-06-18 2014-06-18 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Publications (3)

Publication Number Publication Date
JP2013182338A JP2013182338A (ja) 2013-09-12
JP2013182338A5 true JP2013182338A5 (ja) 2014-05-08
JP5567049B2 JP5567049B2 (ja) 2014-08-06

Family

ID=49082740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012044382A Expired - Fee Related JP5567049B2 (ja) 2012-02-29 2012-02-29 文書分別システム及び文書分別方法並びに文書分別プログラム

Country Status (7)

Country Link
US (2) US9552570B2 (ja)
EP (1) EP2821927A4 (ja)
JP (1) JP5567049B2 (ja)
KR (2) KR101658794B1 (ja)
CN (2) CN106447300A (ja)
HK (1) HK1204112A1 (ja)
WO (1) WO2013129548A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201510922A (zh) * 2013-09-10 2015-03-16 Ubic Inc 數位資訊分析系統、數位資訊分析方法及數位資訊分析程式
JP5572255B1 (ja) * 2013-10-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5876144B2 (ja) * 2014-02-04 2016-03-02 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5627820B1 (ja) * 2014-02-04 2014-11-19 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015118619A1 (ja) * 2014-02-04 2015-08-13 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015145524A1 (ja) * 2014-03-24 2015-10-01 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
WO2015173894A1 (ja) * 2014-05-13 2015-11-19 株式会社Ubic 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
US10095986B2 (en) * 2014-05-14 2018-10-09 Pegasus Transtech Llc System and method of electronically classifying transportation documents
KR101656405B1 (ko) * 2014-10-06 2016-09-09 김정철 승소 가능성 평가 장치 및 방법
WO2016063403A1 (ja) * 2014-10-23 2016-04-28 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
CN106030570B (zh) * 2014-12-23 2020-09-29 微软技术许可有限责任公司 显现数据集间的关系
WO2016111007A1 (ja) * 2015-01-09 2016-07-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
JPWO2016189605A1 (ja) * 2015-05-22 2018-02-15 株式会社Ubic データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
US10657186B2 (en) 2015-05-29 2020-05-19 Dell Products, L.P. System and method for automatic document classification and grouping based on document topic
JP5946949B1 (ja) * 2015-12-07 2016-07-06 株式会社Ubic データ分析システム、その制御方法、プログラム、および、記録媒体
CN106919551B (zh) * 2015-12-28 2020-08-18 株式会社理光 一种情感词极性的分析方法、装置及设备
US11010423B2 (en) 2018-08-20 2021-05-18 Accenture Global Solutions Limited Populating data fields in electronic documents
CN110096590A (zh) * 2019-03-19 2019-08-06 天津字节跳动科技有限公司 一种文档归类方法、装置、介质和电子设备
CN111814018A (zh) * 2019-04-10 2020-10-23 蓝海系统株式会社 记录管理系统和装置、文档审批和制作装置及方法、记录介质
JP6764973B1 (ja) * 2019-04-25 2020-10-07 みずほ情報総研株式会社 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
US11263249B2 (en) * 2019-05-31 2022-03-01 Kyndryl, Inc. Enhanced multi-workspace chatbot
JP2021077256A (ja) * 2019-11-13 2021-05-20 株式会社Fronteo 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム
CN111950253B (zh) * 2020-08-28 2023-12-08 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置
US11669704B2 (en) 2020-09-02 2023-06-06 Kyocera Document Solutions Inc. Document classification neural network and OCR-to-barcode conversion
US11809454B2 (en) 2020-11-21 2023-11-07 International Business Machines Corporation Label-based document classification using artificial intelligence
CN113449164B (zh) * 2021-05-15 2022-08-05 南方电网调峰调频发电有限公司信息通信分公司 一种移动办公用敏捷开发管理系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
JP2003016106A (ja) * 2001-06-29 2003-01-17 Fuji Xerox Co Ltd 関連度値算出装置
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
US20070198594A1 (en) * 2005-11-16 2007-08-23 Lunt Tracy T Transferring electronic file constituents contained in an electronic compound file using a forensic file copy
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100835290B1 (ko) * 2006-11-07 2008-06-05 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
KR100896702B1 (ko) * 2007-08-16 2009-05-14 한국과학기술원 신뢰도를 향상시킨 문서 구조 기반 군집 장치 및 방법
JP2009098811A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20100205020A1 (en) * 2009-02-09 2010-08-12 Losey Ralph C System and method for establishing, managing, and controlling the time, cost, and quality of information retrieval and production in electronic discovery
JP5387161B2 (ja) 2009-06-23 2014-01-15 富士ゼロックス株式会社 言語解析装置及びプログラム
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
JP5346841B2 (ja) 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP4868191B2 (ja) 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
CN101819601B (zh) * 2010-05-11 2012-02-08 同方知网(北京)技术有限公司 学术文献自动分类的方法
US8745091B2 (en) * 2010-05-18 2014-06-03 Integro, Inc. Electronic document classification
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8620918B1 (en) * 2011-02-01 2013-12-31 Google Inc. Contextual text interpretation

Similar Documents

Publication Publication Date Title
JP2013182338A5 (ja)
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN105608199B (zh) 用于智能问答系统中的标准问的扩展方法和装置
RU2016107443A (ru) Способ и устройство для рекомендации справочных документов
WO2017092622A1 (zh) 法律条文的搜索方法及装置
JP2012521598A5 (ja)
JP2017503273A5 (ja)
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
TW201415264A (zh) 取證系統、取證方法及取證程式
RU2016119495A (ru) Способ и устройство для определения ассоциированного пользователя
JP2005085285A5 (ja)
JP2014109871A5 (ja)
KR20150036117A (ko) 쿼리 확장
JP2015106300A5 (ja)
Vavliakis et al. Event Detection via LDA for the MediaEval2012 SED Task.
JP2012243033A5 (ja)
JP6377917B2 (ja) 画像検索装置及び画像検索プログラム
JP2013134735A5 (ja)
JP2014109852A5 (ja)
JP6314071B2 (ja) 情報処理装置、情報処理方法及びプログラム
Mazloom et al. Few-example video event retrieval using tag propagation
JPWO2015030112A1 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
KR20200045700A (ko) 이미지 기반 가짜 뉴스 검출 시스템
JP5292247B2 (ja) コンテンツタグ収集方法、コンテンツタグ収集用プログラム、コンテンツタグ収集システム及びコンテンツ検索システム