CN104160395A - 文档分类系统、文档分类方法及文档分类程序 - Google Patents

文档分类系统、文档分类方法及文档分类程序 Download PDF

Info

Publication number
CN104160395A
CN104160395A CN201380011864.7A CN201380011864A CN104160395A CN 104160395 A CN104160395 A CN 104160395A CN 201380011864 A CN201380011864 A CN 201380011864A CN 104160395 A CN104160395 A CN 104160395A
Authority
CN
China
Prior art keywords
document
class symbol
keyword
score
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380011864.7A
Other languages
English (en)
Inventor
守本正宏
白井喜胜
武田秀树
莲子和巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to CN201610879239.XA priority Critical patent/CN106447300A/zh
Publication of CN104160395A publication Critical patent/CN104160395A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Abstract

本发明提供一种文档分类系统,对诉讼中用于作为证据提交收集的数字化的文档信息进行分析,然后分类以容易地用于诉讼。文档分类系统具有:抽取部,其从收集的文档信息中抽取所规定数量的文档;文档显示部,其将所述抽取的文档群显示在画面上;分类符号接受部,其接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号;选定部,其根据所述分类符号,将所述抽取的文档群按分类符号分类,并解析所述被分类的文档群中共同出现的关键词并选定;数据库,其记录所述选定的关键词;搜索部,其从所述文档信息搜索所述数据库中记录的关键词;得分计算部,其利用所述搜索部的搜索结果和所述选定部的解析结果,计算出表示分类符号和文档之间的关联性的得分;自动分类部,其根据所述得分的结果自动赋予分类符号。

Description

文档分类系统、文档分类方法及文档分类程序
技术领域
本发明涉及一种文档分类系统、文档分类方法及文档分类程序,尤其是涉及与诉讼相关文档信息的文档分类系统、文档分类方法及文档分类程序。
背景技术
现有技术中,已提出一种在发生非法访问(illegal access)或机密信息泄露等与计算机相关的犯罪或法律纠纷时,对原因查明或搜查所需的仪器、数据或电子记录进行收集/分析,并明确其法律上的证据性的装置或技术。
尤其在美国民事诉讼中,由于需要eDiscovery(电子证据公开)等,该诉讼的原告及被告的任何一方均需要承担作为证据提交全部相关数字信息的义务。因此,必须将计算机或服务器中所记录的数字信息作为证据提交。
另一方面,由于随着IT业迅速发展及普及,在当今商务世界中几乎所有的信息均由计算机制作,因此即使在同一企业内部,也充斥着大量的数字信息。
因此,在为了向法庭提交证据材料而进行准备工作的过程中,容易产生在证据材料中还包含了未必与该诉讼相关的机密数字信息的失误。存在提交与该诉讼无关的机密文档信息的问题。
近几年来,在专利文献1~专利文献3中提出一种与取证系统的文档信息相关的技术。在专利文献1中公开一种取证系统,从使用者信息中所包含的至少1人以上的使用者中指定特定人,并根据与被指定的特定人相关的访问履历信息,仅抽取特定人所访问的数字文档信息,并设定表示各所抽取的数字文档信息的文档文件是否与诉讼相关的附带信息,并且根据附带信息,输出与诉讼相关的文档文件。
另外,在专利文献2中公开一种取证系统,显示所记录的数字信息,对多个文档文件的每一个设定表示是否与包含于使用者信息的使用者中任意的使用者相关的使用者特定信息,并将该被设定的使用者特定信息记录在存储部中,而进行设定,并指定至少一个以上的使用者,对设定有与所指定的使用者相对应的使用者特定信息的文档文件进行检索,并借助显示部,设定表示所检索的文档文件是否与诉讼相关的附带信息,根据附带信息,输出与诉讼相关的文档文件。
另外,在专利文献3中公开一种取证系统,接受数字文档信息中所包含的至少一个以上的文档文件的指定,并接受是否将所指定的文档文件翻译为任意一种语言的指定,将接受所指定的文档文件翻译为接受指定的语言,从记录部所记录的数字文档信息抽取与所指定的文档文件显示同一内容的共同文档文件,并生成翻译关联信息,该翻译关联信息表示所抽取的共同的文档文件因引用被翻译的文档文件的翻译内容而被翻译,根据翻译关联信息输出与诉讼相关的文档文件。
专利文献1:日本专利特开2011-209930号公报
专利文献2:日本专利特开2011-209931号公报
专利文献3:日本专利特开2012-32859号公报
然而,例如专利文献1~3中所公开的取证系统,需要使用多台计算机及服务器以收集使用者的庞大的文档信息。
通过被称为查阅者的用户阅读确认,进行分辨将上述的数字化的庞大的文档信息作为诉讼的证据材料是否合适的操作,必须对该文档信息逐个进行分辨,这样需要消耗大量的人力。
发明内容
有鉴于此,本发明提供一种文档分类系统、文档分类方法及文档分类程序,使在收集数字化的文档信息后,通过对该文档信息自动赋予分类符号,能够减轻诉讼中对所使用的文档信息分类作业的负担。
本发明的文档辨别系统获取记录在多个计算机或服务器中的数字信息,并对该获取的数字信息中所包含的文档信息进行分析,然后进行分类以易于在诉讼中使用,该文档辨别系统具有:抽取部,其从所述文档信息中抽取作为数据组而包含规定数量文档的文档群;文档显示部,其将所述抽取的文档群显示在画面上;分类符号接受部,其接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号;选定部,其根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定在该被分类的文档群中共同出现的关键词;数据库,其记录所述被选定的关键词;搜索部,其从所述文档信息中搜索记录在所述数据库中的关键词;得分计算部,其利用所述搜索部的搜索结果和所述选定部的解析结果,计算表示分类符号和文档之间的关联性的得分;以及自动分类部,其根据所述得分的结果自动赋予分类符号。
在本发明中,“文档”是指包含1个以上关键词的数据。例如为电子邮件、企划案材料、表计算材料、商洽材料、合同书、组织图、事业企划书等。
在本发明中,在为某种语言下,“关键词”是指具有一定意义的语句的概括。例如,在从“将文档分类”的文章选定关键词时,可选“文档”、“分类”为关键词。
在本发明中,“分类符号”为将文档分类时使用的标识符。例如,诉讼中将文档信息作为证据使用时,可根据证据的种类赋予分类符号。
“得分”是指,定量评价某个文档与特定的分类符号的联系的强度。例如,得分计算部根据出现在文档群中的关键词和各关键词所拥有的权重计算得分。作为一个例子,该权重根据拥有关键词的、每个分类符号的传递信息量决定。
另外,本发明的文档辨别系统中,抽取部从文档信息中抽取文档群时,可进行随机采样。
本发明的文档辨别系统中,所述搜索部从由未被赋予所述分类符号的文档构成的文档信息中搜索所述关键词,所述得分计算部利用所述搜索部的搜索结果和所述选定部的解析结果,计算表示分类符号和文档之间关联性的得分,所述自动分类部具有抽取未由所述分类符号接受部接受到赋予所述分类符号的文档,并对文档信息自动赋予分类符号的功能。
另外,本发明的文档分类系统中,所述数据库还具有抽取并记录与所述分类符号具有关联性的关联用语的功能,所述搜索部还具有从所述文档信息中搜索所述关联用语的功能,所述得分计算部还具有根据所述搜索部对所述关联用语进行搜索的结果计算得分的功能,所述自动分类部还具有根据使用所述关联用语计算的得分自动赋予分类符号的功能。
另外,本发明的文档分类系统还具有文档排除部,其在文档群中的文档中,选定不包含由所述选定部选定的所述关键词、所述关联用语及与所述分类符号有相关关系的关键词的文档,并从所述自动分类部的分类对象中排除所述被选定的文档。
本发明的文档分类系统还具有学习部,其根据所述选定部的分析结果和所述得分计算部计算的得分,对由所述选定部选定的关键词、记录在所述数据库中的与分类符号有相关关系的关键词及关联用语进行增减。
本发明的文档分类方法其应用于获取记录在多个计算机或服务器中记录的数字信息,并对该获取的数字信息中所包含的文档信息进行分析,然后分类以易于在诉讼中使用的文档分类系统,从所述文档信息中抽取作为数据组而包含规定数量文档的文档群,将所述抽取的文档群显示在画面上,接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号,根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定该被分类的文档群中共同出现的关键词,记录所述被选定的关键词,从所述文档信息搜索所述被记录的关键词,利用所述搜索结果和所述解析结果,计算表示分类符号和文档之间的关联性的得分,根据所述得分的结果自动赋予分类符号。
本发明的文档分类程序其应用于获取记录在多个计算机或服务器中记录的数字信息,并对该获取的数字信息中所包含的文档信息进行分析,然后分类以易于在诉讼中使用的文档分类系统,使计算机中实现如下功能,从所述文档信息中抽取作为数据组而包含规定数量文档的文档群,将所述抽取的文档群显示在画面上,接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号,根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定该被分类的文档群中共同出现的关键词,记录所述被选定的关键词,从所述文档信息搜索所述被记录的关键词,利用所述搜索结果和所述解析结果,计算表示分类符号和文档之间的关联性的得分,根据所述得分的结果自动赋予分类符号。
发明的效果
本发明的文档辨别系统、文档辨别方法及文档辨别程序从所述文档信息中抽取作为数据组而包含规定数量文档的文档群,将所述抽取的文档群显示在画面上,接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号,根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定该被分类的文档群中共同出现的关键词,记录所述被选定的关键词,从所述文档信息搜索所述被记录的关键词,利用所述搜索结果和所述解析结果,计算表示分类符号和文档之间的关联性的得分,根据所述得分的结果自动赋予分类符号,由此,能够减轻查阅者分类作业的负担。
另外,本发明的文档辨别系统中,所述搜索部从由未被赋予所述分类符号的文档构成的文档信息中搜索所述关键词,所述得分计算部利用所述搜索部的搜索结果和所述选定部的解析结果,计算表示分类符号和文档之间关联性的得分,所述自动分类部具有抽取未由所述分类符号接受部接受到赋予所述分类符号的文档,并对文档信息自动赋予分类符号的功能时,对于未由分类符号接受部接受赋予分类符号的文档信息,根据查阅者进行分类的规则性,可自动赋予分类符号。
另外,本发明还具有学习部,其根据所述选定部的分析结果和所述得分计算部计算的得分,对由所述选定部选定的关键词、记录在所述数据库中的与分类符号有相关关系的关键词及关联用语进行增减,这种情况下,每重复分类次数,都可提高分类精度。
另外,本发明从所述文档信息中抽取作为数据组而包含规定数量文档的文档群,将所述抽取的文档群显示在画面上,接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号,根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定该被分类的文档群中共同出现的关键词,记录所述被选定的关键词,从所述文档信息搜索所述被记录的关键词,利用所述搜索结果和所述解析结果,计算表示分类符号和文档之间的关联性的得分,根据所述得分的结果自动赋予分类符号,并在文档群的文档中,选定不含与选定部所选定的关键词、关联用语及分类符号具有相关关系的关键词的文档,而从自动分类部的分类对象排除被选定的文档,此时,可更高效的进行文档分类。由此,在诉讼中容易使用所收集的数字信息。
附图说明
图1为本发明的第1实施方式的文档辨别系统的结构图;
图2为本发明的实施方式的表示选定部的解析结果的坐标图;
图3为本发明的实施方式的每个阶段处理的图表;
图4为本发明的实施方式的数据库的处理流程的图表;
图5为本发明的实施方式的搜索部的处理流程的图表;
图6为本发明的实施方式的得分计算部的处理流程的图表;
图7为本发明的实施方式的自动分类部的处理流程的图表;
图8为本发明的实施方式的抽取部的处理流程的图表;
图9为本发明的实施方式的文档显示部的处理流程的图表;
图10为本发明的实施方式的分类符号接受部的处理流程的图表;
图11为本发明的实施方式的选定部的处理流程的图表;
图12为本发明的实施方式的文档排除部的处理流程的图表;
图13为本发明的实施方式的学习部的处理流程的图表;
图14为本发明的实施方式的文档显示画面。
符号说明
101  文档分类装置
102  抽取部
103  文档显示部
104  分类符号接受部
105  选定部
106  搜索部
107  得分计算部
108  自动分类部
109  文档排除部
110  学习部
201  数据库
301  客户端
I1   文档显示画面
具体实施方式
第1实施方式
下面,参照附图对本发明的实施方式进行说明。图1表示第1实施方式的文档辨别系统的结构图。
第1实施方式为,与专利侵权诉讼的文档提交指令相对应时,对与作为被指控产品的产品A相关的文档进行分类处理情况的实施例。
本发明的文档分类系统包括:抽取部102,其抽取文档信息中包含所规定数量文档的数据组的文档群;文档显示部103,其将被抽取的文档群显示在画面上;分类符号接受部104,其接受被称为查阅者的用户根据与诉讼的关联性对所显示的文档群赋予的分类符号;选定部105,其根据分类符号,将抽取的文档群分类给每个分类符号,并在该被分类的文档群中解析并选定共同出现的关键词;数据库201,用于记录所选定的关键词;搜索部106,其从文档信息搜索记录在数据库201中的关键词;得分计算部107,其利用搜索部106的搜索结果和选定部105的解析结果,计算出表示分类符号和文档的关联性的得分;自动分类部108,其根据得分的结果,自动赋予分类符号;文档排除部109,其用于从自动分类部108的分类对象中排除被选定的文档;学习部110,其根据选定部105的分析结果及得分计算部计算出的得分,对由选定部105选定的关键词、与记录在数据库201中的分类符号具相关关系的关键词及关联用语进行增减。
在第1实施方式中,该文档分类系统包括文档分类装置101、数据库201及查阅者使用的客户端301构成,其中,文档分类装置101具有抽取部102、文档显示部103、分类符号接受部104、选定部105、搜索部106、得分计算部107、自动分类部108、文档排除部109和学习部110。在1个文档辨别系统内,客户端301可具有多个。
文档分类装置101及客户端301为计算机或服务器,其根据各种输入使CUP实施ROM中记录的程序,进行作为各种功能部的动作。
分类符号为将文档分类时使用的标识符。诉讼中将文档信息作为证据使用时,可根据证据的种类赋予分类符号。第1实施方式中,分类符号为“无关”、“有关”和“重要”3种符号,其中“无关”表示此次的诉讼中无举证能力的文档,“有关”表示需要作为证据提交的文档,“重要”表示与产品A有着特别关系的文档,其中,对赋予“重要”符号的文档进行分类。
这里所述的文档是指,诉讼中作为证据提交的数字信息,是包含1个以上单词的数据。例如为电子邮件、企划案材料、表计算材料、商洽材料、合同书、组织图、事业企划书等。另外,可将扫描数据作为文档处理。这种情况下,可在文档辨别系统中设置OCR(光符阅读器:Optical Character Reader)装置,以将扫描数据转换为文档数据。通过使用OCR装置转换为文档数据,可从扫描数据中解析或搜索关键词及关联用语。
例如,在第1实施方式中,对记载有与产品A相关的商谈内容的会议记录或电子邮件等赋予“有关”符号,对产品A的研发企划书或设计书等赋予“重要”符号,对与产品A无关的法院、地方定期召开的会议(日本语“定例会”)等材料赋予“无关”符号。
另外,在为某种语言下,关键词为具有一定意义的语句的概括。例如,在从“将文档分类”的文章选定关键词时,可选“文档”、“分类”为关键词。在第1实施方式中,重点选择“侵害”、“诉讼”或“专利公报○○号”为关键词。
数据库201为在电子介质上记录数据的记录装置,可设置在文档分类装置101的内部,例如也可作为储存装置设置在外部。
文档分类装置101、数据库201及客户端301通过有线或无线的网络连接。也可使用云计算的形式。
数据库201记录各分类符号的关键词。另外,可事先登记能够根据以往的分类处理的结果判断与产品A关联性高且若包含在文档中则可直接赋予“重要”符号的关键词。例如像产品A的主要功能名称或“诉讼”、“警告”、“专利公报”一类的关键词。另外,同样地,也可以根据以往的分类处理的结果,抽取与如下所述文章群关联性高的一般用语,登记为关联用语,其中该文章群因与产品A关联性高而被赋予“重要”符号。
对于已登记于数据库201的关键词及关联用语,除了根据学习部110的学习结果进行增减,还可以通过手动的方式进行追加登记及删除。
抽取部102在从文档信息中抽取文档群时,可进行随机采样。在第1实施方式中,随机抽取全部文档信息中两成(20%)文档,作为查阅者的分类对象。抽取部102从全部文档信息抽取的文档的比例可自由设定。另外,可将抽取源的对象作为全部文档信息的一部分。
文档显示部103向客户端301提示如图14所示的文档显示画面I1。文档显示画面I1,如图14所示,在中间显示作为分类对象的文档,并在左侧显示分类符号,而以该画面结构在1个画面内显示分类对象的文档和要赋予的分类符号。其画面结构也可以使显示文档的部位和显示分类符号的部位分别不同。
在第1实施方式中,文档显示画面I1中的分类符号1表示“无关”符号,分类符号2表示“有关”符号,分类符号3表示“重要”符号。另外,在赋予“有关”符号的文档中,小类1赋予与产品A的价格相关的文档,小类2赋予与产品A的开发计划相关的文档。在1个分类符号中可具有多个小类,也可不具有。
分类符号接受部104,对文档显示部103显示的文档信息中由查阅者观察确认并逐个决定分类符号的文档,根据该决定赋予分类符号,从而可将该文档分类。可通过被赋予的分类符号进行文档的分类。
选定部105对由分类符号接受部104分类的文档信息进行解析,并对被赋予“无关”、“有关”及“重要”的各分类符号的文档信息,选定共同频繁出现的关键词作为该分类符号的关键词。
图2是表示选定部105对被赋予“重要”符号的文档解析结果的图表。
图2中,纵轴R_hot表示,由查阅者赋予“重要”符号的全部文档中,包含选定的关键词作为附带在“重要”符号中的关键词,且表示被赋予“重要”符号的文档的比例。横轴表示,查阅者实施分类处理的全部文档中,包含由选定部105选定的关键词的文档的比例。
在第1实施方式中,选定部105可选定标识于直线R_hot=R_all上部的关键词作为其分类符号的关键词。
搜索部106具有从作为对象的文档中搜索特定的关键词的功能。搜索部106在搜索包含由选定部105选定的关键词或由数据库201抽取的包含关联用语的文档时,由分类符号接受部104未接受到赋予分类符号的文档构成的文档群为对象进行搜索。
得分计算部107可根据文档群中出现的关键词和各关键词所拥有的权重,利用下式计算得分。得分是指,定量评价某个文档与特定的分类符号的联系的强度。
Scr = Σ i = 0 N i * ( m i * wgt i 2 ) / Σ i = 0 N i * wgt i 2 . . . ( 1 )
mi:第i个关键词或关联用语的出现频度
第i关键词或关联用语的权重
自动分类部108具有如下功能,即,在根据计算出的得分自动地对文档信息赋予分类符号时,抽取未由分类符号接受部104接受到赋予分类符号的文档,并自动对该文档赋予分类符号。
文档排除部109搜索作为分类对象的文档信息中的不包含由数据库201事先登记的关键词及关联用语,以及由选定部105选定的关键词的任何一者的文档,并可将该文档从分类对象事先排除。
学习部110根据分类处理的结果学习各关键词的权重,并根据该学习结果对登记在数据库201中的关键词及关联用语进行增减。
各关键词所拥有的权重,可根据该关键词所具有的、各分类符号的传递信息量决定。附加该权重可根据下式,每叠加分类处理而进行学习,提高精度。
wgti,0:学习前第i个选定关键词的权重(初始值)
wgti,L:第L次学习后的第i个选定关键词的权重
γL:第L次学习的学习参数
学习效果的阈值
另外,学习部可使用神经网络取得将分类结果反映为附加权重的学习方法。
客户端301用于查阅者操作,并在确认文档信息且决定赋予的分类符号时使用。
在第1实施方式中,根据图3所示的流程图,进行5个阶段的分类处理。
在第1阶段中,使用以往分类处理的结果,进行关键词和关联用语的事先登记。此时登记的关键词为,构成对产品A的侵权行为的功能的名称或技术的名称等,若包含于文档中则直接赋予“重要”符号的关键词。
在第2阶段中,从全部文档信息搜索包含在第1阶段中所登记的关键词的文档,并在发现该文档时赋予“重要”符号。
在第3阶段中,从全部文档信息搜索在第1阶段中所登记的关联用语,并计算包含该关联用语的文档的得分,而进行分类。
在第4阶段中,在查阅者决定了分类符号后,根据查阅者进行分类的规则性,自动赋予分类符号。
在第5阶段中,使用第1阶段~第4阶段的结果进行学习。
第1阶段
下面参照图4对第1阶段的数据库201的处理流程进行详细说明。根据数据库201判断进行第几阶段的处理,并选择第1阶段的处理(STEP1:第1阶段)。在本阶段中,首先由数据库201进行关键词的事先登记(STEP2)。此时登记的是根据以往的分类处理的结果,与产品A关联性高,若包含在文档中则直接赋予“重要”符号的关键词。另外,同样地,根据以往的分类处理的结果,抽取与如下所述文章群关联性高的一般用语(STEP3),等级为关联用语(STEP4),其中该文章群因与产品A关联性高而被赋予“重要”符号。
第2阶段
下面,参照图4、图5及图7对第2阶段的数据库201、搜索部106及自动分类部108的处理流程进行详细说明。
根据数据库201判断进行哪一阶段的处理,并选择第2阶段的处理(STEP1:第2阶段)。对于数据库201,若还存在有必要事先进行登记的关键词时(STEP5:YES),进行追加登记(STEP6)。在没有要追加登记关键词时(STEP5:NO),以及STEP6处理完成后,由搜索部106判断进行哪一阶段的处理,并选择第2阶段的处理(STEP11:第2阶段)。在本阶段中,搜索部106首先判定在数据库201内是否存在事先在第1阶段及第2阶段中登记的关键词(STEP12)。在不存在事先登记的关键词时(STEP12:NO),第2阶段的处理结束。
当存在事先登记的关键词时(STEP12:YES),在作为分类对象的全部文档信息中,对作为分类对象的文档信息搜索有没有包含该关键词的文档(STEP13)。当不存在包含所搜索的关键词的文档时(STEP14:NO),第2阶段的处理结束。另一方面,在发现包含所搜索的关键词的文档时(STEP14:YES),通知自动分类部108(STEP15)。
自动分类部108在接受到来自搜索部106的该通知后(STEP29:第2阶段,STEP30:YES),对作为该通知对象的文档赋予“重要”符号,处理结束。在未接受到来自搜索部106的该通知时(STEP29:第2阶段,STEP30:NO),不进行任何的处理。
第3阶段
下面,参照图4、图5、图6及图7对第3阶段的数据库201、搜索部106、得分计算部107及自动分类部108的处理流程进行详细说明。
由数据库201判断进行哪一阶段的处理,并选择第3阶段的处理(STEP1:第3阶段)。对于数据库201,若还存在有必要事先进行登记的关联用语时(STEP7:YES),进行追加登记(STEP8)。在没有要追加登记关联用语时(STEP7:NO),第3阶段的处理结束。
在STEP8的处理完成后,由搜索部106判断进行哪一阶段的处理,并选择第3阶段的处理(STEP11:第3阶段)。在本阶段中,搜索部106判断在数据库201内是否存在事先在第1阶段及第2阶段中登记的关联用语(STEP16)。在不存在事先登记关键词时(STEP16:NO),第3阶段的处理结束。
在存在事先登记的关联用语时(STEP16:YES),在作为分类对象的全部文档信息中,对分类对象的文档信息搜索有没有包含该关联用语的文档(STEP17)。当不存在包含所搜索的关键词的文档时(STEP18:NO),第3阶段的处理结束。另一方面,在发现包含所搜索的关联用语的文档时(STEP18:YES),通知得分计算部107(STEP19)。
在得分计算部107中,当接受到来自搜索部106的该通知时(STEP24:第3阶段,STEP23:YES),采用上述式(1),根据从文档中发现的关联用语的种类和该关联用语所拥有的权重计算文档的得分,并通知自动分类部108(STEP28)。在未接受到来自搜索部106的发现关联用语的通知时(STEP24:第3阶段,STEP23:NO),第3阶段的处理结束。
自动分类部108在接受来自得分计算部107的得分通知时(STEP29:第3阶段,STEP32:YES),对每个文档判定得分是否超出阈值,并对得分超出阈值的文档赋予“重要”符号,当不存在得分超出阈值的文档时不赋予符号,并结束处理(STEP33)。
第4阶段
下面参照图4、图5、图6、图7、图8、图9、图10和图11对第3阶段中数据库201、搜索部106、得分计算部107、自动分类部108、抽取部102、文档显示部103、分类符号接受部104及选定部105的处理流程进行详细说明。
在第4阶段中,首先,在抽取部102中,从作为分类对象的文档信息中随机采样文档,抽取要由查阅者手动赋予分类符号的作为对象的文档群(STEP34)。在文档显示部103中,将所抽取的文档群显示在文档显示画面I1上(STEP35)。
查阅者阅读显示在文档显示画面I1上的文档群中各文档的内容,并判断产品A与该文档内容之间是否存在关联性,决定是否赋予“重要”符号。所谓查阅者赋予“重要”符号的文档是指,例如对产品A的现有技术进行调查后的结果的报告书,或他人警告制造产品A造成专利侵权的警告状等。
由查阅者赋予的分类符号,通过分类符号接受部104接受(STEP36),并根据被赋予的分类符号将文档分类(STEP37)。
选定部105对在STEP37中被分类的各文档,进行关键词解析(STEP38),并在赋予“重要”符号的文档中选定共同出现次数多的关键词(STEP39)。
接下来,在数据库201中,当选定部105在STEP39中选定的关键词未被登记为表示与产品A有关的涉及“重要”符号的关键词时(STEP1:第3阶段,STEP9:YES),进行该关键词的登记。在该关键词已经被登记的情况下,不进行任何的处理(STEP1:第3阶段,STEP9:NO)。
在搜索部106中,在涉及“重要”符号的关键词未登记于数据库201时(STEP20:NO),第4阶段的处理结束。在登记有该关键词时(STEP20:YES),在抽取部102中抽取的已由查阅者分类的文档从探索对象舍去,剩余的各文档作为对象,并执行该关键词的搜索(STEP21)。在该搜索中,当在文档中发现关键词时(STEP22:YES),通知得分计算部107(STEP23)。
在得分计算部107中,在接受到发现关键词的通知时(STEP27:YES),利用上述的式(1)计算各文档的得分,并通知自动分类部。
在自动分类部108中,在接受来自得分计算部107的通知时,(STEP32:YES),对每个文档判断得分是否超出阈值,并对超出阈值的文档赋予“重要”符号,对没有超出阈值的文档不赋予符号,并结束处理(STEP33)。
第5阶段
下面分别参照图12、图13对在第5阶段中文档排除部109及学习部110的处理流程,进行详细说明。
文档排除部109对作为分类对象的文档信息中未实施第1~第4阶段处理的文档群搜索是否存在包含在第1、第2阶段中事先登记的关键词、在第1、第3阶段中登记的关联用语及在第4阶段中登记的关键词的文档,当存在未发现任何上述关键词和关联用语的文档时(STEP40:YES),事先将该文档从分类对象中排除(STEP41)。
在学习部110中,根据第1~第4的处理结果,利用式(2)学习各关键词的权重。该学习结果反映在数据库201中(STEP42)。
其他是实施方式
下面对本发明的其他的实施方式进行说明。
在第1实施方式中,尤其对专利侵权诉讼案件的实施例进行的说明,但并不局限于此,本发明的文档辨别系统可在卡特尔(Cartel)或反垄断法等采用eDiscovery(电子证据公开)制度,而负有文档提交义务的任何诉讼中加以利用。
另外,在第1实施方式中,在第1阶段~第3阶段的处理后实施根据查阅者进行分类的规则性自动赋予分类符号的第4阶段的处理,但并不局限于此,也可并不实施第1阶段~第3阶段的处理,而只是单独实施第4阶段的处理。
而且,也可以在最初由抽取部102从文档信息抽取一部分的文档群,并在最初首先对该抽取的文档群进行第4阶段的处理。然后,根据第4阶段登记的关键词进行第1阶段~第3阶段的处理。
在搜索部106中,在第1实施方式的第4阶段,对未由分类符号接受部104接受分类符号的文档搜索由选定部105选定的关键词,但并不局限于此,也可以以全部文档信息为对象进行该关键词的搜索。
在自动分类部108中,在第1实施方式的第4阶段,仅将未由分类符号接受部104接受分类符号的文档作为分类符号自动赋予的对象,但并不局限于此,也可将全部文档信息作为该自动赋予的对象。
本发明的文档辨别系统、文档辨别方法及文档辨别程序,从文档信息中抽取包含所规定数量文档的数据组作为文档群,并将抽取的文档群显示在画面上,对于显示的文档群,查阅者根据与诉讼的关联性接受赋予的分类符号,并根据该分类符号,将抽取的文档群按每个分类符号分类,然后解析该被分类的文档群中共同出现的关键词并选定,记录选定的关键词,并从文档信息中搜索记录的关键词,然后利用搜索结果和解析结果,计算出表示分类符号和文档之间关联性的得分,并根据得分的结果自动赋予分类符号,由此能够减轻查阅者的分类作业的负担。
另外,本发明的文档辨别系统中,搜索部具有如下功能,即,从由未赋予分类符号的文档构成的文档信息中搜索关键词的功能,得分计算部利用搜索部的搜索结果和选定部的解析结果,计算出表示分类符号和文档之间关联性的得分,自动分类部在具有抽取未由分类符号接受部接受赋予分类符号的文档,并对该文档自动赋予分类符号。此时,可根据查阅者进行分类的规则性,对未由分类符号接受部接受赋予分类符号的文档信息自动赋予分类符号。
另外,本发明具有学习部,其根据选定部的分析结果和得分计算部计算的得分对由选定部选定的与数据库中的分类符号之间具有相关关系的关键词及关联用语进行增减,此时每重复分类次数,都可提高分类精度。
另外,在本发明中,数据库抽取并记录与分类符号相关的关联用语,搜索部从文档信息中搜索关联用语,得分计算部根据搜索部搜索关联用语的结果计算得分,自动分类部根据使用关联用语计算的得分自动赋予分类符号,并在文档群的文档中,选定不含与选定部所选定的关键词、关联用语及分类符号具有相关关系的关键词的文档,而从自动分类部的分类对象排除被选定的文档,此时,可更高效的进行文档分类。由此,在诉讼中容易使用所收集的数字信息。

Claims (11)

1.一种文档分类系统,其获取记录在多个计算机或服务器中的数字信息,并对该获取的数字信息中所包含的文档信息进行分析,然后进行分类以易于在诉讼中使用,其特征在于,具有:
抽取部,其从所述文档信息中抽取作为数据组而包含规定数量文档的文档群;
文档显示部,其将所述抽取的文档群显示在画面上;
分类符号接受部,其接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号;
选定部,其根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定在该被分类的文档群中共同出现的关键词;
数据库,其记录所述被选定的关键词;
搜索部,其从所述文档信息中搜索记录在所述数据库中的关键词;
得分计算部,其利用所述搜索部的搜索结果和所述选定部的解析结果,计算表示分类符号和文档之间的关联性的得分;以及
自动分类部,其根据所述得分的结果自动赋予分类符号。
2.根据权利要求1所述的文档分类系统,其特征在于,
所述得分计算部根据出现在所述文档群中的所述关键词和各关键词所拥有的权重计算得分。
3.根据权利要求1或2中任意一项所述的文档分类系统,其特征在于,
所述权重根据拥有所述关键词的、每个所述分类符号的传递信息量决定。
4.根据权利要求1~3中任意一项所述的文档分类系统,其特征在于,
所述抽取部具有从所述文档信息中随机采样而抽取文档群的功能。
5.根据权利要求1~4中任意一项所述的文档判别系统,其特征在于,
所述搜索部从由未被赋予所述分类符号的文档构成的文档信息中搜索所述关键词,
所述得分计算部利用所述搜索部的搜索结果和所述选定部的解析结果,计算表示分类符号和文档之间关联性的得分,
所述自动分类部具有抽取未由所述分类符号接受部接受到赋予所述分类符号的文档,并对文档信息自动赋予分类符号的功能。
6.根据权利要求1所述的文档分类系统,其特征在于,
所述数据库还具有抽取并记录与所述分类符号具有关联性的关联用语的功能,
所述搜索部还具有从所述文档信息中搜索所述关联用语的功能,
所述得分计算部还具有根据所述搜索部对所述关联用语进行搜索的结果计算得分的功能,
所述自动分类部还具有根据使用所述关联用语计算的得分自动赋予分类符号的功能。
7.根据权利要求6所述的文档分类系统,其特征在于,
所述数据库还具有事先记录与所述分类符号有相关关系的关键词的功能,
所述自动分类部还具有在对所述文档群中包含与分类符号有相关关系的关键词的文档进行搜索时,决定所述分类符号的功能。
8.根据权利要求6或7所述的文档分类系统,其特征在于,
还具有文档排除部,其在所述文档群中的文档中,选定不包含由所述选定部选定的所述关键词、所述关联用语及与所述分类符号有相关关系的关键词的文档,并从所述自动分类部的分类对象中排除所述被选定的文档。
9.根据权利要求6或7所述的文档分类系统,其特征在于,
还具有学习部,其根据所述选定部的分析结果和所述得分计算部计算的得分,对由所述选定部选定的关键词、记录在所述数据库中的与分类符号有相关关系的关键词及关联用语进行增减。
10.一种文档分类方法,其应用于获取记录在多个计算机或服务器中记录的数字信息,并对该获取的数字信息中所包含的文档信息进行分析,然后分类以易于在诉讼中使用的文档分类系统,其特征在于,
从所述文档信息中抽取作为数据组而包含规定数量文档的文档群,
将所述抽取的文档群显示在画面上,
接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号,
根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定该被分类的文档群中共同出现的关键词,
记录所述被选定的关键词,
从所述文档信息搜索所述被记录的关键词,
利用所述搜索结果和所述解析结果,计算表示分类符号和文档之间的关联性的得分,
根据所述得分的结果自动赋予分类符号。
11.一种文档分类程序,其应用于获取记录在多个计算机或服务器中记录的数字信息,并对该获取的数字信息中所包含的文档信息进行分析,然后分类以易于在诉讼中使用的文档分类系统,其特征在于,
使计算机中实现如下功能,
从所述文档信息中抽取作为数据组而包含规定数量文档的文档群,
将所述抽取的文档群显示在画面上,
接受用户根据与所述诉讼之间的关联性对所述显示的文档群赋予的分类符号,
根据所述分类符号,按每个分类符号对所述抽取的文档群进行分类,解析并选定该被分类的文档群中共同出现的关键词,
记录所述被选定的关键词,
从所述文档信息搜索所述被记录的关键词,
利用所述搜索结果和所述解析结果,计算表示分类符号和文档之间的关联性的得分,
根据所述得分的结果自动赋予分类符号。
CN201380011864.7A 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序 Pending CN104160395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610879239.XA CN106447300A (zh) 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012044382A JP5567049B2 (ja) 2012-02-29 2012-02-29 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2012-044382 2012-02-29
PCT/JP2013/055330 WO2013129548A1 (ja) 2012-02-29 2013-02-28 文書分別システム及び文書分別方法並びに文書分別プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610879239.XA Division CN106447300A (zh) 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序

Publications (1)

Publication Number Publication Date
CN104160395A true CN104160395A (zh) 2014-11-19

Family

ID=49082740

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201610879239.XA Pending CN106447300A (zh) 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序
CN201380011864.7A Pending CN104160395A (zh) 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201610879239.XA Pending CN106447300A (zh) 2012-02-29 2013-02-28 文档分类系统、文档分类方法及文档分类程序

Country Status (7)

Country Link
US (2) US9552570B2 (zh)
EP (1) EP2821927A4 (zh)
JP (1) JP5567049B2 (zh)
KR (2) KR101658794B1 (zh)
CN (2) CN106447300A (zh)
HK (1) HK1204112A1 (zh)
WO (1) WO2013129548A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106030570A (zh) * 2014-12-23 2016-10-12 微软技术许可有限责任公司 显现数据集间的关系
CN110096590A (zh) * 2019-03-19 2019-08-06 天津字节跳动科技有限公司 一种文档归类方法、装置、介质和电子设备
CN111814018A (zh) * 2019-04-10 2020-10-23 蓝海系统株式会社 记录管理系统和装置、文档审批和制作装置及方法、记录介质

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201510922A (zh) * 2013-09-10 2015-03-16 Ubic Inc 數位資訊分析系統、數位資訊分析方法及數位資訊分析程式
JP5572255B1 (ja) * 2013-10-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5876144B2 (ja) * 2014-02-04 2016-03-02 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5627820B1 (ja) * 2014-02-04 2014-11-19 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015118619A1 (ja) * 2014-02-04 2015-08-13 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015145524A1 (ja) * 2014-03-24 2015-10-01 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
WO2015173894A1 (ja) * 2014-05-13 2015-11-19 株式会社Ubic 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
US10095986B2 (en) * 2014-05-14 2018-10-09 Pegasus Transtech Llc System and method of electronically classifying transportation documents
KR101656405B1 (ko) * 2014-10-06 2016-09-09 김정철 승소 가능성 평가 장치 및 방법
WO2016063403A1 (ja) * 2014-10-23 2016-04-28 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
WO2016111007A1 (ja) * 2015-01-09 2016-07-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
JPWO2016189605A1 (ja) * 2015-05-22 2018-02-15 株式会社Ubic データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
US10657186B2 (en) 2015-05-29 2020-05-19 Dell Products, L.P. System and method for automatic document classification and grouping based on document topic
JP5946949B1 (ja) * 2015-12-07 2016-07-06 株式会社Ubic データ分析システム、その制御方法、プログラム、および、記録媒体
CN106919551B (zh) * 2015-12-28 2020-08-18 株式会社理光 一种情感词极性的分析方法、装置及设备
US11010423B2 (en) 2018-08-20 2021-05-18 Accenture Global Solutions Limited Populating data fields in electronic documents
JP6764973B1 (ja) * 2019-04-25 2020-10-07 みずほ情報総研株式会社 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
US11263249B2 (en) * 2019-05-31 2022-03-01 Kyndryl, Inc. Enhanced multi-workspace chatbot
JP2021077256A (ja) * 2019-11-13 2021-05-20 株式会社Fronteo 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム
CN111950253B (zh) * 2020-08-28 2023-12-08 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置
US11669704B2 (en) 2020-09-02 2023-06-06 Kyocera Document Solutions Inc. Document classification neural network and OCR-to-barcode conversion
US11809454B2 (en) 2020-11-21 2023-11-07 International Business Machines Corporation Label-based document classification using artificial intelligence
CN113449164B (zh) * 2021-05-15 2022-08-05 南方电网调峰调频发电有限公司信息通信分公司 一种移动办公用敏捷开发管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363899A (zh) * 2000-12-28 2002-08-14 松下电器产业株式会社 文本分类参数生成器和使用所生成参数的文本分类器
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
US20100332428A1 (en) * 2010-05-18 2010-12-30 Integro Inc. Electronic document classification

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016106A (ja) * 2001-06-29 2003-01-17 Fuji Xerox Co Ltd 関連度値算出装置
US20070198594A1 (en) * 2005-11-16 2007-08-23 Lunt Tracy T Transferring electronic file constituents contained in an electronic compound file using a forensic file copy
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100835290B1 (ko) * 2006-11-07 2008-06-05 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
KR100896702B1 (ko) * 2007-08-16 2009-05-14 한국과학기술원 신뢰도를 향상시킨 문서 구조 기반 군집 장치 및 방법
JP2009098811A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20100205020A1 (en) * 2009-02-09 2010-08-12 Losey Ralph C System and method for establishing, managing, and controlling the time, cost, and quality of information retrieval and production in electronic discovery
JP5387161B2 (ja) 2009-06-23 2014-01-15 富士ゼロックス株式会社 言語解析装置及びプログラム
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
JP5346841B2 (ja) 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP4868191B2 (ja) 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
CN101819601B (zh) * 2010-05-11 2012-02-08 同方知网(北京)技术有限公司 学术文献自动分类的方法
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8620918B1 (en) * 2011-02-01 2013-12-31 Google Inc. Contextual text interpretation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363899A (zh) * 2000-12-28 2002-08-14 松下电器产业株式会社 文本分类参数生成器和使用所生成参数的文本分类器
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
US20100332428A1 (en) * 2010-05-18 2010-12-30 Integro Inc. Electronic document classification

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106030570A (zh) * 2014-12-23 2016-10-12 微软技术许可有限责任公司 显现数据集间的关系
US11256687B2 (en) 2014-12-23 2022-02-22 Microsoft Technology Licensing, Llc Surfacing relationships between datasets
CN110096590A (zh) * 2019-03-19 2019-08-06 天津字节跳动科技有限公司 一种文档归类方法、装置、介质和电子设备
CN111814018A (zh) * 2019-04-10 2020-10-23 蓝海系统株式会社 记录管理系统和装置、文档审批和制作装置及方法、记录介质

Also Published As

Publication number Publication date
JP5567049B2 (ja) 2014-08-06
WO2013129548A1 (ja) 2013-09-06
US20170091321A1 (en) 2017-03-30
US10445357B2 (en) 2019-10-15
JP2013182338A (ja) 2013-09-12
EP2821927A1 (en) 2015-01-07
KR20140129212A (ko) 2014-11-06
US9552570B2 (en) 2017-01-24
KR20150142070A (ko) 2015-12-21
HK1204112A1 (zh) 2015-11-06
US20150149372A1 (en) 2015-05-28
EP2821927A4 (en) 2015-11-04
KR101658794B1 (ko) 2016-09-22
KR101582108B1 (ko) 2016-01-04
CN106447300A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN104160395A (zh) 文档分类系统、文档分类方法及文档分类程序
US7747495B2 (en) Business method using the automated processing of paper and unstructured electronic documents
TWI552103B (zh) File classification system and file classification method and file classification program
CA2772082C (en) Generating a reference set for use during document review
TW201415264A (zh) 取證系統、取證方法及取證程式
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
TW201421414A (zh) 文件管理系統及文件管理方法以及文件管理程式
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
TW201508525A (zh) 文件分類系統、文件分類方法及文件分類程式
TWI518631B (zh) File classification survey system, document classification survey method and file classification survey program
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
CN113918705A (zh) 带有预警和推荐功能的投稿审核方法及系统
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2014096086A (ja) 文書分類システムおよび方法
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
WO2015145524A1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP2015084244A (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1204112

Country of ref document: HK

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141119

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1204112

Country of ref document: HK