CN104718546B - 文档分析装置以及记录介质 - Google Patents
文档分析装置以及记录介质 Download PDFInfo
- Publication number
- CN104718546B CN104718546B CN201280076053.0A CN201280076053A CN104718546B CN 104718546 B CN104718546 B CN 104718546B CN 201280076053 A CN201280076053 A CN 201280076053A CN 104718546 B CN104718546 B CN 104718546B
- Authority
- CN
- China
- Prior art keywords
- word
- attribute
- classification
- document
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 155
- 238000003860 storage Methods 0.000 claims abstract description 110
- 238000000034 method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 128
- 238000000605 extraction Methods 0.000 description 64
- 238000012800 visualization Methods 0.000 description 32
- 239000006185 dispersion Substances 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000004382 visual function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
实施方式的文档分析装置具备取得单元、第1判定单元、第2判定单元以及提示单元。取得单元通过对文档存放单元中存放的多个文档所包含的文本进行解析,取得多个单词。第1判定单元按取得的每个单词,判定该单词与文档存放单元中存放的多个文档所具有的多个属性之中的由用户指定的至少两个属性分别有无相关。第2判定单元判定第1判定单元的判定结果与模式存放单元中存放的多个模式之中的由用户指定的模式是否一致。提示单元提示被判定为第1判定单元的判定结果与由用户指定的模式一致的单词。
Description
技术领域
本发明的实施方式涉及对被电子化的文档组进行分析的文档分析装置以及记录介质。
背景技术
近年来,随着信息系统的高度化,能够记录并保存大量的例如专利文献、新闻记事、网页或书籍等被电子化的文档(以下,简单记为文档)。因此,要求将这些储存的文档组有效活用于每天的业务。
作为文档组的有效活用的具体例,例如可以考虑通过将庞大的量的新闻记事进行分类而整理成众人容易利用,或通过将与当前研究开发的技术有关的专利文献进行分类而对本公司和其他公司的专利组的趋向进行分析并发现新的研究开发领域等。
也就是说,从信息的有效活用这一点来看,优选的是将大量的文档根据内容等进行分类(整理)。
在此,如上所述的文档例如有多个属性,该各个属性具有该属性的值(以下,记为属性值)。在文档例如是专利文献的情况下,该文档具有正文(例如,摘要)、申请人以及申请日等属性。此外,文档所具有的正文、申请人以及申请日这样的各个属性具有与该属性对应的属性值。另外,文档所具有的属性中,将如正文那样包含由单词构成的文本(文章整体中的字符串的集合体)的属性称为文本属性,将如申请人那样具有不连续的(非连续的)值(离散值)作为属性值的属性称为离散值属性,将如申请日那样具有不间断的连续的值作为属性值的属性称为连续值属性。像这样文档具有属性的情况下,该文档能够根据该属性的属性值(正文中出现的单词、作为申请人的企业以及申请日等)被分类为各类别。
现有技术文献
专利文献
专利文献1:特开2011-198111号公报
专利文献2:特开2010-061176号公报
发明概要
发明要解决的问题
然而,例如在分析将大量的文档的文本和与该文档相关联的多个属性进行组合的趋向的情况下,有时希望得到某文本的内容根据多个属性而有偏差地出现的见解。具体而言,在设文本为摘要文、离散值属性为申请人、连续值属性为申请日的专利的基准(Benchmark)分析中,有时希望知道与其他公司相比,本公司申请得显著多的期间或技术。
但是,特开2011-198111号中,不是进行考虑了上述那样的连续值及离散值等两个属性的特征语提取,而是进行根据一个属性的特征语提取。在属性为两个以上的情况下,由于将文本和两个属性组合起来分析,因此与属性为一个的情况相比,有更需要尝试的问题。
特开2010-61176号限定于单词与用户关注的日期等全部的属性有偏差的规则,有时不能获得符合用户的目的的见解。例如,假设用户希望知道在某特定的时期对产品共同地咨询多的内容(即,单词与日期的出现上存在偏差、但单词与咨询产品没有偏差的组合的模式)。但是,特开2010-61176号中,由于限定于与全部的属性有偏差的规则,因此无法对像这样没有单词的出现的偏差的情况下的属性的组合进行分析,无法获得符合用户的目的的见解。
发明内容
因此,本发明要解决的问题是提供能够高效地获得用户期望的见解的文档分析装置以及记录介质。
用于解决问题的手段
实施方式的文档分析装置具备文档存放单元、模式存放单元、取得单元、第1判定单元、第2判定单元以及提示单元。
所述文档存放单元存放有多个文档,该多个文档包含由多个单词构成的文本,并且该多个文档具有多个属性且包含该属性的属性值。
所述模式存放单元存放有多个模式,该多个模式表示单词与所述多个属性中的至少两个属性分别有无相关。
所述取得单元通过对所述文档存放单元中存放的多个文档所包含的文本进行解析,取得多个单词。
所述第1判定单元按所取得的每个所述单词,判定该单词与所述文档存放单元中存放的多个文档所具有的多个属性中的由用户指定的至少两个属性分别有无相关。
所述第2判定单元判定所述第1判定单元的判定结果与所述模式存放单元中存放的多个模式中的由所述用户指定的模式是否一致。
所述提示单元提示被判定为所述第1判定单元的判定结果与由所述用户指定的模式一致的单词。
附图说明
图1是示出实施方式的文档分析装置的硬件结构的框图。
图2是示出本实施方式的文档分析装置10的主要功能结构的框图。
图3是示出图2所示的文档存放部100中存放的文档的数据构造的一例的图。
图4是示出表示类别的层级构造中的根类别的类别信息的数据构造的一例的图。
图5是示出表示在类别的层级构造中位于根类别的下级的类别的类别信息的数据构造的一例的图。
图6是示出表示在类别的层级构造中位于图5所示的类别信息122所表示的类别的下级的类别的类别信息的数据构造的一例的图。
图7是示出表示在类别的层级构造中位于根类别的下级的类别的类别信息的数据构造的一例的图。
图8是示出表示在类别的层级构造中位于图7所示的类别信息124所表示的类别的下级的类别的类别信息的数据构造的一例的图。
图9是示出表示在类别的层级构造中位于图7所示的类别信息124所表示的类别的下级的类别的类别信息的数据构造的一例的图。
图10是示出本实施方式的文档分析装置10的处理步骤的流程图。
图11是示出类别显示画面的一例的图。
图12是用于说明用户指定各种信息时的画面的图。
图13是用于说明在模式指定栏150h中能够指定的模式的图。
图14是用于具体说明第1模式的图。
图15是用于具体说明第2模式的图。
图16是用于具体说明第3模式的图。
图17是用于具体说明第4模式的图。
图18是示出由单词模式判定处理部141执行的单词模式判定处理的处理步骤的流程图。
图19是用于说明对象单词与离散值属性的相关判定处理的图。
图20是示出由分析用单词提取部142执行的分析用单词提取处理的处理步骤的流程图。
图21是用于说明由分析用单词提取部142提取的单词的图。
图22是示出由交叉总计可视化部132执行的交叉总计结果显示处理的处理步骤的流程图。
图23是示出显示了由交叉总计可视化部132输出的视图列表的情况下的显示画面的一例的图。
图24是示出选择了单词“折射”的情况下的显示画面的一例的图。
图25是示出用曲线图表显示的交叉总计结果的一例的图。
图26是示出用数值显示的交叉总计结果的一例的图。
具体实施方式
以下,参照附图对实施方式进行说明。
图1是示出本实施方式的文档分析装置的硬件结构的框图。另外,文档分析装置作为用于实现该装置的各功能的硬件结构,或硬件与软件的组合结构而被实现。对软件而言,预先从存储介质或网络安装,由用于使文档分析装置实现其功能的程序构成。
如图1所示,文档分析装置10具备存储装置11、键盘12、鼠标12、中央运算装置14以及显示器15。
存储装置11是能够从中央运算装置14读出或写入的存储装置,例如是RAM(RandomAccess Memory)。存储装置11中预先存储有由中央运算装置14执行的程序(文档分析程序)。
键盘12以及鼠标13是输入装置,例如通过文档分析装置10的操作者(用户)的操作,将由数据或指令构成的各种信息输入至中央运算装置14。
中央运算装置14例如是CPU(处理器),具有执行存储在存储装置11中的程序的功能、基于从键盘12或鼠标13输入的信息对各处理的执行进行控制的功能、以及将执行结果向显示器15输出的功能。
显示器15是显示装置,具有例如将编辑中的各架构模型、特征模型等进行显示而可视化的功能。此外,显示器15具有将从中央运算装置14输出的信息进行显示的功能。
另外,文档分析装置10例如由适用了本实施方式的文档分析程序的计算机实现。
图2是示出本实施方式的文档分析装置10的主要功能结构的框图。
如图2所示,文档分析装置10包括文档存放部100、类别存放部110、模式存放部120、用户界面部130以及单词提取部140。另外,文档存放部100、类别存放部110以及模式存放部120例如存放于未图示的外部存储装置等。此外,用户界面130以及单词提取部140通过由文档分析装置10的计算机(中央运算装置14)执行存储在存储装置11中的文档分析程序来实现。
文档存放部100中存放有作为文档分析装置10的分析对象的多个文档。文档存放部100中存放的文档包括由多个单词构成的文本。此外,文档存放部100中存放的文档具有属性,包含该属性的属性值。
类别存放部110存放有表示文档存放部100中存放的多个文档被分类后而成的各个类别的类别信息(也就是说,该多个文档的分类结果)。具体而言,类别存放部110中例如存放有基于文档所具有的属性的属性值将文档存放部100中存放的多个文档进行分类而得到的结果。
模式存放部120中预先存放有多个模式,该多个模式表示单词与存放在文档存放部100中的多个文档所具有的属性中的例如两个属性有无相关。
另外,文档存放部100、类别存放部110以及模式存放部120例如使用文件系统或数据库等来实现。
用户界面部130是使用上述的键盘12、鼠标13以及显示器15实现的功能部,例如受理用户的输入信息或指示信息等。用户界面部130包括类别显示操作部131以及交叉总计可视化部132。
类别显示操作部131基于类别存放部110中存放的类别信息,将用于对用户提示该类别信息所示的类别以及该类别的层级构造的画面(以下,记为类别显示画面)显示在显示器15上。此外,类别显示操作部131受理用户对向用户提示的类别显示画面的操作(指定操作)。在该情况下,用户能够对类别显示画面指定在文档存放部100中存放的作为分析对象的文档(集合)、该文档所包含的文本、该文档所具有的例如两个属性(第1以及第2属性)以及表示单词与该两个属性分别有无相关的模式。另外,对模式而言,可从上述的模式存放部120中存放的多个模式中指定。
交叉总计可视化部132基于由用户指定的两个属性中的第一个属性(第1属性)的属性值,生成作为分析对象的文档被分类后而成的类别(第1类别)。此外,交叉总计可视化部132基于由用户指定的两个属性中的第二个属性(第2属性)的属性值,生成作为分析对象的文档被分类后而成的类别(第2类别)。
交叉总计可视化部32生成交叉总计结果,该交叉总计结果包含被分类为基于由用户指定的两个属性中的第一个属性的属性值而生成的类别以及基于第二个属性的属性值而生成的类别双方的文档的数量。
由交叉总计可视化部32生成的交叉总计结果与由后述的单词提取部140提取的单词一起例如显示于显示器15。由此,将由交叉总计可视化部32生成的交叉总计结果以及由单词提取部140提取的单词提示给用户。
单词提取部140包括单词模式判定处理部141以及分析用单词提取部142。
单词模式判定处理部141通过对由用户指定的作为分析对象的文档(文档存放部100中存放的多个文档)所包含的文本进行解析,来取得多个单词。
单词模式判定处理部141按所取得的每个所述单词,判定该单词与由用户指定的两个属性分别有无相关。单词模式判定处理部141判定判定结果与由用户指定的模式是否一致。单词模式判定处理部141提取判定结果与由用户指定的模式一致的单词。
分析用单词提取部142按由单词模式判定处理部141提取的每个单词,基于由用户指定的作为分析对象的文档中的该单词的出现频度,计算特征度。
此外,分析用单词提取部142按由单词模式判定处理部141提取的每个单词,计算基于该单词与该单词以外的由单词模式判定处理部141提取的单词的共现的关联度。
分析用单词提取部142从由单词模式判定处理部141提取的单词中,基于按每个该单词计算出的特征度以及关联度,提取要对用户提示的单词。
另外,由分析用单词提取部142提取的单词如上述那样由交叉总计可视化部132提示给用户。
图3示出图2所示的文档存放部100中存放的文档的数据构造的一例。如图2所示,文档存放部100中存放的文档具有多个属性。此外,文档存放部100中存放的文档按该文档所具有的每个属性将属性名以及属性值建立对应来包含。
文档名是该文档与文档的种类相应地具有的属性的名称。属性值是文档所具有的属性的值。
在此,图3示出与数码摄像机相关的专利文档的数据构造的一例。图3所示例中,在文档111中,作为该文档111所具有的属性的属性名,包括用于识别作为专利文档的文档111的文档号、作为该文档111的内容的标题以及正文、提出了与该文档111的内容相关的专利申请的申请人、该专利申请的申请日以及该专利的重要度。
此外,文档111中,例如与属性名“文档号”建立对应地包含属性值“d01”。由此,示出用于识别文档111的文档号为“d01”。在此,对属性名“文档号”(与属性名“文档号”建立对应的属性值)进行了说明,但文档111中,针对其他属性也同样与属性名建立对应地包含有属性值。另外,与属性名“标题”及“正文”建立对应地包含于文档111的属性值中包含有由多个单词构成的文本。图3所示的文档(专利文档)111的情况下,属性名为“正文”的属性的属性值中例如包含专利文档的摘要等。
在此,对文档111进行了说明,但文档存放部100中存放有多个文档(专利文档)。此外,文档存放部100中存放的文档也可以不具有上述的图3所示的文档111所具有的属性的全部,也可以具有其他属性。
另外,图3中虽然省略,但文档所具有的属性预先被决定了类型(该属性值的类型)。例如属性名为“标题”以及“正文”的属性那样该属性的属性值中包含文本的情况下,该属性名为“标题”以及“正文”的属性的类型为文本类型。此外,如属性名为“申请人”以及“专利的重要度”的属性那样该属性的属性值为不连续的值的属性的类型为离散值类型。进而,如属性名为“申请日”的属性那样该属性的属性值为连续的值的属性的类型为连续值类型。
图4~图9是示出图2所示的类别存放部110中存放的类别信息的数据构造的一例的图。类别存放部110中存放的类别信息表示文档存放部100中存放的文档被分类后而成的类别。另外,类别存放部110中存放的类别信息所表示的类别例如构成层级构造。另外,本实施方式中,预先制作文档存放部100中存放的文档被分类后而成的类别,将表示该类别的类别信息存放在类别存放部110中。此外,例如可以通过将文档存放部100中存放的多个文档进行聚类(clustering)来制作类别。
如图4~图9所示,类别信息中包含类别号、母类别号、类别名以及文档号。另外,如图6、图8以及图9所示,类别信息中根据需要也可以包含条件。
类别号是用于唯一地识别类别的识别符。母类别号表示用于识别在层级构造中位于由类别号识别的类别的上一层级的类别(母类别)的类别号。类别名表示由类别号识别的类别的名称。文档号表示用于识别被分类为由类别号识别的类别的文档的文档号。此外,条件表示被分类为由类别号识别的类别的文档应满足的条件。
另外,类别存放部110中存放的类别信息表示例如文档存放部100中存放的文档所包含的属性名或属性值单位的类别(也就是说,与属性名或属性值对应的类别)。
图4示出表示类别的层级构造中的根的类别(以下,记为根类别)的类别信息的数据构造的一例。
图4所示的例中,类别信息121中包含类别号“c01”、母类别号“(无)”,类别名“(根)”以及文档号“(无)”。根据该类别信息121,示出由类别号“c01”识别的根类别的类别名为“(根)”。另外,母类别号“(无)”示出在层级构造中不存在由类别号“c01”识别的类别(根类别)的母类别。此外,文档号“(无)”示出没有文档分类到由类别号“c01”识别的根类别。另外,关于以下说明的类别信息所包含的文档号“(无)”也同样,因此省略其说明。
图5示出表示在类别的层级构造中位于根类别的下级的类别的类别信息的数据构造的一例。
图5所示的例中,类别信息122中包含类别号“c02”、母类别号“c01”、类别名“按申请人区别(对应日语:出願人別)”以及文档号“(无)”。根据该类别信息122,示出了由类别号“c02”识别的类别的母类别为由母类别号“c01”识别的类别(也就是说,根类别)。此外,示出了由类别号“c02”识别的类别的类别名为“按申请人区别”。
另外,图5所示的类别信息122表示与文档存放部100中存放的文档所包含的属性名“申请人”对应的类别。
图6示出表示在类别的层级构造中位于由图5所示的类别信息122所表示的类别的下级的类别的类别信息的数据构造的一例。
图6所示的例中,类别信息123包含有类别号“c21”、母类别号“c02”、类别名“A公司”、文档号“d01、d15、d23、d36、……”以及条件“申请人=“A公司””。根据该类别信息123,示出了由类别号“c21”识别的类别的母类别为由母类别号“c02”识别的类别(也就是说,图5所示的类别信息122所表示的类别)。此外,示出了由类别号“c21”识别的类别的类别名为“A公司”。此外,示出了由类别号“c21”识别的类别中分类有满足条件“申请人=“A公司””的文档,也就是说由文档号“d01”、“d15”、“d23”以及“d36”等识别的文档。另外,条件“申请人=“A公司””表示文档包含“A公司”作为属性名“申请人”的属性值。
另外,图6所示的类别信息123表示与文档存放部100中存放的文档所包含的属性值“A公司”对应的类别。也就是说,图6所示的类别信息123所表示的类别是申请人为A公司的文档(专利文档)被分类的类别。
图7示出表示在类别的层级构造中位于根类别的下级的类别的类别信息的数据构造的一例。
图7所示的例中,类别信息124包含有类别号“c03”、母类别号“c01”、类别名“按专利的重要度区别”以及文档号“(无)”。根据该类别信息124,示出了由类别号“c03”识别的类别的母类别为由母类别号“c01”识别的类别(也就是说,根类别)。此外,示出了由类别号“c03”识别的类别的类别名为“按专利的重要度区别”。
另外,图7所示的类别信息124表示与文档存放部100中存放的文档所包含的属性名“专利的重要度”对应的类别。
图8示出表示在类别的层级构造中位于图7所示的类别信息124所表示的类别的下级的类别的类别信息的数据构造的一例。
图8所示的例中,类别信息125包含有类别号“c31”、母类别号“c03”、类别名“A”、文档号“d07、d23、d58,……”以及条件“专利的重要度=“A级””。根据该类别信息125,示出了由类别号“c31”识别的类别的母类别为由母类别号“c03”识别的类别(也就是说,由图7所示的类别信息124所表示的类别)。此外,示出了由类别号“c31”识别的类别的类别名为“A”。此外,示出了由类别号“c31”识别的类别中分类有满足条件“专利的重要度=“A级””的文档、即由文档号“d07”、“d23”以及“d58”等识别的文档。另外,条件“专利的重要度=“A级””表示文档包含“A级”作为属性名“专利的重要度”的属性值。
另外,图8所示的类别信息125表示与文档存放部100中存放的文档所包含的属性值“A级”对应的类别。也就是说,图8所示的类别信息125所表示的类别是专利的重要度被设定为A级的文档(专利文档)被分类后而成的类别。
图9示出表示在类别的层级构造中位于图7所示的类别信息124所表示的类别的下级的类别的类别信息的数据构造的一例。
图9所示的例中,类别信息126包含有类别号“c32”、母类别号“c03”、类别名“B”、文档号“d15、d32、d69、……”以及条件“专利的重要度=“B级””。根据该类别信息126,示出了由类别号“c32”识别的类别的母类别为由母类别号“c03”识别的类别(也就是说,图7所示的类别信息124所表示的类别)。此外,示出了由类别号“c32”识别的类别的类别名为“B”。此外,由类别号“c32”识别的类别中分类有满足条件“专利的重要度=“B级””的文档、即由文档号“d15”、“d32”以及“d69”等识别的文档。另外,条件“专利的重要度=“B级””表示文档包含“B级”作为属性名“专利的重要度”的属性值。
另外,图9所示的类别信息125表示与文档存放部100中存放的文档所包含的属性值“B级”对应的类别。也就是说,图9所示的类别信息126所表示的类别是专利的重要度被设定为B级的文档(专利文档)被分类后而成的类别。
接着,参照图10的流程图对本实施方式的文档分析装置10的处理步骤进行说明。
首先,文档分析装置10的用户界面部130所包含的类别显示操作部131基于类别存放部110中存放的类别信息,显示用于对用户提示构成层级构造的类别的类别显示画面(步骤S1)。在该情况下,基于类别存放部110中存放的类别信息所包含的类别号、类别名以及母类别号来显示构成层级构造的类别。
在此,图11示出类别显示画面的一例。图11所示的类别显示画面150中设有类别显示区域150a、标题显示区域150b以及正文显示区域150c。在类别显示区域150a以层级构造显示类别存放部110中存放的类别信息所表示的类别(的类别名)。图11所示的例中,在类别显示区域150a中,作为根类别的子类别(位于该根类别的下一层级的类别)而例如显示有“按申请人区别”类别以及“专利的重要度”类别。进而,在类别显示区域150a,作为“按申请人区别”类别的子类别(位于该“按申请人区别”类别的下一层级的类别)而显示有“A公司”类别、“B公司”类别、“C公司”类别以及“D公司”类别。在此,设类别显示区域150a中显示的例如“按申请人区别”类别是指类别名为“按申请人区别”的类别,关于其他类别也同样。此外,在以下的说明中也同样表述。
另外,图11所示的类别显示区域150a中显示的类别之中的“按申请人区别”类别以及“专利的重要度”类别是与文档存放部100中存放的文档所包含的属性名“申请人”以及“专利的重要度”对应的类别。此外,“A公司”类别、“B公司”类别、“C公司”类别以及“D公司”类别分别是与属性名为“申请人”的属性的属性值“A公司”、“B公司”、“C公司”以及“D公司”对应的类别。
此外,虽然图11所示的类别显示区域150a中没有显示,但如果在该类别显示区域150a中用户例如指定“专利的重要度”类别,则显示与属性名为“专利的重要度”的属性的属性值“A级”以及“B级”等对应的类别(也就是说,“专利的重要度”类别的子类别)。另外,在类别显示区域150中,为了方便显示有“按申请人区别”类别以及“专利的重要度”类别等,但关于与其他属性(例如,属性名为“申请日”的属性)对应的类别也同样显示。
在此,用户能够选择类别显示区域150a中显示的类别之中的例如一个。在标题显示区域150b中,显示被分类为类别显示区域150a中显示的类别之中的、由用户选择的类别的文档的标题(针对该文档所包含的属性名“标题”的属性值)的一览。图11所示的例中,选择了类别显示区域150a中显示的类别之中的“A公司”类别,在标题显示区域150b中显示有被分类为该“A公司”类别的文档的标题的一览。具体而言,在标题显示区域150b中,作为被分类为“A公司”类别的文档的标题而显示有“电子静物摄像机”、“图像处理装置以及数码摄像机”、“数码摄像机”以及“数码摄像机”。
此外,用户能够从标题显示区域150b中显示的文档的标题的一览中例如选择一个。在正文显示区域150c中,显示由用户从标题显示区域150b中显示的文档的标题的一览中选择的标题的文档的正文(属性名为“正文”的属性的属性值)。图11所示的例中,从标题显示区域150b中显示的文档的标题的一览中选择了“图像处理装置以及数码摄像机”,在正文显示区域150c中,显示有标题为该“图像处理装置以及数码摄像机”的文档的正文“脸部表情检测部检测被摄体图像中的被摄体人物的笑脸。”。
再次回到图10,用户通过由类别显示操作部131显示的类别显示画面(图11所示的画面),能够进行指定各种信息的操作。具体而言,用户进行以下操作,该操作为:指定作为文档分析装置10的分析对象的多个文档(以下,记为分析对象文档)、该分析对象文档的文本、希望与该文本组合而分析趋向的两个属性、表示单词与该两个属性分别有无相关的模式、以及基于该模式提取的单词的数量(以下,记为提取单词数量)。
类别显示操作部131在由用户进行了指定如上所述的各种信息的操作的情况下,受理该用户的指定操作(步骤S2)。
在此,参照图12说明用户指定各种信息时的画面。在该情况下,用户能够通过指定在类别显示画面150的类别显示区域150a中显示的类别来指定分析对象文档。另外,如图12所示,例如指定了根类别的情况下,分析对象文档中包含被分类为位于该根类别的下级的全部类别的文档。
此外,在用户指定各种信息的情况下,类别显示画面150中显示如图12所示的指定操作画面150d。在该指定操作画面150d中设有文本指定栏150e、属性1指定栏150f、属性2指定栏150g、模式指定栏150h、提取单词数量指定栏150i、执行按钮150j以及取消按钮150k。
在文本指定栏150e中,能够指定作为提取单词的对象的文本。在文本指定栏150e中,显示有分析对象文档所具有的属性且与包含文本的属性值对应的属性的属性名(在此,“标题”以及“正文”),能够从该属性名中选择至少一个。图12所示的例中,作为成为提取单词的对象的文本,指定了“标题”以及“正文”。在该情况下,被指定属性名为“标题”以及“正文”的属性的属性值所包含的文本。
在属性1指定栏150f以及属性2指定栏150g中,能够指定希望与在文本指定栏150e中指定的文本(分析对象文档中的文本)组合而分析趋向的两个属性。在属性1指定栏150f以及属性2指定栏150g中,显示有分析对象文档所具有的属性的属性名之中的、在上述的文本指定栏150e中显示的属性名以及文档号以外的属性名(在此,“申请人”、“申请日”以及“专利的重要度”),能够分别选择该属性名之中的一个。另外,在属性1指定栏150f中,例如选择类型为离散值类型的属性(以下,记为离散值属性)。另一方面,在属性值2指定栏150g中,例如选择类型为连续值类型的属性(以下,记为连续值属性)。在图12所示的例中,在属性1指定栏150f中指定了“申请人”、在属性2指定栏150g中指定了“申请日”。以下,将在属性1指定栏150f中指定的属性称为第1属性,将在属性2的指定栏150g中指定的属性称为第2属性。另外,在此,设作为第1属性而指定离散值属性、作为第2属性而指定连续值属性而进行了说明,但例如也可以作为第1及第2属性而指定离散值属性,也可以作为该第1以及第2属性而指定连续值属性。
在模式指定栏150h中,能够从上述的模式存放部120中存放的多个模式中指定用户希望得到见解的模式(表示单词与第1及第2属性的各个属性有无相关的模式)。
在此,参照图13说明在模式指定栏150h中能够指定的模式(也就是说,模式存放部120中存放的多个模式)。
如图13所示,表示单词与第1及第2属性的各个属性有无相关的模式包括第1~第4模式。以下,分别说明第1~第5模式。
首先,第1模式是表示单词与第1属性(例如,离散值属性)有相关、该单词与第2属性(例如,连续值属性)有相关的模式。另外,将与第1属性有相关、与第2属性有相关的单词称为与第1模式一致的单词。
在此,使用图14具体说明第1模式如下:与第1模式一致的单词X是表示例如在第1属性的属性名为作为“申请人”的属性(以下,记为“申请人”属性)、第2属性的属性名为作为“申请日”的属性(以下,记为“申请日”属性)的情况下,特定的申请人在特定的时期申请的技术(内容)的单词。
第2模式是表示单词与第1属性有相关、该单词与第2属性没有相关的模式。另外,将与第1属性有相关、与第2属性没有相关的单词称为与第2模式一致的单词。
在此,使用图15具体说明第2模式如下:与第2模式一致的单词X是表示例如在第1属性为“申请人”属性、第2属性为“申请日”属性的情况下,特定的申请人与时期无关地申请的技术(内容)的单词。
第3模式是表示单词与第1属性没有相关、该单词与第2属性有相关的模式。另外,将与第1属性没有相关、与第2属性有相关的单词称为与第3模式一致的单词。
在此,使用图16具体说明第3模式如下:与第3模式一致的单词X是表示例如在第1属性为“申请人”属性、第2属性为“申请日”属性的情况下,各申请人在特定的时期申请的技术(内容)的单词。
另外,在上述的第1~第3模式中,单词、第1属性以及第2属性的相关可以有也可以没有。
第4模式是表示单词与第1属性没有相关、进而该单词与第2属性没有相关、但该单词、第1属性以及第2属性有相关的模式。另外,将与第1属性没有相关、与第2属性也没有相关、与第1属性及第2属性有相关的单词称为与第4模式一致的单词。
在此,使用图17具体说明第4模式如下:与第4模式一致的单词X是表示例如在第1属性为“申请人”属性、第2属性为“申请日”属性的情况下,各申请人在各自的时期申请的技术(内容)的单词。
另外,表示单词与第1以及第2属性的各个属性有无相关的模式中,除了上述的第1~第4模式以外,还有第5模式。该第5模式是表示单词与第1属性没有相关、该单词与第2属性没有相关、进而该单词、第1属性以及第2属性也没有相关的模式。另外,由于如第5模式那样全部没有相关的单词在文档的分析中并不是有用的,因此如上述的图12所示的模式指定栏150h那样,第5模式不会被用户指定。换言之,在模式指定栏150h中,能够指定上述的第1~第4模式(图12所示的模式指定栏150h中,简单记为1~4)。图12所示的例中,作为模式而指定了“模式2(也就是说,第2模式)”。
另外,图12所示的例中,用序号显示了模式,但例如也可以将能够概念性地识别如图14~图17所示的各模式的图像(也就是说,表示通过各模式得到的见解的例的图像)预先存放在模式存放部120中,显示该图像。
在提取单词数量指定栏150i中,能够指定与上述的由用户指定的模式一致的单词之中的作为要对用户提示的单词来提取的单词的数量(提取单词数量)。在提取单词数量指定栏150h中,作为提取单词数量而例如显示有“5”、“10”、“20”、“30”以及“40”,作为该提取单词数量而被指定了“5”。
在上述的各栏150e~150i分别进行指定操作之后,例如使用鼠标13等指定(按下)了设置在指定操作画面150d中的执行按钮150j的情况下,执行后述的单词模式判定处理。另一方面,在使用鼠标13等指定(按下)了设置在指定操作画面150d中的取消按钮150k的情况下,例如各栏150e~150i中进行的指定操作变为无效,回到图11所示的类别显示画面。
再次回到图10,若由类别显示操作部131受理用户的指定操作,则单词提取部140所包含的单词模式判定处理部141执行单词模式判定处理(步骤S3)。通过该单词模式判定处理,从由用户指定的分析对象文档的各个文本所包含的多个单词之中,提取与由该用户指定的模式一致的单词(表示对分析有用的文本的内容的单词)。另外,关于单词模式判定处理部141的详细情况,留待后述。
接着,分析用单词提取部142执行分析用单词提取处理(步骤S4)。通过该分析用单词提取处理,对由单词提取部140提取的各个单词进行加权,该加权的结果是,提取出上级单词。在此,提取出上述的由用户指定为单词提取数量的数量的单词。另外,关于分析用单词提取处理的详细情况,留待后述。
用户界面部130所包含的交叉总计可视化部132执行交叉总计结果显示处理(步骤S5)。通过该交叉总计结果显示处理,将基于如后述那样由用户指定的第1属性的属性值而生成的类别和基于第2属性的属性值而生成的类别进行交叉总计后的结果(交叉总计结果)、以及由分析用单词提取部142提取的单词的列表进行可视化而提示(显示)。另外,关于交叉总计结果显示处理的详细情况,留待后述。
接着,参照图18的流程图详细说明上述的单词模式判定处理(图10所示的步骤S3的处理)的处理步骤。另外,单词模式判定处理由单词提取部140所包含的单词模式判定处理部141执行。
以下,将如上所述经由类别显示画面由用户指定的文本以及模式分别称为指定文本以及指定模式。
首先,单词模式判定处理部141对通过单词模式判定处理得到的提取结果的列表进行初始化(步骤S11)。
单词模式判定处理部141取得由用户指定的(各个)分析对象文档所包含的指定文本。例如作为指定文本而指定了标题以及正文的情况下,取得各个分析对象文档分别所包含的“标题”属性以及“正文”属性的属性值所包含的文本。单词模式判定处理部141对所取得的指定文本进行词素解析(步骤S12)。单词模式判定处理部141基于词素解析结果,取得词素(以下记为单词)的集合。在此,由单词模式判定处理部141取得的单词的集合中例如包含词类为名词、动词以及形容词等独立词。
接着,针对由单词模式判定部141取得的各个单词,执行以下的步骤S13~S20的处理。
在该情况下,单词模式判定处理部141从基于词素解析结果取得的单词的集合中取得一个单词(步骤S13)。以下,将在该步骤S13中取得的单词称为对象单词。
单词模式判定处理部141判定对象单词与第1属性的相关(步骤S14)。换言之,单词模式判定处理部141判定对象单词与第1属性有无相关(也就是说,是否有相关)。
在此,详细说明对象单词与第1属性的相关的判定处理。对象单词与第1属性的相关的判定处理根据该第1属性是离散值属性还是连续值属性而不同。另外,基于上述的该第1属性的类型来判别第1属性是离散值属性还是连续值属性。
首先,说明第1属性是离散值属性的情况下的对象单词与第1属性的相关的判定处理(以下,记为对象单词与离散值属性的相关判定处理)。
在对象单词与离散值属性的相关判定处理中,以已分类的离散值属性的类别为对象,判定特定的离散值(也就是说,离散值属性的属性值)中对象单词的出现概率的偏差在统计上是否显著。具体而言,如图19所示,比较单词“笑脸”的各申请人的出现概率可知,特定的申请人(在此为A公司)的申请概率与其他申请人的出现概率相比显著有偏差。在该情况下,判定为单词“笑脸”与离散值属性(第1属性)有相关。
作为对这样的集合间的出现概率的偏差的显著性进行判定的方法,有分散分析。因而,在上述的对象单词与离散值属性的相关判定处理中,使用分散分析。
以下,具体说明使用了分散分析的对象单词与离散值属性的相关判定处理。
在此,将离散值属性(的各属性值)的类别的集合设为disC1、disC2、……、disCa。另外,离散值属性的类别的集合是指基于该离散值属性的属性值而分析对象文档被分类后而成的多个类别的集合。具体而言,在离散值属性为“申请人”属性的情况下,离散值属性的类别的集合包括分析对象文档之中的、作为“申请人”属性的属性值而包含“A公司”的文档被分类后而成的类别、作为“申请人”属性的属性值而包含“B公司”的文档被分类后而成的类别、作为“申请人”属性的属性值而包含“C公司”的文档被分类后而成的类别等。另外,假设上述的disC1、disC2、……、disCa处于排他关系。
此外,设离散值属性的类别数量为a、分析对象文档集合为D、该分析对象文档集合中的文档数量为|D|。
在该情况下,基于以下的式(1)来计算总平方和St。
【数式1】
st=df(t,D)-CT 式(1)
另外,该式(1)中,df(t,D)表示分析对象文档集合D中的在指定文本中包含对象单词t的文档的数量。此外,式(1)中的CT由以下的式(2)定义。
【数式2】
接着,基于以下的式(3)计算组间平方和(针对整体集合的离散值属性的每个属性值下的出现概率的偏差的平方和)Sa。
【数式3】
另外,该式(3)中,df(t,disCi)是表示被分类为离散值属性的类别disCi的文档之中的在指定文本中包含对象单词t的文档的数量。此外,式(3)中,|disCi|表示被分类为离散值属性的类别disCi的文档的数量。
此外,基于以下的式(4)来计算组间平方和的自由度φa。
【数式4】
φa=a-1 式(4)
接着,将基于上述的式(1)以及式(3)计算出的总平方和St以及组间平方和Sa代入到以下的式(5),从而计算出误差变动和Se。
【数式5】
se=st-sa 式(5)
此外,基于以下的式(6)计算误差变动和的自由度φe。
【数式6】
φe=|D|-a 式(6)
进而,将基于上述的式(3)以及式(4)计算出的组间平方和Sa以及该组间平方和的自由度φa代入到以下的式(7),从而计算组间的分散Va。
【数式7】
va=sa/φa 式(7)
此外,将基于上述的式(5)以及式(6)计算出的误差变动和Se以及该误差变动和的自由度φe代入到以下的式(8),从而计算误差的分散Ve。
【数式8】
ve=se/φe 式(8)
最后,将基于上述的式(7)以及式(8)计算的组间的分散Va以及误差的分散Ve代入到以下的式(9),从而计算分散比Fa。
【数式9】
Fa=va/ve 式(9)
在上述的对象单词与离散值属性的相关判定处理中,若通过式(9)计算出的分散比Fa大于通过式(4)计算出的组间平方和的自由度φa、通过式(6)计算出的误差变动和的自由度φe的F分布的值,则判定为在离散值属性(的类别)之间,对象单词的出现概率的偏差显著,也就是说对象单词与离散值属性(第1属性)有相关。另外,自由度φa、自由度φe的F分布的值既可以例如从在文档分析装置10中预先准备的F分布表取得,也可以通过计算来算出。
接着,说明第1属性为连续值属性的情况下的对象单词与第1属性的相关的判定处理(以下,记为对象单词与连续值属性的相关判定处理)。
在对象单词与连续值属性的相关判定处理中,判定连续值的特定范围中的单词的出现概率与其他连续值的范围相比在统计上是否显著。
另外,连续值属性的属性值(连续值)与上述的离散值属性的属性值(离散值)不同,没有数据的间断,无法机械地求出特定范围的出现概率。因此,在本实施方式中使用直方图。直方图是将存在连续值的范围划分为几个区间并在该各区间对相应的数据的出现频度进行计数并图表化而得到的。为了描绘直方图,需要求出区间的数量(以下,记为级数)和区间的宽度(以下,记为层级宽度)。在此,例如使用史特吉斯公式(Sturges'formula)求出级数以及层级宽度。
根据史特吉斯公式,基于以下的式(10)来计算级数k。
【数式10】
k=1+log2|D| 式(10)
另外,式(10)中,|D|表示分析对象文档的数量。此外,关于层级宽度h,使用基于上述的式(10)而计算出的级数k基于以下的式(11)来计算。
【数式11】
在此,将连续值属性(的各属性值)的类别的集合设为cv1、cv2、……、cvD。在该情况下,式(11)中的max(cv)表示连续值属性的属性值(也就是说,连续值)的最大值。另一方面,式(11)中的min(cv)表示连续值属性的属性值(也就是说,连续值)的最小值。
对象单词与连续值属性的相关判定处理中,如上所述地求出直方图之后,通过与上述的对象单词与离散值属性的相关判定处理相同的处理来判定基于式(11)计算出的层级宽度h中的单词的出现概率的偏差的显著性。
具体而言,使用层级宽度h以及第1属性的属性值生成连续值属性的类别的集合(连续值的每个层级宽度h的集合),将该生成的连续值属性的类别的集合作为离散值属性的类别的集合而执行与上述的对象单词与离散值属性的相关判定处理相同的处理。由此,判定对象单词与连续值属性(第1属性)有无相关。另外,连续值属性的类别的集合包括例如从连续值属性的属性值的最小值起每隔层级宽度h生成的、与该各层级宽度h相应的文档(分析对象文档)被分类后而成的类别。此外,与层级宽度h相应的文档是指在连续值属性例如为“申请日”属性的情况下,在该层级宽度h的期间申请的文档(也就是说,在该层级宽度h的期间内将相应的申请日作为“申请日”属性的属性值来包含的文档)。
另外,如上述的图12中说明的那样作为第1属性而例如指定了“申请人”属性的情况下,在步骤S14中执行上述的对象单词与离散值属性的相关判定处理。
像这样,在执行了对象单词与第1属性的相关判定处理的情况下,单词模式判定处理部141判定该判定结果(也就是说,对象单词与第1属性有无相关)是否与指定模式一致(步骤S15)。
在此,设想指定模式为上述的第2模式(也就是说,表示单词与第1属性有相关、该单词与第2属性没有相关的模式)的情况。由于根据第2模式表示单词与第1属性有相关,因此在步骤S14中的判定结果为“对象单词与第1属性有相关”的情况下,判定为该判定结果与指定模式一致。另一方面,在步骤S14中的判定结果为“对象单词与第1属性没有相关”的情况下,判定为该判定结果与指定模式不一致。在此,对第2模式进行了说明,但关于其他模式也同样。
在判定为步骤S14中的判定结果与指定模式不一致的情况下(步骤S15的否),执行后述的步骤S21的处理。
另一方面,在判定为步骤S14中的判定结果与指定模式一致的情况下(步骤S15的是),单词模式判定处理部141判定对象单词与第2属性的相关(步骤S16)。另外,关于该对象单词与第2属性的相关判定处理,与上述的步骤S14的处理相同,因此省略其详细的说明。
另外,在如上述的图12中说明的那样作为第2属性而例如指定了“申请日”属性的情况下,在步骤S16中执行上述的对象单词与连续值属性的相关判定处理。
接着,单词模式判定处理部141判定步骤S16中的判定结果(也就是说,对象单词与第2属性有无相关)是否与指定模式一致(步骤S17)。
在此,设想如上所述指定模式表示第2模式(也就是说,表示单词与第1属性有相关,该单词与第2属性没有相关的模式)的情况。由于根据第2模式表示单词与第2属性没有相关,因此在步骤S16中的判定结果为“对象单词与第2属性有相关”的情况下,判定为该判定结果与指定模式不一致。另一方面,在判定为步骤S14中的判定结果为“对象单词与第2属性没有相关”的情况下,判定为该判定结果与指定模式一致。
在判定为步骤S16中的判定结果与指定模式不一致的情况下(步骤S17的否),执行后述的步骤S21的处理。
另一方面,在判定为步骤S16中的判定结果与指定模式一致的情况下(步骤S17的是),单词模式判定处理部141判定对象单词在第1属性及第2属性下是否有偏差地出现,也就是说判定对象单词、第1属性以及第2属性的相关(步骤S18)。换言之,单词模式判定处理部141判定对象单词、第1属性以及第2属性有无相关(也就是说,是否有相关)。
在此,详细说明对象单词、第1属性以及第2属性的相关判定处理。
在对象单词、第1属性以及第2属性的相关判定处理中,判定将第1属性的属性值(例如,离散值)以及第2属性的属性值(例如,连续值)进行组合后的各文档集合(包含该第1属性的各个属性值以及该第2属性的各个属性值文档的集合)中的对象单词的出现概率的偏差在统计上是否显著。
作为判定这样的将两个属性进行组合的偏差的方法,有二维配置分散分析。因而,在上述的对象单词、第1属性以及第2属性的相关判定处理中使用二维配置分散分析。
以下,具体说明使用二维配置分散分析的对象单词、第1属性以及第2属性的相关判定处理。在此,设第1属性为离散值属性、第2属性为连续值属性来进行说明。
另外,设上述的离散值属性(第1属性)的类别的集合为disC1、disC2、……、disCa,该离散值属性的类别的数量为a。此外,设上述的连续值属性(第2属性)的类别的集合(连续值的每个层级宽度的集合)为conC1、conC2、……、conCb,该连续值属性的类别的数量为b。此外,设分析对象文档集合为D,该分析对象文档集合中的文档数量为|D|。
在该情况下,基于以下的式(12)计算总平方和St。
【数式12】
st=df(t,D)-CT 式(12)
另外,该式(12)中,df(t,D)表示分析对象文档集合D中的在指定文本中包含对象单词t的文档的数量。此外,式(12)中的CT由以下的式(13)定义。
【数式13】
该式(13)中的n由以下的式(14)定义。
【数式14】
接着,基于以下的式(15)计算离散值间平方和Sa。
【数式15】
另外,该式(15)中,df(t,disCi)表示被分类为离散值属性的类别disCi后的文档之中的在指定文本中包含对象单词t的文档的数量。此外,式(15)中,|disCi|表示被分类为离散值属性的类别disCi后的文档的数量。
此外,基于以下的式(16)计算连续值的层级宽度间平方和Sb。
【数式16】
另外,该式(16)中,df(t,conCi)表示被分类为连续值属性的类别conCi后的文档之中的在指定文本中包含对象单词t的文档的数量。此外,式(15)中,|conCi|表示被分类为连续值属性的类别conCi后的文档的数量。
接着,基于以下的式(17)计算将离散值和连续值的层级宽度进行组合的集合间的平方和Sab。
【数式17】
另外,该式(17)中,df(t,(disCi,conCi)表示被分类为离散值属性的类别disCi以及连续值属性的类别conCi双方的文档之中的在指定文本中包含对象单词t的文档的数量。此外,式(17)中,|disCi∧conCi|表示被分类为离散值属性的类别disCi以及连续值属性的类别conCi双方的文档的数量。
此外,基于以下的式(18)计算将离散值和连续值的层级宽度进行组合的集合间的平方和的自由度φab。
【数式18】
φob=(a-1)(b-1) 式(18)
另外,该式(18)中的(a-1)是上述的离散值间平方和的自由度φa,(b-1)是上述的连续值的层级宽度间平方和的自由度φb。
接着,将上述的基于式(12)计算出的总平方和St、基于式(15)计算出的离散值间平方和Sa、基于式(16)计算出的连续值的层级宽度间平方和Sb以及基于式(17)计算出的将离散值和连续值的层级宽度进行组合的集合间的平方和Sab代入到以下的式(19)中,从而计算误差变动和Se。
【数式19】
se=st-sa-sb-sab 式(19)
此外,基于以下的式(20)计算误差变动和的自由度φe。
【数式20】
φe=ab(n-1) 式(20)
接着,将上述的基于式(17)以及式(18)计算出的将离散值和连续值的层级宽度进行组合的集合间的平方和Sab及其自由度φab代入到以下的式(21),从而计算组间的分散Vab。
【数式21】
vab=sab/φab 式(21)
进而,将上述的基于式(19)以及式(20)计算出的误差变动和Se及其自由度φe代入到以下的式(22),从而计算误差的分散Ve。
【数式22】
vc=se/φe 式(22)
最后,将上述的基于式(20)以及式(21)计算出的组间的分散Vab以及误差的分散Ve代入到以下的式(23),从而计算分散比Fab。
【数式23】
Fab=Vab/Ve 式(22)
在上述的使用二维配置分散分析的对象单词、第1属性(离散值属性)、以及第2属性(连续值属性)的相关判定处理中,若通过式(23)计算出的分散比Fab大于通过式(18)计算的自由度φab、通过式(20)计算出的自由度φe的F分布的值,则判定为在将第1属性(离散值)以及第2属性(连续值的层级宽度)组合的集合间,单词的出现概率的偏差显著,也就是说,对象单词、第1属性以及第2属性有相关。另外,自由度φab、自由度φe的F分布的值既可以从在如上所述例如在文档分析装置10中预先准备的F分布表取得,也可以通过计算来求出。
在执行了上述的对象单词、第1属性以及第2属性的相关判定处理的情况下,单词模式判定处理部141判定该判定结果(也就是说,对象单词、第1属性以及第2属性有无相关)是否与指定模式一致(步骤S19)。
在此,设想指定模式与上述的第4模式(也就是说,表示单词与第1属性没有相关、进而该单词与第2属性没有相关、但该单词、第1属性与第2属性有相关的模式)的情况。由于根据第4模式表示单词、第1属性以及第2属性有相关,因此在步骤S18中的判定结果为“对象单词、第1属性以及第2属性有相关”的情况下,判定为该判定结果与指定模式一致。另一方面,在步骤S18中的判定结果为“对象单词、第1属性以及第2属性没有相关”的情况下,判定为该判定结果与指定模式不一致。
另外,在此对第4模式进行了说明,但在如上所述的第1~第3模式中,对象单词、第1属性以及第2属性的相关既可以有也可以没有。因此,在指定模式为第1~第3模式的情况下,可以与步骤S18的判定结果无关地判定为与指定模式一致,例如也可以构成为将步骤S18以及S19的处理省略。在将步骤S18以及S19的处理省略的情况下,在判定为步骤S17中判定结果与指定模式一致之后,执行后述的步骤S20的处理即可。
在判定为步骤S18中的判定结果与指定模式不一致的情况下(步骤S19的否),执行后述的步骤S21的处理。
另一方面,在判定为步骤S18中的判定结果与指定模式一致的情况下(步骤S19的是),单词模式判定处理部141将对象单词追加(登记)到列表中(步骤S20)。另外,在此追加到列表的单词是与第1以及第2属性各自的相关与指定模式一致的单词。
接着,单词模式判定处理部141判定是否对由该单词模式判定处理部141取得的全部的单词(通过对分析对象文档所包含的指定文本进行词素解析而取得的单词)执行了上述的步骤S13~S20的处理(步骤S21)。
在判定为没有对全部的单词执行了处理的情况下(步骤S21的否),回到上述的步骤S13重复进行处理。
另一方面,在判定为对全部的单词执行了处理的情况下(步骤S21的是),单词模式判定处理部141对分析用单词提取部142输出列表(步骤S22)。
像这样,在单词模式判定处理中,从通过对分析对象文档所包含的指定文本进行词素解析而取得的多个单词中提取与指定模式一致的单词的集合。具体而言,例如在指定模式为上述的第2模式的情况下,提取与第1属性(作为离散值属性的“申请人”属性)有相关、与第2属性(作为连续值属性的“申请日”属性)没有相关的单词。
另外,在上述的单词模式判定处理中,通过对与第1属性的相关、与第2属性的相关以及与第1属性及第2属性的相关分别进行判定,例如在与第1属性的相关判定结果与指定模式不一致的情况下,不需要执行对对象单词的以后的判定处理。因此,根据本实施方式中的单词模式判定处理,与在判定全部的相关之后判定是否与指定模式一致的情况相比,能够使处理高速化。
接着,参照图20的流程图详细说明上述的分析用单词提取处理(图10所示的步骤S4的处理)的处理步骤。另外,分析用单词提取处理由单词提取部140所包含的分析用单词提取部142执行。
分析用单词提取处理中,分析用单词提取部142对由单词模式判定处理部141输出的列表(以下,记为分析用单词列表)中登记的各个单词,执行以下的步骤S31~步骤S37的处理。
在该情况下,分析用单词提取部142取得登记在分析用单词列表中的一个单词(步骤S31)。以下,假设分析用单词列表中登记有n个单词,在该步骤S31中取得的单词称为单词ti(i=1、2、……、n)。
分析用单词提取部142基于分析对象文档的指定文本中的单词ti的出现频度,计算表示指定文本的内容的单词ti的特征度(步骤S32)。
在此,具体说明单词ti的特征度的计算处理。在此,假设单词ti的特征度例如通过TF-IDF来计算。TF-IDF是用于提取表示文本的内容的单词的代表性的方法,将在文档中频繁出现、且在整体的文档集合中几乎不出现的单词视为特征性的单词。TF-IDF中有多种数式,在此作为代表性的数式,通过以下的式(24)计算。
【数式24】
tfidf(ti)=tf(ti)·idf(ti) 式(24)
另外,式(24)中的tf(ti)由以下的式(25)定义。
【数式25】
该式(25)中的tf(ti,D)表示分析对象文档集合D的指定文本中包含的单词ti的数量。此外,df(ti,D)表示分析对象文档集合D中的在指定文本中包含单词ti的文档的数量。
此外,式(24)中的idf(ti)由以下的式(26)定义。另外,式(25)中的|D|是分析对象文档集合D中的文档数量。
【数式26】
接着,分析用单词提取部142对登记在分析用单词列表中的各个单词,执行以下的步骤S33~S35的处理。
在该情况下,分析用单词提取部142取得一个登记在分析用单词列表中的单词(步骤S33)。以下,将在该步骤S33中取得的单词称为单词tj(j=1、2、……、n)。
分析用单词提取部142判定上述的单词ti与单词tj是否不同(也就是说,ti≠tj)(步骤S34)。
在判定为单词ti与单词tj并非不同(也就是说,单词ti与单词tj相同)的情况下(步骤S34的否),不执行步骤S35的处理,而执行后述的步骤S36的处理。
另一方面,在判定为单词ti与单词tj不同的情况下(步骤S34的是),分析用单词提取部142计算基于单词ti与单词tj的共现的关联度(步骤S35)。
另外,基于单词ti与单词tj的共现的关联度,基于多个单词彼此在统计上显著地相互共现地出现、并且与其他单词几乎不共现地出现的单词是在分析对象文档集合中表示指定文本的内容的单词这一情况。只要是利用单词的共现的方法即可,不受特别限定,例如可以利用相互信息量、Dice系数、自相互信息量等,但本实施方式中对使用相互信息量的情况进行说明。
此外,指定文本由多个单词来表现,认为与相同模式一致的单词彼此的共现是有意义的。因此,本实施方式中,设作为与单词ti的共现的对象的单词(也就是说,计算基于与单词ti的共现的关联度的单词)是和与该单词ti相同模式一致的单词,也就是说是如上所述登记在分析用单词列表中的单词(单词tj)。
以下,具体说明基于单词ti与单词tj的共现的关联度(相互信息量)的计算处理。
在基于该单词ti与单词tj的共现的关联度的计算处理中,判定单词tj的与单词ti的共现频度通过x平方检验在统计上是否显著。在基于单词ti与单词tj的共现的关联度的计算处理中,仅针对判定为与单词ti的共现频度通过x平方检验在统计上显著的单词tj计算关联度。也就是说,针对判定为与单词ti的共现频度通过x平方检验在统计上不显著的单词tj不计算关联度。
根据x平方检验,例如0.5%显著水平下的x平方分布的值大于7.88时,判定为在统计上显著。关于该x平方检验所使用的x平方值,基于以下的式(27)计算。
【数式27】
另外,式(27)中,a1是df(ti,D),表示分析对象文档集合D中的在指定文本中包含单词ti的文档的数量(也就是说,单词ti在分析对象文档集合D中的频度)。
b1是df(tj,D),表示分析对象文档集合D中的在指定文本中包含单词tj的文档的数量(也就是说,单词tj在分析对象文档集合D中的频度)。
a2是|D|-df(ti,D),表示分析对象文档集合D中的在指定文本中不包含单词ti的文档的数量(也就是说,不包含单词ti的文档的频度)。
b2是|D|-df(tj,D),表示分析对象文档集合D中的在指定文本中不包含单词tj的文档的数量(也就是说,不包含单词tj的文档的频度)。
x11是df((ti、tj),D),表示分析对象文档集合D中的在指定文本中包含单词ti以及单词tj的文档的数量(也就是说,单词ti以及单词tj的共现频度)。
x12是a1-x11,表示分析对象文档集合D中的在指定文本中包含单词ti的文档集合中的不包含单词ti以及单词tj的文档的数量(也就是说,单词ti的集合中的不包含x11的文档的频度)。
x21是b1-x11,表示分析对象文档集合D中的在指定文本中包含单词tj的文档集合中的不包含单词ti以及单词tj的文档的数量(也就是说,单词tj的集合中的不包含x11的文档的频度)。
x22是a2-x22,表示分析对象文档集合D中的在指定文本中不包含单词ti的文档集合中的不包含x21的文档集合的文档的数量(也就是说,不包含单词tj的集合中的不包含x21的文档的频度)。
在通过上述的x平方检验判定为单词tj在统计上显著的情况下,基于以下的式(28)计算单词ti与单词tj的相互信息量mi(ti)。
【数式28】
接着,分析用单词提取部142判定是否对登记在分析用单词列表中的全部的单词执行了上述的步骤S33~S35的处理(步骤S36)。
在判定为没有对登记在分析用单词列表中的全部的单词执行了处理的情况下(步骤S36的否),回到上述的步骤S33重复进行处理。
另一方面,在判定为对登记在分析用单词列表中的全部的单词执行了处理的情况下(步骤S36的是),将在上述的步骤S32中计算出的特征度以及通过步骤S35计算出的全部的关联度(也就是说,与单词ti的共现频度通过x平方检验被判定为在统计上显著的各个单词tj与单词ti的关联度)之和作为单词ti的加权(步骤S37)。另外,优选的是,将特征度以及关联度分别标准化之后相加。
接着,分析用单词提取部142判定是否对登记在分析用单词列表中的全部的单词执行了上述的步骤S31~S37的处理(步骤S38)。
在判定为没有对登记在分析用单词列表中的全部的单词执行了处理的情况下(步骤S38的否),回到上述的步骤S31重复进行处理。
另一方面,在判定为对登记在分析用单词列表中的全部的单词执行了处理的情况下(步骤S38的是),处于对登记在该分析用单词列表中的全部的单词附加加权的状态。
在该情况下,分析用单词提取部142将登记在分析用单词列表中的单词按该单词的加权顺序排序(步骤S39)。
分析用单词提取部142将排序后的单词中的加权为上级的单词输出给用户界面部130所包含的交叉总计可视化部132(步骤S40)。在该情况下,分析用单词提取部142输出由用户指定为提取单词数量的数量的单词。
像这样在分析用单词提取处理中,对由单词模式判定处理部141提取的各个单词(登记在分析用单词列表中的单词)进行加权,从该单词中提取并输出该加权高的单词(也就是说,对模式中的分析有用的单词)。另外,由分析用单词提取部142输出的单词由交叉总计可视化部132提示给用户。
也就是说,在本实施方式中,由单词模式判定处理部141提取的单词(判定为与指定模式一致的单词)基于按每个该单词计算出的特征语以及关联度(也就是说,该单词的加权)被提示给用户。
此外,在本实施方式中,如上所述关于通过x平方检验判定为在统计上不显著的单词tj不计算关联度,因此与对这样的单词tj计算关联度的情况相比,能够进行更适当的加权。
在此,参照图21说明由分析用单词提取部142提取(输出)的单词。
图21所示的分析用单词列表201是执行分析用单词提取处理之前的分析用单词列表(也就是说,通过单词模式判定处理而输出的列表)。
如图21所示,分析用单词列表201中登记有包括单词“折射”、“GR”、“消耗”、“SA”以及“显微鏡”在内的多个单词。该分析用单词列表201中,单词以DF顺(分析对象文档集合D中的在指定文本中包含该单词的文档的数量的顺序)被登记。另外,登记在分析用单词列表201中的单词“GR”以及“SA”是不表示分析对象文档所包含的指定文本的内容的单词。
另一方面,图21所示的分析用单词列表202是将登记在分析用单词列表201中的各单词以该单词的加权排序后的分析用单词列表。
如图21所示,分析用单词列表202中,通过以登记在分析用单词列表201中的各单词的加权进行排序,例如单词“折射”、“电力”、“消耗”、“显微镜”以及“电压”等被登记为上级。在此,若假设作为上述的提取单词数量而指定了“5”,则在分析用单词提取处理中,从分析用单词列表202中提取加权为上级的五个单词“折射”、“电力”、“消耗”、“显微镜”以及“电压”,而不提取上述的单词“GR”以及“SA”等不表示指定文本的内容的单词。
接着,参照图22的流程图对上述的交叉总计结果显示处理(图10所示的步骤S5的处理)的处理步骤进行说明。另外,交叉总计结果显示处理由用户界面部130所包含的交叉总计可视化部132执行。
首先,交叉总计可视化部132对作为交叉总计可视化部132的返回值的视图列表进行初始化(步骤S41)。
接着,交叉总计可视化部132基于各个分析对象文档所包含的第1属性(由用户指定的第一个属性)的属性值,生成该分析对象文档被分类后而成的多个类别(第1类别)(步骤S42)。例如第1属性为“申请人”属性的情况下,交叉总计可视化部132生成上述的离散值属性的类别(的集合)。具体而言,交叉总计可视化部132例如生成包含“A公司”的分析对象文档被分类后而成的类别作为“申请人”属性的属性值。另外,关于“申请人”属性的其他属性值(例如,“B公司”以及“C公司”等)也同样生成类别。以下,将在步骤S42中生成的类别称为第1属性的类别。
在如上所述由交叉总计可视化部132生成了第1属性的类别的情况下,按该第1属性的每个类别,将表示该第1属性的类别的类别信息(以下,记为第1属性的类别信息)存放在类别存放部110。另外,第1属性的类别信息的数据构造如上述的图4~图9中说明的那样,因此省略其详细的说明。也就是说,根据第1属性的类别信息,能够确定被分类为该第1属性的类别的文档等。
此外,交叉总计可视化部132基于各个分析对象文档所包含的第2属性(由用户指定的第二个属性)的属性值,生成该分析对象文档被分类后而成的多个类别(第2类别)(步骤S43)。例如第2属性为“申请日”属性的情况下,交叉总计可视化部132生成上述的连续值属性的类别(的集合)。具体而言,如上述那样计算层级宽度,使用该层级宽度以及第2属性的属性值(也就是说,连续值)生成连续值属性的类别的集合(连续值的每个层级宽度的集合)。另外,关于层级宽度的计算,如上述那样,因此省略其详细的说明。以下,将在步骤S43中生成的类别称为第2属性的类别。
在如上所述由交叉总计可视化部132生成了第2属性的类别的情况下,按该第2属性的每个类别,将表示该第2属性的类别的类别信息(以下,记为第2属性的类别信息)存放到类别存放部110。另外,第2属性的类别信息的数据构造如上述的图4~图9中说明的那样,因此省略其详细的说明。也就是说,根据第2属性的类别信息,能够确定被分类为该第2属性的类别的文档等。
在此,假设在步骤S42以及S43中生成第1属性的类别以及第2属性的类别而进行了说明,但例如在上述的相关判定处理中生成该第1属性的类别(例如,离散值属性的类别)以及该第2属性的类别(例如,连续值属性的类别)、在类别存放部11中存放有表示该各类别的类别信息的情况下,也可以省略该步骤S42以及S43的处理。
接着,交叉总计可视化部132针对所生成的第1属性的类别分别执行以下的步骤S44~S48的处理。
在该情况下,交叉总计可视化部132从类别存放部110取得一个第1属性的类别信息(步骤S44)。以下,将在该步骤S44中取得的第1属性的类别信息所表示的第1属性的类别称为第1属性的对象类别。
接着,交叉总计可视化部132针对所生成的第2属性的类别,分别执行以下的步骤S45~S47的处理。
在该情况下,交叉总计可视化部132从类别存放部110取得一个第2属性的类别信息(步骤S45)。以下,将在该步骤S45中取得的第2属性的类别信息所表示的第2属性的类别称为第2属性的对象类别。
交叉总计可视化部132基于在步骤S44中取得的第1属性的类别信息以及在步骤S45中取得的第2属性的类别信息,确定被分类为第1属性的对象类别以及第2属性的对象类别双方的文档集合(也就是说,双方类别中出现的文档集合)。
由此,交叉总计可视化部132确定被分类为第1属性的对象类别以及第2属性的对象类别双方的文档数量(步骤S46)。
交叉总计可视化部132将所确定的文档数量与第1属性的对象类别以及第2属性的对象类别建立关联而追加(登记)到视图列表(步骤S47)。
接着,交叉总计可视化部132判定是否针对所生成的全部的第2属性的类别执行了上述的步骤S45~S47的处理(步骤S48)。
在判定为没有针对全部的第2属性的类别执行了处理的情况下(步骤S48的否),回到上述的步骤S45重复进行处理。
另一方面,在判定为针对全部的第2属性的类别执行了处理的情况下(步骤S48的是),交叉总计可视化部132判定是否针对所生成的全部的第1属性的类别执行了上述的步骤S44~S48的处理(步骤S49)。
在判定为没有针对全部的第1属性的类别执行了处理的情况下(步骤S49的否),回到上述的步骤S44重复进行处理。
另一方面,在判定为针对全部的第1属性的类别执行了处理的情况下(步骤S49的是),交叉总计可视化部132向视图列表追加由分析用单词提取部142输出的单词的集合(列表),并输出该视图列表(步骤S50)。另外,视图列表的内容例如作为交叉总计结果显示在显示器15上。
在此,图23示出显示由交叉总计可视化部132输出的视图列表被显示的情况下的显示画面的一例。
图23所示的显示画面301中,显示了交叉总计结果以及单词列表。
根据交叉总计结果,以第1属性(例如,作为离散值属性的“申请人”属性)的各类别(在此为“A公司”、“B公司”、“C公司”以及“D社”)为纵轴,以第2属性(例如,作为连续值属性的“申请日”属性)为横轴,在该纵轴与横轴交叉的栏中用○记号表示了被分类为该纵轴的类别和横轴的类别双方的文档(分析对象文档)的数量。在该交叉总计结果中,○表示1件申请(一个文档)。
另外,显示画面301的交叉总计结果中,为了容易理解,省略了连续值中的层级宽度的边界(也就是说,连续值属性的类别的显示)。
此外,若如上所述假设作为提取单词数量而指定了“5”,则单词列表中显示由分析用单词提取部142提取的五个单词“折射”、“电力”、“消耗”、“显微镜”以及“电压”。另外,设单词列表中显示的单词是与上述的第2模式(指定模式)一致的单词。
在此,用户能够在图23所示的显示画面301中选择单词列表中显示的五个单词之中的一个。图23所示的例中,若假设用户例如选择了单词“折射”,则如图24所示显示显示画面302,该显示画面302显示锁定为在指定文本中包含单词“折射”的文档的文档集合中的交叉总计结果。具体而言,根据该显示画面302的交叉总计结果,在纵轴与横轴交叉的栏中用○记号表示分析对象文档之中的在指定文本中包含单词“折射”的文档中的被分类为该纵轴的类别(第1属性的类别)和横轴的类别(第2属性的类别)双方的文档(的数量)。
由此,在图23所示的显示画面301的交叉总计结果中,文档数量(文档的出现)没有偏差,但在图24所示显示画面302的交叉总计结果中,能够容易地掌握单词“折射”(所表示的技术内容)中“A公司”与特定的申请日无关地提出了较多的申请。即,图24所示的显示画面302的交叉总计结果中,能够得到单词与申请人(第1属性)有相关、单词与申请日(第2属性)没有相关的由用户指定的第2模式的见解。
在此,设为图23所示的显示画面301(以及图24所示的显示画面302)中显示交叉总计结果以及单词列表而进行了说明,在显示画面中例如也可以仅显示单词列表。在该情况下,用户以单词列表中显示的单词为关键词对分析对象文档进行检索,由此能够得到如上所述由用户指定的模式的见解。
另外,图23以及图24中用散步图显示了交叉总计结果,但也可以如图25所示用曲线图表显示交叉总计结果,也可以如图26所示用数值显示交叉总计结果。另外,图23、图24以及图26所示的交叉总计结果不仅适用于由用户指定的两个属性(也就是说,第1以及第2属性)为离散值属性以及连续值属性的组合的情况,也可以适用于例如双方都为离散值属性的组合的情况及双方都为连续值属性的组合的情况。另一方面,图25所示的交叉总计结果能够适用于由用户指定的两个属性中的至少一个为连续值属性的情况。
如上所述在本实施方式中,通过对分析对象文档所包含的文本进行解析而取得多个单词,按该取得的每个单词,判定该单词与由用户指定的至少两个属性的各个属性(例如,第1以及第2属性)有无相关,并提示该判定结果与由用户指定的模式(指定模式)一致的单词,通过该构成能够高效地得到用户期望的见解。
也就是说,在本实施方式中,着眼于分析对象文档所包含的文本中的单词与例如两个属性的各个属性间的相关关系,能够从该文本自动提取与由用户指定模式一致的单词。由此,在本实施方式中,在将分析对象文档所包含的文本与两个属性进行组合的趋向的分析中,能够高效地获得与用户的目的相应的见解。
此外,在本实施方式中,将与由用户指定的两个属性的各个属性的相关的有无被判断为与由用户指定的模式一致的单词基于按每个该单词计算出的特征语以及关联度(也就是说,该单词的加权)来提示,因此在被判定为与模式一致的单词较多的情况下也能够仅对用户提示更有用的单词。
另外,在本实施方式中,设为由用户指定两个属性(第1以及第2属性)而主要进行了说明,但例如也可以指定三个以上的属性。
若假设例如由用户指定了三个属性(以下,记为第1~第3属性),则由用户指定表示单词与由该用户指定的第1~第3属性的各个属性有无相关的模式。此外,在上述的单词模式判定处理中,判定单词与第1属性的相关、该单词与第2属性的相关、该单词与第3属性的相关、以及该单词、该第1属性、该第2属性以及该第3属性的相关,判定该各判定结果是否与由用户指定的模式一致。
由此,例如在由用户指定了三个属性的情况下,也能够如在本实施方式中说明的那样提取与由用户指定的模式一致的单词。
另外,上述的实施方式中记载的方法中,作为能够使计算机执行的程序,也可以存放在磁盘(软盘(注册商标)、硬盘等)、光盘(CD-ROM、DVD等)光磁盘(MO)、半导体存储器等存储介质中来颁布。
此外,作为该存储介质,只要是能够存储程序、并且计算机可读取的存储介质,则其存储形式也可以是任何形态。
此外,也可以基于从存储介质安装到计算机上的程序的指示,由在计算机上工作的OS(操作系统)或数据库管理软件、网络软件等的MW(中间件)等执行用于实施本实施方式的各处理的一部分。
进而,本发明中的存储介质不限于与计算机独立的介质,还包含将通过LAN或互联网等传送的程序进行下载并存储或暂时存储的存储介质。
此外,存储介质不限于一个,由多个介质执行本实施方式中的处理的情况也包含于本发明中的存储介质,介质结构可以是任何结构。
另外,本发明中的计算机基于存储在存储介质中的程序执行本实施方式中的各处理,可以是个人计算机等由一个构成的装置、将多个装置进行网络连接而成的系统等任何结构。
此外,本发明中的计算机不限于个人计算机,还包含信息处理设备所包含的运算处理装置、微型计算机等,统称能够由程序实现本发明的功能的设备、装置。
对本发明的几个实施方式进行了说明,但这些实施方式是作为例来提示的,并没有要限定发明的范围。这些实施方式能够以其他多种形态实施,在不脱离发明的主旨的范围内能够进行各种省略、替换、变更。这些实施方式及其变形包含于发明的范围及主旨,并且包含于专利请求的范围所记载的发明及与其等效的范围中。
附图标记说明
10……文档分析装置,11……存储装置,12……键盘,13……鼠标,14……中央运算装置,15……显示器,100……文档存放部,110……类别存放部,120……模式存放部,130……用户界面部,131……类别显示操作部,132……交叉总计可视化部,140……单词提取部,141……单词模式判定处理部,142……分析用单词提取部。
Claims (6)
1.一种文档分析装置,其特征在于,具备:
文档存放单元,存放有多个文档,该多个文档包含由多个单词构成的文本,并且该多个文档具有多个属性且包含该属性的属性值;
模式存放单元,存放有多个模式,该多个模式表示单词与所述多个属性之中的至少两个属性分别有无相关;
取得单元,通过对所述文档存放单元中存放的多个文档所包含的文本进行解析,取得多个单词;
第1判定单元,按所取得的每个所述单词,判定该单词与所述文档存放单元中存放的多个文档所具有的多个属性之中的由用户指定的至少两个属性分别有无相关;
第2判定单元,判定所述第1判定单元的判定结果与所述模式存放单元中存放的多个模式之中的由所述用户指定的模式是否一致;以及
提示单元,提示被判定为所述第1判定单元的判定结果与由所述用户指定的模式一致的单词。
2.如权利要求1所述的文档分析装置,其特征在于,
第1计算单元,按被判定为所述判定结果与由所述用户指定的模式一致的每个单词,基于所述文档存放单元中存放的多个文档中的该单词的出现频度,计算特征度;以及
第2计算单元,按被判定为所述判定结果与由所述用户指定的模式一致的每个单词,计算关联度,该关联度基于所述文档存放单元中存放的多个文档中的该单词与该单词以外的被判定为所述第1判定单元的判定结果与由所述用户指定的模式一致的单词的共现;
所述提示单元将被判定为所述第1判定单元的判定结果与由所述用户指定的模式一致的单词,基于按每个该单词所计算出的特征度以及关联度进行提示。
3.如权利要求2所述的文档分析装置,其特征在于,
所述第2计算单元按被判定为所述第1判定单元的判定结果与由所述用户指定的模式一致的每个单词,计算关联度,该关联度是基于该单词和与该单词的共现频度在统计上显著的单词的共现的关联度。
4.如权利要求1所述的文档分析装置,其特征在于,
还具备类别生成单元,
由所述用户指定的至少两个属性包含第1属性以及第2属性,
所述类别生成单元基于所述多个文档所包含的所述第1属性的属性值,生成该多个文档被分类后而成的第1类别,并基于所述多个文档所包含的所述第2属性的属性值,生成该多个文档被分类后而成的第2类别,
所述提示单元还提示交叉总计结果,该交叉总计结果包含被分类为所生成的所述第1类别以及所述第2类别这两者的文档的数量。
5.如权利要求4所述的文档分析装置,其特征在于,
所述提示单元在由所述用户指定了所提示的所述单词的情况下,显示交叉总计结果,该交叉总计结果包含了含有该单词的文档之中的被分类为所生成的所述第1类别以及所述第2类别这两者的文档的数量。
6.一种记录介质,该记录介质非暂时性地记录有由文档分析装置的计算机执行的程序,该文档分析装置具有:
文档存放单元,存放有多个文档,该多个文档包含由多个单词构成的文本,并且该多个文档具有多个属性且包含该属性的属性值;以及
模式存放单元,存放有多个模式,该多个模式表示单词与所述多个属性之中的至少两个属性分别有无相关,
上述程序使计算机执行以下步骤:
通过对所述文档存放单元中存放的多个文档所包含的文本进行解析,取得多个单词的步骤;
按所取得的每个所述单词,判定该单词与所述文档存放单元中存放的多个文档所具有的多个属性之中的由用户指定的至少两个属性分别有无相关的步骤;
判定所述判定结果与所述模式存放单元中存放的多个模式之中的由所述用户指定的模式是否一致的步骤;以及
提示被判定为所述判定结果与由所述用户指定的模式一致的单词的步骤。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/074688 WO2014049708A1 (ja) | 2012-09-26 | 2012-09-26 | 文書分析装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104718546A CN104718546A (zh) | 2015-06-17 |
CN104718546B true CN104718546B (zh) | 2017-12-05 |
Family
ID=49764933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280076053.0A Active CN104718546B (zh) | 2012-09-26 | 2012-09-26 | 文档分析装置以及记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150199427A1 (zh) |
JP (1) | JP5349699B1 (zh) |
CN (1) | CN104718546B (zh) |
WO (1) | WO2014049708A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10102280B2 (en) * | 2015-08-31 | 2018-10-16 | International Business Machines Corporation | Determination of expertness level for a target keyword |
JP6881322B2 (ja) * | 2016-02-12 | 2021-06-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
JP6583899B1 (ja) | 2018-10-04 | 2019-10-02 | 株式会社Fronteo | コンピュータ、データ要素提示方法、及びプログラム。 |
EP3872743A4 (en) * | 2018-10-26 | 2022-07-13 | Dayang Intelligence Co. Ltd | METHOD FOR GENERATION AND TRANSMISSION OF DATA IN MARC FORMAT IN REAL TIME DURING A REQUEST FOR A BOOK DESIRED BY A USER, AND ASSOCIATED SYSTEM |
JP6591707B1 (ja) * | 2019-02-22 | 2019-10-16 | 三井化学株式会社 | 情報処理装置及びプログラム |
CN113515627B (zh) * | 2021-05-19 | 2023-07-25 | 北京世纪好未来教育科技有限公司 | 文档检测方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5566289A (en) * | 1991-10-17 | 1996-10-15 | Fuji Xerox Co., Ltd. | Document formatting support system |
CN1734455A (zh) * | 2004-08-11 | 2006-02-15 | 株式会社东芝 | 文档信息管理装置和文档信息管理方法 |
CN101324889A (zh) * | 2007-06-15 | 2008-12-17 | 富士施乐株式会社 | 文档处理器及计算机可读介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7181459B2 (en) * | 1999-05-04 | 2007-02-20 | Iconfind, Inc. | Method of coding, categorizing, and retrieving network pages and sites |
US8473532B1 (en) * | 2003-08-12 | 2013-06-25 | Louisiana Tech University Research Foundation | Method and apparatus for automatic organization for computer files |
JP2005063353A (ja) * | 2003-08-20 | 2005-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体 |
GB0414332D0 (en) * | 2004-06-25 | 2004-07-28 | British Telecomm | Data storage and retrieval |
US7917492B2 (en) * | 2007-09-21 | 2011-03-29 | Limelight Networks, Inc. | Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system |
JP5060591B2 (ja) * | 2010-06-03 | 2012-10-31 | 株式会社東芝 | 文書分析装置およびプログラム |
US10169484B2 (en) * | 2010-09-23 | 2019-01-01 | Fisher-Rosemount Systems, Inc. | Methods and apparatus to manage process control search results |
JP5588811B2 (ja) * | 2010-09-29 | 2014-09-10 | 株式会社日立製作所 | データ分析支援システム及び方法 |
-
2012
- 2012-09-26 WO PCT/JP2012/074688 patent/WO2014049708A1/ja active Application Filing
- 2012-09-26 JP JP2012544356A patent/JP5349699B1/ja active Active
- 2012-09-26 CN CN201280076053.0A patent/CN104718546B/zh active Active
-
2015
- 2015-03-26 US US14/669,721 patent/US20150199427A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5566289A (en) * | 1991-10-17 | 1996-10-15 | Fuji Xerox Co., Ltd. | Document formatting support system |
CN1734455A (zh) * | 2004-08-11 | 2006-02-15 | 株式会社东芝 | 文档信息管理装置和文档信息管理方法 |
CN101324889A (zh) * | 2007-06-15 | 2008-12-17 | 富士施乐株式会社 | 文档处理器及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
US20150199427A1 (en) | 2015-07-16 |
JP5349699B1 (ja) | 2013-11-20 |
CN104718546A (zh) | 2015-06-17 |
JPWO2014049708A1 (ja) | 2016-08-22 |
WO2014049708A1 (ja) | 2014-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104718546B (zh) | 文档分析装置以及记录介质 | |
Liu et al. | Tiara: Interactive, topic-based visual text summarization and analysis | |
Carenini et al. | Multi‐document summarization of evaluative text | |
Siguenza-Guzman et al. | Literature review of data mining applications in academic libraries | |
Jeong et al. | Content-based author co-citation analysis | |
US9613098B2 (en) | Recommendation engine using inferred deep similarities for works of literature | |
Wilson et al. | Evaluating advanced search interfaces using established information‐seeking models | |
JP2011525673A (ja) | 特に特許文献に適用可能な検索エンジンおよび方法論 | |
Dominic et al. | A comparison of Asian e-government websites quality: using a non-parametric test | |
Li | Quality, evaluation and recommendation for learning object | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
Bykau et al. | Fine-grained controversy detection in Wikipedia | |
Chen et al. | Modeling user's receptiveness over time for recommendation | |
Liu et al. | Exploring topical lead-lag across corpora | |
Chen et al. | Vector-based similarity measurements for historical figures | |
Zigkolis et al. | Collaborative event annotation in tagged photo collections | |
Lowe et al. | Requirements of data visualisation tools to analyse big data: A structured literature review | |
JP7065718B2 (ja) | 判断支援装置および判断支援方法 | |
Musliadi et al. | Twitter Social Media Conversion Topic Trending Analysis Using Latent Dirichlet Allocation Algorithm | |
KR101401225B1 (ko) | 문서 분석 시스템 | |
CN106446696A (zh) | 一种信息处理方法及电子设备 | |
AT&T | ||
Liu et al. | Research on demand forecasting method of multi-user group based on big data | |
Hagen et al. | Contributions of Data Science to Digital Government Research: Contributions of Data Science to Digital Government Research | |
Davis et al. | Customer Review Analysis: A Systematic Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |