CN102799597A - 内容提取方法 - Google Patents

内容提取方法 Download PDF

Info

Publication number
CN102799597A
CN102799597A CN2011101413900A CN201110141390A CN102799597A CN 102799597 A CN102799597 A CN 102799597A CN 2011101413900 A CN2011101413900 A CN 2011101413900A CN 201110141390 A CN201110141390 A CN 201110141390A CN 102799597 A CN102799597 A CN 102799597A
Authority
CN
China
Prior art keywords
content
distilling
document
extracting
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101413900A
Other languages
English (en)
Inventor
细矢淳
柴梅平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN2011101413900A priority Critical patent/CN102799597A/zh
Publication of CN102799597A publication Critical patent/CN102799597A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种内容提取方法,从多种样式的文档中提取内容,包括:保存步骤,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中;获取步骤,获取配置信息,该配置信息包括用于确定所述保存单元中保存的提取方法的信息以及与该提取方法对应的参数;以及提取步骤,根据所述获取步骤中获取的所述配置信息,生成提取程序,从所述文档中提取内容。根据本发明的内容提取方法,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。

Description

内容提取方法
技术领域
本发明涉及内容提取方法,更具体而言,涉及从多种样式的文档中提取内容的内容提取方法。
背景技术
近年来,随着信息技术的突飞猛进,各行各业中需要面对和处理的信息量不断增大。例如,大量的信息被保存为文档中的内容并提供给用户。面对这些文档,用户需要从中提取出内容,以便进行解析利用。为了减轻用户的操作负担,希望研发出能够自动从文档中提取用户所需的内容的内容提取技术。
针对这种需求,目前已经提出了一些用于从文档中提取内容的技术。例如,在专利文献1中公开了一种帐票的输出装置,具备用于从输入文件中提取数据并保存在中间文件中的提取处理单元、以及用于保存在执行提取处理时要参照的提取参数的参数文件。在需要根据输入文件来输出帐票时,由用户对应于要输出的帐票来输入以下信息:与帐票中的项目有关的信息、与数据的取得方法有关的信息(帐票中的数据应该从哪个输入文件中提取、如何根据从输入文件中提取出的数据得到帐票中的数据)、与帐票的样式有关的信息(帐票中各项目的输出样式和输出位置)。然后,将这些信息记录在账票管理表中,根据账票管理表的内容和输入文件的构造信息,按每个输入文件生成提取参数,参照提取参数从输入文件中提取数据并保存在中间文件中,并根据中间文件中保存的数据输出账票。由此,专利文献1所公开的账票的输出装置不需要按每个输出账票制作专用的输出程序,能够根据从一个或多个输入文件中提取出的数据输出账票。
专利文献1:日本特开平7-168892号公报
但是,在专利文献1所公开的账票的输出装置中,用户只能输入与要输出的账票有关的信息。即,在从输入文件中提取所需的数据时,用户无法输入或编辑与输入文件有关的信息,而只能利用固有的输入文件的构造信息。可知,专利文献1所公开的账票的输出装置适用于从固定样式的输入文件中提取数据来输出账票的情况。
然而,在现实中,用户需要从中提取数据的文档的样式却多种多样。例如,在软件开发产业中,使用多种样式的项目文档,例如管理程序缺陷的B票、管理测试用例的PCL票、管理问题点的M票等。从项目管理的角度看,需要自动地从多种样式的项目文档中提取进度和品质指标。另外,不同的公司通常有其自身特定的管理流程,其中要求多种样式的管理文档,使用统一样式的文档不利于建立特定的管理流程。因此,从流程管理的角度看,也需要自动地从不同样式的管理文档中提取信息。
更具体地举例说明。近年来,对日外包软件开发增长迅速,特别是在中国。2009年日本的外包开发规模已达1995亿日元,其中大概85%发包到中国。通常,一个中国接包方同时为多个日本发包方开发项目。不同的发包方使用不同样式的项目文档。对每一个发包方,接包方使用其要求的特定样式的项目文档。据本发明人调查,大部分接包方花费很多时间从这些文档中手工提取数据然后制作项目报告。此外,日本发包方通常有其更上一级的发包方,一个项目的文档样式由其上一级的发包方决定,因此同一个日本发包方的不同发包项目中采用的文档样式也常常不同。
在这种情况下,用户如果使用专利文献1所公开的账票的输出装置那样的现有的内容提取装置,则不得不调整并统一输入文档的样式。但是,如上所述,由于输入文档的样式种类繁多并不断变化,因此这种行为不具有现实可行性。
而且,即使在现有的内容提取装置中预先设定了输入文档的样式(例如,由软件发包方规定),但这样的内容提取装置仍然只能适用于新的项目以便从始至终地提取数据。在用户面对正在进行中的项目的旧样式的文档时,则无法利用该内容提取装置。
另外,在专利文献1所公开的账票的输出装置中,如果输入文件的样式不符合装置中固有的输入文件的构造信息,则无法从输入文件中提取正确的数据。但是,对于这种可能发生的错误,专利文献1所公开的账票的输出装置没有提出任何对策。即,在用户使用专利文献1所公开的账票的输出装置时,即使由于输入文件的样式不符合装置中固有的输入文件的构造信息而出现错误,用户也很可能无法察觉。显然,这有可能导致提取出的内容错误,造成无法挽回的损失。
发明内容
本发明针对以上现有技术中的技术问题,其目的在于,提供一种能够简单地从多种样式的文档中提取内容的内容提取方法。
另外,本发明的目的还在于,提供一种能够应对提取错误内容的情况的内容提取方法。
为此,本发明提供一种内容提取方法,从多种样式的文档中提取内容,其特征在于,包括:保存步骤,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中;获取步骤,获取配置信息,该配置信息包括用于确定所述保存单元中保存的提取方法的信息以及与该提取方法对应的参数;以及提取步骤,根据所述获取步骤中获取的所述配置信息,生成提取程序,从所述文档中提取内容。
根据本发明的内容提取方法,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。
另外,也可以所述获取步骤包括:配置文件解析步骤,通过解析配置文件,来获取所述配置信息。
由此,能够使用户直接编辑配置文件本身,提高了实际应用中的透明度和扩展性。
另外,也可以所述获取步骤包括:检索步骤,在画面上显示用于设定检索条件的界面,该检索条件用于检索提取方法,根据通过该界面获取的检索条件,从所述保存单元中检索提取方法;以及参数获取步骤,在所述画面上显示用于设定与所述检索步骤中检索出的提取方法对应的参数的界面,并获取通过该界面设定的参数。
由此,能够使用户通过画面上显示的界面方便地设定配置信息,增加了实际应用中的易用度。
另外,也可以与提取方法对应的参数包括:文档样式、文档路径、要提取的内容的位置信息以及所述要提取的内容的样式。
这里,说明了与提取方法对应的参数的具体例子。通过执行由这些参数和提取方法构成的提取程序,能够按照用户的需求从文档中提取内容。
另外,也可以所述内容提取方法还包括:错误信息显示步骤,在从文档中提取的内容的样式与所述要提取的内容的样式不一致的情况下,生成错误信息并显示在所述画面上。
由此,在提取出的内容出现了错误的情况下,能够及时地通知用户,来合理地应对提取错误内容的情况,避免了在不知情的情况下提取了错误内容时可能造成的损失。
另外,也可以所述提取方法包括:样式检测方法、指标提取方法、评价单位读取方法。
这里,说明了提取方法的几个种类。通过执行由这些种类的提取方法构成的提取程序,能够按照用户的需求从文档中提取内容。
另外,也可以所述内容提取方法还包括:存储步骤,将所述提取步骤中从文档中提取的内容以规定的形式存储在数据库中。
由此,能够使用户方便地利用数据库中的规定形式的内容,提高了提取出的内容的利用价值。
另外,也可以所述提取步骤根据所述获取步骤中获取的所述配置信息,基于所述保存单元中保存的提取方法,生成所述提取程序,从所述文档中提取内容。
这里,说明了生成提取程序的一种具体方法。通过根据获取步骤中获取的配置信息并基于保存单元中保存的提取方法,能够生成提取程序来从文档中提取内容。
附图说明
图1是表示内容提取装置的结构的模块图。
图2是表示由内容提取装置执行的内容提取方法的流程图。
图3A示出一种Excel帐票的样式。
图3B示出另一种Excel帐票的样式。
图3C示出又一种Excel帐票的样式。
图4A举例示出一种提取方法的代码。
图4B示出多种提取方法及其功能。
图5A示出针对图3A所示的Excel帐票的配置文件。
图5B示出针对图3B和图3C所示的Excel帐票的配置文件。
图6是提取步骤中生成的提取程序的流程图。
图7A示出从文档中提取的内容的一个例子。
图7B示出从文档中提取的内容的另一个例子。
图8示出在画面上显示的界面。
标号说明
10  内容提取装置
101 保存单元
102 设定单元
103 提取单元
具体实施方式
以下结合附图描述本发明的具体实施方式。但是应该理解,以下对具体实施方式的描述仅仅是为了解释本发明的执行示例,而不对本发明的范围进行任何限定。
1、实施方式1
以下结合附图描述本发明的实施方式1。本发明的实施方式1提供能够简单地从多种样式的文档中提取内容的内容提取装置及内容提取方法。
1.1、内容提取装置
图1是表示实施方式1中内容提取装置的结构的模块图。如图1所示,内容提取装置10包括保存单元101、获取单元102和提取单元103。其中,箭头的方向表示数据传输的方向。内容提取装置10例如可以由专业设备或通用计算机来实现,在此不做限定。以下具体说明内容提取装置10的各单元的功能。
1.1.1、保存单元101
在保存单元101中保存有用于从不同样式的文档中提取内容的多个提取方法。保存单元101可以由各种常见的存储设备来实现。例如,保存单元101可以通过硬盘、CD、DVD、BD等光盘、SD卡、TF卡等存储卡、ROM等存储器来实现。
1.1.2、获取单元102
获取单元102获取配置信息,该配置信息包括用于确定保存单元101中保存的提取方法的信息以及与该提取方法对应的参数。这些配置信息可以通过各种输入设备例如鼠标、键盘、触摸面板、麦克风等输入并由获取单元102获取。
在此,所谓“用于确定提取方法的信息”,例如包括用于检索提取方法的检索条件、提取方法名或提取方法名的一部分、提取方法的功能描述或提取方法的功能描述的一部分等。利用这些信息,能够确定对应的提取方法。
另外,所谓“与提取方法对应的参数”,例如包括文档样式、文档路径、要提取的内容的位置信息、所述要提取的内容的样式等。在运行提取方法时,能够利用与该提取方法对应的参数,从文档中提取出希望的内容。
1.1.3、提取单元103
提取单元103根据通过获取单元102获取的配置信息,基于保存单元101保存的提取方法,生成提取程序,从文档中提取内容。具体而言,提取单元103根据确定的提取方法和与该提取方法对应的参数,生成提取程序,通过运行该提取程序,从文档中提取内容。提取单元103可以基于CPU、MPU、集成电路等,通过采用Java反射机制(Java ReflectionMechanism)来实现。该技术能以配置的函数名为参数,动态的运行该函数。其他具有动态加载功能的编程语言也可用于实现提取单元103。
1.2、内容提取方法
图2是表示实施方式1中内容提取方法的流程图。如图2所示,内容提取方法包括保存步骤S101、获取步骤S102和提取步骤S103。内容提取方法由实施方式1中的内容提取装置10来进行。以下具体说明内容提取方法的各步骤。
1.2.1、保存步骤S101
在保存步骤S101中,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元101中。
1.2.2、获取步骤S102
在获取步骤S102中,获取配置信息,该配置信息包括用于确定保存单元101中保存的提取方法的信息以及与该提取方法对应的参数。与提取方法对应的参数例如包括文档样式、文档路径、要提取的内容的位置信息、所述要提取的内容的样式等。
1.2.3、提取步骤S103
在提取步骤S103中,根据获取步骤S102中获取的配置信息,基于保存单元101保存的提取方法,生成提取程序,从文档中提取内容。
1.3、作用
根据实施方式1的内容提取装置和内容提取方法,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。
2、实施方式2
以下结合附图描述本发明的实施方式2。实施方式2中内容提取装置的结构与实施方式1相同,在此省略重复的说明。以下,结合实施例说明实施方式2中的内容提取方法。
2.1、内容提取方法
实施方式2中的内容提取方法与实施方式1中的内容提取方法同样包括保存步骤、获取步骤和提取步骤。其特征在于,在实施方式2中,获取步骤包括配置文件解析步骤,通过解析配置文件,来获取配置信息。具体而言,在配置文件解析步骤中,解析配置文件,从中获取用于确定保存单元中保存的提取方法的信息以及与该提取方法对应的参数。以下结合实施例,具体说明内容提取方法的各步骤。
2.1.1、保存步骤
在保存步骤中,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中。以下详细说明其中的文档和提取方法的具体实施例。
2.1.1.1、关于文档的说明
以下,以软件开发行业中使用的项目文档为例,对内容提取装置所提取的文档进行说明。该项目文档可以表现为Excel(注册商标)帐票的形式。以下,具体示出一些Excel帐票的样式。
图3A示出一种Excel帐票的样式。这是一种M票,用于管理项目中的问题点。此例中假设所有内容(数据)的位置是不变的,例如,“指摘日”的值在固定的单元格(5行、3列)。可以看出,在该帐票中有多种形式的数据指标,例如在一个文本单元格内的“项目名”,在一个文本单元格内的“发现者”,在一个日期单元格内的“指摘日”,被数字选项标记的“区分”,被圆圈标记的“重要度”,被圆圈标记的“发生原因”,等等。
图3B示出另一种Excel帐票的样式。这是一种PCL票,用于管理测试用例。此例中假设所有内容(数据)的位置是可变的,例如,“确认日”的数据可能在21列,也可能在其他列。可以看出,在该帐票中有多种形式的数据指标,例如在一个文本单元格内的“模块名”,在一列日期单元格内的“确认日”,等等。
图3C示出又一种Excel帐票的样式。这也是一种PCL票,用于管理测试用例。此例中假设所有内容(数据)的位置是可变的,例如,“确认日”的数据可能在17行,也可能在其他行。可以看出,在该帐票中有多种形式的数据指标,例如在一个文本单元格内的“模块名”,在一行日期单元格内的“确认日”,等等。
实际上,在真实的软件开发项目中,有更多样式的Excel帐票,包含更多形式的内容。例如,在区块中被圆圈标记的数据,在区块中被数字标记的数据,等等。可以理解,本发明的内容提取装置所面对的文档的格式多种多样,而且这些文档中的内容的形式也是多种多样的。
2.1.1.2、对提取方法的说明
如上所述,在不同样式的文档中,内容的形式也不同,不同形式的内容应该采用具有不同功能的提取方法来提取,而不可能开发一个通用的提取方法来提取所有不同形式的数据。另一方面,常见的帐票的样式都是不同的内容形式的组合。在此,保存单元中保存有针对各种常见形式的内容的提取方法。由此,能够应对由这些内容形式的组合形成的不同样式的帐票。
以下,结合图4A、图4B具体说明保存单元中保存的提取方法。
图4A举例示出一种提取方法的代码。此例中,该提取方法由Java代码实现,其参数是XML元素(假设配置信息被保存在XML配置文件中)。该方法名为“SingleCellString”,其功能是跟据单元格行列号获取单元格的文本值。首先,根据设定的参数获取单元格行列号。其次,例如采用可以读取Excel帐票的POI,获取该单元格的文本值,该图中不再示出。当然,提取方法也可以采用其他编程语言实现。
图4B示出多种提取方法及其功能。此例中,提取方法分为样式检测方法、评价单位读取方法和指标收集方法这三类。以下具体说明这三类提取方法。
样式检测方法用于检测文档的样式。其中,“FindKeyword”可以判断一个“关键词(Keyword)”是否在一个工作表中存在。“JudgeSameColumn”可以判断两个“关键词(keyword)”是否在同一列。“JudgeSameRow”可以判断两个“关键词(keyword)”是否在同一行。
评价单位读取方法用于读取每个指标所属的评价单位。其中,“评价单位”指某个“指标”衡量的对象。例如“指标”进度可以用来衡量员工甲的工作快慢,此时“评价单位”指该员工甲。“指标”缺陷率可以用来衡量系统A的质量好坏,此时“评价单位”指系统A。在此,“SingleCellUnit”可以读取行列号固定的单元格的值。“RelativeCellUnit”可以读取关键词所在单元格的右边或下边的单元格的值。
指标收集方法用于从文档中收集指标(内容)。“SingleCellString”可以读取指定行列号的单元格的文本值。“SingleCellDate”可以读取指定行列号的单元格的日期值。“MultiColumnsRingOption”可以读取位于多列的多个选项中被标记的选项。“MultiRowsRingOption”可以读取位于多行的多个选项中被标记的选项。“RelativeCellString”可以读取相对于“关键词(keyword)”的单元格的文本值。“SingleColumnStatisticDate”可以统计一列中每个日期的个数。“SingleRowStatisticDate”可以统计一行中每个日期的个数。
以上三种提取方法只是举例说明,也可以提供其他种类的提取方法,在此不做赘述。
2.1.2、获取步骤
在获取步骤中,获取配置信息。在实施方式2中,获取步骤包括配置文件解析步骤,通过解析配置文件,来获取用于确定保存单元中保存的提取方法的信息以及与该提取方法对应的参数。
以下,结合具体的配置文件例,说明其中用于确定提取方法的信息(在以下配置文件例中为提取方法名)以及与该提取方法对应的参数(在以下配置例中为文档样式、文档路径、要提取的内容的位置信息以及所述要提取的内容的样式)。在此,配置文件是固定样式的XML文件,但不限定于此,也可以是采用其他样式的XML文件或其他格式的文件。
2.1.2.1、配置文件例1
图5A示出根据图3A所示的Excel帐票的配置文件。在图3A所示的Excel帐票中,假设要提取的指标(内容)包括“M票ID”、“M票指摘日”、“M票重要度”和“M票发生原因”。每个指标对应的提取方法名和参数配置在图5A所示的配置文件中。以下具体说明。
首先,由用户在图5A所示的配置文件中设定文档路径,例如对标签<Path>设定多个M票的文件夹(或者单个M票的路径),并对标签<Sheet>设定特定的工作表(或全部工作表)。
其次,由用户设定文档样式。例如,假设在本例中所有的M票可以通过是否包含关键词“问题点票”来区别于其他帐票。因此,在标签<Check>中,设定样式检测方法“FindKeyword”,用于通过在工作表中检索指定的参数<Keyword(关键词)>来判断一个帐票是否是M票。
如上所述,由于M票中内容位置固定不变,对于指标“M票ID”,由用户设定提取方法名“SingleCellString”作为用于确定提取方法的信息,并设定参数Row(行)=2、Column(列)=2作为要提取的内容的位置信息,来获取位于Row=2、Column=2的单元格的文本值。
类似的,对于指标“M票指摘日”,由用户设定提取方法名“SingleCellDate”作为用于确定提取方法的信息,并设定参数Row=5、Column=3作为要提取的内容的位置信息,来获取位于Row=5、Column=3的单元格的文本值。
对于指标“M票重要度”,由用户设定提取方法名“MultiColumnsRingOption”作为用于确定提取方法的信息,并设定OptionTag=○作为要提取的内容的样式,设定OptionTag的可能位置Row=6、Column=18,20,22作为要提取的内容的位置信息,用于获取参数OptionTag=○对应的选项。
对于指标“M票发生原因”,由用户设定提取方法名“MultiRowsRingOption”作为用于确定提取方法的信息,并设定OptionTag=○作为要提取的内容的样式,设定OptionTag的可能位置Row=7,8,9,10,11,12、Column=23作为要提取的内容的位置信息,用于获取参数OptionTag=○对应的选项。
2.1.2.2、配置文件例2
图5B示出根据图3B和图3C所示的Excel帐票的配置文件。在图3B和图3C所示的Excel帐票,假设要提取的指标(内容)包括“模块名”和“当日PCL件数”。每个指标对应的提取方法名和参数配置在图5B所示的配置文件中。以下具体说明。
如上所述,PCL票中数据位置不固定,但是有特定的关键词标识。因此在配置文件中,其参数都是关键词而不是行列号。此外,如上所述图3B和图3C所示的两种样式的帐票均为PCL票。例如,一个项目的一个文件夹下有多个PCL票,有的样式如图3B所示,有的如图3C所示。
首先,由用户设定文档路径。例如对标签<Path>设定PCL票的文件夹,并对标签<Sheet>设定为读取全部工作表。
其次,由用户设定文档样式。在本例中每个工作表的样式是随机的,可能如图3B所示,也可能如图3C所示,因此在配置文件中由两个<Format>标签设定两种样式的工作表的读取方法。在第一个<Format>的标签<Check>中,设定样式检测方法“JudgeSameColumn”,用于通过判断两个指定的<Keyword(关键词)>是否同列来判断一个工作表是否如图3C所示。
在两个指定的关键词同列即工作表如图3C所示的情况下,对于指标“当日PCL件数”,由用户设定提取方法名“SingleRowStatisticDate”作为用于确定提取方法的信息,并设定参数Keyword=确认日作为要提取的内容的位置信息,从而定位数据行并读取内容。
对于指标“模块名”,由用户设定提取方法名“RelativeCellString”作为用于确定提取方法的信息,并设定参数Keyword=模块名和Location=right作为用于确定提取方法的信息,通过在整个工作表内搜索指定的<Keyword>然后读取相对位置<Location>处的数据,从而读取内容。
另一种<Format>的配置类似,在此不必累述。
2.1.2.3、配置文件解析
在上述例子中,由用户设定的配置信息被保存在如图5A和图5B所示的XML配置文件中。在此例中,配置文件解析步骤解析该配置文件并获取各项配置。例如,JDOM可以用来实现解析功能。在上述例子中,配置文件解析步骤获取各项配置<Path>,<Sheet>,各种<Format>及其<Check>和<Metrics>。当然,在配置文件为其他样式的XML文件或其他格式的文件时,配置文件解析步骤也可以采用现有技术获取配置信息。
2.1.3、提取步骤
在提取步骤中,根据获取步骤中获取的配置信息,基于保存单元101保存的提取方法,生成提取程序,从文档中提取内容。
2.1.3.1、提取程序
在上述实施例中,通过配置文件解析步骤获取的配置信息包括<Path>、<Sheet>、各<Format>及其<Check>和<Metrics>。在提取步骤中,跟据配置信息,基于保存单元101保存的提取方法,生成提取程序。
以下,结合附图,具体说明在提取步骤中生成的提取程序。图6是提取步骤中生成的提取程序的流程图。
在步骤S601中,根据配置信息中的文档路径,获取文档。在上述实施例中,首先根据设定的<Path>获取一个或多个帐票。其次,对每一个帐票,跟据设定的<Sheet>获取特定的工作表或每个工作表。再次,对于每种<Format>,跟据设定的方法名和参数,运行样式检测方法。如果样式检测方法返回true,也就是当前的工作表和设定的<Format>匹配,则继续提取指标。如果样式检测方法返回false,也就是当前的工作表和设定的<Format>不匹配,则继续判断下一个<Format>与当前的工作表是否匹配。如果当前的工作表与所以设定的<Format>都不匹配,则继续判断并读取下一个工作表,直至所有工作表处理完毕。
在步骤S602中,判断是否还有要提取的内容。在上述实施例中,例如可以根据标签<Metrics>来判断是否还有要提取的指标。如果步骤S602中判断为“是”,则执行步骤S603,否则,结束程序。
在步骤S603中,对于每个内容,根据配置信息,运行提取方法,从文档中提取内容。在上述实施例中,对于每个指标,跟据获取的方法名和参数,运行提取方法来提取内容。
在步骤S604中,判断在步骤S603中是否提取了内容。如果判断为“是”则前进至步骤S605,否则返回步骤S602。
在步骤S605中,将在步骤S603中提取的内容输出,并返回步骤S602。
2.1.3.2、提取的内容
以下,结合图7A、图7B,举例说明提取步骤从文档中提取的内容。
图7A示出从文档中提取的内容的一个例子。在此例中,所提取的内容包含以下基本的字段:指标名、指标值、发生日期、提取日期和所属的帐票种类。对于指标“M票指摘日”,其值是“2009-10-19”,其发生日期没有提取,其提取日期为2011-3-3,其所属帐票为M票。对于指标“当日PCL件数”,其值是“13”,其发生日期是“2010-12-3”,其提取日期为2011-3-3,其所属帐票为PCL票。
图7B示出从文档中提取的内容的另一个例子。在此例中,还提取指标所属的评价单位信息。以图3A、图3B和图3C所示的帐票为例,在这种情况下,“M票ID”和“模块名”为评价单位。相应地,图4B所示的提取方法中包含评价单位读取方法。在图5A和图5B所示的配置文件中,“M票ID”和“模块名”由标签<Unit>(未示出)而不是<Metrics>设定。然后,由获取步骤(配置文件解析步骤)获取了配置信息(包括与评价单位获取方法有关的信息和对应的参数)之后,提取步骤根据获取的评价单位获取方法名和参数运行评价单位获取方法读取到评价单位,然后跟据设定的数据读取方法名和参数运行数据读取方法读取各指标。然后,将评价单位的数据输出。在图7B的评价单位表中,“M票ID”XXXXX001的记录ID为1,“模块名”SDL002的记录ID为2,“模块名”HCRD001的记录ID为3。在其上的指标数据表中,对于指标“M票指摘日”,其值为“2009-10-19”,其发生日期没有提取,其提取日期为2011-3-3,其所属帐票为M票,其所属评价单位UnitID为1(即“M票ID”XXXXX001的“M票指摘日”为2009-10-19))。对于指标“当日PCL件数”,其值为“13”,其发生日期为“2010-12-3”,其提取日期为2011-3-3,其所属帐票为PCL票,其所属评价单位UnitID为2(即“模块名”SDL002的当日(2010-12-3)的PCL件数是13)。
2.2、作用
根据实施方式2的内容提取装置和内容提取方法,与实施方式1相同,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。而且,能够使用户直接编辑配置文件本身,提高了实际应用中的透明度和扩展性。
3、实施方式3
以下结合附图描述本发明的实施方式3。实施方式3中内容提取装置的结构与实施方式1、2相同,在此省略重复的说明。以下,结合实施例说明实施方式3中的内容提取方法。
3.1、内容提取方法
实施方式3中的内容提取方法与实施方式1、2中的内容提取方法同样包括保存步骤、获取步骤和提取步骤。其中保存步骤和提取步骤可以通过与实施方式1、2相同的方式执行,在此不做赘述。
实施方式3的特征在于,获取步骤包括检索步骤和参数获取步骤。在检索步骤中,在画面上显示用于设定检索条件的界面,该检索条件是用于确定所述保存单元中保存的提取方法的信息,用于检索提取方法,根据通过该界面设定的检索条件,从所述保存单元中检索提取方法。在参数获取步骤中,在所述画面上显示用于设定与所述检索步骤中检索出的提取方法对应的参数的界面,并获取通过该界面设定的参数。
以下结合附图进行详细说明。图8示出实施方式3中在画面上显示的界面。如图8所示,上部是一种类帐票的全局配置,下部是每个指标(内容)的配置界面(多个指标时可以依次设置多组界面)。
3.1.1、检索步骤
在检索步骤中,在图8的左下部分的画面上显示用于设定检索条件的界面。该检索条件作为用于确定提取方法的信息,例如可以是样式特征词。在图8的界面中,提供了“收集方法查询条件”输入框,以供用户设定检索条件。用户在该输入框中输入“单元格、右”作为检索条件。根据通过该输入框设定的检索条件“单元格、右”,从保存单元中检索提取方法,并将检索出的提取方法“RelativeCellString”显示在画面上。在由用户点击了画面中部的“确认”按钮之后,检索步骤完成。另外,作为优选例,还同时显示出了该提取方法的功能、可在该提取方法中设定的参数、该提取方法的返回值、样式例、XML设定例等。
3.1.2、参数获取步骤
在检索步骤完成之后,在参数获取步骤中,在图8的右下部分的画面上显示用于设定与检索步骤中检索出的提取方法对应的参数的界面。在图8的界面中,提供了“Keyword”和“Location”这两个输入框,以供用户输入参数。用户在这两个输入框中分别输入“功能名、right”作为该提取方法的参数。
之后,如果点击“保存”按钮,则该提取方法的配置信息获取完成。另外,在检索步骤的检索结果不满足时,可以修改检索条件重新检索。也可以根据所有方法的说明书,在右下部分直接输入选择的方法名,显示出对应的参数后,再配置参数。
在实施方式3中,通过检索步骤和参数获取步骤获取的配置信息可以保存在内存或其他格式的文件中并输出给提取步骤。
3.2、作用
根据实施方式3的内容提取装置和内容提取方法,与实施方式1相同,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。而且,能够使用户通过画面上显示的界面方便地设定配置信息,增加了实际应用中的易用度。
4、变形例
以上具体说明了本发明的几个实施方式。但是,本发明不限定于上述实施方式,还可以进行以下变形。
4.1、错误信息显示
在上述实施方式1~3中,内容提取装置还可以具备错误信息显示单元。在从文档中提取的内容的样式与要提取的内容的样式不一致的情况下,该错误信息显示单元生成错误信息并显示在画面上。
另外,在上述实施方式1~3中,内容提取方法在提取步骤之后,还可以包括错误信息显示步骤。在从文档中提取的内容的样式与要提取的内容的样式不一致的情况下,该错误信息显示步骤生成错误信息并显示在画面上。
由此,在提取出的内容出现了错误的情况下,能够及时地通知用户,来合理地应对提取错误内容的情况,避免了在不知情的情况下提取了错误内容时可能造成的损失。
4.2、存储
在上述实施方式1~3中,内容提取装置还可以具备存储单元。该存储单元将提取单元中从文档中提取的内容以规定的形式存储在数据库中。
另外,在上述实施方式1~3中,内容提取方法在提取步骤之后,还可以包括存储步骤。该存储步骤将提取步骤中从文档中提取的内容以规定的形式存储在数据库中。
存储单元和存储步骤与作为存储目的地的数据库相对应。例如,数据库可以采用常用的关系型数据库例如MySQL实现。相应地,存储单元可以采用现有的为Java开发的MySQL connector连接到数据库,采用常用的插入和更新SQL语句,实现写入和更新提取到的数据。通过存储单元和存储步骤存储在数据库中的数据构造例如为图7A或图7B所示。
4.3、扩展
在上述实施方式1~3中,保存单元(步骤)中保存了三类提取方法即样式检测方法、指标提取方法、评价单位读取方法中的一些提取方法。但本发明的提取方法不限定于此,也可以还保存这三类提取方法中的其他提取方法或更多种类的提取方法。由此,可以支持更多种类的配置信息,如所属项目或者更高级别的评价单位信息。相应地,获取单元(步骤)、提取单元(步骤)可以添加相应的处理。最后,数据库可以包含更多数据表,例如项目名表,来存储更多数据。
4.4、其他
以上实施方式以Java编程语言为实现语言来描述。领域内人员应当理解其他编程语言也可用于实现该发明。以上帐票的例子为Excel帐票。领域内人员应当理解基于同样的发明思想,采用合适的编程实现语言,该发明的装置也可以提取其他文档例如Word文档。

Claims (8)

1.一种内容提取方法,从多种样式的文档中提取内容,其特征在于,包括:
保存步骤,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中;
获取步骤,获取配置信息,该配置信息包括用于确定所述保存单元中保存的提取方法的信息以及与该提取方法对应的参数;以及
提取步骤,根据所述获取步骤中获取的所述配置信息,生成提取程序,从所述文档中提取内容。
2.如权利要求1记载的内容提取方法,其特征在于,
所述获取步骤包括:
配置文件解析步骤,通过解析配置文件,来获取所述配置信息。
3.如权利要求1记载的内容提取方法,其特征在于,
所述获取步骤包括:
检索步骤,在画面上显示用于设定检索条件的界面,该检索条件用于检索提取方法,根据通过该界面设定的检索条件,从所述保存单元中检索提取方法;以及
参数获取步骤,在所述画面上显示用于设定与所述检索步骤中检索出的提取方法对应的参数的界面,并获取通过该界面设定的参数。
4.如权利要求1~3中任一项记载的内容提取方法,其特征在于,
与提取方法对应的参数包括:文档样式、文档路径、要提取的内容的位置信息以及所述要提取的内容的样式。
5.如权利要求4记载的内容提取方法,其特征在于,
所述内容提取方法还包括:
错误信息显示步骤,在从文档中提取的内容的样式与所述要提取的内容的样式不一致的情况下,生成错误信息并显示在所述画面上。
6.如权利要求1记载的内容提取方法,其特征在于,
所述提取方法包括:样式检测方法、指标提取方法、评价单位读取方法。
7.如权利要求1记载的内容提取方法,其特征在于,
所述内容提取方法还包括:
存储步骤,将所述提取步骤中从文档中提取的内容以规定的形式存储在数据库中。
8.如权利要求1记载的内容提取方法,其特征在于,
所述提取步骤根据所述获取步骤中获取的所述配置信息,基于所述保存单元中保存的提取方法,生成所述提取程序,从所述文档中提取内容。
CN2011101413900A 2011-05-26 2011-05-26 内容提取方法 Pending CN102799597A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101413900A CN102799597A (zh) 2011-05-26 2011-05-26 内容提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101413900A CN102799597A (zh) 2011-05-26 2011-05-26 内容提取方法

Publications (1)

Publication Number Publication Date
CN102799597A true CN102799597A (zh) 2012-11-28

Family

ID=47198709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101413900A Pending CN102799597A (zh) 2011-05-26 2011-05-26 内容提取方法

Country Status (1)

Country Link
CN (1) CN102799597A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250467A (zh) * 2016-07-28 2016-12-21 北京中电普华信息技术有限公司 一种实现动态抽取指标的方法及装置
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN109445339A (zh) * 2018-10-31 2019-03-08 上海置信电气股份有限公司 Ftu控制器配置方法、装置及系统、电子设备
CN110334292A (zh) * 2019-07-02 2019-10-15 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及系统
US20090265339A1 (en) * 2006-04-12 2009-10-22 Lonsou (Beijing) Technologies Co., Ltd. Method and system for facilitating rule-based document content mining

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090265339A1 (en) * 2006-04-12 2009-10-22 Lonsou (Beijing) Technologies Co., Ltd. Method and system for facilitating rule-based document content mining
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250467A (zh) * 2016-07-28 2016-12-21 北京中电普华信息技术有限公司 一种实现动态抽取指标的方法及装置
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN109445339A (zh) * 2018-10-31 2019-03-08 上海置信电气股份有限公司 Ftu控制器配置方法、装置及系统、电子设备
CN109445339B (zh) * 2018-10-31 2020-12-11 上海置信智能电气有限公司 Ftu控制器配置方法、装置及系统、电子设备
CN110334292A (zh) * 2019-07-02 2019-10-15 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备

Similar Documents

Publication Publication Date Title
US9697193B2 (en) Associating captured image data with a spreadsheet
CN102831052B (zh) 测试用例自动化生成装置及方法
CN102629263B (zh) 对企业间交互的业务数据进行格式转换的方法及系统
CN108897724B (zh) 功能完成进度确定方法及装置
US8327333B2 (en) Apparatus, method, and system of assisting software development
US20080046254A1 (en) Electronic Service Manual Generation Method, Additional Data Generation Method, Electronic Service Manual Generation Appartus, Additional Data Generation Apparatus, Electronic ServIce Manual Generation Program, Additional Data Generation Program, And Recording Media On Which These Programs Are Recorded
CN105677353A (zh) 特征抽取方法、机器学习方法及其装置
CN102804147A (zh) 执行abap源代码的代码检查的代码检查执行系统
CN102467450A (zh) 程序试验装置以及程序试验方法
US20140304253A1 (en) Screen-data editing device for programmable display device
CN102103500B (zh) 操作监视装置
CN104657274B (zh) 软件界面测试方法及装置
US20130074035A1 (en) Source code comparison device, source code comparison method and source code comparison program
CN108334484B (zh) 数据录入的方法和装置
CN111813680B (zh) 测试脚本的生成方法、装置、计算机设备和存储介质
WO2019194026A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP2007304660A (ja) コマンド実行結果記録システム及びコマンド実行結果記録方法
CN111209206A (zh) 一种软件产品的自动测试方法及系统
CN102799597A (zh) 内容提取方法
US9965679B2 (en) Capturing specific information based on field information associated with a document class
CN101159047A (zh) 信息处理系统、信息处理方法以及计算机可读介质
CN104657127A (zh) 自动嵌入操作收集元件的系统与方法
CN113434542B (zh) 数据关系识别方法、装置、电子设备及存储介质
CN101556612A (zh) 信息处理设备及其控制方法
CN102663205B (zh) 一种车辆装配车间工装现场管理的软件实现方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121128