CN101488124A - 信息处理设备、信息处理系统及信息处理方法 - Google Patents
信息处理设备、信息处理系统及信息处理方法 Download PDFInfo
- Publication number
- CN101488124A CN101488124A CNA2009100023426A CN200910002342A CN101488124A CN 101488124 A CN101488124 A CN 101488124A CN A2009100023426 A CNA2009100023426 A CN A2009100023426A CN 200910002342 A CN200910002342 A CN 200910002342A CN 101488124 A CN101488124 A CN 101488124A
- Authority
- CN
- China
- Prior art keywords
- content
- document
- contents
- extraction
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明提供一种信息处理设备、信息处理系统及信息处理方法。在信息处理设备中,当接收到内容信息的输入时,内容提取部从在存储部中存储的文档中包括的内容中提取每个都包括内容信息的多个内容。然后,关系计算部计算所提取内容之间的语义相关程度,并且布局产生部基于语义相关程度在新的文档上确定所提取内容的位置并在这些位置上布置所提取的内容,从而产生新的文档。
Description
相关申请的交叉引用
本专利申请主张2008年1月11日在日本申请的日本优先权文件2008-004800的优先权,并将该优先权文件的全部内容并入本文作为参考。
技术领域
本发明涉及用于从多个内容产生文档的技术。
背景技术
在传统技术中,当用户生成用于打印作为杂志或报纸的文档或文档文件时,用户搜集例如文章和图像等内容,判断每一个内容的重要程度或视觉质量,并确定文档内容的布局。然后将该文档打印为杂志或报纸。
例如,美国专利No.7243303揭示了一种技术,在该技术中,基于根据由用户预先确定的每一个内容的重要程度预先确定的关系表达式,确定在文档中包括的内容的位置和大小,然后基于确定的位置和大小在文档上自动布置内容,并且将文档作为数据输出或打印出文档。
然而,根据上述技术,由于用户确定要编辑的每一个目标内容的重要程度以及这些内容之间的关系,因此,当存在大量内容时,用户需要确定所有内容的重要程度,这给用户带来了不便。
此外,由于内容的重要程度是由用户确定的,因此,当由对确定内容的重要程度和关系具有不同标准的不同用户在文档上布置相同的内容时,布局不利地发生改变。
发明内容
本发明的目的是至少部分地解决传统技术中的上述问题。
根据本发明的一个方面,提供一种信息处理设备,该设备包括:存储部,用于存储包括多个内容的文档;输入接收部,用于接收内容信息;内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内容,该多个内容中的每一个内容包括内容信息;关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程度;及布局产生部,用于基于语义相关程度来在新的文档上确定该提取内容的位置并在所确定的位置上布置该提取内容,从而产生新的文档。
根据本发明的另一方面,提供一种信息处理系统,该信息处理系统经由网络可连接到文档服务器上,并且该信息处理系统存储包括多个内容的文档,该信息处理系统包括:通信部,用于从文档服务器中获取文档;存储部,用于存储由通信部获取的文档;输入接收部,用于接收内容信息;内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内容,该多个内容的每一个包括内容信息;关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程度;及布局产生部,用于基于语义相关程度来在新的文档上确定该提取内容的位置并在所确定的位置上布置该提取内容,从而产生新的文档。
根据本发明的又一方面,提供一种产生文档的方法,包括:存储步骤,在存储部中存储包括多个内容的文档;接收步骤,接收内容信息;提取步骤,从在存储部中存储的文档所包括的内容中提取多个内容,该多个内容中的每一个内容包括内容信息;计算步骤,计算在提取步骤中提取的提取内容之间的语义相关程度;确定步骤,基于语义相关程度来在新的文档上确定该提取内容的位置;及布置步骤,在确定步骤中确定的位置上布置该提取内容,从而产生新的文档。
当联系附图考虑时,通过阅读本发明的当前优选实施例的下面的具体描述,将更好的理解本发明的上述及其它目的、特征、优点及技术和工业意义。
附图说明
图1是根据本发明第一实施例的信息处理设备的框图;
图2是在图1中示出的存储部中存储的文档的示例的示意图;
图3是在图1中示出的存储部中存储的文档中包括的文本的示意图;
图4是在图1中示出的存储部中存储的文档中包括的表格的示意图;
图5是在图1中示出的存储部中存储的文档中包括的图像的示意图;
图6是用于说明在图5中示出的图像周围描述文本的示例的示意图;
图7是用于说明由图1中示出的显示部显示的输出设置屏幕的示例的示意图;
图8是由图1中示出的关系计算部产生的数值矩阵的示例,其中每一个数值都表示内容之间的相似性;
图9是表示由关系计算部产生的关系图的示例,该关系图表示内容之间的关系;
图10是用于说明由图1中示出的布局产生部产生的内容的布局的示意图;
图11是在显示部上显示多个内容的情况的示意图;
图12是用于说明仅选择图11中示出的内容来由显示部显示的情况的示意图;
图13是由图1中所示的信息处理设备执行的文档产生操作的流程图;
图14是根据本发明第二实施例的信息处理系统的框图;
图15是由图14中所示的信息处理系统执行的文档产生操作的流程图;
图16是根据本发明第三实施例的多功能产品(MFP)的框图;及
图17是MFP的示例性硬件配置的框图。
具体实施方式
下面,参考附图详细说明本发明的示例性实施例。
图1是根据本发明第一实施例的信息处理设备100的框图。信息处理设备100包括输入接收部110、存储部120、显示部130、内容提取部140、关系计算部150及布局产生部160。
输入接收部110包括例如键盘、鼠标或触摸面板等输入设备(未示出)。输入接收部110接收来自用户的指令和/或数据。特定地,输入接收部110接收在存储部120中存储的包括文本文档数据或图像数据以及用于从包括各种文本、图像、表格等文档中提取内容的关键字的文件的说明(specification)等(下文称为“文档”)。
输入接收部110接收在布局产生部160在文档上布置由内容提取部140提取的各种内容时由布局产生部160使用的输出设置。例如,该种输出设置包括输出文件的格式、每页的字符数量、列设置的存在或不存在以及页边距。
此外,输入接收部110接收用于从文档识别内容的区域说明。例如,区域说明可以以行数和页数的形式,例如“从第2页第1行到第4页第50行”。
存储部120是例如硬盘驱动器(HDD)或存储器等存储介质。存储部120预先存储上述文档及由布局产生部160产生的文档。图2是在存储部120中存储的文档的示例的示意图。存储部120存储例如abc.doc、def.pdf、ghi.html、jkl.jpg及mno.txt文档等各种类型的文档。存储部120以相关联的方式来存储表示在每一个文档中包括的页数的页信息以及表示在每一页中包括的内容的内容信息。
例如,abc.doc文档包括4页,并且abc.doc文档的第一页包括由图2中所示的斜线表示的内容301。内容301包括由输入接收部110接收到的关键字(例如,“公司A”)。
abc.doc文档的第二页以与第一页相同的方式包括内容302,内容302包括由输入接收部110接收到的不同的关键字(例如,“管理负责人(principal)”)。
类似地,def.pdf文档包括在第二页上具有关键字(例如,“公司A”)的内容304。ghi.html文档也包括具有关键字(例如,“公司A”)的内容303。
存储部120中存储的文档不限于图2中所示的文档的类型。例如,文档可以是可扩展标识语言(XML)数据、以开放文档格式产生成的数据或邮件、多媒体目标、动画目标等。
图3是内容301的示意图。内容301包括在abc.doc文档的第一页上以明细方式写出的文本。当输入接收部110接收到来自用户的关键字“公司A”时,内容提取部140如后面描述的那样识别包括关键字“公司A”的文本。存储部120存储包括例如内容301等具有关键字的内容的文档。
图4是内容302的示意图。内容302包括表示公司A的每一个部门的收入及支出的表格。除了文本,可以以表格形式表现在文档中包括的内容。
图5是内容303的示意图。内容303包括具有公司A的标识的主页。该标识为图像的形式。
图6是用于说明在标识的周围(图6中为在标识的下面)描述了用于说明公司A的标识的文本的示例的示意图。在文档中包括的其它内容可以包括图像或表格,以及在图像或表格周围布置的用于说明图像或表格的文本数据。
另外,连同例如文本、表格及图像等各种数据,文档可以包括例如生成数据的日期和时间、数据的生成者、数据格式、标题及注释等描述信息(下文称为“属性信息”)的元数据。如果文档包括元数据,则内容提取部140确定由输入接收部110接收到的关键字与属性信息(例如,生成者)是否相匹配,从而从文档识别内容。
图7是用于说明用于产生由显示部130显示的文档的输出设置屏幕的示例的示意图。显示部130包括例如液晶显示器(LCD)等显示设备(未示出)。显示部130显示登录屏幕130a以接收输入,输入例如是用于从文档提取内容的关键字、要产生的文档的标题、文档的生成者、文档的摘要信息、页眉和页脚的存在或不存在、例如两列格式的存在或不存在的页格式以及如果要打印出文档时纸张的大小。
显示部130显示由布局产生部160如后面描述的那样产生的文档的内容。此外,如果根据由输入接收部110接收到的各种条件产生了多个文档,则显示部130对用户显示选择屏幕(未示出)以选择所产生的文档中的一个。
内容提取部140从在存储部120中存储的各种文档中识别出包括由输入接收部110接收到的关键字的文档。然后,内容提取部140从所识别出的文档中识别包括关键字的文本等作为内容,从该文档中提取所识别出的内容,并在存储部120中存储所提取的内容。
特定地,当输入接收部110接收到关键字时,内容提取部140从多个文档中识别出包括与关键字相同的文本的文档,从所识别出的文档中识别出包括与关键字相同的文本的文本等,并提取出所识别出的文本等作为内容。
识别出要作为内容提取的文本的区域从而例如确定在包括与关键字相同的文本的文本之前和之后是否存在空白行或段分隔符,如果在与关键字相同的文本之前存在空白行或段分隔符,则确定空白行或段分隔符的位置是要提取的内容的开始位置。
以相同的方式,如果在与关键字相同的文本之后存在空白行或段分隔符,则确定空白行或段分隔符的位置是要提取的内容的结束位置。这样,确定开始位置和结束位置,并提取出由开始位置和结束位置包围的区域中的文本等作为内容。
例如,当使用“公司A”作为关键字从文档中提取图3中所示的内容301时,内容提取部140识别出“公司A”出现的位置(描述“公司A的管理负责人”的行)。然后,内容提取部140确定在所识别出的位置上的行的前一行是否是空白行,如果是空白行,则在随机访问存储器(RAM)(未示出)中存储该行作为用于识别内容的开始位置(开始行)。特定地,在RAM中存储位于出现“公司A的管理负责人”的行之前的第一空白行的位置。
以相同的方式,在RAM中存储位于出现“公司A的管理负责人”的行之后的第一空白行的位置。识别出由这些空白行包围的区域内的文本(在图3中以明细方式所写的“公司A的管理负责人”中的第一和随后的项)作为内容,并从文档abc.doc中提取出所识别出的内容。
如果在由内容的开始位置和结束位置包围的区域中包括图像,则内容提取部140认出图像和图像周围描述的文本二者作为内容,并从文档中提取图像和文本。
例如,在识别包括关键字的内容时,内容提取部140通过读取用于在文档等中嵌入图像的标签确定在内容的区域中是否存在图像。然后,内容提取部140认出由该标签包围的区域作为图像,并从文档中提取用于说明该图像的、与图6中所示的文本相同的文本以及该图像。
在读取图5所示的内容303中的标识中包括的文本“公司A”之后,内容提取部140可以识别出由标签等包围的区域作为图像,如果在图像周围(图6中在图像下面)设置了包括与关键字“公司A”相同的文本的说明文本,则内容提取部140提取所识别出的图像以及说明文本。
上面说明了内容提取部140通过识别空白行、段分隔符或标签来识别在文档中包括的内容,并从文档中提取所识别的内容。可选择地,例如,可以配置内容提取部140以通过识别行分隔符的位置等来识别内容。
此外,上面说明了内容提取部140通过在文档中包括的文本或图像的位置(行或标签)等识别内容,并从文档中提取所识别的内容。可选择地,如果文档的内容像报纸文章那样被预先包括在某布局框(layout frame)(尤其是具有预定长度和宽度的布局框)中,则可以配置内容提取部140以识别布局框作为内容,并从文档中提取所识别的内容。特定地,可以配置内容提取部140以不识别内容的开始位置和结束位置、标签的位置等而识别在布局框中包括的整个文本或图像作为内容,并从文档中提取所识别的内容。
如果输入接收部110接收到关键字的说明及在文档中包括的内容的区域,则可以配制内容提取部140以在指定区域(例如,从第2页上第1行到第4页上第50行的区域)内提取包括输入接收部110接收到的关键字的内容。
关系计算部150分析由内容提取部140从文档中提取并存储在存储部120中的每个内容的语义内容,确定有多少内容互相相似,并以数值表示相似性。
特定地,关系计算部150读取在由内容提取部140从文档中提取并存储在存储部120中的内容中描述的文本,并通过使用例如全文搜索等方法比较文本来确定有多少文本与从文档中提取的不同内容中描述的文本相匹配。
如果文本完全匹配,则内容提取部140在存储部120中存储“1.0”作为表示内容之间的相似程度的数值。如果文本根本不匹配,则内容提取部140在存储部120中存储“0.0”作为表示内容之间的相似程度的数值。
此外,如果仅仅文本的部分匹配,则关系计算部150的一种方法是基于在多个内容的每一个内容中包括的关键字的命中(hit)数量来确定内容之间的相似程度,并在存储部120中存储例如“0.3”或“0.6”等数值作为确定结果。如果接收到多个关键字,则关系计算部150可以对第一关键字和第二关键字中的每一个分配权重值,并通过比较内容中的第一关键字和第二关键字的命中数量来计算表示内容之间的相似程度的数值。在该情况下,关系计算部150关于每一个关键字计算表示内容之间的相似程度的数值,并在存储部120中存储计算出的数值。
图8是由关系计算部150产生的数值矩阵的示例,其中每一个数值都表示内容之间的相似性。在计算内容之间的相似程度作为数值时,关系计算部150产生通过以表格形式呈现每一个数值都表示内容之间的相似程度的数值获得的矩阵。关系计算部150可以对每一个关键字产生该种矩阵。
图9是表示由关系计算部150产生的关系图的示例,该关系图表示内容之间的关系。关系计算部150通过参考所产生的矩阵来产生关系图。例如,关系计算部150基于在内容a1和内容a2的每一个中包括的关键字的命中数量,计算出表示图8中所示的内容a1和内容a2之间的相似程度的数值为“0.3”,然后产生通过由如图9中所示的线连接内容a1和内容a2获得的关系图。以相同的方式,关系计算部150通过连接内容a1和内容b1、内容a1和内容c1以及内容a2和内容b1产生关系图。
布局产生部160基于图9中所示的关系图和图8中所示的矩阵,在新的文档的页上布置每一个内容。
图10是用于说明基于表示内容a1、a2、b1及c1之间的相似程度的数值由布局产生部160产生的内容a1、a2、b1及c1的布局。特定地,布局产生部160确定内容的位置作为在新的文档的页上的参考(例如,内容a1的中心点a10),新的文档的页具有预设的长度Y和宽度X,其中页的左上端被定义为零,图10中的向右方向和向下方向分别被定义为x轴和y轴。
布局产生部160在位于离中心点a10相应于表示内容a1和c1之间的相似性的数值“0.5”的距离的位置上布置具有与内容a1高度相似的内容。如果表示内容之间的相似性的数值是“1.0”,则布局产生部160确定内容完全匹配,并邻近在新的文档上作为参考的内容布置该内容。
如果内容根本不匹配,则表示内容之间的相似性的数值是“0.0”,因此,布局产生部160以长度y和宽度x为最大值在互相最远离的位置上布置内容。例如,一个内容被布置在文档的页的最上端,而另一个内容被布置在该页的最下端。
特定地,当表示内容之间的相似程度的数值是不同于“1.0”和“0.0”的数值(例如,“0.5”),则布局产生部160按比例地划分对应于数值“1.0”和“0.0”的距离来计算离作为参考的内容(例如,内容a1)的距离,并基于计算出的距离在新的文档中布置内容。
如果输入接收部110接收到关于文档的输出设置信息(例如,输出文件的格式、每页的字符数量、列设置的存在或不存在、页边距),则布局产生部160基于输出设置信息和由关系计算部150计算出的表示内容之间相似程度的数值来在新的文档上布置每一个内容。
例如,如果文件格式是文档文件格式(例如,AA.doc)并且例如无页边距和两列格式等输出设置被指定,则在图10中所示的布局上布置内容。
当布局产生部160在文档上布置每一个内容时,显示部130显示该内容。图11是用于说明当输出设置被指定从而在具有两列格式和不具有两列格式的布局上显示文档时,在显示部130的窗口130b上显示的所产生的文档的显示示例的示意图。
图12是用于说明输入接收部110接收到来自用户的说明从而由图11中示出的显示部130显示的文档要通过不具有两列格式输出设置输出的情况的示意图。以该方式,从在存储部120中存储的文档中提取内容,并通过组合所提取的内容来产生新的文档。
图13是由信息处理设备100执行的文档产生操作的流程图。在下面的描述中,假设存储部120存储图2所示的文档,输入接收部110不接收用于从文档识别内容的区域说明。
输入接收部110接收到用于从文档中提取内容的关键字(步骤S1301),并接收到要产生的新文档的输出设置信息(步骤S1302)。
然后,内容提取部140从在存储部120中存储的文档中提取包括在步骤S1301中接收到的关键字的文档(步骤S1303)。
然后,内容提取部140读取在步骤S1303中提取的文档中描述的内容,从文档中提取每个都包括在步骤S1301接收到的关键字的多个内容,并在存储部120中存储所提取的内容(步骤S1304)。
然后,关系计算部150读取在步骤S1304中在存储部120中存储的每一个内容中包括的文本,确定在文本中命中由输入接收部110接收到的关键字的数量,并计算表示内容之间的相似(语义相关)程度的数值(步骤S1305)。
此外,关系计算部150产生在步骤S1305中计算出的数值的矩阵,并通过使用矩阵中的数值产生关系图(步骤S1306)。
然后,基于在步骤S1302由输入接收部110接收到的输出设置信息及在步骤S1305由关系计算部计算出的数值,布局产生部160在新的文档上布置在步骤S1304中由内容提取部140提取的内容(步骤S1307),然后,在存储部120中存储包括上述布置的内容的新的文档(步骤S1308)。当步骤S1308中的操作结束时,用于产生新的文档的所有操作结束。
如上所述,根据第一实施例,存储部120存储文档,输入接收部110接收用于从文档中提取内容的关键字,内容提取部140从文档中提取每个都包括由输入接收部110接收的关键字的多个内容。此外,关系计算部150计算由内容提取部140提取的内容之间的语义相关程度,布局产生部160基于内容之间的语义相关程度来在新的文档上确定这些内容的位置并在这些位置上布置内容,从而产生新的文档。从而,可以通过不给用户造成麻烦而以简单及客观的方式提取内容来产生文档。
此外,文档的内容包括图像数据或文本数据,图像数据包括表示图像数据是否包括文本的属性信息。基于由输入接收部110接收的关键字及在图像数据中包括的属性信息或在文本数据中所包括的文本,内容提取部140从文档中提取多个内容。从而,可以通过更简单及更客观的方式提取内容来产生文档。
另外,属性信息是在图像数据周围布置的文本,并且,基于由输入接收部110接收的关键字及在图像数据周围布置的属性信息或在文本数据中包括的文本,内容提取部140从文档中提取多个内容。从而,可以通过以更简单及更客观的方式提取内容来产生文档。
此外,关系计算部150通过比较内容产生表示内容之间的相似性的关系图,并基于所产生的关系图来计算内容之间的语义相关程度,从而用户在产生文档的过程中可以真实地确定内容之间的相关性。
另外,关系计算部150通过比较内容产生表示内容之间的相似性的表格,并基于所产生的表格来计算内容之间的语义相关程度,从而用户在产生文档的过程中可以快速地确定内容之间的相关性。
此外,输入接收部110接收表示文档中的预定区域的区域信息,内容提取部140从预定区域中提取每个都包括由输入接收部110接收的关键字的多个内容,关系计算部150计算由内容提取部140提取的内容之间的语义相关程度。从而用户在产生文档的过程中可以以灵活地方式确定内容之间的相关性。
另外,以多个内容中的一个内容作为参考,关系计算部150将计算出的内容之间的语义相关程度转换为在新的文档上的坐标系统中的位置关系,并且,基于由关系计算部150所转换的位置关系,布局产生部160在新的文档上确定内容的位置。从而,用户可以更真实并更直观地确定内容之间的相关性。
如上所述,根据第一实施例,从在存储部120中存储的文档中提取多个内容,计算表示内容之间的相关性的数值,并基于该数值在新的文档上布置内容。然而,可以在因特网环境或局域网(LAN)环境中获取包括目标内容(通过该目标内容新的文档将要产生)的文档。在下面的描述中,说明信息处理设备经由网络检索在服务器设备中存储的文档,在信息处理设备的存储部中存储文档,从在存储部中存储的文档中提取多个内容,并计算内容之间的相似性,从而产生新的文档。
图14是根据本发明第二实施例的信息处理系统1000的框图。信息处理系统1000包括信息处理设备500、服务器设备700及通信网络600。信息处理设备500与信息处理设备100的不同之处在于信息处理设备500还包括通信部1401、存储部1402及检索部1403。在下面的描述中,相同的附图标记用于与在第一实施例中的部件相同的部件,并省略这些相同部件的说明。
通信部1401是传播信息处理设备500及通信网络600之间的通信的通信接口(I/F)。通信部1401是使检索部1403从服务器设备700获取文档并在存储部1402中存储所获取的文档的中间部件。
存储部1402是例如HDD或存储器等记录介质。存储部1402既存储由检索部1403从服务器设备700中获取的文档,也存储在信息处理设备500中预先存储的本地文档。由于存储部1402的具体配置与第一实施例中的配置相同,因此省略该配置的说明。
检索部1403从服务器设备700中存储的文档中检索包括与由输入接收部110接收的关键字相同的文本的文档,并在存储部1402中存储所检索出的文档。
当检索部1403从服务器设备700中检索并获取文档时,通信网络600将来自服务器设备700的文档传送到检索部1403。通信网络600是因特网或例如LAN或无线LAN等网络。
服务器设备700包括通信部710及存储部720。
通信部710是传播服务器设备700及通信网络600之间的通信的通信接口(I/F)。通信部710是接收来自检索部1403的文档检索请求并将在存储部720中存储的文档传送到信息处理设备500的中间部件。
存储部720是例如HDD或存储器等记录介质。存储部720存储包括文本、图像、文章等的文档。由于存储部720的具体配置与第一实施例中的配置相同,因此省略该配置的说明。
信息处理系统1000与信息处理设备100的不同之处仅在于,检索部1403从服务器设备700中检索并获取文档,并在存储部1402中存储所获取的文档,因此,下面参考图15仅说明该操作。由于其它操作与在第一实施例中的那些操作相同,因此相同的附图标记用于与在第一实施例中的操作中的那些部件相同的部件,并省略那些部件的说明。
图15是由信息处理系统1000执行的文档产生操作的流程图。当输入接收部110接收到关键字(步骤S1301)并接收到要产生的新的文档的输出设置信息(步骤S1302)时,检索部1403经由通信部1401及通信网络600访问服务器设备700,检索包括在步骤S1301中接收的关键字的文档,获取所检索的文档,并在存储部1402中存储所获取的文档(步骤S1501)。内容提取部140从在存储部1402中存储的文档中提取每个都包括关键字的多个内容。然后,执行与在第一实施例中的操作相同的操作(步骤S1304到S1308)。
如上所述,在经由通信网络600连接到服务器设备700的信息处理设备500中,通信部1401从服务器设备700中获取文档,存储部1402存储由通信部1401获取的文档,输入接收部110接收用于从文档识别内容的信息(关键字),内容提取部140从文档中提取每个都包括由输入接收部110所接收的关键字的多个内容。此外,关系计算部150计算由内容提取部140所提取的内容之间的语义相关程度,布局产生部160基于这些内容之间的语义相关程度来在新的文档上确定这些内容的位置并在这些位置上布置内容,从而产生新的文档。这样,可以不给用户造成麻烦而以简单及客观的方式通过经由网络访问文档并从文档中提取内容来产生新的文档。
在第一和第二实施例中说明了通过使用由输入接收部110接收的关键字来从在存储部中存储的文档中识别并提取内容,计算表示内容之间的相似性的数值,并基于计算出的数值在新的文档上布置内容。然而,当通过提取例如在报纸或杂志中包括的文章等不同于预先存储的内容的内容来产生文档时,需要读取在报纸或杂志的页中包括的文章以产生文档。因此,在下面的描述中,说明读取在报纸或杂志的页中包括的文本或图像,产生通过读取文本或图像获得的图像数据作为文档,从产生的文档中提取多个内容,并计算内容之间的相似性,从而产生新的文档。
图16是根据本发明第三实施例的多功能产品(MFP)800的框图。MFP 800与信息处理设备100的不同之处在于MFP 800包括操作显示部1601、扫描部1602、存储部1603及打印部1604。在下面的描述中,相同的附图标记用于与在第一实施例中的操作中的那些部件相同的部件,并省略那些部件的说明。虽然下面说明第三实施例被应用于包括复制功能、传真功能、打印功能、扫描功能等的MFP 800,但是该实施例可以被应用于具有打印功能的设备。
操作显示部1601包括例如液晶显示器(LCD)等显示器(未示出)。操作显示部1601是当扫描部1602根据来自用户的指令读取报纸、杂志等的原件并在存储部1603中存储通过读取原件获得的数据时或当打印部1604输出在存储部1603中存储的文档时指定设置信息(例如存在/不存在双面打印、扩大打印及缩小打印、放大或缩小的比例等打印设置信息)的I/F。
扫描部1602包括自动输稿器(ADF)(未示出)和读取部(未示出)。在从操作显示部1601接收到用户的指令时,扫描部1602根据用于文档的输出设置来读取在曝光玻璃上的预定位置上放置的原件,并在存储部1603中存储通过读取原件获得的数据作为图像数据(文档)。
存储部1603是例如HDD或存储器等记录介质。存储部1603既存储从由扫描部1602读取的原件产生的图像数据(文档),也存储在MFP 800中预先存储的本地文档。由于存储部1603的具体配置与在第一实施例中的配置相同,因此省略该配置的说明。
打印部1604包括光学写入部(未示出)、光敏元件(未示出)、中间转印带(未示出)、充电部(未示出)、例如定影辊等各种辊(未示出)以及收集盘(未示出)。打印部1604根据经由操作显示部1601从用户接收的打印指令打印出在存储部1603中存储的文档,并将具有已打印的文档的纸排出到收集盘。
虽然没有参考附图说明由MFP 800执行的操作,然而,扫描部1602根据用户的指令读取包括文本、图像、文章等的原件,并在存储部1603中存储通过读取原件获得的图像数据(文档)。然后,在执行图13中所示的步骤S1301到S1308的操作之后,打印部1604执行打印出在步骤S1301到S1308产生的文档的操作。当上述操作结束时,根据第三实施例的全部操作结束。
如上所述,扫描部1602读取包括文档中包括的文本或图像的数据,存储部1603存储由扫描部1602读取的数据,输入接收部110接收用于从文档中提取内容的关键字。此外,内容提取部140从文档中提取每个都包括由输入接收部110接收的关键字的多个内容,关系计算部150计算由内容提取部140提取的内容之间的语义相关程度,布局产生部160基于内容之间的语义相关程度来在新的文档上确定内容的位置并在这些位置上布置内容,从而产生新的文档。另外,打印部1604打印出由布局产生部160产生的新的文档。这样,可以通过不给用户造成麻烦而以简单及客观的方式从没有预先存储的文档中提取内容来产生并打印出新的文档。
图17是用于说明MF P800的硬件配置的框图。MFP 800包括经由外围设备互联(PCI)总线互相连接的控制器10和引擎60。控制器10控制整个MFP800、绘图操作、通信及从操作部接收的输入(未示出)。引擎60是可以被连接到PCI总线的打印机引擎等。例如,引擎60是单色绘图仪、单鼓绘图仪、四鼓绘图仪、扫描仪或传真部。除了例如绘图仪等引擎部,引擎60还包括执行例如错误扩散和伽马转换等处理的图像处理部。
控制器10包括中央处理单元(CPU)11、北桥(NB)13、系统存储器(MEM-P)12、南桥(SB)14、本地存储器(MEM-C)17、专用集成电路(ASIC)16及HDD 18。经由图形加速端口(AGP)总线15将NB13和ASIC 16连接。MEM-P 12包括只读存储器(ROM)12a及RAM 12b。
CPU 11控制MFP 800。CPU 11包括具有MEM-P 12、NB 13及SB 14的芯片组,并经由该芯片组连接到其它设备。
NB13将CPU 11连接到MEM-P 12、SB 14及AGP总线15。NB 13包括控制对MEM-P 12、PCI主(未示出)及AGP目标(未示出)写入和从MEM-P12、主PCI(未示出)及目标AGP(未示出)读取的存储器控制器(未示出)。
MEM-P12是用作例如用于存储计算机程序和数据的存储器、用于扩展计算机程序和数据的存储器或用于在计算机中绘图的存储器等的系统存储器。ROM 12a用作存储计算机程序和数据的存储器。RAM 12b是用作扩展计算机程序和数据的存储器及在打印机中绘图的存储器的可写和可读存储器。
SB 14将NB 13连接到PCI设备(未示出)和外围设备(未示出)。经由PCI总线将SB 14连接到NB 13。网络I/F部(未示出)等也被连接到PCI总线。
ASIC 16是用于图像处理的集成电路(IC),并且ASIC 16包括用于图像处理的硬件元件。ASIC 16用作将AGP总线15、PCI总线、HDD 18及MEM-C17相互连接的桥。ASIC 16包括目标PCI(未示出)、主AGP(未示出)、仲裁器(ARB)(未示出)、存储器控制器(未示出)、多个直接存储器访问控制器(DMAC)(未示出)及PCI部(未示出)。ARB是ASIC 16的中心部件。存储器控制器控制MEM-C 17。DMAC通过硬件逻辑等旋转图像数据。PCI部经由PCI总线将数据传送到引擎60。经由PCI总线将ASIC 16连接到传真控制单元(FCU)30、通用串行总线(USB)40及电气与电子工程师协会(IEEE)1394I/F 50。操作显示部20被直接连接到ASIC 16。
MEM-C 17用作复制图像缓冲器及代码缓冲器。HDD 18是存储图像数据、计算机程序、字体数据及格式的存储器。
AGP总线15是用于图形加速卡的总线I/F,图形加速卡用于获得高速的图形处理。AGP总线15以高的吞吐量访问MEM-P 12,从而获得图形加速卡的高速处理。
预先在ROM等中存储由信息处理设备100和500以及MFP 800中的每个执行的计算机程序。可以在例如致密光盘只读存储器(CD-ROM)、软盘(FD)、可记录致密光盘(CD-R)或多功能数码光盘(DVD)等计算机可读记录介质中将由MFP 800执行的计算机程序存储为可安装或可执行文件。
以上说明在信息处理设备100和500及MFP 800中,当经由输入接收部110接收到来自用户的用于产生文档的指令时,开始通过从在存储部中存储的文档中提取多个内容来产生新的文档的操作。然而,例如,可以在信息处理设备或图像形成设备中计划用于提取内容并产生新的文档的各种操作,并且用户在信息处理设备或图像形成设备的存储部中存储文档和用于提取内容的关键字等,从而在预定的定时(例如,在周一早上10点)从在存储部中存储的文档中自动地提取内容。这样,由于计划了用于提取内容并产生新的文档的操作,因此可以不给用户造成任何麻烦而以更有效的方式通过提取内容来产生新的文档。
另外,上面说明在信息处理设备100和500及MFP 800中,由输入接收部110接收的信息包括要产生的新的文档的输出设置信息及用于从文档中识别内容的文档的指定区域。然而,例如,当产生新的文档时,输入接收部110可以接收输入,该输入用于指定新的文档上的某个区域(例如,第2页上的第1行到第5行的区域)是不能写入的或保留的,从而防止内容被布置在该区域上。这样,由于输入接收部110可以接收该输入,对于用户可以以更具体的方式产生新的文档。
由信息处理设备100和500及MFP 800中的每个执行的计算机程序具有包括上述部件(内容提取部、关系计算部、布局产生部等)的模块配置。对于实际硬件,CPU从ROM中读取计算机程序并执行所读取的计算机程序,从而在主存储设备上装载并生成内容提取部、关系计算部及布局产生部。
根据本发明的一个方面,可以通过不给用户造成麻烦而以简单及客观的方式提取内容来产生文档。
此外,可以通过以更客观及更有效的方式提取内容来产生文档。
另外,用户可以在产生文档的过程中真实地确定内容之间的相关性。
另外,用户可以在产生文档的过程中快速地确定内容之间的相关性。
另外,用户可以在产生文档的过程中以灵活的方式来确定内容之间的相关性。
另外,用户可以更真实并更直观地确定内容之间的相关性。
另外,可以通过不给用户造成任何麻烦而以简单及客观的方式经由网络访问文档并从文档中提取内容来产生新的文档。
另外,可以通过不给用户造成麻烦而以简单及客观的方式从没有预先存储的文档中提取内容来产生并打印出新的文档。
另外,可以提供由计算机执行的计算机程序。
注释10.一种信息处理系统,所述信息处理系统经由网络连接到文档服务器上,并且所述信息处理系统存储包括多个内容的文档,所述信息处理系统包括:
通信部,用于从文档服务器中获取文档;
存储部,用于存储由通信部获取的文档;
输入接收部,用于接收内容信息;
内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内容,所述多个内容的每一个都包括内容信息;
关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程度;及
布局产生部,用于基于所述语义相关程度来在新的文档上确定所述提取内容的位置并在所述位置上布置所述提取内容,从而产生新的文档。
注释10-1.根据注释10的信息处理系统,其中,
所述多个内容中的每一个内容都包括图像数据和文本数据中的任意一种,所述图像数据包括表示所述图像数据是否包括文本的属性信息,及
基于由所述输入接收部接收到的内容信息及在所述图像数据中包括的所述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取部提取所述内容。
注释10-2.根据注释10-1的信息处理系统,其中,
所述属性信息是在图像数据周围布置的文本,及
基于由所述输入接收部接收的内容信息及在所述图像数据周围布置的所述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取部提取所述内容。
注释10-3.根据注释10到10-2中的任一信息处理系统,其中,所述关系计算部通过比较所述提取内容来产生表示所述提取内容之间的相似性的关系图,并且所述关系计算部基于所述关系图来计算所述提取内容之间的语义相关程度。
注释10-4.根据注释10到10-2中的任一信息处理系统,其中,所述关系计算部通过比较所述提取内容来产生表示所述提取内容之间的相似性的表格,并且所述关系计算部基于所述表格来计算所述提取内容之间的语义相关程度。
注释10-5.根据注释10到10-4中的任一信息处理系统,其中,
所述输入接收部接收表示所述文档中的预定区域的区域信息,及
所述内容提取部从所述预定区域中提取所述内容。
注释10-6.根据注释10到10-5中的任一信息处理系统,其中,
所述关系计算部以所述提取内容中的一个内容作为参考,将所述语义相关程度转换为在新的文档上的坐标系统中的位置关系,及
所述布局产生部基于所述位置关系在新的文档上确定所述提取内容的位置。
注释10-7.根据注释10的信息处理系统,进一步包括:
读取部,用于读取文档中包括的文本和图像中的任意一种的数据,并在所述存储部中存储由所述读取部读取的所述数据,及
打印部,用于打印出新的文档。
注释10-8.根据注释10-7的信息处理系统,其中,所述信息处理设备是图像形成设备。
注释11.一种产生文档的方法,包括:
存储步骤,在存储部中存储包括多个内容的文档;
接收步骤,接收内容信息;
提取步骤,从在存储部中存储的文档所包括的内容中提取多个内容,所述多个内容中的每一个内容都包括内容信息;
计算步骤,计算在提取步骤中提取的提取内容之间的语义相关程度;
确定步骤,基于所述语义相关程度来在新的文档上确定所述提取内容的位置;及
布置步骤,在确定步骤中确定的所述位置上布置所述提取内容,从而产生新的文档。
注释11-1.根据注释11的方法,其中,
所述多个内容中的每一个内容都包括图像数据和文本数据中的任意一种,所述图像数据包括表示所述图像数据是否包括文本的属性信息,及
所述提取步骤包括基于在所述接收步骤中接收到的内容信息及在所述图像数据中包括的所述属性信息和在所述文本数据中包括的所述文本中的任意一个来提取所述内容。
注释11-2.根据注释11-1的方法,其中,
所述属性信息是在图像数据周围布置的文本,及
所述提取步骤包括基于在所述接收步骤中接收的内容信息及在所述图像数据周围布置的所述属性信息和在所述文本数据中包括的所述文本中的任意一个来提取所述内容。
注释11-3.根据注释11到11-2中任一的方法,其中,所述计算步骤包括通过比较所述提取内容来产生表示所述提取内容之间的相似性的关系图,并且基于所述关系图来计算所述提取内容之间的语义相关程度。
注释11-4.根据注释11到11-2中任一的方法,其中,所述计算步骤通过比较所述提取内容来产生表示所述提取内容之间的相似性的表格,并且基于所述表格来计算所述提取内容之间的语义相关程度。
注释11-5.根据注释11到11-4中任一的方法,其中,
所述接收步骤包括接收表示所述文档中的预定区域的区域信息,及
所述提取步骤从所述预定区域中提取所述内容。
注释11-6.根据注释11到11-5中任一的方法,其中,
所述计算步骤包括以所述提取内容中的一个内容作为参考,将所述语义相关程度转换为在新的文档上的坐标系统中的位置关系,及
所述确定步骤包括基于所述位置关系在新的文档上确定所述提取内容的位置。
注释11-7.根据注释11的方法,进一步包括:
通过读取部来读取文档中包括的文本和图像中的任意一种的数据,并在所述存储部中存储所述数据,及
通过打印部来打印出新的文档。
注释11-8.根据注释11-7的方法,其中,在图像形成设备上实现所述方法。
虽然结合特定实施例已经对本发明进行了完整和清楚的揭示,但是并不因此限制后附权利要求,权利要求应当被解释为包括完全落入本文阐述的基本宗义内的、对本领域技术人员可能出现的所有的修改和可选构造。
Claims (11)
1.一种信息处理设备,包括:
存储部,用于存储包括多个内容的文档;
输入接收部,用于接收内容信息;
内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内容,所述多个内容中的每一个内容都包括内容信息;
关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程度;及
布局产生部,用于基于所述语义相关程度来在新的文档上确定所述提取内容的位置并在所述位置上布置所述提取内容,从而产生新的文档。
2.根据权利要求1所述的信息处理设备,其中,
所述多个内容中的每一个内容都包括图像数据和文本数据中的任意一种,所述图像数据包括表示所述图像数据是否包括文本的属性信息,及
基于由所述输入接收部接收到的内容信息及在所述图像数据中包括的所述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取部提取所述内容。
3.根据权利要求2所述的信息处理设备,其中,
所述属性信息是在图像数据周围布置的文本,及
基于由所述输入接收部接收的内容信息及在所述图像数据周围布置的所述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取部提取所述内容。
4.根据权利要求1到3中任一所述的信息处理设备,其中,所述关系计算部通过比较所述提取内容来产生表示所述提取内容之间的相似性的关系图,并且所述关系计算部基于所述关系图来计算所述提取内容之间的语义相关程度。
5.根据权利要求1到3中任一所述的信息处理设备,其中,所述关系计算部通过比较所述提取内容来产生表示所述提取内容之间的相似性的表格,并且所述关系计算部基于所述表格来计算所述提取内容之间的语义相关程度。
6.根据权利要求1到5中任一所述的信息处理设备,其中,
所述输入接收部接收表示所述文档中的预定区域的区域信息,及
所述内容提取部从所述预定区域中提取所述内容。
7.根据权利要求1到6中任一所述的信息处理设备,其中,
所述关系计算部以所述提取内容中的一个内容作为参考,将所述语义相关程度转换为在新的文档上的坐标系统中的位置关系,及
所述布局产生部基于所述位置关系在新的文档上确定所述提取内容的位置。
8.根据权利要求1所述的信息处理设备,进一步包括:
读取部,用于读取文档中包括的文本和图像中的任意一种的数据,并在所述存储部中存储由所述读取部读取的所述数据,及
打印部,用于打印出新的文档。
9.根据权利要求8所述的信息处理设备,其中,所述信息处理设备是图像形成设备。
10.一种信息处理系统,所述信息处理系统经由网络连接到文档服务器上,并且所述信息处理系统存储包括多个内容的文档,所述信息处理系统包括:
通信部,用于从文档服务器中获取文档;
存储部,用于存储由通信部获取的文档;
输入接收部,用于接收内容信息;
内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内容,所述多个内容的每一个都包括内容信息;
关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程度;及
布局产生部,用于基于所述语义相关程度来在新的文档上确定所述提取内容的位置并在所述位置上布置所述提取内容,从而产生新的文档。
11.一种产生文档的方法,包括:
存储步骤,在存储部中存储包括多个内容的文档;
接收步骤,接收内容信息;
提取步骤,从在存储部中存储的文档所包括的内容中提取多个内容,所述多个内容中的每一个内容都包括内容信息;
计算步骤,计算在提取步骤中提取的提取内容之间的语义相关程度;
确定步骤,基于所述语义相关程度来在新的文档上确定所述提取内容的位置;及
布置步骤,在确定步骤中确定的所述位置上布置所述提取内容,从而产生新的文档。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008-004800 | 2008-01-11 | ||
JP2008004800A JP2009169536A (ja) | 2008-01-11 | 2008-01-11 | 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム |
JP2008004800 | 2008-01-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101488124A true CN101488124A (zh) | 2009-07-22 |
CN101488124B CN101488124B (zh) | 2011-06-01 |
Family
ID=40850370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100023426A Expired - Fee Related CN101488124B (zh) | 2008-01-11 | 2009-01-07 | 信息处理设备、信息处理系统及信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090180126A1 (zh) |
JP (1) | JP2009169536A (zh) |
CN (1) | CN101488124B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314484A (zh) * | 2010-07-08 | 2012-01-11 | 佳能株式会社 | 图像处理装置及图像处理方法 |
CN103455472A (zh) * | 2012-06-01 | 2013-12-18 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
CN108153715A (zh) * | 2016-12-02 | 2018-06-12 | 财团法人资讯工业策进会 | 比较表格自动产生方法及装置 |
CN110659346A (zh) * | 2019-08-23 | 2020-01-07 | 平安科技(深圳)有限公司 | 表格提取方法、装置、终端及计算机可读存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5115089B2 (ja) * | 2007-08-10 | 2013-01-09 | 富士通株式会社 | キーワード抽出方法 |
JP5447368B2 (ja) * | 2008-03-12 | 2014-03-19 | 日本電気株式会社 | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム |
JP5338586B2 (ja) * | 2009-09-15 | 2013-11-13 | 株式会社リコー | 画像処理装置、画像処理システムおよび画像処理プログラム |
US8881007B2 (en) * | 2011-10-17 | 2014-11-04 | Xerox Corporation | Method and system for visual cues to facilitate navigation through an ordered set of documents |
DE102012102797B4 (de) * | 2012-03-30 | 2017-08-10 | Beyo Gmbh | Kamerabasiertes Mobilfunkgerät zur Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf dem kamerabasierten Mobilfunkgerät |
EP2824586A1 (en) * | 2013-07-09 | 2015-01-14 | Universiteit Twente | Method and computer server system for receiving and presenting information to a user in a computer network |
US11080341B2 (en) | 2018-06-29 | 2021-08-03 | International Business Machines Corporation | Systems and methods for generating document variants |
WO2021117483A1 (ja) * | 2019-12-09 | 2021-06-17 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787414A (en) * | 1993-06-03 | 1998-07-28 | Kabushiki Kaisha Toshiba | Data retrieval system using secondary information of primary data to be retrieved as retrieval key |
JP2000207396A (ja) * | 1999-01-08 | 2000-07-28 | Dainippon Screen Mfg Co Ltd | 文書レイアウト装置 |
JP2000339306A (ja) * | 1999-05-28 | 2000-12-08 | Dainippon Screen Mfg Co Ltd | 文書作成装置 |
JP3457617B2 (ja) * | 2000-03-23 | 2003-10-20 | 株式会社東芝 | 画像検索システムおよび画像検索方法 |
US7430562B1 (en) * | 2001-06-19 | 2008-09-30 | Microstrategy, Incorporated | System and method for efficient date retrieval and processing |
US6721452B2 (en) * | 2001-09-12 | 2004-04-13 | Auburn University | System and method of handwritten character recognition |
JP2003150639A (ja) * | 2001-11-14 | 2003-05-23 | Canon Inc | メディア検索装置及び記憶媒体 |
US7243303B2 (en) * | 2002-07-23 | 2007-07-10 | Xerox Corporation | Constraint-optimization system and method for document component layout generation |
JP2006059075A (ja) * | 2004-08-19 | 2006-03-02 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
JP2006085582A (ja) * | 2004-09-17 | 2006-03-30 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
JP4920928B2 (ja) * | 2005-08-08 | 2012-04-18 | キヤノン株式会社 | 画像処理装置及びその制御方法、プログラム |
JP4909576B2 (ja) * | 2005-11-29 | 2012-04-04 | 株式会社リコー | 文書編集装置、画像形成装置およびプログラム |
JP2007193500A (ja) * | 2006-01-18 | 2007-08-02 | Mitsubishi Electric Corp | 文書または図面作成支援装置 |
JP2007249429A (ja) * | 2006-03-14 | 2007-09-27 | Ricoh Co Ltd | 電子メール編集装置、画像形成装置、電子メール編集方法、およびその方法をコンピュータに実行させるプログラム |
JP4897520B2 (ja) * | 2006-03-20 | 2012-03-14 | 株式会社リコー | 情報配信システム |
US8726178B2 (en) * | 2006-11-10 | 2014-05-13 | Ricoh Company, Ltd. | Device, method, and computer program product for information retrieval |
CN101226596B (zh) * | 2007-01-15 | 2012-02-01 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
-
2008
- 2008-01-11 JP JP2008004800A patent/JP2009169536A/ja active Pending
-
2009
- 2009-01-06 US US12/318,684 patent/US20090180126A1/en not_active Abandoned
- 2009-01-07 CN CN2009100023426A patent/CN101488124B/zh not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314484A (zh) * | 2010-07-08 | 2012-01-11 | 佳能株式会社 | 图像处理装置及图像处理方法 |
CN102314484B (zh) * | 2010-07-08 | 2014-03-19 | 佳能株式会社 | 图像处理装置及图像处理方法 |
CN103455472A (zh) * | 2012-06-01 | 2013-12-18 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
CN103455472B (zh) * | 2012-06-01 | 2017-05-17 | 索尼公司 | 信息处理设备和信息处理方法 |
CN108153715A (zh) * | 2016-12-02 | 2018-06-12 | 财团法人资讯工业策进会 | 比较表格自动产生方法及装置 |
CN108153715B (zh) * | 2016-12-02 | 2021-07-06 | 财团法人资讯工业策进会 | 比较表格自动产生方法及装置 |
CN110659346A (zh) * | 2019-08-23 | 2020-01-07 | 平安科技(深圳)有限公司 | 表格提取方法、装置、终端及计算机可读存储介质 |
CN110659346B (zh) * | 2019-08-23 | 2024-04-12 | 平安科技(深圳)有限公司 | 表格提取方法、装置、终端及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20090180126A1 (en) | 2009-07-16 |
CN101488124B (zh) | 2011-06-01 |
JP2009169536A (ja) | 2009-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101488124B (zh) | 信息处理设备、信息处理系统及信息处理方法 | |
CN102053950B (zh) | 文档图像生成装置和文档图像生成方法 | |
US5819235A (en) | Information processing apparatus and method utilizing useful additional-information item | |
US7401078B2 (en) | Information processing apparatus, document search method, program, and storage medium | |
US20030210428A1 (en) | Non-OCR method for capture of computer filled-in forms | |
US20070061319A1 (en) | Method for document clustering based on page layout attributes | |
JP2006178973A (ja) | ドキュメントセパレータページ | |
JP2008234658A (ja) | テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション | |
JP4783802B2 (ja) | 印刷物への広告出力方法及び装置 | |
US8577887B2 (en) | Content grouping systems and methods | |
JP2005295564A (ja) | 文書管理方法 | |
JP2000222394A (ja) | 文書管理装置及びその文書管理方法並びにその制御プログラムを記録した記録媒体 | |
US20080304113A1 (en) | Space font: using glyphless font for searchable text documents | |
EP2884425B1 (en) | Method and system of extracting structured data from a document | |
JP2973913B2 (ja) | 入力シートシステム | |
US20110214048A1 (en) | Method and system for automatic data aggregation | |
JP2006202081A (ja) | メタデータ生成装置 | |
US20110113321A1 (en) | Xps file print control method and print control terminal device | |
JP2010092383A (ja) | 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム | |
JP3308153B2 (ja) | マルチメディア情報高次元化表示システム | |
JP4008628B2 (ja) | ページ編集装置、ページ編集方法、ページ編集プログラム、及び画像形成装置 | |
JP4934181B2 (ja) | 付加画像処理システム、画像形成装置及び付加画像追加方法 | |
JP2001256256A (ja) | 電子文書検索装置および電子文書検索方法 | |
US20100188674A1 (en) | Added image processing system, image processing apparatus, and added image getting-in method | |
JP7314627B2 (ja) | 制御装置、画像形成装置、制御方法および制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110601 Termination date: 20150107 |
|
EXPY | Termination of patent right or utility model |