CN101408875A - 信息处理装置、图像形成装置、程序、文档数据构成方法 - Google Patents
信息处理装置、图像形成装置、程序、文档数据构成方法 Download PDFInfo
- Publication number
- CN101408875A CN101408875A CNA2008102129721A CN200810212972A CN101408875A CN 101408875 A CN101408875 A CN 101408875A CN A2008102129721 A CNA2008102129721 A CN A2008102129721A CN 200810212972 A CN200810212972 A CN 200810212972A CN 101408875 A CN101408875 A CN 101408875A
- Authority
- CN
- China
- Prior art keywords
- document
- classification
- document data
- data
- literal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Record Information Processing For Printing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种使制作文档时的表达方式的确定或结构设定变得容易的信息处理装置等。信息处理装置(111),包含文档类别信息存储单元(131),存储文字或字符串;文档数据输入单元(126);类别判断单元(22),基于对应于文档数据中包含的文字或字符串而存储在文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;文档结构信息存储单元(133),用于存储对于每种文档类别指定文档数据的文字字体、大小、粗细、文字或字符串的配置位置的一种以上的文档结构信息;文档构成单元(24),基于对应于文档类别而存储在文档结构信息存储单元中的文档结构信息,调整所输入的文档数据的样式。
Description
技术领域
本发明涉及一种判断文档数据的文档类别而构成文档数据的信息处理装置、图像形成装置、程序及文档数据构成方法。
背景技术
在报告书或报道等中,传阅或提出纸文档或电子文档(下面仅称为文档)的场合极其多。用户每次根据报告书或报道等的使用目的、使用场合等制作文档时,要推敲恰当的文章并研究版面设计。在此,文档的版面设计大多根据文档的类别或使用场合来确定(例如,参照日本专利公开2007-052615号)。日本专利公开2007-052615号中公开了一种基于扫描的文档的版面设计指定文档的类别,并按照该类别进行分类予以电子化的文档处理装置。
如日本专利公开2007-052615号的记载,虽然文档的版面设计由文档的类别或使用场合等确定,但至今还不能根据文档的类别自动选定版面设计或推敲文章。因此,存在用户仍然需要根据文档的类别或使用场合找出恰当的语言或版面设计来制作文档的问题。
发明内容
本发明针对上述课题,提供一种使文档制作过程中表达方式的确定或结构的设定变得容易的信息处理装置、图像形成装置、程序及文档数据构成方法。
针对上述课题,本发明所提供的信息处理装置,包括:文档类别信息存储单元,对应于文档数据的文档类别而存储用于该文档类别的文档数据中的文字或字符串;用于输入文档数据的文档数据输入单元;类别判断单元,基于对应于由所述文档数据输入单元所输入的文档数据中包含的文字或字符串而存储在所述文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;文档结构信息存储单元,存储对于每种文档类别指定文档数据的文字字体、大小、粗细、文字或字符串的配置位置的一种以上的文档结构信息;文档构成单元,基于对应于所述类别判断单元所判断的文档数据的文档类别而存储在所述文档结构信息存储单元中的所述文档结构信息,调整所输入的文档数据的样式。
根据本发明,判断文档数据的文档类别,由此可以将文档结构再调整为适合于文档类别的结构。
在本发明的一实施方式中,本发明的信息处理装置包含:校正信息存储单元,对于每种文档类别,对应于校正前的文字或字符串存储校正后的文字或字符串;校正单元,当由所述文档数据输入单元所输入的文档数据中包含存储在所述校正信息存储单元中的校正前的文字或字符串时,根据所述类别判断单元所判断的输入文档数据的文档类别,由存储在所述校正信息存储单元中的校正后的文字或字符串来校正校正前的文字或字符串。
根据本发明,可以根据文档类别校正文档数据。
在本发明的一实施方式中,类别判断单元对每种文档类别计算由所述文档数据输入单元所输入的文档数据的文字或字符串中,存储在所述文档类别信息存储单元中的文字或字符串数量,并将文档类别判断为计算的数量最多的文档数据的文档类别。
根据本发明,即使文档数据中包含文档类别不同的文字或字符串,也可以适当地判断文档类别。
在本发明的一实施方式中,当类别判断单元判断由文档数据输入单元所输入的文档数据为用于办公或交易等的商务文档时,文档构成单元根据商务文档的文档结构信息,在文档数据的分条写的行头添加行头标记。
根据本发明,对于商务文档,可以在分条写的行头自动地添加标号,因此可以提高用户的方便性。
在本发明的一实施方式中,当所述类别判断单元判断由所述文档数据输入单元所输入的文档数据为用于办公或交易的商务文档时,所述文档构成单元根据商务文档的所述文档结构信息,将文档数据中所包含的日期信息或地点信息配置在预定的位置。
根据本发明,对于商务文档,可以将日期或地点配置在适当的位置,因此可以提高用户的方便性。
在本发明的一实施方式中,当所述类别判断单元判断由所述文档数据输入单元所输入的文档数据为贺年状时,所述文档构成单元根据贺年状的所述文档结构信息,将文档数据中所包含的构成新年致词的文字字体改为毛笔体。
根据本发明,可以将贺年状的新年致词改为毛笔体,因此可以提高用户的方便性。
在本发明的一实施方式中,所述文档结构信息存储单元对于十二生肖的每一生肖存储对应的动物图像数据,当所述类别判断单元判断由所述文档数据输入单元所输入的文档数据为贺年状时,所述文档构成单元从所述文档结构信息存储单元提取与输入文档数据的年度的次年度生肖对应的动物图像数据,并根据贺年状的所述文档结构信息将其配置到所述贺年状的预定位置。
根据本发明,可以在贺年状上粘贴对应于生肖的图像数据,因此可以提高用户的方便性。
在本发明的一实施方式中,所述校正单元在显示装置上显示文档数据中所包含的校正前的文字或字符串的同时显示多个校正后的文字或字符串,并利用在多个校正后的文字或字符串中被定点设备选择的文字或字符串来校正文档数据的校正前的文字或字符串。
根据本发明,可以从多个候补选择适当的校正后的文字或字符串。
附图说明
图1表示判断文档类别的信息处理装置通过网络N连接于图像形成装置的印刷系统结构的例子的概略图。
图2表示信息处理装置的硬件结构的例子的图。
图3表示信息处理装置的功能结构图的一例子。
图4表示信息处理装置的功能结构图的一例子。
图5表示存储在文档类别信息数据库(DB)中的信息的一例子的图。
图6表示存储在文档类别信息DB中的信息的更详细例子的图。
图7表示文档类别判断单元判断文档类别的顺序的流程图的一例子。
图8表示存储在校正信息DB中的信息的一例子的图。
图9表示表达方式校正单元根据文档类别校正表达方式的顺序的流程图的一例子。
图10表示显示在显示器上的文本数据的构成例子的图。
图11为表示显示了校正后表达方式的多个候补的文本数据之一例的图。
图12为表示商务文档的文档结构之一例的图。
图13为表示文档构成单元根据文档结构信息调整文本数据的顺序的流程图。
图14为表示调整前和调整后的文本数据之一例的图。
图15为表示显示在显示器中的文本数据和文档结构箱之一例的图。
图16为表示贺年状的文档结构之一例。
图17为表示文档构成单元调整文本数据的顺序的流程图。
图18为表示调整前和调整后的文本数据之一例的图。
图19为表示图像形成装置判断文档类别的顺序图。
图20为表示信息处理装置的功能结构图之一例(实施例2)。
图21为表示存储在文档类别信息DB中的信息之一例的图(实施例2)。
图22为表示记录在属性信息DB中的属性信息之一例的图。
图23为表示文档类别判断单元判断文档类别的顺序的流程图。
图24为表示举报单元提取文本数据的发信人进行举报的顺序的流程图。
主要符号说明:20为文本数据,21为IM(Input method),22为文档类别判断单元,23为表达方式校正单元,24为文档构成单元,26为属性信息记录单元,27为举报单元,28为禁止转发单元,31~39为文字配置栏,40为插图栏,110为图像形成装置,111为信息处理装置,112为键盘,113为鼠标,114为显示器,126为存储装置,131为文档类别信息DB,132为校正信息DB,133为文档结构信息DB,134为程序,135为属性信息DB。
本发明的最佳实施方式
下面,参照附图说明本发明的最佳实施方式。
[实施例1]
本实施方式的信息处理装置,根据文档中的用语判断文档的类别(下面称为文档类别),并根据文档类别校正表达方式的同时调整文档结构的样式。据此,无需用户根据文档的类别校正表达方式或确定文档结构,而可以根据文档类别确定恰当的表达方式和文档结构,因此可以提高用户的方便性。
在此,所谓文档类别是根据文档的使用场合而确定的文档的类别,例如,商务文档、贺年信、需要由投影仪进行投影的设计资料(presentation)、欢送会/欢迎会等的通知等。虽然商务文档还包含企划书、报价单、成果报告书、出差报告书等各种类别,而且可以对这些类别进行区分,但是下面仅称作商务文档。
所谓校正表达方式是指修改错别字、漏字及语法误用之外的不恰当的措辞。也可以修改错别字漏字、语法的错误、文章的重复记载等。所谓文档结构是指,例如每个段落的配置位置、居中、左侧对齐、右侧对齐、文字的字体、大小、粗体和细字体的区别、文字或背景的颜色、项目符号、有无段落边框等。
图1表示判断文档类别的信息处理装置111通过网络N连接于图像形成装置110的印刷系统的简单结构图。信息处理装置111可以由例如PC(个人计算机)、便携式电话、PDA(Personal Digital(Data)Assistants)、PHS(Personal Handyphone System)等计算机构成。图像形成装置110是打印机、传真装置、扫描装置、MFP(Multi FunctionPrinter)等用于印刷、发送、保存文档的输出装置。
比如,用户启动文字处理软件等应用程序后,操作信息处理装置111的键盘112及鼠标113输入文字。所输入的文字依次显示在显示器114上,并最终生成文档或表等。下面,将文档数据或电子邮件等包含文字的数据称为文本数据,不关心文本数据将存储为二进制文件还是文本文件。
本实施方式的信息处理装置111提取构成文本数据的独立语(主要是在使用日语时)或单词(主要是在使用英语时),并参照文档类别信息数据库(下面称为DB)以判断文本数据的文档类别。在此,将独立语作为日语的构成要素,将单词作为英语的构成要素,但是对于其它语言,也能根据相当于独立语或单词的构成要素判断文档类别。
比如,当信息处理装置111接收到文本数据或读取存储在移动存储器128中的文本数据而存储在存储装置126时,信息处理装置111根据文本数据中所包含的独立语或单词,判断文本数据的文档类别。
图2是表示信息处理装置111的硬件结构的例子的图。信息处理装置111包含由总线B相互连接的RAM(Random Access Memory)121、ROM(Read-Only Memory)122、输入装置112、113(相当于图1的键盘112、鼠标113)、NIC(Network Interface Card)123、驱动装置124、显示控制部125、存储装置126以及CPU127。
RAM121是执行OS或程序的工作存储器,ROM122用于存储BIOS等用于启动OS的程序或设定文件。输入装置112、113是键盘或鼠标等用于输入用户的各种操作的装置。NIC123是与网络N连接的界面,用于执行TCP(Transmission Control Protocol)/IP(Internet Protocol)等协议的处理。驱动装置124由CD-RW或存储卡等存储介质128构成,并可以进行装卸,存储介质128在写入程序或数据时使用,并读取记录在存储介质128上的程序或数据,发送到存储装置126。
显示控制部125根据应用软件所指示的画面信息,以预定的分辨率或像素等形成GUI(Graphical User Interface)画面,并将操作所需的各种窗口或数据显示在显示器114上。
存储装置126是HDD(硬盘驱动器)或闪光存储器等非挥发性存储器,用于存储OS、应用软件、程序134。CPU127通过从存储装置126加载并执行OS、应用软件、程序而提供各种功能的同时综合控制信息处理装置111所进行的处理。
存储装置126中存储有后述的文档类别信息DB131、校正信息DB132以及文档结构信息DB133。
信息处理装置111所执行的程序134可以存储在存储介质128上来使用,或者从预定的服务器通过网络N来使用。当记录程序134的记录介质128放在驱动装置124上时,通过驱动装置124从记录介质128安装程序134到记忆装置126。从服务器接收程序时,通过NIC123安装在存储装置126上。
通过CPU127执行程序134,完成判断文本数据类别的文本类别判断单元22、校正文本数据的表达方式的表达方式校正单元23、调整文本数据的文档结构样式的文档构成单元24、提取字符串的字符串提取单元25。如下述,表达方式校正单元23用于校正文字处理软件等应用软件27的表达方式,文档构成单元24同样利用应用软件27的显示画面,因此最好由应用软件27的插件(add-in)等构成。
图3是信息处理装置111的功能结构图。由于文档类别判断单元22从文本数据20判断文档类别,因此执行在OS上输入文本数据20的应用软件27。在此,应用软件27只要是可以输入文本数据20的软件均可,例如文字处理软件、制表软件、电子邮件软件等。
字符串提取单元25以及文档类别判断单元22可以在信息处理装置111启动的同时执行,也可以随着应用软件27的启动而执行。表达方式校正单元23及文档构成单元24根据用户的预定操作而启动。
键盘112通过用手指操作按键,将文字输入到信息处理装置111中。当用户按住按键时,所对应的按键码(例如,ASCII码)被送往信息处理装置111。按键码通过如BIOS(Basic Input Output System)变换为对应的字符码。在此,键盘112只要是可以产生按键码的单元均可,例如触摸屏、手写文字输入、语音输入等。
当用日语输入文本时,根据用户操作启动IM(Input Method)21,字符码由IM21变换为日语。当不经变换直接输入文本时,字符码直接被输入到应用软件27及文档类别判断单元22。
IM21是将一连串字符码变换为日语等语言的所谓的假名-汉字变换系统。例如,由键盘112输入“N O U K I”时,IM21参照辞典将一连串字符码变换为“のうき(对应的日语平假名)”,同时根据预定的操作或设定变换为“納期(对应的日语汉字)”或“農機(对应的日语汉字)”等。当变换为“納期”时,生成分别对应于“納”和“期”的两个字符码。在此,字符码可以为Unicode、JIS码、Shift-JIS码等任意一种。下面,将用于判断文档类别的词称为类别判定词。
字符串提取单元25用于提取预定的文字或字符串。字符串提取单元25一个字一个字地参照文本数据20的字符码,从文本数据20提取被记录在文档类别信息DB131中的类别判定词。或者,也可以参照辞典对文本数据20,例如对每个短文进行公知的日语文章结构分析,找出相关关系,并提取短语的分类或独立语来提取类别判定词。
文档类别判断单元22将对应于文档类别信息DB131中记录的类别判定词的文档类别判断为文本数据20的文档类别。
图4表示信息处理装置111的功能结构图的另一例子。在图4中,与图3相同的部分赋予相同的符号,并省略其说明。图3中描述了从键盘112输入文本数据20的实施方式,但也可以从一个文件中所包含的文本数据20判断文档类别。
信息处理装置111通过电子邮件等接收的文本数据20先存储在存储装置126中。应用软件27读取文本数据20而显示在显示器114或进行语音播放,此时,文档类别判断单元22提取文本数据20,并与图3相同,可以由类别判定词判断文档类别。
(文档类别的判断)
下面说明文档类别的判断。图5表示存储在文档类别信息DB131中的信息的例子。如图5所示,各种类别判定词上对应着文档类别。比如,“调查”、“资料”、“缴纳期”、“企业”、“成果”对应于商务文档的文档类别,“恭贺新年”、“新年好”、“元旦”、“庆贺新年”、“庆贺新春”对应于贺年状的文档类别,“啤酒”、“饮料自助”、“聚会”、“欢迎会”、“唱歌自助”对应于通知的文档类别。
文档类别判断单元22包含文本数据20。根据具有文档类别特征的的类别判定词并参照文档类别信息DB131,提取对应于各个类别判定词的文档类别。例如,对每个文本数据20判断文档类别。
在此,当从一个文本数据20检测出不同的文档类别时,判断为属于检测次数最多的文档类别。文档类别判断单元22将表示文档类别的信息作为元数据而添加到文本数据20上。
图6表示文档类别信息DB131的更详细的结构图。图6中对应于文档类别记录类别判定词及构成类别判定词的文字的字符码。因此,文档类别判断单元22通过比较文本数据20中所包含的类别判定词和文档类别信息DB131的一连串的字符串,从而提取对应于类别判定词的文档类别。
图7表示文档类别判断单元22判断文档类别的顺序的流程图。首先,在信息处理装置111中输入文本数据20。比如,输入“以具竞争力的产品为核心推动开拓”的文本数据20。
文档类别判断单元22从文本数据20的字符码8B23(竞)、9188(争)、97CD(力)……8A6A(核)……8A4A(开)、91F1(拓)……提取与记录在文档类别信息DB131的类别判定词一致的字符串(S20)。然后,利用所提取的类别判定词判断文档类别(S30)。
从文本数据20提取了“核”、“开拓”、“推动”的类别判定词,由于这些对应于商务文档的文档类别,因此文档类别判断单元22将该文本数据20判断为商务文档的文档类别。
(表达方式校正)
下面说明对应于文档类别的表达方式校正。表达方式校正单元23根据文档类别判断单元22所判断的文档类别校正文本数据20的表达方式。
商务文档、贺年状、设计资料(presentation)、欢迎会/欢送会等通知的表达方式是固定的,而且有不应使用的表达方式(下面称为被修改表达方式)。在本实施方式中,当检测出文档类别之后,如果文本数据20中包含被修改表达方式,则校正被修改表达方式。被修改表达方式和校正后的表达方式,存储在校正信息DB132中。
图8表示存储在校正信息DB132中的信息的一个例子。校正信息DB132按照文档类别对应存储被修改表达方式和校正后的表达方式。比如,商务文档时,“进行开拓”的被修改表达方式上对应“推动开拓”的表达方式,“进行调查”的被修改表达方式上对应“细查”的表达方式。如此,对没有错误的表达方式,也能将其校正为更适合于商务表达方式。
同样,从礼貌上最好进行修改的被修改表达方式上,对应校正后的表达方式。
·叫什么名字→请问贵姓
·等一下→请稍等
·过些时间→以后
·大概→为了慎重起见
·现在→目前
·马上→尽快
·很→非常
·进行调查→细查
·大概→估计
·“谁”→哪位
·哪儿→哪里
·怎样→如何
·以前→以往
并且,比如在贺年状中,在最好用汉字记载的被修改表达方式上对应校正后的表达方式。
·xin nian hao→新年好
并且,在贺年状中,从礼貌上最好进行修改的被修改表达方式上对应校正后的表达方式。比如,由于“迎春”是简单的表达方式,所以不便用在给长辈(上司)的贺年状上。
·迎春→恭贺新年
并且,经常在贺年状上使用的重复表达方式的被修改表达方式上对应校正后的表达方式。比如,“新年 恭贺新年”中,“新年”和“恭贺新年”的意思重复。
·新年 恭贺新年→恭贺新年
并且,从礼貌上讲,应在贺年状上避免使用忌讳的词,因此在忌讳的词的被修改表达方式上对应校正后的表达方式。
·去年→过去一年
·枯萎→干燥
·灭亡→去世
表达方式校正单元23根据文档类别并参照校正信息DB132,将文本数据20中所包含的被修改表达方式置换为校正后的表达方式。图9表示表达方式校正单元23根据文档类别校正表达方式的顺序的流程图。
首先,信息处理装置111中输入文本数据20(S10)。比如,输入“以具竞争力的产品为核心进行开拓。”的文本数据20。表达方式校正单元23取得文档类别判断单元22所判断的文档类别(S110)。然后,参照校正信息DB132,将被修改表达方式校正为校正后的表达方式(S120)。
在此,表达方式校正单元23向应用软件27要求将被修改表达方式置换为校正后的表达方式。
图10表示显示在显示器114中的文本数据20的构成例子的图。校正前的文本数据20为“以具竞争力的产品为核心进行开拓。”,但由于“进行开拓”的表达方式在商务文档中是被修改表达方式,因此文本数据20被校正为“以具竞争力的产品为核心推动开拓。”。为了能让用户掌握,校正后的表达方式被添加下划线、被四角形圈住、进行反转显示或改变颜色而进行显示。在此,显示校正后的表达方式后,如果用户接受校正,即可进行校正。
在此,根据被修改表达方式,校正后的表达方式可能会有多个候补,此时最好使多个候补为可选项。图11表示显示了校正后的表达方式的多个候补的文本数据20的一个例子。例如,表达方式校正单元23在被修改表达方式“进行开拓”上画下划线或用四角形圈住等进行显示,当用户用鼠标113右击时,显示多个候补。用户可以从多个候补选择适合于文本数据20的表达方式。
(文档结构的样式的调整)
下面说明对应于文档类别的文档结构的样式调整。文档构成单元24根据由文档类别判断单元22判断的文档类别调整文本数据20的文档结构的样式。
商务文档、贺年状、设计资料、欢迎会/欢送会等通知大多有固定的优选的文档结构。在本实施方式中,根据文档类别预先准备好各种文档结构,并根据该文档结构调整文本数据20的文档结构的样式,由此给用户减少设定文档结构的麻烦。用于指定每个文档类别的文档结构的文档结构信息存储在文档结构信息DB133中。
(商务文档)
图12表示商务文档的文档结构的一个例子。比如,为了在A4纸的区域配置文本数据20,图12的文档结构例子具有多个文字配置栏31~36。
在文字配置栏31~36中,纸张的左上角的位置被固定,同时还预先设定了字体、文字大小、粗体和细文字、居中、行间距、字间距、文字颜色等。在此,[文件名称栏]等用[]圈住的字符串在配置文本数据20时将自动删除。
比如,文字配置栏31配置在纸张的右上角,从OS获得文档构成单元24调整文本数据20的文档结构的样式的日期而进行设定。文字配置栏31中配置文本数据20的制作者姓名。制作者姓名由信息处理装置111中登录的用户姓名自动获得。
文字配置栏32用于配置文本数据20的文件名称,例如,用粗黑字体居中地配置16~20点(point)的文字。文字配置栏33是配置文本数据20的概要、背景、摘要等的栏。例如,用明朝体(字体)左对齐地配置10.5点的文字。此外,文字配置栏34、35是用于配置文本数据20要传达的核心内容的栏。例如,用明朝体(字体)左对齐地配置10.5点的文字。根据文本数据20,具有多个文字配置栏34、35会更加方便,因此如图所示准备多个文字配置栏34、35(图中为两个)。为了对应分条写的文本数据20,文字配置栏35中事先设定有编号(1)~(3)。文字配置栏36是用于配置定型通知的内容的栏。例如,用明朝体(字体)居中地配置10.5点的文字。图中通过用阴影的四角包围文字配置栏36,从而使通知内容更加醒目。此外,还可以设置表示文本数据20的收信人的栏、表示文本数据20内容的查询人的栏、粘贴Jpeg等文字以外的目标的栏等。
文档构成单元24分析文档数据20,在文字配置栏31~36中配置文本数据20。图13表示文档构成单元24根据文档结构信息构成文本数据20的顺序的流程图。
用户正通过文字处理软件等应用软件27编辑文本数据20,并已通过文档类别判断单元22判断文档类别是商务文档。当用户通过预定的菜单启动文档构成单元24时,图13的流程被启动。在此,为了使文档结构的样式调整变得容易,也可以在选择文本数据20的预定范围之后启动文档构成单元24。文档构成单元24一旦被启动,从OS获得日期和用户名,并将其配置在文字配置栏31。
在此,假设文本数据20是如图14(a)所示的下面的文章。
市场调查
其它竞争公司的调查
宣传册的制作
首先,文档构成单元24判断文本数据20的第一行结尾是否有句号(S210)。如果没有句号,则很有可能是文本数据20的文件名称,因此文档构成单元24将第一行配置在对应于文件名称的栏中(S220)。图12中,文字配置栏32中配置“这些配合方法”。
接着,文档构成单元24判断段落有没有分条写(S230)。在此,段落是指从缩进开始的行至下一个缩进开始的行之前一行。由于分条写时,很多时候在各行的开头部分添加“·”、“(1)”、“I”、“◆”、“A.”等符号,因此当检测出这些符号时,判断为有分条写的部分。并且,由于分条写时不会在行结尾处添加句号,因此在没有句号时,判断为具有分条写的部分。当满足这些情况中的任意一个情况时,即可判断为具有分条写的部分,也可以在满足所述所有情况时,判断为具有分条写的部分。
并且,分条写的段落之后的下一个段落有时会空一行记载,因此可以认为空行之前的段落为分条写的段落。此外,接着分条写的下一个句子由句号结束时,认为用句号结束的句子之前的部分为分条写的段落。
由于图14(a)中的文本数据20“市场调查”、“其它竞争公司的调查”、“宣传册的制作”没有句号,因此可以将该三行判断为具有分条写的段落。段落的结尾与文本数据20的结尾相同。
当段落中具有分条写的部分时(S230的“是”),文档构成单元24将该段落配置在对应于分条写的栏中(S240)。图12中,对应于分条写的文字配置栏35中配置“市场调查”、“其它竞争公司的调查”、“宣传册的制作”。
接着,文档构成单元24判断是否具有“日期”或“地点”的字符串(S250)。在此,也可以在包含“日期”或“地点”的判断基准上,加上行结尾处是否具有句号作为判断基准。
当具有“日期”或“地点”的字符串时(S250的“是”),包含日期、地点的段落为定型通知的内容的段落,因此文档构成单元24将该内容配置在图12的文字配置栏36中(S270)。
文档构成单元24在通知栏中,在“日期”之后配置连续的字符串(例如,20XX年1月1日),在“地点”之后配置连续的字符串(例如,XX公园)。
当段落中没有“日期”或“地点”的字符串时(S250“否”),文档构成单元24从上方的文字配置栏顺序配置段落(S260)。图12中,配置在文字配置栏33、34中。
文档构成单元24对每个段落而且至文本数据20结束为止、反复进行上述处理(S280)。
图14(b)表示文档构成单元24对图14(a)所示的文本数据20进行文档结构调整的结果之一例。由于“这些配合方法”被配置在文字配置栏32中、因此变更为大文字或粗体,且由于“市场调查”、“其它竞争公司的调查”、“宣传册的制作”被配置在文字配置栏35中,因此在行首添加(1)~(3)符号。
因此,用户仅需输入文本数据20,就可以判断文档类别、校正表达方式、同时根据文档类别对文本数据20的文档结构进行适当的调整。
在此,不必如图12那样决定整个纸张的文档结构,可以对每个段落或用户选择的范围等,仅对纸张的一部分调整文档结构的样式。此时,文档结构信息DB133中个别地登录文字配置栏32~36,因此可以根据用户操作一览显示与文字配置栏32~36相同的文档结构箱,并根据用户的选择将文本数据20调整成所选择的文档结构箱中的任意一种文档结构的样式。
图15表示显示在显示器114上的文本数据20和文档结构箱41~44的一个例子。当用户从预定菜单启动文档构成单元24时,应用软件27被分到框架标记中,显示文档结构箱41~44。
文档结构箱41~44不仅显示“文件名称用”等简单的用途,而且为了便于选择,显示各文档结构箱41~44的字体、粗体和细文字、文字大小、居中、左对齐、右对齐等。并且,作为调整文本数据20的文档结构样式时的最终例子,用“×××…”显示字符串。用于可以根据文档结构箱41~44给文本数据20选择合适的文档结构。
(贺年状)
接着,说明贺年状的文档结构。图16表示贺年状的文档结构的一个例子。图16的文档结构例子,例如具有多个文字配置栏37~39用以在明信片内的区域配置文本数据20,并具有插图栏40。
文字配置栏37~39事先设定了明信片左上角的位置,同时事先设定字体、文字大小、粗体和细文字、行间距、文字间隔、文字颜色等。
例如,文字配置栏37是配置新年致词的栏,以毛笔体(字体)配置20~24点的文字。文字配置栏38是配置其它文章的栏,例如,以毛笔体配置12点的文字。文字配置栏39是设置新年的阳历的栏,在由文档构成单元24从OS获得的阳历上加上1进行设定。
插图栏40是用于配置JPEG、GIF、TIFF等图像数据的栏。配置在插图栏40中的图像数据被预先记录在文档结构信息D133上。图像数据可以由用户优先配置在插图栏40中,也可以根据生肖自动配置。文档结构信息DB133中存储着每个生肖的图像数据。并且,由于每个用户对图像数据的喜好不同,因此对应于年龄存储生肖的图像数据。比如,针对小年龄段用户,存储将生肖动物拟人化的动画式的图像数据,针对高年龄段用户,存储在生肖动物的插图上配上以松树为主题的插图的图像数据。在此,用户的年龄记录在信息处理装置111中。
文档构成单元24分析文本数据20,并在文字配置栏37、38中配置文本数据20。图17表示文档构成单元24对文本数据20进行文档结构调整的顺序的流程图。
用户正通过文字处理软件等应用软件27编辑文本数据20,而且已由文档类别判断单元22判断文档类别为贺年状。当用户通过预定的菜单启动文档构成单元24时,图17所示的流程开始运行。在此,为了便于调整文档结构的样式,可以先选择文本数据20的预定范围,然后启动文档构成单元24。文档构成单元24启动后,从OS获得阳历,并将其配置在文字配置栏39中。
在此,假设文本数据20是图18(a)中显示的下面的文章。
恭贺新年
去年一年承蒙多方关照
今年也请多多关照
首先,文档构成单元24从文本数据20中检测出新年致词(S310)。由于文档类别为贺年状,因此可以检测“恭贺新年”、“庆贺新年”等新年致词。
然后,文档构成单元24将所检测出的新年致词配置在对应的栏中(S320)。图16中,文字配置栏37中配置“恭贺新年”。
接着,文档构成单元24将其它文章配置在对应的栏中(S330)。
图18(a)的文本数据20“恭贺新年去年一年承蒙多方关照今年也请多多关照”被配置在文字配置栏38中。可以将“恭贺新年”或其它句子的字体等记载为适合用户年龄段的字体等。
接着,文档构成单元24将对应于生肖的图像数据配置在插图栏40中(S340)。文档构成单元24从阳历算出对应的生肖,并从文档结构信息DB133中提取适合于用户年龄段的图像数据,配置在插图栏40中。如果图像数据的大小与插图栏40的大小不一致,则可以进行扩大或缩小。
图18(b)是文档构成单元24对图18(a)的文本数据20进行文档结构调整的结果之一例。“恭贺新年”配置在文字配置栏37,所以配置成毛笔体且大文字。插图栏40中因生肖关系(兔年)而配置兔子的图像数据。
因此,用户只需输入文本数据20,即可判断文档类别,且在校正表达方式的同时根据文档类别对文本数据20进行适当的文档结构的调整。
(变形例)
在上述实施方式中,虽然由信息处理装置111判断文档类别、校正表达方式、并调整文档结构的样式,但也可以由图像形成装置110进行同样的处理。
由于图像形成装置110搭载有计算机,所以通过执行程序134使计算机作为文档类别判断单元22、表达方式校正单元23、文档构成单元24及字符串提取单元25来动作。
比如,当印刷文本数据20时,文本数据20有时以原来的字符码的形态传送到图像形成装置110中,有时在信息处理装置111中被翻译成光栅数据之后传送到图像形成装置110,但由于在办公用(office use)中以原本的字符码传送到图像形成装置110,因此图像形成装置110可以和上述实施方式一样判断文档类别、校正表达方式、调整文档结构的样式。
图19是图像形成装置110判断文档类别的顺序图。信息处理装置111的应用软件27向图像形成装置110要求印刷文本数据20(S410)。在发送文本数据20的同时,信息处理装置111还附带发送根据文档类别的表达方式校正要求及文档结构的样式调整要求的信息。
根据该信息,图像形成装置110的字符串提取单元25提取字符串(S420),并由文档类别判断单元22判断文本数据20的文档类别(S430)。
接着,表达方式校正单元23根据文档类别校正表达方式(S440),并由文档构成单元24调整文档结构的样式(S450)。印刷单元可以印刷样式已调整的文档结构的文本数据20(S460)。当印刷结束时,图像形成装置110向信息处理装置111发送表示印刷结束的信息(S470)。
在此,在印刷之前,可以先将由文档构成单元24配置的文本数据20的配置以图像数据的形式发送给信息处理装置111,当用户同意印刷时,再以调整后的文档结构进行印刷。并且,也可以由通过网络N连接的服务器要求文档结构的样式的调整,而在图像形成装置110只执行印刷。
根据该变形例,由于图像形成装置110自动调整文本数据20的文档结构的样式,因此各信息处理装置111无需具备文档类别判断单元22、表达方式校正单元23、文档构成单元24以及字符串提取单元25,可以降低信息处理装置111的成本。
[实施例2]
本实施例说明判断出妨害社会公德的可能性高的文档类别,并禁止这种文档类别的文本数据20的转发,并通知公共机关的信息处理装置111。所谓妨害社会公德的可能性高的文本数据20是指,比如让读者感到羞耻或不快,或包含明显有损体面的单词的内容。在本实施例中,将包含打扰性单词、侮辱性单词、跟踪者用单词、反社会的单词的文本数据20作为妨害社会公德的可能性高的文本数据20的一例。
妨害社会公德的可能性高的文本数据20,在撰写人撰写文本数据20之后是可以进行判断的,但是很难想到撰写人利用本实施方式的信息处理装置111。妨害社会公德的可能性高的文本数据20一般主要由电子邮件传送,或投到电子公告栏上。因此,可以想像由收信人、电子公告栏的管理人、或者用于运营商的邮件服务器等的信息处理装置111判断文档类别。据此,只要电子邮件或投稿用的邮筒数据从撰写人的终端发送,即可判断文本数据20的文档类别。
然而,当判断为妨害社会公德的可能性高的文档类别时,很少有必要发送给收信人,而且也很少有必要公告到电子公告栏上。如果发送给收信人或公告到电子公告栏上,则可能还会助长发信人撰写妨害社会公德的可能性高的文本数据20。因此,最好由运营商的邮件服务器禁止妨害社会公德的可能性高的文本数据20被发送到收信人。并且,妨害社会公德的可能性不明确时(不一定会妨害社会公德时),可以删除如打扰性单词等后发送给收信人。总之,可以防止收信人接收到妨害社会公德的可能性高的文本数据20或看到公告栏而感到不快。
并且,如果能记录发送妨害社会公德的可能性高的电子邮件等的发信人的识别信息(例如,电子邮件的发信人的邮箱地址、发送邮筒数据的终端IP地址等),则可以连接犯罪性高的恶性电子邮件或电子公告栏的特定发信人。在此,由于对电子邮件和邮筒数据的文本数据20的文档类别判断方法相同,下面主要以电子邮件的例子进行说明。
(功能结构图)
图20表示信息处理装置111的功能结构图之一例。在图20中,与图4相同的构成要素赋予相同的符号,并省略其说明。如上所述,图20的信息处理装置111是例如运营商或便携式电话企业的SMTP服务器、POP服务器。信息处理装置111以电子邮件等形式接收到的文本数据20暂时存储到存储装置126中,在转发之前由文档类别判断单元22提取文本数据20,并根据类别判定词判断文档类别。
并且,禁止转发单元28禁止转发妨害社会公德的可能性高的文本数据20。禁止转发的过程是,当文本数据20为电子邮件时,禁止如SMTP服务器至POP服务器的转发,并从POP服务器禁止转发到收信人的终端。并且,当文本数据20为传到电子公告栏的投稿用邮筒数据时,禁止为了在终端显示邮筒数据而向终端进行转发。
当妨害社会公德的可能性不明确时,表达方式校正单元23从文本数据20删除类别判定词之后,允许转发电子邮件。并且,属性信息记录单元26记录向属性信息DB135发送妨害社会公德的可能性高的文本数据20的发信人等属性信息。而且,举报单元27参照属性信息DB135,向警察等公共机关举报发送很多妨害社会公德的可能性高的文本数据20的发信人。
(文档类别的判定)
下面对妨害社会公德的可能性高的文本数据20的文档类别的判断进行说明。图21表示存储在文档类别信息DB131中的信息的例子。在图21中,对应于文档类别记录有类别判定词及构成类别判定词的文字的字符码。在图21中,作为妨害社会公德的可能性高的文档类别,列举了打扰性文档、侮辱性文档、跟踪者用文档、反社会的文档。
文档类别判断单元22通过比较包含于文本数据20的类别判定词和文档类别信息DB131中的一连串字符码,从而可以提出对应于类别判定词的文档类别。例如,“好色徒”、“淫秽”、“他人之妻”、“开房”对应打扰性文档的文档类别,“去死”、“讨厌”、“恶心”对应侮辱性文档的文档类别,“想见面”对应跟踪者用文档的文档类别,“手枪”、“炸药”对应反社会文档的文档类别。
文档类别判断单元22基于类别判定词参照文档类别信息DB131,并对每篇文本数据20提取对应于各类别判定词的文档类别。当提取出预定数量以上(例如,三个以上)的类别判定词时,文档类别判断单元22判断文本数据20的类别为对应于所提取的类别判定词的文档类别。在此,当从一篇文档数据20提取出不同的文档类别时,判断为属于检测出的次数最多的文档类别。在本实施方式中,不管判断成何种文档类别,这些都是妨害社会公德的可能性高的文本数据20,因此同样地都被删除类别判定词或禁止转发等,但是也可以如上所述那样严格地进行区分,然后对各种文档有针对性地进行处理(例如,改换举报的公共机关)。
当类别判定词未满预定数量(例如,未满3个)时,文档类别判断单元22判断为妨害社会公德的可能性不明确。
(对应于文档类别判断的相应处理)
由文档类别判断单元22判断文档类别的结果,文本数据可以被区分为没有妨害社会公德的可能性、妨害社会公德的可能性高或不明确的三种形态。当没有妨害社会公德的可能性时、文本数据20被允许照原文转发。
当妨害社会公德的可能性不明确时,从文本数据20删除类别判定词。例如,当文本数据20为“你很讨厌,恶心”时,文本数据20的收信人会收到“你(因具有不适当表达方式,被省略),(因具有不适当表达方式,被省略)”的文本数据。由此防止引起收信人的不快。
此时也可以由属性信息记录单元26向属性信息DB135记录发送该文本数据20的发信人等属性信息。当妨害社会公德的可能性不明确时,也可以将其记录在属性信息DB135中,用于在例如抱有恶意的发信人故意减少每次发送的文本数据20中包含的文档类别判定词数量,而增加发送次数来发送文本数据20时,也能提取该发信人。
另外,当文本数据20为“那部电影很恶心,有很多演员死去的场面……”时,会向收信人发送“那部电影(因具有不适当表达方式,被省略),有很多演员(因具有不适当表达方式,被省略)场面……”的经过修正的文本数据20。虽然这些文本数据20包含类别判定词,但实际上是对电影内容的评论,因此当收信人或收到收信人通知的发信人向邮件服务器要求再次发送原来的文本数据20时,可以向收信人发送没有删除类别判定词的文本数据20。
因此,即使文本数据20中含有类别判定词,但最终的内容还是由人来判断,并可以发送原来的文本数据20。并且,当把属性信息记录到属性信息DB135中时,随再次发送的要求可以从属性信息DB135中删除属性信息。
可以在邮件服务器中记录认为文本数据20的再次发送要求麻烦的用户、或不嫌弃类别判定词的用户。而且,与发送妨害社会公德的可能性不明确的文本数据20的原则无关,可以设定为一概不删除而进行发送。
当妨害社会公德的可能性高时,禁止转发单元28禁止转发文本数据20,而且属性信息记录单元26在属性信息DB135中记录文本数据20的属性信息。
图22表示记录在属性信息DB135中的属性信息的一例。如图22所示,记录在属性信息DB135中的属性信息是发信人的电子邮箱地址、收信人(收件人)的电子邮箱地址、文档类别、类别判定词的数量、发信日期等。因此,可以检测出发送妨害社会公德的可能性高的文本数据20的发信人和收信人的电子邮箱地址,并从日期可以掌握其频率,从类别判定词的数量可以掌握恶劣程度。
在此,除了属性信息之外,最好还记录文本数据20本身。在向公共机关举报时,文本数据20将会成为重要的证据。
图23表示文档类别判断单元22判断文档类别的顺序的流程图。首先,信息处理装置111接收到电子邮件等的文本数据20。比如,文本数据20为“讨厌、讨厌、讨厌、讨厌、…”时,检测出“讨厌”的字符码82A4(讨)、82B4(厌),并作为与记录在文档类别信息DB131中的类别判定词“讨厌”一致的字符串来提取(S20)。然后,根据所提取的类别判定词判断文档类别(S30)。
虽然从文本数据20中提取出了“讨厌”的类别判定词,但由于这些对应于侮辱性文档的文档类别,因此文档类别判断单元22将该文本数据20判断为侮辱性文档的文档类别。
信息处理装置111根据妨害社会公德的可能性的高低程度来处理文本数据20(S40)。首先,当没有妨害社会公德的可能性时,文档类别判断单元22允许转发文本数据20(S50)。
当妨害社会公德的可能性高时,禁止转发单元28禁止转发文本数据20(S60)。并且,属性信息记录单元26向属性信息DB135记录发送该文本数据20的发信人的电子邮箱地址、收信人的电子邮箱地址、文档类别、类别判定词的数量、发送日期。当妨害社会公德的可能性不明确时、表达方式校正单元23从文本数据20删除类别判定词(S80)。然后,文档类别判断单元22允许文本数据20的转发(S90)。当妨害社会公德的可能性不明确时,也在属性信息DB135中进行记录。
(向公共机关举报)
根据图23的顺序,可以防止将妨害社会公德的可能性高的文本数据20发送给收信人。然而,对于发送次数多的恶劣的文本数据20,最好通知警察或管辖部门等公共机关。比如,电子邮件或电子公告栏上的发言,有时也相当于刑法上的毁损名誉罪或民法上的不法行为、跟踪限制法的跟踪行为等。因为公共机关有很多种,所以最好根据文档类别选择通知对象。例如、打扰性文档、跟踪者用文档、反社会文档要通知警察,侮辱性文档要通知侮辱顾问窗口或教育部、教育委员会、校长等。
举报单元27对记录在属性信息DB135中的发信人的电子邮箱地址等进行分析,例如,对十次以上的恶劣的文本数据20通知公共机关。其恶劣的发送行为中可能有下面的情况。
a)一个发信人→一个收信人
b)一个发信人→多个收信人
c)多个发信人→一个收信人
d)多个发信人→多个收信人
a)情况是,比如特定的加害者A向特定的被害者B发送打扰性文档、跟踪者用文档或侮辱性文档等文本数据20的情况。b)的情况是,比如特定的加害者A为了毁损特定被害者B的名誉而向多个第三者X~Z发送文本数据20的情况,或者特定的加害者A向多个第三者X~Z发送反社会文档的文本数据20的情况。c)的情况是,如侮辱性文档等,特定的多个加害者A、A’、A”对特定的被害者B发送文本数据20的情况。并且,d)的情况是,比如特定的加害者A、A’、A”为了毁损特定的被害者B的名誉而向多个第三者X~Z发送文本数据20的情况。
妨害社会公德的情况中a)及c)的情况可能最多。与此相对,由于b)和d)的情况特定加害者需要得到第三者X~Z的电子邮箱地址,而且第三者X~Z应该是认识特定被害者B的人员,所以在妨害社会公德的情况中是少见的。
因此,确认加害者A的最简单的方法是,提取记录在属性信息DB135中的发信人的电子邮箱地址的数量多(例如10次以上)的发信人(a)、b)的情况)。当发信人使用多个电子邮箱地址发送文本数据20时,也能确定成为文本数据20的接收端的次数多(例如10次以上)的收信人的邮箱地址c)的情况)。由于此时也能认为是侮辱或跟踪等行为,因此向同一个收信人的邮箱地址发信的多个发信人成为举报对象。因此,对于使用电子邮件发送妨害社会公德的可能性高的文本数据20的大部分情况a)~c)均有效。
在此,由于b)或d)的情况比电子邮件更接近电子公告栏的情况,因此将文本数据20上传到电子公告栏的终端IP地址成为确定发信人(上传人)的线索。为此,属性信息记录单元26将终端的IP地址记录到属性信息DB135中。
举报单元27向公共机关举报记录在属性信息DB135中的次数多的发信人的电子邮箱地址、或给记录次数多的收信人电子邮箱地址发送信息的发信人的电子邮箱地址。最好在给公共机关发信时,附加上属性的电子证明或时间戳,以提高举报单元27的举报的证据性。
据此,公共机关可以根据运营商责任限制法及相关的指导方针,可以要求运营商等公开发信人的信息,并可以由发信人的信息确定实际地址、姓名、联系方法等。
图24表示举报单元27提取文本数据20发信人的顺序的流程图。图24的流程图,例如每隔预定循环时间(一天一次)反复执行一次。
首先,举报单元27提取在属性信息DB135中被记录例如十次以上的发信人的电子邮箱地址(S510)。据此,可以检测出a)及b)情况的发信人。
接着,举报单元27提取向被属性信息DB135记录例如十次以上的收信人发信的发信人电子邮箱地址(S520)。据此,可以检测出c)情况的发信者。
通过有关处理,不仅可以禁止发送妨害社会公德的可能性高的文本数据,而且还能向公共机关进行举报,因此可以自动保存证据、使公共机关容易破案、抑制新的犯罪行为发生。
Claims (16)
1、一种信息处理装置,其特征在于包含:
文档类别信息存储单元,对应于文档数据的文档类别而存储用于该文档类别的文档数据中的文字或字符串;
用于输入文档数据的文档数据输入单元;
类别判断单元,基于对应于由所述文档数据输入单元所输入的文档数据中包含的文字或字符串而存储在所述文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;
文档结构信息存储单元,用于存储对于每种文档类别指定文档数据的文字字体、大小、粗细、文字或字符串的配置位置的一种以上的文档结构信息;
文档构成单元,基于对应于所述类别判断单元所判断的文档数据的文档类别而存储在所述文档结构信息存储单元中的所述文档结构信息,调整所输入的文档数据的样式。
2、根据权利要求1所述的信息处理装置,其特征在于包含:
校正信息存储单元,对于每种文档类别,对应于错别字、漏字及语法错误之外的校正前的文字或字符串而存储校正后的文字或字符串;
校正单元,当由所述文档数据输入单元所输入的文档数据中包含存储在所述校正信息存储单元中的校正前的文字或字符串时,根据所述类别判断单元所判断的输入文档数据的文档类别,由存储在所述校正信息存储单元中的校正后的文字或字符串来校正校正前的文字或字符串。
3、根据权利要求1或2所述的信息处理装置,其特征在于,类别判断单元对每种文档类别计算由所述文档数据输入单元所输入的文档数据的文字或字符串中,被存储在所述文档类别信息存储单元中的文字或字符串数量,并将文档类别判断为计算的数量最多的文档数据的文档类别。
4、根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,当类别判断单元判断由文档数据输入单元所输入的文档数据为用于办公或交易等的商务文档时,文档构成单元根据商务文档的文档结构信息,在文档数据的分条写的行头添加行头标记。
5、根据权利要求1至4中的任意一项所述的信息处理装置,其特征在于,当所述类别判断单元判断由所述文档数据输入单元所输入的文档数据为用于办公或交易的商务文档时,所述文档构成单元根据商务文档的所述文档结构信息,将文档数据中所包含的日期信息或地点信息配置在预定的位置。
6、根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,当所述类别判断单元判断由所述文档数据输入单元所输入的文档数据为贺年状时,所述文档构成单元根据贺年状的所述文档结构信息,将文档数据中所包含的构成新年致词的文字字体改为毛笔体。
7、根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,所述文档结构信息存储单元对应于十二生肖的每一生肖存储动物图像数据,当所述类别判断单元判断由所述文档数据输入单元所输入的文档数据为贺年状时,所述文档构成单元从所述文档结构信息存储单元提取对应于输入文档数据的年度的次年度生肖的动物图像数据,并根据贺年状的所述文档结构信息将其配置到所述贺年状的预定位置。
8、根据权利要求2所述的信息处理装置,其特征在于,所述校正单元在显示装置上显示文档数据中所包含的校正前的文字或字符串的同时显示多个校正后的文字或字符串,并利用在多个校正后的文字或字符串中被定点设备选择的文字或字符串来校正文档数据的校正前的文字或字符串。
9、一种图像形成装置,其特征在于包含:
文档类别信息存储单元,对应于文档数据的文档类别而存储用于该文档类别的文档数据中的文字或字符串;
用于输入文档数据的文档数据输入单元;
类别判断单元,基于对应于由所述文档数据输入单元所输入的文档数据中包含的文字或字符串而存储在所述文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;
文档结构信息存储单元,用于存储对于每种文档类别指定文档数据的文字字体、大小、粗细、文字或字符串的配置位置的一种以上的文档结构信息;
文档构成单元,基于对应于所述类别判断单元所判断的文档数据的文档类别而存储在所述文档结构信息存储单元中的所述文档结构信息,调整所输入的文档数据的样式。
10、一种程序,其特征在于:
计算机从文档类别信息存储单元和文档结构信息存储单元读取信息,其中,
该文档类别信息存储单元,对应于文档数据的文档类别而存储用于该文档类别的文字或字符串,
该文档结构信息存储单元,用于存储对于每种文档类别指定文档数据的文字字体、大小、粗细或者文字或字符串的配置位置的一种以上的文档结构信息,
所述程序使所述计算机为
输入文档数据的文档数据输入单元,
类别判断单元,基于对应于由所述文档数据输入单元所输入的文档数据中包含的文字或字符串而存储在所述文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;
文档构成单元,基于对应于所述类别判断单元所判断的文档数据的文档类别而存储在所述文档结构信息存储单元中的所述文档结构信息,调整所输入的文档数据的样式。
11、一种文档数据构成方法,包含步骤:
通过文档数据输入单元输入文档数据;
类别判断单元参照对应于文档数据的文档类别而存储用于该文档类别的文字或字符串的文档类别信息存储单元,并基于对应于所输入的文档数据中包含的文字或字符串而存储在所述文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;
文档构成单元参照文档结构信息存储单元,根据存储在所述文档结构信息存储单元中的所述文档结构信息调整所输入的文档数据的样式,其中,文档结构信息存储单元对应于所判断的文档数据的文档类别而存储对于每种文档类别指定文档数据的文字字体、大小、粗细或者文字或字符串的配置位置的一种以上的文档结构信息。
12、一种信息处理装置,其特征在于包含:
文档类别信息存储单元,对应于文档数据的文档类别而存储用于该文档类别的文档数据中的文字或字符串;
用于输入文档数据的文档数据输入单元;
类别判断单元,基于对应于由所述文档数据输入单元所输入的文档数据中包含的文字或字符串而存储在所述文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;
禁止转发单元,当所述类别判断单元判断文档数据为可能会妨害社会公德的文档类别时,禁止文档数据的转发;
属性信息记录单元,由所述禁止转发单元禁止转发的文档数据提取发信人等属性信息,并将其记录到属性信息数据库中。
举报单元,将属性信息被记录在所述属性信息数据库中的文档数据的发信人举报到公共机关。
13、根据权利要求12所述的信息处理装置,其特征在于,
包含表达方式校正单元,当由所述类别判断单元判断文档数据中包含可能妨害社会公德的文字或字符串时,从文档数据中删除可能妨害社会公德的文字或字符串,
所述禁止转发单元允许转发删除了可能妨害社会公德的文字或字符串的文档数据。
14、根据权利要求12所述的信息处理装置,其特征在于,所述类别判断单元将文档数据的文档类别判断为侮辱性文档、打扰性文档、跟踪者用文档或反社会文档中的任意一种。
15、根据权利要求12所述的信息处理装置,其特征在于,
当文档数据为电子邮件时,所述禁止转发单元禁止给文档数据的收信人发送文档数据,
当文档数据为向电子公告栏投稿用的邮筒数据时,所述禁止转发单元禁止向终端转发文档数据。
16、一种程序,其特征在于
计算机从文档类别信息存储单元读取信息,该文档类别信息存储单元对应于文档数据的文档类别而存储用于该文档类别的文档数据中的文字或字符串,
所述程序使所述计算机为
类别判断单元,基于对应于由输入文档数据的文档数据输入单元所输入的文档数据中包含的文字或字符串而存储在所述文档类别信息存储单元中的文档类别,判断所输入的文档数据的文档类别;
禁止转发单元,当所述类别判断单元判断文档数据为可能会妨害社会公德的文档类别时,禁止文档数据的转发;
属性信息记录单元,由所述禁止转发单元禁止转发的文档数据提取发信人等属性信息,并将其记录到属性信息数据库中。
举报单元,将属性信息被记录在所述属性信息数据库中的文档数据的发信人举报到公共机关。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007266536 | 2007-10-12 | ||
JP266536/07 | 2007-10-12 | ||
JP135892/08 | 2008-05-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101408875A true CN101408875A (zh) | 2009-04-15 |
Family
ID=40571889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008102129721A Pending CN101408875A (zh) | 2007-10-12 | 2008-09-17 | 信息处理装置、图像形成装置、程序、文档数据构成方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5235499B2 (zh) |
CN (1) | CN101408875A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543023A (zh) * | 2018-09-29 | 2019-03-29 | 中国石油化工股份有限公司石油勘探开发研究院 | 基于trie和LCS算法的文献分类方法和系统 |
CN112530533A (zh) * | 2020-11-30 | 2021-03-19 | 北京百度网讯科技有限公司 | 病历文档检测方法、装置及电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248499A (ja) * | 2010-05-25 | 2011-12-08 | Nec Corp | 文字入力装置、文字入力制御方法及び文字入力制御プログラム |
JP6284302B2 (ja) * | 2013-04-02 | 2018-02-28 | 株式会社タダノ | ブームの伸縮パターン選択装置 |
WO2015162737A1 (ja) | 2014-04-23 | 2015-10-29 | 株式会社東芝 | 音訳作業支援装置、音訳作業支援方法及びプログラム |
JP2014149873A (ja) * | 2014-05-14 | 2014-08-21 | Nec Corp | 文字入力装置、文字入力制御方法及び文字入力制御プログラム |
CN108733635B (zh) * | 2017-04-24 | 2021-12-03 | 珠海金山办公软件有限公司 | 一种文本信息展示方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0776958B2 (ja) * | 1988-01-11 | 1995-08-16 | 株式会社東芝 | 文書整形装置 |
JPH0728792A (ja) * | 1993-07-14 | 1995-01-31 | Matsushita Electric Ind Co Ltd | 文書作成方法およびその装置 |
JPH08329070A (ja) * | 1995-05-30 | 1996-12-13 | Toshiba Corp | 文書校閲装置 |
JP3997790B2 (ja) * | 2002-02-15 | 2007-10-24 | コニカミノルタビジネステクノロジーズ株式会社 | プログラム及びスタイルシート選択装置 |
-
2008
- 2008-05-23 JP JP2008135892A patent/JP5235499B2/ja not_active Expired - Fee Related
- 2008-09-17 CN CNA2008102129721A patent/CN101408875A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543023A (zh) * | 2018-09-29 | 2019-03-29 | 中国石油化工股份有限公司石油勘探开发研究院 | 基于trie和LCS算法的文献分类方法和系统 |
CN112530533A (zh) * | 2020-11-30 | 2021-03-19 | 北京百度网讯科技有限公司 | 病历文档检测方法、装置及电子设备 |
CN112530533B (zh) * | 2020-11-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 病历文档检测方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5235499B2 (ja) | 2013-07-10 |
JP2009110497A (ja) | 2009-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101408875A (zh) | 信息处理装置、图像形成装置、程序、文档数据构成方法 | |
CN101968865B (zh) | 在电子日历中添加提醒事件的方法 | |
US7974877B2 (en) | Sending and receiving electronic business cards | |
JP4829920B2 (ja) | フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置 | |
US5768416A (en) | Information processing methodology | |
US20060293904A1 (en) | Generating and rendering electronic business cards | |
US20060293905A1 (en) | Exchanging electronic business cards over digital media | |
US20070153334A1 (en) | Information processing methodology | |
US20170220858A1 (en) | Optical recognition of tables | |
US20210192129A1 (en) | Method, system and cloud server for auto filing an electronic form | |
US11403455B2 (en) | Electronic form generation from electronic documents | |
US8953228B1 (en) | Automatic assignment of note attributes using partial image recognition results | |
AU2012213242A1 (en) | System for data extraction and processing | |
US20150278747A1 (en) | Methods and systems for crowdsourcing a task | |
Wempen | Digital literacy for dummies | |
US20180278795A1 (en) | System and method of generating barcodes on scanned documents | |
KR101475339B1 (ko) | 통신 단말기 및 그의 통합 자연어 인터페이스 방법 | |
KR20200091560A (ko) | 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법 | |
US20200310699A1 (en) | Management apparatus and terminal apparatus | |
CN101242465A (zh) | 成像装置和用于控制该成像装置的方法 | |
US8908200B2 (en) | Method and apparatus to generate XHTML-print contents | |
JP6724823B2 (ja) | 広告作成装置及びプログラム | |
US20240169157A1 (en) | Data association method and apparatus, computer device and storage medium | |
US20190294397A1 (en) | Systems and methods for customized production of receipts with transactional and promotional content | |
US10609246B1 (en) | System and method for ascertaining and printing supplemental forms identified from content of a scanned base form |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20090415 |