CN101526938A - 文档处理装置 - Google Patents
文档处理装置 Download PDFInfo
- Publication number
- CN101526938A CN101526938A CN200810006557A CN200810006557A CN101526938A CN 101526938 A CN101526938 A CN 101526938A CN 200810006557 A CN200810006557 A CN 200810006557A CN 200810006557 A CN200810006557 A CN 200810006557A CN 101526938 A CN101526938 A CN 101526938A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- importance degree
- sentence
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 50
- 230000008676 import Effects 0.000 claims description 20
- 238000000926 separation method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract 2
- 230000008859 change Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000005755 formation reaction Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 241001269238 Data Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000000151 deposition Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种文档处理装置。根据该文档处理装置,若通过输入部(11)输入文档,则预处理部(12)将所输入的文档分离成多个单词。重要度算出部(14)算出基于单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词,由用户确定了关键词后,可以算出基于单词的频度以及关键词的特征值,并基于算出的特征值来算出句子的重要度。摘要生成部(15)基于所算出的重要度,并依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,显示部(16)显示所生成的摘要。
Description
技术领域
本发明涉及基于由多个句子构成的文档,来制作该文档的摘要并显示的文档处理装置。
背景技术
由于网络通信技术、办公室自动化(OA)技术的发达,能够移动、保存、阅览的信息量正在急速增加。
用户在这样的环境下,必须在短时间内从大量的信息中适当地取舍选择必要的信息,并将其保存或加工。
为了选择必要的信息,利用信息的摘要是有效的。通过阅读摘要,能够在短时间内看出信息整体的必要性。其中,为了适当地选择信息,摘要的内容是否准确地反映了信息整体是重要的。
由人来制作更为准确的、反映信息整体的摘要时,在暂且阅读了信息的基础上,除了信息本身外,还可加上信息的要点是什么、是面向谁的信息、是什么时候制作的信息等该信息以外的信息来制作准确的信息。与此相对,由文档处理装置制作的摘要,即所谓自动摘要,必须仅考虑信息本身中所包含的个别的信息来制作摘要。
从而,以往以来对用于进行自动摘要的各种技术进行了各种研究。
自动摘要技术基本上对文章中所含的各个句子算出重要度,并相应于其重要度,取出规定数量的重要度高的句子、重要度高的段落等,将取出的句子、段落的集合作为摘要。重要度的算出也有各种方法,或者根据句子中包含的各个单词的重要度来算出句子的重要度,或者根据句子处于文档整体的哪个位置来算出重要度等。
各个单词的重要度,进一步细分为单词的出现频度、是否标题中所含的单词、连接词的种类、是否线索词等,对这些进行判断后最终算出1个句子的重要度(参照中国发明专利公开CN1614587A等)。
以往的自动摘要技术中,如上所述地从包含于文章的各个句子中,通过预先决定的算出方法来算出重要度,并基于算出的重要度来制作摘要,因此不增加包含于文章本身以外的信息。
从而,利用现有技术制作的摘要的稳定性,在始终能制作一定水准的摘要的这一意义上是稳定的,但不能制作着眼于特定单词的摘要等反映了用户的喜好的摘要。
发明内容
本发明的目的在于,提供一种能够制作反映了用户的喜好的摘要的文档处理装置。
本发明是一种文档处理装置,其特征在于,
具有:输入部,其输入文档;
预处理部,其将由上述输入部输入的文档分离成多个单词;
重要度算出部,其算出由上述预处理部分离的单词的至少基于频度的特征值,并基于上述算出的特征值来算出每一个由多个单词构成的句子的重要度;
摘要生成部,其基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要;
显示部,其显示由上述摘要生成部生成的摘要;
关键词输入部,其用于输入关键词,用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词;
而且,在由上述显示部显示由上述摘要生成部生成的输入文档的摘要后,
若由上述关键词输入部输入关键词,则上述重要度算出部重新算出基于单词的频度以及所输入的单词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,上述显示部重新显示由上述摘要生成部生成的摘要。
根据本发明,若通过输入部输入文档,则预处理部将所输入的文档分离成多个单词。
重要度算出部算出至少基于被分离的单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。
摘要生成部基于所算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,显示部显示所生成的摘要。
在由上述显示部显示由摘要生成部生成的输入文档的摘要后,如果通过关键词输入部,基于所显示的摘要来输入了关键词,则重新算出基于关键词的频度以及所输入的关键词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。
摘要生成部基于由重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,显示部重新显示由摘要生成部生成的摘要。
若用户基于所显示的摘要输入关键词,则算出除了关键词的频度以外,基于所输入的关键词的特征值,并算出句子的重要度,故能够通过所输入的关键词来制作反映了用户喜好的摘要,显示所制作的摘要。
此外,本发明的特征在于,上述文档由文档主体和标题构成,该文档主体由多个句子构成,
上述重要度算出部还算出基于上述标题中包含的单词的特征值,并基于算出的特征值来算出句子的重要度。
根据本发明,由于追加基于上述标题中包含的单词的特征值来制作摘要,故能够更准确地制作摘要。
此外本发明的特征在于,上述重要度算出部还算出基于预先决定的线索词的特征值,并基于算出的特征值来算出句子的重要度。
此外根据本发明,由于追加基于预先决定的线索词的特征值来制作摘要,故能够更准确地制作摘要。
此外本发明的特征在于,上述关键词输入部,通过从由上述预处理部分离的单词中进行选择来输入特定的关键词。
根据本发明,由于从由上述预处理部分离的单词中进行选择来输入特定的关键词,故能够可靠地输入文档中包含的单词。
此外本发明的特征在于,若由上述关键词输入部再次输入关键词,则上述重要度算出部再次算出基于单词的频度以及所输入的关键词的特征值,并基于算出的特征值来再次算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序再次选择规定数量的句子,而再次生成所输入的文档的摘要,上述显示部再次显示由上述摘要生成部生成的摘要。
根据本发明,若通过关键词输入部再次输入关键词,则再次算出句子的重要度,基于所算出的重要度,进行摘要的生成、和生成的摘要的重新显示。
由此,由于每次用户输入关键词时,进行基于所输入的关键词的重新计算,重新生成摘要并显示,因此能够制作进一步反映了用户喜好的摘要。
本发明的目的、特色和优点由下述详细说明和附图将变得更加明确。
附图说明
图1是示出文档处理装置10的机械性构成的方框图。
图2是示出文档处理装置10的功能性构成的方框图。
图3是示出显示部16的显示画面例的图。
图4是示出显示部16的显示画面例的图。
图5是示出显示部16的显示画面例的图。
图6是示出显示部16的显示画面例的图。
图7是示出显示部16的显示画面例的图。
图8是示出显示部16的显示画面例的图。
图9是示出显示部16的显示画面例的图。
图10是示出成为摘要生成处理的对象的文档的一例的图。
图11是示出由预处理部12、分类部13进行的处理结果的图。
图12是示出不输入关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。
图13是示出输入了关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。
具体实施方式
以下,参照附图对本发明的优选实施方式进行详细说明。
图1是示出文档处理装置10的机械构成的方框图。文档处理装置10包含处理器4、和存放处理器4执行实际的处理用的软件等的外部存储装置5。
处理器4实际进行根据所输入的文档数据生成摘要的摘要生成处理等。处理器4上的实际的处理,由存放在外部存储装置5中的软件执行。处理器4例如由通常的计算机主体等构成。
外部存储装置5例如可由能高速存取的硬盘等构成。外部存储装置5,为了大量地保持文档数据,也可以是利用光盘等大容量器件那样的构成。后述的语法词典、同义词词典、分类辞典等由外部存储装置5构成。另外,在摘要生成处理中各处理步骤的阶段制作的临时数据等,既可存储在外部存储装置5中,也可存储在内置于处理器4中的半导体存储器中。
文档处理装置10上连接键盘1,而且连接显示装置3。键盘1用于文章数据的输入、关键词的输入、用于执行各种软件的指示的输入。进而,键盘1还用于在后述的摘要生成处理中的设定值的变更输入。
显示装置3输出成为摘要来源的来源文档、生成的摘要文、用于进行摘要生成处理的用户接口等并进行显示。
文档处理装置10上还连接图像扫描仪2。图像扫描仪2用于读取记载有文章的原稿,并利用OCR(Optical Character Recognition)来输入文档数据。
文档数据的取得,除了从键盘1的输入、从图像扫描仪2的输入以外,也可以通过通信I/F(接口)6,从网络上的其他装置利用数据通信来取得。通信I/F6由用于连接LAN(Local Area Network)的LAN卡、连接于公众交换电话网而进行数据通信用的调制解调器卡等来实现。
图2是示出文档处理装置10的功能性构成的方框图。
文档处理装置10包括输入部11、预处理部12、分类部13、重要度算出部14、摘要生成部15、显示部16及语法词典/同义词词典17、分类辞典18而构成。
输入部11输入成为制作摘要的对象的文档数据。图1中所示的硬件构成中,键盘1、图像扫描仪2、通信I/F6等在功能上相当于输入部11。
被输入且成为摘要制作处理的对象的文档数据,是由多个具有意义的单词构成的文本数据,其数据结构包括例如多个句子、由多个句子构成的段落、由多个段落构成的文章主体、以及文档的标题。
当这样的文档数据通过输入部11输入时,暂时存储于预先决定的存储区域中。预先决定的存储区域,既可以是外部存储装置5内,也可以是内置于处理器4中的半导体存储器内。
所存储的文档数据,接着由预处理部12实施摘要生成处理用的预处理。在预处理部12中,首先,将文档数据的文本分离至最小单位的单词。本实施方式中,进行分离,直至名词、动词、形容词、助词、助动词等词类级别的单词为止。分离至单词的动作,可通过进行利用语法词典、同义词词典、概念词典等的词素解析(POS Tagging)来实现。词素解析中,作为信息源利用对象语言的语法知识、词典,将以自然语言书写的句子分割为词素(语言中具有意义的最小单位)的列,判别各自的词类。
分类部13中,对由预处理部12分离的单词,利用分类词典18进行分类。由分类部13进行的分类是各单词的识别,与其同时也可以进行噪音的除去。作为噪音的除去,例如从被分离的单词中删除没有意义的单词即停词(stop word)。通过在分类部13中删除停词,能够减少后阶段中的处理对象的单词数,能够对处理进行高速化。
由于由分类部13进行的具体的分类依赖于使用的分类词典的分类类别,因此例如,也可以进行摘要生成处理的文档数据的领域、相应于领域来改变分类词典,也可以将1个分类词典适用于所有的文档数据。
如上所述那样分离、分类至各单词的文档数据,在预处理部12、分离部13中的各个结果,按各单词赋予关联,并存储在规定的存储区域中。此时按各单词进行了分离,但前述数据结构保持原样的状态下按各个单词进行存储。也就是说,经分离、分类的各单词是以可知道所属的句子的形态被存储的,各句子是以可知道所属的段落的形态,且各段落是以知道在文章主体中自己的顺序的形态保持数据结构的。
重要度算出部14算出经分离、分类的各单词的重要度,基于算出的各单词的重要度算出各句子的重要度。
以下,关于重要度的算出进行说明。
重要度由主题重要度(TH)和位置重要度(LI)构成,主题重要度由出现频度(TF)、标题词(TI)、线索词(CW)、停词(SW)、关键词(KW)等的特征构成,位置重要度(LI)由位置(LC)和子位置(SL)的特征构成。
首先,关于主题重要度的各特征进行说明。
·出现频度(TF)
关于构成主题重要度的特征之一的出现频度进行说明。
特征即出现频度(TF)是用统计手法对所有单词的经标准化处理的出现频度的合计的平均值,且利用下述式(1)算出。
TFs=(∑FRi×W/maxFR)/LGs ...(1)
这里,FRi是各单词的频度,W是权重,maxFR是1个句子中的最大频度,LGs是表示1个句子的长度的单词数。通过利用LGs,可防止长而单调的句子的得分不适当地变高。
各单词的频度FRi可利用既存的统计手法算出。
最好在对各单词进行统计之前进行单词意义的聚类处理、和语义消歧。
单词中,包含表记不同但意义相同的单词,即所谓同义语。如果对这样的单词分别作为不同的单词进行统计处理,则不能得到正确的统计结果,因此对同义语的单词,最好应集结为一后进行统计处理。同义语可利用概念词典进行语义聚类处理。
另外相反地,单词中包含虽然表记相同但因与前后的单词的连接关系等而意义不同的单词。如果对表记相同的单词作为相同的单词进行统计处理,则不能得到正确的统计结果,因此最好对表记相同的单词的意义进行确定,意义不同时,作为不同的单词进行统计处理。这类单词的意义可利用概念词典进行确定。
·标题词(TI)
关于构成主题重要度的特征之一的标题词进行说明。
如前所述,文档数据中含有文档的标题,且文档标题中所含的单词在文档中属于重要单词的可能性较高。从而,句子中是否包含标题中所含的单词,对句子的重要度产生影响,故将标题中所含的单词(标题词)作为特征算出。
特征即TIs作为句子中包含的标题词的合计数算出。
·关键词(KW)
关于构成主题重要度的特征之一的标题词进行说明。
关键词由用户指定、输入的单词构成,例如作为将指定、输入的多个单词进行列表化后的关键词列表预先存储在规定的存储区域中。
特征即KWs作为句子中包含的在关键词列表中列出的单词的合计数算出。
关键词最好是如下构成,即例如,在经预处理部12处理后的各单词中,抽出名词及动词,将抽出的名词及动词作为候选关键词一览显示,并由用户从中指定。用户可容易地从候选关键词中选择感兴趣的单词。
关键词列表的变更只要是在摘要生成处理开始后,则可不用特别限定。一旦,在摘要生成后,可以重新进行关键词的指定、输入、删除等,相应于由此被变更的关键词列表来重新计算特征即KW,随此也重新计算主题重要度(TH)、得分S。这些重新计算的结果,由后述的摘要生成部15生成的摘要也被变更。
另外,也可以是用户操作键盘1等来输入任意的单词,并将所输入的单词作为关键词。
这样在本发明中,由于可以将用户任意指定、输入的关键词作为特征利用,对主题重要度的算出直接产生影响,因此能够制作反映了用户喜好的摘要。
·线索词(CW)
关于构成主题重要度的特征之一的线索词进行说明。
线索词(Cue Words)是如下单词,即当在句子中使用“也就是说”、“即”、“从而”等单词时,则该句子是表示结论、总结的重要性高的句子。这样的线索词,作为将多个线索词即单词进行列表化后的线索词列表预先存储在规定的存储区域中。
特征即CWs作为句子中包含的在线索词列表中列出的单词的合计数算出。
·停词(SW)
关于构成主题重要度的特征之一的停词进行说明。
停词是频度非常过高因而在算出得分时应将其除外的单词,其中包含助词、助动词等。这样的停词,作为将多个停词即单词进行列表化后的停词列表预先存储在规定的存储区域中。
句子中包含停词时,将该单词的得分设为规定的值或零。
利用如上所述那样算出的特征TF、TI、KW、CW,用下述式(2)算出主题重要度(TH)。
THi=W1TFi+W2TIi+W3KWi+W4CWi ...(2)
这里,W1、W2、W3、W4分别表示对特征TF、TI、KW、CW的权重。
其次,关于位置重要度进行说明。
·位置(LC)
关于构成位置重要度的特征之一的位置进行说明。
如果句子包含于文档主体最初的段落或最后的段落中,进一步在该段落中是第1句或第2句,则该句子多为重要,因此判断句子是否处于这样的位置,例如在处于这样的位置时则将LC设为1,不是这样的位置时则将LC设为0。
·子位置(SL)
关于构成位置重要度的特征之一的子位置进行说明。
如果句子包含于文档主体最初的段落或最后的段落中,则将SL设为1,不是这样的位置时则将SL设为0。
利用如上所述那样算出的特征LC、SL,用下述式(3)算出位置重要度(LI)。
LIk=W5LCk+W6SLk ...(3)
这里,W5、W6分别表示对特征LC、SL的权重。
通过将在式(2)及式(3)中算出的THi和LIk适用于下述式(4),来算出表示1个句子的重要度的得分S。
表示1个句子的重要度的得分S由式(4)算出。
S=∑THi×Ci×R/TN+∑LIk×Ck×(1-R)/LN ...(4)
这里,Ci、Ck表示系数,R(0≤R≤1)是THi和LIk对得分S贡献的比率,TN表示算出THi时使用的特征数,LN表示算出LI时使用的特征数。得分变大是因为主题重要度(TH)和位置重要度(LI)变大,TH和LI变大是因为每一个单词的每一个上述特征的得分变大。
重要度算出部14重复上述那样的算出处理,算出1个文档数据中包含的所有句子的重要度。
由此,将所有句子、和对各句子算出的得分赋予相关关系地存储在外部存储装置5、内置于处理器4中的半导体存储器等中。
摘要生成部15从存储区域读出所有句子、和对各句子算出的得分,按照得分顺序将句子重新排列。
重新排列后,从得分高的句子起选择规定数量的句子,将选择的多个句子决定为构成摘要的句子。由于被选择的句子保持前述的数据结构,因此也可以基于该数据结构,将选择的句子以遵从来源文档数据的排列顺序的形态进一步重新排列而生成摘要。
这里,规定数量构成为可由用户任意地设定。作为用户可设定的参数,可以是构成摘要的句子的数量,但更优选地应根据构成来源文档数据的句子的总数来决定构成摘要的句子的数量。从而,将构成摘要的句子的数量相对于构成来源文档数据的句子的总数的比率(以下称为“压缩率”)作为可由用户设定的参数来使用。
压缩率例如可由百分率(%)进行设定,当用户设定为30%时,如果构成来源文档数据的句子的总数为50,则构成摘要的句子的数量为50的30%即15。此时摘要生成部15从得分高的句子起选择15个句子,将选择的15个句子决定为构成摘要的句子。
压缩率与前述的权重、系数等一起作为设定值存储在外部存储装置5、内置于处理器4中的半导体存储器等中。也可以存储预先决定的值作为压缩率的初始值,若用户不进行变更则基于初始值从得分高的句子起选择规定数量的句子,在用户进行了变更时,则基于用户作了变更的值从得分高的句子起选择规定数量的句子。
显示部16显示摘要生成部15生成的摘要。此时,优选地应构成为也可显示摘要的来源的文章。来源文章的显示,可以是与摘要并列地显示,也可以是在摘要与来源文档之间切换而显示。
将多个文档数据作为摘要生成处理的对象来选择也是可能的,此时,将根据多个文档数据生成的多个摘要并列地显示,对用户选择的1个摘要显示来源文档。
通过这样做,可以在短时间内从大量的文档数据中,基于被显示的摘要适当地选择必要的文档数据。
进而,本发明中,通过用户任意地设定关键词,能够制作反映了用户喜好的摘要。
利用图3~9,对摘要生成处理的操作步骤进行说明。图3~9是示出显示部16的显示画面例的图。
摘要生成处理是通过利用图中所示的接口20并用户进行各种操作而进行的。
在接口20上配置有:显示摘要的来源文档的内容的来源文档显示区域21、显示摘要的内容的摘要显示区域22、读取来源文档用的打开文件按钮23、设定参数用的设定按钮24、显示基于来源文档的候选关键词的候选关键词一览显示区域25、显示用户指定的关键词的关键词显示区域26、设定压缩率的压缩率设定滑动控件27、指示开始摘要生成处理的处理开始按钮28等。
若按下设定按钮24,则显示图4中所示的设定表格30,可设定各种参数。
本实施方式中,作为主题重要度(TH),可使用出现频度(TF)、标题词(TI)、线索词(CW)、停词(SW)、关键词(KW)5个特征。这些中,由于出现频度(TF)是必须的特征,因此可利用各选择框从TI、CW、SW、KW中选择TH的算出中所采用的特征。选择框31是用于选择SW的,选择框32是用于选择CW的,选择框33是用于选择KW的,选择框34是用于选择TI的。
进而,作为位置重要度(LI),可使用位置(LC)、子位置(SL)2个特征。能够利用各选择框从LC、SL中选择LI的算出中所采用的特征。选择框35是用于选择LC的,选择框36是用于选择SL的。
来源文档的输入有3种方法,即:选择既存的文本文件并进行输入的方法;将来源文档显示区域21作为文本输入框,从键盘等直接输入的方法;读取既存文本文件进而进行变更、追加等的方法。
图5是示出直接输入的方法的示意图。用户操作键盘1,而在来源文档显示区域21中输入文档。图6是示出既存文本文件的输入方法的示意图。若用户点击打开文件按钮23则既存的文本文件被显示,从中选择来源文档的文件。被选择的文档的内容,显示在来源文档显示区域21上。
若文档显示在来源文档显示区域21上,则处理开始按钮28变为有效,因此通过将其按下,基于预先设定的参数来生成摘要。如图7中所示,所生成的摘要显示在摘要显示区域中。由于当执行一次摘要处理时,来源文档即被分离、分类,所以从其中将出现频度高的单词作为关键词,一览显示在候选关键词一览显示区域25上。
如图8的示意图中所示,若双击候选关键词,或在选择了候选单词的状态下按下追加按钮,则该单词被追加到右侧的关键词显示区域26中。由此,关键词列表得到变更,进行重新计算,摘要被变更。
若单击关键词显示区域26的单词,或选择了候选单词的状态下按下删除按钮,则该单词从选择了右侧的后选关键词的状态中被删除,关键词列表得到变更,进行重新计算,摘要被变更。
进而,如图9的示意图中所示,用户可以在关键词输入区域29中输入任意字符串,若在关键词输入区域29中输入字符串,则将其作为关键词更新关键词列表,进行重新计算,摘要被变更。
关于本发明的实施例进行说明。
图10是示出摘要生成处理的对象的文档的一例的图。
本实施例中使用的文档,文章主体由1个段落构成,该段落由5个句子构成。
另外,压缩率设定为40%,因此构成摘要的句子将选择2个句子。
图11是示出由预处理部12、分类部13进行的处理结果的图。由预处理部12将全部分离为单词,且各单词的词类得到分类。
图12是示出不输入关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。
由重要度算出部14对实施了预处理的文档算出重要度,算出各句子的得分,并按照得分从高到低的顺序排列的结果,如图12(a)中所示,成为如下顺序,即第3句(得分0.175873)、第2句(得分0.110417)、第1句(得分0.105556)、第5句(得分0.006513)、第4句(得分0.002778)。
摘要生成部14中,从得分高的句子起选择2个句子,即选择第3句和第2句,按照来源文档的排列顺序重新排列,而成为第2句、第3句的顺序,并将其作为摘要。结果示于图12(b)中。
接着,输入关键词并进行了重要度的重新计算。图13是示出输入了关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。
本实施例中,输入了“生产力”作为关键词。由此,句子中包含生产力的第3句、第1句的得分变化,其结果,如图13(a)中所示,成为如下顺序,即第3句(得分0.180635)、第1句(得分0.147222)、第2句(得分0.110417)、第5句(得分0.006513)、第4句(得分0.002778)。
摘要生成部14中,从得分高的句子起选择2个句子,即选择第3句和第1句,按照来源文档的排列顺序重新排列,而成为第1句、第3句的顺序,并将其作为摘要。结果示于图13(b)中。
这样,根据用户输入的关键词,所生成的摘要发生变化,能够制作反映了用户喜好的摘要。
本发明能够在不脱离其精神或主要特征的条件以其它各种方式进行实施。从而,前述的实施方式只不过是在所有方面上的例示而已,本发明的范围是权利要求书中所示的范围,而不受说明书本文的任何限制。进而,属于权利要求书范围的变形和变更等全部属于本发明范围内。
Claims (5)
1.一种文档处理装置,其特征在于,
具有:
输入部,其输入文档;
预处理部,其将由上述输入部输入的文档分离成多个单词;
重要度算出部,其算出由上述预处理部分离的单词的至少基于频度的特征值,并基于上述算出的特征值来算出每一个由多个单词构成的句子的重要度;
摘要生成部,其基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要;
显示部,其显示由上述摘要生成部生成的摘要;
关键词输入部,其用于输入关键词,用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词;
而且,在由上述显示部显示由上述摘要生成部生成的输入文档的摘要后,
若由上述关键词输入部输入关键词或通过预处理部分离的单词中选择关键词,则上述重要度算出部重新算出基于单词的频度以及所输入的单词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,上述显示部重新显示由上述摘要生成部生成的摘要。
2.根据权利要求1所述的文档处理装置,其特征在于,
上述文档由文档主体和标题构成,该文档主体由多个句子构成,
上述重要度算出部还算出基于上述标题中包含的单词的特征值,并基于算出的特征值来算出句子的重要度。
3.根据权利要求1所述的文档处理装置,其特征在于,上述重要度算出部还算出基于预先决定的线索词的特征值,并基于算出的特征值来算出句子的重要度。
4.根据权利要求1所述的文档处理装置,其特征在于,上述关键词输入部,通过从由上述预处理部分离的单词中进行选择来输入特定的关键词。
5.根据权利要求1所述的文档处理装置,其特征在于,若由上述关键词输入部再次输入关键词,则上述重要度算出部再次算出基于单词的频度以及输入的关键词的特征值,并基于算出的特征值来再次算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序再次选择规定数量的句子,而再次生成所输入的文档的摘要,上述显示部再次显示由上述摘要生成部生成的摘要。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100065570A CN101526938B (zh) | 2008-03-06 | 2008-03-06 | 文档处理装置 |
JP2008176387A JP4861375B2 (ja) | 2008-03-06 | 2008-07-04 | 文書処理装置、文書処理プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100065570A CN101526938B (zh) | 2008-03-06 | 2008-03-06 | 文档处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101526938A true CN101526938A (zh) | 2009-09-09 |
CN101526938B CN101526938B (zh) | 2011-12-28 |
Family
ID=41094805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100065570A Expired - Fee Related CN101526938B (zh) | 2008-03-06 | 2008-03-06 | 文档处理装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4861375B2 (zh) |
CN (1) | CN101526938B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN107025216A (zh) * | 2015-09-09 | 2017-08-08 | Uberple有限公司 | 句子提取方法及系统 |
CN107229939A (zh) * | 2016-03-24 | 2017-10-03 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN107562723A (zh) * | 2017-08-24 | 2018-01-09 | 网易乐得科技有限公司 | 会议处理方法、介质、装置和计算设备 |
CN110781291A (zh) * | 2019-10-25 | 2020-02-11 | 北京市计算中心 | 一种文本摘要提取方法、装置、服务器及可读存储介质 |
CN112541073A (zh) * | 2020-12-15 | 2021-03-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法、装置、电子设备及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101978297B1 (ko) | 2012-06-11 | 2019-08-28 | 에스케이플래닛 주식회사 | 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법 |
JP6099046B2 (ja) | 2013-06-11 | 2017-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置および方法 |
JP6524008B2 (ja) * | 2016-03-23 | 2019-06-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP7112650B2 (ja) * | 2017-12-28 | 2022-08-04 | コニカミノルタ株式会社 | 文書スコアリング装置、プログラム |
WO2024166183A1 (ja) * | 2023-02-06 | 2024-08-15 | 日本電信電話株式会社 | 文生成学習方法、文生成方法、文生成学習装置、文生成装置及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
JP3718044B2 (ja) * | 1998-02-02 | 2005-11-16 | 富士通株式会社 | 文書閲覧装置およびそのプログラムを格納した記憶媒体 |
CN1145899C (zh) * | 2000-09-07 | 2004-04-14 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
-
2008
- 2008-03-06 CN CN2008100065570A patent/CN101526938B/zh not_active Expired - Fee Related
- 2008-07-04 JP JP2008176387A patent/JP4861375B2/ja active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025216A (zh) * | 2015-09-09 | 2017-08-08 | Uberple有限公司 | 句子提取方法及系统 |
CN107229939A (zh) * | 2016-03-24 | 2017-10-03 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN107562723A (zh) * | 2017-08-24 | 2018-01-09 | 网易乐得科技有限公司 | 会议处理方法、介质、装置和计算设备 |
CN110781291A (zh) * | 2019-10-25 | 2020-02-11 | 北京市计算中心 | 一种文本摘要提取方法、装置、服务器及可读存储介质 |
CN112541073A (zh) * | 2020-12-15 | 2021-03-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4861375B2 (ja) | 2012-01-25 |
CN101526938B (zh) | 2011-12-28 |
JP2009217802A (ja) | 2009-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101526938B (zh) | 文档处理装置 | |
JP3579204B2 (ja) | 文書要約装置およびその方法 | |
US6978275B2 (en) | Method and system for mining a document containing dirty text | |
US8335787B2 (en) | Topic word generation method and system | |
JP5512489B2 (ja) | ファイル管理装置及びファイル管理方法 | |
JP2003248676A (ja) | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 | |
JP2010529569A (ja) | 辞書の単語及び熟語の判定 | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
WO2006134682A1 (ja) | 固有表現抽出装置、方法、及びプログラム | |
KR102414391B1 (ko) | 과거이력 기반 실시간 문서작성 추천 시스템 | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
US20060230036A1 (en) | Information processing apparatus, information processing method and program | |
CN109815328B (zh) | 一种摘要生成方法及装置 | |
US20070179937A1 (en) | Apparatus, method, and computer program product for extracting structured document | |
Asha et al. | Fake news detection using n-gram analysis and machine learning algorithms | |
JP2013050890A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
JP4106470B2 (ja) | 解データ編集処理装置および処理方法 | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP5942981B2 (ja) | 要約作成装置、要約作成方法、およびプログラム | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
JP2004220226A (ja) | 検索文書のための文書分類方法及び装置 | |
WO2015156943A1 (en) | Augmenting search results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111228 |