CN1614587A - 中文文件自动摘要方法 - Google Patents

中文文件自动摘要方法 Download PDF

Info

Publication number
CN1614587A
CN1614587A CN 200310103482 CN200310103482A CN1614587A CN 1614587 A CN1614587 A CN 1614587A CN 200310103482 CN200310103482 CN 200310103482 CN 200310103482 A CN200310103482 A CN 200310103482A CN 1614587 A CN1614587 A CN 1614587A
Authority
CN
China
Prior art keywords
sentence
mark
keyword
sentences
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200310103482
Other languages
English (en)
Inventor
杨立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 200310103482 priority Critical patent/CN1614587A/zh
Publication of CN1614587A publication Critical patent/CN1614587A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种中文文件自动摘要方法,适用于建立一个目标文件的摘要。首先设定摘要搜寻范围,并将此摘要搜寻范围分成多个句子;接着在此摘要搜寻范围找出多个关键词;然后根据这些关键词的词性分别给予任意一个关键词相对应的关键词分数;然后根据这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每一个句子所分别对应的一个句子分数;最后依照这些句子分数排列这些句子作为摘要的优先级。

Description

中文文件自动摘要方法
技术领域
本发明是有关于一种摘要方法,且特别是有关于一种中文文件自动摘要方法。
背景技术
随着时代的进步,知识经济的时代也已经来临,在这知识爆炸的时代中,如何从茫茫的知识中迅速搜寻取得对自己有用的信息则是刻不容缓的课题。
于是我们将文章的内容写成摘要,提供使用者快速的了解文章的大意。让使用者透过阅读摘要的方式,来决定是否阅读整篇文章,进而达到节省时间以及迅速掌握文章内容的目的。
习知技术中,利用人工的方式来阅读每一篇文章来做成摘要,但是此方法不但费时且费力。另外一种方法则是使用微软的word软件,此软件会选取文章中的第一句来当作摘要,但此方法并不是很准确。
发明内容
因此本发明的目的就是在提供一种中文文件自动摘要方法,其可将任意一篇文章,取出若干句子作为此篇文章的摘要。
本发明提出一种中文文件自动摘要方法,此中文文件自动摘要方法的步骤依序为:首先设定摘要搜寻范围,并将此摘要搜寻范围分成多个句子;接着在此摘要搜寻范围找出多个关键词,并根据这些关键词的词性分别给予任意一个关键词相对应的关键词分数;然后根据这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每一句子所分别对应的一个句子分数;最后依句子分数排列这些句子作为摘要的优先级。
在本发明的一个较佳实施例中,依句子分数排列这些句子作为摘要的优先级的步骤依序为:首先由高至低排列句子分数;最后依这些句子分数的排列顺序,依序取得相对应的句子,直到符合预设停止条件为止。
在本发明的一个较佳实施例中,根据这些关键词的词性分别给予这些关键词相对应的关键词分数的步骤依序为:首先提供词库,而此词库则是用以规定词汇、与此词汇相对应的词性及词频;接着提供词性得分表以规定每一个词性所相对应的分数;最后根据此词库与此词性得分表以计算这些关键词所对应的关键词分数。
在本发明的一个较佳实施例中,根据这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定这些句子所分别对应的句子分数的步骤依序为:首先以此句子中所包含的每一个关键词所对应的关键词分数与词频的倒数相乘而分别得到一个相乘值;接着将此句子中包含的所有关键词的相乘值相加,得到一个相加总和;然后以此句子的句长对此相加总和做正规化操作;最后以正规化所得的结果为此句子分数。上述关键词所对应的词频为介于0与1之间的实数,且词频越高的代表出现频率也越高。
本发明借由设定关键词的得分,然后依据关键词所对应的关键词分数、句长、及词频决定句子的分数,最后根据句子分数的高低顺序来达到决定摘要的内容。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举一个较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1绘示根据本发明一个较佳实施例的中文文件自动摘要方法的流程图。
图2绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决定关键词分数的流程图。
图3A绘示根据本发明一个较佳实施例的中文文件自动摘要方法的词库。
图3B绘示根据本发明一个较佳实施例的中文文件自动摘要方法的词性得分表。
图4绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决定句子分数的流程图。
符号说明
S102:设定摘要搜寻范围,并将此摘要搜寻范围分成多个句子;
S104:在摘要搜寻范围找出多个关键词;
S106:根据关键词的词性分别给予任意一个关键词相对应的关键词分数;
S108:决定每一个句子所分别对应的句子分数;
S110:根据分数排列句子并作为摘要的优先级;
S202:提供词库以规定词汇、与此词汇相对应的词性及与此词汇相对应的词频;
S204:提供词性得分表以规定每一个词性所相对应的分数;
S206:根据词库与词性得分表计算关键词所对应的关键词分数;
S402:以句子中所包含的每一个关键词分数语词频的倒数相乘而分别得到相乘值;
S404:将句子中包含所有的关键词的相乘值相加,得到相加总和;
S406:以此句的句长对此相加总和做正规化操作;
S408:所得结果为此句子分数
具体实施方式
图1绘示根据本发明一个较佳实施例的中文文件自动摘要方法的流程图。请参照图1,首先,设定摘要搜寻范围,并将此摘要搜寻范围分成多个句子(如步骤S102)。必须注意的是,在一篇文章、电子邮件、或在行动电话系统所使用的短词(包括多媒体短讯、MMS)中,通常会同时包括有文字部分与其它的多媒体部分,在这种情况下,就需先取出在此文件中的纯文字部分,并将所取出的纯文字部分的全部或其中某些部分作为摘要搜寻范围。再者,熟习此技艺者可利用分隔符,如“,”、“。”、“:”与“;”等符号而将搜寻部份分成多个句子。然此并非本发明的必要实施方式,熟习此技艺者可视当下情况所需而选用适当的断句方式。接着,在此摘要搜寻范围找出多个关键词(如步骤S104),随后,根据这些关键词的词性分别给予任意一个关键词相对应的关键词分数(如步骤S106)。然后,根据这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每一个句子所分别对应的句子分数(如步骤S108)。最后,依照这些句子分数排列这些句子作为摘要的优先级(如步骤S110)。
在目前,已经有多种可以执行如步骤S104所述『找出关键词』的操作的技术文献存在,因此在此处并不多做叙述。然而,必须注意的是,由于本发明的技术是根据各关键词所对应的关键词分数、句长及词频等特征而对句子进行评分,因此前述的这些特征对于句子分数而言显然将会造成极大的影响。但是,正如熟习此技艺者所知,事先定义好的关键词分数、句长及词频等仅能针对已知或已条列出的词汇做最佳化的排序,却不能针对新发生或未条列出的词汇而给予相应的关键词分数及词频。因此,为了使本发明所带来的效果能更加突出,如何解决新词所带来的问题显然是一个可以着重研究的问题点。
为了解决新词所带来的问题,一个方式是不断的更新用以定义或条列关键词的词库。然而,此种方式必须耗费较多的人力及资源,而且并没有办法完全解决新词出现的问题。在本发明的一个实施例中,用来解决新词问题的方式是给予每一个新词一个相对应的预设关键词分数及词频等特征参数。举例来说,基于新词一般可能是该篇文件的撰写者为了表达其意念而新定义出,且对此篇文件而言应为最重要的词汇之一的假设,在此实施例中是将新词的关键词分数设定为一般关键词所能取得的最高分数的两倍,并将其词频设定为某一个固定的默认值。借由此种方式,将可以使得本发明得以在不更新词库的情况下仍然具有相当的处理弹性。
如熟习此技艺者可知,判断是否为新词的方式可以如上述般直接对词库做比较,举凡是不在词库中的词汇就可判定为新词。在另一方面,借由目前已经存在的新词学习方法,也可以达到相同的目的。再者,以各种方式所取得的新词可以进一步依照各人喜好而加入词库之中,并给予对应的分数与词频等特征参数。
图2绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决定关键词分数的流程图。请参照图2,在上述实施例中的步骤S106,根据这些关键词的词性分别给予任一这些关键词相对应的关键词分数,其中更详细的步骤如下。首先,提供词库,而此词库则是用以规定词汇、与此词汇相对应的词性及与此词汇相对应的词频(如步骤S202)。接着,提供词性得分表以规定每一个词性所相对应的分数(如步骤S204)。最后,则是根据此词库与此词性得分表来计算这些关键词所对应的关键词分数(如步骤S206)。
图3A绘示根据本发明一个较佳实施例的中文文件自动摘要方法的词库。图3B绘示根据本发明一个较佳实施例的中文文件自动摘要方法的词性得分表。请同时参照图3A以及图3B,在上述实施例中,例如在一个目标文章中,找出关键词“我”总共出现5次,所以可以从词库中找出此词汇“我”的词性为代名词,词频为0.9。接着参照词性得分表,则可以对照出代名词所应得到的分数,在此实施例中,代名词可得到的分数为36分,因此就以36分为关键词“我”所对应的关键词分数。上述关键词所对应的词频为介于0与1之间的实数,且词频越高的代表出现频率也越高。
然而,如熟习此技艺者所知,关键词分数不一定必须与此关键词所对应的词性同分,而且词频也不一定仅能介于0与1之间。
图4绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决定句子分数的流程图。请参考图4,在上述实施例中,步骤S108中根据这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每一这些句子所分别对应的句子分数,其中更详细的步骤如下。首先,以此句子中所包含的每一个关键词所对应的关键词分数与词频的倒数相乘而分别得到一个相乘值(如步骤S402)。接着,将此句子中包含的所有关键词的相乘值相加,得到一个相加总和(如步骤S404)。然后,以此句子的句长对此相加总和做正规化操作(如步骤S406)。最后,则是以正规化所得的结果为此句子分数(如步骤S408)。
在上述实施例中,例如词汇“我”的关键词分数为36分,接着将此关键词“我”所对应的关键词分数36分与其词频的倒数相乘,而根据词库可得知“我”的词频为0.9,所以将36分乘以0.9的倒数,进而得到40这个相乘值。接着将此句子中所有关键词的相乘值相加,可以得到一个相加总和。随后,根据句子的句长对此相加总和作正规化操作,也即将此句子的句长的1n值开根号。最后正规化的结果便是此句子的分数。
如上所述,接着依照文章中句子分数的高低,由高至低排列,并依照这些句子分数的排列顺序,依序取得相对应的任一这些句子,直到符合一个预设停止条件为止,最后将依序所取得的句子,依照在文章中所出现的前后出现顺序作为摘要的输出顺序。例如依照句子分数对应取得分数高的前5句,但这前5句实际在摘要中出现的顺序,则是以在文章中的前后出现顺序作为摘要的出现顺序。上述的预设停止条件可以为特定字数或者是特定句数。
虽然本发明已经以一个较佳实施例披露如上,然其并非用以限定本发明,任何熟习此技艺者,在不脱离本发明的精神和范围内,当可作些少许的更动与润饰,因此本发明的保护范围当视上述的权利要求所界定的范围为准。

Claims (9)

1.一种中文文件自动摘要方法,适用于建立一个目标文件的摘要,包括:
设定一个摘要搜寻范围,并将该摘要搜寻范围分成多个句子;
在该摘要搜寻范围找出多个关键词;
根据这些关键词的词性分别给予任意一个这些关键词相对应的关键词分数;
根据这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每一这些句子所分别对应的一个句子分数;以及
依这些句子分数排列这些句子作为摘要的优先级。
2.如权利要求1所述的中文文件自动摘要方法,其中设定该摘要搜寻范围的步骤更包括:
取出该目标文件中的纯文字部分;以及
以所取出的纯文字部分为该摘要搜寻范围。
3.如权利要求1所述的中文文件自动摘要方法,其中根据该些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每一这些句子所分别对应的该句子分数的步骤包括:
以该句子中所包含的每一个关键词所对应的关键词分数与词频的倒数相乘而分别得到一个相乘值;
将该句子中包含的所有关键词的相乘值相加,得到一个相加总和;
以该句子的句长对该相加总和做正规化操作;以及
以正规化所得的结果为该句子分数;
其中,该词频为介于0与1之间的实数,且词频越高的代表出现频率也越高。
4.如权利要求1所述的中文文件自动摘要方法,其中根据这些关键词的词性分别给予任一这些关键词相对应的关键词分数的步骤,包括:
提供一个词库以规定一个词汇、与该词汇相对应的词性及与该词汇相对应的词频;
提供一个词性得分表以规定每一个词性所相对应的分数;以及
根据该词库与该词性得分表以计算这些关键词所对应的关键词分数。
5.如权利要求1所述的中文文件自动摘要方法,其中将该摘要搜寻范围分成多个句子的步骤是根据分隔符来进行。
6.如权利要求1所述的中文文件自动摘要方法,其中依这些句子分数排列这些句子作为摘要的优先级的步骤,包括:
由高至低排列这些句子分数;以及
依这些句子分数的排列顺序,依序取得相对应的任一这些句子,直到符合一个预设停止条件为止。
7.如权利要求6所述的中文文件自动摘要方法,其中该预设停止条件为特定字数。
8.如权利要求6所述的中文文件自动摘要方法,其中该预设停止条件为特定句数。
9.如权利要求6所述的中文文件自动摘要方法,更包括:
以这些句子在该摘要搜寻范围的前后出现顺序作为摘要的输出顺序。
CN 200310103482 2003-11-07 2003-11-07 中文文件自动摘要方法 Pending CN1614587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200310103482 CN1614587A (zh) 2003-11-07 2003-11-07 中文文件自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200310103482 CN1614587A (zh) 2003-11-07 2003-11-07 中文文件自动摘要方法

Publications (1)

Publication Number Publication Date
CN1614587A true CN1614587A (zh) 2005-05-11

Family

ID=34756690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200310103482 Pending CN1614587A (zh) 2003-11-07 2003-11-07 中文文件自动摘要方法

Country Status (1)

Country Link
CN (1) CN1614587A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100418093C (zh) * 2006-04-13 2008-09-10 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
CN100444591C (zh) * 2006-08-18 2008-12-17 北京金山软件有限公司 获取网页关键字的方法及其应用系统
CN103530399A (zh) * 2013-10-23 2014-01-22 合山市科学技术情报研究所 一种新闻情报处理系统
CN109637605A (zh) * 2018-12-11 2019-04-16 北京大学 电子病历结构化方法及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100418093C (zh) * 2006-04-13 2008-09-10 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
CN100444591C (zh) * 2006-08-18 2008-12-17 北京金山软件有限公司 获取网页关键字的方法及其应用系统
CN103530399A (zh) * 2013-10-23 2014-01-22 合山市科学技术情报研究所 一种新闻情报处理系统
CN109637605A (zh) * 2018-12-11 2019-04-16 北京大学 电子病历结构化方法及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN102915299B (zh) 一种分词方法及装置
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
EP2021959A2 (en) Annotation by search
JPH10260968A (ja) 中国文分節化の方法および中国語誤り検査(cec)システムへのその応用
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN115438166A (zh) 基于关键词和语义的搜索方法、装置、设备及存储介质
CN110276079B (zh) 一种词库建立方法、信息检索方法及对应的系统
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN112528681A (zh) 跨语言检索及模型训练方法、装置、设备和存储介质
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
Tasharofi et al. Evaluation of statistical part of speech tagging of Persian text
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN111104803A (zh) 语义理解处理方法、装置、设备及可读存储介质
CN110263121B (zh) 表格数据处理方法、装置、电子装置及计算机可读存储介质
US11151317B1 (en) Contextual spelling correction system
CN111159381A (zh) 数据搜索方法及装置
CN110688847A (zh) 技术合同判定方法、装置、计算机设备和存储介质
Wechsler et al. Multi-language text indexing for internet retrieval
CN1614587A (zh) 中文文件自动摘要方法
CN110287284B (zh) 语义匹配方法、装置及设备
CN114742062B (zh) 文本关键词提取处理方法及系统
Charoenpornsawat et al. Feature-based thai unknown word boundary identification using winnow
CN115438662A (zh) 一种基于大数据的权重自适应方法及大数据系统
CN114595684A (zh) 一种摘要生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication