CN111435405A - 一种文章关键句自动标注方法及装置 - Google Patents
一种文章关键句自动标注方法及装置 Download PDFInfo
- Publication number
- CN111435405A CN111435405A CN201910036353.XA CN201910036353A CN111435405A CN 111435405 A CN111435405 A CN 111435405A CN 201910036353 A CN201910036353 A CN 201910036353A CN 111435405 A CN111435405 A CN 111435405A
- Authority
- CN
- China
- Prior art keywords
- article
- paragraph
- key
- sentence
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000002372 labelling Methods 0.000 title claims description 16
- 238000012163 sequencing technique Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 6
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文章关键句自动标注方法及装置,主要包括:对文章进行段落分析,拆分成多个段落;将拆分后的每一段按照标点符号进一步拆分为句子;选定最能代表文章中心的内容,作为核心内容;将拆分的所述多个段落按照和核心内容内容的语义匹配程度进行排序;从排序靠前的段落开始,将段落中的各个句子依次按照和核心内容的内容语义匹配程度排序;依次在每一段中选取匹配程度达到第一阈值,且长度合适的句子作为关键句;当关键句的数量达到第二阈值时,对得到的关键句进行自动标注。本发明提出的文章关键句自动标注方法,自动为一篇文章“划重点”,也就是标记关键内容,帮助用户阅读文章时迅速浏览,快速识别、消化文章的重点内容,加快信息消费的速度,提高阅读类软件的用户体验。
Description
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种文章关键句自动标注方法及装置。
背景技术
在移动互联网时代,用户越来越倾向于在手机等移动终端阅读各类文章,包括新闻、资讯、博客等内容。由于在移动终端阅读时间的碎片化,用户在大多数文章上不可能分配很长的阅读时间。另外,由于互联网时代的信息爆炸,造成资讯泛滥,用户面临接受信息过多、信息过载的问题,因此需要在阅读文章时迅速浏览,快速识别、消化文章的重点内容,加快信息消费的速度。
发明内容
本发明的主要目的在于提出一种文章关键句自动标注方法及装置,旨在解决如何自动为一篇文章“划重点”,也就是标记关键内容的问题。
为实现上述目的,本发明提供的一种文章关键句自动标注方法,该方法主要步骤包括:对文章进行段落分析,拆分成多个段落;将拆分后的每一段按照标点符号进一步拆分为句子;选定最能代表文章中心的内容,作为核心内容;将拆分的所述多个段落按照和核心内容内容的语义匹配程度进行排序;从排序靠前的段落开始,将段落中的各个句子依次按照和核心内容的内容语义匹配程度排序;依次在每一段中选取匹配程度达到第一阈值,且长度合适的句子作为关键句;当关键句的数量达到第二阈值时,对得到的关键句进行自动标注。
优选地,该方法对文章进行段落分析时,可以依靠文章来源网页的HTML标签,如p标签,br标签等。
优选地,该方法在对段落进行拆分成句时,需要同时考虑多种标点符号,包括中文句号,问号,感叹号,以及其对应的英文标点符号。
优选地,在选择文章核心内容时,根据文章本身特点,可以有两种选取核心内容内容的方式。其一:如果文章标题长度足够:一般为15个字以上,且不包含黑名单词语(用户可自行定义不符合要求的词语,制作列表作为黑名单,例如诱导分享类的词语),那么将该文章标题作为核心内容。其二:否则,可从文章中选择核心内容,例如:将文章中第一个100字以上段落的首句作为其核心内容。
优选地,所述语义匹配程度可以采用任意一种主流的计算文本相似度的算法计算得到,例如tf-idf方法、BM25方法等。
优选地,依次在每个段落中选择关键句时,需要综合考虑段落本身的和核心内容的语义匹配度以及段落中句子和核心内容的语义匹配程度,如果段落本身和核心内容的匹配程度排在第一,那么该段的整个段落都可以作为关键句标出;如果段落本身和核心内容的匹配程度并不排在最前,那么选取段落中和核心内容匹配程度排在最前的句子作为关键句。
优选地,依次选取文章中的关键句时,当选出的关键句子总数大于文章的句子总数的一定比例时,可以认定关键句子标注完成,不再标注更多关键句。
优选地,标注采用下划线、加粗、高亮显示等方式。
此外,为实现上述目的,本发明还提出一种移动端应用的文章展示方式,所述移动终端包括:存储器、处理器、屏幕及存储在所述存储器上并可在所述屏幕上展现的包含了标注出来的关键句的文章,所述的关键句标注的执行结果可以以多种样式(如下划线、加粗、高亮显示)以划重点的方式在移动终端展示。
本发明提出的文章关键句自动标注方法,自动为一篇文章“划重点”,也就是标记关键内容,帮助用户阅读文章时迅速浏览,快速识别、消化文章的重点内容,加快信息消费的速度,提高阅读类软件的用户体验。
附图说明
图1为本发明对互联网文章进行内容分段的实例
图2为本发明移动端展示关键句标注结果
具体实施方式
本发明提出方法的主要步骤包括:1.段落拆分;2.句子拆分;3.核心内容选定;4.段落排序;5.句子排序;6.关键句标注;7.移动端结果展示。
1:段落拆分
具体的,本发明方法处理的文章为互联网可公开访问的网站上的资讯、博客等文章,其文章又HTML(超文本标记语言)进行排版。本方法根据其HTML具体内容对文章进行段落拆分。段落拆分的主要依据为HTML中的p标签以及br标签。对于一段符合HTML规范的内容,本方法讲其中每一个p标签包裹的内容看作一个独立的段落。同时,对拆分得到的段落进一步查看其中有没有br标签,如果一个段落中包含br标签,那么将br标签看作分段符号再次拆分段落。
2:句子分析
具体的,将段落拆分为句子主要参考其中的标点符号。对于中文文章,中文句号、感叹号、问好作为拆分依据。对与英文文章,可以将英文句点加上一个空格作为句子拆分的依据。
3:核心内容选定
具体的,一般选择文章标题作为文章的核心内容。当标题内容不符合标准时(可能包括以下情况:长度较短、或者其中包括一些可能是标题党的词汇,如竟然、震惊等),选择文章正文中首段的第一句作为核心内容。
4:段落排序
具体的,对于文章中的每个段落,可以按照段落和核心内容的语义相似度对段落进行排序。令核心内容为S,第i段为,则该段落和核心内容的语义相似度可以表示为,代表一个函数,输入为任意两个短文本,输出为一个实数值,代表两端文本的语义相似度。实际实施时,可以利用任何能够衡量文本相似度的函数作为函数,如编辑距离,词频相似度,tf-idf相似度,词向量相似度等。相似度越大的段落排名越靠前。
5:句子排序
具体的,对与排序完成的段落,从排名第一的段落开始,对段落中的每一句话再次进行相似性排序,排序标准同样根据段落中的每一句和核心内容S的语义相似度函数。注意这里的函数的实现可以选取和第四部段落排序中相同的实现方式,也可以选取不同的实现方式。
6:关键句标注
对段落中的句子完成排序后,在每段话中选取排名靠前的句子作为一个关键句标出。选取时需要同时参考句子的其他特征,如句子长度等。例如,如果句子长度过短,那么选择排名紧随其后的句子进行标注,以此类推。标注过程中记录已经标注的句子总个数,如果已经超过了一定阈值,则停止标注。这里的阈值时为了防止标注过多的关键句,例如,可以设定最多标注的关键句个数不超过文章总句子数目的1/3。
7:移动端结果展示
完成对文章关键句的自动标注后,在移动端的文章阅读界面可以一定的突出格式对得到的关键句进行突出展示。所述突出格式可以是将标记的关键句进行字体倾斜、加粗,舔加下划线、改变字体颜色、改变遍字体背景颜色等,同时也可以根据关键句和核心内容在语义相似度上的不同给予不同的展现形式。对文章中标记得到的关键句改变样式后即可展现给用户。
实施例一
本发明提出方法的主要步骤包括:1.段落拆分;2.句子拆分;3.核心内容选定;4.段落排序;5.句子排序;6.关键句标注;7.移动端结果展示。下面以一篇互联晚上的新闻文章为例,说明本发明的实施方式。
1:段落分析
图1左边方框中的内容是一篇来源于互联网的新闻文章,其中包含了HTML标签,其中每个p标签包裹的内容都是一个段落,根据该规则,可以讲该HTML文章分成图1右边所示的3个段落。
2:句子分析
对上一步中产生的三个段落,对每个段落进行句子拆分。句子主要参考其中的标点符号。对于上述中文文章,可以利用中文句号进行句子拆分。图1中的1、2两段都只有一个句话,各包含一句话,而第三段包含了三句话。
3:核心内容选定
图1中的文章所在的网页标题为“华为和3D Mark母公司官方发联合声明:正式回应跑分事件”,该句子长度较为合适,且不包含可能有标题党嫌疑的用词,因此将该标题作为这篇文章的核心内容。
4:段落排序
对于图1中文章的三个段落,按照每个段落和核心内容“华为和3D Mark母公司官方发联合声明:正式回应跑分事件”的语义相似度对其进行排序。令核心内容为S,上图中的三段话分别为段为、、,实际实施时,我们利用tf-idf相似度作为衡量语义相似度的函数,分别计算S和、、的语义相似度,也就是、、。通过计算tf-idf相似度发现,>>,因此最终段落排序为、、。
5:句子排序
对与上述每个排序完成的段落,我们对段落中的每一句话再次进行相似性排序。这里同样选择tf-idf作为函数。首先对与段落,其中包括三句话分别为(华为向UL……体验诉求)、(UL理解……有异议)、(UL规则……跑分模式),通过这三句话和核心内容计算tf-idf相似度,发现>>,因此排序为、、。段落、分别只包含一句话,因此无需排序。
6:关键句标注
对段落中的句子完成排序后,在每段话中选取排名靠前的句子作为一个关键句标出。并且选择时依次从排序最高的段落开始选择。因为段落排序为、、,首先看段落。中排序最靠前的话为,因此选择进行标注。接下来从段落中进行选择,因为只有一句话,因此可以直接选择该句即可。对同样选择仅有的一句话。至此已经选择了三句话进行标注,占到总句子个数的一半以上,可以停止标注,接受该结果。
7:移动端结果展示
根据上文中的标注结果,可以在移动端展示该标注结果。图2展示了移动端的一种展示方式,其中我们将原文内容排版后,将标注出的关键句以下划线的形式展现在屏幕上。这里还有其他更多的方式可以展现关键句,比如改变字体、字体颜色、背景色等。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种文章关键句自动标注方法,其特征在于,包括:
获取待标注的文章;
将待标注的文章拆分成多个段落,并将拆分后的段落进一步拆分为句子;
选定文章中的核心内容;
计算拆分后的段落和核心内容的语义匹配程度;
从匹配程度最高的段落开始,依次计算段落中的每个句子和核心内容的语义匹配程度,选取匹配程度达到第一阈值的句子作为关键句;
当关键句的数量达到第二阈值时,对得到的关键句进行自动标注。
2.如权利要求1所述的文章关键句自动标注方法,其特征在于:
所述将待标注的文章拆分成多个段落,包括:根据文章来源网页的HTML标签,对文章进行段落拆分;
以及根据标点符号,将段落拆分成句子。
3.如权利要求1所述的文章关键句自动标注方法,其特征在于:
所述语义匹配程度采用文本相似度的算法计算得到。
4.如权利要求1所述的文章关键句自动标注方法,其特征在于:
在选取关键句时,综合考虑段落的和核心内容的语义匹配度以及段落中句子和核心内容的语义匹配程度;
如果该段落本身和核心内容的匹配程度在所有段落中最高,那么该段的整个段落都作为关键句标出;
否则,选取段落中和核心内容匹配程度最高的句子作为关键句。
5.如权利要求1所述的文章关键句自动标注方法,其特征在于:
所述标注采用下划线、加粗、高亮显示等方式。
6.一种文章关键句自动标注装置,其特征在于,包括:
获取模块,用于获取待标注的文章;
拆分模块,用于将待标注的文章拆分成多个段落,并将拆分后的段落进一步拆分为句子;
选定模块,用于选定文章中的核心内容;计算拆分后的段落和核心内容的语义匹配程度;从匹配程度最高的段落开始,依次计算段落中的每个句子和核心内容的语义匹配程度,选取匹配程度达到第一阈值的句子作为关键句;
标注模块,用于当关键句的数量达到第二阈值时,对得到的关键句进行自动标注。
7.如权利要求6所述的文章关键句自动标注装置,其特征在于:
所述将待标注的文章拆分成多个段落,包括:根据文章来源网页的HTML标签,对文章进行段落拆分;
以及根据标点符号,将段落拆分成句子。
8.如权利要求6所述的文章关键句自动标注装置,其特征在于:
所述语义匹配程度采用文本相似度的算法计算得到。
9.如权利要求6所述的文章关键句自动标注装置,其特征在于:
在选取关键句时,综合考虑段落的和核心内容的语义匹配度以及段落中句子和核心内容的语义匹配程度;
如果该段落本身和核心内容的匹配程度在所有段落中最高,那么该段的整个段落都作为关键句标出;
否则,选取段落中和核心内容匹配程度最高的句子作为关键句。
10.如权利要求6所述的文章关键句自动标注装置,其特征在于:
所述标注采用下划线、加粗、高亮显示等方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910036353.XA CN111435405A (zh) | 2019-01-15 | 2019-01-15 | 一种文章关键句自动标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910036353.XA CN111435405A (zh) | 2019-01-15 | 2019-01-15 | 一种文章关键句自动标注方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111435405A true CN111435405A (zh) | 2020-07-21 |
Family
ID=71580762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910036353.XA Pending CN111435405A (zh) | 2019-01-15 | 2019-01-15 | 一种文章关键句自动标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111435405A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569580A (zh) * | 2021-09-24 | 2021-10-29 | 太极计算机股份有限公司 | 基于语义理解的知识图谱构建方法、检索方法及其系统 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104317846A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种语义分析与标注方法及系统 |
CN105320734A (zh) * | 2015-07-14 | 2016-02-10 | 中国互联网络信息中心 | 一种网页核心内容提取方法 |
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN108920456A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种关键词自动抽取方法 |
-
2019
- 2019-01-15 CN CN201910036353.XA patent/CN111435405A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104317846A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种语义分析与标注方法及系统 |
CN105320734A (zh) * | 2015-07-14 | 2016-02-10 | 中国互联网络信息中心 | 一种网页核心内容提取方法 |
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN108920456A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种关键词自动抽取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569580A (zh) * | 2021-09-24 | 2021-10-29 | 太极计算机股份有限公司 | 基于语义理解的知识图谱构建方法、检索方法及其系统 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112689189B (zh) | 一种视频展示、生成方法及装置 | |
US10198506B2 (en) | System and method of sentiment data generation | |
US11308278B2 (en) | Predicting style breaches within textual content | |
US9613268B2 (en) | Processing of images during assessment of suitability of books for conversion to audio format | |
US20110097693A1 (en) | Aligning chunk translations for language learners | |
CN107798123B (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
CN106021234A (zh) | 标签提取方法及系统 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
Seadle | Managing and mining historical research data | |
Serigos | Applying corpus and computational methods to loanword research: new approaches to Anglicisms in Spanish | |
CN111435405A (zh) | 一种文章关键句自动标注方法及装置 | |
CN112017078A (zh) | 专利文档的辅助撰写方法、处理装置以及存储介质 | |
CN112017079A (zh) | 专利文档的元件信息提取方法、处理装置以及存储介质 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
Kestemont | Stylometric authorship attribution for the middle Dutch mystical tradition from Groenendaal | |
Satoła-Staśkowiak | Contemporary contrastive studies of Polish, Bulgarian and Russian neologisms versus Language Corpora | |
US10579660B2 (en) | System and method for augmenting search results | |
Přichystal | Mobile application for customers’ reviews opinion mining | |
CN111046295B (zh) | 书评页面的响应方法、计算设备及计算机存储介质 | |
CN114328895A (zh) | 新闻摘要的生成方法、装置以及计算机设备 | |
CN112001821A (zh) | 专利文档的审核方法、处理装置以及存储介质 | |
WO2021106051A1 (ja) | サーバおよびデータ割り当て方法 | |
CN112016282A (zh) | 专利文档的审核方法、处理装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200721 |
|
WD01 | Invention patent application deemed withdrawn after publication |