CN110162618A - 一种非对照语料的文本概要生成方法及装置 - Google Patents

一种非对照语料的文本概要生成方法及装置 Download PDF

Info

Publication number
CN110162618A
CN110162618A CN201910133846.5A CN201910133846A CN110162618A CN 110162618 A CN110162618 A CN 110162618A CN 201910133846 A CN201910133846 A CN 201910133846A CN 110162618 A CN110162618 A CN 110162618A
Authority
CN
China
Prior art keywords
text
conjunction
summaries
preliminary
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910133846.5A
Other languages
English (en)
Other versions
CN110162618B (zh
Inventor
付永晗
孔嘉明
宫勐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiefeng Data Technology Co Ltd
Original Assignee
Beijing Jiefeng Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiefeng Data Technology Co Ltd filed Critical Beijing Jiefeng Data Technology Co Ltd
Priority to CN201910133846.5A priority Critical patent/CN110162618B/zh
Publication of CN110162618A publication Critical patent/CN110162618A/zh
Application granted granted Critical
Publication of CN110162618B publication Critical patent/CN110162618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种非对照语料的文本概要生成方法及装置,其中方法包括步骤:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算有关的匹配度;取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要。在没有对照语料的情形下,通过多次“探针”尝试自动概要的生成,利用其中的语意连接词对其进行校正,构成“尽量适合摘要性文本的”短文本。

Description

一种非对照语料的文本概要生成方法及装置
技术领域
本发明涉及一种文本自动概要领域,更具体地涉及非对照语料的文本概要生成领域。
背景技术
面对海量的信息报告或者新闻信息的出现,用户如何去查找和阅读自己感兴趣的文字就变成了一个难题。在自动概要生成的研究中,一方面更为多样的表达方式和更复杂的段落结构给面向整个文本的自动概要带来了挑战,在另一方面,整个文本尤其是公文年报、董事报告等文体具有其特定的行文规则和遣词造句,逻辑性较强,连接词的承上启下尤为突出,这样也提供了生成更为准确的自动概要的机会。
传统的方式包括两种。一种是基于截取式的摘要提供,往往不能准确反映文章内容的大意,而一个好的摘要能够让用户在不浏览详细内容的情况下快速地了解文章的大意,并迅速判断有无必要继续深入阅读,在如今运个信息爆炸的时代,运无疑具有十分重要的意义。另一种的文本概要生成,是计算机通过算法智能地将长文本自动缩写成摘要性质的短文本。当前的常见算法大量依赖人工撰写的长短对照的语料,采集成本高,训练量少。在没有对照语料的情况下,以上方式均不足以很好地完成任务。
发明内容
针对现有技术存在的不足,本发明提供一种非对照语料的文本概要生成方法及装置。
本发明的非对照语料的文本概要生成方法,包括以下步骤:
S1:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
S2:随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
S3:在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
S4:取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
S5:以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
优选的是,文本为有通用固定格式的文本,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
优选的是,有通用固定格式的文本为公文年报、董事会报告或企业年报。
优选的是,步骤S4中的计算每个初步概要文本综合匹配度为,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
相应地,本发明中还提供一种非对照语料的文本概要生成装置,包括:
原始文本划分模块,用于以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
初步文本概要生成模块,用于随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
匹配度校验计算模块,用于在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
综合匹配度计算模块,用于取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
文本概要生成模块,用于以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
优选的是,文本为公文年报、董事会报告或企业年报,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
优选的是,综合匹配度计算模块在计算每个初步概要文本综合匹配度时,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
在本发明中,还提供了一种计算机存储介质,设置于电子设备中,诸如电脑和手机等,运行前述的非对照语料的文本概要生成方法。
本发明的有益效果有:在没有对照语料的情形下,通过多次“探针”尝试自动概要的生成,利用其中的语意连接词对其进行校正,构成“尽量适合摘要性文本的”短文本。该方法和装置能摆脱对照语料缺乏的问题,在小众的内容中有较好表现。
附图说明
图1是本发明非对照语料的文本概要生成方法的步骤示意图;
图2是本发明非对照语料的文本概要生成装置的构造示意图;
其中,0-生成装置,1-原始文本划分模块,2-初步文本概要生成模块,3-匹配度校验计算模块,4-综合匹配度计算模块,5-文本概要生成模块。
具体实施方式
下面结合图1至图2对本发明予以解释说明。
如图1所示的非对照语料的文本概要生成方法,包括:
S1:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
S2:随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
S3:在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
S4:取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
S5:以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
在其中的一个实施例中,文本为有通用固定格式的文本,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
在其中的一个实施例中,有通用固定格式的文本为公文年报、董事会报告或企业年报。
在其中的一个实施例中,步骤S4中的计算每个初步概要文本综合匹配度为,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
相应地如图2所示的一种非对照语料的文本概要生成装置0,包括:
原始文本划分模块1,用于以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
初步文本概要生成模块2,用于随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
匹配度校验计算模块3,用于在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
综合匹配度计算模块4,用于取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
文本概要生成模块5,用于以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
在其中的一个实施例中,文本为公文年报、董事会报告或企业年报,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
在其中的一个实施例中,综合匹配度计算模块在计算每个初步概要文本综合匹配度时,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
对于具体的方式,还提供了一种计算机存储介质,设置于电子设备中,诸如电脑和手机等,运行前述的非对照语料的文本概要生成方法。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于该些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种非对照语料的文本概要生成方法,其特征在于,该方法包括以下步骤:
S1:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
S2:随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
S3:在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
S4:取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
S5:以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
2.根据权利要求1所述的非对照语料的文本概要生成方法,其特征在于,所述文本为有通用固定格式的文本,所述语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
3.根据权利要求2所述的非对照语料的文本概要生成方法,其特征在于,所述有通用固定格式的文本为公文年报、董事会报告或企业年报。
4.根据权利要求3所述的非对照语料的文本概要生成方法,其特征在于,所述步骤S4中的计算每个初步概要文本综合匹配度为,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
5.一种非对照语料的文本概要生成装置,其特征在于,该装置包括:
原始文本划分模块(1),用于以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
初步文本概要生成模块(2),用于随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
匹配度校验计算模块(3),用于在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
综合匹配度计算模块(4),用于取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
文本概要生成模块(5),用于以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
6.根据权利要求5所述的非对照语料的文本概要生成装置,其特征在于,所述文本为公文年报、董事会报告或企业年报,所述语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
7.根据权利要求6所述的非对照语料的文本概要生成装置,其特征在于,所述综合匹配度计算模块(4)在计算每个初步概要文本综合匹配度时,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
8.一种计算机存储介质,设置于电子设备中,其特征在于,运行权利要求1至4之一所述的非对照语料的文本概要生成方法。
CN201910133846.5A 2019-02-22 2019-02-22 一种非对照语料的文本概要生成方法及装置 Active CN110162618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910133846.5A CN110162618B (zh) 2019-02-22 2019-02-22 一种非对照语料的文本概要生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910133846.5A CN110162618B (zh) 2019-02-22 2019-02-22 一种非对照语料的文本概要生成方法及装置

Publications (2)

Publication Number Publication Date
CN110162618A true CN110162618A (zh) 2019-08-23
CN110162618B CN110162618B (zh) 2021-09-17

Family

ID=67645384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910133846.5A Active CN110162618B (zh) 2019-02-22 2019-02-22 一种非对照语料的文本概要生成方法及装置

Country Status (1)

Country Link
CN (1) CN110162618B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040194017A1 (en) * 2003-01-06 2004-09-30 Jasmin Cosic Interactive video interface
CN105488021A (zh) * 2014-09-15 2016-04-13 华为技术有限公司 一种生成多文档摘要的方法和装置
CN105760546A (zh) * 2016-03-16 2016-07-13 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105912644A (zh) * 2016-04-08 2016-08-31 国家计算机网络与信息安全管理中心 一种网络评论产生式摘要方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040194017A1 (en) * 2003-01-06 2004-09-30 Jasmin Cosic Interactive video interface
CN105488021A (zh) * 2014-09-15 2016-04-13 华为技术有限公司 一种生成多文档摘要的方法和装置
CN105760546A (zh) * 2016-03-16 2016-07-13 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105912644A (zh) * 2016-04-08 2016-08-31 国家计算机网络与信息安全管理中心 一种网络评论产生式摘要方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩永峰 等: "基于事件抽取的网络新闻多文档自动摘要", 《中文信息学报》 *

Also Published As

Publication number Publication date
CN110162618B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
US20190164064A1 (en) Question and answer interaction method and device, and computer readable storage medium
Park et al. Contrasting opposing views of news articles on contentious issues
CN107992543B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
Han et al. Automatically constructing a normalisation dictionary for microblogs
Bhargava et al. Atssi: Abstractive text summarization using sentiment infusion
Brooke et al. Automatic acquisition of lexical formality
Li et al. Exploring question subjectivity prediction in community QA
CN102968408A (zh) 识别用户评论的实体特征方法
CN104915443B (zh) 一种中文微博评价对象的抽取方法
WO2013107345A1 (zh) 一种处理用户提问的方法和系统
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN102567534B (zh) 互动产品用户生成内容拦截系统及其拦截方法
De Bruycker et al. The people’s champions? Populist communication as a contextually dependent political strategy
CN105791446A (zh) 一种民间借贷处理方法、装置及系统
Okuno et al. A challenge of authorship identification for ten-thousand-scale microblog users
Biba et al. Sentiment analysis through machine learning: an experimental evaluation for Albanian
Nguyen et al. Web document summarization by exploiting social context with matrix co-factorization
Samsudin et al. Mining opinion in online messages
Xu Data-driven approaches for paraphrasing across language variations
Sun et al. Towards verifiable text generation with evolving memory and self-reflection
Vania et al. Asking crowdworkers to write entailment examples: The best of bad options
Kumar et al. A knowledge induced graph-theoretical model for extract and abstract single document summarization
Kane et al. Do the communities we choose shape our political beliefs? A study of the politicization of topics in online social groups
CN110162618A (zh) 一种非对照语料的文本概要生成方法及装置
US20220027419A1 (en) Smart search and recommendation method for content, storage medium, and terminal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100000 Room 170, Zone C, Second Floor, College Park, Zhongguancun Dongsheng Science and Technology Park, No. A18 Xueqing Road, Haidian District, Beijing

Patentee after: Beijing Jiefeng Data Technology Co.,Ltd.

Address before: 100000-0719, 3 / F, No. 18, Beitaipingzhuang Road, Haidian District, Beijing

Patentee before: Beijing Jiefeng Data Technology Co.,Ltd.