CN110162618B - 一种非对照语料的文本概要生成方法及装置 - Google Patents
一种非对照语料的文本概要生成方法及装置 Download PDFInfo
- Publication number
- CN110162618B CN110162618B CN201910133846.5A CN201910133846A CN110162618B CN 110162618 B CN110162618 B CN 110162618B CN 201910133846 A CN201910133846 A CN 201910133846A CN 110162618 B CN110162618 B CN 110162618B
- Authority
- CN
- China
- Prior art keywords
- text
- preliminary
- links
- semantic
- matching degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种非对照语料的文本概要生成方法及装置,其中方法包括步骤:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算有关的匹配度;取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要。在没有对照语料的情形下,通过多次“探针”尝试自动概要的生成,利用其中的语意连接词对其进行校正,构成“尽量适合摘要性文本的”短文本。
Description
技术领域
本发明涉及一种文本自动概要领域,更具体地涉及非对照语料的文本概要生成领域。
背景技术
面对海量的信息报告或者新闻信息的出现,用户如何去查找和阅读自己感兴趣的文字就变成了一个难题。在自动概要生成的研究中,一方面更为多样的表达方式和更复杂的段落结构给面向整个文本的自动概要带来了挑战,在另一方面,整个文本尤其是公文年报、董事报告等文体具有其特定的行文规则和遣词造句,逻辑性较强,连接词的承上启下尤为突出,这样也提供了生成更为准确的自动概要的机会。
传统的方式包括两种。一种是基于截取式的摘要提供,往往不能准确反映文章内容的大意,而一个好的摘要能够让用户在不浏览详细内容的情况下快速地了解文章的大意,并迅速判断有无必要继续深入阅读,在如今运个信息爆炸的时代,运无疑具有十分重要的意义。另一种的文本概要生成,是计算机通过算法智能地将长文本自动缩写成摘要性质的短文本。当前的常见算法大量依赖人工撰写的长短对照的语料,采集成本高,训练量少。在没有对照语料的情况下,以上方式均不足以很好地完成任务。
发明内容
针对现有技术存在的不足,本发明提供一种非对照语料的文本概要生成方法及装置。
本发明的非对照语料的文本概要生成方法,包括以下步骤:
S1:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
S2:随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
S3:在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
S4:取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
S5:以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
优选的是,文本为有通用固定格式的文本,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
优选的是,有通用固定格式的文本为公文年报、董事会报告或企业年报。
优选的是,步骤S4中的计算每个初步概要文本综合匹配度为,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
相应地,本发明中还提供一种非对照语料的文本概要生成装置,包括:
原始文本划分模块,用于以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
初步文本概要生成模块,用于随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
匹配度校验计算模块,用于在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
综合匹配度计算模块,用于取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
文本概要生成模块,用于以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
优选的是,文本为公文年报、董事会报告或企业年报,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
优选的是,综合匹配度计算模块在计算每个初步概要文本综合匹配度时,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
在本发明中,还提供了一种计算机存储介质,设置于电子设备中,诸如电脑和手机等,运行前述的非对照语料的文本概要生成方法。
本发明的有益效果有:在没有对照语料的情形下,通过多次“探针”尝试自动概要的生成,利用其中的语意连接词对其进行校正,构成“尽量适合摘要性文本的”短文本。该方法和装置能摆脱对照语料缺乏的问题,在小众的内容中有较好表现。
附图说明
图1是本发明非对照语料的文本概要生成方法的步骤示意图;
图2是本发明非对照语料的文本概要生成装置的构造示意图;
其中,0-生成装置,1-原始文本划分模块,2-初步文本概要生成模块,3-匹配度校验计算模块,4-综合匹配度计算模块,5-文本概要生成模块。
具体实施方式
下面结合图1至图2对本发明予以解释说明。
如图1所示的非对照语料的文本概要生成方法,包括:
S1:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
S2:随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
S3:在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
S4:取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
S5:以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
在其中的一个实施例中,文本为有通用固定格式的文本,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
在其中的一个实施例中,有通用固定格式的文本为公文年报、董事会报告或企业年报。
在其中的一个实施例中,步骤S4中的计算每个初步概要文本综合匹配度为,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
相应地如图2所示的一种非对照语料的文本概要生成装置0,包括:
原始文本划分模块1,用于以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
初步文本概要生成模块2,用于随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
匹配度校验计算模块3,用于在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
综合匹配度计算模块4,用于取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
文本概要生成模块5,用于以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成。
在其中的一个实施例中,文本为公文年报、董事会报告或企业年报,语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
在其中的一个实施例中,综合匹配度计算模块在计算每个初步概要文本综合匹配度时,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
对于具体的方式,还提供了一种计算机存储介质,设置于电子设备中,诸如电脑和手机等,运行前述的非对照语料的文本概要生成方法。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于该些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.一种非对照语料的文本概要生成方法,其特征在于,该方法包括以下步骤:
S1:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
S2:随机提取若干个所述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
S3:在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
S4:取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
S5:以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成;
所述步骤S4中的计算每个初步概要文本综合匹配度为,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
2.根据权利要求1所述的非对照语料的文本概要生成方法,其特征在于,所述文本为有通用固定格式的文本,所述语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
3.根据权利要求2所述的非对照语料的文本概要生成方法,其特征在于,所述有通用固定格式的文本为公文年报、董事会报告或企业年报。
4.一种非对照语料的文本概要生成装置,其特征在于,该装置包括:
原始文本划分模块(1),用于以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;
初步文本概要生成模块(2),用于随机提取若干个所述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;
匹配度校验计算模块(3),用于在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算已提取的前后次序的两个文本单元的语意情感与该语意连接词的匹配度;
综合匹配度计算模块(4),用于取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;
文本概要生成模块(5),用于以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要,完成非对照语料的文本概要生成;
所述综合匹配度计算模块(4)在计算每个初步概要文本综合匹配度时,取每个初步文本概要中的形成的全部匹配度的平均值或者中位值。
5.根据权利要求4所述的非对照语料的文本概要生成装置,其特征在于,所述文本为公文年报、董事会报告或企业年报,所述语意连接词包括并列关系连词、承接关系连词、转折关系连词、因果关系连词、选择关系连词、假设关系连词、比较关系连词、让步关系连词、递进关系连词、条件关系连词、目的关系连词。
6.一种计算机存储介质,设置于电子设备中,其特征在于,运行权利要求1至3之一所述的非对照语料的文本概要生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910133846.5A CN110162618B (zh) | 2019-02-22 | 2019-02-22 | 一种非对照语料的文本概要生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910133846.5A CN110162618B (zh) | 2019-02-22 | 2019-02-22 | 一种非对照语料的文本概要生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162618A CN110162618A (zh) | 2019-08-23 |
CN110162618B true CN110162618B (zh) | 2021-09-17 |
Family
ID=67645384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910133846.5A Active CN110162618B (zh) | 2019-02-22 | 2019-02-22 | 一种非对照语料的文本概要生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162618B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488021A (zh) * | 2014-09-15 | 2016-04-13 | 华为技术有限公司 | 一种生成多文档摘要的方法和装置 |
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105912644A (zh) * | 2016-04-08 | 2016-08-31 | 国家计算机网络与信息安全管理中心 | 一种网络评论产生式摘要方法 |
CN106407182A (zh) * | 2016-09-19 | 2017-02-15 | 国网福建省电力有限公司 | 一种用于企业电子公文文档自动摘要的方法 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN108959312A (zh) * | 2017-05-23 | 2018-12-07 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN109101489A (zh) * | 2018-07-18 | 2018-12-28 | 武汉数博科技有限责任公司 | 一种文本自动摘要方法、装置及一种电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040194017A1 (en) * | 2003-01-06 | 2004-09-30 | Jasmin Cosic | Interactive video interface |
-
2019
- 2019-02-22 CN CN201910133846.5A patent/CN110162618B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488021A (zh) * | 2014-09-15 | 2016-04-13 | 华为技术有限公司 | 一种生成多文档摘要的方法和装置 |
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105912644A (zh) * | 2016-04-08 | 2016-08-31 | 国家计算机网络与信息安全管理中心 | 一种网络评论产生式摘要方法 |
CN106407182A (zh) * | 2016-09-19 | 2017-02-15 | 国网福建省电力有限公司 | 一种用于企业电子公文文档自动摘要的方法 |
CN108959312A (zh) * | 2017-05-23 | 2018-12-07 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN109101489A (zh) * | 2018-07-18 | 2018-12-28 | 武汉数博科技有限责任公司 | 一种文本自动摘要方法、装置及一种电子设备 |
Non-Patent Citations (1)
Title |
---|
基于事件抽取的网络新闻多文档自动摘要;韩永峰 等;《中文信息学报》;20120115;第26卷(第1期);第59-60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110162618A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885660B (zh) | 一种知识图谱赋能的基于信息检索的问答系统和方法 | |
Clark et al. | Text normalization in social media: progress, problems and applications for a pre-processing system of casual English | |
US9697196B2 (en) | System and methods for determining sentiment based on context | |
Hong et al. | What reviews are satisfactory: novel features for automatic helpfulness voting | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
Bhargava et al. | Atssi: Abstractive text summarization using sentiment infusion | |
CN113704451A (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
KR102296931B1 (ko) | 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 | |
US11507743B2 (en) | System and method for automatic key phrase extraction rule generation | |
CN103577989A (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN109284502A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN109978139B (zh) | 图片自动生成描述的方法、系统、电子装置及存储介质 | |
CN103885966A (zh) | 电子商务交易平台中的问答交互方法和系统 | |
CN113282701B (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
Lee et al. | Reference and document aware semantic evaluation methods for Korean language summarization | |
CN116881425A (zh) | 一种通用型文档问答实现方法、系统、设备及存储介质 | |
Teich et al. | Translation, information theory and cognition | |
Ashraf et al. | Author profiling on bi-lingual tweets | |
Chan et al. | Social and emotional correlates of capitalization on Twitter | |
Xue et al. | DPAEG: A Dependency Parse‐Based Adversarial Examples Generation Method for Intelligent Q&A Robots | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN110162618B (zh) | 一种非对照语料的文本概要生成方法及装置 | |
CN107784112A (zh) | 短文本数据增强方法、系统及检测认证服务平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 100000 Room 170, Zone C, Second Floor, College Park, Zhongguancun Dongsheng Science and Technology Park, No. A18 Xueqing Road, Haidian District, Beijing Patentee after: Beijing Jiefeng Data Technology Co.,Ltd. Address before: 100000-0719, 3 / F, No. 18, Beitaipingzhuang Road, Haidian District, Beijing Patentee before: Beijing Jiefeng Data Technology Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |