CN112307192A - 一种基于阅读一致性的阅读内容重组方法 - Google Patents

一种基于阅读一致性的阅读内容重组方法 Download PDF

Info

Publication number
CN112307192A
CN112307192A CN202011239677.2A CN202011239677A CN112307192A CN 112307192 A CN112307192 A CN 112307192A CN 202011239677 A CN202011239677 A CN 202011239677A CN 112307192 A CN112307192 A CN 112307192A
Authority
CN
China
Prior art keywords
content
reading
abstract
topic
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011239677.2A
Other languages
English (en)
Other versions
CN112307192B (zh
Inventor
袁小群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011239677.2A priority Critical patent/CN112307192B/zh
Publication of CN112307192A publication Critical patent/CN112307192A/zh
Application granted granted Critical
Publication of CN112307192B publication Critical patent/CN112307192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于阅读一致性的阅读内容重组方法,包括以下步骤:1)根据用户阅读需求确定用户的阅读内容主题系统;2)根据用户的阅读内容主题系统,生成重组内容的全部子主题系统;3)对每一个子主题系统,利用语义搜索技术,从出版内容资源主题库中检索出相应的内容主题并依照相关度由高到低生成内容主题重组方案列表;4)对每个内容主题重组方案生成语义连贯的阅读内容摘要;5)阅读内容摘要和子主题系统进行阅读内容一致性判断;6)将生成子主题系统的阅读内容组合作为阅读内容,完成用户阅读内容重组。本发明根据阅读内容主题抽取内容,重组成与阅读内容主题一致的出版内容,为用户定制出版内容,实现出版内容的个性化定制。

Description

一种基于阅读一致性的阅读内容重组方法
技术领域
本发明涉及智能出版技术,尤其涉及一种基于阅读一致性的阅读内容重组方法。
背景技术
信息时代,信息数量和复杂度的大幅增加导致用户获取有效信息的难度加大。一方面,过多信息导致用户难以准确获得所需的信息;另一方面,由于学科扩展和知识的极大丰富,即便获取到所有的相关信息,用户也没有足够的时间和精力对其阅读和消化。另一方面,随着智能终端的普及使得随时随地获取信息和碎片化阅读成为必然,容易导致用户获取片面信息,甚至陷入知识气泡陷阱中。
一种有效的解决方案是为用户提供个性化定制的阅读内容,即根据用户阅读需求选择合适出版内容并重新组织起来,形成满足用户阅读需求的出版内容,并以适合用户阅读终端特性的形式形成内容产品,供用户消费。通过这种个性化定制方式,可以为用户系统定制出版内容,与用户阅读需求高度吻合,满足其碎片化阅读,有助于提高读者阅读体验,激发读者阅读消费欲望的同时,其内容系统组织能为用户提供全面的知识,避免浅阅读带来的知识气泡陷阱。同时,通过这种动态生成用户阅读内容的方式,出版商可以从所有出版资源中选择读者需要的出版资源,有助于增加出版内容资源的重复利用,增加其内容资源的利用率,有助于提高出版商盈利能力。最后,这种个性化内容定制意味着出版内容是在用户发出阅读请求之后,根据用户需要,临时从所有出版内容中选择出并重组生成的,即出版具有实时特性。同时,重组内容需要围绕读者用户需求来选择,仅适合该读者,具有唯一性,不具备大量盗版的实施环境,从一定程度上减少盗版的发生。
但这种个性化定制的内容资源来自不同出版物,存在同一主题对应不同内容资源,简单重组容易出现内容的不一致,给用户阅读造成混乱,降低用户阅读体验和内容消费的积极性。显然,如何根据阅读内容主题系统从出版内资源库中抽取内容,重组成与阅读主题一致的出版内容,对于为用户定制出版内容,满足用户阅读需求,具有重要意义。
鉴于此,本发明提出一种基于阅读主题一致性的内容重组方法,根据阅读内容主题系统,从出版内容资源库中抽取相应内容资源,通过对抽取内容资源进行处理,形成与阅读内容主题相一致的出版内容,实现出版内容的用户个性化定制。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于阅读一致性的阅读内容重组方法。
本发明解决其技术问题所采用的技术方案是:一种基于阅读一致性的阅读内容重组方法,包括以下步骤:
1)根据阅读内容请求确定用户的阅读内容主题系统;
2)根据用户的阅读内容主题系统,生成重组内容的全部子主题系统;
3)对每一个子主题系统,利用语义搜索技术,从出版内容资源主题库中检索出相应的内容主题并依照语义相关度由高到低生成内容主题重组方案列表;
4)基于所生成的内容主题重组方案列表,对每个内容主题重组方案生成语义连贯的阅读内容摘要;具体如下:
4.1)对每个内容主题重组方案取出相应的内容主题组合方案,从出版内容资源库中抽取相应的出版内容资源,依照所述内容主题组合方案生成阅读内容;
4.2)根据生成的阅读内容,利用自动摘要生成算法生成阅读内容摘要;
4.3)利用潜在语义技术或机器学习技术,对生成的阅读内容摘要进行连贯性分析,生成语义连贯的阅读内容摘要;
5)对步骤4)生成的阅读内容摘要和步骤2)中的子主题系统进行阅读内容一致性判断,以判断根据阅读内容摘要生成的子主题系统阅读内容是否达到预期目标;
具体如下:
5.1)按照阅读内容摘要前后顺序提取其主题词,生成阅读摘要主题,与对应的子主题系统进行语义相似性分析;
5.2)根据相似性预设阈值,判断所述阅读摘要主题是否满足用户阅读需要;
若相似性高于预设阈值,则所述生成的阅读内容摘要满足用户阅读需求,保留该阅读内容摘要及其对应的内容主题重组方案;
若相似性低于预设阈值,表明阅读内容摘要不满足用户阅读需求,删除该阅读内容摘要;
5.3)遍历内容主题重组方案列表对应的阅读内容摘要,确定所有相似性高于预设阈值的阅读内容摘要及其对应的内容主题重组方案;
5.4)比较各内容主题重组方案所对应的生成阅读摘要主题,选择相似性最高的阅读内容摘要,对相应的阅读内容进行调整,生成相应的阅读内容,作为该子主题系统对应的阅读内容生成信息;
6)检查子主题阅读内容是否生成完毕;若否,重复步骤3)至步骤5),直至遍历重组内容的全部子主题系统;若完毕,将生成的子主题系统阅读内容组合作为阅读内容,完成用户阅读内容重组。
本发明产生的有益效果是:
1)根据阅读内容主题从出版内资源库中抽取内容,重组成与阅读主题一致的出版内容,对于为用户定制出版内容,满足用户阅读需求;
2)通过个性化出版内容定制,根据用户阅读请求推断出其阅读意图,围绕该意图生成满足用户阅读需求的知识体系,指导系统从出版内容资源库中获取内容并重组成满足用户阅读需求的出版物,能有效解决信息爆炸,碎片化阅读和浅阅读容易导致用户获取碎片信息。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图;
图2是本发明实施例的阅读内容主题系统示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于阅读一致性的阅读内容重组方法,包括以下步骤:
1)根据阅读内容请求确定用户的阅读内容主题系统;
2)根据用户的阅读内容主题系统,生成重组内容的子主题系统;具体如下:
根据用户的阅读内容主题,利用关联语义链技术,从出版知识库中的出版内容资源主题中获得涵盖用户阅读主题的阅读主题网络,结合用户个人信息,从阅读主题网络中抽取合适数量的阅读主题,生成适合用户阅读偏好的重组内容子主题系统;
用户个人信息包括用户阅读信息、用户内容消费信息、用户阅读层次和阅读偏好中的一个或多个;
具体实例见图2,阅读内容请求为信息系统,阅读内容主题系统包括系统分析(流程)、系统分析(实施)、系统设计和系统规划;
然后对阅读内容主题系统从出版知识库中的出版内容资源主题中扩展为涵盖用户阅读主题的阅读主题网络,最后,根据用户个人信息,生成子主题系统,包括:系统分析(流程)对应的子主题系统:业务规则的表示、业务流程建模和数据流程建模,系统分析(实施)对应的子主题系统:实施概述、实施策略、系统测试;系统设计对应的子主题系统:设计概述、总体设计和详细设计,系统规划对应的子主题系统:基本步骤及规划步骤、规划任务、规划特点、规划原则、规划方法(价值链分析法和企业系统规划法);
3)对每一个子主题系统,利用语义搜索技术,从现有的出版内容资源主题库中检索出相应的内容主题并依照语义相关度由高到低生成内容主题重组方案列表;
主题间语义关系强度可用所述主题间的共现关系来定义:
Figure BDA0002768011620000071
其中,L(wi,wj)表示主题wi与主题wj的语义关系强度;C(wi,wj)表示主题wi与主题wj的共现概率,即两个主题出现在同一个文本的频率;DF(wi)表示主题wi出现在文本中的概率,即重组内容中包括所述主题的文本数量;
4)基于所生成的内容主题重组方案列表,对每个内容主题重组方案生成语义连贯的阅读内容摘要;具体如下:
4.1)对每个内容主题重组方案取出相应的内容主题组合方案,从出版内容资源库中抽取相应的出版内容资源,依照所述内容主题组合方案生成阅读内容;
4.2)根据生成的阅读内容,利用自动摘要生成算法生成阅读内容摘要;
4.3)利用潜在语义技术或机器学习技术,对生成的阅读内容摘要进行连贯性分析,生成语义连贯的阅读内容摘要;
5)对步骤4)生成的阅读内容摘要和步骤2)中的子主题系统进行阅读内容一致性判断,以判断生成阅读内容是否达到预期目标;具体如下:
5.1)按照阅读内容摘要前后顺序提取其主题词,生成阅读摘要主题,与子主题系统进行语义相似性分析;
相似性分析可以使用欧式距离公式或者利用余弦相似性来计算,具体算式为:
Figure BDA0002768011620000081
其中,A和B分别是两个语义向量。
5.2)根据相似性预设阈值,判断所述阅读摘要主题是否满足用户阅读需要;
若相似性高于预设阈值,则所述生成的阅读内容摘要满足用户阅读需求,保留该阅读内容摘要及其对应的内容主题重组方案;
若相似性低于预设阈值,表明阅读内容摘要不满足用户阅读需求,删除该阅读内容摘要;
5.3)遍历内容主题重组方案列表对应的阅读内容摘要,确定所有相似性高于预设阈值的阅读内容摘要及其对应的内容主题重组方案;
5.4)比较各内容主题重组方案所对应的生成阅读摘要主题,选择相似性最高的阅读内容摘要,对相应的阅读内容进行调整,生成相应的阅读内容,作为该子主题系统对应的阅读内容生成信息;其中,调整指的是裁剪掉与阅读摘要对应的阅读内容中与子主题系统关联度不大的那部分对应的内容;
6)检查子主题系统的阅读内容是否生成完毕;若否,重复步骤3)至步骤5),直至遍历重组内容的全部子主题系统;若完毕,将各子主题系统对应的阅读内容生成信息顺序组合作为阅读内容,完成用户阅读内容重组。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于阅读一致性的阅读内容重组方法,其特征在于,包括以下步骤:
1)根据阅读内容请求确定用户的阅读内容主题系统;
2)根据用户的阅读内容主题系统,生成重组内容的全部子主题系统;
3)对每一个子主题系统,利用语义搜索技术,从出版内容资源主题库中检索出相应的内容主题并依照语义相关度由高到低生成内容主题重组方案列表;
4)基于每一个子主题系统所生成的内容主题重组方案列表,对每个内容主题重组方案生成语义连贯的阅读内容摘要;
5)对步骤4)生成的阅读内容摘要和步骤2)中的子主题系统进行阅读内容一致性判断,以判断根据阅读内容摘要生成的子主题系统阅读内容是否达到预期目标;
6)检查子主题系统阅读内容是否生成完毕;若否,重复步骤3)至步骤5),直至遍历重组内容的全部子主题系统;若完毕,将生成的子主题系统阅读内容组合作为阅读内容,完成用户阅读内容重组。
2.根据权利要求1所述的基于阅读一致性的阅读内容重组方法,其特征在于,所述步骤4)中,生成语义连贯的阅读内容摘要,具体如下:
4.1)对每个内容主题重组方案取出相应的内容主题组合方案,从出版内容资源库中抽取相应的出版内容资源,依照所述内容主题组合方案生成阅读内容;
4.2)根据生成的阅读内容,利用自动摘要生成算法生成阅读内容摘要;
4.3)利用潜在语义技术或机器学习技术,对生成的阅读内容摘要进行连贯性分析,生成语义连贯的阅读内容摘要。
3.根据权利要求1所述的基于阅读一致性的阅读内容重组方法,其特征在于,所述步骤5)中,对阅读内容摘要和子主题系统进行阅读内容一致性判断,具体如下:
5.1)按照阅读内容摘要前后顺序提取其主题词,生成阅读摘要主题,与对应的子主题系统进行语义相似性分析;
5.2)根据相似性预设阈值,判断所述阅读摘要主题是否满足用户阅读需要;
若相似性高于预设阈值,则所述生成的阅读内容摘要满足用户阅读需求,保留该阅读内容摘要及其对应的内容主题重组方案;
若相似性低于预设阈值,表明阅读内容摘要不满足用户阅读需求,删除该阅读内容摘要;
5.3)遍历内容主题重组方案列表对应的阅读内容摘要,确定所有相似性高于预设阈值的阅读内容摘要及其对应的内容主题重组方案;
5.4)比较各内容主题重组方案所对应的生成阅读摘要主题,选择相似性最高的阅读内容摘要,对阅读内容摘要相应的阅读内容进行调整,生成相应的阅读内容,作为该子主题系统对应的阅读内容生成信息。
4.根据权利要求1所述的基于阅读一致性的阅读内容重组方法,其特征在于,所述步骤2)中,生成重组内容的全部子主题系统,具体如下:
根据用户的阅读内容主题,利用关联语义链技术,从出版知识库中的出版内容资源主题中获得涵盖用户阅读主题的阅读主题网络,结合用户个人信息,从阅读主题网络中抽取预设数量的阅读主题,生成重组内容子主题系统。
5.根据权利要求4所述的基于阅读一致性的阅读内容重组方法,其特征在于,所述步骤2)中,所述用户个人信息包括用户阅读信息、用户内容消费信息、用户阅读层次和阅读偏好中的一个或多个。
6.根据权利要求1所述的基于阅读一致性的阅读内容重组方法,其特征在于,所述步骤3)中语义相关度采用主题间的共现关系来定义:
Figure FDA0002768011610000031
其中,L(wi,wj)表示主题wi与主题wj的语义相关度;C(wi,wj)表示主题wi与主题wj的共现概率,即两个主题出现在同一个文本的频率;DF(wi)表示主题wi出现在文本中的概率,即重组内容中包括所述主题的文本数量。
CN202011239677.2A 2020-11-09 2020-11-09 一种基于阅读一致性的阅读内容重组方法 Active CN112307192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011239677.2A CN112307192B (zh) 2020-11-09 2020-11-09 一种基于阅读一致性的阅读内容重组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011239677.2A CN112307192B (zh) 2020-11-09 2020-11-09 一种基于阅读一致性的阅读内容重组方法

Publications (2)

Publication Number Publication Date
CN112307192A true CN112307192A (zh) 2021-02-02
CN112307192B CN112307192B (zh) 2024-03-08

Family

ID=74325466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011239677.2A Active CN112307192B (zh) 2020-11-09 2020-11-09 一种基于阅读一致性的阅读内容重组方法

Country Status (1)

Country Link
CN (1) CN112307192B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156632A1 (en) * 2001-04-18 2002-10-24 Haynes Jacqueline A. Automated, computer-based reading tutoring systems and methods
US20120210203A1 (en) * 2010-06-03 2012-08-16 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
US10424217B1 (en) * 2015-12-22 2019-09-24 Educational Testing Service Systems and methods for ability-appropriate text generation
CN110362744A (zh) * 2019-06-26 2019-10-22 联通沃悦读科技文化有限公司 阅读推荐方法及系统、终端设备、计算机设备及介质
CN111601164A (zh) * 2020-05-21 2020-08-28 广州欢网科技有限责任公司 一种智能电视新闻推送方法及系统
CN111859909A (zh) * 2020-07-10 2020-10-30 山西大学 一种语义场景一致性识别阅读机器人

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156632A1 (en) * 2001-04-18 2002-10-24 Haynes Jacqueline A. Automated, computer-based reading tutoring systems and methods
US20120210203A1 (en) * 2010-06-03 2012-08-16 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
US10424217B1 (en) * 2015-12-22 2019-09-24 Educational Testing Service Systems and methods for ability-appropriate text generation
CN110362744A (zh) * 2019-06-26 2019-10-22 联通沃悦读科技文化有限公司 阅读推荐方法及系统、终端设备、计算机设备及介质
CN111601164A (zh) * 2020-05-21 2020-08-28 广州欢网科技有限责任公司 一种智能电视新闻推送方法及系统
CN111859909A (zh) * 2020-07-10 2020-10-30 山西大学 一种语义场景一致性识别阅读机器人

Also Published As

Publication number Publication date
CN112307192B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US10878009B2 (en) Translating natural language utterances to keyword search queries
US11531818B2 (en) Device and method for machine reading comprehension question and answer
CN111753198B (zh) 信息推荐方法和装置、以及电子设备和可读存储介质
CN107220352B (zh) 基于人工智能构建评论图谱的方法和装置
US9009134B2 (en) Named entity recognition in query
CN106960030B (zh) 基于人工智能的推送信息方法及装置
US9965726B1 (en) Adding to a knowledge base using an ontological analysis of unstructured text
CN110717038B (zh) 对象分类方法及装置
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
Gao et al. Personalized recommendation method for English teaching resources based on artificial intelligence technology
Krishnaraj et al. Conceptual semantic model for web document clustering using term frequency
CN114997288A (zh) 一种设计资源关联方法
CN107368489A (zh) 一种资讯数据处理方法及装置
Bi et al. Iterative relevance feedback for answer passage retrieval with passage-level semantic match
CN116956818A (zh) 文本素材的处理方法、装置、电子设备以及存储介质
CN107562774A (zh) 小语种词嵌入模型的生成方法、系统及问答方法和系统
CN112307192A (zh) 一种基于阅读一致性的阅读内容重组方法
Ramezani et al. Automated text summarization: An overview
Chen English translation template retrieval based on semantic distance ontology knowledge recognition algorithm
CN113536772A (zh) 一种文本处理方法、装置、设备及存储介质
CN116992111B (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN118551031B (zh) 基于自然语言处理的平台内容智能推荐方法及系统
Gheni et al. Suggesting new words to extract keywords from title and abstract
US12141532B2 (en) Device and method for machine reading comprehension question and answer
Abdolahi et al. Textual Coherence improvement of extractive document summarization using greedy approach and word vectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant