CN110019726A - 图书书评的生成方法及装置、计算机设备及可读介质 - Google Patents

图书书评的生成方法及装置、计算机设备及可读介质 Download PDF

Info

Publication number
CN110019726A
CN110019726A CN201711405409.1A CN201711405409A CN110019726A CN 110019726 A CN110019726 A CN 110019726A CN 201711405409 A CN201711405409 A CN 201711405409A CN 110019726 A CN110019726 A CN 110019726A
Authority
CN
China
Prior art keywords
target
books
paragraph
book review
paragraphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711405409.1A
Other languages
English (en)
Other versions
CN110019726B (zh
Inventor
沈之锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711405409.1A priority Critical patent/CN110019726B/zh
Publication of CN110019726A publication Critical patent/CN110019726A/zh
Application granted granted Critical
Publication of CN110019726B publication Critical patent/CN110019726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种图书书评的生成方法及装置、计算机设备及可读介质。其所述方法包括:根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;原始标题包括目标图书的书名、和/或目标图书的各章节的标题;根据各原始标题,从多个预选文章中获取多个候选段落;根据目标图书的内容,提取目标图书的多个特征主题;根据各特征主题从多个候选段落中获取相关的数个目标段落,生成书评。本发明的技术方案,可以非常智能地生成书评,与现有技术人工撰写书评相比,生成书评的过程省时省力,生成效率非常高;而且还能够有效地降低书评的生成成本。

Description

图书书评的生成方法及装置、计算机设备及可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种图书书评的生成方法及装置、计算机设备及可读介质。
【背景技术】
随着互联网的发展,越来越多的用户选择从网络上下载电子图书。这样,用户借助于移动终端可以随时随地观看电子图书,使用方便。
用户在阅读电子图书之后,在微博或者各种论坛中与其他用户沟通时会发表对该图书的读后感、读书心得或者书评等等,来发表自己的看法。且通常情况下,不同的用户在读书过程中可能对不同的章节有着自己特殊的喜爱情节,或者用户可能仅阅读了自己喜欢的章节,所以,可能仅评论自己喜欢的章节。在电子图书推介时,为了增加对图书的宣传,通常需要花重金聘请网友人工撰写书评。
但是现有的人工撰写书评的过程费时费力,造成书评的生成效率较低。
【发明内容】
本发明提供了一种图书书评的生成方法及装置、计算机设备及可读介质,用于提高书评的生成效率。
本发明提供一种图书书评的生成方法,所述方法包括:
根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;所述原始标题包括所述目标图书的书名、和/或所述目标图书的各章节的标题;
根据各所述原始标题,从所述多个预选文章中获取多个候选段落;
根据所述目标图书的内容,提取所述目标图书的多个特征主题;
根据各所述特征主题从所述多个候选段落中获取相关的数个目标段落,生成书评。
进一步可选地,如上所述的方法中,根据目标图书的各原始标题从互联网中搜索相关的多个预选文章,具体包括:
根据所述目标图书的各所述原始标题和搜索推荐词,从互联网中搜索相关的多个所述预选文章。
进一步可选地,如上所述的方法中,根据各所述原始标题,从所述多个预选文章中获取多个候选段落,具体包括:
根据各所述原始标题,从所述多个预选文章中获取首句或者尾句包括对应的所述原始标题的段落,作为所述候选段落;和/或
对各所述原始标题进行分词,得到标题词语列表,所述标题词语列表中包括多个标题词语;统计各所述预选文章中各段落中出现各所述标题词语的词频;从所述多个预选文章中获取所述标题词语的词频大于预设词频阈值的段落作为所述候选段落。
进一步可选地,如上所述的方法中,根据所述目标图书的内容,提取所述目标图书的多个特征主题,具体包括:
采用机器学习工具,将所述目标图书的内容作为文本特征进行非负矩阵分解,获取所述目标图书的多个特征主题。
进一步可选地,如上所述的方法中,根据各所述特征主题从所述多个候选段落中获取相关的数个目标段落,生成书评,具体包括:
计算各所述特征主题与各所述候选段落之间的语义相似度;
根据各所述特征主题与各所述候选段落之间的语义相似度,从所述多个候选段落中筛选语义相似度最大的数个所述候选段落,作为所述数个目标段落;
根据所述数个目标段落生成书评。
进一步可选地,如上所述的方法中,根据所述数个目标段落生成书评,具体包括:
将所述数个目标段落按照所述语义相似度由大到小的顺序排列,生成所述初始书评;或者获取所述数个目标段落中各所述目标段落相关的所述原始标题;按照各所述目标段落相关的所述原始标题在所述目标图书的目录中的先后顺序,对所述数个目标段落进行排序,得到所述初始书评;
显示所述初始书评,以供审核用户对所述初始书评进行修改;
保存所述审核用户对所述初始书评的修改,得到所述书评。
本发明提供一种图书书评的生成装置,所述装置包括:
搜索模块,用于根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;所述原始标题包括所述目标图书的书名、和/或所述目标图书的各章节的标题;
获取模块,用于根据各所述原始标题,从所述多个预选文章中获取多个候选段落;
提取模块,用于根据所述目标图书的内容,提取所述目标图书的多个特征主题;
生成模块,用于根据各所述特征主题从所述多个候选段落中获取相关的数个目标段落,生成书评。
进一步可选地,如上所述的装置中,所述搜索模块,具体用于根据所述目标图书的各所述原始标题和搜索推荐词,从互联网中搜索相关的多个所述预选文章。
进一步可选地,如上所述的装置中,所述获取模块,具体用于:
根据各所述原始标题,从所述多个预选文章中获取首句或者尾句包括对应的所述原始标题的段落,作为所述候选段落;和/或
对各所述原始标题进行分词,得到标题词语列表,所述标题词语列表中包括多个标题词语;统计各所述预选文章中各段落中出现各所述标题词语的词频;从所述多个预选文章中获取所述标题词语的词频大于预设词频阈值的段落作为所述候选段落。
进一步可选地,如上所述的装置中,所述提取模块,具体用于:
采用机器学习工具,将所述目标图书的内容作为文本特征进行非负矩阵分解,获取所述目标图书的多个特征主题。
进一步可选地,如上所述的装置中,所述生成模块,具体用于:
计算单元,用于计算各所述特征主题与各所述候选段落之间的语义相似度;
筛选单元,用于根据各所述特征主题与各所述候选段落之间的语义相似度,从所述多个候选段落中筛选语义相似度最大的数个所述候选段落,作为所述数个目标段落;
生成单元,用于根据所述数个目标段落生成书评。
进一步可选地,如上所述的装置中,所述生成单元,具体用于:
将所述数个目标段落按照所述语义相似度由大到小的顺序排列,生成所述初始书评;或者获取所述数个目标段落中各所述目标段落相关的所述原始标题;按照各所述目标段落相关的所述原始标题在所述目标图书的目录中的先后顺序,对所述数个目标段落进行排序,得到所述初始书评;
显示所述初始书评,以供审核用户对所述初始书评进行修改;
保存所述审核用户对所述初始书评的修改,得到所述书评。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的图书书评的生成方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的图书书评的生成方法。
本发明的图书书评的生成方法及装置、计算机设备及可读介质,通过根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;原始标题包括目标图书的书名、和/或目标图书的各章节的标题;根据各原始标题,从多个预选文章中获取多个候选段落;根据目标图书的内容,提取目标图书的多个特征主题;根据各特征主题从多个候选段落中获取相关的数个目标段落,生成书评。本发明的技术方案,可以非常智能地生成书评,与现有技术人工撰写书评相比,生成书评的过程省时省力,生成效率非常高;而且还能够有效地降低书评的生成成本。
【附图说明】
图1为本发明的图书书评的生成方法实施例的流程图。
图2为本发明的图书书评的生成装置实施例一的结构图。
图3为本发明的图书书评的生成装置实施例二的结构图。
图4为本发明的计算机设备实施例的结构图。
图5为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的图书书评的生成方法实施例的流程图。如图1所示,本实施例的图书书评的生成方法,具体可以包括如下步骤:
100、根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;原始标题包括目标图书的书名、和/或目标图书的各章节的标题;
本实施例的图书书评的生成方法的执行主体为图书书评的生成装置,该图书书评的生成装置可以为一个独立的电子实体,能够获取目标图书的内容,并为目标图书生成书评。
具体地,本实施例的图书书评的生成方法为一种智能化的生成图书书评的方法,不用用户手工撰写所有的书评,可以借助于互联网获取有效的书评相关的内容,并进一步智能化地生成书评。首先,可以根据目标图书的各原始标题从互联网中搜索相关的多个预选文章。例如本实施例的原始标题可以包括目标图书的书名、和/或目标图书的各章节的标题。为了保证获取的多个预选文章的丰富性和全面性,优选地,本实施例中,可以获取该目标图书的书名和所有章节的标题作为原始标题,进行分词。具体地,由于图书的书名和图书的各章节的标题都会在目录中有所体现,本实施例中,可以根据该目标图书的目录获取该目标图书的书名和目标图书的各章节的标题,作为该目标图书的原始标题。也就是说,优选地,本实施例的目标图书的原始标题的数量可以等于章节的所有标题的数量再加1,即加上书名的数量。
预选文章获取时,针对于目标图书的每一个原始标题,利用爬虫自动在互联网的各大搜索引擎如读书社区论坛、微薄平台等中搜索该原始标题作为搜索词搜索得到的文章,作为预选文章。
进一步地,由于本实施例的目的是为了生成书评,在本实施例获取预选文章时,也可以根据目标图书的各原始标题和搜索推荐词,从互联网中搜索相关的多个预选文章。本实施例的搜索推荐词可以为读后感、心得或者评论等之类的词语,以标识该文章是关于阅读某图书或者图书的某章节之后的一些感想或者评论。例如,可以分别使用目标图书的书名+读后感、目标图书的书名+心得、目标图书的书名+评论、目标图书的章节标题+读后感、目标图书的章节标题+心得、目标图书的章节标题+评论等等作为搜索词组,从互联网中搜索获取相关的多个预选文章。
进一步可选地,上述在互联网中搜索预选文章时,搜索结果可能是直接根据各原始标题搜索的,也可能是根据各原始标题+搜索推荐词的搜索词组搜索的。各种搜索得到的搜索结果之间可能会互相重复。本实施例中,可以将所有搜索的搜索结果聚集在一起,然后采用simhash算法计算各个搜索结果的哈希值,然后根据哈希值去重,保留有效的多个预选文章。
101、根据各原始标题,从多个预选文章中获取多个候选段落;
由于本实施例中获取的预选文章可能仅仅其中一小段落与本实施例的目标图书相关,因此,不适合直接作为该目标图书的书评。因此本实施例中,可以对每个预选文章的多个段落进行分析,判断该段落是否与该目标图书的多个原始标题中任意一个原始标题相关,若是,则保留该段落作为候选段落。经过对所有预选文章的所有段落进行分析,可以得到多个候选段落。
例如,在具体实现时,该步骤101,具体可以包括如下步骤:
(a1)根据各原始标题,从多个预选文章中获取首句或者尾句包括对应的原始标题的段落,作为候选段落;和/或
(b1)对各原始标题进行分词,得到标题词语列表,标题词语列表中包括多个标题词语;统计各预选文章中各段落中出现各标题词语的词频;从多个预选文章中获取标题词语的词频大于预设词频阈值的段落作为候选段落。
例如,实际应用中,用户在对某个原始标题如图书的书名或者章节主体进行评论的时候,通常会在段落的句首提到该原始标题,例如,段落的句首可以为“关于最新比较火的一本新书《XXX》”。另外,用户也可以在段落的句尾提到该原始标题,例如,段落的句尾可以为“以上就是我喜欢《红楼梦》第X回Y(章节主题)的原因”。选取候选段落时,对于每个预选文章中的多个段落,可以根据各原始标题,判断该预选文章的多个段落的首句或者尾句是否包括其中一个原始标题,若包括,该段落保留作为候选段落,滤除其他段落。
或者本实施例中,还可以采用(b1)的步骤,对所有的原始标题中的每个原始标题进行分词,得到标题词语列表。该标题词语列表中包括多个标题词语。本实施例中,对原始标题进行分词的方式可以参考相关现有技术的分词方式,在此不再赘述。另外,需要注意的是,对所有原始标题分词之后,得到的标题词语可能有重复,需要对重复的标题词语去重处理,以保证标题词语列表中的多个标题词语没有重复。然后统计各预选文章中各段落中出现各标题词语的词频;然后分析每个预选文章中的每个段落中的每个标题词语的词频是否大于预设词频阈值,只要预选文章的某段落中包括的各个标题词语中有一个标题词语的词频大于该预设词频阈值,则认为该段落为候选段落。例如某预选文章的段落M中,包括有标题词语列表中的标题词语A、标题词语B和标题词语C,其中标题词语A和B在该段落M中的词频均小于预设词频阈值,但是标题词语C在该段落M中的词频大于预设词频阈值,此时可以认为该段落M为候选段落。也就是说,只有标题词语A、B和C在该段落M中的词频均小于预设词频阈值,该段落M滤除;只要标题词语A、B和C中任一个在该段落M中的词频大预设词频阈值,该段落M便可以作为候选段落。按照上述方式,可以对每个预选文章的每个段落进行处理,可以得到多个候选段落。
上述两种获取候选段落的方式可以单独实施,也可以一起组合来获取多个候选段落。
102、根据目标图书的内容,提取目标图书的多个特征主题;
上述是实施例中的原始标题为根据目标图书的目录获取的图书书名和章节标题,标题信息非常全面。但是可能不能突出目标图书的重点。本实施例中,还可以根据目标图书的内容,提取目标图书的多个特征主题;该特征主题相对于原始主题来讲,数量会小很多,而且特征主题更能体现出目标图书的重点。本实施例的特征主题的数量可以根据实际经验来选取,例如可以为10个、20个、30个或者其他整数数值。
例如,可以采用sk_learn机器学习工具,将目标图书的内容作为文本特征进行非负矩阵分解,获取目标图书的多个特征主题。本实施例的特征主题为对目标图书的内容进行提取得到的该目标图书中比较重要的主题。这些特征主题未必会在目标图书的目录中体现。也就是说,某个特征主题可能与某个原始主题在文字上重合,也可能与所有原始主题不存在文字上的重合。本实施例的特征主题的数量要比原始主题的数量少很多。且本实施例的多个特征主题时互相不重复的主题。
103、根据各特征主题从多个候选段落中获取相关的数个目标段落,生成书评。
经过上述实施例的处理,可以获取到目标图书中比较重要的多个特征主题。然后根据多个特征主题可以从多个候选段落中获取与多个特征主题相关的数个目标段落,这样得到的数个目标段落都是与该目标图书最相关的段落,从而可以根据数个目标段落生成书评。
例如,该步骤103,具体可以包括如下步骤:
(a2)计算各特征主题与各候选段落之间的语义相似度;
具体可以采用语义相似度算法计算各特征主题与各候选段落之间的语义相似度。例如,可以采用现有相关的语义相似度计算方法来实现。例如,若本实施例中包括M特征主题和N个候选段落,需要计算每个特征主题与每个候选段落的语义相似度,即每个特征主题可以得到对应有N个候选段落的N个语义相似度。
(b2)根据各特征主题与各候选段落之间的语义相似度,从多个候选段落中筛选语义相似度最大的数个候选段落,作为数个目标段落;
(c2)根据数个目标段落生成书评。
本实施例中,目标段落的获取可以有两种方式:第一种方式:可以对每个特征主题对应的多个语义相似度进行分析,获取语义相似度最大的候选段落,作为目标段落。这样M个特征主题便可以得到M个目标段落。第二种方式:可以预先设置语义相似度阈值,分析每个特征主题对应的多个语义相似度是否大于语义相似度阈值,若大于,则获取该语义相似度对应的候选段落作为目标段落,这样,一个特征主题可以对应一个以上的目标段落。最后将所有特征主题对应的目标段落集合在一起,去重,得到该目标图书对应的数个目标段落。最后,根据得到的与多个特征主题最相关的数个目标段落,生成书评。
例如该步骤(c2)具体可以包括如下步骤:
(a3)将数个目标段落按照语义相似度由大到小的顺序排列,生成初始书评;或者获取数个目标段落中各目标段落相关的原始标题;按照各目标段落相关的原始标题在目标图书的目录中的先后顺序,对数个目标段落进行排序,得到初始书评;
根据步骤(a2)和(b2),每个目标段落在被选作目标段落时,对应一个语义相似度,该步骤中,可以将数个目标段落按照语义相似度由大到小的顺序排列,生成初始书评。或者还可以参考上述步骤101的实现过程,得到各目标段落对应的原始标题,然后按照各目标段落相关的原始标题在目标图书的目录中的先后顺序,对数个目标段落进行排序,得到初始书评。
进一步可选地,本实施例中,在对数个段落进行排序时,还可以判断各目标段落中是否包括总之、如上所述、基于以上所述的总结性的指示词,若包括,将所述目标段落可以放在初始书评的最后一段。
(b3)显示初始书评,以供审核用户对初始书评进行修改;
(c3)保存审核用户对初始书评的修改,得到书评。
本实施例中,通过上述方式得到的初始书评为将数个目标段落排列得到,可能在段落与段落之间不存在衔接语。此时得到初始书评之后,可以向审核用户显示该初始书评,以供审核用户对初始书评进行修改,例如审核用户可以在初始书评中增加段落之间的衔接语。或者还可以在初始书评的开头增加一个开场白之类的段落,如“本篇文章基于网友对《XXX》图书的评论而得出等等”。或者还可以在初始书评的末尾增加一个感谢语之类的。或者审核用户还可以对初始书评进行简单的调整和修改。最后保存审核用户对初始书评的修改,得到最终的书评。
本实施例的图书书评的生成方法,通过根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;原始标题包括目标图书的书名、和/或目标图书的各章节的标题;根据各原始标题,从多个预选文章中获取多个候选段落;根据目标图书的内容,提取目标图书的多个特征主题;根据各特征主题从多个候选段落中获取相关的数个目标段落,生成书评。本实施例的技术方案,可以非常智能地生成书评,与现有技术人工撰写书评相比,生成书评的过程省时省力,生成效率非常高;而且还能够有效地降低书评的生成成本。
图2为本发明的图书书评的生成装置实施例一的结构图。如图2所示,本实施例的图书书评的生成装置,具体可以包括:
搜索模块10用于根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;原始标题包括目标图书的书名、和/或目标图书的各章节的标题;
获取模块11用于根据各原始标题,从搜索模块10搜索得到的多个预选文章中获取多个候选段落;
提取模块12用于根据目标图书的内容,提取目标图书的多个特征主题;
生成模块13用于根据提取模块12提取的各特征主题从获取模块11获取的多个候选段落中获取相关的数个目标段落,生成书评。
本实施例的图书书评的生成装置,通过采用上述模块实现图书书评的生成的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图3为本发明的图书书评的生成装置实施例二的结构图。如图3所示,本实施例的图书书评的生成装置在上述图2所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
本实施例的图书书评的生成装置中,搜索模块10具体用于根据目标图书的各原始标题和搜索推荐词,从互联网中搜索相关的多个预选文章。
进一步可选地,本实施例的图书书评的生成装置中,获取模块11具体用于:
根据各原始标题,从搜索模块10搜索得到的多个预选文章中获取首句或者尾句包括对应的原始标题的段落,作为候选段落;和/或
对各原始标题进行分词,得到标题词语列表,标题词语列表中包括多个标题词语;统计各预选文章中各段落中出现各标题词语的词频;从搜索模块10搜索得到的多个预选文章中获取标题词语的词频大于预设词频阈值的段落作为候选段落。
进一步可选地,本实施例的图书书评的生成装置中,提取模块12具体用于:
采用机器学习工具,将目标图书的内容作为文本特征进行非负矩阵分解,获取目标图书的多个特征主题。
如图3所示,进一步可选地,本实施例的图书书评的生成装置中,生成模块13具体包括:
计算单元131用于计算提取模块12提取的各特征主题与获取模块11获取的各候选段落之间的语义相似度;
筛选单元132用于根据计算单元131计算得到的各特征主题与各候选段落之间的语义相似度,从多个候选段落中筛选语义相似度最大的数个候选段落,作为数个目标段落;
生成单元133用于根据筛选单元132筛选得到的数个目标段落生成书评。
进一步可选地,本实施例的图书书评的生成装置中,生成单元133具体用于:
将数个目标段落按照语义相似度由大到小的顺序排列,生成初始书评;或者获取数个目标段落中各目标段落相关的原始标题;按照各目标段落相关的原始标题在目标图书的目录中的先后顺序,对数个目标段落进行排序,得到初始书评;
显示初始书评,以供审核用户对初始书评进行修改;
保存审核用户对初始书评的修改,得到书评。
本实施例的图书书评的生成装置,通过采用上述模块实现图书书评的生成的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的计算机设备实施例的结构图。如图4所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1所示实施例的图书书评的生成方法。图4所示实施例中以包括多个处理器30为例。
例如,图5为本发明提供的一种计算机设备的示例图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图5显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图3各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图3各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的图书书评的生成方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的图书书评的生成方法。
本实施例的计算机可读介质可以包括上述图5所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种图书书评的生成方法,其特征在于,所述方法包括:
根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;所述原始标题包括所述目标图书的书名、和/或所述目标图书的各章节的标题;
根据各所述原始标题,从所述多个预选文章中获取多个候选段落;
根据所述目标图书的内容,提取所述目标图书的多个特征主题;
根据各所述特征主题从所述多个候选段落中获取相关的数个目标段落,生成书评。
2.根据权利要求1所述的方法,其特征在于,根据目标图书的各原始标题从互联网中搜索相关的多个预选文章,具体包括:
根据所述目标图书的各所述原始标题和搜索推荐词,从互联网中搜索相关的多个所述预选文章。
3.根据权利要求1所述的方法,其特征在于,根据各所述原始标题,从所述多个预选文章中获取多个候选段落,具体包括:
根据各所述原始标题,从所述多个预选文章中获取首句或者尾句包括对应的所述原始标题的段落,作为所述候选段落;和/或
对各所述原始标题进行分词,得到标题词语列表,所述标题词语列表中包括多个标题词语;统计各所述预选文章中各段落中出现各所述标题词语的词频;从所述多个预选文章中获取所述标题词语的词频大于预设词频阈值的段落作为所述候选段落。
4.根据权利要求1所述的方法,其特征在于,根据所述目标图书的内容,提取所述目标图书的多个特征主题,具体包括:
采用机器学习工具,将所述目标图书的内容作为文本特征进行非负矩阵分解,获取所述目标图书的多个特征主题。
5.根据权利要求1-4任一所述的方法,其特征在于,根据各所述特征主题从所述多个候选段落中获取相关的数个目标段落,生成书评,具体包括:
计算各所述特征主题与各所述候选段落之间的语义相似度;
根据各所述特征主题与各所述候选段落之间的语义相似度,从所述多个候选段落中筛选语义相似度最大的数个所述候选段落,作为所述数个目标段落;
根据所述数个目标段落生成书评。
6.根据权利要求5所述的方法,其特征在于,根据所述数个目标段落生成书评,具体包括:
将所述数个目标段落按照所述语义相似度由大到小的顺序排列,生成所述初始书评;或者获取所述数个目标段落中各所述目标段落相关的所述原始标题;按照各所述目标段落相关的所述原始标题在所述目标图书的目录中的先后顺序,对所述数个目标段落进行排序,得到所述初始书评;
显示所述初始书评,以供审核用户对所述初始书评进行修改;
保存所述审核用户对所述初始书评的修改,得到所述书评。
7.一种图书书评的生成装置,其特征在于,所述装置包括:
搜索模块,用于根据目标图书的各原始标题从互联网中搜索相关的多个预选文章;所述原始标题包括所述目标图书的书名、和/或所述目标图书的各章节的标题;
获取模块,用于根据各所述原始标题,从所述多个预选文章中获取多个候选段落;
提取模块,用于根据所述目标图书的内容,提取所述目标图书的多个特征主题;
生成模块,用于根据各所述特征主题从所述多个候选段落中获取相关的数个目标段落,生成书评。
8.根据权利要求7所述的装置,其特征在于,所述搜索模块,具体用于根据所述目标图书的各所述原始标题和搜索推荐词,从互联网中搜索相关的多个所述预选文章。
9.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于:
根据各所述原始标题,从所述多个预选文章中获取首句或者尾句包括对应的所述原始标题的段落,作为所述候选段落;和/或
对各所述原始标题进行分词,得到标题词语列表,所述标题词语列表中包括多个标题词语;统计各所述预选文章中各段落中出现各所述标题词语的词频;从所述多个预选文章中获取所述标题词语的词频大于预设词频阈值的段落作为所述候选段落。
10.根据权利要求7所述的装置,其特征在于,所述提取模块,具体用于:
采用机器学习工具,将所述目标图书的内容作为文本特征进行非负矩阵分解,获取所述目标图书的多个特征主题。
11.根据权利要求7-10任一所述的装置,其特征在于,所述生成模块,具体用于:
计算单元,用于计算各所述特征主题与各所述候选段落之间的语义相似度;
筛选单元,用于根据各所述特征主题与各所述候选段落之间的语义相似度,从所述多个候选段落中筛选语义相似度最大的数个所述候选段落,作为所述数个目标段落;
生成单元,用于根据所述数个目标段落生成书评。
12.根据权利要求11所述的装置,其特征在于,所述生成单元,具体用于:
将所述数个目标段落按照所述语义相似度由大到小的顺序排列,生成所述初始书评;或者获取所述数个目标段落中各所述目标段落相关的所述原始标题;按照各所述目标段落相关的所述原始标题在所述目标图书的目录中的先后顺序,对所述数个目标段落进行排序,得到所述初始书评;
显示所述初始书评,以供审核用户对所述初始书评进行修改;
保存所述审核用户对所述初始书评的修改,得到所述书评。
13.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201711405409.1A 2017-12-22 2017-12-22 图书书评的生成方法及装置、计算机设备及可读介质 Active CN110019726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711405409.1A CN110019726B (zh) 2017-12-22 2017-12-22 图书书评的生成方法及装置、计算机设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711405409.1A CN110019726B (zh) 2017-12-22 2017-12-22 图书书评的生成方法及装置、计算机设备及可读介质

Publications (2)

Publication Number Publication Date
CN110019726A true CN110019726A (zh) 2019-07-16
CN110019726B CN110019726B (zh) 2021-09-21

Family

ID=67187145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711405409.1A Active CN110019726B (zh) 2017-12-22 2017-12-22 图书书评的生成方法及装置、计算机设备及可读介质

Country Status (1)

Country Link
CN (1) CN110019726B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
US6947922B1 (en) * 2000-06-16 2005-09-20 Xerox Corporation Recommender system and method for generating implicit ratings based on user interactions with handheld devices
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
US9087131B1 (en) * 2012-12-18 2015-07-21 Google Inc. Auto-summarization for a multiuser communication session
CN105786847A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种电商网站中商品网页的结构化摘要的显示方法和系统
CN106294425A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947922B1 (en) * 2000-06-16 2005-09-20 Xerox Corporation Recommender system and method for generating implicit ratings based on user interactions with handheld devices
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
US9087131B1 (en) * 2012-12-18 2015-07-21 Google Inc. Auto-summarization for a multiuser communication session
CN105786847A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种电商网站中商品网页的结构化摘要的显示方法和系统
CN106294425A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ERIC LIN ET AL: "Mining Online Book Reviews for Sentimental Clustering", 《2013 27TH INTERNATIONAL CONFERENCE ON ADVANCED INFORMATION NETWORKING AND APPLICATIONS WORKSHOPS》 *
刘德喜 等: "社会化短文本自动摘要研究综述", 《小型微型计算机系统》 *
孙双: "基于本体的BLOG文档自动摘要关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN110019726B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
US10558757B2 (en) Symbol management
CN109087135A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
CN106777331A (zh) 知识图谱生成方法及装置
CN107301227A (zh) 基于人工智能的搜索信息解析方法及装置
US20140012866A1 (en) Using annotators in genome research
US20190236206A1 (en) Automatic Extraction of Domain Specific Terminology from a Large Corpus
US20170116194A1 (en) Ingestion planning for complex tables
CN107315779A (zh) 日志分析方法和系统
CN107391561B (zh) 内容源页面中的广告处理方法、服务器及计算机可读介质
JP7157141B2 (ja) ゲノム・ファイルのためのコンテキスト・アウェア差分アルゴリズム
CN109214417A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
US10885085B2 (en) System to organize search and display unstructured data
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN104866308A (zh) 一种场景图像的生成方法及装置
CN107133263A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
CN109214418A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN103902564A (zh) 一种文件展示方法及装置
CN104933171B (zh) 兴趣点数据关联方法和装置
CN107045527A (zh) 一种应用内容收藏方法及装置
CN107169011A (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
CN109214856A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN108846098A (zh) 一种信息流摘要生成及展示方法
CN108133017A (zh) 一种多数据源采集配置方法及装置
CN110287338B (zh) 行业热点确定方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant