CN112364155A - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN112364155A
CN112364155A CN202011312673.2A CN202011312673A CN112364155A CN 112364155 A CN112364155 A CN 112364155A CN 202011312673 A CN202011312673 A CN 202011312673A CN 112364155 A CN112364155 A CN 112364155A
Authority
CN
China
Prior art keywords
information
candidate
vocabulary
selecting
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011312673.2A
Other languages
English (en)
Other versions
CN112364155B (zh
Inventor
林雅明
彭飞
邓竹立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN202011312673.2A priority Critical patent/CN112364155B/zh
Publication of CN112364155A publication Critical patent/CN112364155A/zh
Application granted granted Critical
Publication of CN112364155B publication Critical patent/CN112364155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请示出了一种信息处理方法及装置。通过本申请,生成的摘要文本不仅能够表征用户在当前时刻之前的预设时间段内的兴趣,还能够表征出第二信息的特征,以使地生成的摘要文本能够透露出吸引用户的特征,如此,可以提高用户对该通知消息中描述的关于第二信息的概要感兴趣的可能性,从而可以提高用户在看到该通知消息之后主观上想通过该通知消息获取第二信息的可能性,进而可以降低该通知消息的推送为无效推送的可能性,如此可以节省参与提供该通知消息的设备的系统资源以及网络资源等,以及可以避免浪费用户的时间,进而可以提高用户体验。

Description

一种信息处理方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种信息处理方法及装置。
背景技术
随着技术的飞速发展,网络上的信息越来越多,更多的用户也倾向于使用手机上的应用程序来浏览信息。然而,用户往往更倾向于浏览自己感兴趣的信息,但是,用户在海量的信息中手动搜寻自己感兴趣的信息不仅耗费时间且会导致用户操作繁琐,进而会降低用户体验。
因此,为了提高用户体验,应用程序可以为用户推荐用户感兴趣的信息,以使用户很容易就看到用户感兴趣的信息。
发明内容
本申请示出了一种信息处理方法及装置。
第一方面,本申请示出了一种信息处理方法,所述方法包括:
获取用户在当前时刻之前的预设时间段内操控过的第一信息;
获取用于表征所述第一信息的主题的关键词;
获取用于向所述用户提供的第二信息;
根据所述关键词以及所述第二信息生成所述第二信息的摘要文本;
向所述用户提供与所述第二信息关联的通知消息,所述通知消息中包括所述摘要文本。
在一个可选的实现方式中,所述获取用于向所述用户提供的第二信息,包括:
根据所述关键词,在多个预设信息中选择至少表征所述主题的候选信息;
根据所述候选信息获取所述第二信息。
在一个可选的实现方式中,所述候选信息为至少两个;
所述根据所述候选信息获取所述第二信息,包括:
获取至少两个候选信息中的各个候选信息分别与所述第一信息之间的主题相关度;
按照与所述第一信息之间的主题相关度由高至低的顺序,在所述至少两个候选信息中选择一个候选信息,并作为所述第二信息。
在一个可选的实现方式中,所述获取用于表征所述第一信息的主题的关键词,包括:
对所述第一信息分词,得到多个词汇;
获取所述多个词汇中的各个词汇分别在所述第一信息中的重要程度;
根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词。
在一个可选的实现方式中,所述获取所述多个词汇中的各个词汇分别在所述第一信息中的重要程度,包括:
对于任意一个词汇,获取所述词汇在所述第一信息中的词频TF,获取所述词汇在所述第一信息中的逆文档频率IDF,根据所述词频与所述逆文档频率获取所述词汇在所述第一信息中的重要程度。
在一个可选的实现方式中,所述根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词,包括:
按照所述重要程度由高至低的顺序在所述多个词汇中选择至少一个词汇,并作为所述关键词。
在一个可选的实现方式中,所述第一信息为多个;
所述根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词,包括:
对于所述多个信息中的每一个第一信息,在所述第一信息包括的词汇中,按照重要程度由高至低的顺序选择至少一个候选词汇;
获取每一个候选词汇分别在所述多个第一信息中的出现频率;
按照所述出现频率由高至低的顺序,在多个候选词汇中选择至少一个候选词汇,并作为所述关键词。
在一个可选的实现方式中,所述根据所述关键词以及所述第二信息生成所述第二信息的摘要文本,包括:
根据所述关键词以及文本生成模型生成多个候选文本;
获取所述多个候选文本中的各个候选文本分别与所述第二信息之间的主题相关度;
按照与所述第二信息之间的主题相关度由高至低的顺序,在所述多个候选文本中选择一个候选文本,并作为所述摘要文本。
第二方面,本申请示出了一种信息处理装置,所述装置包括:
第一获取模块,用于获取用户在当前时刻之前的预设时间段内操控过的第一信息;
第二获取模块,用于获取用于表征所述第一信息的主题的关键词;
第三获取模块,用于获取用于向所述用户提供的第二信息;
生成模块,用于根据所述关键词以及所述第二信息生成所述第二信息的摘要文本;
提供模块,用于向所述用户提供与所述第二信息关联的通知消息,所述通知消息中包括所述摘要文本。
在一个可选的实现方式中,所述第三获取模块包括:
选择单元,用于根据所述关键词,在多个预设信息中选择至少表征所述主题的候选信息;
第一获取单元,用于根据所述候选信息获取所述第二信息。
在一个可选的实现方式中,所述候选信息为至少两个;
所述获取单元包括:
第一获取子单元,用于获取至少两个候选信息中的各个候选信息分别与所述第一信息之间的主题相关度;
选择子单元,用于按照与所述第一信息之间的主题相关度由高至低的顺序,在所述至少两个候选信息中选择一个候选信息,并作为所述第二信息。
在一个可选的实现方式中,所述第二获取模块包括:
分词单元,用于对所述第一信息分词,得到多个词汇;
第二获取单元,用于获取所述多个词汇中的各个词汇分别在所述第一信息中的重要程度;
第一选择单元,用于根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词。
在一个可选的实现方式中,所述第二获取单元包括:
第二获取子单元,用于对于任意一个词汇,获取所述词汇在所述第一信息中的词频TF,第三获取子单元,用于获取所述词汇在所述第一信息中的逆文档频率IDF,第四获取子单元,用于根据所述词频与所述逆文档频率获取所述词汇在所述第一信息中的重要程度。
在一个可选的实现方式中,所述第一选择单元包括:
第一选择子单元,用于按照所述重要程度由高至低的顺序在所述多个词汇中选择至少一个词汇,并作为所述关键词。
在一个可选的实现方式中,所述第一信息为多个;
所述第一选择单元包括:
第二选择子单元,用于对于所述多个信息中的每一个第一信息,在所述第一信息包括的词汇中,按照重要程度由高至低的顺序选择至少一个候选词汇;
第五获取子单元,用于获取每一个候选词汇分别在所述多个第一信息中的出现频率;
第三选择子单元,用于按照所述出现频率由高至低的顺序,在多个候选词汇中选择至少一个候选词汇,并作为所述关键词。
在一个可选的实现方式中,所述生成模块包括:
生成单元,用于根据所述关键词以及文本生成模型生成多个候选文本;
第三获取单元,用于获取所述多个候选文本中的各个候选文本分别与所述第二信息之间的主题相关度;
第二选择单元,用于按照与所述第二信息之间的主题相关度由高至低的顺序,在所述多个候选文本中选择一个候选文本,并作为所述摘要文本。
第三方面,本申请示出了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如第一方面所述的信息处理方法。
第四方面,本申请示出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的信息处理方法。
第五方面,本申请示出了一种计算机程序产品,当所述计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的信息处理方法。
本申请提供的技术方案可以包括以下有益效果:
在本申请中,获取用户在当前时刻之前的预设时间段内操控过的第一信息,获取用于表征第一信息的主题的关键词,获取用于向用户提供的第二信息,根据用于表征第一信息的主题的关键词以及第二信息生成第二信息的摘要文本。向用户提供与第二信息关联的通知消息,该通知消息中包括生成的摘要文本。
通过本申请,生成的摘要文本不仅能够表征出第二信息的特征,还能够表征用户在当前时刻之前的预设时间段内的兴趣,以使地生成的摘要文本能够透露出吸引用户的特征,如此,可以提高用户对该通知消息中描述的关于第二信息的概要感兴趣的可能性,从而可以提高用户在看到该通知消息之后主观上想通过该通知消息获取第二信息的可能性,进而可以降低该通知消息的推送为无效推送的可能性,如此可以节省参与提供该通知消息的设备的系统资源以及网络资源等,以及可以避免浪费用户的时间,进而可以提高用户体验。
附图说明
图1是本申请的一种信息处理方法的步骤流程图。
图2是本申请的一种获取关键词的方法的步骤流程图。
图3是本申请的一种获取第二信息的方法的步骤流程图。
图4是本申请的一种生成摘要文本的方法的步骤流程图。
图5是本申请的一种信息处理装置的结构框图。
图6是本申请示出的一种电子设备的框图。
图7是本申请示出的一种电子设备的框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在向用户推荐用户感兴趣的信息时,在一种可行的方式中,可以是向用户推送通知消息,该通知消息中可以包括文本,该文本可以是技术人员事先针对该信息编辑的,其用于简单介绍该信息。
用户在看到该通知消息之后,可以获知用户被推荐了与该通知消息关联的信息,并通过该通知消息中的该文本可以简要地了解到推荐的该信息的概要,如果用户对该信息的概要所表达的内容感兴趣,则用户往往就会觉得其对该通知消息关联的该信息感兴趣,这样用户就可以点击该通知消息,以获取被推荐的该信息,并浏览被推荐的该信息。
然而,发明人发现,在一种可能的情况下,用户实际上对该信息感兴趣,但是用户通过该通知消息中的该文本只能简单了解到该信息的部分内容,且该通知消息中的该文本可能并未透露出该信息的吸引用户的特征,这样就很可能出现用户基于该通知消息主观上确定出其对该通知消息关联的该信息不感兴趣的情况,这样就会降低用户主观上想通过该通知消息获取该信息的可能性,从而会提高此次的该通知消息的推送为无效推送的可能性,这样就会白白耗费参与推送该通知消息的设备的系统资源以及网络资源,以及,用户花时间浏览了不感兴趣的推送,这样会浪费用户的时间,进而会降低用户体验。
因此,为了提高用户体验以及节省参与推送通知消息的设备的系统资源以及网络资源等,可以降低该通知消息的推送为无效推送的可能性。
为了降低该通知消息的推送为无效推送的可能性,可以提高用户在看到该通知消息之后主观上想通过该通知消息获取该信息的可能性。
为了提高用户在看到该通知消息之后主观上想通过该通知消息获取该信息的可能性,可以提高用户对该通知消息中描述的关于该信息的内容感兴趣的可能性。
为了提高用户对该通知消息中描述的关于该信息的内容感兴趣的可能性,在一种方式中,可以使得该通知消息能够透露出该信息的吸引用户的特征。具体地,参照图1,示出了本申请的一种信息处理方法的步骤流程图,该方法具体可以包括如下步骤:
在步骤S101中,获取用户在当前时刻之前的预设时间段内操控过的第一信息。
在本申请中,当前时刻之前的预设时间段的结束时刻可以为当前时刻,也可以为位于当前时刻之前且距离当前时刻较近的时刻。
预设时间段的持续时长可以包括5秒、10秒、30秒、1分钟、5分钟、10分钟、1小时、1天或者多天等,具体可以根据实际情况设定,本申请对此不加以限定。
其中,用户对一个信息操控的动作包括:点击进入该信息的详情页,在该信息为视频或音频的情况下播放视频或音频,在该信息是图像的情况下点击该图像的缩约图以显示该图像的大图或原图等,或者,显示信息且信息的持续显示时长大于一个特定的时长等,特定的时长可以根据实际情况设定,或者,在论坛上对待发布帖子进行发布或回复等。
第一信息包括文本类、视频类、音频类以及图像类的信息等。
在步骤S102中,获取用于表征第一信息的主题的关键词。
在一个例子中,假设第一信息为文本,其包括“XX品牌的手机正在打折,欢迎广大用户购买”。如此,用于表征第一信息的主题的关键词可以包括:“XX”、“手机”以及“打折”等。
在另一个例子中,假设第一信息为图像,图像中展现了男人和女人一起烧烤的画面。如此,用于表征第一信息的主题的关键词可以包括:“女人”、“烧烤”以及“男人”等。
在又一个例子中,假设第一信息为视频,视频中描述了女人坐在海滩上面对大海喝啤酒的场面。如此,用于表征第一信息的主题的关键词可以包括:“海滩”、“女人”、“大海”以及“啤酒”等。
其中,具体如何获取用于表征第一信息的主题的关键词可以参见之后如图2所示的实施例,在此不做详述。
在步骤S103中,获取用于向用户提供的第二信息。
在本申请一个实施例中,第二信息可以是特定的一个信息,例如,电子设备需要向广大用户分别提供同一个特定的广告信息,则针对任意一个用户而言,电子设备向该用户提供的信息包括为该广告信息,则该广告信息即为特定的第二信息。
在本申请另一个实施例中,用于向广大用户提供的第二信息可以有多个,对于任意一个用户而言,可以从多个第二信息中选择一个第二信息,以向该用户提供,例如,选择该用户感兴趣的信息等,对于其他用户而言,同样如此。具体可以参见之后如图3所示的实施例,在此不做详述。
在本申请一个实施例中,步骤S101与步骤S103的执行先后顺序不做限定。
在步骤S104中,根据用于表征第一信息的主题的关键词以及第二信息生成第二信息的摘要文本。
在本申请中,摘要文本可以为用文字表述的一个句子等,该句子中包括有至少一个词汇等,词汇可以为用于表征第一信息的主题的关键词,也可以不为用于表征第一信息的主题的关键词,但是能够表征该关键词的主题等。
在本申请中,生成的摘要文本可以至少表征该关键词所表征的主题,例如,生成的摘要文本可以至少包括该关键词等。
另外,生成的摘要文本还可以与第二信息相关,例如,生成的摘要文本能够表征出第二信息的主题等。这样,生成的摘要文本不仅能够表征用户在当前时刻之前的预设时间段内的兴趣且能够表征出第二信息的特征。
其中,具体如何生成第二信息的摘要文本可以参见之后如图4所示的实施例,在此不做详述。
在步骤S105中,向用户提供与第二信息关联的通知消息,该通知消息中包括生成的摘要文本。
在本申请一个实施例中,电子设备可以在屏幕上显示该通知消息,以供用户使用电子设备浏览该通知消息。
进一步地,在用户浏览到该通知消息之后,就可以看到该通知消息中的该摘要文本,并了解该摘要文本描述的主题,进而可以了解到该通知消息关联的信息(第二信息)的主题,如果用户对该通知消息关联的第二信息的主题感兴趣,则用户可以通过该通知消息获取第二信息,例如,用户可以触发(例如点击等)该通知消息,以向电子设备告知用户需要浏览该通知消息关联的第二信息,在该通知消息被触发之后,电子设备可以向用户提供第二信息,例如电子设备可以显示第二信息以供用户浏览。
在本申请另一个实施例中,电子设备可以将通知消息发送给其他终端,以使其他终端显示该通知消息,以供用户使用其他终端浏览该通知消息。
进一步地,在用户浏览到该通知消息之后,就可以看到该通知消息中的该摘要文本,并了解该摘要文本描述的主题,进而可以了解到该通知消息关联的信息(第二信息)的主题,如果用户对该通知消息关联的第二信息的主题感兴趣,则用户可以通过该通知消息获取第二信息,例如,用户可以触发(例如点击等)该通知消息,以向其他终端告知用户需要浏览该通知消息关联的第二信息,在通知消息被触发之后,其他终端可以向用户提供第二信息。例如其他终端可以从电子设备获取第二信息,并显示第二信息以供用户浏览。
在本申请中,获取用户在当前时刻之前的预设时间段内操控过的第一信息,获取用于表征第一信息的主题的关键词,获取用于向用户提供的第二信息,根据用于表征第一信息的主题的关键词以及第二信息生成第二信息的摘要文本。向用户提供与第二信息关联的通知消息,该通知消息中包括生成的摘要文本。
通过本申请,生成的摘要文本不仅能够表征用户在当前时刻之前的预设时间段内的兴趣,还能够表征出第二信息的特征,以使地生成的摘要文本能够透露出吸引用户的特征,如此,可以提高用户对该通知消息中描述的关于第二信息的概要感兴趣的可能性,从而可以提高用户在看到该通知消息之后主观上想通过该通知消息获取第二信息的可能性,进而可以降低该通知消息的推送为无效推送的可能性,如此可以节省参与提供该通知消息的设备的系统资源以及网络资源等,以及可以避免浪费用户的时间,进而可以提高用户体验。
在本申请另一实施例中,参见图2,步骤S102包括:
在步骤S201中,对第一信息分词,得到多个词汇。
在本申请中,可以使用支持向量机(Support Vector Machine)、条件随机场(conditional random field)、最大正向匹配法(Maximum Matching Method)、逆向最大匹配法(Reverse Maximum Matching Method)等技术对第一信息分词,当然,也可以使用其他已存在的技术对第一信息分词,本申请对分词的具体技术不做限定。
在步骤S202中,获取多个词汇中的各个词汇分别在第一信息中的重要程度。
在本申请一个实施例中,对于多个词汇中的任意一个词汇,可以获取该词汇在第一信息中的词频TF,例如,可以统计该词汇在第一信息中的出现次数,并作为该词汇在第一信息中的词频TF。然后可以将该词汇在第一信息中的词频TF作为该词汇在第一信息中的重要程度。对于多个词汇中的其他每一个词汇,同样执行上述操作,从而得到多个词汇中的各个词汇分别在第一信息中的重要程度。
在本申请另一个实施例中,对于多个词汇中的任意一个词汇,可以获取该词汇在第一信息中的词频TF,例如,可以统计该词汇在第一信息中的出现次数,并作为该词汇在第一信息中的词频TF。以及,可以获取该词汇在第一信息中的逆文档频率IDF,例如,可以统计第一信息的总数量,然后可以统计包括该词汇的第一信息的数量,计算包括该词汇的第一信息的数量与特定数值之间的和值,再计算第一信息的总数量与该和值之间的比值,然后可以计算该比值的对数,并作为该词汇在第一信息中的逆文档频率IDF。之后,可以根据该词汇在第一信息中的词频TF与该词汇在第一信息中的逆文档频率IDF获取该词汇在第一信息中的重要程度,例如,可以计算该词汇在第一信息中的词频TF与该词汇在第一信息中的逆文档频率IDF之间的乘积,并作为该词汇在第一信息中的重要程度。其中,特定数值包括1、2或3等,本申请对此不做限定。对于多个词汇中的其他每一个词汇,同样执行上述操作,从而得到多个词汇中的各个词汇分别在第一信息中的重要程度。
在步骤S203中,根据各个词汇分别在第一信息中的重要程度,在多个词汇中选择至少一个词汇,并作为用于表征第一信息的主题的关键词。
在本申请一个实施例中,可以按照在第一信息中的重要程度由高至低的顺序,在多个词汇中选择至少一个词汇,并作为用于表征第一信息的主题的关键词。
然而,在一种可能的情形中,用户在当前时刻之前的预设时间段内操控过的第一信息为多个,其中,某一个第一信息中出现了多次词汇A而仅出现了一次词汇B,且在其他第一信息中未出现词汇A,但其他第一信息中均出现了词汇B,此时,在多个第一信息中出现的词汇A的数量可能大于在多个第一信息中出现的词汇B的数量。
这样,按照前一个实施例的方式在获取各个词汇在第一信息中的重要程度时,由于在多个第一信息中出现的词汇A的数量大于在多个第一信息中出现的词汇B的数量,则可以确定出词汇A在多个第一信息中的重要程度高于词汇B在多个第一信息中的重要程度,进而推断出用户在当前时刻之前的预设时间段内,对词汇A所表达的主题比词汇B所表达的主题更感兴趣。
这就很可能出现一种情况:未将词汇B作为用于表征第一信息的主题的关键词,而将词汇A作为用于表征第一信息的主题的关键词。
然而,实际上由于多个第一信息中仅有一个第一信息中出现了词汇A,而多个第一信息中的所有第一信息中均出现了词汇B,则实际情况往往是在当前时刻之前的预设时间段内,用户对词汇B所表达的主题实际上比词汇A所表达的主题更感兴趣。也即,实际上词汇B更应当作为用于表征第一信息的主题的关键词。即使用于表征第一信息的主题的关键词中没有词汇A,也应当有词汇B。
这样就会出现获取的关键词可能无法完善地表征第一信息的主题的关键词的情况。
所以,为了避免这种情况发生,在本申请另一实施例中,对于多个第一信息中的任意一个第一信息,可以在该第一信息包括的词汇中,按照之前计算出的其在第一信息中的重要程度由高至低的顺序选择至少一个候选词汇。对于多个第一信息中的其他每一个第一信息,同样如此。如此得到多个候选词汇,其中,候选词汇的数量大于或等于第一信息的数量。
然后可以检测多个候选词汇中是否存在重复的词汇,如果存在重复的词汇,可以对多个候选词汇去重复。
对于剩余的候选词汇,可以获取每一个候选词汇分别在多个第一信息中的出现频率,例如,对于任意一个候选词汇,可以在多个第一信息中查找包括该候选词汇的第一信息,统计包括该候选词汇的第一信息的数量,并作为该候选词汇在多个第一信息中的出现频率,对于其他每一个候选词汇,同样如此。从而得到每一个候选词汇分别在多个第一信息中的出现频率。
之后可以按照在多个第一信息中的出现频率由高至低的顺序,在多个候选词汇中选择至少一个候选词汇,并作为用于表征第一信息的主题的关键词。
在本申请一个实施例中,参见图3,步骤S103包括:
在步骤S301中,根据用于表征第一信息的主题的关键词,在多个预设信息中选择至少表征第一信息的主题的候选信息。
在本申请中,多个预设信息用于向广大用户提供,在向广大用户提供信息时,可以从多个预设信息中选择一个信息向其提供。
其中,对于多个预设信息中的任意一个预设信息,可以获取用于描述该预设信息的主题的关键词,具体获取方式可以参见图2所示的实施例,在此不做详述,然后确定用于描述该预设信息的主题的关键词与用于描述第一信息的主题的关键词之间是否存在相同的关键词,如果存在相同的关键词,则说明该预设信息可以至少表征第一信息的主题,从而可以将该预设信息作为候选信息。
对于多个预设信息中的其他每一个预设信息,同样执行上述操作。
在步骤S302中,根据候选信息获取第二信息。
在本申请一个实施例中,如果在步骤S301中选择出的候选信息为一个,则可以将该候选信息作为第二信息。
在本申请另一个实施例中,如果在步骤S301中选择出的候选信息为至少两个,则可以从至少两个候选信息中选择出一个候选信息,并作为第二信息。
具体地,从至少两个候选信息中选择出一个候选信息的流程,包括:
3021、获取至少两个候选信息中的各个候选信息分别与第一信息之间的主题相关度。
在一种方式中,对于至少两个候选信息中的任意一个候选信息,可以获取用于表征该候选信息的主题的关键词,其中,在步骤S301已经获取到了用于表征该候选信息的主题的关键词,本步骤可以直接使用步骤S301的结果即可,然后获取用于表征该候选信息的主题的关键词与获取用于表征第一信息的主题的关键词之间的相同的关键词的数量,并作为该候选信息与第一信息之间的主题相关度。
对于至少两个候选信息中的其他每一个候选信息,同样执行上述操作,如此得到至少两个候选信息中的各个候选信息分别与第一信息之间的主题相关度。
3022、按照与第一信息之间的主题相关度由高至低的顺序,在至少两个候选信息中选择一个候选信息,并作为第二信息。
在本申请一个实施例中,参见图4,步骤S104包括:
在步骤S401中,根据用于表征第一信息的主题的关键词以及文本生成模型生成多个候选文本。
在一个方式中,文本生成模型可以使用市面上已存在的模型,例如CoreML或Resnet50等。
在另一个方式中,事先可以训练文本生成模型。
具体地,可以获取多个训练数据,每一个训练数据中包括至少一个训练词汇和标注文本(标注文本可以为一个句子或多个句子组成的一段话等)。
在一个方式中,可以从网络上搜集多个训练数据,例如从一些社区(包括论坛、贴吧以及微博等)中搜集广大用户发布的社区文本,作为标注文本。
有时候广大用户在社区中发布社区文本时,用户会自己手动为用户发布的社区文本选择对应的话题,或者,社区自动为用户发布的社区文本选择对应的话题,然后将话题和社区文本一起发布,话题可以包括至少一个词汇等。
如此,电子设备可以同时获取用户发布的社区文本以及发布的社区文本对应的话题,然后根据话题获取训练词汇。
在一种方式中,在话题包括的字数较少的情况下,可以将话题本身直接作为训练词汇等。
或者,在另一种方式中,可以按照图2所示的实施例的方式获取话题的关键词,并作为训练词汇。
然后,可以使用多个训练数据对模型训练,直至模型中的网络参数收敛,得到文本生成模型。
其中,模型包括CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)或LSTM(Long Short-Term Memory,长短期记忆网络)等。
如此,可以将用于表征第一信息的主题的关键词输入文本生成模型中,文本生成模型可以对用于表征第一信息的主题的关键词处理,并输出多个候选文本。之后电子设备可以获取文本生成模型输出的多个候选文本。
在本申请另一实施例中,如果训练数据中的标注文本中包括的词汇的数量较多,则之后训练出的文本生成模型生成的文本包括的词汇往往就会较多,也即,会包括很多字,这样,就会使得生成的第二信息的摘要文本中包括很多字,用户在看到该通知消息中的摘要文本之后,需要耗费较长时间才能理解该摘要文本描述的内容,这不仅会浪费用户时间进而降低用户体验,且还会增加用户觉得该通知消息中的摘要文本复杂而选择不去看该通知消息中的摘要文本的可能性,这就会降低用户主观上想通过该通知消息获取第二信息的可能性,从而会提高该通知消息的推送为无效推送的可能性,这样就会白白耗费参与推送通知消息的设备的系统资源以及网络资源等。
因此,为了避免这种情况发生,在获取训练数据的过程中,在电子设备获取到用户发布的社区文本以及发布的社区文本对应的话题的情况下,电子设备可以统计社区文本包括的词汇的数量,如果社区文本包括的词汇的数量较多,例如大于预设数量,这时候可以对社区文本精简,降低社区文本中包括的词汇的数量。预设数量可以包括7、10或15等,具体可以根据实际情况而定,在此不做详述。
在一个方式中,在社区文本包括多个句子的情况下,可以在社区文本包括多个句子中选择包括的词汇最少的一个句子,然后将选择的句子与社区文本对应的话题组成一个训练数据。
或者,在另一个方式中,在社区文本包括多个句子的情况下,可以将社区文本包括的多个句子按照其包括的词汇的数量由少至多的顺序排序,在排序的前N位的句子中随机选择一个句子,然后将随机选择的句子与社区文本对应的话题组成一个训练数据。N大于或等于2的整数。
或者,在又一个方式中,在社区文本包括多个句子的情况下,可以获取用于描述社区文本的主题的关键词,具体获取方式可以参见图2所示的实施例,在此不做详述,然后对于社区文本包括的任意一个句子,统计该句子包括的关键词的数量,对于社区文本包括的其他每一个句子,同样如此,从而从而得到社区文本包括的每一个句子分别包括的关键词的数量,在社区文本中选择包括的关键词的数量最多的一个句子,将选择的句子与社区文本对应的话题组成一个训练数据。
在步骤S402中,获取多个候选文本中的各个候选文本分别与第二信息之间的主题相关度。
在一种方式中,对于至少两个候选文本中的任意一个候选文本,可以获取用于表征该候选文本的主题的关键词,具体获取方式可以参见图2所示的实施例,在此不做详述。然后获取用于表征第二信息的主题的关键词,其中,在步骤S301已经获取到了用于表征第二信息的主题的关键词,本步骤可以直接使用步骤S301的结果即可。然后获取用于表征该候选文本的主题的关键词与获取用于表征第二信息的主题的关键词之间的相同的关键词的数量,并作为该候选文本与第二信息之间的主题相关度。
对于至少两个候选文本中的其他每一个候选文本,同样执行上述操作,如此得到多个候选文本中的各个候选文本分别与第二信息之间的主题相关度。
在步骤S403中,按照与第二信息之间的主题相关度由高至低的顺序,在多个候选文本中选择一个候选文本,并作为第二信息的摘要文本。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本申请所必须的。
参照图5,示出了本申请的一种信息处理装置的结构框图,该装置具体可以包括如下模块:
第一获取模块11,用于获取用户在当前时刻之前的预设时间段内操控过的第一信息;
第二获取模块12,用于获取用于表征所述第一信息的主题的关键词;
第三获取模块13,用于获取用于向所述用户提供的第二信息;
生成模块14,用于根据所述关键词以及所述第二信息生成所述第二信息的摘要文本;
提供模块15,用于向所述用户提供与所述第二信息关联的通知消息,所述通知消息中包括所述摘要文本。
在一个可选的实现方式中,所述第三获取模块包括:
选择单元,用于根据所述关键词,在多个预设信息中选择至少表征所述主题的候选信息;
第一获取单元,用于根据所述候选信息获取所述第二信息。
在一个可选的实现方式中,所述候选信息为至少两个;
所述获取单元包括:
第一获取子单元,用于获取至少两个候选信息中的各个候选信息分别与所述第一信息之间的主题相关度;
选择子单元,用于按照与所述第一信息之间的主题相关度由高至低的顺序,在所述至少两个候选信息中选择一个候选信息,并作为所述第二信息。
在一个可选的实现方式中,所述第二获取模块包括:
分词单元,用于对所述第一信息分词,得到多个词汇;
第二获取单元,用于获取所述多个词汇中的各个词汇分别在所述第一信息中的重要程度;
第一选择单元,用于根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词。
在一个可选的实现方式中,所述第二获取单元包括:
第二获取子单元,用于对于任意一个词汇,获取所述词汇在所述第一信息中的词频TF,第三获取子单元,用于获取所述词汇在所述第一信息中的逆文档频率IDF,第四获取子单元,用于根据所述词频与所述逆文档频率获取所述词汇在所述第一信息中的重要程度。
在一个可选的实现方式中,所述第一选择单元包括:
第一选择子单元,用于按照所述重要程度由高至低的顺序在所述多个词汇中选择至少一个词汇,并作为所述关键词。
在一个可选的实现方式中,所述第一信息为多个;
所述第一选择单元包括:
第二选择子单元,用于对于所述多个信息中的每一个第一信息,在所述第一信息包括的词汇中,按照重要程度由高至低的顺序选择至少一个候选词汇;
第五获取子单元,用于获取每一个候选词汇分别在所述多个第一信息中的出现频率;
第三选择子单元,用于按照所述出现频率由高至低的顺序,在多个候选词汇中选择至少一个候选词汇,并作为所述关键词。
在一个可选的实现方式中,所述生成模块包括:
生成单元,用于根据所述关键词以及文本生成模型生成多个候选文本;
第三获取单元,用于获取所述多个候选文本中的各个候选文本分别与所述第二信息之间的主题相关度;
第二选择单元,用于按照与所述第二信息之间的主题相关度由高至低的顺序,在所述多个候选文本中选择一个候选文本,并作为所述摘要文本。
在本申请中,获取用户在当前时刻之前的预设时间段内操控过的第一信息,获取用于表征第一信息的主题的关键词,获取用于向用户提供的第二信息,根据用于表征第一信息的主题的关键词以及第二信息生成第二信息的摘要文本。向用户提供与第二信息关联的通知消息,该通知消息中包括生成的摘要文本。
通过本申请,生成的摘要文本不仅能够表征用户在当前时刻之前的预设时间段内的兴趣,还能够表征出第二信息的特征,以使地生成的摘要文本能够透露出吸引用户的特征,如此,可以提高用户对该通知消息中描述的关于第二信息的概要感兴趣的可能性,从而可以提高用户在看到该通知消息之后主观上想通过该通知消息获取第二信息的可能性,进而可以降低该通知消息的推送为无效推送的可能性,如此可以节省参与提供该通知消息的设备的系统资源以及网络资源等,以及可以避免浪费用户的时间,进而可以提高用户体验。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图6是本申请示出的一种电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图像,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播操作信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是本申请示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。
参照图7,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种信息处理方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种信息处理方法,其特征在于,所述方法包括:
获取用户在当前时刻之前的预设时间段内操控过的第一信息;
获取用于表征所述第一信息的主题的关键词;
获取用于向所述用户提供的第二信息;
根据所述关键词以及所述第二信息生成所述第二信息的摘要文本;
向所述用户提供与所述第二信息关联的通知消息,所述通知消息中包括所述摘要文本。
2.根据权利要求1所述的方法,其特征在于,所述获取用于向所述用户提供的第二信息,包括:
根据所述关键词,在多个预设信息中选择至少表征所述主题的候选信息;
根据所述候选信息获取所述第二信息。
3.根据权利要求2所述的方法,其特征在于,所述候选信息为至少两个;
所述根据所述候选信息获取所述第二信息,包括:
获取至少两个候选信息中的各个候选信息分别与所述第一信息之间的主题相关度;
按照与所述第一信息之间的主题相关度由高至低的顺序,在所述至少两个候选信息中选择一个候选信息,并作为所述第二信息。
4.根据权利要求1所述的方法,其特征在于,所述获取用于表征所述第一信息的主题的关键词,包括:
对所述第一信息分词,得到多个词汇;
获取所述多个词汇中的各个词汇分别在所述第一信息中的重要程度;
根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词。
5.根据权利要求4所述的方法,其特征在于,所述获取所述多个词汇中的各个词汇分别在所述第一信息中的重要程度,包括:
对于任意一个词汇,获取所述词汇在所述第一信息中的词频TF,获取所述词汇在所述第一信息中的逆文档频率IDF,根据所述词频与所述逆文档频率获取所述词汇在所述第一信息中的重要程度。
6.根据权利要求4所述的方法,其特征在于,所述根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词,包括:
按照所述重要程度由高至低的顺序在所述多个词汇中选择至少一个词汇,并作为所述关键词。
7.根据权利要求4所述的方法,其特征在于,所述第一信息为多个;
所述根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词,包括:
对于所述多个信息中的每一个第一信息,在所述第一信息包括的词汇中,按照重要程度由高至低的顺序选择至少一个候选词汇;
获取每一个候选词汇分别在所述多个第一信息中的出现频率;
按照所述出现频率由高至低的顺序,在多个候选词汇中选择至少一个候选词汇,并作为所述关键词。
8.根据权利要求1所述的方法,其特征在于,所述根据所述关键词以及所述第二信息生成所述第二信息的摘要文本,包括:
根据所述关键词以及文本生成模型生成多个候选文本;
获取所述多个候选文本中的各个候选文本分别与所述第二信息之间的主题相关度;
按照与所述第二信息之间的主题相关度由高至低的顺序,在所述多个候选文本中选择一个候选文本,并作为所述摘要文本。
9.一种信息处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取用户在当前时刻之前的预设时间段内操控过的第一信息;
第二获取模块,用于获取用于表征所述第一信息的主题的关键词;
第三获取模块,用于获取用于向所述用户提供的第二信息;
生成模块,用于根据所述关键词以及所述第二信息生成所述第二信息的摘要文本;
提供模块,用于向所述用户提供与所述第二信息关联的通知消息,所述通知消息中包括所述摘要文本。
10.根据权利要求9所述的装置,其特征在于,所述第三获取模块包括:
选择单元,用于根据所述关键词,在多个预设信息中选择至少表征所述主题的候选信息;
第一获取单元,用于根据所述候选信息获取所述第二信息。
11.根据权利要求10所述的装置,其特征在于,所述候选信息为至少两个;
所述获取单元包括:
第一获取子单元,用于获取至少两个候选信息中的各个候选信息分别与所述第一信息之间的主题相关度;
选择子单元,用于按照与所述第一信息之间的主题相关度由高至低的顺序,在所述至少两个候选信息中选择一个候选信息,并作为所述第二信息。
12.根据权利要求9所述的装置,其特征在于,所述第二获取模块包括:
分词单元,用于对所述第一信息分词,得到多个词汇;
第二获取单元,用于获取所述多个词汇中的各个词汇分别在所述第一信息中的重要程度;
第一选择单元,用于根据所述重要程度在所述多个词汇中选择至少一个词汇,并作为所述关键词。
13.根据权利要求12所述的装置,其特征在于,所述第二获取单元包括:
第二获取子单元,用于对于任意一个词汇,获取所述词汇在所述第一信息中的词频TF,第三获取子单元,用于获取所述词汇在所述第一信息中的逆文档频率IDF,第四获取子单元,用于根据所述词频与所述逆文档频率获取所述词汇在所述第一信息中的重要程度。
14.根据权利要求12所述的装置,其特征在于,所述第一选择单元包括:
第一选择子单元,用于按照所述重要程度由高至低的顺序在所述多个词汇中选择至少一个词汇,并作为所述关键词。
15.根据权利要求12所述的装置,其特征在于,所述第一信息为多个;
所述第一选择单元包括:
第二选择子单元,用于对于所述多个信息中的每一个第一信息,在所述第一信息包括的词汇中,按照重要程度由高至低的顺序选择至少一个候选词汇;
第五获取子单元,用于获取每一个候选词汇分别在所述多个第一信息中的出现频率;
第三选择子单元,用于按照所述出现频率由高至低的顺序,在多个候选词汇中选择至少一个候选词汇,并作为所述关键词。
16.根据权利要求9所述的装置,其特征在于,所述生成模块包括:
生成单元,用于根据所述关键词以及文本生成模型生成多个候选文本;
第三获取单元,用于获取所述多个候选文本中的各个候选文本分别与所述第二信息之间的主题相关度;
第二选择单元,用于按照与所述第二信息之间的主题相关度由高至低的顺序,在所述多个候选文本中选择一个候选文本,并作为所述摘要文本。
17.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1-8任一项所述的信息处理方法。
18.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8任一项所述的信息处理方法。
CN202011312673.2A 2020-11-20 2020-11-20 一种信息处理方法及装置 Active CN112364155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011312673.2A CN112364155B (zh) 2020-11-20 2020-11-20 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011312673.2A CN112364155B (zh) 2020-11-20 2020-11-20 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN112364155A true CN112364155A (zh) 2021-02-12
CN112364155B CN112364155B (zh) 2024-05-31

Family

ID=74533073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011312673.2A Active CN112364155B (zh) 2020-11-20 2020-11-20 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN112364155B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080081512A (ko) * 2007-03-05 2008-09-10 삼성전자주식회사 디지털 방송 프로그램의 알림 메시지 제공 방법 및 장치
CN104182549A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种电子邮件摘要生成方法及装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
KR20160023567A (ko) * 2014-08-21 2016-03-03 삼성전자주식회사 요약된 콘텐트를 사용자에게 제공하기 위한 방법 및 장치
CN106331328A (zh) * 2016-08-17 2017-01-11 北京小米移动软件有限公司 信息提示的方法及装置
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN107220386A (zh) * 2017-06-29 2017-09-29 北京百度网讯科技有限公司 信息推送方法和装置
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质
US20180167347A1 (en) * 2016-12-13 2018-06-14 Google Inc. Methods, systems, and media for generating a notification in connection with a video content item
CN108363697A (zh) * 2018-03-08 2018-08-03 腾讯科技(深圳)有限公司 文本信息生成方法、装置、存储介质及设备
US20190012377A1 (en) * 2017-07-05 2019-01-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating text tag
CN109190024A (zh) * 2018-08-20 2019-01-11 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110162778A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 文本摘要的生成方法及装置
CN110750708A (zh) * 2018-07-23 2020-02-04 北京字节跳动网络技术有限公司 关键词推荐方法、装置和电子设备
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
KR102158352B1 (ko) * 2020-03-27 2020-09-21 (주)케이엔랩 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
CN111881339A (zh) * 2020-06-05 2020-11-03 百度在线网络技术(北京)有限公司 资源信息的推送、通知方法、装置、电子设备及存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080081512A (ko) * 2007-03-05 2008-09-10 삼성전자주식회사 디지털 방송 프로그램의 알림 메시지 제공 방법 및 장치
KR20160023567A (ko) * 2014-08-21 2016-03-03 삼성전자주식회사 요약된 콘텐트를 사용자에게 제공하기 위한 방법 및 장치
CN104182549A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种电子邮件摘要生成方法及装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN106331328A (zh) * 2016-08-17 2017-01-11 北京小米移动软件有限公司 信息提示的方法及装置
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
US20180167347A1 (en) * 2016-12-13 2018-06-14 Google Inc. Methods, systems, and media for generating a notification in connection with a video content item
CN107220386A (zh) * 2017-06-29 2017-09-29 北京百度网讯科技有限公司 信息推送方法和装置
US20190005121A1 (en) * 2017-06-29 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for pushing information
US20190012377A1 (en) * 2017-07-05 2019-01-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating text tag
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质
CN108363697A (zh) * 2018-03-08 2018-08-03 腾讯科技(深圳)有限公司 文本信息生成方法、装置、存储介质及设备
CN110750708A (zh) * 2018-07-23 2020-02-04 北京字节跳动网络技术有限公司 关键词推荐方法、装置和电子设备
CN109190024A (zh) * 2018-08-20 2019-01-11 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110162778A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 文本摘要的生成方法及装置
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
KR102158352B1 (ko) * 2020-03-27 2020-09-21 (주)케이엔랩 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
CN111881339A (zh) * 2020-06-05 2020-11-03 百度在线网络技术(北京)有限公司 资源信息的推送、通知方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李方馨 等: "中文微博自动文摘生成方法", 《软件导刊》, vol. 15, no. 05, 15 May 2016 (2016-05-15), pages 160 - 162 *

Also Published As

Publication number Publication date
CN112364155B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN106446054B (zh) 一种信息推荐方法、装置及电子设备
CN107315487B (zh) 一种输入处理方法、装置及电子设备
CN110691268B (zh) 一种消息发送方法、装置、服务器、移动终端及存储介质
CN112445970B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111046210B (zh) 一种信息推荐方法、装置和电子设备
CN112291614A (zh) 一种视频生成方法及装置
CN106777016B (zh) 基于即时通信进行信息推荐的方法及装置
CN113901241B (zh) 页面展示方法、装置、电子设备及存储介质
CN107402767B (zh) 显示推送消息的方法和装置
CN112131466A (zh) 群组展示方法、装置、系统和存储介质
CN104636476B (zh) 推荐好友的方法及装置
CN112685641B9 (zh) 一种信息处理方法及装置
CN113343028B (zh) 意图确定模型的训练方法和装置
CN111246255B (zh) 视频推荐方法、装置、存储介质、终端及服务器
CN112988956B (zh) 自动生成对话的方法及装置、信息推荐效果检测方法及装置
CN112364155B (zh) 一种信息处理方法及装置
CN114676308A (zh) 搜索词推荐方法、装置、电子设备、存储介质及产品
CN111382566B (zh) 一种站点主题的确定方法、装置和电子设备
CN113128181A (zh) 一种信息处理方法及装置
CN112364247B (zh) 一种信息处理方法及装置
CN112241486A (zh) 多媒体信息获取方法及装置
CN111339263A (zh) 一种信息推荐方法、装置和电子设备
CN115484471B (zh) 主播推荐方法及装置
CN111666436B (zh) 一种数据处理方法、装置和电子设备
CN112765346B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant