CN107885888A - 信息处理方法及装置、终端设备以及计算机可读存储介质 - Google Patents

信息处理方法及装置、终端设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN107885888A
CN107885888A CN201711308818.XA CN201711308818A CN107885888A CN 107885888 A CN107885888 A CN 107885888A CN 201711308818 A CN201711308818 A CN 201711308818A CN 107885888 A CN107885888 A CN 107885888A
Authority
CN
China
Prior art keywords
entry
key term
candidate
determined text
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711308818.XA
Other languages
English (en)
Inventor
李跃洲
孙志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711308818.XA priority Critical patent/CN107885888A/zh
Publication of CN107885888A publication Critical patent/CN107885888A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息处理方法、信息处理装置、终端设备以及计算机存储介质。该信息处理方法包括:从预定文本中获取多个候选词条;据各个所述候选词条的词条属性,从所述多个候选词条中确定所述预定文本的关键词条;以及基于用户属性信息对所述关键词条进行选择,以将存储在预定数据库中的、与所选择的关键词条对应的详细信息呈现给用户。根据本发明的信息处理方法、信息处理装置、终端设备以及计算机存储介质至少能够使阅读文章的用户更有效地获得其所需要的关键词条的详细信息。

Description

信息处理方法及装置、终端设备以及计算机可读存储介质
技术领域
本发明涉及文本信息处理领域,尤其涉及一种在用户阅读文章时为用户提供关键词的详细信息的信息处理方法、信息处理装置、终端设备以及计算机可读存储介质。
背景技术
随着互联网的普及,人们越来越多地通过阅读互联网上刊载的文章来获取信息。网络文章(如Feed流文章)通常内容生动,事件性、故事性更强。为了保证文章的连贯性,在网络文章中通常不会对文章主体或较为生僻实体(例如,专有名词、名人、历史事件、植物、动物、武器等)做详细描述。而为了让用户在阅读文章之余,能够便捷地获取对于文章主体的详细信息和/或专业知识,从而更加深入和全面地了解文章内容,需要一种能够使得用户在阅读网络文章时获得关于文章中关键词条的详细信息的信息处理方法和装置。
发明内容
本发明实施例提供一种信息处理方法、信息处理装置、终端设备以及计算机可读存储介质,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种信息处理方法,包括:从预定文本中获取多个候选词条;根据各个所述候选词条的词条属性,从所述多个候选词条中确定所述预定文本的关键词条;以及基于用户属性信息对所述关键词条进行选择,以将存储在预定数据库中的、与所选择的关键词条对应的详细信息呈现给用户。
第二方面,本发明实施例提供了一种信息处理装置,包括:获取单元,用于从预定文本中获取多个候选词条;确定单元,用于根据各个所述候选词条的词条属性,从所述多个候选词条中确定所述预定文本的关键词条;以及选择单元,用于基于用户属性信息对所述关键词条进行选择,以将存储在预定数据库中的、与所选择的关键词条对应的详细信息呈现给用户。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
第三方面,本发明实施例提供了一种终端设备,所述终端设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的信息处理方法。所述终端设备还可以包括通信接口,用于终端设备与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,其中,该程序被处理器执行时实现如上所述的信息处理方法。
上述技术方案中的一个技术方案至少具有如下优点或有益效果:能够使阅读文章的用户更有效地获得其所需要的关键词条的详细信息。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为根据本发明一个实施例的信息处理方法的示例性流程图。
图2示出了根据本发明实施例的从预定文本获取候选词条的一种示例性处理。
图3示例性示出了示出了根据本发明实施例的基于候选词条的词条属性、从所述多个候选词条中确定所述预定文本的关键词条的一种示例性处理。
图4示出了根据本发明实施例的基于候选词条的词条属性、从所述多个候选词条中确定所述预定文本的关键词条的另一种示例性处理。
图5示出了根据本发明实施例的一种信息处理装置的示例性结构。
图6示出了根据本发明实施例的一种终端设备的示例性结构。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例提供一种信息处理方法,以便用户在阅读文章时能够个性化地获取关于文章中的关键词条的详细信息。
图1是根据本发明一个实施例的信息处理方法的示例性流程图。
如图1所示,根据本发明一个实施例的信息处理方法包括以下步骤:
在步骤S101,从预定文本中获取多个候选词条;
在步骤S102,根据各个所述候选词条的词条属性,从所述多个候选词条中确定所述预定文本的关键词条;以及
在步骤S103,基于用户属性信息对所述关键词条进行选择,以将存储在预定数据库中的、与所选择的关键词条对应的详细信息呈现给用户。
根据本发明的实施例,预定文本例如可以是用户想要浏览的文章、如Feed流文章。在步骤S101,例如可以通过对预定文本进行文本分析,来获取候选词条。
根据本发明的实施例,与关键词条对应的详细信息可以包括对于该关键词条的解释信息、说明信息和/或专业信息等,用户通过详细信息可以了解对于该关键词条的更详尽的说明,从而有助于用户理解包括该关键词条的文章。。
图2示出了根据本发明实施例的从预定文本获取候选词条的一种示例性处理。
如图2所示,从预定文本获取多个候选词条包括:在步骤S1011,对所述预定文本进行文本分析,从而获取预定文本中的实体词条;以及在步骤S1012,将所述实体词条与所述预定数据库中存储的词条进行匹配,以获取相匹配的实体词条作为所述候选词条。
根据本发明的实施例,在步骤S1011,可以使用现有技术中已知的任何方法对预定文本进行文本分析,例如可以使用现有技术中已知的命名实体识别技术(如,百度命名实体识别、StanfordNLP、哈工大的LTP等)对文章进行句法分析、即切词,从而得到文章中实体词条、例如人名、地名、机构名、专有名词等。上述文本分析方法是本领域公知的,在此省略了对其具体处理的详细描述。
在获得了实体词条之后,在步骤S1012,例如可以通过将每个实体词条与预定数据库中存储的词条进行匹配,从而将与数据库中存储的词条相对应的实体词条作为候选词条。根据本发明的实施例,预定数据库可以是关联地存储有实体词条及其详细信息的专业数据库。例如,预定数据库可以是百度百科数据库、维基百科数据库等等。
根据本发明的实施例,在步骤S1012,可以将在步骤S1011获得的实体词条中的、与预定数据库中存储的词条相匹配的每个实体词条作为候选词条,从而形成候选词条集合。也就是说,根据本公开的实施例,候选词条集合可以包括在预定数据库中存储有其详细信息的多个实体词条。
虽然以上描述了通过上述步骤S1011、S1012获取候选词条,但是本发明不限于此,例如也可以直接获取通过对文章进行文本分析而获得的所有实体词条作为候选词条。
在通过步骤S101获取的多个候选词条中,很多并非预定文本中的主要描述对象,其对于理解预定文本的内容可能不具有实际意义。为了更准确地辅助用户理解其所阅读的预定文本的内容,根据本发明的实施例,在获取了候选词条之后,可以在步骤S102,基于候选词条的词条属性,从多个候选词条中确定预定文本的关键词条。
图3示出了根据本发明实施例的基于候选词条的词条属性、从所述多个候选词条中确定所述预定文本的关键词条的一种示例性处理。
如图3所示,从所述多个候选词条中确定所述预定文本的关键词条可以包括:在步骤S1021,根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及在步骤S1022,将所述词条重要度大于第一阈值的候选词条确定为所述预定文本的关键词条。
根据本发明的实施例,候选词条的词条属性例如可以包括:候选词条在所述预定文本中的词频、档频、候选词条在所述预定文本中的位置至少其中之一。
候选词条的词频(TF)是指候选词条在预定文本中出现的次数。
候选词条的档频(DF)是用于衡量词条是否常见,其例如可以通过该候选词条在文本数据库中存储的文档中出现的频率来确定。
候选词条在预定文本中的位置是指候选词条出现在文章中的位置。例如可以通过确定以下参数至少其中之一来量化候选词条在预定文本中的位置,参数包括但不限于:候选词条是出现在预定文本的标题中、还是正文中,候选词条在正文的段落中的位置,候选词条在预定文本的所有段落中的占比等。例如,可以通过对上述参数进行加权组合来量化候选词条在预定文本中的位置。根据上述参数确定候选词条在预定文本中的位置时的权重可以根据需要而任意确定。
根据本发明的实施例,可以使用现有技术中已知的任意方法来获取候选词条的词条属性,包括但不限于:候选词条的词频、候选词条的档频和/或候选词条在预定文本中的位置。
在获取了候选词条的各个候选词条的词条属性之后,在步骤S1021,可以针对每个候选词条,根据候选词条的词条属性计算所述候选词条的词条重要度。
根据本发明的一个实施例,可以通过建立预估模型(如GBDT模型),利用该预估模型计算候选词条的词条重要度。例如,在词条属性包括例如候选词条的词频、候选词条的档频和/或候选词条在预定文本中的位置中的至少两个参数的情况下,可以对这些参数进行加权组合来确定候选词条的词条重要度。各个参数对应的权重可以根据经验获得,也可以基于已有数据在训练预估模型时通过深度学习确定。
可以基于候选词条的词条重要度来确定预定文本中的关键词。根据本发明的一个实施例,在步骤S1021,可以通过针对词条重要度设定预定阈值,对候选词条进行过滤,以获取预定文本的关键词条。根据本发明的一个实施例,可以将词条重要度大于第一阈值的候选词条确定为所述预定文本的关键词条。
以上描述了从多个候选词条中确定所述预定文本的关键词条的一种示例性处理,但是本发明不限于此。考虑到文章作者对于文章的理解更为准确,因此例如也可以通过引入文章作者的意见,实现对预定文本的关键词条的确定。
图4示出了根据本发明实施例的基于候选词条的词条属性、从所述多个候选词条中确定所述预定文本的关键词条的另一种示例性处理。
如图4所示,从所述多个候选词条中确定所述预定文本的关键词条可以包括:在步骤S1023,根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及在步骤S1024,由所述预定文本的作者从词条重要度大于第二阈值的候选词条中选择所述预定文本的关键词条。
通过步骤S1023计算候选词条的词条重要度的处理与上述参照图3描述的步骤S1021的处理类似,在此不再对其进行详细描述。
在获得了候选词条的重要度之后,可以在步骤S1024,从多个候选词条中确定词条重要度大于第二阈值的候选词条,然后由预定文本的作者从所确定的词条重要度大于第二阈值的候选词条中选择预定文本的关键词条。通过设定第二阈值,可以过滤掉一部分候选词条,并从剩余的候选词条中由作者根据其理解选择出关键词条。
上述第一阈值和第二阈值可以例如基于用户需求而设定。第一阈值和第二阈值可以被设定为相同或不同的值。根据本发明的优选实施例,例如可以将第二阈值设置为小于第一阈值。
通过将确定候选词条的词条重要度从而过滤掉一部分候选词条的处理与作者根据其理解的对剩余候选词条进一步选择的处理相结合,能够更准确地确定预定文本的关键词条。
由于每个用户的对于同一事物的认知不尽相同,如果直接将在步骤S102获取的所有关键词条的详细信息提供给用户,可能并不能使用户方便地获取其所想了解的信息。例如用户A可能对关键词条X很熟悉,因此无需进一步了解关键词条X的详细解释信息;而对于同一关键词条X用户B并不了解,因此希望进一步获取关键词条B的详细解释信息。基于此,根据本发明的信息处理方法可以根据用户属性,在通过步骤S102获取的预定文本的关键词条中进行选择,以将更符合用户认知的关键词条的详细信息推荐给用户。
根据本发明,在步骤S103基于用户属性信息对所述关键词条进行选择,以将存储在预定数据库中的、与所选择的关键词条对应的详细信息呈现给用户
用户属性信息例如可以通过用户在以往阅读网络文章时积累的标签来获得。例如,可以对在用户以往阅读网络文章的历史中的、用户点击行为和/或用户搜索行为进行统计来获取相对应的标签,从而基于该标签确定用户属性信息,例如可以使得用户属性信息包括该标签。例如,如果用户经常阅读的文章或搜索的关键词对应于某一个或多个标签,则表明其对该标签所对应的领域越了解,从而对于该标签对应的多个关键词条越了解。根据本发明的一个实施例,用户属性信息除了可以包括上述标签之外,还可以包括标签被搜索或点击的次数,从而通过统计标签被搜索或点击的次数,获知用户对该标签对应的关键词条的熟悉程度。但是本公开不限于此,例如用户属性信息还可以通过用户在如访问特定网站时、对于该网站提供的关于用户属性的标签的选择来获取。
根据本发明的一个实施例,可以基于用户经常阅读或搜索过的标签和/或查询次数,获知用户对该标签对应的多个关键词是否熟悉。当用户阅读文章时,通过将用户属性信息中的标签与预定文本的关键词条进行匹配,从而选择用户更可能希望了解的关键词条,将与该关键词条对应的详细信息推荐给用户。
在获取了用户属性信息之后,在步骤S103,可以基于所述用户属性信息与所述关键词条的匹配度,对所述关键词条进行选择。例如,对用户属性信息中包括的标签与在步骤S102中确定的用于预定文本的关键词条进行匹配,并选择相匹配的关键词条以将存储在预定数据库中的、与该关键词条相对应的详细信息提供给用户。
根据本发明的一个实施例,例如还可以基于用户属性信息与关键词条的匹配,对在步骤S102中确定的预定文本的关键词条进行排序,从而可以将更可能为所述用户需要了解的关键词条排序在前,而将用户已经熟悉的关键词条排序在后。例如可以通过用户对于该关键词条的点击次数和查询次数等,在排序时为该关键词条赋予权重。例如,对于用户点击和查询次数较低的关键词条,可以理解为其不为用户所熟知,从而可以为该关键词条赋予较高的权重,使得其排序在靠前的位置,从而可以将其在预定数据库中对应的解释信息优先呈现给用户。
此外,对于有些词条,其在预定数据库中可能对应多条详细信息,例如对于词条“李白”,其在百度百科数据库中有多达17条不同的详细信息。为了选择出与用户所阅读的文章更匹配的关键词条的详细信息,根据本发明的实施例,可以根据所述关键词条在所述预定数据库中的详细信息与所述预定文本的相关度,对与所述关键词条对应的所述多条详细信息进行消歧,以便基于用户属性信息,将消歧后的关键词条所对应的详细信息呈现给用户。
更具体地,例如,可以通过计算预定文本的正文主题向量(LDA)与预定数据库中存储的关键词条的详细信息的主题向量(LDA)的余弦相似度、预定文本的分类与该详细信息分类的向量余弦相似度、预定文本的正文名词与详细信息的正文名词重合度等来确定该详细信息与预定文本的相关度至少其中之一来确定所述关键词条在所述预定数据库中的详细信息与所述预定文本的相关度对关键词条的详细信息进行消歧,从而可以筛选出更符合文章内容的关键词条的详细信息,来呈现给用户。
本发明实施例还提供一种信息处理装置,如图5所示,该信息处理装置6包括:获取单元10,用于从预定文本中获取多个候选词条;确定单元20,用于根据各个所述候选词条的词条属性,从所述多个候选词条中确定所述预定文本的关键词条;以及选择单元30,用于基于用户属性信息对所述关键词条进行选择,并且将存储在预定数据库中的、与所选择的关键词条对应的解释信息呈现给用户。
根据本发明的一个实施例,获取单元10可以包括:文本分析子单元,用于对所述预定文本进行切词,从而获取预定文本中的实体词条;以及匹配子单元,用于将所述实体词条与所述预定数据库中存储的词条进行匹配,以获取相匹配的实体词条作为所述候选词条。
根据本发明的一个实施例,候选词条的词条属性可以包括:候选词条在所述预定文本中的词频、档频、候选词条在所述预定文本中的位置至少其中之一。
根据本发明的一个实施例,确定单元20可以包括:计算子单元,用于根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及确定子单元,用于将所述词条重要度大于第一阈值的候选词条确定为所述预定文本的关键词条。
根据本发明的另一个实施例,确定单元20可以包括:计算子单元,用于根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及确定子单元,用于由所述预定文本的作者从所述词条重要度大于第二阈值的候选词条中确定所述预定文本的关键词条。
根据本发明的一个实施例,所述用户属性信息基于用户在阅读文章时的历史点击行为、历史搜索行为至少其中之一而获取,其中,所述选择单元被配置为将所述用户属性信息与所述关键词条的匹配,以基于所述匹配对所述关键词条进行选择。
根据本公开的一个实施例,所述选择单元还配置为根据所述关键词条在所述预定数据库中的详细信息与所述预定文本的相关度,对与所述关键词条对应的所述多条详细信息进行消歧。
根据本发明的实施例,获取单元10、确定单元20、选择单元30、文本分析子单元、匹配子单元、计算子单元、确定子单元的处理例如可以参照图1-4描述的步骤S101、S102、S103以及S1011、S1012、S1021-S1024的处理,在此不再赘述。
本发明实施例还提供一种终端设备,如图6所示,该终端设备包括:存储器21和处理器22,存储器21内存储有可在处理器22上运行的计算机程序。处理器22执行所述计算机程序时实现上述实施例中的信息处理方法。存储器21和处理器22的数量可以为一个或多个。
该终端设备还包括:通信接口23,用于存储器21和处理器22之间的通信。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器21、处理器22和通信接口23独立实现,则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23集成在一块芯片上,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
根据本发明的终端设备例如可以是手机、个人计算机、笔记本电脑、平板电脑等终端设备。
本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如上所述的信息处理方法。
根据本发明实施例的信息处理装置、信息处理方法、终端设备以及存储介质相比现有技术至少具有以下优点之一:能够使阅读文章的用户更有效地获得其所需要的关键词条的详细信息,从而扩大了用户的知识面,使得其能够在阅读文章同时获得更深入、更全面的信息,并且这些关键词条的详细信息能够对作者文章内容提供有力支撑,使作者在撰写文章时无需对这些关键词条做更多的背景介绍,从而使得文章具有更好的连贯性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种信息处理方法,包括:
从预定文本中获取多个候选词条;
根据各个所述候选词条的词条属性,从所述多个候选词条中确定所述预定文本的关键词条;以及
基于用户属性信息对所述关键词条进行选择,以将存储在预定数据库中的、与所选择的关键词条对应的详细信息呈现给用户。
2.根据权利要求1所述的信息处理方法,其中,从预定文本获取多个候选词条包括:
对所述预定文本进行文本分析,从而获取预定文本中的实体词条;以及
将所述实体词条与所述预定数据库中存储的词条进行匹配,以获取相匹配的实体词条作为所述候选词条。
3.根据权利要求1或2所述的信息处理方法,其中,所述候选词条的词条属性包括:候选词条在所述预定文本中的词频、档频、候选词条在所述预定文本中的位置至少其中之一。
4.根据权利要求1-3中任一项所述的信息处理方法,其中,从所述多个候选词条中确定所述预定文本的关键词条包括:
根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及
将所述词条重要度大于第一阈值的候选词条确定为所述预定文本的关键词条。
5.根据权利要求1-3中任一项所述的信息处理方法,其中,从所述多个候选词条中确定所述预定文本的关键词条包括:
根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及
由所述预定文本的作者从词条重要度大于第二阈值的候选词条中选择所述预定文本的关键词条。
6.根据权利要求1-5中任一项所述的信息处理方法,其中,所述用户属性信息基于用户在阅读文章时的历史点击行为、历史搜索行为至少其中之一而确定,
其中,基于用户属性信息对所述关键词条进行选择包括将所述用户属性信息与所述关键词条进行匹配,以基于所述匹配对所述关键词条进行选择。
7.根据权利要求1-6中任一项所述的信息处理方法,其中,基于用户属性信息对所述关键词条进行选择包括:根据所述关键词条在所述预定数据库中的详细信息与所述预定文本的相关度,对所述预定数据库中存储的、与所述关键词条对应的多条详细信息进行消歧,以便基于所述用户属性信息、对消歧后的关键词条进行选择。
8.一种信息处理装置,包括:
获取单元,用于从预定文本中获取多个候选词条;
确定单元,用于根据各个所述候选词条的词条属性,从所述多个候选词条中确定所述预定文本的关键词条;以及
选择单元,用于基于用户属性信息对所述关键词条进行选择,以将存储在预定数据库中的、与所选择的关键词条对应的详细信息呈现给用户。
9.根据权利要求8所述的信息处理装置,其中,所述获取单元包括:
文本分析子单元,用于对所述预定文本进行文本分析,从而获取预定文本中的实体词条;以及
匹配子单元,用于将所述实体词条与所述预定数据库中存储的词条进行匹配,以获取相匹配的实体词条作为所述候选词条。
10.根据权利要求8或9所述的信息处理装置,其中,所述候选词条的词条属性包括:候选词条在所述预定文本中的词频、档频、候选词条在所述预定文本中的位置至少其中之一。
11.根据权利要求8-10中任一项所述的信息处理装置,其中,所述确定单元包括:。
计算子单元,用于根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及
确定子单元,用于将所述词条重要度大于第一阈值的候选词条确定为所述预定文本的关键词条。
12.根据权利要求8-10中任一项所述的信息处理装置,其中,所述确定单元包括:。
计算子单元,用于根据所述候选词条的词条属性计算所述候选词条的词条重要度;以及
确定子单元,用于由所述预定文本的作者从所述词条重要度大于第二阈值的候选词条中确定所述预定文本的关键词条。
13.根据权利要求8-12中任一项所述的信息处理装置,其中,所述用户属性信息基于用户在阅读文章时的历史点击行为、历史搜索行为至少其中之一而获取,
其中,所述选择单元被配置为将所述用户属性信息与所述关键词条的匹配,以基于所述匹配对所述关键词条进行选择。
14.根据权利要求8-13中任一项所述的信息处理方法,其中,所述选择单元还配置为根据所述关键词条在所述预定数据库中的详细信息与所述预定文本的相关度,对与所述关键词条对应的所述多条详细信息进行消歧。
15.一种终端设备,其特征在于,所述终端设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201711308818.XA 2017-12-11 2017-12-11 信息处理方法及装置、终端设备以及计算机可读存储介质 Pending CN107885888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711308818.XA CN107885888A (zh) 2017-12-11 2017-12-11 信息处理方法及装置、终端设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711308818.XA CN107885888A (zh) 2017-12-11 2017-12-11 信息处理方法及装置、终端设备以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN107885888A true CN107885888A (zh) 2018-04-06

Family

ID=61773412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711308818.XA Pending CN107885888A (zh) 2017-12-11 2017-12-11 信息处理方法及装置、终端设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107885888A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344386A (zh) * 2018-07-27 2019-02-15 阿里巴巴集团控股有限公司 文本内容标识方法、装置、设备及计算机可读存储介质
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110415828A (zh) * 2019-06-21 2019-11-05 深圳壹账通智能科技有限公司 一种基于数据分析的预检信息交互方法及相关设备
CN110765271A (zh) * 2018-07-09 2020-02-07 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN110807726A (zh) * 2019-11-12 2020-02-18 软通动力信息技术有限公司 一种上报事件处理方法、装置、设备及存储介质
CN110874359A (zh) * 2018-08-31 2020-03-10 阿里健康信息技术有限公司 药品详细用法信息的获取方法及装置
CN111563212A (zh) * 2020-04-28 2020-08-21 北京字节跳动网络技术有限公司 一种内链添加方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075840A2 (en) * 1999-06-08 2000-12-14 Scientific Learning Corporation Method for deducing level of interest in information structures via annotations
CN101216842A (zh) * 2008-01-07 2008-07-09 华为技术有限公司 获取页面关键词的方法及页面信息处理装置
CN101266608A (zh) * 2008-05-09 2008-09-17 魏新成 对电脑屏幕上显示的文本字符串进行在线搜索的方法
CN102314456A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 网页划词搜索方法及系统
CN103455524A (zh) * 2012-06-05 2013-12-18 北京搜狗信息服务有限公司 展现和获取词条信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075840A2 (en) * 1999-06-08 2000-12-14 Scientific Learning Corporation Method for deducing level of interest in information structures via annotations
CN101216842A (zh) * 2008-01-07 2008-07-09 华为技术有限公司 获取页面关键词的方法及页面信息处理装置
CN101266608A (zh) * 2008-05-09 2008-09-17 魏新成 对电脑屏幕上显示的文本字符串进行在线搜索的方法
CN102314456A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 网页划词搜索方法及系统
CN103455524A (zh) * 2012-06-05 2013-12-18 北京搜狗信息服务有限公司 展现和获取词条信息的方法和装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110162769B (zh) * 2018-07-05 2024-01-02 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110765271A (zh) * 2018-07-09 2020-02-07 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN110765271B (zh) * 2018-07-09 2024-02-09 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN109344386A (zh) * 2018-07-27 2019-02-15 阿里巴巴集团控股有限公司 文本内容标识方法、装置、设备及计算机可读存储介质
CN109344386B (zh) * 2018-07-27 2023-04-25 蚂蚁金服(杭州)网络技术有限公司 文本内容标识方法、装置、设备及计算机可读存储介质
CN110874359A (zh) * 2018-08-31 2020-03-10 阿里健康信息技术有限公司 药品详细用法信息的获取方法及装置
CN110874359B (zh) * 2018-08-31 2023-09-08 阿里健康信息技术有限公司 药品详细用法信息的获取方法及装置
CN110415828A (zh) * 2019-06-21 2019-11-05 深圳壹账通智能科技有限公司 一种基于数据分析的预检信息交互方法及相关设备
CN110415828B (zh) * 2019-06-21 2023-03-31 深圳壹账通智能科技有限公司 一种基于数据分析的预检信息交互方法及相关设备
CN110807726A (zh) * 2019-11-12 2020-02-18 软通动力信息技术有限公司 一种上报事件处理方法、装置、设备及存储介质
CN111563212A (zh) * 2020-04-28 2020-08-21 北京字节跳动网络技术有限公司 一种内链添加方法及装置

Similar Documents

Publication Publication Date Title
CN107885888A (zh) 信息处理方法及装置、终端设备以及计算机可读存储介质
CN104462364B (zh) 搜索推荐方法及装置
CN108984675B (zh) 基于评价的数据查询方法和装置
CN103902697B (zh) 组合搜索方法、客户端和服务器
CN104216965A (zh) 信息推荐方法和装置
CN108256044B (zh) 直播间推荐方法、装置及电子设备
CN109635077A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN109033075B (zh) 意图匹配的方法、装置、存储介质和终端设备
CN104391999A (zh) 信息推荐方法和装置
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN106062743A (zh) 用于关键字建议的系统和方法
CN108959453B (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
CN107958039A (zh) 一种检索词纠错方法、装置及服务器
CN108536803A (zh) 歌曲推荐方法、装置、设备及计算机可读介质
CN105117380A (zh) 粘贴处理方法及装置
CN106452809B (zh) 一种数据处理方法和装置
CN108681541A (zh) 图片搜索方法、装置及计算机设备
CN108133357A (zh) 一种人才推荐方法及计算设备
CN110516033A (zh) 一种计算用户偏好的方法和装置
CN109492082A (zh) 下拉词推荐方法、装置、电子设备及存储介质
KR101712291B1 (ko) 오피니언 마이닝을 기반으로 한 사용자 맞춤형 명소 정보 추천 시스템 및 구동 방법
CN109783740A (zh) 关注页面的排序方法及装置
CN108563648B (zh) 数据显示方法和装置、存储介质及电子装置
CN107748801A (zh) 新闻推荐方法、装置、终端设备及计算机可读存储介质
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180406