CN109344386A - 文本内容标识方法、装置、设备及计算机可读存储介质 - Google Patents

文本内容标识方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109344386A
CN109344386A CN201810847142.XA CN201810847142A CN109344386A CN 109344386 A CN109344386 A CN 109344386A CN 201810847142 A CN201810847142 A CN 201810847142A CN 109344386 A CN109344386 A CN 109344386A
Authority
CN
China
Prior art keywords
content
weight
key feature
text
content part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810847142.XA
Other languages
English (en)
Other versions
CN109344386B (zh
Inventor
马欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANT Financial Hang Zhou Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810847142.XA priority Critical patent/CN109344386B/zh
Publication of CN109344386A publication Critical patent/CN109344386A/zh
Application granted granted Critical
Publication of CN109344386B publication Critical patent/CN109344386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供文本内容标识方法、装置、设备及计算机可读存储介质。文本内容标识方法包括:根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,所述关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对所述多个内容部分中出现的关键特征做标记;根据所述预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识,可以使得阅读者不会遗漏关键信息,大大提高用户对文本内容的掌握。

Description

文本内容标识方法、装置、设备及计算机可读存储介质
技术领域
本公开实施例涉及计算机技术领域,尤其涉及文本内容标识方法、装置、设备及计算机可读存储介质。
背景技术
在日常生活中,人们通常会面临着阅读大量文本的情况,例如,阅读注意事项、产品手册、阅读法律协议等等。在一个文本中,有些内容对于用户是重要的,有一些内容则不那么重要。但是,由于内容太多或阅读上的不便,会导致阅读者无法直观分辨重要内容,遗漏一些关键信息,这可能带来对用户不利的后果。
例如,随着互联网的发展,人们在使用互联网相关的服务时,通常需要签署服务协议,但是一般情况下服务协议非常长且专业术语多。因为阅读时的不方便,导致用户签署协议前不阅读或者粗略浏览,因此用户可能会遗漏关键条款,从而泄露个人信息或造成其他损失。
发明内容
有鉴于此,本公开第一方面提供了一种文本内容标识方法,包括:
根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,所述关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;
根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对所述多个内容部分中出现的关键特征做标记;
根据所述预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;
输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识。
本公开第二方面提供了一种文本内容标识装置,包括:
确定模块,被配置为根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,所述关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;
划分模块,被配置为根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对所述多个内容部分中出现的关键特征做标记;
计算模块,被配置为根据所述预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;
输出模块,被配置为输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识。
本公开第三方面提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面所述的方法。
本公开第四方面提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面所述的方法。
在本公开实施方式中,通过根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,所述关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对所述多个内容部分中出现的关键特征做标记;根据所述预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识,可以将文本内容划分为多个内容部分并且计算内容部分中的关键特征的权重之和,进而来对内容部分进行标识和输出,因此使得阅读者能够容易的获知文本内容中的重要部分,不会遗漏关键信息,大大提高用户对文本内容的掌握。
本公开的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对示例性实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些示例性实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本公开一实施方式的文本内容标识方法的流程图;
图2示出根据本公开另一实施方式的文本内容标识装置的结构框图;
图3示出根据本公开一实施方式的设备的结构框图;
图4是适于用来实现根据本公开一实施方式的文本内容标识方法的计算机系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述。
在本公开的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。.
图1示出根据本公开一实施方式的文本内容标识方法的流程图。该方法可以包括步骤S101、S102、S103和S104。
在步骤S101中,根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,关键特征权重规则记录有为文本内容中的关键特征分配权重的规则。
在步骤S102中,根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对多个内容部分中出现的关键特征做标记。
在步骤S103中,根据预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和。
在步骤S104中,输出划分为多个内容部分的文本内容,其中,根据关键特征的权重之和对多个内容部分做出标识。
在本公开的一个实施例中,文本类别可以指的是注意事项、产品手册或法律协议等各种类别。
在本公开的一个实施例中,关键特征可以包括文本中的特定词汇、特定句式等特征。例如,特定词汇可以是“截止日”、“金额”、“个人信息”等。例如,特定句式可以是“在xxx个工作日内”、“您认可….许可第三方使用”等。
在本公开的一个实施例中,包括多个关键特征的关键特征序列的结构例如是:
关键特征序列{关键特征1,关键特征2,…,关键特征N}。
在本公开的一个实施例中,关键特征权重规则记录有为文本内容中的关键特征分配权重的规则。例如,关键特征权重规则记录有关键特征序列中的每一关键特征的权重、连续出现的多个关键特征的权重、与所属类别对应的关键特征的权重、跨类别的关键特征的权重中的至少之一。在本公开的一个实施例中,关键特征所属的类别包括隐私类、资金类、安全类、人身权利类、时间期限类、纠纷处理类和惩罚赔偿类中的至少之一。在本公开的一个实施例中,跨类别的关键特征指的是一个关键特征可以属于两个或更多个类别。
在本公开的一个实施例中,与文本类别对应的文本内容划分规则指的是与由于文本类别不同,文本内容划分规则也会有相应的不同。例如,当文本类别是注意事项时,注意事项通常是按照1、2、3…的事项顺序排列的,与注意事项对应的文本内容划分规则可以是按照每一条注意事项作为一个内容部分来划分文本内容。例如,当文本类别是产品手册时,在产品手册是按照产品部件撰写内容的情况下,与产品手册对应的文本内容划分规则可以是按照每一个产品部件的内容作为一个内容部分来划分文本内容。例如,当文本类别是法律协议时,法律协议通常是按照第一条、第二条、第三条…的顺序排列的,与注意事项对应的文本内容划分规则可以是按照每一法律协议条款作为一个内容部分来划分文本内容。
在本公开的一个实施例中,对多个内容部分中出现的关键特征做标记使得关键特征能够被识别和统计。
在本公开的一个实施例中,步骤S103包括:根据计算出的每一内容部分中的关键特征的权重之和对多个内容部分进行排序。
在本公开的一个实施例中,每一内容部分中的关键特征的权重之和也可以被称作是每一内容部分的权重,因此,可以根据每一内容部分的权重对文本内容中的各个内容部分进行排序。
在本公开的一个实施例中,步骤S104包括:根据多个内容部分进行的排序结果,输出划分为多个内容部分的文本内容。
在本公开的一个实施例中,对各个内容部分进行排序的方式可以权重大的内容部分在前,也可以是权重小的内容部分在前。在某些需要用户点击或执行特殊操作的情况下,由于在页面浏览文本内容时点击的按钮或执行特殊操作的入口在页面底部,因此,可以将权重小的内容部分排列在前(页面上部),将权重大的内容部分排列在后(页面底部)。这样可以方便用户浏览后直接操作以确定是否认可文本内容。
在本公开的一个实施例中,步骤S104包括:根据多个内容部分进行的排序结果,按照关键特征的权重之和大的内容部分在前的顺序输出划分为多个内容部分的文本内容。在页面浏览文本内容时,将权重大的内容部分排列在前(页面上部),将权重小的内容部分排列在后(页面底部),可以方便用户在进行浏览时直接浏览到权重大的内容部分,有利于用户按照内容部分的重要性的顺序掌握文本内容。
在本公开的一个实施例中,步骤S104包括:输出文本内容中关键特征的权重之和大于预设阈值的内容部分。
在本公开的一个实施例中,为了便于用户快速掌握文本内容中的重要部分,可以输出文本内容中关键特征的权重之和大于预设阈值的内容部分,而隐藏或不输出文本内容中关键特征的权重之和小于等于预设阈值的内容部分。在本公开的实施例中,可以将输出文本内容中关键特征的权重之和大于预设阈值的内容部分与前述的根据多个内容部分进行的排序结果,输出划分为多个内容部分的文本内容相结合。即,根据多个内容部分进行的排序结果,输出文本内容中关键特征的权重之和大于预设阈值的内容部分。
本领域技术人员可以理解,可以根据需要设置预设阈值。
在本公开的一个实施例中,根据关键特征的权重之和对多个内容部分做出的标识包括内容部分上附加有特定标志、内容部分的字体大小、内容部分的字体颜色、内容部分的动画效果中的至少之一。根据关键特征的权重之和对多个内容部分做出的标识能够帮助用户分辨内容部分的重要性,以便于用户快速、准确地掌握文本内容。
在本公开实施方式中,通过根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对多个内容部分中出现的关键特征做标记;根据预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;输出划分为多个内容部分的文本内容,其中,根据关键特征的权重之和对多个内容部分做出标识,可以将文本内容划分为多个内容部分并且计算内容部分中的关键特征的权重之和,进而来对内容部分进行标识和输出,因此使得阅读者能够容易的获知文本内容中的重要部分,不会遗漏关键信息,大大提高用户对文本内容的掌握。
图2示出根据本公开一实施方式的文本内容标识装置的结构框图。该装置可以包括确定模块201、划分模块202、计算模块203和输出模块204。
确定模块201被配置为根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,关键特征权重规则记录有为文本内容中的关键特征分配权重的规则。
划分模块202被配置为根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对多个内容部分中出现的关键特征做标记。
计算模块203被配置为根据预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和。
输出模块204被配置为输出划分为多个内容部分的文本内容,其中,根据关键特征的权重之和对多个内容部分做出标识。
在本公开的一个实施例中,文本类别可以指的是注意事项、产品手册或法律协议等各种类别。
在本公开的一个实施例中,关键特征可以包括文本中的特定词汇、特定句式等特征。例如,特定词汇可以是“截止日”、“金额”、“个人信息”等。例如,特定句式可以是“在xxx个工作日内”、“您认可….许可第三方使用”等。
在本公开的一个实施例中,包括多个关键特征的关键特征序列的结构例如是:
关键特征序列{关键特征1,关键特征2,…,关键特征N}。
在本公开的一个实施例中,关键特征权重规则记录有为文本内容中的关键特征分配权重的规则。例如,关键特征权重规则记录有关键特征序列中的每一关键特征的权重、连续出现的多个关键特征的权重、与所属类别对应的关键特征的权重、跨类别的关键特征的权重中的至少之一。在本公开的一个实施例中,关键特征所属的类别包括隐私类、资金类、安全类、人身权利类、时间期限类、纠纷处理类和惩罚赔偿类中的至少之一。在本公开的一个实施例中,跨类别的关键特征指的是一个关键特征可以属于两个或更多个类别。
在本公开的一个实施例中,与文本类别对应的文本内容划分规则指的是与由于文本类别不同,文本内容划分规则也会有相应的不同。例如,当文本类别是注意事项时,注意事项通常是按照1、2、3…的事项顺序排列的,与注意事项对应的文本内容划分规则可以是按照每一条注意事项作为一个内容部分来划分文本内容。例如,当文本类别是产品手册时,在产品手册是按照产品部件撰写内容的情况下,与产品手册对应的文本内容划分规则可以是按照每一个产品部件的内容作为一个内容部分来划分文本内容。例如,当文本类别是法律协议时,法律协议通常是按照第一条、第二条、第三条…的顺序排列的,与注意事项对应的文本内容划分规则可以是按照每一法律协议条款作为一个内容部分来划分文本内容。
在本公开的一个实施例中,对多个内容部分中出现的关键特征做标记使得关键特征能够被识别和统计。
在本公开的一个实施例中,计算模块203被配置为:根据计算出的每一内容部分中的关键特征的权重之和对多个内容部分进行排序。
在本公开的一个实施例中,每一内容部分中的关键特征的权重之和也可以被称作是每一内容部分的权重,因此,可以根据每一内容部分的权重对文本内容中的各个内容部分进行排序。
在本公开的一个实施例中,输出模块204被配置为:根据多个内容部分进行的排序结果,输出划分为多个内容部分的文本内容。
在本公开的一个实施例中,对各个内容部分进行排序的方式可以权重大的内容部分在前,也可以是权重小的内容部分在前。在某些需要用户点击或执行特殊操作的情况下,由于在页面浏览文本内容时点击的按钮或执行特殊操作的入口在页面底部,因此,可以将权重小的内容部分排列在前(页面上部),将权重大的内容部分排列在后(页面底部)。这样可以方便用户浏览后直接操作以确定是否认可文本内容。
在本公开的一个实施例中,输出模块204被配置为:根据多个内容部分进行的排序结果,按照关键特征的权重之和大的内容部分在前的顺序输出划分为多个内容部分的文本内容。在页面浏览文本内容时,将权重大的内容部分排列在前(页面上部),将权重小的内容部分排列在后(页面底部),可以方便用户在进行浏览时直接浏览到权重大的内容部分,有利于用户按照内容部分的重要性的顺序掌握文本内容。
在本公开的一个实施例中输出模块204被配置为:输出文本内容中关键特征的权重之和大于预设阈值的内容部分。
在本公开的一个实施例中,为了便于用户快速掌握文本内容中的重要部分,可以输出文本内容中关键特征的权重之和大于预设阈值的内容部分,而隐藏或不输出文本内容中关键特征的权重之和小于等于预设阈值的内容部分。在本公开的实施例中,可以将输出文本内容中关键特征的权重之和大于预设阈值的内容部分与前述的根据多个内容部分进行的排序结果,输出划分为多个内容部分的文本内容相结合。即,根据多个内容部分进行的排序结果,输出文本内容中关键特征的权重之和大于预设阈值的内容部分。
本领域技术人员可以理解,可以根据需要设置预设阈值。
在本公开的一个实施例中,根据关键特征的权重之和对多个内容部分做出的标识包括内容部分上附加有特定标志、内容部分的字体大小、内容部分的字体颜色、内容部分的动画效果中的至少之一。根据关键特征的权重之和对多个内容部分做出的标识能够帮助用户分辨内容部分的重要性,以便于用户快速、准确地掌握文本内容。
在本公开实施方式中,通过确定模块,被配置为根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;划分模块,被配置为根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对多个内容部分中出现的关键特征做标记;计算模块,被配置为根据预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;输出模块,被配置为输出划分为多个内容部分的文本内容,其中,根据关键特征的权重之和对多个内容部分做出标识,可以将文本内容划分为多个内容部分并且计算内容部分中的关键特征的权重之和,进而来对内容部分进行标识和输出,因此使得阅读者能够容易的获知文本内容中的重要部分,不会遗漏关键信息,大大提高用户对文本内容的掌握。
以上描述了文本内容标识装置的内部功能和结构,在一个可能的设计中,该文本内容标识装置的结构可实现为文本内容标识设备,如图3中所示,该处理设备300可以包括处理器301以及存储器302。
所述存储器302用于存储支持文本内容标识装置执行上述任一实施例中文本内容标识方法的程序,所述处理器301被配置为用于执行所述存储器302中存储的程序。
所述存储器302用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器301执行。
所述处理器301用于执行前述各方法步骤中的全部或部分步骤。
其中,所述文本内容标识设备的结构中还可以包括通信接口,用于文本内容标识设备与其他设备或通信网络通信。
本公开示例性实施例还提供了一种计算机存储介质,用于储存所述文本内容标识装置所用的计算机软件指令,其包含用于执行上述任一实施例中文本内容标识方法所涉及的程序。
图4是适于用来实现根据本公开一实施方式的文本内容标识方法的计算机系统的结构示意图。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行上述图1所示的实施方式中的各种处理。在RAM403中,还存储有系统400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施方式,上文参考图1描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1的数据处理方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,并且/或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (18)

1.一种文本内容标识方法,其特征在于,包括:
根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,所述关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;
根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对所述多个内容部分中出现的关键特征做标记;
根据所述预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;
输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和,包括:
根据计算出的每一内容部分中的关键特征的权重之和对所述多个内容部分进行排序。
3.根据权利要求2所述的方法,其特征在于,所述输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识,包括:
根据所述多个内容部分进行的排序结果,输出划分为所述多个内容部分的文本内容。
4.根据权利要求3所述的方法,其特征在于,所述输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识,包括:
根据所述多个内容部分进行的排序结果,按照关键特征的权重之和大的内容部分在前的顺序输出划分为所述多个内容部分的文本内容。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识,包括:
输出所述文本内容中关键特征的权重之和大于预设阈值的内容部分。
6.根据权利要求1所述的方法,其特征在于,所述关键特征权重规则记录有所述关键特征序列中的每一关键特征的权重、连续出现的多个关键特征的权重、与所属类别对应的关键特征的权重、跨类别的关键特征的权重中的至少之一。
7.根据权利要求6所述的方法,其特征在于,所述类别包括隐私类、资金类、安全类、人身权利类、时间期限类、纠纷处理类和惩罚赔偿类中的至少之一。
8.根据权利要求1所述的方法,其特征在于,根据所述关键特征的权重之和对所述多个内容部分做出的标识包括内容部分上附加有特定标志、内容部分的字体大小、内容部分的字体颜色、内容部分的动画效果中的至少之一。
9.一种文本内容标识装置,其特征在于,包括:
确定模块,被配置为根据文本类别确定预设的包括多个关键特征的关键特征序列以及预设的关键特征权重规则,其中,所述关键特征权重规则记录有为文本内容中的关键特征分配权重的规则;
划分模块,被配置为根据与文本类别对应的文本内容划分规则将文本内容划分为多个内容部分,并且对所述多个内容部分中出现的关键特征做标记;
计算模块,被配置为根据所述预设的关键特征权重规则,计算每一内容部分中的关键特征的权重之和;
输出模块,被配置为输出划分为所述多个内容部分的文本内容,其中,根据所述关键特征的权重之和对所述多个内容部分做出标识。
10.根据权利要求9所述的装置,其特征在于,所述计算模块被配置为:
根据计算出的每一内容部分中的关键特征的权重之和对所述多个内容部分进行排序。
11.根据权利要求10所述的装置,其特征在于,所述输出模块被配置为:
根据所述多个内容部分进行的排序结果,输出划分为所述多个内容部分的文本内容。
12.根据权利要求11所述的装置,其特征在于,所述输出模块被配置为:
根据所述多个内容部分进行的排序结果,按照关键特征的权重之和大的内容部分在前的顺序输出划分为所述多个内容部分的文本内容。
13.根据权利要求9-12任一项所述的装置,其特征在于,所述输出模块被配置为:
输出所述文本内容中关键特征的权重之和大于预设阈值的内容部分。
14.根据权利要求9所述的装置,其特征在于,所述关键特征权重规则记录有所述关键特征序列中的每一关键特征的权重、连续出现的多个关键特征的权重、与所属类别对应的关键特征的权重、跨类别的关键特征的权重中的至少之一。
15.根据权利要求14所述的装置,其特征在于,所述类别包括隐私类、资金类、安全类、人身权利类、时间期限类、纠纷处理类和惩罚赔偿类中的至少之一。
16.根据权利要求9所述的装置,其特征在于,根据所述关键特征的权重之和对所述多个内容部分做出的标识包括内容部分上附加有特定标志、内容部分的字体大小、内容部分的字体颜色、内容部分的动画效果中的至少之一。
17.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-8任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1-8任一项所述的方法。
CN201810847142.XA 2018-07-27 2018-07-27 文本内容标识方法、装置、设备及计算机可读存储介质 Active CN109344386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810847142.XA CN109344386B (zh) 2018-07-27 2018-07-27 文本内容标识方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810847142.XA CN109344386B (zh) 2018-07-27 2018-07-27 文本内容标识方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109344386A true CN109344386A (zh) 2019-02-15
CN109344386B CN109344386B (zh) 2023-04-25

Family

ID=65291215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810847142.XA Active CN109344386B (zh) 2018-07-27 2018-07-27 文本内容标识方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109344386B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310420A (zh) * 2020-03-17 2020-06-19 北京字节跳动网络技术有限公司 文本信息的处理方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065899A1 (en) * 2003-09-18 2005-03-24 Cong Li Data classification using stochastic key feature generation
US7836061B1 (en) * 2007-12-29 2010-11-16 Kaspersky Lab, Zao Method and system for classifying electronic text messages and spam messages
CN102446174A (zh) * 2010-10-09 2012-05-09 百度在线网络技术(北京)有限公司 一种在网络设备中用于确定关键子词权重的方法和设备
US20160179954A1 (en) * 2014-12-23 2016-06-23 Symantec Corporation Systems and methods for culling search results in electronic discovery
WO2017202125A1 (zh) * 2016-05-25 2017-11-30 华为技术有限公司 文本分类方法及装置
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质
CN107885888A (zh) * 2017-12-11 2018-04-06 北京百度网讯科技有限公司 信息处理方法及装置、终端设备以及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065899A1 (en) * 2003-09-18 2005-03-24 Cong Li Data classification using stochastic key feature generation
US7836061B1 (en) * 2007-12-29 2010-11-16 Kaspersky Lab, Zao Method and system for classifying electronic text messages and spam messages
CN102446174A (zh) * 2010-10-09 2012-05-09 百度在线网络技术(北京)有限公司 一种在网络设备中用于确定关键子词权重的方法和设备
US20160179954A1 (en) * 2014-12-23 2016-06-23 Symantec Corporation Systems and methods for culling search results in electronic discovery
WO2017202125A1 (zh) * 2016-05-25 2017-11-30 华为技术有限公司 文本分类方法及装置
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质
CN107885888A (zh) * 2017-12-11 2018-04-06 北京百度网讯科技有限公司 信息处理方法及装置、终端设备以及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310420A (zh) * 2020-03-17 2020-06-19 北京字节跳动网络技术有限公司 文本信息的处理方法、装置、电子设备及可读存储介质
CN111310420B (zh) * 2020-03-17 2021-10-01 北京字节跳动网络技术有限公司 文本信息的处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN109344386B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN106796578B (zh) 知识自动化系统和方法以及存储器
Stockhammer The rise of unemployment in Europe: a Keynesian approach
CN104239331B (zh) 一种用于实现评论搜索引擎排序的方法和装置
CN110335157A (zh) 保险产品推荐方法、设备及存储介质
CN108345702A (zh) 实体推荐方法和装置
Benchimol et al. Text mining methodologies with R: An application to central bank texts
CN109191090A (zh) 支付工具推荐方法、装置、设备及计算机可读存储介质
US20120239540A1 (en) Systems, devices and methods for automatic detection and masking of private data
CN107797982A (zh) 用于识别文本类型的方法、装置和设备
CN109711931A (zh) 基于用户画像的商品推荐方法、装置、设备及存储介质
JP2010118064A (ja) コンピュータ実施方法
CN108241741A (zh) 一种文本分类方法、服务器及计算机可读存储介质
CN106471490A (zh) 基于分类的集群通信
CN102215300A (zh) 电信业务推荐方法和系统
CN110489646B (zh) 用户画像构建方法及终端设备
CN109165975A (zh) 标签推荐方法、装置、计算机设备及存储介质
CN108334489A (zh) 文本核心词识别方法和装置
CN108363768A (zh) 一种基于Lucene的文档搜索方法、存储介质和服务器
CN108734587A (zh) 金融产品的推荐方法及终端设备
CN106919711A (zh) 基于人工智能的标注信息的方法和装置
CN109670848A (zh) 基于大数据的客户细分方法、用户设备、存储介质及装置
CN107798622A (zh) 一种识别用户意图的方法和装置
CN107368489A (zh) 一种资讯数据处理方法及装置
CN110362825A (zh) 一种基于文本的金融数据抽取方法、装置和电子设备
Sahu et al. Revised socioeconomic status scales for the year 2021: Updation based on latest base year series 2016

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200918

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200918

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230403

Address after: 801-10, Section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Ant financial (Hangzhou) Network Technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Innovative advanced technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant