CN112182448A - 页面信息处理方法、装置及设备 - Google Patents

页面信息处理方法、装置及设备 Download PDF

Info

Publication number
CN112182448A
CN112182448A CN201910605528.4A CN201910605528A CN112182448A CN 112182448 A CN112182448 A CN 112182448A CN 201910605528 A CN201910605528 A CN 201910605528A CN 112182448 A CN112182448 A CN 112182448A
Authority
CN
China
Prior art keywords
phrase
candidate
degree
probability
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910605528.4A
Other languages
English (en)
Inventor
张琳琳
崔燕
岳爱珍
宋烈金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910605528.4A priority Critical patent/CN112182448A/zh
Publication of CN112182448A publication Critical patent/CN112182448A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种页面信息处理方法、装置及设备,该方法包括:在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;获取每个候选词组的内部凝合度、外部自由度和重要程度,内部凝合度用于指示候选词组为一个完整词的概率,外部自由度用于指示候选词组与多个语言环境相匹配的概率,重要程度用于指示候选词将至少一个网络页面中的内容与其它内容区分开的概率;根据每个候选词组的内部凝合度、外部自由度和重要程度,在至少一个候选词组中确定产品词和服务词。提高了确定产品词和服务词的准确性。

Description

页面信息处理方法、装置及设备
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种页面信息处理方法、装置及设备。
背景技术
目前,很多企业具有网络页面,网络页面中包括对企业的介绍信息。在实际应用过程中,需要在网络页面中提取企业的产品词和服务词,产品词和服务词可以描述一个企业主营业务和经营范围的关键信息。
在现有技术中,通常采用预设的处理模型在网页中提取企业的产品词和服务词。例如,可以先获取大量的样本数据,样本数据中包括网页和在网页中标注的企业的产品词和服务词,通过样本数据对神经网络进行训练,以得到处理模型。然而,在实际应用过程中,由于不同企业的产品词和服务词的差别比较大,因此,通过处理模型很难准确的在网页中提取企业的产品词和服务词,导致现有技术中在网页中提取企业的产品词和服务词的准确率较低。
发明内容
本发明实施例提供一种页面信息处理方法、装置及设备,提高了确定产品词和服务词的准确性。
第一方面,本发明实施例提供一种页面信息处理方法,包括:
在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;
获取每个候选词组的内部凝合度、外部自由度和重要程度,所述内部凝合度用于指示所述候选词组为一个完整词的概率,所述外部自由度用于指示所述候选词组与多个语言环境相匹配的概率,所述重要程度用于指示所述候选词将所述至少一个网络页面中的内容与其它内容区分开的概率;
根据每个候选词组的内部凝合度、外部自由度和重要程度,在所述至少一个候选词组中确定产品词和服务词。
在一种可能的实施方式中,根据每个候选词组的内部凝合度、外部自由度和重要程度,在所述至少一个候选词组中确定产品词和服务词,包括:
根据每个候选词组的内部凝合度,在所述至少一个候选词组中确定第一词组集合,所述第一词组集合中各词组的内部凝合度大于或等于第一阈值;
根据所述第一词组集合中每个词组的外部自由度,在所述第一词组集合中确定第二词组集合,所述第二词组集合中各词组的外部自由度大于或等于第二阈值;
根据所述第二词组集合中每个词组的重要程度,在所述第二词组集合中确定产品词和服务词。
在一种可能的实施方式中,所述根据所述第二词组集合中每个词组的重要程度,在所述第二词组集合中确定产品词和服务词,包括:
按照所述重要程度从高到低的顺序对所述第二词组集合中的词组进行排序;
将排序后的第二词组集合中前N个词组确定为产品词和服务词,所述N为大于或等于1的整数。
在一种可能的实施方式中,针对所述至少一个候选词组中的任意一个候选词组,获取所述候选词组的内部凝合度,包括:
获取所述候选词组中包括的第一词汇和第二词汇;
获取所述第一词汇在所述至少一个网络页面中出现的第一概率;
获取所述第二词汇在所述至少一个网络页面中出现的第二概率;
获取所述候选词组在所述至少一个网络页面中出现的第三概率;
根据所述第一概率、所述第二概率和所述第三概率,确定所述候选词组的内部凝合度。
在一种可能的实施方式中,针对所述至少一个候选词组中的任意一个候选词组,获取所述候选词组的外部自由度,包括:
在所述至少一个网络页面中获取位于所述候选词组左侧的至少一个第一词汇、每个第一词汇为所述候选词组的左邻接词的第四概率;
在所述至少一个网络页面中获取位于所述候选词组右侧的至少一个第二词汇、每个第二词汇为所述候选词组的右邻接词的第五概率;
根据所述第四概率和所述第五概率,确定所述候选词组的外部自由度。
在一种可能的实施方式中,针对所述至少一个候选词组中的任意一个候选词组,获取所述候选词组的重要程度,包括:
获取所述候选词组在所述至少一个网络页面中的第一出现次数;
获取总文档数量、包含所述候选词组的第一文档的数量、所述候选词组在所述第一文档中的第二出现次数;
根据所述总文档数量、所述第一文档的数量和所述第二出现次数,确定所述候选词组的重要程度。
在一种可能的实施方式中,所述在至少一个网络页面获取至少一个候选词组,包括:
在所述至少一个网络页面中获取有效正文文本;
对所述有效正文文本进行切词处理,得到多个词汇;
对所述多个词汇进行词汇组合处理,得到所述至少一个候选词组。
在一种可能的实施方式中,所述对所述多个词汇进行词汇组合处理,得到所述至少一个候选词组,包括:
获取所述多个词汇中每个词汇的词性;
根据每个词汇的词性,在所述多个词汇中确定多个目标词汇,每个目标词汇的词性为名词、形容词或动名词中的一种;
对所述目标词汇进行词汇组合处理,并删除不包括名词的词组,得到所述至少一个候选词组。
在一种可能的实施方式中,所述在所述至少一个网络页面中获取有效正文文本,包括:
获取所述至少一个网络页面的源代码;
根据所述源代码中的预设标识符,在所述源代码中删除超文本标记语言HTML标记内容;
在所述源代码中删除预设词汇,得到所述有效正文文本。
第二方面,本发明实施例提供一种页面信息处理装置,包括:第一获取模块、第二获取模块和确定模块,其中,
所述第一获取模块用于,在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;
所述第二获取模块用于,获取每个候选词组的内部凝合度、外部自由度和重要程度,所述内部凝合度用于指示所述候选词组为一个完整词的概率,所述外部自由度用于指示所述候选词组与多个语言环境相匹配的概率,所述重要程度用于指示所述候选词将所述至少一个网络页面中的内容与其它内容区分开的概率;
所述确定模块用于,根据每个候选词组的内部凝合度、外部自由度和重要程度,在所述至少一个候选词组中确定产品词和服务词。
在一种可能的实施方式中,所述确定模块具体用于:
根据每个候选词组的内部凝合度,在所述至少一个候选词组中确定第一词组集合,所述第一词组集合中各词组的内部凝合度大于或等于第一阈值;
根据所述第一词组集合中每个词组的外部自由度,在所述第一词组集合中确定第二词组集合,所述第二词组集合中各词组的外部自由度大于或等于第二阈值;
根据所述第二词组集合中每个词组的重要程度,在所述第二词组集合中确定产品词和服务词。
在一种可能的实施方式中,所述确定模块具体用于:
按照所述重要程度从高到低的顺序对所述第二词组集合中的词组进行排序;
将排序后的第二词组集合中前N个词组确定为产品词和服务词,所述N为大于或等于1的整数。
在一种可能的实施方式中,所述第二获取模块具体用于:
获取所述候选词组中包括的第一词汇和第二词汇;
获取所述第一词汇在所述至少一个网络页面中出现的第一概率;
获取所述第二词汇在所述至少一个网络页面中出现的第二概率;
获取所述候选词组在所述至少一个网络页面中出现的第三概率;
根据所述第一概率、所述第二概率和所述第三概率,确定所述候选词组的内部凝合度。
在一种可能的实施方式中,所述第二获取模块具体用于:
在所述至少一个网络页面中获取位于所述候选词组左侧的至少一个第一词汇、每个第一词汇为所述候选词组的左邻接词的第四概率;
在所述至少一个网络页面中获取位于所述候选词组右侧的至少一个第二词汇、每个第二词汇为所述候选词组的右邻接词的第五概率;
根据所述第四概率和所述第五概率,确定所述候选词组的外部自由度。
在一种可能的实施方式中,所述第二获取模块具体用于:
获取所述候选词组在所述至少一个网络页面中的第一出现次数;
获取总文档数量、包含所述候选词组的第一文档的数量、所述候选词组在所述第一文档中的第二出现次数;
根据所述总文档数量、所述第一文档的数量和所述第二出现次数,确定所述候选词组的重要程度。
在一种可能的实施方式中,所述第一获取模块具体用于:
在所述至少一个网络页面中获取有效正文文本;
对所述有效正文文本进行切词处理,得到多个词汇;
对所述多个词汇进行词汇组合处理,得到所述至少一个候选词组。
在一种可能的实施方式中,所述第一获取模块具体用于:
获取所述多个词汇中每个词汇的词性;
根据每个词汇的词性,在所述多个词汇中确定多个目标词汇,每个目标词汇的词性为名词、形容词或动名词中的一种;
对所述目标词汇进行词汇组合处理,并删除不包括名词的词组,得到所述至少一个候选词组。
在一种可能的实施方式中,所述第一获取模块具体用于:
获取所述至少一个网络页面的源代码;
根据所述源代码中的预设标识符,在所述源代码中删除超文本标记语言HTML标记内容;
在所述源代码中删除预设词汇,得到所述有效正文文本。
第三方面,本发明实施例提供一种页面信息处理装置,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述第一方面任一项所述的方法。
第四方面,本发明实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,如上述第一方面任意一项所述的方法被执行。
本发明实施例提供的一种页面信息处理方法、装置及设备,在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;获取每个候选词组的内部凝合度、外部自由度和重要程度;根据每个候选词组的内部凝合度、外部自由度和重要程度,在至少一个候选词组中确定产品词和服务词。由于内部凝合度和外部自由度可以衡量一个词组是否可以作为一个独立的词,使得根据内部凝合度和外部自由度确定得到的产品词和服务词均为独立的词;词组的重要程度可以将至少一个网络页面与其它网络页面区分开来,这样,可以使得确定的确定得到产品词和服务词,提高了确定产品词和服务词的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的页面信息处理方法的架构图;
图2为本发明实施例提供的一种页面信息处理方法的流程示意图;
图3为本发明实施例提供的另一种页面处理方法的流程示意图;
图4为本发明实施例提供的一种页面信息处理装置的结构示意图;
图5为本发明实施例提供的页面信息处理装置的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的页面信息处理方法的架构图。请参见图1,当需要获取企业的产品词和服务词时,可以先获取该企业的至少一个网络页面,在网络页面中提取有效正文文本,对有效正文文本进行切词、词汇过滤等处理,得到多个词汇,并对得到的多个词汇进行组合得到多个候选词组,每个候选词组中包括至少一个名词词性的词汇。根据候选词组的内部凝合度、外部自由度和重要程度,在候选词组中确定企业的产品词和服务词。企业的产品词和服务词是描述一个企业主营业务和经营范围的关键信息,常见于企业网站首页中的企业介绍、企业收录平台中的企业介绍等
在上述过程中,先在网络页面中提取所有可能为产品词和服务词的候选词组,并根据候选词组的内部凝合度、外部自由度和重要程度,在候选词组中确定企业的产品词和服务词,由于内部凝合度和外部自由度可以衡量一个词组是否可以作为一个独立的词,使得根据内部凝合度和外部自由度确定得到的产品词和服务词均为独立的词;词组的重要程度可以将企业的至少一个网络页面与其它网络页面区分开来,这样,可以使得确定的确定得到企业的产品词和服务词。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本发明实施例提供的一种页面信息处理方法的流程示意图。请参见图2,该方法可以包括:
S201、在至少一个网络页面中获取至少一个候选词组。
本发明实施例的执行主体可以为电子设备,也可以为设置在电子设备中的页面处理装置。可选的,电子设备可以为服务器、电脑、手机等设备。可选的,页面处理装置可以通过软件实现,也可以通过软件和硬件的结合实现。
可选的,至少一个网络页面可以为企业对应的网络页面。可以先获取企业的至少一个网络页面,再在至少一个网络页面中获取至少一个候选词组。企业的至少一个网络页面可以包括企业的官网页面、主页面等。
其中,每个候选词组中包括至少一个名词词性的词汇。
可选的,可以通过如下步骤获取至少一个候选词组:
步骤A、在至少一个网络页面中获取有效正文文本。
可选的,可以获取至少一个网络页面的源代码,根据源代码中的预设标识符,在源代码中删除超文本标记语言(Hyper Text Markup Language,HTML)标记内容,在源代码中删除预设词汇,得到有效正文文本。
可选的,在网络页面的源代码中,“<>”内的内容通常为HTML标记内容,因此,可以删除“<>”内的内容,保留“>”与下一个“<”之间的内容。
可选的,预设词汇可以包括网页底部为无效词汇、特殊符号、数字、字母等和产品词无关的词。例如,网页底部的“版权所有”、“备案号”、“copyright”等。
步骤B、对有效正文文本进行切词处理,得到多个词汇。
可选的,可以通过定制自然语言处理(Natural Language ProcessingCustomization,NLPC)平台对有效正文文本进行且此处理,以得到多个词汇。
步骤C、对多个词汇进行词汇组合处理,得到至少一个候选词组。
可选的,可以获取多个词汇中每个词汇的词性,根据每个词汇的词性,在多个词汇中确定多个目标词汇,每个目标词汇的词性为名词、形容词或动名词中的一种,对目标词汇进行词汇组合处理,并删除不包括名词的词组,得到至少一个候选词组。
可选的,可以通过NLPC平台获取每个词汇的词性,例如,词性可以包括名词、形容词、动名词、副词、量词、代词、介词、连词和标点符号。
例如,可以在多个词汇中删除副词、量词、代词、介词、连词和标点符号,得到多个目标词汇。由于形容词和动名词等都可以和名词组合为名词词组,如室内(形容词)|设计、游泳(动名词)|设备等,因此,目标词汇的词性包括名词、形容词和动名词。名词词组是指包括至少一个名词的词组。
可选的,可以通过n-gram方式对目标词汇进行词汇组合处理,以得到多个词组。在对目标词汇进行词汇组合处理的过程中,可能会得到非名词词组,例如,“美观简约”、“简单大方”等。企业的产品词和服务词中通常包括名词,因此,在多个词组中删除不包括名词的词组(非名词词组),得到至少一个候选词组。
S202、获取每个候选词组的内部凝合度、外部自由度和重要程度。
其中,内部凝合度用于指示候选词组为一个完整词的概率。
词组的内部凝合度是判断该词组是否能作为一个完整的词的标准。词组在文本中出现的次数是作为衡量词组内部凝合度的最简单最直接的指标,例如,词组在文本中的出现次数多,则该词组的凝合度高。但是,根据词组在文本中的出现次数无法准确反映一个词汇的内部凝合度。例如,在一个文本中,虽然“简约室内”的出现次数可能比“室内设计”高,但是相比“简约室内”来说,人们通常更倾向于把“室内设计”当作一个词。在本申请中,可以通过词组中词汇之间的互信息表示词组的内部凝合度。
可选的,可以通过如下可行的实现方式获取候选词组的内部凝合度:获取候选词组中包括的第一词汇和第二词汇;获取第一词汇在至少一个网络页面中出现的第一概率;获取第二词汇在至少一个网络页面中出现的第二概率;获取候选词组在至少一个网络页面中出现的第三概率;根据第一概率、第二概率和第三概率,确定候选词组的内部凝合度。
例如,可以通过如下公式一确定候选词组的内部凝合度(互信息):
Figure BDA0002120572970000091
其中,p(x)为词x在文档中出现的概率,p(y)为词y在文档中出现的概率,p(x,y)为词组(x,y)在文档中出现的概率,词组中包括x和y。
其中,外部自由度用于指示候选词组与多个语言环境相匹配的概率。
词组的内部凝合度是判断该词组是否能作为一个完整的词的标准。如果一个词组能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。例如,对于“激光测距”和“激光测距仪”这两个词组,人们更倾向于把“激光测距仪”作为一个词组,而不倾向于将“激光测距”作为一个词组,因为和“激光测距”共同出现的通常是“仪”,而与“激光测距仪”共同出现的却有很多种组合。
可选的,可以通过如下可行的实现方式确定一个词组的外部自由度:在至少一个网络页面中获取位于候选词组左侧的至少一个第一词汇、每个第一词汇为候选词组的左邻接词的第四概率;在至少一个网络页面中获取位于候选词组右侧的至少一个第二词汇、每个第二词汇为候选词组的右邻接词的第五概率;根据第四概率和第五概率,确定候选词组的外部自由度。
可选的,信息熵描述的是随机变量的不确定性,因此左邻接熵可以用来衡量一个词组的左邻字有多随机,右邻接熵来衡量词组的右邻字集合有多随机。可以通过一个词候选组的左邻接熵和右邻接熵表示一个候选词组的外部自由度。
可选的,候选词组的左邻接熵可以如公式二所示:
Figure BDA0002120572970000101
其中,P(aW|W)为词a作为候选词组W的左邻接词的概率,A为候选词组W的左邻接词集合。
可选的,词组的左邻接熵可以如公式三所示:
Figure BDA0002120572970000102
其中,P(Wb|W)为词b作为候选词组W的右邻接词的概率,B为候选词组W的右邻接词集合。
其中,重要程度用于指示候选词将至少一个网络页面中的内容与其它内容区分开的概率。
可选的,可以通过如下可行的实现方式获取候选词组的重要程度:获取候选词组在至少一个网络页面中的第一出现次数;获取总文档数量、包含候选词组的第一文档的数量、候选词组在第一文档中的第二出现次数;根据总文档数量、第一文档的数量和第二出现次数,确定候选词组的重要程度。
可选的,可以通过词频-逆向文件频率(term frequency-inverse documentfrequency,TF-IDF)指标来衡量一个候选词组对整段文本的重要度。TF-IDF模型的思想是,如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。
可选的,可以通过如下公式四确定一个候选词组的重要程度:
Figure BDA0002120572970000103
其中,nx为候选词组x在该文档中的出现次数,N(x)为包含候选词组x的文档数,N为所有文档总数。nk为候选词组x在第k个文档中的出现次数。
S203、根据每个候选词组的内部凝合度、外部自由度和重要程度,在至少一个候选词组中确定产品词和服务词。
可选的,本发明实施例所示的产品词和服务器可以为企业的产品词和服务词。
可选的,可以现在至少一个候选词组中选择内部凝合度大于或等于第一阈值、且外部自由度大于或等于第二阈值的一部分候选词组,再根据该一部分候选词组的重要程度较高的候选词组作为企业的产品词和服务词。
可选的,可以根据每个候选词组的内部凝合度,在至少一个候选词组中确定第一词组集合,第一词组集合中各词组的内部凝合度大于或等于第一阈值;根据第一词组集合中每个词组的外部自由度,在第一词组集合中确定第二词组集合,第二词组集合中各词组的外部自由度大于第二阈值;根据第二词组集合中每个词组的重要程度,在第二词组集合中确定企业的产品词和服务词。例如,可以按照重要程度从高到低的顺序对第二词组集合中的词组进行排序;将排序后的第二词组集合中前N个词组确定为目标词组,N为大于1的整数。在实际应用过程中,可以根据实际需要设置N的大小。
本发明实施例提供的一种页面信息处理方法,在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;获取每个候选词组的内部凝合度、外部自由度和重要程度;根据每个候选词组的内部凝合度、外部自由度和重要程度,在至少一个候选词组中确定产品词和服务词。由于内部凝合度和外部自由度可以衡量一个词组是否可以作为一个独立的词,使得根据内部凝合度和外部自由度确定得到的产品词和服务词均为独立的词;词组的重要程度可以将至少一个网络页面与其它网络页面区分开来,这样,可以使得确定的确定得到产品词和服务词。
在上述任意一个实施例的基础上,下面,结合图3所示的实施例,对页面信息的处理过程进行说明。
图3为本发明实施例提供的另一种页面处理方法的流程示意图。请参见图3,该方法可以包括:
S301、在至少一个网络页面中获取至少一个候选词组。
需要说明的是,S301的执行过程可以参见S201的执行过程,此处不再进行赘述。
S302、确定每个候选词组的互信息。
可选的,可以根据图2实施例中的公式一确定每个候选词组的互信息,此处不再进行赘述。
S303、根据每个候选词组的互信息,在至少一个候选词组中确定第一词组集合。
其中,第一词组集合中各词组的互信息大于第一阈值。
S304、获取第一词组集合中各词组的左邻接熵和右邻接熵。
可选的,可以根据图2实施例中的公式二确定第一词组集合中各词组的的左邻接熵,此处不再进行赘述。
可选的,可以根据图2实施例中的公式三确定第一词组集合中各词组的的右邻接熵,此处不再进行赘述。
S305、根据第一词组集合中各词组的左邻接熵和右邻接熵,在第一词组集合中确定第二词组集合。
其中,第二词组集合中各词组的左邻接熵大于或等于第三阈值,且各词组的右邻接熵大于或等于第四阈值。第三阈值和第四阈值可以相同,例如,第三阈值和第四阈值可以分别等于第二阈值。
S306、确定第二词组集合中各词组的重要程度。
可选的,可以根据图2实施例中的公式四确定第二词组集合中各词组的重要程度,此处不再进行赘述。
S307、对第二词组集合中各词组的重要程度按照从高到低的顺序进行排序。
S308、将排序后的第二词组集合中前N个词组确定为目标词组,N为大于1的整数。
在图3所示的实施例中,由于互信息、左邻接熵和右邻接熵可以衡量一个词组是否可以作为一个独立的词,使得根据互信息、左邻接熵和右邻接熵确定得到的产品词和服务词均为独立的词;词组的重要程度可以将企业的至少一个网络页面与其它网络页面区分开来,这样,可以使得确定的确定得到企业的产品词和服务词。
图4为本发明实施例提供的一种页面信息处理装置的结构示意图。请参见图4,该页面信息处理装置10可以包括:第一获取模块11、第二获取模块12和确定模块13,其中,
所述第一获取模块11用于,在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;
所述第二获取模块12用于,获取每个候选词组的内部凝合度、外部自由度和重要程度,所述内部凝合度用于指示所述候选词组为一个完整词的概率,所述外部自由度用于指示所述候选词组与多个语言环境相匹配的概率,所述重要程度用于指示所述候选词将所述至少一个网络页面中的内容与其它内容区分开的概率;
所述确定模块13用于,根据每个候选词组的内部凝合度、外部自由度和重要程度,在所述至少一个候选词组中确定产品词和服务词。
本发明实施例提供的页面信息处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述确定模块13具体用于:
根据每个候选词组的内部凝合度,在所述至少一个候选词组中确定第一词组集合,所述第一词组集合中各词组的内部凝合度大于或等于第一阈值;
根据所述第一词组集合中每个词组的外部自由度,在所述第一词组集合中确定第二词组集合,所述第二词组集合中各词组的外部自由度大于或等于第二阈值;
根据所述第二词组集合中每个词组的重要程度,在所述第二词组集合中确定产品词和服务词。
在一种可能的实施方式中,所述确定模块13具体用于:
按照所述重要程度从高到低的顺序对所述第二词组集合中的词组进行排序;
将排序后的第二词组集合中前N个词组确定为产品词和服务词,所述N为大于或等于1的整数。
在一种可能的实施方式中,所述第二获取模块12具体用于:
获取所述候选词组中包括的第一词汇和第二词汇;
获取所述第一词汇在所述至少一个网络页面中出现的第一概率;
获取所述第二词汇在所述至少一个网络页面中出现的第二概率;
获取所述候选词组在所述至少一个网络页面中出现的第三概率;
根据所述第一概率、所述第二概率和所述第三概率,确定所述候选词组的内部凝合度。
在一种可能的实施方式中,所述第二获取模块12具体用于:
在所述至少一个网络页面中获取位于所述候选词组左侧的至少一个第一词汇、每个第一词汇为所述候选词组的左邻接词的第四概率;
在所述至少一个网络页面中获取位于所述候选词组右侧的至少一个第二词汇、每个第二词汇为所述候选词组的右邻接词的第五概率;
根据所述第四概率和所述第五概率,确定所述候选词组的外部自由度。
在一种可能的实施方式中,所述第二获取模块12具体用于:
获取所述候选词组在所述至少一个网络页面中的第一出现次数;
获取总文档数量、包含所述候选词组的第一文档的数量、所述候选词组在所述第一文档中的第二出现次数;
根据所述总文档数量、所述第一文档的数量和所述第二出现次数,确定所述候选词组的重要程度。
在一种可能的实施方式中,所述第一获取模块11具体用于:
在所述至少一个网络页面中获取有效正文文本;
对所述有效正文文本进行切词处理,得到多个词汇;
对所述多个词汇进行词汇组合处理,得到所述至少一个候选词组。
在一种可能的实施方式中,所述第一获取模块11具体用于:
获取所述多个词汇中每个词汇的词性;
根据每个词汇的词性,在所述多个词汇中确定多个目标词汇,每个目标词汇的词性为名词、形容词或动名词中的一种;
对所述目标词汇进行词汇组合处理,并删除不包括名词的词组,得到所述至少一个候选词组。
在一种可能的实施方式中,所述第一获取模块11具体用于:
获取所述至少一个网络页面的源代码;
根据所述源代码中的预设标识符,在所述源代码中删除超文本标记语言HTML标记内容;
在所述源代码中删除预设词汇,得到所述有效正文文本。
本发明实施例提供的页面信息处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图5为本发明实施例提供的页面信息处理装置的硬件结构示意图,如图5所示,该页面信息处理装置20包括:至少一个处理器21和存储器22。其中,处理器21和存储器22通过总线23连接。
在具体实现过程中,至少一个处理器21执行所述存储器22存储的计算机执行指令,使得至少一个处理器21执行如上的页面信息处理方法。
处理器21的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述图5所示的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的页面信息处理方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (20)

1.一种页面信息处理方法,其特征在于,包括:
在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;
获取每个候选词组的内部凝合度、外部自由度和重要程度,所述内部凝合度用于指示所述候选词组为一个完整词的概率,所述外部自由度用于指示所述候选词组与多个语言环境相匹配的概率,所述重要程度用于指示所述候选词将所述至少一个网络页面中的内容与其它内容区分开的概率;
根据每个候选词组的内部凝合度、外部自由度和重要程度,在所述至少一个候选词组中确定产品词和服务词。
2.根据权利要求1所述的方法,其特征在于,根据每个候选词组的内部凝合度、外部自由度和重要程度,在所述至少一个候选词组中确定产品词和服务词,包括:
根据每个候选词组的内部凝合度,在所述至少一个候选词组中确定第一词组集合,所述第一词组集合中各词组的内部凝合度大于或等于第一阈值;
根据所述第一词组集合中每个词组的外部自由度,在所述第一词组集合中确定第二词组集合,所述第二词组集合中各词组的外部自由度大于或等于第二阈值;
根据所述第二词组集合中每个词组的重要程度,在所述第二词组集合中确定所述产品词和所述服务词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二词组集合中每个词组的重要程度,在所述第二词组集合中确定所述产品词和所述服务词,包括:
按照所述重要程度从高到低的顺序对所述第二词组集合中的词组进行排序;
将排序后的第二词组集合中前N个词组确定为所述产品词和所述服务词,所述N为大于或等于1的整数。
4.根据权利要求1-3任一项所述的方法,其特征在于,针对所述至少一个候选词组中的任意一个候选词组,获取所述候选词组的内部凝合度,包括:
获取所述候选词组中包括的第一词汇和第二词汇;
获取所述第一词汇在所述至少一个网络页面中出现的第一概率;
获取所述第二词汇在所述至少一个网络页面中出现的第二概率;
获取所述候选词组在所述至少一个网络页面中出现的第三概率;
根据所述第一概率、所述第二概率和所述第三概率,确定所述候选词组的内部凝合度。
5.根据权利要求1-4任一项所述的方法,其特征在于,针对所述至少一个候选词组中的任意一个候选词组,获取所述候选词组的外部自由度,包括:
在所述至少一个网络页面中获取位于所述候选词组左侧的至少一个第一词汇、每个第一词汇为所述候选词组的左邻接词的第四概率;
在所述至少一个网络页面中获取位于所述候选词组右侧的至少一个第二词汇、每个第二词汇为所述候选词组的右邻接词的第五概率;
根据所述第四概率和所述第五概率,确定所述候选词组的外部自由度。
6.根据权利要求1-5任一项所述的方法,其特征在于,针对所述至少一个候选词组中的任意一个候选词组,获取所述候选词组的重要程度,包括:
获取所述候选词组在所述至少一个网络页面中的第一出现次数;
获取总文档数量、包含所述候选词组的第一文档的数量、所述候选词组在所述第一文档中的第二出现次数;
根据所述总文档数量、所述第一文档的数量和所述第二出现次数,确定所述候选词组的重要程度。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述至少一个网络页面获取至少一个候选词组,包括:
在所述至少一个网络页面中获取有效正文文本;
对所述有效正文文本进行切词处理,得到多个词汇;
对所述多个词汇进行词汇组合处理,得到所述至少一个候选词组。
8.根据权利要求7所述的方法,其特征在于,所述对所述多个词汇进行词汇组合处理,得到所述至少一个候选词组,包括:
获取所述多个词汇中每个词汇的词性;
根据每个词汇的词性,在所述多个词汇中确定多个目标词汇,每个目标词汇的词性为名词、形容词或动名词中的一种;
对所述目标词汇进行词汇组合处理,并删除不包括名词的词组,得到所述至少一个候选词组。
9.根据权利要求7或8所述的方法,其特征在于,所述在所述至少一个网络页面中获取有效正文文本,包括:
获取所述至少一个网络页面的源代码;
根据所述源代码中的预设标识符,在所述源代码中删除超文本标记语言HTML标记内容;
在所述源代码中删除预设词汇,得到所述有效正文文本。
10.一种页面信息处理装置,其特征在于,包括:第一获取模块、第二获取模块和确定模块,其中,
所述第一获取模块用于,在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;
所述第二获取模块用于,获取每个候选词组的内部凝合度、外部自由度和重要程度,所述内部凝合度用于指示所述候选词组为一个完整词的概率,所述外部自由度用于指示所述候选词组与多个语言环境相匹配的概率,所述重要程度用于指示所述候选词将所述至少一个网络页面中的内容与其它内容区分开的概率;
所述确定模块用于,根据每个候选词组的内部凝合度、外部自由度和重要程度,在所述至少一个候选词组中确定产品词和服务词。
11.根据权利要求10所述的装置,其特征在于,所述确定模块具体用于:
根据每个候选词组的内部凝合度,在所述至少一个候选词组中确定第一词组集合,所述第一词组集合中各词组的内部凝合度大于或等于第一阈值;
根据所述第一词组集合中每个词组的外部自由度,在所述第一词组集合中确定第二词组集合,所述第二词组集合中各词组的外部自由度大于或等于第二阈值;
根据所述第二词组集合中每个词组的重要程度,在所述第二词组集合中确定所述产品词和所述服务词。
12.根据权利要求11所述的装置,其特征在于,所述确定模块具体用于:
按照所述重要程度从高到低的顺序对所述第二词组集合中的词组进行排序;
将排序后的第二词组集合中前N个词组确定为所述产品词和所述服务词,所述N为大于或等于1的整数。
13.根据权利要求10-12任一项所述的装置,其特征在于,所述第二获取模块具体用于:
获取所述候选词组中包括的第一词汇和第二词汇;
获取所述第一词汇在所述至少一个网络页面中出现的第一概率;
获取所述第二词汇在所述至少一个网络页面中出现的第二概率;
获取所述候选词组在所述至少一个网络页面中出现的第三概率;
根据所述第一概率、所述第二概率和所述第三概率,确定所述候选词组的内部凝合度。
14.根据权利要求10-13任一项所述的装置,其特征在于,所述第二获取模块具体用于:
在所述至少一个网络页面中获取位于所述候选词组左侧的至少一个第一词汇、每个第一词汇为所述候选词组的左邻接词的第四概率;
在所述至少一个网络页面中获取位于所述候选词组右侧的至少一个第二词汇、每个第二词汇为所述候选词组的右邻接词的第五概率;
根据所述第四概率和所述第五概率,确定所述候选词组的外部自由度。
15.根据权利要求10-14任一项所述的装置,其特征在于,所述第二获取模块具体用于:
获取所述候选词组在所述至少一个网络页面中的第一出现次数;
获取总文档数量、包含所述候选词组的第一文档的数量、所述候选词组在所述第一文档中的第二出现次数;
根据所述总文档数量、所述第一文档的数量和所述第二出现次数,确定所述候选词组的重要程度。
16.根据权利要求10-15任一项所述的装置,其特征在于,所述第一获取模块具体用于:
在所述至少一个网络页面中获取有效正文文本;
对所述有效正文文本进行切词处理,得到多个词汇;
对所述多个词汇进行词汇组合处理,得到所述至少一个候选词组。
17.根据权利要求16所述的装置,其特征在于,所述第一获取模块具体用于:
获取所述多个词汇中每个词汇的词性;
根据每个词汇的词性,在所述多个词汇中确定多个目标词汇,每个目标词汇的词性为名词、形容词或动名词中的一种;
对所述目标词汇进行词汇组合处理,并删除不包括名词的词组,得到所述至少一个候选词组。
18.根据权利要求16或17所述的装置,其特征在于,所述第一获取模块具体用于:
获取所述至少一个网络页面的源代码;
根据所述源代码中的预设标识符,在所述源代码中删除超文本标记语言HTML标记内容;
在所述源代码中删除预设词汇,得到所述有效正文文本。
19.一种页面信息处理装置,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至9任一项所述的页面信息处理方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至9任一项所述的页面信息处理方法。
CN201910605528.4A 2019-07-05 2019-07-05 页面信息处理方法、装置及设备 Pending CN112182448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910605528.4A CN112182448A (zh) 2019-07-05 2019-07-05 页面信息处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910605528.4A CN112182448A (zh) 2019-07-05 2019-07-05 页面信息处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN112182448A true CN112182448A (zh) 2021-01-05

Family

ID=73915324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910605528.4A Pending CN112182448A (zh) 2019-07-05 2019-07-05 页面信息处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112182448A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218938A (zh) * 2021-12-13 2022-03-22 北京智齿众服技术咨询有限公司 一种分词方法、装置、电子设备和存储介质
CN117648917A (zh) * 2024-01-30 2024-03-05 北京点聚信息技术有限公司 一种版式文件对比方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577989A (zh) * 2012-07-30 2014-02-12 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类系统
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105550168A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN106126495A (zh) * 2016-06-16 2016-11-16 北京捷通华声科技股份有限公司 一种基于大规模语料提词方法和装置
CN108959259A (zh) * 2018-07-05 2018-12-07 第四范式(北京)技术有限公司 新词发现方法及系统
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN109766550A (zh) * 2019-01-07 2019-05-17 有米科技股份有限公司 一种文本品牌识别方法、识别装置和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577989A (zh) * 2012-07-30 2014-02-12 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类系统
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105550168A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN106126495A (zh) * 2016-06-16 2016-11-16 北京捷通华声科技股份有限公司 一种基于大规模语料提词方法和装置
CN108959259A (zh) * 2018-07-05 2018-12-07 第四范式(北京)技术有限公司 新词发现方法及系统
CN109766550A (zh) * 2019-01-07 2019-05-17 有米科技股份有限公司 一种文本品牌识别方法、识别装置和存储介质
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218938A (zh) * 2021-12-13 2022-03-22 北京智齿众服技术咨询有限公司 一种分词方法、装置、电子设备和存储介质
CN117648917A (zh) * 2024-01-30 2024-03-05 北京点聚信息技术有限公司 一种版式文件对比方法及系统
CN117648917B (zh) * 2024-01-30 2024-03-29 北京点聚信息技术有限公司 一种版式文件对比方法及系统

Similar Documents

Publication Publication Date Title
CN108629046B (zh) 一种字段匹配方法及终端设备
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN111831804B (zh) 一种关键短语的提取方法、装置、终端设备及存储介质
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
CN110110332B (zh) 文本摘要生成方法及设备
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
CN110287286B (zh) 短文本相似度的确定方法、装置及存储介质
CN111444712B (zh) 一种关键词提取方法、终端、计算机可读存储介质
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN114186061A (zh) 语句意图预测方法、装置、存储介质及计算机设备
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN112182448A (zh) 页面信息处理方法、装置及设备
CN113254588A (zh) 一种数据搜索方法及系统
CN111881288A (zh) 笔录信息真假的判断方法、装置、存储介质及电子设备
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN113191145A (zh) 关键词的处理方法、装置、电子设备和介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
US10565195B2 (en) Records based on bit-shifting
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
CN111859901B (zh) 一种英文重复文本检测方法、系统、终端及存储介质
CN112784536B (zh) 数学应用题解答模型的处理方法、系统和存储介质
CN114610796A (zh) 文本相似度确定方法、装置、存储介质以及电子设备
CN114416977A (zh) 文本难度分级评估方法及装置、设备和存储介质
JP6235386B2 (ja) 情報提示装置、情報提示方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination