CN103309886B - 一种基于交易平台的结构化信息搜索方法和装置 - Google Patents

一种基于交易平台的结构化信息搜索方法和装置 Download PDF

Info

Publication number
CN103309886B
CN103309886B CN201210065899.6A CN201210065899A CN103309886B CN 103309886 B CN103309886 B CN 103309886B CN 201210065899 A CN201210065899 A CN 201210065899A CN 103309886 B CN103309886 B CN 103309886B
Authority
CN
China
Prior art keywords
supplier
information
word
text similarity
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210065899.6A
Other languages
English (en)
Other versions
CN103309886A (zh
Inventor
陈旭
陈智强
顾海杰
王德胜
何亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210065899.6A priority Critical patent/CN103309886B/zh
Publication of CN103309886A publication Critical patent/CN103309886A/zh
Application granted granted Critical
Publication of CN103309886B publication Critical patent/CN103309886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于交易平台的结构化信息搜索方法和一种基于交易平台的结构化信息搜索装置,其中,所述方法包括:接收搜索需求信息;对所述搜索需求信息进行分词,获得关键词字段;在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;根据所述候选结构化信息的分值进行排序。本申请可以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。

Description

一种基于交易平台的结构化信息搜索方法和装置
技术领域
本申请涉及交易平台数据处理的技术领域,特别是涉及一种基于交易平台的结构化信息搜索方法和一种基于交易平台的结构化信息搜索装置。
背景技术
在因特网开放的网络环境下,基于网络通讯技术,买卖双方可不谋面地通过交易平台进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付,以及各种商务活动、交易活动、金融活动和相关的综合服务活动。目前,交易平台一般可分为企业对企业(Business-to-Business,B2B)、企业对消费者(Business-to-Customer,B2C)、消费者对消费者(Customer-to-Customer,C2C)等模式。近几年来,国内交易平台迅速发展,各种B2B、C2C、B2C模式的交易平台(俗称购物网站),如淘宝网、当当网、卓越亚马逊、拍拍网、京东商城等,已被用户认可和接受。
供应商在交易平台发布所供应的产品信息,形成产品信息集合,如果发布的产品信息较多,供应商可以进一步按照一定的规则对产品信息进行分组。还可以设置相应产品的橱窗信息以供买家浏览。
买家在采购产品时,可以在交易平台搜索和筛选满意的供应商以进行交易。采用现有技术,买家可以在预先知道供应商ID的情况下,在搜索栏内基于供应商ID进行搜索,获得对应供应商所经营产品的相关信息。然而在大多数情况下,买家只能使用自定义的查询词在交易平台搜索自己关心或欲购买的产品,再通过产品信息找到对应供应商的信息,获得该供应商所经营产品的相关信息。并且,采用此种方式获得的供应商往往不是最佳的供应商,还需要买家进一步进行人工筛选。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种全新的基于交易平台的结构化信息搜索机制,用以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。
发明内容
本申请的目的是提供一种基于交易平台的结构化信息搜索方法和装置,用以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。
为了解决上述问题,本申请公开了一种基于交易平台的结构化信息搜索方法,包括:
接收搜索需求信息;
对所述搜索需求信息进行分词,获得关键词字段;
在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;
采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;
根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;
根据所述候选结构化信息的分值进行排序。
优选的,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;
或者,用户提交的产品信息关键词和后台生成的产品信息关键词。
优选的,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。
优选的,所述预置的结构化信息库中包括多个结构化信息索引文件,所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:
采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;
若采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K,则进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。
优选的,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:
采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。
优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:
计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。
优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:
计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。
优选的,采用以下公式计算第一文本相似度:
其中,weight(Wi)表示关键词单词字段的属性所对应的权重;
percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;
NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);
和/或,采用以下公式计算第二文本相似度:
其中,weight(PHi)表示关键词短语字段的属性所对应的权重;
percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;
NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi);
和/或,采用以下公式计算第三文本相似度:
KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity
其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第一文本相似度;
和/或,采用以下公式计算第四文本相似度:
PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity
其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第二文本相似度。
优选的,采用以下公式根据第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度:
TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2
其中,W1和W2分别为配置的权重。
优选的,所述特征属性参数包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分;所述根据文本相似度和特征属性参数计算所述候选结构化信息的分值的步骤采用如下公式进行计算:
Similarity=TextSimilarity*(1-Wm)+主营系数*Wm
其中,Wm是主营系数的权重。
优选的,所述特征属性参数还包括所述候选结构化信息的公共指标得分;
所述公共指标得分采用如下公式进行计算:
Scorepublic=∑iPi*Wi,i=1,2
其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。
优选的,所述搜索需求信息还包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,产品类目的用户要求信息,和/或,供应商最小起定量的用户要求信息;
所述特征属性参数还包括所述候选结构化信息的个性化指标得分;
所述个性化指标得分通过如下公式进行计算:
Scorepersonalized=∑iScorei
其中,所述Scorei包括供应商类型与相应用户要求信息的匹配度,供应商规模与相应用户要求信息的匹配度,供应商的主要市场与相应用户要求信息的匹配度,供应商的产品类目与相应用户要求信息的匹配度,和/或,供应商的最小起定量与相应用户要求信息的匹配度。
优选的,所述根据文本相似度和特征属性参数计算所述候选结构化信息的分值的步骤进一步包括:
对根据文本相似度和主营系数计算的分值Similarity=TextSimilarity*(1-Wm)+主营系数*Wm,进行归一化处理为Score’match
对特征属性参数Scorecustom进行归一化处理为Score’custom,其中,Scorecustom=Scorepublic+Scorepersonalized,Scorepublic为公共指标得分,Scorepersonalized为个性化指标得分;
针对所述归一化处理后的文本相似度和特征属性参数,采用如下公式计算最终的候选结构化信息的分值:
Scoretotal=λScore’custom+(1-λ)Score’match
其中,λ是配置的参数。
优选的,所述归一化处理采用如下公式进行:
其中,X′为X归一化处理后的结果。
优选的,所述关键词单词字段的属性包括核心词属性和产品词属性,所述根据候选结构化信息的分值进行排序的步骤包括:
(1)提取分值最高的前M个候选结构化信息,将位于前N位中满足自动推荐条件的置于最优先,后面的M-N位全部置为不自动推荐;所述M,N为正整数;
其中,所述自动推荐条件为:如果匹配的关键词字段中含有短语,将主营系数大于第一阈值的候选结构化信息设为自动推荐;如果匹配的关键词字段中只有单词,那么将具有核心词属性,并且,作为产品词属性在供应商的产品分组信息中的占比大于第二阈值,并且,主营系数大于第一阈值的候选结构化信息设为自动推荐;
对前N位和后M-N位分别按照如下规则进行排序:
(2)如果匹配的关键词字段含有单词和短语,则进入(3),如果不含有短语,则进入(8);
(3)在(2)相同的情况下,含有短语个数多的优先;
(4)在(3)相同的情况下,短语最长长度优先;
(5)在(4)相同的情况下,含有单词个数多的优先;
(6)在(5)相同的情况下,分值高的优先;
(7)在(6)相同的情况下,字母序优先,进入(11);
(8)在(2)相同的情况下,含有单词个数多的优先;
(9)在(8)相同的情况下,分值高的优先;
(10)在(9)相同的情况下,字母序优先。
16、根据权利要求1所述的方法,其特征在于,还包括:
将所述候选结构化信息按排序展现给用户。
本申请实施例还公开了一种基于交易平台的结构化信息搜索装置,包括:
需求接收模块,用于接收搜索需求信息;
分词模块,用于对所述搜索需求信息进行分词,获得关键词字段;
候选结构化信息查找模块,用于在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;
相似度计算模块,用于采用所述关键词字段在所述候选结构化信息中计算文本相似度;
特征属性参数获取模块,用于获取所述候选结构化信息的特征属性参数;
分值计算模块,用于根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;
排序模块,用于根据所述候选结构化信息的分值进行排序。
优选的,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;
或者,用户提交的产品信息关键词和后台生成的产品信息关键词。
优选的,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。
优选的,所述预置的结构化信息库中包括多个结构化信息索引文件,所述候选结构化信息查找模块包括:
短语查找子模块,用于采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;
单词查找子模块,用于在采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K时,进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。
优选的,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述候选结构化信息查找模块包括:
单词匹配子模块,采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。
优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述相似度计算模块包括:
第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第一综合子模块,用于根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。
优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述相似度计算模块包括:
第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第三文本相似度计算子模块,用于计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
第四文本相似度计算子模块,用于计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
第二综合子模块,用于根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。
优选的,所述特征属性参数包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分。
优选的,所述特征属性参数还包括所述候选结构化信息的公共指标得分和个性化指标得分。
优选的,所述的装置,还包括:
展现模块,用于将所述候选结构化信息按排序展现给用户。
与现有技术相比,本申请包括以下优点:
本申请通通过接收用户提供的比一般搜索更丰富的搜索需求信息(RFQ,RequestFor Quotation,买家在电子商务网站上填写的有关买家欲购买的产品信息,包括产品信息关键字、个性化指标等),计算用户的搜索需求信息与供应商信息相似度的综合得分并进行排序,在后台为买家计算出一批满足买家需求的最佳供应商,从而实现了买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。
附图说明
图1是本申请的一种基于交易平台的结构化信息搜索方法实施例的步骤流程图;
图2是本申请的一种基于交易平台的结构化信息搜索装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,通过接收用户提供的比一般搜索更丰富的搜索需求信息(RFQ,Request For Quotation,买家在电子商务网站上填写的有关买家欲购买的产品信息,包括产品信息关键字、个性化指标等),计算用户的搜索需求信息与供应商信息相似度的综合得分并进行排序,在后台为买家计算出一批满足买家需求的最佳供应商。
参照图1,示出了本申请的一种基于交易平台的结构化信息搜索方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、接收搜索需求信息;
在具体实现中,用户(买家)可以在前台提交欲购买的产品信息(Request ForQuotation,RFQ),包括产品信息关键词、个性化指标等。在本申请的一种优选实施例中,所述搜索需求信息可以包括产品信息关键词,所述产品信息关键词可以包括:用户提交的产品信息关键词;或者,用户提交的产品信息关键词和后台生成的产品信息关键词。
作为本申请实施例在交易平台的一种具体应用的示例,所述搜索需求信息可以包括如下表所示的RFQ字段的内容:
在本申请实施例中,用户可以仅提交基本的产品信息关键词作为搜索需求信息,根据用户提交的产品信息关键词,后台可以按一些规则处理为更为标准的产品信息关键词,之后再将这两类产品信息关键词一并处理。用户还可以如上例中提交更多的个性化指标作为搜索需求信息,在后续的搜索处理中,会将这些个性化指标作为供应商进一步筛选的条件。
步骤102、对所述搜索需求信息进行分词,获得关键词字段;
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。
下面介绍一些常用的分词方法:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
在本申请实施例中,可以根据前台输入的RFQ信息中的关键字段进行分词。如果RFQ中指明的类目信息含有化学类目或医疗类目,则在分词处理中进行特殊处理,与其他行业分开进行分词处理,主要是利用化学词典进行分词;如果RFQ中类目信息为空,默认买家对类目没有任何要求。分词的结果有一系列的单词和一系列的词组,即所述分词后获得的关键词字段可以包括:关键词短语字段和关键词单词字段。当然,在实际中,所述分词后获得的关键词字段也可以仅包括关键词单词字段。
步骤103、在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;
在具体实现中,供应商在交易平台发布所供应的产品信息,形成产品信息集合,如果发布的产品信息较多,供应商可以进一步按照一定的规则对产品信息进行分组,即形成供应商的产品分组信息,一般而言,一个供应商有多个产品分组信息。这种供应商的产品分组信息是一种结构化信息,不同于通用检索的数据源(如google、baidu等搜索引擎采用的通用数据源)。供应商的产品分组信息是对供应商及其要卖的产品的描述,通常主要需要用到:供应商分组的主要关键词、供应商类型、供应商规模、供应商提供产品的类目、供应商提供的产品关键词等多个域的信息。
所述预置的结构化信息库中可以包括多个结构化信息索引文件,所述索引文件可以采用倒排索引生成。公知的是,倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。在交易平台的具体应用中,采用倒排索引可以供应商的产品分组信息(结构化信息)以lucence形式进行存储。
在本申请的一种优选实施例中,在所述分词后获得的关键词字段包括关键词短语字段和关键词单词字段时,所述步骤103具体可以包括如下子步骤:
子步骤S11、采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;
子步骤S12、若采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K,则进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。
例如,根据分词的结果查询供应商信息文件得到一批供应商的产品分组信息。其中供应商信息是以分组单位的,每个产品分组都含有一些文本信息,供应商信息以lucence形式存储在磁盘中。应用本实施例,查询过程可以分两步:
1)先根据输入关键字短语字段查询索引文件,返回最相似的TOP-K个供应商的产品分组信息,其中TOP-K为额定的阈值;
2)如果关键词短语字段查询的供应商数不足TOP-K个,再用关键词单词字段查询索引文件,最终返回最相似的TOP-K个供应商的产品分组信息(包括步骤1中的供应商的产品分组信息)。经过此步查询后,不论结果满不满足TOP-K个都终止查询。
作为本申请的另一种优选实施例,若所述分词后获得的关键词字段仅包括关键词单词字段,则所述步骤103可以包括如下子步骤:
子步骤S13、采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。
当然,上述预置的结构化信息库中存储结构化信息的形式,以及,相应的查找与关键词字段匹配的候选结构化信息的方式均仅仅用作示例,本领域技术人员根据实际情况任意选用即可,本申请对此无需加以限制。
步骤104、采用所述关键词字段在所述候选结构化信息中计算文本相似度;
在本申请的一种优选实施例中,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述步骤104可以包括如下子步骤:
子步骤S21、计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
子步骤S22、计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
子步骤S22、根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。
在本申请的另一种优选实施例中,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中可以包括供应商分组的主要关键词和供应商分组的辅助关键词,所述步骤104具体可以包括如下子步骤:
子步骤S31、计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
子步骤S32、计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
子步骤S33、计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
子步骤S34、计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
子步骤S35、根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。
作为本申请实施例一种具体应用的示例,可以采用如下计算方法进行文本相似度的计算:
首先,RFQ中含有的RFQ_Name和RFQ_Comment是先经过分词以及复数变单数变换处理的,可以得到一系列的单词字段和短语字段,那么文本相似度分为两部分,分别为关键词单词字段相似度和关键词短语字段相似度。下面分别介绍这两部分的相似度计算方法。
(一)关键词单词字段相似度:
关键词的相似度主要包括两部分:一部分为供应商分组的主要关键词(单词字段)和RFQ的相似度,另一部分是供应商分组的辅助关键词(单词字段,如供应商的product/service(产品/服务信息)的关键词)与RFQ的相似度。
1)供应商分组的主要关键词和RFQ的相似度(第一文本相似度):
计算公式如下:
其中,weight(Wi)表示关键词单词字段的属性所对应的权重;
percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;
NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);Name表示RFQ的标题subject的权重,comment表示是运营人员手工添加的字段的权重,这里可以根据这两种不同情况配置不同的权重。
2)供应商分组的辅助关键词product/service的相似度加权(第三文本相似度):
如果供应商提供了辅助关键词,如product/service信息,则可以考虑使用product/service信息作为供应商分组的主要关键词和RFQ的相似度的修正信息,即计算product/service与RFQ_Name和RFQ_Comment的关键词单词字段相似度,记为ProductServiceWordSimilarity,方法与计算供应商分组的主要关键词和RFQ的相似度一样;
计算公式如下:
KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity
其中,Wp是productService的配置权重,可在配置文件中更改,Similarity为第一文本相似度;当遇到化学和医疗行业时,默认product/service关键字信息匹配的相似度可以设置为0。
至此,经过如上计算得到的KeywordsSimilarity就是RFQ与当前供应商的当前产品分组的关键词单词字段相似度得分。
(二)关键词短语字段相似度
关键词短语字段相似度与关键词单词字段相似度一样,主要包括两部分:一部分为供应商分组的主要关键词组(短语字段)和RFQ的相似度,另一部分是供应商的辅助关键词组(短语字段,如product/service关键词组)与RFQ的相似度。
(3)供应商分组的主要关键词组和RFQ的相似度(第二文本相似度):
计算公式如下:
其中,weight(PHi)表示关键词短语字段的属性所对应的权重;
percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;
NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi),Name表示RFQ的标题subject的权重,comment表示是运营人员手工添加的字段的权重,这里可以根据这两种不同情况配置不同的权重。
4)供应商分组的辅助关键词product/service的相似度加权(第四文本相似度):
如果供应商提供了product/service信息,则可以使用product/service信息作为供应商分组的主要关键词组和RFQ的相似度的修正信息,即计算product/service与RFQ_Name和RFQ_Comment的关键词短语字段相似度,记为ProductServicePhraseSimilarity,方法与计算供应商词组和RFQ的相似度一样;
计算公式如下:
PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity
其中,Wp是product/service的配置权重,可在配置文件中更改,Similarity为第二文本相似度。当遇到化学和医疗行业时,默认product/service短语信息匹配的相似度为0。
至此,经过如上计算得到的PhraseSimilarity就是RFQ与当前供应商的当前产品分组的关键词短语字段相似度得分。
综上所述,总的文本相似度为:
TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2
其中,W1和W2分别为配置的权重。
当然,上述文本相似度的计算方式仅仅用作示例,本领域技术人员根据实际情况采用任一种计算方法均是可行的,本申请对此无需加以限制。
步骤105、获取所述候选结构化信息的特征属性参数;
在本申请的一种优选实施例中,所述特征属性参数可以包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分。
本申请实施例的相似度算法主要包括两个维度:文本相似度与主营系数,相似度分数是两者综合考察结果;其中,前面所述的文本相似度是从匹配的关键词类型的维度来划分的,可以包括关键词单词字段的文本相似度与关键词短语字段的文本相似度;从文本来源的维度来划分,可以分为供应商分组的主要关键词匹配与供应商分组的辅助关键词(product/service文本信息)匹配。本步骤中的主营系数是分组产品占比与分组在橱窗中的占比的一个综合指标,在实际中,主营系数可以从供应商信息文件中提取获得。
步骤106、根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;
在具体实现中,每个供应商的每个产品分组都有一个主营系数作为特征属性参数,表示的是该产品分组主营程度的得分,在这种情况下,可以采用如下公式计算候选结构化信息的分值:
Similarity=TextSimilarity*(1-Wm)+主营系数*Wm
其中,Wm是配置的主营系数的权重,TextSimilarity是步骤104的示例中的文本相似度得分。
在本申请的一种优选实施例中,所述特征属性参数还可以包括所述候选结构化信息的公共指标得分和个性化指标得分。
具体而言,所述公共指标得分可以采用如下公式进行计算:
Scorepublic=∑iPi*Wi,i=1,2
其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。
所述个性化指标得分可以通过如下公式进行计算:
Scorepersonalized=∑iScorei
在实际中,所述搜索需求信息还可以包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,产品类目的用户要求信息,和/或,供应商最小起定量的用户要求信息;在这种情况下,所述Scorei则可以包括供应商类型与相应用户要求信息的匹配度,供应商规模与相应用户要求信息的匹配度,供应商的主要市场与相应用户要求信息的匹配度,供应商的产品类目与相应用户要求信息的匹配度,和/或,供应商的最小起定量与相应用户要求信息的匹配度。
在本申请的一种优选实施例中,所述步骤106可以进一步包括如下子步骤:
子步骤S41、对根据文本相似度和主营系数计算的分值Similarity=TextSimilarity*(1-Wm)+主营系数*Wm,进行归一化处理为Score’match
在具体实现中,所述归一化处理可以采用如下公式进行:
其中,X′为X归一化处理后的结果。
子步骤S42、对特征属性参数Scorecustom进行归一化处理为Score’custom,其中,Scorecustom=Scorepublic+Scorepersonalized,Scorepublic为公共指标得分,Scorepersonalized为个性化指标得分;
子步骤S43、针对所述归一化处理后的文本相似度和特征属性参数,采用如下公式计算最终的候选结构化信息的分值:
Scoretotal=λScore’custom+(1-λ)Score’match
其中,λ是配置的参数。
在本步骤中,可以对候选供应商的产品分组信息分别计算个性化指标得分。个性化指标可以设置为供应商的活跃度,报价响应度,供应商类型,供应商规模等,计算得分策略为对满足买家相应维度要求的供应商分组进行加分。在本实施例中,个性化指标可以分为两部分,分别为公共部分和个性化部分,其中,公共部分为供应商活跃度和报价响应度,个性化部分为供应商类型、供应商规模等。依次计算公共部分得分Scorepublic、三个个性化部分得分Scorepersonalized,那么个性化指标排序的得分Scorecustom=Scorepublic+Scorepersonalized。
个性化指标得分具体的计算方法如下:
1)公共部分
其中,公共指标有两个指标,分别是供应商活跃度和供应商报价响应度。计算方法如下:假设供应商A的供应商活跃度为P1,报价响应度为P2,那个供应商A在公共指标部分的得分就是:Scorepublic=∑1P1*W1,其中,W1、W2为各自所占的权重,是可配置调整的。
2)个性化部分
这部分的指标主要包括供应商类型,供应商规模等。满足买家相应维度要求对供应商加分即可,所以Scorepersonalizde=∑iScorei
3)综合前面的几个步骤的结果计算总得分并排序。
最终的计算的总得分是相似度与个性化指标的综合考察,每个供应商取此一系列供应商的产品分组中得分最高的那个分组代表此供应商。假设计算出的文本相似度为Scorematch,对Scorematch进行归一化处理以后的结果为Score’match。那么总分的计算过程为:先对Scorecustom和Scorematch进行归一化处理以后的结果为Score’custom和Score’match,则最终的得分Scoretotal=λScore’custom+(1-λ)Score’match,其中λ是可以通过配置文件可配置的。
当然,上述特征属性参数的设置,以及,计算所述候选结构化信息的分值均仅仅用作示例,本领域技术人员设置其它特征属性参数,以及,采用其它候选结构化信息分值的计算方法均是可行的,本申请对此无需加以限制。
步骤107、根据所述候选结构化信息的分值进行排序。
在具体实现中,可以针对关键词单词字段和关键词短语字段配置属性,例如,所述关键词单词字段的属性可以包括核心词属性和产品词属性,在这种情况下,所述步骤107具体可以按如下规则进行排序:
(1)提取分值最高的前M个候选结构化信息,将位于前N位中满足自动推荐条件的置于最优先,后面的M-N位全部置为不自动推荐;所述M,N为正整数;
其中,所述自动推荐条件为:如果匹配的关键词字段中含有短语,将主营系数大于第一阈值的候选结构化信息设为自动推荐;如果匹配的关键词字段中只有单词,那么将具有核心词属性,并且,作为产品词属性在供应商的产品分组信息中的占比大于第二阈值,并且,主营系数大于第一阈值的候选结构化信息设为自动推荐;
例如,所述M为200,N为50,第一阈值为0.1。
对前N位和后M-N位分别按照如下规则进行排序:
(2)如果匹配的关键词字段含有单词和短语,则进入(3),如果不含有短语,则进入(8);
(3)在(2)相同的情况下,含有短语个数多的优先;
(4)在(3)相同的情况下,短语最长长度优先;
(5)在(4)相同的情况下,含有单词个数多的优先;
(6)在(5)相同的情况下,分值高的优先;
(7)在(6)相同的情况下,字母序优先,进入(11);
(8)在(2)相同的情况下,含有单词个数多的优先;
(9)在(8)相同的情况下,分值高的优先;
(10)在(9)相同的情况下,字母序优先。
当然,上述排序方法仅仅用作示例,本领域技术人员根据实际情况采用任一种排序方法均是可行的,本申请对此无需加以限制。
在具体实现中,本申请实施例还可以包括如下步骤:
步骤108、将所述候选结构化信息按排序展现给用户。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图2,示出了本申请的一种基于交易平台的结构化信息搜索装置实施例的结构框图,具体可以包括如下模块:
需求接收模块201,用于接收搜索需求信息;
分词模块202,用于对所述搜索需求信息进行分词,获得关键词字段;
候选结构化信息查找模块203,用于在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;
相似度计算模块204,用于采用所述关键词字段在所述候选结构化信息中计算文本相似度;
特征属性参数获取模块205,用于获取所述候选结构化信息的特征属性参数;
分值计算模块206,用于根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;
排序模块207,用于根据所述候选结构化信息的分值进行排序。
在具体实现中,在本申请实施例还可以包括如下模块:
展现模块208,用于将所述候选结构化信息按排序展现给用户。
在本申请的一种优选实施例中,所述搜索需求信息可以包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;
或者,用户提交的产品信息关键词和后台生成的产品信息关键词。
在具体实现中,所述分词后获得的关键词字段可以包括:关键词短语字段和关键词单词字段。
在这种情况下,所述预置的结构化信息库中包括多个结构化信息索引文件,所述候选结构化信息查找模块203可以包括如下子模块:
短语查找子模块,用于采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;
单词查找子模块,用于在采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K时,进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。
在本申请的另一种优选实施例中,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;在这种情况下,所述候选结构化信息查找模块203可以包括如下子模块:
单词匹配子模块,采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。
在交易平台的具体应用中,所述结构化信息可以为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述相似度计算模块204具体可以包括如下子模块:
第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第一综合子模块,用于根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。
在本申请的另一种优选实施例中,所述结构化信息可以为供应商的产品分组信息,所述供应商的产品分组信息中可以包括供应商分组的主要关键词和供应商分组的辅助关键词,在这种情况下,所述相似度计算模块204具体可以包括如下子模块:
第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第三文本相似度计算子模块,用于计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
第四文本相似度计算子模块,用于计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
第二综合子模块,用于根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。
作为本申请实施例具体应用的一种示例,可以采用以下公式计算第一文本相似度:
其中,weight(Wi)表示关键词单词字段的属性所对应的权重;
percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;
NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);
和/或,可以采用以下公式计算第二文本相似度:
其中,weight(PHi)表示关键词短语字段的属性所对应的权重;
Percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;
NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi);
和/或,可以采用以下公式计算第三文本相似度:
KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity
其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第一文本相似度;
和/或,可以采用以下公式计算第四文本相似度:
PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity
其中,Wp是供应商分组的辅助关键词的配置权重,Simliarity为第二文本相似度。
还可以采用以下公式根据第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度:
TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2
其中,W1和W2分别为配置的权重。
作为本申请实施例具体应用的一种示例,所述特征属性参数可以包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分;在这种情况下,可以采用如下公式根据文本相似度和特征属性参数计算所述候选结构化信息的分值:
Similarity=TextSimilarrity*(1-Wm)+主营系数*Wm
其中,Wm是主营系数的权重。
更为优选的是,所述特征属性参数还可以包括所述候选结构化信息的公共指标得分和个性化指标得分。
所述公共指标得分可以采用如下公式进行计算:
Scorepublic=∑iPi*Wi,i=1,2
其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。
所述个性化指标得分可以通过如下公式进行计算:
Scorepersonalized=∑iScorei
例如,所述搜索需求信息还可以包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,和/或,产品类目的用户要求信息;在这种情况下,则所述Scorei可以包括供应商类型与相应用户要求信息的匹配度,供应商规模与相应用户要求信息的匹配度,供应商的主要市场与相应用户要求信息的匹配度,和/或,供应商的产品类目与相应用户要求信息的匹配度。
在本申请实施例中,还可以采用以下方式根据文本相似度和特征属性参数计算所述候选结构化信息的分值:
对根据文本相似度和主营系数计算的分值Similarity=TextSimilarity*(1-Wm)+主营系数*Wm,进行归一化处理为Score’match
其中,所述归一化处理可以采用如下公式进行:
其中,X′为X归一化处理后的结果。
对特征属性参数Scorecustom进行归一化处理为Score’custom,其中,Scorecustom=Scorepublic+Scorepersonalized,Scorepublic为公共指标得分,Scorepersonalized为个性化指标得分;
针对所述归一化处理后的文本相似度和特征属性参数,采用如下公式计算最终的候选结构化信息的分值:
Scoretotal=λScore’custom+(1-λ)Score’match
其中,λ是配置的参数。
在具体实现中,所述关键词单词字段的属性可以包括核心词属性和产品词属性,所述根据候选结构化信息的分值进行的排序可以按如下规则进行:
(1)提取分值最高的前M个候选结构化信息,将位于前N位中满足自动推荐条件的置于最优先,后面的M-N位全部置为不自动推荐;所述M,N为正整数;
其中,所述自动推荐条件为:如果匹配的关键词字段中含有短语,将主营系数大于第一阈值的候选结构化信息设为自动推荐;如果匹配的关键词字段中只有单词,那么将具有核心词属性,并且,作为产品词属性在供应商的产品分组信息中的占比大于第二阈值,并且,主营系数大于第一阈值的候选结构化信息设为自动推荐;
对前N位和后M-N位分别按照如下规则进行排序:
(2)如果匹配的关键词字段含有单词和短语,则进入(3),如果不含有短语,则进入(8);
(3)在(2)相同的情况下,含有短语个数多的优先;
(4)在(3)相同的情况下,短语最长长度优先;
(5)在(4)相同的情况下,含有单词个数多的优先;
(6)在(5)相同的情况下,分值高的优先;
(7)在(6)相同的情况下,字母序优先,进入(11);
(8)在(2)相同的情况下,含有单词个数多的优先;
(9)在(8)相同的情况下,分值高的优先;
(10)在(9)相同的情况下,字母序优先。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种基于交易平台的结构化信息搜索方法和一种基于交易平台的结构化信息搜索装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (26)

1.一种基于交易平台的结构化信息搜索方法,其特征在于,包括:
接收搜索需求信息;
对所述搜索需求信息进行分词,获得关键词字段;
在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;
采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;
根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;
根据所述候选结构化信息的分值进行排序。
2.根据权利要求1所述的方法,其特征在于,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;
或者,用户提交的产品信息关键词和后台生成的产品信息关键词。
3.根据权利要求2所述的方法,其特征在于,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。
4.根据权利要求3所述的方法,其特征在于,所述预置的结构化信息库中包括多个结构化信息索引文件,所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:
采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;
若采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K,则进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。
5.根据权利要求2所述的方法,其特征在于,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:
采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。
6.根据权利要求2或3或4所述的方法,其特征在于,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:
计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。
7.根据权利要求2或3或4所述的方法,其特征在于,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:
计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。
8.根据权利要求7所述的方法,其特征在于,采用以下公式计算第一文本相似度:
S i m i l a r i t y = &Sigma; i w e i g h t ( W i ) * p e r c e n t ( W i ) * N a m e O r C o m m e n t ( W i )
其中,weight(Wi)表示关键词单词字段的属性所对应的权重;
percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;
NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);
和/或,采用以下公式计算第二文本相似度:
S i m i a l r i t y = &Sigma; i w e i g h t ( PH i ) * p e r c e n t ( PH i ) * N a m e O r C o m m e n t ( PH i )
其中,weight(PHi)表示关键词短语字段的属性所对应的权重;
percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;
NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi);
和/或,采用以下公式计算第三文本相似度:KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity
其中,ProductServiceWordSimilarity为供应商分组的辅助关键词和关键词单词字段的相似度,Wp是供应商分组的辅助关键词的配置权重,Similarity为第一文本相似度;
和/或,采用以下公式计算第四文本相似度:
PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity
其中,ProductServicePhraseSimilarity为供应商分组的辅助关键词和关键词短语字段的相似度,Wp是供应商分组的辅助关键词的配置权重,Similarity为第二文本相似度。
9.根据权利要求8所述的方法,其特征在于,采用以下公式根据第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度:
TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2
其中,W1和W2分别为配置的权重。
10.根据权利要求9所述的方法,其特征在于,所述特征属性参数包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分;所述根据文本相似度和特征属性参数计算所述候选结构化信息的分值的步骤采用如下公式进行计算:
Similarity=TextSimilaety*(1-Wm)+主营系数*Wm
其中,Wm是主营系数的权重。
11.根据权利要求8或9或10所述的方法,其特征在于,所述特征属性参数还包括所述候选结构化信息的公共指标得分;
所述公共指标得分采用如下公式进行计算:
Scorepublic=ΣiPi*Wi,i=1,2
其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。
12.根据权利要求11所述的方法,其特征在于,所述搜索需求信息还包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,产品类目的用户要求信息,和/或,供应商最小起定量的用户要求信息;
所述特征属性参数还包括所述候选结构化信息的个性化指标得分;
所述个性化指标得分通过如下公式进行计算:
Scorepersonalized=ΣiScorei
其中,所述Scorei包括供应商类型与相应用户要求信息的匹配度,供应商规模与相应用户要求信息的匹配度,供应商的主要市场与相应用户要求信息的匹配度,供应商的产品类目与相应用户要求信息的匹配度,和/或,供应商的最小起定量与相应用户要求信息的匹配度。
13.根据权利要求12所述的方法,其特征在于,所述根据文本相似度和特征属性参数计算所述候选结构化信息的分值的步骤进一步包括:
对根据文本相似度和主营系数计算的分值Similarity=TextSimilarity*(1-Wm)+主营系数*Wm,进行归一化处理为Score’match
对特征属性参数Scorecustom进行归一化处理为Score’custom,其中,Scorecustom=Scorepublic+Scorepersonalized,Scorepublic为公共指标得分,Scorepersonalized为个性化指标得分;
针对所述归一化处理后的文本相似度和特征属性参数,采用如下公式计算最终的候选结构化信息的分值:
Scoretotal=λScore’custom+(1-λ)Score’match
其中,λ是配置的参数。
14.根据权利要求13所述的方法,其特征在于,所述归一化处理采用如下公式进行:
X &prime; = X - min max - min ,
其中,X′为X归一化处理后的结果,max为样本数据中的最大值,min为样本数据中的最小值。
15.根据权利要求12或13或14所述的方法,其特征在于,所述关键词单词字段的属性包括核心词属性和产品词属性,所述根据候选结构化信息的分值进行排序的步骤包括:
(1)提取分值最高的前M个候选结构化信息,将位于前N位中满足自动推荐条件的置于最优先,后面的M-N位全部置为不自动推荐;所述M,N为正整数;
其中,所述自动推荐条件为:如果匹配的关键词字段中含有短语,将主营系数大于第一阈值的候选结构化信息设为自动推荐;如果匹配的关键词字段中只有单词,那么将具有核心词属性,并且,作为产品词属性在供应商的产品分组信息中的占比大于第二阈值,并且,主营系数大于第一阈值的候选结构化信息设为自动推荐;
对前N位和后M-N位分别按照如下规则进行排序:
(2)如果匹配的关键词字段含有单词和短语,则进入(3),如果不含有短语,则进入(8);
(3)在(2)相同的情况下,含有短语个数多的优先;
(4)在(3)相同的情况下,短语最长长度优先;
(5)在(4)相同的情况下,含有单词个数多的优先;
(6)在(5)相同的情况下,分值高的优先;
(7)在(6)相同的情况下,字母序优先,进入(11);
(8)在(2)相同的情况下,含有单词个数多的优先;
(9)在(8)相同的情况下,分值高的优先;
(10)在(9)相同的情况下,字母序优先。
16.根据权利要求1所述的方法,其特征在于,还包括:
将所述候选结构化信息按排序展现给用户。
17.一种基于交易平台的结构化信息搜索装置,其特征在于,包括:
需求接收模块,用于接收搜索需求信息;
分词模块,用于对所述搜索需求信息进行分词,获得关键词字段;
候选结构化信息查找模块,用于在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;
相似度计算模块,用于采用所述关键词字段在所述候选结构化信息中计算文本相似度;
特征属性参数获取模块,用于获取所述候选结构化信息的特征属性参数;
分值计算模块,用于根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;
排序模块,用于根据所述候选结构化信息的分值进行排序。
18.根据权利要求17所述的装置,其特征在于,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;
或者,用户提交的产品信息关键词和后台生成的产品信息关键词。
19.根据权利要求18所述的装置,其特征在于,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。
20.根据权利要求19所述的装置,其特征在于,所述预置的结构化信息库中包括多个结构化信息索引文件,所述候选结构化信息查找模块包括:
短语查找子模块,用于采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;
单词查找子模块,用于在采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K时,进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。
21.根据权利要求18所述的装置,其特征在于,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述候选结构化信息查找模块包括:
单词匹配子模块,采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。
22.根据权利要求18或19或20所述的装置,其特征在于,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述相似度计算模块包括:
第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第一综合子模块,用于根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。
23.根据权利要求18或19或20所述的装置,其特征在于,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述相似度计算模块包括:
第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;
第三文本相似度计算子模块,用于计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
第四文本相似度计算子模块,用于计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;
第二综合子模块,用于根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。
24.根据权利要求23所述的装置,其特征在于,所述特征属性参数包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分。
25.根据权利要求24所述的装置,其特征在于,所述特征属性参数还包括所述候选结构化信息的公共指标得分和个性化指标得分。
26.根据权利要求17所述的装置,其特征在于,还包括:
展现模块,用于将所述候选结构化信息按排序展现给用户。
CN201210065899.6A 2012-03-13 2012-03-13 一种基于交易平台的结构化信息搜索方法和装置 Active CN103309886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210065899.6A CN103309886B (zh) 2012-03-13 2012-03-13 一种基于交易平台的结构化信息搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210065899.6A CN103309886B (zh) 2012-03-13 2012-03-13 一种基于交易平台的结构化信息搜索方法和装置

Publications (2)

Publication Number Publication Date
CN103309886A CN103309886A (zh) 2013-09-18
CN103309886B true CN103309886B (zh) 2017-05-10

Family

ID=49135123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210065899.6A Active CN103309886B (zh) 2012-03-13 2012-03-13 一种基于交易平台的结构化信息搜索方法和装置

Country Status (1)

Country Link
CN (1) CN103309886B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750701A (zh) * 2013-12-27 2015-07-01 中兴通讯股份有限公司 搜索处理方法、装置及终端
CN104750762A (zh) * 2013-12-31 2015-07-01 华为技术有限公司 一种信息检索方法及装置
CN104035980B (zh) * 2014-05-26 2017-08-04 王和平 一种面向结构化医药信息的检索方法和系统
CN105404680A (zh) * 2015-11-25 2016-03-16 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN109063075A (zh) * 2015-12-31 2018-12-21 上海智臻智能网络科技股份有限公司 优化抽象语义库的方法、装置及存储介质
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置
CN107203548A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 属性获取方法和装置
CN108108380B (zh) * 2016-11-25 2022-05-31 阿里巴巴集团控股有限公司 搜索排序方法、搜索排序装置、搜索方法和搜索装置
CN106708802A (zh) * 2016-12-20 2017-05-24 西南石油大学 一种信息推荐的方法及系统
CN107103066A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种用户偏好的检索方法及装置
CN107105031A (zh) * 2017-04-20 2017-08-29 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107766400A (zh) * 2017-05-05 2018-03-06 平安科技(深圳)有限公司 文本检索方法及系统
CN107515904B (zh) * 2017-07-31 2020-11-06 北京拉勾科技有限公司 一种职位搜索方法和计算设备
CN108304554B (zh) * 2018-02-02 2020-07-28 平安证券股份有限公司 文件拆分方法、装置、计算机设备和存储介质
CN108595507A (zh) * 2018-03-21 2018-09-28 上海数据交易中心有限公司 数据流通方法、装置及系统、存储介质、终端
CN108595431B (zh) * 2018-04-28 2020-09-25 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
CN109241238B (zh) * 2018-06-27 2022-02-08 阿里巴巴(中国)有限公司 文章搜索方法、装置及电子设备
CN110019486B (zh) * 2018-07-19 2023-04-11 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN109408645B (zh) * 2018-10-15 2021-02-26 国信优易数据股份有限公司 一种实体类型确定方法和装置
WO2020093289A1 (zh) * 2018-11-07 2020-05-14 深圳市欢太科技有限公司 资源推荐方法、装置、电子设备及存储介质
CN109635276B (zh) * 2018-11-12 2020-12-11 厦门市美亚柏科信息股份有限公司 一种信息匹配方法及终端
CN109767292A (zh) * 2018-12-20 2019-05-17 厦门笨鸟电子商务有限公司 一种买家公司推荐方法
CN110659422A (zh) * 2019-09-27 2020-01-07 百度在线网络技术(北京)有限公司 检索方法、装置、电子设备及存储介质
CN112684905A (zh) * 2019-10-17 2021-04-20 北京搜狗科技发展有限公司 一种学词方法、装置和电子设备
CN112380322A (zh) * 2020-11-24 2021-02-19 云汉芯城(上海)互联网科技股份有限公司 一种询价文本处理方法、系统及电子设备和存储介质
CN112700830B (zh) * 2020-12-30 2023-03-24 医渡云(北京)技术有限公司 从电子病历中提取结构化信息的方法、装置及存储介质
CN112800083B (zh) * 2021-02-24 2022-03-18 山东省住房和城乡建设发展研究院 一种面向政府决策的政务大数据分析方法及设备
CN113434654A (zh) * 2021-07-13 2021-09-24 北京沃东天骏信息技术有限公司 一种数据处理方法及装置、设备、存储介质
CN116628315B (zh) * 2023-04-07 2024-03-22 百度在线网络技术(北京)有限公司 搜索方法、深度学习模型的训练方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102084363A (zh) * 2008-07-03 2011-06-01 加利福尼亚大学董事会 一种用于在结构化数据上高效地支持交互式模糊搜索的方法
CN102214238A (zh) * 2011-07-01 2011-10-12 临沂大学 一种汉语词语相近性匹配装置及方法
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359282B2 (en) * 2009-01-12 2013-01-22 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102084363A (zh) * 2008-07-03 2011-06-01 加利福尼亚大学董事会 一种用于在结构化数据上高效地支持交互式模糊搜索的方法
CN102214238A (zh) * 2011-07-01 2011-10-12 临沂大学 一种汉语词语相近性匹配装置及方法
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统

Also Published As

Publication number Publication date
CN103309886A (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
CN103309886B (zh) 一种基于交易平台的结构化信息搜索方法和装置
Riaz et al. Opinion mining on large scale data using sentiment analysis and k-means clustering
CN103377190B (zh) 一种基于交易平台的供应商信息搜索方法和装置
US10120861B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
TWI557664B (zh) Product information publishing method and device
US9117006B2 (en) Recommending keywords
US9002857B2 (en) Methods for searching with semantic similarity scores in one or more ontologies
Su et al. Semantic enrichment for ontology mapping
CN104252456A (zh) 一种权重估计方法、装置及系统
CN112818661B (zh) 一种专利技术关键词非监督提取方法
Yang et al. A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators
CN114254201A (zh) 一种科技项目评审专家的推荐方法
Zhang et al. A data processing method based on sequence labeling and syntactic analysis for extracting new sentiment words from product reviews
Moya et al. Integrating web feed opinions into a corporate data warehouse
Nan et al. DO ONLY REVIEW CHARACTERISTICS AFFECT CONSUMERS'ONLINE BEHAVIORS? A STUDY OF RELATIONSHIP BETWEEN REVIEWS.
Ghosal et al. Weighted aspect based sentiment analysis using extended OWA operators and Word2Vec for tourism
Wang et al. Sentiment information extraction of comparative sentences based on CRF model
Li Research on extraction of useful tourism online reviews based on multimodal feature fusion
Glenis et al. Pyexplore: Query recommendations for data exploration without query logs
CN113538106A (zh) 基于评论整合挖掘的商品精细化推荐方法
Wachsmuth et al. Text analysis pipelines
Anuradha et al. Fuzzy based summarization of product reviews for better analysis
Chen et al. A template approach for summarizing restaurant reviews
Iftikhar et al. Amazon products reviews classification based on machine learning, deep learning methods and BERT
Liu et al. Application of fuzzy analytic hierarchy process–multi-layer fuzzy inference system in product design evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1185681

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1185681

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20240223

Address after: 51 Belarusian Road, Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands

TR01 Transfer of patent right