CN106354844B - 基于文本挖掘的服务组合包推荐系统及方法 - Google Patents
基于文本挖掘的服务组合包推荐系统及方法 Download PDFInfo
- Publication number
- CN106354844B CN106354844B CN201610794365.5A CN201610794365A CN106354844B CN 106354844 B CN106354844 B CN 106354844B CN 201610794365 A CN201610794365 A CN 201610794365A CN 106354844 B CN106354844 B CN 106354844B
- Authority
- CN
- China
- Prior art keywords
- service
- span
- relationship
- services
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Abstract
本发明提供了一种基于文本挖掘的服务组合包推荐系统及方法,包括步骤1:收集历史服务组合数据构造数据集,并将数据集中历史服务组合和历史服务组合的功能描述构造成服务数据库;步骤2:根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块;步骤3:为每个服务组合构造句际关系树,得到不同语句块之间的关系;步骤4:获取不同服务之间的关系;步骤5:统计服务之间的关系生成关系矩阵;步骤6:将用户需求分解成语句块,为每个语句块推荐前K个服务,K为正整数;步骤7:结合关系矩阵对每个语句块中的服务进行语义匹配,得到推荐给用户的服务包。本发明能够帮助用户更好地建模,为用户推荐服务组合包,从而提升服务推荐的整体效果。
Description
技术领域
本发明涉及互联网服务检索技术领域,具体地,涉及一种基于文本挖掘的服务组合包推荐系统及方法。
背景技术
随着服务计算领域的发展,服务的实现和承载形式经过长时间的发展变得越来越丰富,呈现了多样化的态势。为不同需求的用户提供定制化的服务正逐渐受到关注。传统的服务提供商无法为每一个特定需求提供定制化服务,因此,服务组合成为提供个性化服务的解决方案。例如,用户如果需要在所处位置寻找合适的餐厅就餐,需要通过地图服务列出本地的餐厅,再在评价服务上获取餐厅的信息,若将两种服务组合,则可以为用户需求提供个性化的解决方案。广大用户可以借助服务组合开发平台,如Yahoo!Pipes,IBM DAMIA和WSO2,采用可视化的方式组合服务,从而提高了开发速度,减少了开发成本。
然而随着互联网上服务数量的增长,要为服务组合找到合适的服务并非易事。因此推荐技术成为在服务组合创建过程中的有效手段。根据用户的需求,挖掘服务组合的历史数据,准确高效地为用户提供合适服务的建议,减少用户为获取合适组合包所花费的时间。
服务组合(Mashup)通过对现有的Web服务糅合以构造新服务,从而成为个性化服务的一个重要解决方案。然而,随着互联网上服务数量的快速增长,开发者如何从种类繁多的Web服务中选择合适的服务组成服务组合成为一个迫切需要研究的问题。目前,用户通过Web服务搜索引擎中来搜索服务,但基于关键词的匹配往往无法为用户找到真正适合的服务。已有的面向服务组合的推荐一方面存在着冷启动问题,即无法推荐新的服务,另一方面推荐没有考虑服务的相互合作,即无法推荐功能互补的服务。实际上,服务组合的开发者希望推荐的是满足需求且功能上互补的服务包(Service Package)。由于服务组合往往遵循特定模式,我们结合传统的服务组合推荐中的不足,通过采集和挖掘服务组合的历史数据,从已有服务组合挖掘服务之间的关系,设计出有效的服务组合包推荐算法。
由于服务组合的特殊性,目前主流的推荐方法有基于QoS信息的服务推荐,基于协同过滤的服务推荐,基于社会关系的服务推荐以及基于内容检索的服务推荐。而服务组合推荐和这些推荐的不同之处在于推荐的内容是以一个组合的形式存在,推荐的服务相互之间应该是互补的关系。因此服务组合推荐通过对历史数据的分析,旨在利用服务之间的社会关系信息,帮助生成推荐服务组合,从而解决冷启动和互补问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于文本挖掘的服务组合包推荐系统及方法。
根据本发明提供的基于文本挖掘的服务组合包推荐方法,包括如下步骤:
步骤1:收集历史服务组合数据构造数据集,并将数据集中所有的历史服务组合和历史服务组合的功能描述构造成一个服务数据库;
步骤2:根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块;
步骤3:为每个服务组合构造句际关系树,得到不同语句块之间的关系;
步骤4:将语句块和服务通过潜在语义模型进行一一对应,得到不同服务之间的关系;
步骤5:统计服务之间的关系生成关系矩阵;
步骤6:将用户需求分解成语句块,为每个语句块推荐前K个服务,K为正整数;
步骤7:结合关系矩阵对每个语句块中的服务进行语义匹配,得到推荐给用户的服务包。
优选地,所述步骤2中的修辞关系包括:比喻、白描、对比、层递、变用、衬托、顶真、倒装、反语、仿词、互体、排比、夸张、双关、歇后、象征、谦敬语。
优选地,所述步骤2中历史服务组合的功能性描述指的是自然语言,自然语言中的语句块之间存在相互联系,即各个语句块是以某一关系组合在一起以描述整体的功能。
优选地,所述步骤3中的句际关系树是指:句际关系树通过对文本进行结构分析形成,树的叶子节点表示连续的基本话语单元,相邻话语单元通过修辞关系链接在一起形成由内部节点表示的高一级话语单元。
优选地,所述步骤4中的潜在语义模型是指LSI模型,所述LSI模型是一种奇异值分解方法,该方法能够获得语句块和服务功能描述之间的关系。
优选地,所述步骤5中的服务之间的关系包括:共现关系和语义关系,其中语义关系包括:sameblock、comparison-comparison、joint-joint、topic-comment-topic-comment、temporal-temporal、span-condition、condition-span、attribution-span、span-attribution、enablement-span、span-enablement、manner-means-span、span-manner-means、span-contrast、contrast-span、joint-joint、background-span、span-background、span-cause、cause-span、span-elaboration、elaboration-span、same-unit-same-unit、span-temporal、temporal-span、explanation-span、span-explanation、topic-comment-span、span-topic-comment、contrast-contras、comparison-span、span-comparison、together。
根据本发明提供的基于文本挖掘的服务组合包推荐系统,包括以下模块:
历史服务组合数据收集模块,用于收集历史服务组合数据构造数据集,并将数据集中所有的历史服务组合和历史服务组合的功能描述构造成一个服务数据库;
语句块分割模块,用于根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块;
修辞树构造模块,用于为每个服务组合构造句际关系树,得到不同语句块之间的关系;
语句块与服务匹配模块,用于将语句块和服务通过潜在语义模型进行一一对应,得到不同服务之间的关系;
服务关系矩阵生成模块,用于统计服务之间的关系生成关系矩阵;
服务推荐模块,用于将用户需求分解成语句块,为每个语句块推荐前K个服务,K为正整数;
服务包推荐模块,用于结合关系矩阵对每个语句块中的服务进行语义匹配,得到推荐给用户的服务包。
与现有技术相比,本发明具有如下的有益效果:
本发明通过挖掘历史服务之间的潜在关系,使推荐的服务不再是相似的关系,而是互补的关系,潜在的语义关系利用历史数据挖掘出来,不需要额外的数据,从而通过这种方式可以帮助用户更好地建模,为用户推荐互补的服务组合包,从而提升服务推荐的整体效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的基于文本挖掘的服务组合包推荐系统的架构示意图;
图2为本发明提供的基于文本挖掘的服务组合包推荐方法的流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
当用户给出所需构造的服务组合的文本描述,使用修辞关系分析将描述划分成若干独立的语句块,并和每一个候选服务计算相似度,本发明使用TF-IDF提取关键词,由于基于关键词的匹配往往会丢失掉一些信息,例如猫和动物从字面上看就是较低的相似度,但实际上他们是一种从属关系。因此为给定的描述寻找匹配的服务时,基于关键词的匹配会带来很多错误匹配。使用WordNet来计算单词之间的相似度,从而避免错误匹配。每个语句块对应的前K个服务认为是与该服务组合有最大的相关性,因此组成一个推荐集合。然而为了推荐一个服务包,除了考虑服务组合和服务之间的联系,还需要考虑服务之间的关系。
服务组合包推荐系统根据服务组合的特点,对历史服务组合的功能描述进行分析以发现服务之间潜在的语义关系,并将这一语义关系应用到服务组合推荐中。通过使用修辞分析将文本描述分解成语句块,由语句块之间的语义关系分析出服务之间的语义关系,从而生成服务关系矩阵。
为了更好的刻画关键词的相关性,将数据集中所有的历史服务组合和使用的服务的描述构造了一个服务仓库。服务组合的描述一般是自然语言的形式,其所包含的语句块并不是彼此独立的。语句块是以特定的关系组织在一起,从而可以描述整体的功能。在自然语言处理中,修辞关系分析可以很好的发现服务之间的相关性。修辞关系分析首先将服务组合的描述划分成若干个语句块,实际上也就是找到语句块的边界。之后将得到的语句块构造成修辞树,从而找到语句块之间的关系。将语句块和服务通过潜在语义模型(LSI)对应起来,从而学习出服务之间的关系。LSI是一种奇异值分解方法以获得语句块和服务描述之间关系的索引和获取方法。如表1所示,服务之间包含有非常丰富的关系,总体来说分为共现关系和语义关系,语义关系又进一步包括sameblock,comparison-comparison,joint-joint等等。
根据以上描述,把服务推荐问题转换成了依赖服务之间关系的服务包推荐问题。当为服务组合推荐了若干服务之后,结合在历史数据上生成的服务关系矩阵,将互补的服务组合推荐给用户,那么,如何分析历史数据并生成服务关系矩阵是问题的关键。具体推荐流程如图2所示。
表1
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (6)
1.一种基于文本挖掘的服务组合包推荐方法,其特征在于,包括如下步骤:
步骤1:收集历史服务组合数据构造数据集,并将数据集中所有的历史服务组合和历史服务组合的功能描述构造成一个服务数据库;
步骤2:根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块;
步骤3:为每个服务组合构造句际关系树,得到不同语句块之间的关系;
步骤4:将语句块和服务通过潜在语义模型进行一一对应,得到不同服务之间的关系;
步骤5:统计服务之间的关系生成关系矩阵;
步骤6:将用户需求分解成语句块,为每个语句块推荐前K个服务,K为正整数;
步骤7:结合关系矩阵对每个语句块中的服务进行语义匹配,得到推荐给用户的服务包;
所述步骤3中的句际关系树是指:句际关系树通过对文本进行结构分析形成,树的叶子节点表示连续的基本话语单元,相邻话语单元通过修辞关系链接在一起形成由内部节点表示的高一级话语单元。
2.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法,其特征在于,所述步骤2中的修辞关系包括:比喻、白描、对比、层递、变用、衬托、顶真、倒装、反语、仿词、互体、排比、夸张、双关、歇后、象征、谦敬语。
3.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法,其特征在于,所述步骤2中历史服务组合的功能性描述指的是自然语言,自然语言中的语句块之间存在相互联系,即各个语句块是以某一关系组合在一起以描述整体的功能。
4.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法,其特征在于,所述步骤4中的潜在语义模型是指LSI模型,所述LSI模型是一种奇异值分解方法,该方法能够获得语句块和服务功能描述之间的关系。
5.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法,其特征在于,所述步骤5中的服务之间的关系包括:共现关系和语义关系,其中语义关系包括:sa m e bl o c k、comparison-comparison、joint-joint、topic-comment-topic-comment、temporaltemporal、span-condition、condition-span、attribution-span、span-attribution、enablement-span、span-enablement、manner-means-span、span-manner-means、spancontrast、contrast-span、joint-joint、background-span、span-background、spancause、cause-span、span-elaboration、elaboration-span、same-unit-same-unit、spantemporal、temporal-span、explanation-span、span-explanation、topic-comment-span、span-topic-comment、contrast-contras、comparison-span、span-comparison、together。
6.一种基于文本挖掘的服务组合包推荐系统,其特征在于,包括以下模块:
历史服务组合数据收集模块,用于收集历史服务组合数据构造数据集,并将数据集中所有的历史服务组合和历史服务组合的功能描述构造成一个服务数据库;
语句块分割模块,用于根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块;
修辞树构造模块,用于为每个服务组合构造句际关系树,得到不同语句块之间的关系;句际关系树是指:句际关系树通过对文本进行结构分析形成,树的叶子节点表示连续的基本话语单元,相邻话语单元通过修辞关系链接在一起形成由内部节点表示的高一级话语单元;
语句块与服务匹配模块,用于将语句块和服务通过潜在语义模型进行一一对应,得到不同服务之间的关系;
服务关系矩阵生成模块,用于统计服务之间的关系生成关系矩阵;
服务推荐模块,用于将用户需求分解成语句块,为每个语句块推荐前K个服务,K为正整数;
服务包推荐模块,用于结合关系矩阵对每个语句块中的服务进行语义匹配,得到推荐给用户的服务包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610794365.5A CN106354844B (zh) | 2016-08-31 | 2016-08-31 | 基于文本挖掘的服务组合包推荐系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610794365.5A CN106354844B (zh) | 2016-08-31 | 2016-08-31 | 基于文本挖掘的服务组合包推荐系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106354844A CN106354844A (zh) | 2017-01-25 |
CN106354844B true CN106354844B (zh) | 2020-08-04 |
Family
ID=57856342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610794365.5A Active CN106354844B (zh) | 2016-08-31 | 2016-08-31 | 基于文本挖掘的服务组合包推荐系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354844B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107031617B (zh) * | 2017-02-22 | 2019-06-14 | 湖北文理学院 | 一种汽车智能驾驶的方法及装置 |
US11809825B2 (en) | 2017-09-28 | 2023-11-07 | Oracle International Corporation | Management of a focused information sharing dialogue based on discourse trees |
EP3688609A1 (en) * | 2017-09-28 | 2020-08-05 | Oracle International Corporation | Determining cross-document rhetorical relationships based on parsing and identification of named entities |
JP7258047B2 (ja) | 2018-05-09 | 2023-04-14 | オラクル・インターナショナル・コーポレイション | 収束質問に対する回答を改善するための仮想談話ツリーの構築 |
CN109190115B (zh) * | 2018-08-14 | 2023-05-26 | 重庆邂智科技有限公司 | 一种文本匹配方法、装置、服务器及存储介质 |
US11580298B2 (en) | 2019-11-14 | 2023-02-14 | Oracle International Corporation | Detecting hypocrisy in text |
CN111539784B (zh) * | 2020-04-10 | 2023-05-26 | 上海交通大学 | 基于组合语义学习的服务包推荐方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102331929A (zh) * | 2011-06-27 | 2012-01-25 | 武汉大学 | 一种基于服务组合历史的服务分类和推荐方法 |
CN102902740A (zh) * | 2012-09-12 | 2013-01-30 | 北京航空航天大学 | Web服务组合推荐方法及设备 |
CN104008195A (zh) * | 2014-06-13 | 2014-08-27 | 清华大学 | 面向服务组合的服务推荐方法 |
CN105389358A (zh) * | 2015-11-04 | 2016-03-09 | 浙江工商大学 | 基于关联规则的Web服务推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140337372A1 (en) * | 2013-05-13 | 2014-11-13 | Samsung Electronics Co., Ltd. | Method of providing program using semantic mashup technology |
-
2016
- 2016-08-31 CN CN201610794365.5A patent/CN106354844B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102331929A (zh) * | 2011-06-27 | 2012-01-25 | 武汉大学 | 一种基于服务组合历史的服务分类和推荐方法 |
CN102902740A (zh) * | 2012-09-12 | 2013-01-30 | 北京航空航天大学 | Web服务组合推荐方法及设备 |
CN104008195A (zh) * | 2014-06-13 | 2014-08-27 | 清华大学 | 面向服务组合的服务推荐方法 |
CN105389358A (zh) * | 2015-11-04 | 2016-03-09 | 浙江工商大学 | 基于关联规则的Web服务推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106354844A (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106354844B (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
Cantador et al. | Enriching ontological user profiles with tagging history for multi-domain recommendations | |
Afyouni et al. | Multi-feature, multi-modal, and multi-source social event detection: A comprehensive survey | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
US20100205176A1 (en) | Discovering City Landmarks from Online Journals | |
CN104933164A (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
US9069880B2 (en) | Prediction and isolation of patterns across datasets | |
Faralli et al. | Automatic acquisition of a taxonomy of microblogs users’ interests | |
US20230111911A1 (en) | Generation and use of content briefs for network content authoring | |
Schatten et al. | An introduction to social semantic web mining & big data analytics for political attitudes and mentalities research | |
Wu et al. | SQL-like interpretable interactive video search | |
Song et al. | Recommending hashtags to forthcoming tweets in microblogging | |
Varga et al. | Integrating dbpedia and sentiwordnet for a tourism recommender system | |
KR102025813B1 (ko) | 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법 | |
Santoso et al. | An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites. | |
Rogushina et al. | Use of ontologies for metadata records analysis in big data | |
Leotta et al. | My MOoD, a Multimedia and Multilingual Ontology Driven MAS: Design and First Experiments in the Sentiment Analysis Domain. | |
Celli et al. | Discovering, indexing and interlinking information resources | |
Kiomourtzis et al. | NOMAD: Linguistic Resources and Tools Aimed at Policy Formulation and Validation. | |
Nauerz et al. | Personalized recommendation of related content based on automatic metadata extraction | |
Korger et al. | Textual case-based adaptation using semantic relatedness-a case study in the domain of security documents | |
Vassilakis et al. | Database knowledge enrichment utilizing trending topics from Twitter | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 | |
Lachake et al. | A survey on personalized search: an web Information retrieval system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |