CN112749272A - 面向非结构化数据的新能源规划性文本智能推荐方法 - Google Patents

面向非结构化数据的新能源规划性文本智能推荐方法 Download PDF

Info

Publication number
CN112749272A
CN112749272A CN202110070162.2A CN202110070162A CN112749272A CN 112749272 A CN112749272 A CN 112749272A CN 202110070162 A CN202110070162 A CN 202110070162A CN 112749272 A CN112749272 A CN 112749272A
Authority
CN
China
Prior art keywords
text
recommendation list
user
information
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110070162.2A
Other languages
English (en)
Inventor
刘劲松
谢国辉
刘思革
余秋霞
栾凤奎
谢祥颖
艾宇飞
李娜娜
吴静
娄奇鹤
樊昊
马晓光
隋佳音
徐若然
葛乐矣
刘润彪
单雨
王少婷
贺铮
李岩昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid New Energy Cloud Technology Co ltd
State Grid Corp of China SGCC
State Grid Energy Research Institute Co Ltd
State Grid E Commerce Co Ltd
Original Assignee
State Grid New Energy Cloud Technology Co ltd
State Grid Corp of China SGCC
State Grid Energy Research Institute Co Ltd
State Grid E Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid New Energy Cloud Technology Co ltd, State Grid Corp of China SGCC, State Grid Energy Research Institute Co Ltd, State Grid E Commerce Co Ltd filed Critical State Grid New Energy Cloud Technology Co ltd
Priority to CN202110070162.2A priority Critical patent/CN112749272A/zh
Publication of CN112749272A publication Critical patent/CN112749272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向非结构化数据的新能源规划性文本智能推荐方法,包括:获取用户的特征信息和浏览的文本信息;将用户的特征信息和浏览的文本信息与预设的知识图谱的实体进行匹配,得到实体对应表;通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;通过语义相似性矩阵生成第一文本推荐列表;通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;将第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表。由此,分别通过知识图谱以及协同过滤的方法对文本进行推荐,这样能够为用户提供更加丰富的内容,并且通过知识图谱的方式进行推荐还弥补了协同过滤算法的冷启动的问题。

Description

面向非结构化数据的新能源规划性文本智能推荐方法
技术领域
本发明涉及智能推荐领域,尤其涉及一种面向非结构化数据的新能源规划性文本智能推荐方法。
背景技术
新能源行业处于发展初期,发展初期是一个由政策等规划性文本主导的市场,为了让用户方便、及时的了解国家下发的各种政策信息,构建了能够用于搜索和浏览国家政策等规划性文本的能源互联网平台。
为了方便用户使用能源互联网平台,通常会为用户推荐相关的规划性文本信息,传统的推荐算法通常采用基于用户过去喜欢的内容,为用户推荐相似的内容,该种方式推荐的内容有限,无法为用户发现新的感兴趣的信息,无法满足用户的推荐需求。
发明内容
有鉴于此,本发明实施例公开了一种面向非结构化数据的新能源规划性文本智能推荐方法及装置,解决了现有技术中,不仅能够满足用户的推荐需求,并且不再存在冷启动的问题,即即使在用户没有浏览记录的情况下,也可以为用户推荐感兴趣的内容。
本发明实施例公开了一种规划性文本智能推荐方法,包括:
获取用户的特征信息和浏览的文本信息;
将用户的特征信息和浏览的文本信息与预设的知识图谱中的实体进行匹配,得到实体对应表;
通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;
通过语义相似性矩阵生成第一文本推荐列表;
通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;
将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表。
可选的,所述用户的特征信息至少包括:用户的基本信息、用户的浏览行为以及用户的个性化特征信息中的任意一个。
可选的,所述通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵,包括:
将所述知识图谱中实体以及实体之间的关系表示为低维向量;
通过计算每个向量之间的距离确定不同实体之间的语义相似性;
通过知识图谱中各个实体之间的语义相似性,生成与所述实体对应表中的实体相对应的语义相似性矩阵。
可选的,通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表,包括:
通过用户的特征信息和浏览的文本信息生表征用户与浏览的文本的关系的第一矩阵;
通过所述第一矩阵,计算用户之间的相似度;
基于用户之间的相似度,生成第三文本推荐列表;
基于用户浏览的文本信息生成文本偏好特征集;
通过计算文本偏好特征集与其它文本的相似性,生成第四文本推荐列表;
将所述第三文本推荐列表和第四文本推荐列表进行融合,得到第二文本推荐列表。
可选的,所述将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表,包括:
按照相似度对所述第一文本推荐列表中的文本进行排序;
按照相似度对第二文本推荐列表中的文本进行排序;
确定第一文本推荐列表和第二文本推荐列表的融合比例;
按照融合比例确定替换文本的数量;
按照第二推荐文本列表中文本的排序和替换文本的数量筛选出替换的文本;
将替换文本替换掉第一文本推荐列表中的部分文本,得到目标推荐文本。
可选的,还包括:
针对目标推荐列表中的任意一个文本,按照整句的维度对文本进行划分,得到包含所有句子的数据集;
对所述数据集中每个句子进行预处理,并提取数据集中的关键词;
从所述文本中获取包含关键词的句子;
计算包含关键词的句子之间的相似度;
去除掉相似度小于预设的相似度阈值的句子,得到关键句;
通过关键句生成文本的摘要,并将所述摘要推荐给用户。
本发明实施例还公开了一种面向非结构化数据的新能源规划性文本智能推荐装置,包括:
获取单元,用于获取用户的特征信息和浏览的文本信息;
实体匹配单元,用于将用户的特征信息和浏览的文本信息与预设的知识图谱中的实体进行匹配,得到实体对应表;
第一计算单元,用于通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;
第一文本推荐列表生成单元,用于通过语义相似性矩阵生成第一文本推荐列表;
第二文本推荐列表生成单元,用于通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;
结果输出单元,用于将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标推荐列表。
可选的,所述用户的特征信息至少包括:用户的基本信息、用户的浏览行为以及用户的个性化特征信息中的任意一个。
可选的,所述第一计算单元,包括:
转换单元,用于将所述知识图谱中实体以及实体之间的关系表示为低维向量;
第一计算子单元,用于通过计算每个向量之间的距离确定不同实体之间的语义相似性;
语义相似性矩阵生成单元,用于通过知识图谱中各个实体之间的语义相似性,生成与所述实体对应表中的实体相对应的语义相似性矩阵。
本发明实施例还公开了一种电子设备,包括:
存储器和处理器;
所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序时,执行上述所述的规划性文本的推荐方法。
本发明实施例公开了一种面向非结构化数据的新能源规划性文本智能推荐方法,包括:获取用户的特征信息和浏览的文本信息;将用户的特征信息和浏览的文本信息与预设的知识图谱的实体进行匹配,得到实体对应表;通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;通过语义相似性矩阵生成第一文本推荐列表;通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表。由此可知,本实施例中分别通过知识图谱以及协同过滤的方法对文本进行推荐,这样能够为用户提供更加丰富的内容,并且,通过知识图谱的方式进行推荐还弥补了协同过滤算法的冷启动的问题。除此之外,不仅考虑了用户特征也考虑了文本本身的特定对用户进行推荐,提升了推荐的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的一种面向非结构化数据的新能源规划性文本智能推荐方法的流程示意图;
图2示出了本发明实施例提供的一种将知识图谱中的三元组采用低维向量进行表示的示意图;
图3示出了本发明实施例提供的一种摘要生成方法的流程示意图;
图4示出了本发明实施例提供的一种面向非结构化数据的新能源规划性文本智能推荐装置的结构示意图;
图5示出了本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请人发现,在为用户推荐感兴趣的内容时,若采用目前常用的内容推荐方法,即基于用户过去喜欢的内容,例如用户的浏览记录,为用户推荐相似的内容,这种方式推荐的内容有限,无法为用户推荐其它感兴趣的内容。
为了避免这个问题,现有技术中也会采用协同滤波的方法为用户推荐内容,该算法可以通过用户之间的相似度为用户推荐其它用户可能感兴趣的内容。
但是,协同滤波算法,对于新加入的用户或者内容,由于系统没有其历史交互信息,因此无法进行准确地建模和推荐,这样就会存在冷启动的问题。
为了实现既能丰富推荐内容,也能避免冷启动的问题,本发明实施例提供的如下的文本智能推荐方法:
参考图1,示出了本发明实施例提供的一种面向非结构化数据的新能源规划性文本智能推荐方法的流程示意图,在本实施例中,该方法包括:
S101:获取用户的特征信息和浏览的文本信息;
本实施例中,用户的特征信息至少包括如下的特征中的一个:
用户的基础信息、用户的浏览行为以及用户的个性化特征。
并且,用户的特征信息包括但不仅限于上述提到的用户的基础信息、用户的浏览行为以及用户的个性化特征。
其中,用户的基本信息包括:姓名、性别、年龄、职业、地址等,用户的浏览行为为用户的本搜索记录、浏览记录、页面访问次数等;用户的个性化特征信息包括用户感兴趣的文本名称、文本类别、用户评价等。
本实施例中,知识图谱中包含了新能源领域的相关数据,知识图谱中是由三元组构成的,其中三元组的两边的节点为实体,节点之前的边为实体之间的关系,知识图谱中的实体为新能源领域的词汇。
其中,知识图谱的构建过程包括:本体建模、知识抽取与融合、D2R映射。
针对本体建模:
其中,本体建模主要是对知识图谱中存在的实体类型,以及各实体的基本属性进行定义:
具体过程包括:
1)分析已有关系型及资源型数据,构建新能源领域的概念体系;
2)定义新能源领域电站类型,设备、厂家、地域、时间等实体的基本属性;
其中,电站类型例如包括:光伏、风电、生物质能、储能等。
3)定义新能源领域中的电站类型、设备、厂家、地域、时间等实体间的关系,包括设备-生产厂家关系、电站-地域等。
针对知识抽取与融合:
根据上述本体建模定义的概念,从已有非结构化和半结构化数据中获取实体、关系以及实体属性信息,具体的包括:
1)实体抽取:
从不同的数据来源中抽取实体,数据来源可以包括:规划性文本内容、用户评论、新闻资讯、行业动态、厂家信息等。
优选的,可以通过Bi-LSTM+CRF模型从不同的数据来源中抽取实体。
举例说明:实体可以包括“光伏电站”、“用户”、“地区”等。
2)实体的属性抽取:
实体的属性抽取与上述的实体抽取基本上一致,本实施例中不再赘述。
3)实体之间的关系抽取:
使用远程监督方法,从现有知识库中抽取存在关系的实体对,然后从非结构化文本中抽取含有实体对的句子作为训练样例来训练关系提取器,并通过训练好的关系提取器从不同的数据来源中抽取实体之间的关系。
知识融合过程为:去除无效的数据,并对有效的实体中有关联关系的实体建立映射。
针对D2R映射:
主要是将关系型数据转换成三元组的形式的语义数据。
其中,对结构化数据进行知识映射的关键之处在于充分理解结构化数据中的基本结构,包括每个表格的含义及表格之间的关联,以及知识图谱的结构,使用D2RML把结构化数据中的表格与知识图谱中的概念或实体关联起来。知识抽取服务连接映射文件中的目标数据库,读取相应表格中的数据,把关系型数据库中的表和列数据分别映射成概念的实体以及实体的属性,然后把这些映射得到的知识存储到新能源知识图谱中。
S102:将用户的特征信息和浏览的文本信息与预设的知识图谱中的实体进行对应,得到实体对应表;
本实施例中,实体对应表中包括从用户的特征信息和浏览的文本信息中获取的实体,并且实体对应表中的实体也是存在于知识图谱中的。
优选的,S102的实现过程可以包括:
对用户的特征信息和浏览的文本信息进行分词处理,得到分词项;
将得到的分词项与所述知识图谱进行匹配,得到与知识图谱匹配目标分词项;
通过目标分词项构建实体对应表。
本实施例中,知识图谱中包括
S103:通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;
本实施例中,语义相似性矩阵的计算,可以理解为,实体对应表中的实体与知识图谱中其它实体的相似性,语义相似性矩阵的计算,可以包括多种方法,本实施例中不进行限定优选的,可以采用如下的方法:
将所述知识图谱中实体以及实体之间的关系表示为低维向量;
通过计算每个向量之间的夹角确定不同实体之间的语义相似性;
通过知识图谱中各个实体之间的语义相似性,生成与所述实体对应表中的实体相对应的语义相似性矩阵。
其中,将知识图谱中实体以及实体之间的关系表示为低维向量可以通过TransE算法的方法实现,将知识图谱的词汇嵌入到低维空间中,并生成对应的向量,从而得到关于新能源领域的实体向量集E和关系向量集R,并通过TransE算法得到能计算语义相似性的向量集。
举例说明:如图2所示,示出了本发明实施例提供的一种将知识图谱中的三元组采用低维向量进行表示的示意图,其中,h和t分别是头实体向量和尾实体向量,r是关系向量,由此来表示一个三元组的信息,即h和t分别表示三元组中的两个实体,r表示三元组中两个实体之间的关系。
其中,通过低维向量确定不同实体之间的语义相似性的过程可以包括:
计算两个实体之间的夹角,确定夹角的余弦值;
若所述余弦值越小,则表示这两个向量对应的实体的语义相似性越高;
若所述余弦值越大,则表示这两个向量对应的实体的语义相似性越低。
S104:通过语义相似性矩阵生成第一文本推荐列表;
本实施例中,在得到语义相似性矩阵后,可以通过语义相似性矩阵为用户推荐。其中,语义相似性矩阵中包含与用户感兴趣的实体相似的其它实体,这样可以通过扩展后的实体为用户推荐文本。
本实施例中,推荐给用户的第一文本推荐列表可以是经过相似度排序的。
S105:通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;
本实施例中,协同过滤算法通常采用用户的协同过滤,即基于根据与用户兴趣相似的邻近用户群的文本偏好来进行文本的推荐。但是申请人发现,文本本身具有广泛性、同类型、相似性以及文本之间的关联,那么基于文本本身的属性,也可以进行推荐。
由此,本实施例中,协同过滤算法基于用户和文本两个特征进行推荐,优选的S105可以采用如下的方法:
通过用户的特征信息和浏览的文本信息生表征用户与浏览的文本的关系的第一矩阵;
通过所述第一矩阵,计算用户之间的相似度;
基于用户之间的相似度,生成第三文本推荐列表;
基于用户浏览的文本信息生成文本偏好;
通过计算文本偏好与其它文本的相似性,生成第四文本推荐列表;
将所述第三文本推荐列表和第四文本推荐列表进行融合,得到第二文本推荐列表。
本实施例中,第一矩阵为文本-用户评分矩阵,该矩阵中包括不同用户与浏览的文本的关系,例如下表1所示:
表1
Figure BDA0002905504400000091
通过上述第一矩阵,可以计算用户之间的相似性,进而通过具有相似性的用户为用户推荐文本,并生成第三文本推荐列表。
对于文本特征,通过用户浏览的文本信息生成文本偏好特征集与其它文本的相似性,从而得到用于推荐给用户的第四文本。
可以基于预设的融合比例,将第三文本推荐列表中的文本与第四文本推荐列表中的文本进行融合。
S106:将所述第一文本推荐列表和第二文本推荐来列表进行融合,得到目标推荐列表。
本实施例中,上述S101-S105分别采用了不同的方式,得到的用户可能感兴趣的文本,即第一文本推荐列表和第二文本推荐列表中的文本,为了均衡这两种方式推荐的结果,可以将第一文本推荐列表和第二文本推荐列表进行融合,具体,S106包括:
对所述第一文本推荐列表中的文本进行排序;
对所述第二文本推荐列表中的文本进行排序;
确定第一文本推荐列表和第二文本推荐列表的融合比例;
按照融合比例确定替换文本的数量;
按照第二推荐文本中文本的排序和替换文本的数量筛选出推荐的文本;
将替换文本替换掉所述第一文本推荐列表中的部分文本。
本实施例中,第一文本推荐列表和第二文本推荐列表均可以按照文本的相似度进行排序。两个推荐列表的融合比例可以是预先设置的,也可以计算得到的。
按照融合比例,可以确定出第一文本推荐类表中需要被替换掉的文本的数量,并从第二推荐文本列表中筛选出替换文本,筛选出的替换文本的数量与之前确定的第一文本推荐列表中需要被替换的文本的数量相同。
本实施例中,通过知识图谱的方式以及协同过滤算法的方法,对文本进行推荐,这样通过知识图谱能够理解用户的搜索意图,并基于该用户意图进行推荐,采用协同过滤算法能够为用户提供更多的感兴趣的文本,这样能够得到非常有效的推荐文本,并且通过知识图谱的方式进行推荐还弥补了协同过滤算法的冷启动的问题。
参考图3,示出了本发明实施例提供的一种摘要生成方法的流程示意图,在本实施例中,该方法包括:
S301:针对目标推荐列表中的任意一个文本,按照整句的维度对文本进行划分,得到包含所有句子的数据集;
其中,对于新能源规划性文本,可以根据标点符号,确定文本中的整句,并通过整句的维度对文本进行划分,并得到包含所有句子的数据集,例如为T=[S1,S1,...,Sn]。
S302:对所述数据集中每个句子进行预处理,并提取数据集中的关键词;
对数据集中每个句子进行预处理的过程包括:
对每句话进行分词处理,并对分词得到的每个词的词性进行标注;
提出预设的无意义的词。
其中,预设的无意义的词可以理解为对理解语义无意义的词,例如包括:介词、连词、助词、感叹词等。那么剔除无意义的词后,保留的词为名词、动词、形容词等对语义理解有意义的词,例如可以将每个句子表示为即,Si=[wi,1,wi,2,…,wi,n],其中wi,1为保留的词语。
构建词向量空间G=(V,E),其中V为节点集合,由wi,1组成,通过共现关系构造任意两个节点之间的边:两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词,一般推荐K可取2。
ωji用于表示两个节点间的边连接具有不同的重要程度,根据下面公式1)代计算各节点的权重,直至收敛;
1)
Figure BDA0002905504400000111
其中,d为阻尼系数,例如d的值可以取0.85
然后,对计算得到的节点权重进行倒序排序,得到新能源规划性文本中最重要的m个词组,作为关键词;然后在新能源规划性文本中对关键词进行标记,若关键词之间形成相邻词组,则作为关键词组提取。
S303:从所述文本中获取包含关键词的句子;
S304:计算包含关键词的句子之间的相似度;
S305:去除掉相似度小于预设的相似度阈值的句子,得到关键句;、
提取关键句时,首先将包含关键词的句子作为一个节点,计算每两个节点的相似性,
举例说明:可以通过如下的公式2)计算句子相似性:
Figure BDA0002905504400000112
其中,wk为句中的词语。
根据相似度计算公式循环计算任意两个节点间的相似度,通过阈值去掉两个节点之间相似度较低的边连接,然后构建出节点连接图,迭代计算每个节点的权重值,接着排序后选出权重值最高几个节点对应的句子作为关键句。
S306:通过关键句生成文本的摘要,并将所述摘要推荐给用户。
本实施例中,将关键句进行组合,可以得到需要推送的摘要。
本实施例中,将要推荐给用户的文本生成摘要,能够将文本具体内容和精神得到全面阐释,帮助用户筛选感兴趣的文本。
参考图4,示出了本发明实施例提供的一种面向非结构化数据的新能源规划性文本智能推荐装置的结构示意图,在本实施例中,该装置包括:
获取单元401,用于获取用户的特征信息和浏览的文本信息;
实体匹配单元402,用于将用户的特征信息和浏览的文本信息与预设的知识图谱中的实体进行匹配,得到实体对应表;
第一计算单元403,用于通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;
第一文本推荐列表生成单元404,用于通过语义相似性矩阵生成第一文本推荐列表;
第二文本推荐列表生成单元405,用于通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;
结果输出单元406,用于将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标推荐列表。
可选的,所述用户的特征信息至少包括:用户的基本信息、用户的浏览行为以及用户的个性化特征信息中的任意一个。
可选的,所述第一计算单元,包括:
转换单元,用于将所述知识图谱中实体以及实体之间的关系表示为低维向量;
第一计算子单元,用于通过计算每个向量之间的距离确定不同实体之间的语义相似性;
语义相似性矩阵生成单元,用于通过知识图谱中各个实体之间的语义相似性,生成与所述实体对应表中的实体相对应的语义相似性矩阵。
可选的,通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表,包括:
可选的,所述第二文本推荐列表生成单元,包括;
第二计算子单元,用于通过所述第一矩阵,计算用户之间的相似度;
第三文本推荐列表生成子单元,用于基于用户之间的相似度,生成第三文本推荐列表;
偏好特征集生成子单元,用于基于用户浏览的文本信息生成文本偏好特征集;
第四文本推荐列表生成子单元,用于通过计算文本偏好特征集与其它文本的相似性,生成第四文本推荐列表;
融合子单元,用于将所述第三文本推荐列表和第四文本推荐列表进行融合,得到第二文本推荐列表。
可选的,所述结果输出单元,包括:
第一排序子单元,用于按照相似度对所述第一文本推荐列表中的文本进行排序;
第二排序子单元,用于按照相似度对第二文本推荐列表中的文本进行排序;
第一确定子单元,用于确定第一文本推荐列表和第二文本推荐列表的融合比例;
第二确定子单元,用于按照融合比例确定替换文本的数量;
筛选子单元,用于按照第二推荐文本列表中文本的排序和替换文本的数量筛选出替换的文本;
替换子单元,用于将替换文本替换掉第一文本推荐列表中的部分文本,得到目标推荐文本。
通过本实施例的装置,获取用户的特征信息和浏览的文本信息;将用户的特征信息和浏览的文本信息与预设的知识图谱的实体进行匹配,得到实体对应表;通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;通过语义相似性矩阵生成第一文本推荐列表;通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表。由此可知,本实施例中分别通过知识图谱以及协同过滤的方法对文本进行推荐,这样能够为用户提供更加丰富的内容,并且,通过知识图谱的方式进行推荐还弥补了协同过滤算法的冷启动的问题。除此之外,不仅考虑了用户特征也考虑了文本本身的特定对用户进行推荐,提升了推荐的有效性。
参考图5,示出了本发明实施例提供的一种电子设备的结构示意图,在本实施例中,该电子设备包括:
存储器501和处理器502;
所述存储器501用于存储程序;
所述处理器502用于执行所述存储器中的程序时,执行如下所述的方法
获取用户的特征信息和浏览的文本信息;
将用户的特征信息和浏览的文本信息与预设的知识图谱中的实体进行匹配,得到实体对应表;
通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;
通过语义相似性矩阵生成第一文本推荐列表;
通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;
将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表。
可选的,所述用户的特征信息至少包括:用户的基本信息、用户的浏览行为以及用户的个性化特征信息中的任意一个。
可选的,所述通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵,包括:
将所述知识图谱中实体以及实体之间的关系表示为低维向量;
通过计算每个向量之间的距离确定不同实体之间的语义相似性;
通过知识图谱中各个实体之间的语义相似性,生成与所述实体对应表中的实体相对应的语义相似性矩阵。
可选的,通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表,包括:
通过用户的特征信息和浏览的文本信息生表征用户与浏览的文本的关系的第一矩阵;
通过所述第一矩阵,计算用户之间的相似度;
基于用户之间的相似度,生成第三文本推荐列表;
基于用户浏览的文本信息生成文本偏好特征集;
通过计算文本偏好特征集与其它文本的相似性,生成第四文本推荐列表;
将所述第三文本推荐列表和第四文本推荐列表进行融合,得到第二文本推荐列表。
可选的,所述将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表,包括:
按照相似度对所述第一文本推荐列表中的文本进行排序;
按照相似度对第二文本推荐列表中的文本进行排序;
确定第一文本推荐列表和第二文本推荐列表的融合比例;
按照融合比例确定替换文本的数量;
按照第二推荐文本列表中文本的排序和替换文本的数量筛选出替换的文本;
将替换文本替换掉第一文本推荐列表中的部分文本,得到目标推荐文本。
可选的,还包括:
针对目标推荐列表中的任意一个文本,按照整句的维度对文本进行划分,得到包含所有句子的数据集;
对所述数据集中每个句子进行预处理,并提取数据集中的关键词;
从所述文本中获取包含关键词的句子;
计算包含关键词的句子之间的相似度;
去除掉相似度小于预设的相似度阈值的句子,得到关键句;
通过关键句生成文本的摘要;
将所述摘要推荐给用户。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种面向非结构化数据的新能源规划性文本智能推荐方法,其特征在于,包括:
获取用户的特征信息和浏览的文本信息;
将用户的特征信息和浏览的文本信息与预设的知识图谱中的实体进行匹配,得到实体对应表;
通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;
通过语义相似性矩阵生成第一文本推荐列表;
通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;
将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表。
2.根据权利要求1所述的方法,其特征在于,所述用户的特征信息至少包括:用户的基本信息、用户的浏览行为以及用户的个性化特征信息中的任意一个。
3.根据权利要求1所述的方法,其特征在于,所述通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵,包括:
将所述知识图谱中实体以及实体之间的关系表示为低维向量;
通过计算每个向量之间的距离确定不同实体之间的语义相似性;
通过知识图谱中各个实体之间的语义相似性,生成与所述实体对应表中的实体相对应的语义相似性矩阵。
4.根据权利要求1所述的方法,其特征在于,通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表,包括:
通过用户的特征信息和浏览的文本信息生表征用户与浏览的文本的关系的第一矩阵;
通过所述第一矩阵,计算用户之间的相似度;
基于用户之间的相似度,生成第三文本推荐列表;
基于用户浏览的文本信息生成文本偏好特征集;
通过计算文本偏好特征集与其它文本的相似性,生成第四文本推荐列表;
将所述第三文本推荐列表和第四文本推荐列表进行融合,得到第二文本推荐列表。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标文本推荐列表,包括:
按照相似度对所述第一文本推荐列表中的文本进行排序;
按照相似度对第二文本推荐列表中的文本进行排序;
确定第一文本推荐列表和第二文本推荐列表的融合比例;
按照融合比例确定替换文本的数量;
按照第二推荐文本列表中文本的排序和替换文本的数量筛选出替换的文本;
将替换文本替换掉第一文本推荐列表中的部分文本,得到目标推荐文本。
6.根据权利要求1所述的方法,其特征在于,还包括:
针对目标推荐列表中的任意一个文本,按照整句的维度对文本进行划分,得到包含所有句子的数据集;
对所述数据集中每个句子进行预处理,并提取数据集中的关键词;
从所述文本中获取包含关键词的句子;
计算包含关键词的句子之间的相似度;
去除掉相似度小于预设的相似度阈值的句子,得到关键句;
通过关键句生成文本的摘要;
将所述摘要推荐给用户。
7.一种面向非结构化数据的新能源规划性文本智能推荐装置,其特征在于,包括:
获取单元,用于获取用户的特征信息和浏览的文本信息;
实体匹配单元,用于将用户的特征信息和浏览的文本信息与预设的知识图谱中的实体进行匹配,得到实体对应表;
第一计算单元,用于通过预设的知识图谱和所述实体对应表,计算语义相似性矩阵;
第一文本推荐列表生成单元,用于通过语义相似性矩阵生成第一文本推荐列表;
第二文本推荐列表生成单元,用于通过协同过滤算法,结合用户的特征信息和浏览的文本信息,生成第二文本推荐列表;
结果输出单元,用于将所述第一文本推荐列表和第二文本推荐列表进行融合,得到目标推荐列表。
8.根据权利要求7所述的装置,其特征在于,所述用户的特征信息至少包括:用户的基本信息、用户的浏览行为以及用户的个性化特征信息中的任意一个。
9.根据权利要求7所述的装置,其特征在于,所述第一计算单元,包括:
转换单元,用于将所述知识图谱中实体以及实体之间的关系表示为低维向量;
第一计算子单元,用于通过计算每个向量之间的距离确定不同实体之间的语义相似性;
语义相似性矩阵生成单元,用于通过知识图谱中各个实体之间的语义相似性,生成与所述实体对应表中的实体相对应的语义相似性矩阵。
10.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序时,执行所述权利要求1-6中任意一项所述的规划性文本的推荐方法。
CN202110070162.2A 2021-01-19 2021-01-19 面向非结构化数据的新能源规划性文本智能推荐方法 Pending CN112749272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110070162.2A CN112749272A (zh) 2021-01-19 2021-01-19 面向非结构化数据的新能源规划性文本智能推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110070162.2A CN112749272A (zh) 2021-01-19 2021-01-19 面向非结构化数据的新能源规划性文本智能推荐方法

Publications (1)

Publication Number Publication Date
CN112749272A true CN112749272A (zh) 2021-05-04

Family

ID=75652519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110070162.2A Pending CN112749272A (zh) 2021-01-19 2021-01-19 面向非结构化数据的新能源规划性文本智能推荐方法

Country Status (1)

Country Link
CN (1) CN112749272A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114402A (zh) * 2022-06-27 2022-09-27 北京金堤科技有限公司 相关相似公司的推荐方法、装置、存储介质和电子设备
CN115905472A (zh) * 2022-12-07 2023-04-04 广州市南方人力资源评价中心有限公司 商机业务处理方法、装置、服务器及计算机可读存储介质
WO2023075935A1 (en) * 2021-10-29 2023-05-04 Microsoft Technology Licensing, Llc. Representation learning with side information
CN116308683A (zh) * 2023-05-17 2023-06-23 武汉纺织大学 基于知识图谱的服装品牌定位推荐方法、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146112A (zh) * 2017-05-16 2017-09-08 西华大学 一种移动互联网广告投放方法
CN108304556A (zh) * 2018-02-06 2018-07-20 中国传媒大学 基于内容与协同过滤相结合的个性化推荐方法
CN108733798A (zh) * 2018-05-17 2018-11-02 电子科技大学 一种基于知识图谱的个性化推荐方法
CN108829819A (zh) * 2018-06-12 2018-11-16 上海智臻智能网络科技股份有限公司 个性化文本推荐方法及系统、服务器、可读存储介质
CN111538846A (zh) * 2020-04-16 2020-08-14 武汉大学 基于混合协同过滤的第三方库推荐方法
CN111723302A (zh) * 2020-06-09 2020-09-29 云南大学 一种基于协同双模型深度表示学习的推荐方法
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146112A (zh) * 2017-05-16 2017-09-08 西华大学 一种移动互联网广告投放方法
CN108304556A (zh) * 2018-02-06 2018-07-20 中国传媒大学 基于内容与协同过滤相结合的个性化推荐方法
CN108733798A (zh) * 2018-05-17 2018-11-02 电子科技大学 一种基于知识图谱的个性化推荐方法
CN108829819A (zh) * 2018-06-12 2018-11-16 上海智臻智能网络科技股份有限公司 个性化文本推荐方法及系统、服务器、可读存储介质
CN111538846A (zh) * 2020-04-16 2020-08-14 武汉大学 基于混合协同过滤的第三方库推荐方法
CN111723302A (zh) * 2020-06-09 2020-09-29 云南大学 一种基于协同双模型深度表示学习的推荐方法
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴玺煜 等: "基于知识图谱表示学习的协同过滤推荐算法", 《计算机工程》 *
吴玺煜 等: "基于知识图谱表示学习的协同过滤推荐算法", 《计算机工程》, vol. 44, no. 2, 28 February 2018 (2018-02-28), pages 226 - 232 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023075935A1 (en) * 2021-10-29 2023-05-04 Microsoft Technology Licensing, Llc. Representation learning with side information
US20230137718A1 (en) * 2021-10-29 2023-05-04 Microsoft Technology Licensing, Llc Representation learning with side information
CN115114402A (zh) * 2022-06-27 2022-09-27 北京金堤科技有限公司 相关相似公司的推荐方法、装置、存储介质和电子设备
CN115905472A (zh) * 2022-12-07 2023-04-04 广州市南方人力资源评价中心有限公司 商机业务处理方法、装置、服务器及计算机可读存储介质
CN116308683A (zh) * 2023-05-17 2023-06-23 武汉纺织大学 基于知识图谱的服装品牌定位推荐方法、设备及存储介质
CN116308683B (zh) * 2023-05-17 2023-08-04 武汉纺织大学 基于知识图谱的服装品牌定位推荐方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
US10296640B1 (en) Video segments for a video related to a task
US9836511B2 (en) Computer-generated sentiment-based knowledge base
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Bagheri et al. Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews
US8010539B2 (en) Phrase based snippet generation
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN112749272A (zh) 面向非结构化数据的新能源规划性文本智能推荐方法
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
US20150006528A1 (en) Hierarchical data structure of documents
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
CN109977291B (zh) 基于物理知识图谱的检索方法、装置、设备及存储介质
CN107092605B (zh) 一种实体链接方法及装置
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
CN104978314A (zh) 媒体内容推荐方法及装置
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
CN113900954B (zh) 一种使用知识图谱的测试用例推荐方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111475625A (zh) 基于知识图谱的新闻稿件生成方法及系统
CN111460145A (zh) 一种学习资源推荐方法、设备及存储介质
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination