CN111324701A - 内容补充方法、装置、计算机设备和存储介质 - Google Patents
内容补充方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111324701A CN111324701A CN202010113004.6A CN202010113004A CN111324701A CN 111324701 A CN111324701 A CN 111324701A CN 202010113004 A CN202010113004 A CN 202010113004A CN 111324701 A CN111324701 A CN 111324701A
- Authority
- CN
- China
- Prior art keywords
- content
- query
- target
- query statement
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种内容补充方法、装置、计算机设备和存储介质。该方法包括:获取热点查询语句;确定所述热点查询语句对应的访问率;所述访问率,为访问所述热点查询语句的查询结果的频率;从所述热点查询语句中筛选目标查询语句;所述目标查询语句对应的访问率,低于所述热点查询语句中的非目标查询语句所对应的访问率;对所述目标查询语句进行主题聚类,生成目标内容主题;所述目标内容主题,用于表征需补充的内容所属的主题。本申请方案能够提高内容补充的准确性。
Description
技术领域
本发明涉及人工智能技术领域及自然语言处理技术领域,特别是涉及一种内容补充方法、装置、计算机设备和存储介质。
背景技术
随着科学技术的飞速发展,线上内容分享已经成为非常主流的内容分享方式。各行各业的内容提供平台应运而生。比如,医疗健康类APP,提供了大量医疗资讯文章供用户搜索。对于内容提供平台来说,需要不断地补充内容,以满足用户的搜索查询需求。
传统方法中,内容提供平台通常是针对一些常见的事项或者常见主题来补充相应内容。这样一来就会导致所补充的内容过于局限,而无法用户的查询需求,从而导致补充的内容不够准确。
发明内容
基于此,有必要针对传统方法补充的内容不够准确的问题,提供一种内容补充方法、装置、计算机设备和存储介质。
一种内容补充方法,该方法包括:
获取热点查询语句;
确定热点查询语句对应的访问率;访问率,为访问热点查询语句的查询结果的频率;
从热点查询语句中筛选目标查询语句;目标查询语句对应的访问率,低于热点查询语句中的非目标查询语句所对应的访问率;
对目标查询语句进行主题聚类,生成目标内容主题;目标内容主题,用于表征需补充的内容所属的主题。
在一个实施例中,获取热点查询语句包括:
根据查询日志,获取候选的查询语句和查询语句的第一查询次数;
根据第一查询次数,确定查询语句的查询频率;
筛选查询频率大于或等于预设频率阈值的查询语句,得到热点查询语句。
在一个实施例中,访问率为点击率;
确定热点查询语句对应的访问率包括:
获取热点查询语句对应的第二查询次数;
确定热点查询语句所对应的有点击次数;有点击次数,为对热点查询语句的查询结果有产生点击行为的次数;
根据有点击次数和第二查询次数的比值,得到热点查询语句对应的点击率。
在一个实施例中,确定热点查询语句所对应的有点击次数包括:
确定热点查询语句对应的有点击计数值;有点击计数值,是指当对热点查询语句当次查询的查询结果有产生点击行为时,针对当次查询进行一次计数得到的数值;
对有点击计数值进行求和,得到热点查询语句对应的有点击次数。
在一个实施例中,对目标查询语句进行主题聚类,生成目标内容主题包括:
对目标查询语句进行语义特征提取,得到语义特征向量;
根据语义特征向量,对目标查询语句进行聚类;
提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题。
在一个实施例中,语义特征向量为多个;根据语义特征向量,对目标查询语句进行聚类包括:
将各语义特征向量映射为特征空间中的点;
从点中选取预设聚类数量的初始的质心点,将各点与距离最近的质心点聚为同一团簇;
确定团簇的质心点,并返回将各点与距离最近的质心点聚为同一团簇的步骤以进行迭代处理,直至满足迭代停止条件,得到最终聚类的团簇。
在一个实施例中,提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题包括:
求取同一团簇中的目标查询语句之间的最长公共子串;
根据最长公共子串,得到团簇对应的目标内容主题。
在一个实施例中,方法还包括:
查找与目标内容主题对应的候选内容生产者的信息;候选内容生产者,是撰写过属于目标内容主题的内容的撰写者;
从候选内容生产者的信息中,筛选目标内容生产者的信息;目标内容生产者,用于补充撰写符合目标内容主题的内容。
在一个实施例中,查找与目标内容主题对应的候选内容生产者的信息包括:
在第三方内容提供平台中,以目标内容主题为搜索条件进行搜索,得到内容提供页面;内容提供页面中包括与目标内容主题相符的至少一条内容、以及内容的内容生产者的信息;
从内容提供页面中,提取内容生产者的信息,得到候选内容生产者的信息。
在一个实施例中,热点查询语句为热点医疗查询语句;目标内容主题为目标疾病主题;候选内容生产者的信息为候选医生的信息;
查找与目标内容主题对应的候选内容生产者的信息包括:
通过疾病科室知识图谱,查找目标疾病主题所属的治疗科室;
查找属于治疗科室的医生的信息,得到候选医生的信息。
在一个实施例中,热点查询语句为热点医疗查询语句;目标内容主题为目标疾病主题;候选内容生产者的信息为候选医生的信息;候选医生的信息包括候选医生所属的医院;
从候选内容生产者的信息中,筛选目标内容生产者的信息包括:
按所属医院的医院等级由高到低的顺序,对候选医生的信息进行排名;
选取排名在前预设位次的候选医生的信息,得到目标医生的信息。
一种内容补充装置,该装置包括:
目标语句确定模块,用于获取热点查询语句;确定热点查询语句对应的访问率;访问率,为访问热点查询语句的查询结果的频率;从热点查询语句中筛选目标查询语句;目标查询语句对应的访问率,低于热点查询语句中的非目标查询语句所对应的访问率;
主题聚类模块,用于对目标查询语句进行主题聚类,生成目标内容主题;目标内容主题,用于表征需补充的内容所属的主题。
在一个实施例中,目标语句确定模块还用于根据查询日志,获取候选的查询语句和查询语句的第一查询次数;根据第一查询次数,确定查询语句的查询频率;筛选查询频率大于或等于预设频率阈值的查询语句,得到热点查询语句。
在一个实施例中,访问率为点击率;目标语句确定模块还用于获取热点查询语句对应的第二查询次数;确定热点查询语句所对应的有点击次数;有点击次数,为对热点查询语句的查询结果有产生点击行为的次数;根据有点击次数和第二查询次数的比值,得到热点查询语句对应的点击率。
在一个实施例中,目标语句确定模块还用于确定热点查询语句对应的有点击计数值;有点击计数值,是指当对热点查询语句当次查询的查询结果有产生点击行为时,针对当次查询进行一次计数得到的数值;对有点击计数值进行求和,得到热点查询语句对应的有点击次数。
在一个实施例中,主题聚类模块还用于对目标查询语句进行语义特征提取,得到语义特征向量;根据语义特征向量,对目标查询语句进行聚类;提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题。
在一个实施例中,语义特征向量为多个;主题聚类模块还用于将各语义特征向量映射为特征空间中的点;从点中选取预设聚类数量的初始的质心点,将各点与距离最近的质心点聚为同一团簇;确定团簇的质心点,并返回将各点与距离最近的质心点聚为同一团簇的步骤以进行迭代处理,直至满足迭代停止条件,得到最终聚类的团簇。
在一个实施例中,主题聚类模块还用于求取同一团簇中的目标查询语句之间的最长公共子串;根据最长公共子串,得到团簇对应的目标内容主题。
在一个实施例中,装置还包括:
内容生产者确定模块,用于查找与目标内容主题对应的候选内容生产者的信息;候选内容生产者,是撰写过属于目标内容主题的内容的撰写者;从候选内容生产者的信息中,筛选目标内容生产者的信息;目标内容生产者,用于补充撰写符合目标内容主题的内容。
在一个实施例中,内容生产者确定模块还用于在第三方内容提供平台中,以目标内容主题为搜索条件进行搜索,得到内容提供页面;内容提供页面中包括与目标内容主题相符的至少一条内容、以及内容的内容生产者的信息;从内容提供页面中,提取内容生产者的信息,得到候选内容生产者的信息。
在一个实施例中,热点查询语句为热点医疗查询语句;目标内容主题为目标疾病主题;候选内容生产者的信息为候选医生的信息;内容生产者确定模块还用于通过疾病科室知识图谱,查找目标疾病主题所属的治疗科室;查找属于治疗科室的医生的信息,得到候选医生的信息。
在一个实施例中,热点查询语句为热点医疗查询语句;目标内容主题为目标疾病主题;候选内容生产者的信息为候选医生的信息;候选医生的信息包括候选医生所属的医院;内容生产者确定模块还用于按所属医院的医院等级由高到低的顺序,对候选医生的信息进行排名;选取排名在前预设位次的候选医生的信息,得到目标医生的信息。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述的内容补充方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的内容补充方法中的步骤。
上述内容补充方法、装置、计算机设备和存储介质,通过获取热点查询语句;确定所述热点查询语句对应的访问率;从所述热点查询语句中筛选访问率较低的目标查询语句。这样一来,所筛选的目标查询语句即为大多数用户想要查询相应内容、但未查到合适内容的语句。因此,对目标查询语句进行主题聚类,生成目标内容主题,该目标内容主题,即为用户需要知道的内容所属的主题。从而根据该目标内容主题能够准确知晓需要补充的内容,进而能够提高后续内容补充的准确性。
附图说明
图1为一个实施例中内容补充方法的应用场景图;
图2为一个实施例中内容补充方法的流程示意图;
图3为一个实施例中对目标查询语句的示意图;
图4为一个实施例中聚类示意图;
图5为一个实施例中主题确定示意图;
图6为另一个实施例中内容补充方法的应用场景图;
图7为一个实施例中内容提供页面的示意图;
图8为一个实施例中内容补充装置的框图;
图9为一个实施例中内容补充装置的框图;
图10为一个实施例中计算机设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中内容补充方法的应用场景图。参照图1,该应用场景中包括网络连接的服务器110和终端120。终端120可以是台式计算机或移动终端。移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器110可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。可以理解,在其他实施例中,服务器110也可以用具备执行本申请各实施例中的内容补充方法能力的终端替换。
用户通过终端120输入查询语句,终端120将查询语句发送至服务器110。服务器110从中筛选出热点查询语句。服务器110可以确定热点查询语句对应的访问率;访问率,用于表征访问热点查询语句的查询结果的频率。服务器110可以从热点查询语句中筛选目标查询语句;目标查询语句对应的访问率,低于热点查询语句中的非目标查询语句所对应的访问率。服务器110可以对目标查询语句进行主题聚类,生成目标内容主题;目标内容主题,用于表征需补充的内容所属的主题。
可以理解,本申请各实施例中的内容补充方法,相当于使用人工智能技术来自动确定无法满足用户查询需求的目标内容主题,从而能够准确补充内容。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可以理解,本申请各实施例中的内容补充方法相当于使用了自然语言处理技术。自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答和知识图谱等技术。
图2为一个实施例中内容补充方法的流程示意图。本实施例中的该内容补充方法可以应用于计算机设备,现主要以计算机设备为图1中的服务器110进行举例说明。参照图2,该方法具体包括如下步骤:
S202,获取热点查询语句。
其中,热点(hot spot)是指受关注的、热门的对象。查询语句,是指被用来作为查询条件的语句。热点查询语句,是指近期内在内容提供平台中被用作查询条件的热门语句。即为高频率查询的语句,或者说近期内常被用作查询条件的语句。可以理解,本申请各实施例中的查询语句,为历史的查询语句,即已经被用来进行查询搜索过的语句。
比如,以内容提供平台为医疗资讯提供平台为例。假设,在医疗资讯提供平台中,近一个月内,“角膜炎”这一查询语句的日均查询量为30000次,说明“角膜炎”这一查询语句在近期内非常受到用户的关注,用户对其有很大的查询需求,所以,“角膜炎”即为热点查询语句。
在一个实施例中,查询语句可以是医疗查询语句,热点查询语句,可以是热点医疗查询语句。医疗查询语句,是用于查询医疗资讯内容的语句。热点医疗查询语句,是指近期内被用作查询条件,以查询医疗资讯内容的热门语句。
在一个实施例中,热点医疗查询语句,可以是近期内在专项的医疗资讯提供平台中被用作查询条件,以查询医疗资讯内容的热门语句。医疗资讯提供平台,是专门提供医疗健康相关的资讯内容提供平台。比如,腾讯医典(又名企鹅医典,是腾讯(Tencent)公司旗下的互联网医学科普应用程序)即为医疗资讯提供平台。
在一个实施例中,热点医疗查询语句,也可以是在综合资讯提供平台中被用作查询条件,以查询医疗资讯内容的热门语句。可以理解,综合资讯提供平台除了可以提供医疗资讯内容以外,还可以提供其他领域的资讯内容。比如,一些新闻资讯提供平台或者自媒体资讯平台等,既可以提供医疗资讯内容,又可以提供其他领域的资讯内容。
可以理解,在其他实施例中,查询语句还可以是用于查询其他专项资讯内容的语句。比如,教育资讯、科技资讯、美妆资讯和社交互动资讯等至少一种专项资讯内容。热点查询语句,则是针对这些专项资讯内容进行查询的热门语句。
具体地,计算机设备可以从内容提供平台中,获取当前时间的前预设时间段内的查询日志。该查询日志中包括查询语句。计算机设备可以将查询日志中查询语句作为候选的查询语句,并根据各查询语句的查询次数,从候选的查询语句中,筛选热点查询语句。
可以理解,计算机设备可以直接根据查询次数的多少,从候选的查询语句中,筛选热点查询语句,也可以根据查询次数确定查询频率,根据查询频率,从候选的查询语句中筛选热点查询语句。
S204,确定热点查询语句对应的访问率;访问率,为访问热点查询语句的查询结果的频率。
其中,热点查询语句的查询结果,是指使用热点查询语句作为查询条件得到的查询结果。
访问,即对热点查询语句的查询结果产生了访问相关行为。可以理解,访问相关行为可以包括点击行为、滑动行为、拖动行为、触摸行为或长按行为等能够触发访问查询结果的行为。
在一个实施例中,访问率可以为点击率。可以理解,访问率还可以为滑动触发率、拖动触发率等,具体根据触发访问查询结果的行为形式来确定。
可以理解,访问率,可以体现热点查询语句的查询结果与用户的查询需求的匹配度。查询结果与查询需求的匹配度越高,说明,查询结果越符合用户需求,则用户对查询结果的访问率就越高。
在一个实施例中,访问率可以包括点击率。
在一个实施例中,针对热点查询语句的每次查询处理,计算机设备也可以在对热点查询语句当次查询的查询结果产生访问行为时,针对当次查询进行一次计数,进而汇总得到该热点查询语句的访问次数,根据该访问次数,确定热点查询语句对应的访问率。
比如,针对“角膜炎”这一热点查询语句,查询次数为30000次。在这30000次查询中,有300次查询后,用户对查询结果产生了访问行为,那么,则会对这300次查询进行计数,得到访问次数为300。进而可以根据访问次数300,确定“角膜炎”对应的访问率。
在另一个实施例中,计算机设备可以根据用户对热点查询语句的查询结果的访问次数进行计数,根据访问次数的计数值,确定热点查询语句对应的访问率。
比如,针对“角膜炎”这一热点查询语句,查询次数为30000次。针对第1次查询得到的10个查询结果,用户访问了其中2个查询结果,则进行访问次数计数为2。针对第2次查询得到5个查询结果,用户访问了其中1个查询结果,则进行访问计数为1,以此类推,得到针对每次查询的查询结果的访问次数,进而将针对全部搜索结果的访问次数相加2+1+…,得到最终的访问次数,进而确定热点查询语句对应的访问率。
S206,从热点查询语句中筛选目标查询语句;目标查询语句对应的访问率,低于热点查询语句中的非目标查询语句所对应的访问率。
在一个实施例中,计算机设备可以将热点查询语句的访问率与预设访问率阈值进行比对,以从热点查询语句中,筛选小于或等于预设访问率阈值的热点查询语句,得到目标查询语句。
在另一个实施例中,计算机设备也可以将热点查询语句,按照访问率由低到高的顺序继续排名,选取排名在前预设位次的热点查询语句,作为目标查询语句。
可以理解,由于目标查询语句也属于热点查询语句,说明大多数用户想要查询与目标查询语句相关的内容,然而,目标查询语句对应的访问率又比较低,说明,查询结果不太符合用户的查询需求。因此,目标查询语句即属于大多数用户想要查询相应内容、但未查到合适内容的语句。
图3为一个实施例中对目标查询语句的示意图。图3中的目标查询语句对应的日均查询量很高,但是对应的点击率很低,即对查询结果的访问率很低。说明,大量用户都很想查询与“角膜炎”、“角膜发炎”、“眼睛红肿”、“关节不舒服”等相关的内容,但是,查询结果并不是太能够符合用户的需求,导致用户对查询结果的点击率很低。可以理解,内容提供平台正是需要对这部分内容进行补充,从而满足用户查询需求。
S208,对目标查询语句进行主题聚类,生成目标内容主题;目标内容主题,用于表征需补充的内容所属的主题。
其中,主题聚类,是指通过聚类确定目标查询语句所对应的内容主题的处理过程。
具体地,计算机设备可以对目标查询语句进行聚类,得到至少一组聚类结果。同一组聚类结果即为聚为一类的目标查询语句。计算机设备针对每组聚类结果,可以根据该组聚类结果中聚为一类的目标查询语句,确定目标内容主题。可以理解,当聚类得到多类时(即有多个聚类结果时),则可以分别根据各类的目标查询语句,确定出多个目标内容主题。
可以理解,进一步地,计算机设备可以通过人工智能技术自动地生成与目标内容主题相符的内容,并将生成的内容补充进内容提供平台。计算机设备也可以查找在目标内容主题方面专业的目标内容生产者,获取目标内容生产者所撰写的符合该目标内容主题的内容,并将该内容补充进内容提供平台。
上述内容补充方法,通过获取热点查询语句;确定所述热点查询语句对应的访问率;从所述热点查询语句中筛选访问率较低的目标查询语句。这样一来,所筛选的目标查询语句即为大多数用户想要查询相应内容、但未查到合适内容的语句。因此,对目标查询语句进行主题聚类,生成目标内容主题,该目标内容主题,即为用户需要知道的内容所属的主题。从而根据该目标内容主题能够准确知晓需要补充的内容,进而能够提高后续内容补充的准确性。
在一个实施例中,步骤S202获取热点查询语句包括:根据查询日志,获取候选的查询语句和所述查询语句的第一查询次数;根据所述第一查询次数,确定所述查询语句的查询频率;筛选所述查询频率大于或等于预设频率阈值的查询语句,得到热点查询语句。
其中,查询日志(query log),是记录有查询语句的日志信息。
在一个实施例中,计算机设备可以从内容提供平台中,获取当前时间的前预设时间段内的查询日志。前预设时间段可以通过预设周期进行度量,比如,前一个月、前一年或前一个季度等。在其他实施例中,计算机设备也可以获取已经发生过的任意时间段内的查询日志。比如,获取指定日期区间内的查询日志。
具体地,计算机设备可以将查询日志中的查询语句作为候选的查询语句,并获取各查询语句的第一查询次数,计算机设备可以根据第一查询次数,确定查询语句的查询频率。计算机设备可以将查询频率与预设频率阈值进行比对,筛选查询频率大于或等于预设频率阈值的查询语句,得到热点查询语句。
在一个实施例中,计算机设备可以根据第一查询次数,确定查询语句的预设单位时间内查询次数,即得到查询频率。
在一个实施例中,预设单位时间可以为天、周、月或季度等度量单位。因此,查询频率可以为日均查询次数、周均查询次数、月均查询次数或季度平均查询次数等。
上述实施例中,根据查询日志,能够准确、快捷地筛选出热点查询语句,从而能够提高内容补充的准确性和效率。
在一个实施例中,所述访问率为点击率。步骤S204确定所述热点查询语句对应的访问率包括:获取所述热点查询语句对应的第二查询次数;确定所述热点查询语句所对应的有点击次数;所述有点击次数,为对所述热点查询语句的查询结果有产生点击行为的次数;根据所述有点击次数和所述第二查询次数的比值,得到所述热点查询语句对应的点击率。
在一个实施例中,第二查询次数,可以为查询日志中热点查询语句的总查询次数,那么,有点击次数可以为热点查询语句对应的有点击总次数。那么,热点查询语句对应的点击率,则可以是有点击总次数和总查询次数之间的比值,或者,是对该比值进行线性变换得到的数值。
在一个实施例中,第二查询次数,也可以为热点查询语句在单位时间内的查询次数,有点击次数也可以为热点查询语句对应的在单位时间内的有点击次数。那么,热点查询语句对应的点击率,则可以是热点查询语句在单位时间内的查询次数与在单位时间内的有点击次数之间的比值,或者对该比值进行线性变换得到的数值。
在一个实施例中,所述确定所述热点查询语句所对应的有点击次数包括:确定所述热点查询语句对应的有点击计数值;所述有点击计数值,是指当对所述热点查询语句当次查询的查询结果有产生点击行为时,针对当次查询进行一次计数得到的数值;对所述有点击计数值进行求和,得到所述热点查询语句对应的有点击次数。
具体地,在使用查询语句进行查询时,当对查询语句当次查询的结果有产生点击行为时,计算机设备则可以针对当次查询进行一次计数,得到有点击计数值。这样一来,对有产生点击行为的查询处理都一一进行计数,最后针对热点查询语句的各有点击计数值进行求和,即可以得到热点查询语句对应的有点击次数。
为了便于理解,现举例说明。比如,使用热点查询语句“角膜炎”一共查询了30000次,针对第一次查询结果产生了点击行为,则进行一次有点击计数,当对第二次查询结果产生了点击行为,则再进行一次有点击计数。当对第三次查询结果没有产生点击行为,则不进行计数。当对第四次查询结果产生了有点击行为,则再进行一次有点击计数,以此类推,即可以得到在完成30000次查询后的有点击次数。比如,30000次搜索查询中,有300次查询后对查询结果产生了点击行为,那么对有点击计数值进行求和,则可以得到300次的有点击次数。
上述实施例中,根据热点查询语句对应的有点击次数和查询次数的比值,确定热点查询语句的点击率。这样一来,点击率可以准确反映热点查询语句的查询结果与用户查询需求的匹配程度,从而能够基于点击率,更为准确地选取目标查询语句,进而能够提高内容补充的准确性。
在一个实施例中,对所述目标查询语句进行主题聚类,生成目标内容主题包括:对所述目标查询语句进行语义特征提取,得到语义特征向量;根据所述语义特征向量,对所述目标查询语句进行聚类;提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题。
其中,语义特征向量,是目标查询语句的语义特征的向量化表示。
具体地,计算机设备可以对目标查询语句进行分词,得到词片段。进而将词片段映射为词向量,根据词向量进行编码处理,以提取语义特征,得到语义特征向量。计算机设备可以根据语义特征向量之间的相似性,对目标查询语句进行聚类。计算机设备可以对聚为同类的目标查询语句进行主题特征提取处理,以得到该类所对应的主题信息,作为目标内容主题。
在一个实施例中,计算机设备可以通过word2vec算法模型(是将词表征为实数值向量的一种高效的算法模型)对目标查询语句分词后的词片段,做向量化特征表示,以从目标查询语句中提取语义特征向量。
上述实施例中,基于向量特征,对目标查询语句进行聚类,相当于通过查询日志确定查询主题,能够既准确、又快捷地确定查询主题,进而能够提高内容补充的准确性和效率。
在一个实施例中,所述语义特征向量为多个;所述根据所述语义特征向量,对所述目标查询语句进行聚类包括:将各所述语义特征向量映射为特征空间中的点;从所述点中选取预设聚类数量的初始的质心点,将各点与距离最近的质心点聚为同一团簇;确定所述团簇的质心点,并返回所述将各点与距离最近的质心点聚为同一团簇的步骤以进行迭代处理,直至满足迭代停止条件,得到最终聚类的团簇。
其中,质心,即为聚为一类的团簇的中心点。迭代停止条件,是停止迭代处理的条件。
在一个实施例中,迭代停止条件可以包括迭代次数达到预设次数阈值。在另一个实施例中,迭代停止条件可以包括质心点的位置变化在预设变化范围内,或者不变。
具体地,计算机设备可以将语义特征向量映射为特征空间中的点,即得到多个点。计算机设备可以获取预设聚类数量,从多个点中选取预设聚类数量的点作为初始的质心点。可以理解,计算机设备可以从多个点中随机选取或者按照预设选取规则选取预设聚类数量的点,作为初始的质心点。计算机设备可以针对每个点,计算其分别到各个质心点的距离,然后将其与距离最近的那个质心聚为一个团簇。这样每个点就有了所属的团簇。计算机设备可以对同一团簇中的各点的坐标求平均,以重新计算该团簇的质心点,并重复迭代地执行将各点与距离最近的质心点聚为同一团簇、以及重新计算同一团簇的质心点的步骤,直至满足迭代停止条件,得到最终聚类的团簇。
在一个实施例中,对目标查询语句进行聚类的算法流程如下:
2、重复下面过程直到收敛{
对于每一个类j,重新计算该类(即团簇)的质心:
其中,K是预设聚类数量,c(i)代表点i与k个类(比如团簇)中距离最近的那个类(比如团簇),c(i)的值是1到k中的一个。质心点uj代表我们对属于同一个类(或团簇)的中心点的猜测。
以图3中的目标查询语句为例,通过本申请实施例中的聚类处理,可以聚类为图4所示的两大类。可以理解,每个类即表示同一个主题。比如,图4的第一组聚类中的“角膜炎”、“角膜发炎”以及“眼睛红肿”属于同一个查询主题。
在其他实施例中,计算机设备还可以通过DBScan(Density-Based SpatialClustering of Applications with Noise,是一个基于密度的聚类算法)算法对目标查询语句进行聚类。
上述实施例中,根据目标查询语句的语义特征向量,进行特征点映射,对查询语句进行聚类,能够保证聚类的准确性和聚类效率。
在一个实施例中,所述提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题包括:求取同一团簇中的目标查询语句之间的最长公共子串;根据所述最长公共子串,得到所述团簇对应的目标内容主题。
其中,最长公共子串,是指至少两个已知字符串之间最长的共有子串。
需要说明的是,最长公共子串并不限定于必须是团簇中所有目标查询语句包括的子串,而是团簇中目标查询语句中包括的公共子串中最长的子串。只要属于不同目标查询语句中共有的内容,即属于公共子串。同一团簇中目标查询语句中可以包括多个公共子串,选取长度最长的公共子串,作为最长公共子串。
具体地,针对同一团簇(即同一聚类结果),计算机设备可以求取该团簇中目标查询语句之间的最长公共子串。计算机设备可以直接将最长公共子串,作为该团簇对应的目标内容主题。计算机设备也可以按照预设主题命名模板,根据最长公共子串,生成包括最长公共子串的目标内容主题。即,最长公共子串属于目标内容主题的一部分,除了最长公共子串以外,目标内容主题中还包括模板化内容。
图5为一个实施例中目标内容主题的示意图。参照图5,第一组聚类结果(即同一团簇)中的“角膜炎”、“角膜发炎”以及“眼睛红肿”属于同一个主题1。通过求取“角膜炎”、“角膜发炎”以及“眼睛红肿”之间的最长公共子串为“角膜炎”,则得到主题1为“角膜炎”。第二组聚类结果(即同一团簇)中的“关节不舒服”、“关节麻木”以及“腿关节无力”属于同一个主题2,之间的最长公共子串为“关节”,则得到主题2为“关节”。
上述实施例中,通过求取同一团簇中的目标查询语句之间的最长公共子串,确定团簇对应的目标内容主题,能够节省计算量,非常快捷地、准确地确定出想要查询的内容所属的主题。进而能够提高内容补充的效率,以及减少系统资源消耗。
在一个实施例中,所述方法还包括:查找与所述目标内容主题对应的候选内容生产者的信息;所述候选内容生产者,是撰写过属于所述目标内容主题的内容的撰写者;从所述候选内容生产者的信息中,筛选目标内容生产者的信息;所述目标内容生产者,用于补充撰写符合所述目标内容主题的内容。
其中,内容生产者,是内容提供平台中的内容撰写者。候选内容生产者,是候选的内容生产者。候选内容生产者的信息,是与候选内容生产者有关的信息。可以理解,根据目标内容主题确定的候选内容生产者,是撰写过属于所述目标内容主题的内容的撰写者。目标内容生产者,是用于补充撰写符合所述目标内容主题的内容的撰写者。
在一个实施例中,计算机设备可以对候选内容生产者的信息进行随机筛选,得到目标内容生产者的信息。
在一个实施例中,计算机设备也可以按照预设筛选条件,对候选内容生产者的信息进行筛选,得到目标内容生产者的信息。
在一个实施例中,计算机设备可以按照候选内容生产者的权威度由高到低的顺序,从候选内容生产者的信息中筛选排名在前预设名次的候选内容生产者的信息,作为目标内容生产者的信息。
其中,权威度,用于表征内容生产者所撰写的目标内容主题下的内容的可信程度。权威度与内容生产者撰写目标内容主题下的内容的可信程度正相关。权威度越高,可信程度越高,反之,权威度越低,可信程度越低。
可以理解,内容生产者的权威度,可以根据内容生产者的历史撰写好评程度、内容生产者所属单位的官方认证等级、以及内容生产者自身的官方认证等级中的至少一种来确定。可以理解,官方,可以包括权威认证机构和政府认证部门。
上述实施例中,基于目标内容主题,能够自动查找能够补充撰写符合所述目标内容主题的内容的目标内容生产者,从而提高了内容补充的准确性和效率。
在一个实施例中,所述查找与所述目标内容主题对应的候选内容生产者的信息包括:在第三方内容提供平台中,以所述目标内容主题为搜索条件进行搜索,得到内容提供页面;所述内容提供页面中包括与所述目标内容主题相符的至少一条内容、以及所述内容的内容生产者的信息;从所述内容提供页面中,提取所述内容生产者的信息,得到候选内容生产者的信息。
其中,第三方内容提供平台,是指不同于本申请各实施例中的方法所作用于的本方的内容提供平台。即,本申请各实施例中的方法,旨在为本方的内容提供平台(即自身的内容提供平台)进行内容补充处理,而第三方内容提供平台,不同于本方的内容提供平台。
比如,A公司具有一个内容提供平台a,A公司提出了本申请各实施例中的方法,以在内容提供平台a中准确地补充内容。B公司具有一个内容提供平台b,那么,内容提供平台b对于A公司或者内容提供平台a来说,即为第三方内容提供平台。
内容提供页面,是搜索到的、且符合目标内容主题的内容所位于的页面。即,内容提供页面中包括与所述目标内容主题相符的至少一条内容、以及该内容的内容生产者的信息。内容的内容生产者,是指该内容的撰写者。
具体地,计算机设备可以在第三方内容提供平台中,以所述目标内容主题为搜索条件进行搜索,得到内容提供页面;所述内容提供页面中包括与所述目标内容主题相符的至少一条内容、以及所述内容的内容生产者的信息。计算机设备可以在内容提供页面中,定位内容生产者的相关字段,以从该内容提供页面中,提取所述内容生产者的信息,作为候选内容生产者的信息。
图6为一个实施例中内容补充方法的应用场景图。参照图6,本申请各实施例中所述方法可以通过内容提供平台的后台服务器602执行,后台服务器602与第三方内容提供平台604进行通信。后台服务器602可以通过本申请各实施例中所述的方法进行主题聚类得到目标内容主题,并以目标内容主题为搜索条件,在第三方内容提供平台604中进行搜索,得到内容提供页面p。第三方内容提供平台604可以将内容提供页面p返回至后台服务器602。后台服务器602可以从内容提供页面p中提取内容生产者的信息,得到候选内容生产者的信息。
在一个实施例中,计算机设备还可以在内容提供页面中,定位内容生产者所属单位的单位字段,以从内容提供页面中,提取该内容生产者所属单位的信息。可以理解,内容生产者自身的信息,和内容生产则所属单位的信息,皆包括于内容生产者的信息。在其他实施例中,计算机设备还可以从内容提供页面中,提取与内容生产者相关的其他信息。
在一个实施例中,热点查询语句为热点医疗查询语句;所述目标内容主题为目标疾病主题;所述候选内容生产者的信息为候选医生的信息。候选医生的信息包括候选医生自身的信息和候选医生所属的医院。
那么,计算机设备可以在第三方内容提供平台中,以目标疾病主题为搜索条件进行搜索,得到内容提供页面。该内容提供页面中包括与目标疾病主题相符的至少一条医疗内容和撰写该医疗内容的医生的信息。计算机设备可以从内容提供页面中,提取医生和医院字段,得到候选的医生信息。
为了便于理解,现结合图7进行举例说明。参照图7,即为以目标疾病主题为搜索条件,在第三方内容提供平台中搜索到的内容提供页面。该页面中包括如方框所示的医生的信息。进而可以从中提取页面中医生和医院字段,以得到页面中的医生的信息。
上述实施例中,在第三方内容提供平台中,搜索能够撰写目标内容主题的内容的内容生产者,相当于通过结合目标内容主题和第三方平台的资源,能够准确、快捷地确定出内容生产者。
在一个实施例中,所述热点查询语句为热点医疗查询语句;所述目标内容主题为目标疾病主题;所述候选内容生产者的信息为候选医生的信息。本实施例中,所述查找与所述目标内容主题对应的候选内容生产者的信息包括:通过疾病科室知识图谱,查找所述目标疾病主题所属的治疗科室;查找属于所述治疗科室的医生的信息,得到候选医生的信息。
其中,疾病科室知识图谱,是指包括疾病和治疗科室之间对应关系的关系映射图。可以理解,将疾病和治疗科室中的任意一方作为搜索条件,即可以查找到具有映射关系的另一方的信息。治疗科室,是治疗该项疾病的科室。比如,角膜炎这一疾病对应的治疗科室即为眼科。
具体地,计算机设备可以将目标疾病主题输入疾病-科室知识图谱,以从中查找到目标疾病主题所属的治疗科室。
在一个实施例中,疾病-科室知识图谱中还可以包括科室和医生之间的对应关系,计算机设备可以根据该对应关系,查找属于该治疗科室的医生的信息,得到候选医生的信息。在其他实施例中,计算机设备也可以不通过疾病-科室知识图谱来查找各治疗科室的医生的信息,而是通过数据库中存储的治疗科室和医生之间的对应关系,查找属于各治疗科室的医生的信息,得到候选医生的信息。
上述实施例中,运用疾病科室知识图谱,通过目标内容主题,从科室维度,确定出目标医生,能够提高效率,且能够保证准确性。
在一个实施例中,所述热点查询语句为热点医疗查询语句;所述目标内容主题为目标疾病主题;所述候选内容生产者的信息为候选医生的信息;所述候选医生的信息包括候选医生所属的医院。本实施例中,从所述候选内容生产者的信息中,筛选目标内容生产者的信息包括:按所属医院的医院等级由高到低的顺序,对所述候选医生的信息进行排名;选取排名在前预设位次的候选医生的信息,得到目标医生的信息。
其中,医院等级,是指官方对医院进行评级认证的等级。比如,三甲医院,即为官方认证的医院等级。
具体地,计算机设备可以获取候选医生所属的医院的医院等级。计算机设备可以按照所属医院的医院等级由高到低的顺序,对所述候选医生的信息进行排名。
在一个实施例中,计算机设备可以选取排名在前预设位次的候选医生的信息,得到目标医生的信息。
在其他实施例中,计算机设备也可以根据候选医生的权威认证等级,对处于同一医院等级的候选医生进行二级排序,根据排序由先到后的顺序,筛选预设数量的医生,得到目标医生的信息。医生的权威认证等级,是由权威认证机构或者组织,对其进行等级评定。
可以理解,按照本申请实施例的方法,筛选出的目标医生,即为对目标内容话题具有较强专业背景,又有兴趣在医疗资讯提供平台中上进行医疗资讯你让撰写的医生。
进一步地,计算机设备可以根据目标医生的信息,生成目标医生名单进行输出。这样一来,就可以将这份目标医生名单提供给医疗资讯提供平台的运营人员,使其去联系这些医生,进而使得这些权威的医生能够撰写目标内容主题下的医疗资讯内容,以补充到内容资讯提供平台中。从而将大量用户想要查询、但目前未查询到的内容进行准确地补充,提高了内容补充的准确性。
如图8所示,在一个实施例中,提供了一种内容补充装置800,该装置800包括:目标语句确定模块802以及主题聚类模块804;其中:
目标语句确定模块802,用于获取热点查询语句;确定所述热点查询语句对应的访问率;所述访问率,为访问所述热点查询语句的查询结果的频率;从所述热点查询语句中筛选目标查询语句;所述目标查询语句对应的访问率,低于所述热点查询语句中的非目标查询语句所对应的访问率。
主题聚类模块804,用于对所述目标查询语句进行主题聚类,生成目标内容主题;所述目标内容主题,用于表征需补充的内容所属的主题。
在一个实施例中,目标语句确定模块802还用于根据查询日志,获取候选的查询语句和所述查询语句的第一查询次数;根据所述第一查询次数,确定所述查询语句的查询频率;筛选所述查询频率大于或等于预设频率阈值的查询语句,得到热点查询语句。
在一个实施例中,所述访问率为点击率;目标语句确定模块802还用于获取所述热点查询语句对应的第二查询次数;确定所述热点查询语句所对应的有点击次数;所述有点击次数,为对所述热点查询语句的查询结果有产生点击行为的次数;根据所述有点击次数和所述第二查询次数的比值,得到所述热点查询语句对应的点击率。
在一个实施例中,目标语句确定模块802还用于确定所述热点查询语句对应的有点击计数值;所述有点击计数值,是指当对所述热点查询语句当次查询的查询结果有产生点击行为时,针对当次查询进行一次计数得到的数值;对所述有点击计数值进行求和,得到所述热点查询语句对应的有点击次数。
在一个实施例中,主题聚类模块804还用于对所述目标查询语句进行语义特征提取,得到语义特征向量;根据所述语义特征向量,对所述目标查询语句进行聚类;提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题。
在一个实施例中,所述语义特征向量为多个;主题聚类模块804还用于将各所述语义特征向量映射为特征空间中的点;从所述点中选取预设聚类数量的初始的质心点,将各点与距离最近的质心点聚为同一团簇;确定所述团簇的质心点,并返回所述将各点与距离最近的质心点聚为同一团簇的步骤以进行迭代处理,直至满足迭代停止条件,得到最终聚类的团簇。
在一个实施例中,主题聚类模块804还用于求取同一团簇中的目标查询语句之间的最长公共子串;根据所述最长公共子串,得到所述团簇对应的目标内容主题。
如图9所示,在一个实施例中,该装置还包括:
内容生产者确定模块806,用于查找与所述目标内容主题对应的候选内容生产者的信息;所述候选内容生产者,是撰写过属于所述目标内容主题的内容的撰写者;从所述候选内容生产者的信息中,筛选目标内容生产者的信息;所述目标内容生产者,用于补充撰写符合所述目标内容主题的内容。
在一个实施例中,内容生产者确定模块806还用于在第三方内容提供平台中,以所述目标内容主题为搜索条件进行搜索,得到内容提供页面;所述内容提供页面中包括与所述目标内容主题相符的至少一条内容、以及所述内容的内容生产者的信息;从所述内容提供页面中,提取所述内容生产者的信息,得到候选内容生产者的信息。
在一个实施例中,所述热点查询语句为热点医疗查询语句;所述目标内容主题为目标疾病主题;所述候选内容生产者的信息为候选医生的信息;内容生产者确定模块806还用于通过疾病科室知识图谱,查找所述目标疾病主题所属的治疗科室;查找属于所述治疗科室的医生的信息,得到候选医生的信息。
在一个实施例中,所述热点查询语句为热点医疗查询语句;所述目标内容主题为目标疾病主题;所述候选内容生产者的信息为候选医生的信息;所述候选医生的信息包括候选医生所属的医院;内容生产者确定模块806还用于按所属医院的医院等级由高到低的顺序,对所述候选医生的信息进行排名;选取排名在前预设位次的候选医生的信息,得到目标医生的信息。
图10为一个实施例中计算机设备的框图。参照图10,该计算机设备可以为终端或服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行一种内容补充方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种内容补充方法。计算机设备的网络接口用于进行网络通信。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的内容补充装置或对象检测装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该内容补充装置的各个程序模块。比如,图8所示的目标语句确定模块802以及主题聚类模块804。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的内容补充方法中的步骤。
例如,计算机设备可以通过如图8所示的内容补充装置800中的目标语句确定模块802获取热点查询语句;确定所述热点查询语句对应的访问率;所述访问率,为访问所述热点查询语句的查询结果的频率;从所述热点查询语句中筛选目标查询语句;所述目标查询语句对应的访问率,低于所述热点查询语句中的非目标查询语句所对应的访问率。计算机设备可以通过主题聚类模块804对所述目标查询语句进行主题聚类,生成目标内容主题;所述目标内容主题,用于表征需补充的内容所属的主题。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述内容补充方法的步骤。此处内容补充方法的步骤可以是上述各个实施例的内容补充方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述内容补充方法的步骤。此处内容补充方法的步骤可以是上述各个实施例的内容补充方法中的步骤。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按步骤标号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种内容补充方法,所述方法包括:
获取热点查询语句;
确定所述热点查询语句对应的访问率;所述访问率,为访问所述热点查询语句的查询结果的频率;
从所述热点查询语句中筛选目标查询语句;所述目标查询语句对应的访问率,低于所述热点查询语句中的非目标查询语句所对应的访问率;
对所述目标查询语句进行主题聚类,生成目标内容主题;所述目标内容主题,用于表征需补充的内容所属的主题。
2.根据权利要求1所述的方法,其特征在于,所述获取热点查询语句包括:
根据查询日志,获取候选的查询语句和所述查询语句的第一查询次数;
根据所述第一查询次数,确定所述查询语句的查询频率;
筛选所述查询频率大于或等于预设频率阈值的查询语句,得到热点查询语句。
3.根据权利要求1所述的方法,其特征在于,所述访问率为点击率;
所述确定所述热点查询语句对应的访问率包括:
获取所述热点查询语句对应的第二查询次数;
确定所述热点查询语句所对应的有点击次数;所述有点击次数,为对所述热点查询语句的查询结果有产生点击行为的次数;
根据所述有点击次数和所述第二查询次数的比值,得到所述热点查询语句对应的点击率。
4.根据权利要求3所述的方法,其特征在于,所述确定所述热点查询语句所对应的有点击次数包括:
确定所述热点查询语句对应的有点击计数值;所述有点击计数值,是指当对所述热点查询语句当次查询的查询结果有产生点击行为时,针对当次查询进行一次计数得到的数值;
对所述有点击计数值进行求和,得到所述热点查询语句对应的有点击次数。
5.根据权利要求1所述的方法,其特征在于,对所述目标查询语句进行主题聚类,生成目标内容主题包括:
对所述目标查询语句进行语义特征提取,得到语义特征向量;
根据所述语义特征向量,对所述目标查询语句进行聚类;
提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题。
6.根据权利要求5所述的方法,其特征在于,所述语义特征向量为多个;所述根据所述语义特征向量,对所述目标查询语句进行聚类包括:
将各所述语义特征向量映射为特征空间中的点;
从所述点中选取预设聚类数量的初始的质心点,将各点与距离最近的质心点聚为同一团簇;
确定所述团簇的质心点,并返回所述将各点与距离最近的质心点聚为同一团簇的步骤以进行迭代处理,直至满足迭代停止条件,得到最终聚类的团簇。
7.根据权利要求6所述的方法,其特征在于,所述提取聚为同类的目标查询语句之间的主题信息,得到目标内容主题包括:
求取同一团簇中的目标查询语句之间的最长公共子串;
根据所述最长公共子串,得到所述团簇对应的目标内容主题。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
查找与所述目标内容主题对应的候选内容生产者的信息;所述候选内容生产者,是撰写过属于所述目标内容主题的内容的撰写者;
从所述候选内容生产者的信息中,筛选目标内容生产者的信息;所述目标内容生产者,用于补充撰写符合所述目标内容主题的内容。
9.根据权利要求8所述的方法,其特征在于,所述查找与所述目标内容主题对应的候选内容生产者的信息包括:
在第三方内容提供平台中,以所述目标内容主题为搜索条件进行搜索,得到内容提供页面;所述内容提供页面中包括与所述目标内容主题相符的至少一条内容、以及所述内容的内容生产者的信息;
从所述内容提供页面中,提取所述内容生产者的信息,得到候选内容生产者的信息。
10.根据权利要求8所述的方法,其特征在于,所述热点查询语句为热点医疗查询语句;所述目标内容主题为目标疾病主题;所述候选内容生产者的信息为候选医生的信息;
所述查找与所述目标内容主题对应的候选内容生产者的信息包括:
通过疾病科室知识图谱,查找所述目标疾病主题所属的治疗科室;
查找属于所述治疗科室的医生的信息,得到候选医生的信息。
11.根据权利要求8至10中任一项所述的方法,其特征在于,所述热点查询语句为热点医疗查询语句;所述目标内容主题为目标疾病主题;所述候选内容生产者的信息为候选医生的信息;所述候选医生的信息包括候选医生所属的医院;
所述从所述候选内容生产者的信息中,筛选目标内容生产者的信息包括:
按所属医院的医院等级由高到低的顺序,对所述候选医生的信息进行排名;
选取排名在前预设位次的候选医生的信息,得到目标医生的信息。
12.一种内容补充装置,其特征在于,所述装置包括:
目标语句确定模块,用于获取热点查询语句;确定所述热点查询语句对应的访问率;所述访问率,为访问所述热点查询语句的查询结果的频率;从所述热点查询语句中筛选目标查询语句;所述目标查询语句对应的访问率,低于所述热点查询语句中的非目标查询语句所对应的访问率;
主题聚类模块,用于对所述目标查询语句进行主题聚类,生成目标内容主题;所述目标内容主题,用于表征需补充的内容所属的主题。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
内容生产者确定模块,用于查找与所述目标内容主题对应的候选内容生产者的信息;所述候选内容生产者,是撰写过属于所述目标内容主题的内容的撰写者;从所述候选内容生产者的信息中,筛选目标内容生产者的信息;所述目标内容生产者,用于补充撰写符合所述目标内容主题的内容。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至11中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010113004.6A CN111324701B (zh) | 2020-02-24 | 2020-02-24 | 内容补充方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010113004.6A CN111324701B (zh) | 2020-02-24 | 2020-02-24 | 内容补充方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111324701A true CN111324701A (zh) | 2020-06-23 |
CN111324701B CN111324701B (zh) | 2023-04-07 |
Family
ID=71163617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010113004.6A Active CN111324701B (zh) | 2020-02-24 | 2020-02-24 | 内容补充方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324701B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881170A (zh) * | 2020-07-14 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 时效性查询内容字段挖掘方法、装置、设备和存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1691019A (zh) * | 2004-04-15 | 2005-11-02 | 微软公司 | 检验关键字和Web站点内容之间的相关性 |
US8700643B1 (en) * | 2010-11-03 | 2014-04-15 | Google Inc. | Managing electronic media collections |
US20150120717A1 (en) * | 2013-10-25 | 2015-04-30 | Marketwire L.P. | Systems and methods for determining influencers in a social data network and ranking data objects based on influencers |
US20150227579A1 (en) * | 2014-02-12 | 2015-08-13 | Tll, Llc | System and method for determining intents using social media data |
CN106445989A (zh) * | 2016-06-03 | 2017-02-22 | 新乡学院 | 基于查询点击图的检索推荐模型优化 |
CN106777193A (zh) * | 2016-12-23 | 2017-05-31 | 李鹏 | 一种自动撰写特定稿件的方法 |
CN106951420A (zh) * | 2016-01-06 | 2017-07-14 | 富士通株式会社 | 文献搜索方法及设备、作者搜索方法及设备 |
CN107515877A (zh) * | 2016-06-16 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107832468A (zh) * | 2017-11-29 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 需求识别方法和装置 |
CN108647341A (zh) * | 2018-05-14 | 2018-10-12 | 佛山市真觉网络科技有限公司 | 一种提高搜索引擎排名的方法 |
CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
CN108763579A (zh) * | 2018-06-08 | 2018-11-06 | Oppo(重庆)智能科技有限公司 | 搜索内容推荐方法、装置、终端设备及存储介质 |
CN110019800A (zh) * | 2017-11-30 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 分发内容处理方法、装置、计算机设备和存储介质 |
CN110377701A (zh) * | 2019-07-02 | 2019-10-25 | 北京奇艺世纪科技有限公司 | 一种热词处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-02-24 CN CN202010113004.6A patent/CN111324701B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1691019A (zh) * | 2004-04-15 | 2005-11-02 | 微软公司 | 检验关键字和Web站点内容之间的相关性 |
US8700643B1 (en) * | 2010-11-03 | 2014-04-15 | Google Inc. | Managing electronic media collections |
US20150120717A1 (en) * | 2013-10-25 | 2015-04-30 | Marketwire L.P. | Systems and methods for determining influencers in a social data network and ranking data objects based on influencers |
US20150227579A1 (en) * | 2014-02-12 | 2015-08-13 | Tll, Llc | System and method for determining intents using social media data |
CN106951420A (zh) * | 2016-01-06 | 2017-07-14 | 富士通株式会社 | 文献搜索方法及设备、作者搜索方法及设备 |
CN106445989A (zh) * | 2016-06-03 | 2017-02-22 | 新乡学院 | 基于查询点击图的检索推荐模型优化 |
CN107515877A (zh) * | 2016-06-16 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN106777193A (zh) * | 2016-12-23 | 2017-05-31 | 李鹏 | 一种自动撰写特定稿件的方法 |
CN107832468A (zh) * | 2017-11-29 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 需求识别方法和装置 |
CN110019800A (zh) * | 2017-11-30 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 分发内容处理方法、装置、计算机设备和存储介质 |
CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
CN108647341A (zh) * | 2018-05-14 | 2018-10-12 | 佛山市真觉网络科技有限公司 | 一种提高搜索引擎排名的方法 |
CN108763579A (zh) * | 2018-06-08 | 2018-11-06 | Oppo(重庆)智能科技有限公司 | 搜索内容推荐方法、装置、终端设备及存储介质 |
CN110377701A (zh) * | 2019-07-02 | 2019-10-25 | 北京奇艺世纪科技有限公司 | 一种热词处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
丁悦梅: "基于形式概念分析的Web信息资源聚类研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881170A (zh) * | 2020-07-14 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 时效性查询内容字段挖掘方法、装置、设备和存储介质 |
CN111881170B (zh) * | 2020-07-14 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 时效性查询内容字段挖掘方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111324701B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11537820B2 (en) | Method and system for generating and correcting classification models | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US10831927B2 (en) | Noise propagation-based data anonymization | |
US9183285B1 (en) | Data clustering system and methods | |
US20230222142A1 (en) | Metadata classification | |
WO2021139343A1 (zh) | 基于自然语言处理的数据分析方法、装置和计算机设备 | |
US11681817B2 (en) | System and method for implementing attribute classification for PII data | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
Mahmoud et al. | Estimating semantic relatedness in source code | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
CN114153995B (zh) | 医学术语的处理方法、装置、计算机设备和存储介质 | |
CN110134943B (zh) | 领域本体生成方法、装置、设备及介质 | |
CN110717008A (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN111324701B (zh) | 内容补充方法、装置、计算机设备和存储介质 | |
Assegaff et al. | Experimental of vectorizer and classifier for scrapped social media data | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
US11822609B2 (en) | Prediction of future prominence attributes in data set | |
Johnson et al. | Modeling medical content for automated summarization | |
Ma et al. | Api prober–a tool for analyzing web api features and clustering web apis | |
Varga et al. | Exploring the Similarity between Social Knowledge Sources and Twitter for Cross-domain Topic Classification. | |
Cooper et al. | Knowledge-based fast web query engine using NoSQL | |
Viltres-Sala et al. | Information Retrieval Model with Query Expansion and User Preference Profile | |
Jokar et al. | A contextual information based scholary paper recommender system using big data platform | |
US11500933B2 (en) | Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024099 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |