CN111444707B - 一种标题生成方法、设备及计算机可读存储介质 - Google Patents

一种标题生成方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111444707B
CN111444707B CN202010222802.2A CN202010222802A CN111444707B CN 111444707 B CN111444707 B CN 111444707B CN 202010222802 A CN202010222802 A CN 202010222802A CN 111444707 B CN111444707 B CN 111444707B
Authority
CN
China
Prior art keywords
title
entry data
sub
candidate
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010222802.2A
Other languages
English (en)
Other versions
CN111444707A (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010222802.2A priority Critical patent/CN111444707B/zh
Publication of CN111444707A publication Critical patent/CN111444707A/zh
Application granted granted Critical
Publication of CN111444707B publication Critical patent/CN111444707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种标题生成方法、设备及计算机可读存储介质;该方法包括:获取待生成标题的词条数据;从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合;根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到与每个子词条数据对应的标题集合;针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成;其中,搜索热门度表征了候选标题与用户搜索习惯的贴合程度。通过本发明,能够提高针对专业医疗词典的搜索效果。

Description

一种标题生成方法、设备及计算机可读存储介质
技术领域
本发明涉及互联网技术,尤其涉及一种标题生成方法、设备及计算机可读存储介质。
背景技术
医疗百科词典为用户提供了较为专业、权威的医疗知识,使得用户可以方便、快捷地了解健康知识和疾病的介绍。相关技术中,用户在查询健康知识或是疾病介绍时,一般是在医疗百科词典的搜索页面中直接输入自己所要查询的标题,以得到健康知识或疾病介绍,即得到相对应的搜索结果。
然而,医疗百科词典中的各个词条的标题都是专业人士编辑的,标题专业化程度较强,用户在搜索时所输入的标题则较为口语化,而口语化的标题和专业的标题在语义上可能存在差异,换句话说,医疗百科词典中的各个词条的标题与用户的搜索习惯的贴合程度太低,这样导致专业的词条内容被用户搜索到的几率较小,从而使得针对专业医疗词条的搜索效果较差。
发明内容
本发明实施例提供一种标题生成方法、设备及计算机可读存储介质,能够提高针对专业医疗词条的搜索效果。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种标题生成方法,包括:
获取待生成标题的词条数据;其中,所述待生成标题的词条数据中包括至少一个子词条数据;
从标题信息数据库中,针对所述待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和所述候选标题所对应的信息内容;
根据所述多个标题内容组合中的信息内容,将所述多个标题内容组合中的候选标题与所述至少一个子词条数据中的每个子词条数据进行匹配,得到与所述每个子词条数据对应的标题集合;
针对所述标题集合中的每个候选标题计算出搜索热门度,根据所述搜索热门度从所述标题集合中为所述每个子词条数据选择出标题,完成针对所述待生成标题的词条数据的标题生成;其中,所述搜索热门度表征了候选标题与用户搜索习惯的贴合程度。
本发明实施例提供一种标题生成设备,包括:
存储器,用于存储可执行标题生成指令;
处理器,用于执行所述存储器中存储的可执行标题生成指令时,实现本发明实施例提供的标题生成方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行标题生成指令,用于引起处理器执行时,实现本发明实施例提供的标题生成方法。
本发明实施例具有以下有益效果:
本发明实施例中,标题生成设备能够获取待生成标题的词条数据,并从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合,然后根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到每个子词条数据对应的标题集合,接着,标题生成设备针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成过程。如此,能够针对待生成标题的词条数据中的每个子词条数据提取到候选标题,然后根据候选标题的搜索热门度,选择出最贴合用户的搜索习惯的候选标题,作为每个子词条数据最终的标题,使得专业的词条数据拥有符合用户搜索习惯的标题,从而使得专业的词条数据更容易被用户搜索到,提高了针对专业词条的搜索效果。
附图说明
图1示出了相关技术中关于小儿厌食症的日常类型的子卡片的示意图;
图2是本发明实施例提供的标题生成系统100的一个可选的架构示意图;
图3是本发明实施例提供的标题生成设备200的结构示意图;
图4是本发明实施例提供的标题生成方法的一个可选的流程示意图一;
图5是本发明实施例提供的待生成标题的词条数据的示意图;
图6是本发明实施例提供的标题内容组合的示意图;
图7是本发明实施例提供的标题生成方法的一个可选的流程示意图二;
图8是本发明实施例提供的对未分类的子词条数据进行分类的示意图;
图9是本发明实施例提供的显示目标标题和目标标题对应的子词条数据的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)词条数据,是词典的组成单元,是指针对某个字、词,或是由字和词组成的短语的释义或是说明。例如,在医疗词典中,“感冒”就可以是一个词条,在该词条中,有针对感冒的病因的解释说明,有针对感冒的日常保健的介绍等。
2)子词条数据,可以理解为词条数据中的子卡片。在词条数据中,常常针对同一个主题具有不同的类型、不同角度的说明,子词条数据指的就是词条数据中针对各个类型、各个角度的说明。例如,在医疗词典中,每个词条数据通常分有概述、病因、症状以及日常保健等解释类型,以便于从各个角度来对词条数据的主题进行说明。例如,在感冒词条中,通常会从感冒的病因、感冒的症状以及感冒的日常保健等角度来进行说明,以使得用户能够从感冒词条的各个子词条数据中获取关于感冒的各种知识。
3)搜索热门度,用于表征某个标题是否热门,是否为用户所常用的标题。一般来说,标题的搜索热门度高,说明该标题经常被用户所使用,也即有较多的用户使用该标题来搜索词条内容。
4)标题类型,用来说明标题用来搜索词条数据中的哪种子词条数据的,也即,说明标题是与哪个类型的子词条数据相对应。例如,若是用户使用属于“日常”这一标题类型的某个标题进行搜索,则说明用户想要搜索某个词条数据下的“日常保健”子词条数据。
5)标题内容组合,表征搜索引擎根据搜索主题找到的标题,以及标题所对应的详细信息内容。例如,当搜索主题是“感冒的症状”时,搜索引擎会搜索出多个标题,例如“感冒的症状有哪些”,“感冒的表现”等,此时,每个标题以及其所对应的详细信息内容,就构成了一个标题内容组合。
医疗词典为用户提供了较为专业、权威的医疗知识,使得用户在日常生活中可以方便、快捷地获取并了解健康知识,以及一些疾病的介绍。在相关技术中,用户在具有查询健康知识或是疾病介绍的需求时,可以是在医疗词典的搜索界面中直接输入自己所要查询的标题,然后搜索引擎会根据用户键入的标题来搜索相应的内容,将所得到的搜索结果反馈给用户。
然而,医疗词典中的各个词条的标题都是专业人士编辑的,标题专业化程度强。用户在具有查询健康知识或是疾病介绍的需求时,往往不会将整个词条阅读完,而是会利用口语化的短句直接在医疗词典中进行搜索,即用户具有很强的目的性。但是,专业的标题和口语化的短句在语义上可能存在一定的差异,例如,图1示出了相关技术中关于小儿厌食症的日常类型的子卡片的示意图,在显示区域1-1中,示出了专业人士针对小儿厌食症的日常类型子卡片所编辑的标题:得了小儿厌食症如何保健1-11,显示区域1-2中显示了具体注意事项1-21。实质上,用户通过口语化的短句进行搜索,想要得到的内容即是图1中的具体注意事项1-21,但是用户所输入的短句,可能是“得了小儿厌食症如何喂养”,“得了小儿厌食症注意事项”,这与专业人士所编辑的“小儿厌食症如何保健”在语义上存在差异,即词条的标题与用户的搜索习惯的贴合程度太低,这样,搜索引擎根据用户口语化的短句,是难以搜到专业的词条内容的,即专业的词条内容被用户搜索到的几率较小,从而使得针对专业医疗词条的搜索效果较差。
本发明实施例提供一种标题生成方法、设备和计算机可读存储介质,能够高针对专业医疗词条的搜索效果,下面说明本发明实施例提供的标题生成设备的示例性应用,本发明实施例提供的标题生成设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,也可以实施为服务器。下面,将说明标题生成设备的示例性应用。
参见图2,图2是本发明实施例提供的标题生成系统100的一个可选的架构示意图,为实现支撑一个标题生成应用,终端400通过网络300连接标题生成设备200,网络300可以是广域网或者局域网,又或者是二者的组合。
标题生成设备200获取待生成标题的词条数据;其中,待生成标题的词条数据中包括至少一个子词条数据。接着,标题生成设备200从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和候选标题所对应的信息内容。标题生成设备200根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到与每个子词条数据对应的标题集合。然后,标题生成设备200针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成;其中,搜索热门度表征了候选标题与用户搜索习惯的贴合程度。接着,当终端400获取到用户所输入的搜索标题之后,会将搜索标题通过网络300发送给标题生成设备200,服务器200将每个子词条数据的标题与搜索标题进行匹配,从而从每个子词条数据的标题中挑选出目标标题,然后将目标标题和目标标题对应的目标子词条数据发送给终端400,终端400将目标标题和目标子词条数据显示在终端400的显示区域410上,以使得用户可以在终端400上看到权威的医疗词典的子词条数据。
参见图3,图3是本发明实施例提供的标题生成设备200的结构示意图,图3所示的标题生成设备200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。标题生成设备200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的标题生成装置可以采用软件方式实现,图3示出了存储在存储器250中的标题生成装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、提取模块2552、匹配模块2553、选择模块2554、分类模块2555和显示模块2556,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的标题生成装置可以采用硬件方式实现,作为示例,本发明实施例提供的标题生成装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的标题生成方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Progr ammable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programma ble Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
示例性的,本发明实施例提供一种标题生成设备,包括:
存储器,用于存储可执行标题生成指令;
处理器,用于执行所述存储器中存储的可执行标题生成指令时,实现本发明实施例提供的标题生成方法。
下面,将结合本发明实施例提供的标题生成设备的示例性应用和实施,说明本发明实施例提供的标题生成方法。
参见图4,图4是本发明实施例提供的标题生成方法的一个可选的流程示意图一,将结合图4示出的步骤进行说明。
S101、获取待生成标题的词条数据;其中,待生成标题的词条数据中包括至少一个子词条数据。
本发明实施例是在为专业词条数据的各个子词条数据自动生成标题的场景下实现的,例如,为专业医疗词条数据的各个子词条数据自动生成较为口语化的,符合大多数用户的搜索习惯的标题等。当标题生成设备在词条数据库中获取到了还没有标题的词条数据时,表明需要开始进行标题生成流程,此时,标题生成设备会将获取到的没有标题的词条数据作为待生成标题的词条数据。
可以理解的是,词条数据是针对一个主题在各个角度的释义或说明,而每个角度的释义或说明都可以看做是一个子词条数据,即一个词条数据中包含有一个或多个子词条数据。待生成标题的词条数据也不例外,其也包含有一个或多个子词条数据,每个子词条数据都有其所属的类型,这里的类型即是释义或说明的角度。
示例性的,本发明实施例提供了待生成标题的词条数据的示意图,参见图5,在区域5-1中,显示有待生成标题的词条数据的主题:小儿厌食症5-11,即说明本词条数据中的所有内容都是与小儿厌食症有关的。在区域5-2中,则示出了小儿厌食症5-11的各个释义角度,也即是小儿厌食症5-11的各个子词条数据的类型,分别为概述5-21、症状5-22、病因5-23、就医5-24、治疗5-25和日常5-26。进一步的,在区域5-3中,示出了类型为日常5-26的子词条数据的具体内容。在医疗词典中,每个词条数据都可以按照图5的形式进行呈现,也可以按照其他形式进行呈现,本发明实施例在此不作限定。
需要说明的是,待生成标题的词条数据可以是新加入到词条数据库中的词条数据,即新生成的词条数据,也可以是之前就已经加入到词条数据库中,但是还未生成标题的词条数据,本发明实施例在此不作限定。
进一步的,在本发明的一些实施例中,待生成标题的词条数据中的各个子词条数据所属的类型,可以是在生成时就已经确定好,也可以是在进行标题生成过程之前,由训练好的模型进行类型分类所确定出的,本发明实施例在此不作具体限制。
S102、从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和候选标题所对应的信息内容。
标题生成设备在获取待生成标题的词条数据之后,就会依据待生成标题的词条数据所要解释或是说明的主题,来从标题信息数据库中提取出多个标题内容组合,其中,每个标题内容组合都是由候选标题和候选标题所对应的信息内容所组成的信息对。标题生成设备就是要从这些候选标题中来为待生成标题的词条数据中的每个子词条数据选择出标题。
可以理解的是,标题内容组合中的候选标题,可以是某些用户在网络上针对某个健康知识或是疾病进行提问时所编辑的标题,此时,候选标题所对应的信息内容就是由其他用户针对该标题所回答的内容,也即标题内容组合中的候选标题和信息内容,可以是由不同的用户生成的;标题内容组合中的候选标题,还可以是较为权威的专业人士在进行健康知识科普时的所起的标题,此时,信息内容是该专业人士自己所编辑的内容,也即标题内容组合中的候选标题和信息内容,可以是由同一个用户生成的。
值得注意的是,当候选标题是用户提问时编辑的标题时,该标题必然是较为口语化,符合普通用户的搜索习惯的;而当候选标题是较为权威的专业人士在知识科普时所编辑的标题时,同样的,为了使普通用户也能够了解专业知识,标题也会较为口语化,贴合普通用户的搜索习惯。因此,标题生成设备在本步骤中所获取到的候选标题,都是贴合用户口语化习惯,贴合普通用户的搜索习惯的标题。
需要说明的是,标题生成设备在依据待生成标题的词条数据所要解释或是说明的主题,来提取标题内容组合时,是先从待生成标题的词条数据的主题提取出来,并将该主题作为搜索关键词,然后,标题生成设备调用搜索引擎,通过搜索引擎将标题信息数据库中包含有搜索关键词的标题搜索出来,作为候选标题,同时将候选标题的信息内容也提取出来,与候选标题一起组成标题内容组合。
示例性的,本发明实施例提供了标题内容组合的示意图,参见图6,当待生成标题的词条数据的主题为小儿厌食症6-1时,标题生成设备会将小儿厌食症作为搜索关键词,然后调用搜索引擎,通过搜索引擎将标题信息数据库中包含有“小儿厌食症”的标题挑选出来,并将包含有“小儿厌食症”的标题所对应的信息内容也提取出来,组成信息对,也即标题内容组合,然后将标题内容组合显示在区域6-2中。例如,用标题6-211:如何有效纠正小儿厌食症,以及标题6-211的信息内容6-212,组成标题内容组合6-21;用标题6-221:小儿厌食症如何预防以及标题6-221的信息内容6-222,组成标题内容组合6-22;用标题6-231:小儿厌食症的推拿方法以及标题6-231的信息内容6-232,组成标题信息内容组合6-23。
可以理解的是,本发明实施例中,用于搜索包含搜索关键字的标题的搜索引擎,可以是已经设计好的通用搜索引擎,也可以是针对医疗词典所创建的专用搜索引擎,本发明实施例在此不作限定。
S103、根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到与每个子词条数据对应的标题集合。
由于标题一般都是以短句的形式出现的,所能承载的信息是有限的,可能会导致相同或相似的两个标题,分别对应着不同类型的信息内容。为了针对不同类型的子词条数据都能够生成合适的标题,标题生成设备会先对每个标题内容组合中的信息内容进行解析,判断出该信息内容是属于什么类型的,进而判断出与信息内容所一一对应的候选标题是属于什么类型的,然后用类型与每个子词条数据的类型匹配上的所有候选标题,组成每个子词条数据所对应的标题集合。换句话说,标题生成设备是利用每个子词条数据的类型,来对每个标题内容组合中的候选标题进行分类,以得到每个子词条数据所对应的标题集合。
示例性的,若待生成标题的词条数据的主题为感冒时,标题1:感冒怎么办,和标题2:感冒时怎么做,在语义上是非常相近的,此时,是难以直接判断出标题1和标题2分别是与感冒下的哪个类型的子词条数据对应的,这时,标题生成设备可以分别对标题1所对应的信息内容和标题2所对应的信息内容进行解析判断。当标题生成设备判断出标题1对应的信息内容为“喝热水、卧床休息”等时,会认为标题1的信息内容为日常类型,从而标题1属于日常类型;当标题生成设备判断出标题2对应的信息内容为“可服用xx药物缓解症状或是及时就医”时,会认为标题2的信息内容为治疗类型,因而标题2为治疗类型。这样,标题生成设备就可以针对不同类型的子词条数据,来构造出对应的标题集合。
S104、针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成;其中,搜索热门度表征了候选标题与用户搜索习惯的贴合程度。
标题生成设备在针对每个子词条数据都得到对应的标题集合之后,就可以针对标题集合中的每个候选标题来进行打分,将打分所得到的分数作为搜索热门度。进一步的,候选标题的打分分数,即搜索热门度能够在一定程度上表示用户的搜索习惯,当搜索热门度达到了一定的阈值时,说明有较多的用户在搜索健康知识或是疾病介绍时,都倾向于使用该候选标题。因而,标题生成设备可以将搜索热门度最高的候选标题,作为每个子词条数据选择出最终的标题,这样,标题生成设备就能够针对每个子词条数据生成较为流行的,被大多数用户所倾向于使用的标题,也即为每个子词条数据生成符合用户搜索习惯的标题,从而使得用户可以利用这些标题来搜索到子词条数据,提高专业的子词条数据被用户搜索到的几率。
需要说明的是,本发明实施例中,标题生成设备是针对每个子词条数据生成标题,因此,所得到的标题的数目是与待生成标题的词条数据中的子词条数据的数目相同的,并且,子词条数据与标题是一一对应的。示例性的,当待生成标题的词条数据中具有5个子词条数据时,标题生成设备就会生成与这5个子词条数据一一对应的5个标题,以便于每个子词条数据都可以通过较为流行的口语化标题搜索到。
本发明实施例中,标题生成设备能够获取待生成标题的词条数据,并从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合,然后根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到每个子词条数据对应的标题集合,接着,标题生成设备针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成过程。如此,能够针对待生成标题的词条数据中的每个子词条数据提取到候选标题,然后根据候选标题的搜索热门度,选择出最贴合用户的搜索习惯的候选标题,作为每个子词条数据最终的标题,使得专业的词条数据拥有符合用户搜索系统的标题,从而使得专业的词条数据更容易被用户搜索到,提高了针对专业词条的搜索效果。
参见图7,图7是本发明实施例提供的标题生成方法的一个可选的流程示意图二。在本发明的一些实施例中,每个子词条数据都有其所属的类型;根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到与每个子词条数据对应的标题集合,即S103的具体实现过程,可以包括:S1031-S1033,如下:
S1031、对多个标题内容组合的信息内容进行解析,得到多个标题内容组合的信息内容所属的类型,从而得到与信息内容相对应的各个候选标题所属的标题类型。
标题生成设备对每个标题内容组合中的信息内容进行解析,可以知晓每个候选标题所对应的信息内容具体是与哪个类型的子词条数据相对应的,然后将与其所对应的类型,作为信息内容所对应的候选标题所属的标题类型。也就是说,标题生成设备是依据信息内容与子词条数据的类型之间的对应关系,来为候选标题分类。
示例性的,当待生成标题的词条数据具有症状、日常、病因等类型的子词条数据时,标题生成设备就是依据信息内容中的文字描述,来判断信息内容具体是对症状、日常还是病因的解释与描述。当信息内容为针对病因的描述时,标题生成设备就会将病因作为信息内容所对应的候选标题的标题类型。
S1032、利用标题类型和每个子词条数据的类型,对各个候选标题和每个子词条数据进行匹配,得到与每个子词条数据对应的一个或多个匹配候选标题。
标题生成设备在得到每个候选标题的标题类型之后,就会逐个将候选标题的标题类型,与子词条数据的类型进行匹配比对,当标题类型与子词条数据的类型相同或相应时,标题生成设备就会将属于该标题类型的候选标题记为匹配候选标题。当所有的候选标题的标题类型,都与每个子词条数据的类型匹配过之后,就可以得到每个子词条数据所对应的一个或多个匹配候选标题。
需要说明的是,由于子词条数据的类型的个数是有限的,通常为6,或者是4,但是所提取到的标题内容组合的数目是有可能比较多的,例如为50,或是60等,因而,针对一个子词条数据,极有可能会有多个与其对应的候选标题,因此,标题生成设备针对每个子词条数据,都可以得到一个或多个匹配候选标题。
S1033、利用一个或多个匹配候选标题组成标题集合。
标题生成设备将每个子词条数据所对应的一个或多个匹配候选标题整合成集合,这样,就可以得到针对每个子词条数据的标题集合。
示例性的,针对小儿厌食症在日常类型下的子词条数据,可以将“小儿厌食症如何预防”、“小儿厌食症怎么办”、“小儿厌食症如何正确应对”等匹配候选标题组成一个集合,得到针对小儿厌食症的日常类型的子词条数据所对应的标题集合。
本发明实施例中,标题生成设备能够根据多个标题内容组合的信息内容,为多个标题内容组合中的各个候选标题确定出所属的标题类型,然后利用标题类型和每个子词条数据的类型,对各个候选标题和每个子词条数据进行匹配,得到与每个子词条数据对应的一个或多个匹配候选标题,最后,利用一个或多个匹配候选标题组成标题集合。如此,标题生成设备就可以得到与用户搜索习惯较为贴合的标题集合,以便于后续从标题集合中为每个子词条数据选择出标题。
在本发明的一些实施例中,利用标题类型和每个子词条数据的类型,对各个候选标题和每个子词条数据进行匹配,得到与每个子词条数据对应的一个或多个匹配候选标题,即S1032的具体实现过程,可以包括:S1032a-S1032b,如下:
S1032a、对每个子词条数据的类型和标题类型进行匹配,将与每个子词条数据的类型匹配上的标题类型作为匹配标题类型。
标题生成设备匹配候选标题和每个子词条数据时,是用每个子词条数据的类型,和所有的候选标题的标题类型来逐一进行对比,若是每个子词条数据的类型和标题类型相同或是相对应时,表明标题类型和每个子词条数据的类型匹配上了,此时,标题生成设备就会将与每个子词条数据匹配上的标题类型,作为匹配标题类型。
例如,某个子词条数据的类型为病因时,候选标题1的标题类型为日常护理,候选标题2的标题类型为发病原因,候选标题3的标题类型为症状表现,此时,标题生成设备是将该子词条数据的类型,分别与候选标题1的标题类型日常,候选标题2的标题类型病因和候选标题3的标题类型症状进行比对。当标题生成设备发现该子词条数据的类型与候选标题2的标题类型对应时,就会将候选标题2的标题类型作为匹配标题类型。
S1032b、挑选出各个候选标题中属于匹配标题类型的候选标题,得到一个或多个匹配候选标题。
标题生成设备在得到匹配标题类型之后,标题生成设备会从所有的候选标题中,将标题类型为匹配标题类型的候选标题挑选出来,此时,所挑选出的候选标题,就是与子词条数据相对应的匹配候选标题。
本发明实施例中,标题生成设备能够对每个子词条数据的类型和标题类型进行匹配,将与每个子词条数据的类型匹配上的标题类型作为匹配标题类型,接着挑选出各个候选标题中属于匹配标题类型的候选标题,得到一个或多个匹配候选标题。如此,标题生成设备能够根据标题类型和每个子词条数据的类型,来对候选标题进行分类,从而得到与每个子词条数据对应的匹配候选标题,以便于后续能够从这些贴合用户搜索习惯的匹配候选标题中,为每个子词条数据选择出标题。
在本发明的一些实施例中,在获取待生成标题的词条数据之后,根据多个标题内容组合中的信息内容,将多个标题内容组合中的标题与至少一个子词条数据中的每个子词条数据进行匹配,得到与每个子词条数据对应的标题集合之前,即S101之后,S103之前,该方法还可以包括:S105-S107,如下:
S105、将至少一个子词条数据中未分类的子词条数据的每个字符进行编码。得到字符编码结果。
由于在待生成标题的词条数据中,可能存在并不明确子词条数据的类型的情况,例如,在创建待生成标题的词条数据之初确定子词条数据的类型时,遗漏了某个子词条数据,或者是某个子词条数据的描述,使得难以确定其所属的类型。换句话说,在待生成标题的词条数据中,可能存在未分类的子词条数据。此时,标题生成设备会将未分类的子词条数据的每个字符进行编码,得到针对每个字符的编码结果。
可以理解的是,标题生成模型可以利用生成词向量的模型来对未分类的子词条数据的每个字符进行编码,例如word2vec模型,还可以用其他模型来对每个字符进行编码,例如嵌入向量层等,本发明实施例在此不作限定。
需要说明的是,用于对每个字符进行编码的模型,都是经过训练的,并且,训练数据是与医疗词典处于同一领域的数据,例如,利用各个医院的医生在网络上针对疾病的科普的文本资料作为训练数据等。
S106、针对字符编码结果进行语序特征挖掘,得到未分类的子词条数据的特征向量。
由于子词条数据中的每个字符是存在上下文关系的,即存在语序的特征,而这些语序的特征能够在很大程度上决定子词条数据所要表达的含义。因此,标题生成设备在得到字符编码结果之后,需要利用训练好的语序特征挖掘模型,来挖掘字符编码结果中的语序特征,并将挖掘到的结果作为未分类的子词条数据的特征向量,以便于后续根据该特征向量来对未分类的子词条数据进行分类。
可以理解的是,在本发明实施例中,标题生成设备可以选用擅长于处理上下文关系的模型来作为语序特征挖掘模型,例如,利用长短期记忆网络(Long Short-TermMemory,LSTM)等。
进一步的,为了能够更加准确的对字符编码结果进行语序特征挖掘,标题生成设备可以利用语序挖掘模型,分别按照未分类的子词条数据的正向语序和反向语序来进行语序特征挖掘,得到未分类子词条数据的每个字符的正向语序特征向量和反向语序特征向量,然后将未分类子词条数据的最后一个字符的正向语序特征向量和反向语序特征向量拼接起来,作为最终的特征向量。
S107、对特征向量进行分类,得到未分类的子词条数据的类型,从而得到每个子词条数据的类型。
标题生成设备获取训练好的特征分类模型,然后将未分类的子词条数据的特征向量输入到特征分类模型之中进行预测,所得到的预测结果即是未分类子词条数据的类型。由于经过分类的子词条数据的类型是明确的,只要知晓了未分类子词条数据的类型之后,标题生成设备就能够知晓每个子词条数据的类型。
可以理解的是,特征分类模型的训练数据,可以是从已经明确类型的子分类数据提取出的,例如,将类型与子词条数据相互对应的样本作为二分类的正样本,然后将构造出的类型与子词条数据不对应的样本作为二分类的负样本。
示例性的,本发明实施例提供了对未分类的子词条数据进行分类的示意图,参见图8,x0、x1、x2和x3是未分类子词条数据中的字符,标题生成设备对这些字符进行编码8-1,得到字符编码结果,然后将字符编码结果分别输入到正向LSTM8-2和逆向LSTM8-3之中。其中,正向LSTM8-2的方向与未分类子词条数据的语序方向相同,逆向LSTM8-3与未分类子词条数据的语序方向相反。标题生成设备通过正向LSTM8-2得到每个字符的正向语序特征向量,和通过逆向LSTM8-3得到逆向语序特征向量之后,就会将每个字符的正向语序特征向量和逆向语序特征向量拼接8-4起来,得到拼接结果,然后将最后一个字符x3的拼接结果作为特征向量8-5,输入进特征分类模型的全连接层8-6中,再经过soft max层8-7,就可以得到未分类的子词条数据的类型了。
本发明实施例中,标题生成模式能够对至少一个子词条数据中未分类的子词条数据的每个字符进行编码,得到字符编码结果,然后对字符编码结果进行语序特征挖掘,得到未分类的子词条数据的特征向量,进而对特征向量进行分类,得到未分类子词条数据的类型,从而就可以得到每个子词条数据的类型。如此,即使待生成标题的词条数据中有不明确类型的子词条数据,标题生成设备也可以对这些子词条数据进行标题生成,从而保证了针对任何子词条数据,都可以生成贴合用户搜索习惯的标题。
在本发明的一些实施例中,针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,即S104的具体实现过程,可以包括:S1041-S1043,如下
S1041、获取标题集合中的每个候选标题的热度计算参数。
标题生成设备不仅要对每个子词条数据生成贴合用户口语化习惯的标题,还需要生成的标题是较为热门的,能被大多数用户所使用的,即生成符合大部分用户的搜索习惯的标题。此时,标题生成设备会先针对标题集合中的每个候选标题,获取到热度计算参数,以便于后续利用热度计算参数计算出每个候选标题的热度。
需要说明的是,本发明实施例中,热度计算参数中至少包括候选标题的点击次数,和候选标题的搜索次数,还可以包括一些其他的参数,例如候选标题的有效回复数等,本发明实施例在此不作限定。
进一步的,候选标题的点击次数,能够说明候选标题被用户点击的次数,当候选标题被用户点击的次数较多,例如超过了点击次数阈值500时,就说明该候选标题是可以吸引较多的用户来查看该候选标题所对应的信息内容的;候选标题的搜索次数,能够说明用户通过该候选标题在查找自己所想要的信息内容的情况的,但候选标题的搜索次数较多,达到了搜索次数阈值时,说明有较多的用户都是用该候选标题来查找信息内容,即该候选标题符合了大多数用户的搜索习惯。因此,标题生成设备可以利用候选标题的点击次数,和候选标题的搜索次数来作为热度计算参数。
S1042、利用热度计算参数,计算出每个标题的搜索热门度。
S1043、从标题集合中,挑选出搜索热门度最大的候选标题,作为每个子词条数据的标题。
标题生成设备在得到热度计算参数之后,就可以利用所得到的热度计算参数,来计算出每个标题的搜索热门度。接着,标题生成设备对标题集合中的每个候选标题的搜索热门度进行大小比较,从而挑选出搜索热门度最大的候选标题,来作为每个子词条数据最终的标题。
需要说明的是,在本发明的一些实施例中,标题生成设备在利用热度计算参数,计算每个候选标题的搜索热门度时,可以是将候选标题的搜索次数,和候选标题的点击次数相加,得到搜索热门度,也可以是将标题的搜索次数,和候选标题的点击次数相乘,得到搜索热门度,还可以是按照其他计算方式,计算出搜索热门度。具体利用热度计算参数计算搜索热门度的方式,可以根据实际情况进行设置,本发明实施例在此不作限定。
本发明实施例中,标题生成设备能够获取标题集合中的每个候选标题的热度计算参数,然后利用热度计算参数,计算出每个候选标题的搜索热门度,最后从标题集合中,挑选出搜索热门度最大的候选标题,作为每个子词条数据的标题。如此,能够从贴合用户口语化习惯的候选标题中,选择出较为热门、流行的候选标题,作为子词条数据的标题,从而提高子词条数据被用户搜索到的几率。
在本发明的一些实施例中,热度计算参数中至少包括候选标题的点击次数和候选标题的搜索次数;利用热度计算参数,计算出每个标题的搜索热门度,即S1042的具体实现过程,可以包括:S1042a-S1042b,如下:
S1042a、利用点击次数和搜索次数构造出中间热度参数。
标题生成设备在计算搜索热门度时,是先对候选标题的点击次数,和候选标题的搜索次数进行乘法运算,将所得到的乘积结果作为中间热度参数。
可以理解的是,在本发明的另一些实施例中,标题生成设备还可以对点击次数和搜索次数的乘积结果进行开方运算,将乘积结果的开方结果作为中间热度参数。当然,标题生成设备还可以对点击次数和搜索次数进行其他类型的运算,本发明实施例在此不作限定。
S1042b、利用中间热度参数构造出搜索热门度。
标题生成设备在得到中间热度参数之后,可以对中间热度参数进行对数运算,对数运算所得到的结果即是搜索热门度。当然,标题生成设备还可以对中间热度参数进行其他运算,例如,指数运算等,本发明实施例在此不作限定。
示例性的,本发明实施例提供了一种计算搜索热门度的公式,参见式(1):
popular_score=log(a×b) (1)
其中,a是点击次数,b是搜索次数,popular_score是搜索热门度。标题生成设备在知晓了点击次数的具体数值,以及搜索次数的具体数值之后,就可以将上述参数代入至式(1)中,计算出搜索热门度。
本发明实施例中,标题生成设备能够利用点击次数和搜索次数构造出中间热度参数,然后再利用中间热度参数构造出搜索热门度。如此,标题生成设备就能够针对每个候选标题计算出搜索热门度,以便于后续根据搜索热门度为每个子词条数据确定标题。
在本发明的一些实施例中,信息内容中具有用于说明信息内容的权威程度的权威标签;从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合,即S102的具体实现过程,可以包括:S1021-S1023,如下:
S1021、对待生成标题的词条数据进行主题提取,并将提取到的主题作为搜索关键字,在标题信息数据库中获取到包含搜索关键字的多个初始标题内容组合。
由于每个词条数据都有其主题,因此,标题生成设备可以对待生成标题的词条数据进行主题提取,将所提取出的主题作为搜索关键字。然后,标题生成设备调用搜索引擎,通过搜索引擎将标题中包含有搜索关键字的标题提取出来,并将这些标题所对应的信息内容也提取出来,用标题和其所对应的信息内容组成初始标题内容组合。由于很有可能不止一个标题包含搜索关键字,因为,标题生成设备会得到多个初始标题内容组合。
需要说明的是,在实际中,可能存在标题中不包含搜索关键字,但是标题所对应的信息内容是与搜索关键字,也即待生成标题的词条数据的主题相关的,针对这种情况,标题生成设备可以对信息内容进行分析,得到信息内容与待生成标题的词条数据的主题的相关程度,若相关程度超过了预设的相关阈值,则用该信息内容,和该信息内容所对应的标题,也组成初始标题内容组合。如此,可以不遗漏标题中不包含搜索关键字,但是信息内容与搜索关键字强相关的标题内容组合。
S1022、对多个初始标题内容组合中的信息内容进行标签读取,得到多个初始标题内容组合的权威标签。
S1023、对权威标签表征信息内容的权威程度高于或等于预设的权威程度阈值的初始标题内容组合进行筛选,得到多个标题内容组合。
标题生成设备从每个初始标题内容组合的信息内容中,读取出每个初始标题内容组合的权威标签,从而将权威标签表征信息内容的权威程度较高的初始标题内容组合筛选出来,作为最终的标题内容组合。可以理解的是,权威程度体现了信息内容的可信程度,当权威程度高时,说明了该信息内容所对应的标题更能吸引专业人士来进行回答,即该标题对用户的提问需求或是查询需求能够更好的概括,从而该标题更加权威。
可以理解的是,权威标签可以是三甲医院的医生的认证标签,也可以是问答中的最佳答案标签,还可以是其他一些能够表明信息内容的权威程度的标签,本发明实施例在此不做具体限定。
需要说明的是,预设的权威程度阈值可以是三甲医院医生的认证,也可以是其他一些专业机构的认证,或者是对信息内容的质量的评价,本发明实施例在此不作限定。
本发明实施例中,标题生成设备能够对待生成标题的词条数据进行主题提取,并将提取到的主题作为搜索关键字,在标题信息数据库中获取到包含搜索关键字的多个初始标题内容组合,接着,对多个初始标题内容组合中的信息内容进行标签读取,得到多个初始信息内容组合的权威标签,最后,筛选出权威标签表征信息内容的权威程度高于或等于预设的权威程度阈值的初始标题内容组合,得到多个标题内容组合。如此,标题生成设备能够从初始标题内容组合中选择出较为权威的标题内容组合,使得子词条数据的标题是从较为权威的标题内容组合的候选标题中选择出的,从而增加了子词条数据的标题的权威性。
在本发明的一些实施例中,在针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成之后,该方法还可以包括:S108-S109,如下:
S108、当在显示界面的预设搜索区域接收到输入的搜索标题时,将搜索标题与每个子词条数据的标题进行匹配,得到与搜索标题相匹配的目标标题。
标题生成设备可以在预设搜索区域来接收用户的搜索标题,当接收到用户所输入的搜索标题时,标题生成设备会将搜索标题,与每个子词条数据的标题逐个进行匹配。当标题生成设备发现与搜索标题相匹配的标题时,就会该将标题作为目标标题、
可以理解的是,标题生成设备将搜索标题与每个子词条数据的标题进行匹配时,可以是对比搜索标题与每个子词条数据的标题是否相同,或者是确定搜索标题与每个子词条数据的标题在语义上是否相接近。当然,标题生成设备还可以是依据其他的方式来对搜索标题和每个子词条数据的标题进行匹配,本发明实施例在此不作限定。
S109、在显示界面的标题显示区域显示目标标题,并在内容显示区域显示目标标题对应的目标子词条数据;其中,标题显示区域位于显示界面的第一预设区域上,内容显示区域位于显示界面的第二预设区域上,第一预设区域与第二预设区域不重叠。
标题生成设备在得到目标标题之后,就会相应的提取目标标题所对应的子词条数据。之后,标题生成设备将目标标题显示在划定好的标题显示区域,将目标子词条数据显示在划定好的内容显示区域,如此,标题生成设备就能够完成对用户所要查找的内容的显示过程。
需要说明的是,标题生成设备将显示界面分成了相互之间不重叠的第一预设区域和第二预设区域,并将第一预设区域作为标题显示区域,将第二预设区域作为内容显示区域。进一步的,第一预设区域,并不是特指显示界面中的一个区域,而是一类区域,即显示界面中可以有多个第一预设区域,同理,显示界面中也可以有多个第二预设区域,换句话说,显示界面中可以具有多个标题显示区域和内容显示区域。如此,当与搜索标题相匹配的目标标题具有多个时,对这些目标标题,及这些目标标题对应的子词条数据都能够进行显示。
示例性的,本发明实施例提供了显示目标标题和目标标题对应的子词条数据的示意图,参见图9,当标题生成设备在搜索区域9-1接收到搜索标题:小儿厌食症如何应对9-a时,会匹配得到目标标题:小儿厌食症的应对9-b,和小儿厌食症怎么办9-c。此时,标题生成设备会将小儿厌食症的应对9-b显示在标题显示区域9-2中,将小儿厌食症的应对9-b对应的子词条数据显示在内容显示区域9-3中;将小儿厌食症怎么办9-c显示在标题显示区域9-4中,将小儿厌食症怎么办9-c对应的子词条数据显示在内容显示区域9-5中。
本发明实施例中,标题生成设备当在预设搜索区域接收到搜索标题时,将搜索标题与每个子词条数据的标题进行匹配,得到与搜索标题相匹配的目标标题,然后在显示界面的标题显示区域显示目标标题,在内容显示区域显示目标标题对应的目标子词条数据。如此,标题生成设备能够将用户的搜索标题对应的子词条数据,显示在显示界面上,以使得用户能够阅读到较为专业、权威的子词条数据,进而提升了针对专业医疗词条的搜索效果。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
本发明实施例是在为小儿厌食症的各个子卡片进行标题生成的场景下实现的。在针对小儿厌食症的各个子词条数据进行标题生成之前,标题生成设备先收集医疗词典中的医疗百科词条数据,及其每个子卡片的(子词条数据)分类体系(子词条数据所属的类型),例如,“概述”、“症状”、“病因”、“就医”、“治疗”和“日常”六大类型。然后,标题生成设备将每个子卡片,及每个子卡片的分类体系作为二分类的正样本,并为每个子卡片选择一个错误的分类体系,用每个子卡片和错误的分类体系作为负样本,来得到训练数据。接着,标题生成设备用训练数据来训练出每个分类体系的二分类模型,例如,训练一个判断子卡片是否属于“症状”的二分类模型。
接着,标题生成设备将小儿厌食症(主题)作为搜索关键词,在搜索引擎中查找出与小儿厌食症有关的QA资讯数据(初始标题内容组合),然后将这些资讯数据中,由三甲医院的医生所回答的权威QA资讯(标题内容组合),或是最佳答案的权威QA资讯筛选出来,将其他的QA资讯剔除掉。之后,标题生成设备对权威QA资讯中标题(候选标题)进行分类,得到与分类体系相对应的标题(匹配候选标题),并用这些标题组成集合(标题集合)。例如,对小儿厌食症的日常子卡片为例,组成{“小二厌食症如何预防”,“如何有效纠正小儿厌食症”,“小儿厌食症如何正确应对”,“小儿厌食症怎么办”,“小儿厌食症的调理方法”}。
接着,标题生成设备统计这些权威QA咨询的标题在一个月内的点击次数,和在搜索日志中的搜索次数,然后利用式(1),计算出标题的热门程度(热门搜索度),从而选出热门程度最高的,例如“小儿厌食症怎么办”作为小儿厌食症的日常子卡片的标题。
通过上述方式,标题生成设备能够在针对小儿厌食症的每个子卡片获取到贴合用户口语化习惯的标题,然后从这些贴合用户的搜索习惯的标题中选出最热门的标题,作为每个子卡片的标题,以使得小儿厌食症的每个子卡片被用户搜索到的记录提高。
下面继续说明本发明实施例提供的标题生成装置255的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的标题生成装置255中的软件模块可以包括:
获取模块2551,用于获取待生成标题的词条数据;其中,所述待生成标题的词条数据中包括至少一个子词条数据;
提取模块2552,用于从标题信息数据库中,针对所述待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和所述候选标题所对应的信息内容;
匹配模块2553,用于根据所述多个标题内容组合中的信息内容,将所述多个标题内容组合中的候选标题与所述至少一个子词条数据中的每个子词条数据进行匹配,得到与所述每个子词条数据对应的标题集合;
选择模块2554,用于针对所述标题集合中的每个候选标题计算出搜索热门度,根据所述搜索热门度从所述标题集合中为所述每个子词条数据选择出标题,完成针对所述待生成标题的词条数据的标题生成;其中,所述搜索热门度表征了候选标题与用户搜索习惯的贴合程度。
在本发明的一些实施例中,所述每个子词条数据都有其所属的类型;所述匹配模块2553,具体用于对所述多个标题内容组合的信息内容进行解析,得到所述多个标题内容组合的信息内容所属的类型,从而得到与所述信息内容相对应的各个候选标题所属的标题类型;利用所述标题类型和所述每个子词条数据的类型,对所述各个候选标题和所述每个子词条数据进行匹配,得到与所述每个子词条数据对应的一个或多个匹配候选标题;利用所述一个或多个匹配候选标题组成所述标题集合。
在本发明的一些实施例中,所述匹配模块2553,具体用于对所述每个子词条数据的类型和所述标题类型进行匹配,将与所述每个子词条数据的类型匹配上的标题类型作为匹配标题类型;挑选出所述各个候选标题中属于所述匹配标题类型的候选标题,得到所述一个或多个匹配候选标题。
在本发明的一些实施例中,所述标题生成装置255,还包括:分类模块2555;
所述分类模块2555,具体用于将所述至少一个子词条数据中未分类的子词条数据的每个字符进行编码,得到字符编码结果;针对所述字符编码结果进行语序特征挖掘,得到所述未分类的子词条数据的特征向量;对所述特征向量进行分类,得到所述未分类的子词条数据的类型,从而得到所述每个子词条数据的类型。
在本发明的一些实施例中,所述选择模块2554,具体用于获取所述标题集合中的每个候选标题的热度计算参数;利用所述热度计算参数,计算出所述每个候选标题的所述搜索热门度;从所述标题集合中,挑选出所述搜索热门度最大的候选标题,作为所述每个子词条数据的所述标题。
在本发明的一些实施例中,所述选择模块2554,具体用于利用所述点击次数和所述搜索次数构造出中间热度参数;利用所述中间热度参数构造出所述搜索热门度。
在本发明的一些实施例中,所述提取模块2552,具体用于对所述待生成标题的词条数据进行主题提取,并将提取到的主题作为搜索关键字,在所述标题信息数据库中获取到包含所述搜索关键字的多个初始标题内容组合;对所述多个初始标题内容组合中的信息内容进行标签读取,得到所述多个初始标题内容组合的权威标签;对所述权威标签表征所述信息内容的权威程度高于或等于预设的权威程度阈值的初始标题内容组合进行筛选,得到所述多个标题内容组合。
在本发明的一些实施例中,所述标题生成装置255,还包括:显示模块2556;
所述匹配模块2553,还用于当在显示界面的预设搜索区域接收到输入的搜索标题时,将所述搜索标题与所述每个子词条数据的标题进行匹配,得到与所述搜索标题相匹配的目标标题;
所述显示模块2556,用于在所述显示界面的标题显示区域显示所述目标标题,并在内容显示区域显示所述目标标题对应的目标子词条数据;其中,所述标题显示区域位于所述显示界面的第一预设区域上,所述内容显示区域位于所述显示界面的第二预设区域上,所述第一预设区域与所述第二预设区域不重叠。
本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行标题生成指令,当可执行标题生成指令被处理器执行时,将引起处理器执行本发明实施例提供的标题生成方法,例如,如图4或图7示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行标题生成指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行标题生成指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行标题生成指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (9)

1.一种标题生成方法,其特征在于,包括:
获取待生成标题的词条数据;其中,所述待生成标题的词条数据中包括至少一个子词条数据;其中,每个子词条数据都有其所属的类型;
从标题信息数据库中,针对所述待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和所述候选标题所对应的信息内容;
对所述多个标题内容组合的信息内容进行解析,得到所述多个标题内容组合的信息内容所属的类型,从而得到与所述信息内容相对应的各个候选标题所属的标题类型;
利用所述标题类型和所述每个子词条数据的类型,对所述各个候选标题和所述每个子词条数据进行匹配,得到与所述每个子词条数据对应的一个或多个匹配候选标题;
利用所述一个或多个匹配候选标题组成所述每个子词条数据的标题集合;
针对所述每个子词条数据的标题集合中的每个匹配候选标题计算出搜索热门度,根据所述搜索热门度从所述每个子词条数据的标题集合中为所述每个子词条数据选择出标题,完成针对所述待生成标题的词条数据的标题生成;其中,所述搜索热门度表征了匹配候选标题与用户搜索习惯的贴合程度。
2.根据权利要求1所述的方法,其特征在于,所述利用所述标题类型和所述每个子词条数据的类型,对所述各个候选标题和所述每个子词条数据进行匹配,得到与所述每个子词条数据对应的一个或多个匹配候选标题,包括:
对所述每个子词条数据的类型和所述标题类型进行匹配,将与子词条数据的类型匹配上的标题类型作为匹配标题类型;
挑选出所述各个候选标题中属于所述匹配标题类型的候选标题,得到所述一个或多个匹配候选标题。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将所述至少一个子词条数据中未分类的子词条数据的每个字符进行编码,得到字符编码结果;
针对所述字符编码结果进行语序特征挖掘,得到所述未分类的子词条数据的特征向量;
对所述特征向量进行分类,得到所述未分类的子词条数据的类型,从而得到所述每个子词条数据所属的类型。
4.根据权利要求1或2所述的方法,其特征在于,所述针对所述每个子词条数据的标题集合中的每个匹配候选标题计算出搜索热门度,根据所述搜索热门度从所述每个子词条数据的标题集合中为所述每个子词条数据选择出标题,包括:
获取所述每个子词条数据的标题集合中的每个匹配候选标题的热度计算参数;
利用所述热度计算参数,计算出所述每个子词条数据的标题集合中的每个匹配候选标题的所述搜索热门度;
从所述每个子词条数据的标题集合中,挑选出所述搜索热门度最大的匹配候选标题,作为所述每个子词条数据的所述标题。
5.根据权利要求4所述的方法,其特征在于,所述热度计算参数中至少包括候选标题的点击次数和候选标题的搜索次数;所述利用所述热度计算参数,计算出所述每个子词条数据的标题集合中的每个匹配候选标题的所述搜索热门度,包括:
利用所述点击次数和所述搜索次数构造出中间热度参数;
利用所述中间热度参数构造出所述每个子词条数据的标题集合中的每个匹配候选标题的搜索热门度。
6.根据权利要求1或2所述的方法,其特征在于,所述信息内容中具有用于说明所述信息内容的权威程度的权威标签;所述从标题信息数据库中,针对所述待生成标题的词条数据提取到多个标题内容组合,包括:
对所述待生成标题的词条数据进行主题提取,并将提取到的主题作为搜索关键字,在所述标题信息数据库中获取到包含所述搜索关键字的多个初始标题内容组合;
对所述多个初始标题内容组合中的信息内容进行标签读取,得到所述多个初始标题内容组合的权威标签;
对所述权威标签表征所述信息内容的权威程度高于或等于预设的权威程度阈值的初始标题内容组合进行筛选,得到所述多个标题内容组合。
7.根据权利要求1或2所述的方法,其特征在于,在所述针对所述每个子词条数据的标题集合中的每个匹配候选标题计算出搜索热门度,根据所述搜索热门度从所述每个子词条数据的标题集合中为所述每个子词条数据选择出标题,完成针对所述待生成标题的词条数据的标题生成之后,所述方法还包括:
当在显示界面的预设搜索区域接收到输入的搜索标题时,将所述搜索标题与所述每个子词条数据的标题进行匹配,得到与所述搜索标题相匹配的目标标题;
在所述显示界面的标题显示区域显示所述目标标题,并在内容显示区域显示所述目标标题对应的目标子词条数据;其中,所述标题显示区域位于所述显示界面的第一预设区域上,所述内容显示区域位于所述显示界面的第二预设区域上,所述第一预设区域与所述第二预设区域不重叠。
8.一种标题生成设备,其特征在于,包括:
存储器,用于存储可执行标题生成的指令;
处理器,用于执行所述存储器中存储的可执行标题生成的指令时,实现权利要求1至7任一项所述方法。
9.一种计算机可读存储介质,其特征在于,存储有可执行标题生成的指令,用于引起处理器执行时,实现权利要求1至7任一项所述的方法。
CN202010222802.2A 2020-03-26 2020-03-26 一种标题生成方法、设备及计算机可读存储介质 Active CN111444707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010222802.2A CN111444707B (zh) 2020-03-26 2020-03-26 一种标题生成方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010222802.2A CN111444707B (zh) 2020-03-26 2020-03-26 一种标题生成方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111444707A CN111444707A (zh) 2020-07-24
CN111444707B true CN111444707B (zh) 2022-07-01

Family

ID=71647972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010222802.2A Active CN111444707B (zh) 2020-03-26 2020-03-26 一种标题生成方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111444707B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519585B1 (en) * 1999-04-27 2003-02-11 Infospace, Inc. System and method for facilitating presentation of subject categorizations for use in an on-line search query engine
CN102063497A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
CN105786874A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 基于百科词条构建问答知识库数据项的方法和装置
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519585B1 (en) * 1999-04-27 2003-02-11 Infospace, Inc. System and method for facilitating presentation of subject categorizations for use in an on-line search query engine
CN102063497A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
CN105786874A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 基于百科词条构建问答知识库数据项的方法和装置
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统

Also Published As

Publication number Publication date
CN111444707A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN108287858B (zh) 自然语言的语义提取方法及装置
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN114556328B (zh) 数据处理方法、装置、电子设备和存储介质
CN112215008B (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN109299233A (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN109063182B (zh) 一种基于语音搜题的内容推荐方法及电子设备
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN113205091B (zh) 题目识别方法、装置、设备及介质
CN111274483B (zh) 关联推荐方法及关联推荐交互方法
CN111444707B (zh) 一种标题生成方法、设备及计算机可读存储介质
CN113486246B (zh) 信息的搜索方法、装置、设备以及存储介质
CN113220824B (zh) 数据检索方法、装置、设备及存储介质
CN105787032B (zh) 网页快照的生成方法及装置
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant