CN109992665A - 一种基于问题目标特征扩展的分类方法 - Google Patents

一种基于问题目标特征扩展的分类方法 Download PDF

Info

Publication number
CN109992665A
CN109992665A CN201910192510.6A CN201910192510A CN109992665A CN 109992665 A CN109992665 A CN 109992665A CN 201910192510 A CN201910192510 A CN 201910192510A CN 109992665 A CN109992665 A CN 109992665A
Authority
CN
China
Prior art keywords
semantic
target word
problem target
collection
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910192510.6A
Other languages
English (en)
Inventor
郝天永
谢文秀
瞿瑛瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhiyu Information Technology Co Ltd
Original Assignee
Guangzhou Zhiyu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zhiyu Information Technology Co Ltd filed Critical Guangzhou Zhiyu Information Technology Co Ltd
Priority to CN201910192510.6A priority Critical patent/CN109992665A/zh
Publication of CN109992665A publication Critical patent/CN109992665A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于问题目标特征扩展的分类方法。该方法包括:获取问题目标词;基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集;基于所述语义扩展集,对所述问题目标词进行分类。一种基于问题目标特征扩展的分类方法通过对问题目标词的语义扩展,能够在得到问题目标词丰富的语义信息后,对问题目标词进行问题分类,从而提高问题目标词的分类精度。

Description

一种基于问题目标特征扩展的分类方法
技术领域
本发明实施例涉及计算机技术领域,特别是涉及一种基于问题目标特征扩展的分类方法。
背景技术
随着互联网信息的指数型增长,在大数据时代,传统搜索引擎并不能很好地满足用户对精确信息的需求。在用户提出问题后,如何理解用户提出的简短且可能含有噪音的问题信息,进而进行精准的问题目标自动分类是最大挑战。特别是一些用户问题长度较短,包含的词、短语均有限。因此,在处理用户提出的问题时,如何对问题文本进行有效的扩展显得尤为重要。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一目的在于提供一种基于问题目标特征扩展的分类方法,其基于从用户问题中提炼出的、反映用户意图的问题目标词,对问题目标词进行语义扩展,从而更精确地是识别用户的意图,进一步,对问题目标词进行分类。
为了实现上述目的,本发明第一方面提供的一种基于问题目标特征扩展的分类方法,包括获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
可选地,所述语义扩展集包括第一语义扩展集、第二语义扩展集、第三语义扩展集中至少一种。
可选地,获取所述语义词典数据库,和/或所述语义语料数据库;
使用所述语义词典数据库和/或所述语义语料数据库对所述问题目标词进行语义上下位关系扩展,生成扩展结果;
基于所述扩展结果,识别所问题目标特征的义原信息,所述义原反映所述问题目标词的基本词义;
基于所述义原信息,生成所述问题目标词的第一语义扩展集。
具体地,从所述网络语义数据库中获取实体词义标签;
使用所述实体词义标签对所述问题目标词进行语义扩展,生成所述第二语义扩展集。
可选地,使用训练库多问题语料库进行训练;
捕捉所述问题目标词的语境信息;
使用算法对所述语境信息进行相关性聚类,得到所述问题目标词的簇集;
从所述簇集中,筛选出至少两个与所述问题目标词同簇的词汇作为所述问目标特征词的所述第三语义扩展集。
可选地,统计所述第一语义扩展集、和/或第二语义扩展集、和/或第二语义扩展集的语义扩展词汇及分类精度,生成统计结果;
根据所述分类精度和预设的取值对所述统计结果进行压缩,生成压缩结果;
使用分类器对所述压缩结果进行分类。
可选地,按照所述分类精度的预设阈值,选取所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的预设的取值。
可选地,基于所述第一语义扩展集、第二语义扩展集、第二语义扩展集中的至少两种语义扩展集,按照所述分类精度的预设阈值,选择所述至少两种语义扩展集之间的线性组合结果。
可选地,使用算法对所述问题目标词进行分析;
根据分析结果,对所述问题目标词的分类结果进行预测,并返回预测结果。
可选地,根据所述语预测结果对所述问题目标词进行分类。
本发明第二方面实施例提供一种基于语义扩展的问题目标词分类装置,用于执行基于问题目标特征的分类方法,其执行以下步骤:获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
本发明第三方面实施例提供一种基于语义扩展的问题目标词分类终端,包括与用户交互,接收用户操作指令,并根据用户操作指令返回数据。一种基于语义扩展的问题目标词分类终端还用于执行以下方法:获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
本发明第四方面实施例提供一种基于问题目标特征扩展的计算机可读存储介质,通过获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
本发明第五方面实施例提供一种基于问题目标特征扩展的问计算机产品,通过获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
与现有技术相比,本发明具有如下有益效果:
本发明能够有效地扩展问题目标特征的语义信息,提高问题目标分类的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于问题目标特征扩展的分类方法流程示意图;
图2a是本发明实施例的一种基于问题目标特征扩展的分类方法中问题目标词的语义进行扩展的流程示意图;
图2b是本发明实施例的一种基于问题目标特征扩展的分类方法中问题目标词的语义进行扩展的另一流程示意图;
图2c是本发明实施例的一种基于问题目标特征扩展的分类方法中问题目标词的语义进行扩展的再一流程示意图;
图3a是本发明实施例的一种基于问题目标特征扩展的分类方法中对所述问题目标词进行分类的流程示意图;
图3b是本发明实施例的一种基于问题目标特征扩展的分类方法中对所述问题目标词进行分类的另一流程示意图;
图4是本发明实施例的一种基于问题目标特征扩展的分类方法中对所述问题目标词的分类结果进行预测的流程示意图;
图5是本发明实施例的一种基于语义扩展的问题目标词分类装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了便于理解本发明实施例所提供的技术方案,下面对本发明实施例所涉及的应用场景进行介绍。
用户在进行信息提问时并非都能用准确的问题语句来表达自己的问题意图,用户的问题意图在问题句子中体现为问题目标(Question target),即答案类型(Answertype)。通常情况下,用户的问题通常简短而模糊,甚至包含噪音,例如含有省略号等信息,因此如何识别用户问题目标,特别是对用户问题目标进行自动分类,对识别用户问题意图,进而对理解用户所需答案的类别,对过滤返回答案的相关性,乃至提高整个自动问答系统的性能至关重要。用户问题目标的自动分类对于用户和和信息提供者都具有重要意义:一方面问题系统可以更好识别用户问题类型,提高答案检索精度,使得用户可以更有效获取问题相关的答案;同时,信息提供者可以进行大规模用户问题意图分析,更好的理解大量用户的信息需求,以对现有业务进行调整或更好的进行用户服务以提高信息服务质量。而本发明实施例基于从用户问题提炼出来问题目标特征,对问题目标特征进行语义扩展,获得更多有问题目标特征的语义信息,进一步地对问题目标特征进行分类,从而更准确的识别用户的意图。
下面结合附图,对本发明实施例进行介绍。
请参阅图1,图1是本发明实施例一提供的一种基于问题目标特征扩展的分类方法。该方法可由基于问题目标特征扩展的分类装置执行。如图1所示,该方法至少包括以下步骤。
步骤S101,获取问题目标词;
步骤S102,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集;
步骤S103,基于所述语义扩展集,对所述问题目标词进行分类。
需要说明的是,本发明文件中“所述评估模型通过以下方式获得:”并不表明评估模型的获得方式由下文所列的步骤组成,而是评估模型的获得方式包括下文所列的步骤,即是开放式的描述,而不是封闭式的描述,例如,评估模型的获得方式除包括下文所列的步骤以外,还可能包括为完成下文所列步骤的辅助性步骤。
本实施提供的一种问题文本的语义扩展方法,能够在简短的问题文本的基础上,采用各种数据库对问题文本的问题目标词进行扩展,进而基于扩展后的语义信息,从而便于对问题文本的问题目标词进行分类,提高问题目标词的分类精度。另一方面,本实施提供的一种问题文本的语义扩展方法通过对问题目标词的语义扩展,可有效去除原问题文本中的噪音成分,从而进一步提供问题目标词的分类精度。
如图2a所示,本发明实施例二提供的一种方法对问题目标特征进行语义扩展,其包括以下步骤:
步骤S201a,获取所述语义词典数据库,和/或所述语义语料数据库。
步骤S202a,使用所述语义词典数据库和/或所述语义语料数据库对所述问题目标特征词进行语义上下位关系扩展,生成扩展结果。
步骤S203a,基于所述扩展结果,识别所问题目标特征的义原信息,所述义原反映所述问题目标特征词的基本词义
步骤S204a,基于所述义原信息,生成所述问题目标特征词的第一语义扩展集。
示例性地,利用语义词典数据库WordNet对英文问题文本中的问题目标特征词进行语义上下位关系扩展。
示例性地,利用语义词典数据库HowNet对中文问题文本中的问题目标特征词进行语义上下位关系扩展。例如,利用HowNet词义语料库扩展词语“爱称”的进行语义扩展,得到词语“爱称”的其中一个义原是“human|人”。
需要说明的是,本发明中使用的语义词典和语义语料库都是以汉语或英语的词语所代表的概念为描述对象,以展示概念与概念之间以及概念所具有的属性之间的关系。例如,HowNet中的每一个词的语义描述由多个义原组成,而义原是最基本的、不易于再分割的意义的最小单位,例如“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,因此可看作为一个义原。
本实施例的一种基于问题目标特征扩展的分类方法,利用多种语义词典和语义语料库对问题目标词的语义进行扩展,进而提高问题目标词的分类精度。
如图2b所示,本发明实施例三还提供另一种方法对问题目标特征进行语义扩展,其包括以下步骤:
步骤S201b,从所述网络语义数据库中获取实体词义标签;
步骤S202b,使用所述实体词义标签对所述问题目标词进行语义扩展,生成所述第二语义扩展集。
示例性地,词语“汽车总动员”,并未收录到语义词典和语义语料库中,故通过在计算机中输入“汽车总动员”,进而利用网络爬虫技术,从一个电影网页上获取到词汇“汽车总动员”的实体标签“电影”,最终,将实体标签“电影”作为词汇“电影”的实体标签,完成词汇“汽车总动员”的语义扩展。
本实施例的一种基于问题目标特征扩展的分类方法,利用网络语义标签对问题目标词的语义进行扩展,可避免多种语义词典和语义语料库中缺乏网络新词语义信息的问题,进而提高问题目标词的分类精度。
如图2c所示,本发明实施例四提供另一种方法对问题目标特征进行语义扩展,其包括以下步骤:
步骤S201c,使用训练库多问题语料库进行训练。
步骤S202c,捕捉所述问题目标词的语境信息。
步骤S203c,使用算法对所述语境信息进行相关性聚类,得到所述问题目标词的簇集。
步骤S204c,从所述簇集中,筛选出至少两个与所述问题目标词同簇的词汇作为所述问目标特征词的所述第三语义扩展集。
示例性地,获取一个问题目标词“歌曲”,利用词向量技术,得到问题目标词的语境信息为“<著名,歌星,演出,成果>”,其中语境信息“<著名,歌星,演出,成果>”为问题目标词“歌曲”的语境词向量。
示例性地,在获取一个问题目标词“歌曲”的语境词向量后,根据语境词向量的相似性进行聚类,得到问题目标词“歌曲”的簇集为<演唱、歌、主打、歌词、唱、翻、歌名>,最后簇集<演唱、歌、主打、歌词、唱、翻、歌名>作为问题目标词“歌曲”的语义扩展信息集。
本实施例的一种基于问题目标特征扩展的分类方法利用词向量技术,在问题目标词的语境词汇中,捕捉与问题目标词相关的名词,进而对问题目标词进行分类,从而提高问题目标词的分类精度。
请参阅图3a,如图3a所示,本发明实施例五进一步提供一种问题目标特征分类方法,包括以下步骤:
步骤S301a,统计所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的语义扩展词汇及分类精度。
步骤S302a,根据所述分类精度和预设的取值对所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集进行压缩,生成压缩结果。
步骤S303a,使用分类器对所述压缩结果进行分类。
示例性地,对于问题“糖尿病注意什么?”的目标词是“糖尿病”,对目标词进行语义扩展后,得到的目标特征集kHWN,kTag,kCLU分别为<疾病|Disease>,<常见疾病,疾病,疾病名称,医学,卫生保健>和<并发症,健康状况,患,衰竭,发病>,通过训练压缩后的特征集为<疾病|Disease,常见疾病,疾病,并发症,健康状况>,从而利用机器学习算法将问题划分到问题目标类别“[健康|Health]”中。
本实施例的一种基于问题目标特征扩展的分类方法,能够利用机器学习算法对进语义扩展后问题目标词分类结果进行拟合训练,从而确定问题目标词的组合方式,进而提高问题目标词的分类精度。
请参阅图3b,如图3b所示,本发明实施例六进一步提供一种问题目标特征分类方法,包括以下步骤:
步骤S301b,统计所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的语义扩展词汇及分类精度。
步骤S302b,按照所述分类精度的预设阈值,选取所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的预设的取值。
步骤S303b,根据所述分类精度和预设的取值对所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集进行压缩,生成压缩结果。
步骤S304b,使用分类器对所述压缩结果进行分类。
本实施例的一种基于问题目标特征扩展的分类方法,对进行拟合训练后得到的问题目标词分类集进行压缩,进而提高问题目标词的分类精度。
请参阅图,如图4所示,本发明实施例七进一步提供一种问题目标特征预分类方法,包括以下步骤:
步骤401,使用算法对所述问题目标词进行分析。
步骤402,根据分析结果,对所述问题目标词的分类结果进行预测,并返回预测结果。
步骤403,根据所述语预测结果对所述问题目标词进行预分类。
本发明实施例八提供一种基于问题目标特征扩展的分类的装置,下面结合图5对一种问题目标特征自动识别和抽取装置进行说明。
其中,至少1个存储单元501可以分别用于存储计算机指令、程序、功能模块、事件、数据库等,在此不予限定。其中,至少1个存储单元501可以集成在一个存储设备中,或者独立配置在装置50中,在此不予限定。
至少1个处理单元503可以由计算机、服务器、中央处理单元、微处理单元、数据处理单元、或大数据专用处理单元等实现。
至少1个通信接口504用于利用有线技术、无线技术或网络技术实现于外部设备、平台或接口连接。例如,与用户终端、后台控制终端等连接。
当存储单元501存储有计算机指令时,处理单元503可以调用该计算机指令,以执行以下方法:
获取问题目标词。
基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集。
基于所述语义扩展集,对所述问题目标词进行分类。
可选的,处理单元503可以调用该计算机指令,以执行以下方法:
获取所述语义词典数据库,和/或所述语义语料数据库。
使用所述语义词典数据库和/或所述语义语料数据库对所述问题目标词进行语义上下位关系扩展,生成扩展结果。
基于所述扩展结果,识别所问题目标特征的义原信息,所述义原反映所述问题目标词的基本词义。
基于所述义原信息,生成所述问题目标词的第一语义扩展集。
可选的,处理单元503可以调用该计算机指令,以执行以下方法:
从所述网络语义数据库中获取实体词义标签。
使用所述实体词义标签对所述问题目标词进行语义扩展,生成所述第二语义扩展集。
可选地,处理单元503可以调用该计算机指令,以执行以下方法:
使用训练库多问题语料库进行训练。
捕捉所述问题目标词的语境信息。
使用算法对所述语境信息进行相关性聚类,得到所述问题目标词的簇集。
从所述簇集中,筛选出至少两个与所述问题目标词同簇的词汇作为所述问目标特征词的所述第三语义扩展集。
可选地,处理单元503可以调用该计算机指令,以执行以下方法:
统计所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的语义扩展词汇及分类精度。
根据所述分类精度和预设的取值对所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集进行压缩,生成压缩结果。
使用分类器对所述压缩结果进行分类。
可选地,处理单元503可以调用该计算机指令,以执行以下方法:
按照所述分类精度的预设阈值,选取所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的预设的取值。
可选地,处理单元503可以调用该计算机指令,以执行以下方法:
基于所述第一语义扩展集、第二语义扩展集、第二语义扩展集中的至少两种语义扩展集,按照所述分类精度的预设阈值,选择所述至少两种语义扩展集之间的线性组合结果。
可选地,处理单元503可以调用该计算机指令,以执行以下方法:
使用算法对所述问题目标词进行分析。
根据分析结果,对所述问题目标词的分类结果进行预测,并返回预测结果。
根据所述语预测结果对所述问题目标词进行预分类。
本发明实施例九提供一种基于语义扩展的问题目标词分类终端,其通过获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
本发明实施例十提供一种基于问题目标特征扩展的分类、非临时性计算机可读存储介质,其通过获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
本发明实施例十一,提供一种基于问题目标特征扩展的分类的计算机产品,其通过获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种基于问题目标特征扩展的分类方法,其特征在于,包括:
获取问题目标词;
基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集;
基于所述语义扩展集,对所述问题目标词进行分类。
2.如权利要求1所述的方法,其特征在于,所述扩展数据库包括语义词典数据库、语义语料数据库、网络语义数据库中至少一种;
所述语义扩展集包括第一语义扩展集、第二语义扩展集、第三语义扩展集中至少一种。
3.如权利要求2所述的方法,其特征在于,所述对问题目标词的语义进行扩展包括以下子步骤:
获取所述语义词典数据库,和/或所述语义语料数据库;
使用所述语义词典数据库和/或所述语义语料数据库对所述问题目标词进行语义上下位关系扩展,生成扩展结果;
基于所述扩展结果,识别所问题目标特征的义原信息,所述义原反映所述问题目标词的预设的取值词义;
基于所述义原信息,生成所述问题目标词的第一语义扩展集。
4.如权利要求2所述的方法,其特征在于,所述对问题目标词的语义进行扩展包括以下子步骤:
从所述网络语义数据库中获取实体词义标签;
使用所述实体词义标签对所述问题目标词进行语义扩展,生成所述第二语义扩展集。
5.如权利要求1所述的方法,其特征在于,所述对问题目标词的语义进行扩展包括以下子步骤:
使用训练库多问题语料库进行训练;
捕捉所述问题目标词的语境信息;
使用算法对所述语境信息进行相关性聚类,得到所述问题目标词的簇集;
从所述簇集中,筛选出至少两个与所述问题目标词同簇的词汇作为所述问目标特征词的所述第三语义扩展集。
6.如权利要1-6任一项所述的方法,其特征在于:基于所述语义扩展集,对所述问题目标词进行分类包括以下子步骤:
统计所述第一语义扩展集、和/或第二语义扩展集、和/或第二语义扩展集的语义扩展词汇及分类精度,生成统计结果;
根据所述分类精度和预设的取值对所述统计结果进行压缩,生成压缩结果;
使用分类器对所述压缩结果进行分类。
7.如权利要求6所述的方法,其特征在于:在所述统计步骤和压缩步骤之间,还包括以下步骤:
按照所述分类精度的预设阈值,选取所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的预设的取值。
8.如权利要求6所述的方法,其特征在于:在所述统计步骤和压缩步骤之间,还包括以下步骤:
基于所述第一语义扩展集、第二语义扩展集、第二语义扩展集中的至少两种语义扩展集,按照所述分类精度的预设阈值,选择所述至少两种语义扩展集之间的线性组合结果。
9.如权利要求1所述的方法,其特征在于:在基于所述扩展数据库对所述问题目标词的语义进行扩展之前,还对所述问题目标词进行预处理,所述预处理包括:
使用算法对所述问题目标词进行分析;
根据分析结果,对所述问题目标词的分类结果进行预测,并返回预测结果;
根据所述语预测结果对所述问题目标词进行预分类。
CN201910192510.6A 2019-03-14 2019-03-14 一种基于问题目标特征扩展的分类方法 Pending CN109992665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910192510.6A CN109992665A (zh) 2019-03-14 2019-03-14 一种基于问题目标特征扩展的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910192510.6A CN109992665A (zh) 2019-03-14 2019-03-14 一种基于问题目标特征扩展的分类方法

Publications (1)

Publication Number Publication Date
CN109992665A true CN109992665A (zh) 2019-07-09

Family

ID=67130357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910192510.6A Pending CN109992665A (zh) 2019-03-14 2019-03-14 一种基于问题目标特征扩展的分类方法

Country Status (1)

Country Link
CN (1) CN109992665A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457325A (zh) * 2019-08-12 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110619051A (zh) * 2019-08-16 2019-12-27 科大讯飞(苏州)科技有限公司 问题语句分类方法、装置、电子设备及存储介质
WO2022127040A1 (zh) * 2020-12-17 2022-06-23 平安科技(深圳)有限公司 文本处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US20180225374A1 (en) * 2017-02-07 2018-08-09 International Business Machines Corporation Automatic Corpus Selection and Halting Condition Detection for Semantic Asset Expansion
CN108491406A (zh) * 2018-01-23 2018-09-04 深圳市阿西莫夫科技有限公司 信息分类方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US20180225374A1 (en) * 2017-02-07 2018-08-09 International Business Machines Corporation Automatic Corpus Selection and Halting Condition Detection for Semantic Asset Expansion
CN108491406A (zh) * 2018-01-23 2018-09-04 深圳市阿西莫夫科技有限公司 信息分类方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457325A (zh) * 2019-08-12 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110619051A (zh) * 2019-08-16 2019-12-27 科大讯飞(苏州)科技有限公司 问题语句分类方法、装置、电子设备及存储介质
WO2022127040A1 (zh) * 2020-12-17 2022-06-23 平安科技(深圳)有限公司 文本处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN104615608B (zh) 一种数据挖掘处理系统及方法
CN109325148A (zh) 生成信息的方法和装置
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN109408811B (zh) 一种数据处理方法及服务器
Negi et al. A study of suggestions in opinionated texts and their automatic detection
EP2562659A1 (en) Data mapping acceleration
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN107844533A (zh) 一种智能问答系统及分析方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN112507139B (zh) 基于知识图谱的问答方法、系统、设备及存储介质
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
Alexandridis et al. A knowledge-based deep learning architecture for aspect-based sentiment analysis
CN109800418A (zh) 文本处理方法、装置和存储介质
CN106776760A (zh) 应用于智能终端的搜题方法及装置
CN111309916A (zh) 摘要抽取方法和装置、存储介质和电子装置
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination