CN110619051B - 问题语句分类方法、装置、电子设备及存储介质 - Google Patents

问题语句分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110619051B
CN110619051B CN201910759198.4A CN201910759198A CN110619051B CN 110619051 B CN110619051 B CN 110619051B CN 201910759198 A CN201910759198 A CN 201910759198A CN 110619051 B CN110619051 B CN 110619051B
Authority
CN
China
Prior art keywords
category
features
question
determining
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910759198.4A
Other languages
English (en)
Other versions
CN110619051A (zh
Inventor
王鹏祥
张兆银
郑新
李直旭
陈志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN201910759198.4A priority Critical patent/CN110619051B/zh
Publication of CN110619051A publication Critical patent/CN110619051A/zh
Application granted granted Critical
Publication of CN110619051B publication Critical patent/CN110619051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种问题语句分类方法、装置、电子设备及计算机存储介质,通过接收待分类的问题语句;确定所述问题语句的分类特征,所述分类特征用于表示所述问题语句的语义和关联知识,所述关联知识为语义中被提问对象对应的关联知识;根据所述分类特征确定所述问题语句的类别。可以自动对问题语句进行标注,在提高工作效率的同时大大节省了人力成本。

Description

问题语句分类方法、装置、电子设备及存储介质
技术领域
本申请涉及人机交互技术领域,特别是一种问题语句分类方法、装置、电子设备及存储介质。
背景技术
近年来,随着人工智能技术不断发展和突破,智能电视、智能手机、智能车载、智能家居以及机器人等各种智能终端日益普及,人机交互对话系统已经成为人们工作和生活不可或缺的一部分。在人机交互对话系统中,对用户问题的理解和解析是整个系统的关键,对问题分类能更好地帮助系统理解问题的内容,现有的分类方法需要人工对大量数据进行标注来构建用于分类模型训练的训练集,工作效率低下。
发明内容
基于上述问题,本申请提出了一种问题语句分类方法,可以自动对问题语句进行标注,在提高分类效率的同时大大节省了人力成本。
本申请实施例第一方面提供了一种问题语句分类方法,所述方法包括:
接收待分类的问题语句;
确定所述问题语句的分类特征,所述分类特征用于表示所述问题语句的语义和关联知识,所述关联知识为语义中被提问对象对应的关联知识;
根据所述分类特征确定所述问题语句的类别。
本申请实施例第二方面提供了一种问题语句分类装置,包括处理单元和通信单元,所述处理单元用于:接收待分类的问题语句;确定所述问题语句的分类特征,所述分类特征用于表示所述问题语句的语义和关联知识,所述关联知识为语义中被提问对象对应的关联知识;根据所述分类特征确定所述问题语句的类别。
本申请实施例第三方面提供了一种电子设备,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如本申请实施例第一方面任意方法所描述的全部或部分步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任意方法所描述的全部或部分步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,首先,接收待分类的问题语句;其次,确定所述问题语句的分类特征,所述分类特征用于表示所述问题语句的语义和关联知识,所述关联知识为语义中被提问对象对应的关联知识;最后,根据所述分类特征确定所述问题语句的类别。可以自动对问题语句进行标注,在提高工作效率的同时大大节省了人力成本。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种问题语句分类方法的系统构架图;
图2为本申请实施例中一种知识图谱的部分结构示意图;
图3为本申请实施例中一种问题语句分类方法的流程示意图;
图4为本申请实施例中一种问题语句分类模型的结构示意图;
图5为本申请实施例中另一种问题语句分类方法的流程示意图;
图6为本申请实施例中一种问题语句分类装置的结构示意图;
图7为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
目前,现有的问题语句分类方法存在至少四种问题:其一,需要人工对大量数据进行标注来构建训练集,费时费力;其二,有时候训练数据存在类别不均衡的问题,这样导致训练问题语句分类模型的效率也十分低下;其三,现有模型的未使用注意力机制,忽略了问题语句中词语之间的距离以及距离变化的影响;其四,只输出分类结果,对分类的结果的准确性没有保障。
基于上述问题,本申请实施例提供了一种问题语句的分类方法。
如图1所示,图1为本申请实施例中一种问题语句分类方法的系统构架图,包括问题语句采集装置110、处理器120和数据库130,其中,上述问题语句采集装置110可以获取到问题语句,问题语句可以为任意表示疑问的文本数据,上述处理器120与上述问题语句采集装置110连接,用于对上述问题语句分类,上述数据库130可以为保存了问题语句的关联知识的数据库,上述数据库130可以以知识图谱的形式存在,为问题语句的分类提供支持,上述知识图谱可以包括数据库中的全部信息,并以可视化的知识网络形式显示。本申请中,上述知识图谱可以包括实体、属性和属性值三种节点,实体是按照类别树(类别的层次结构)挂载的,如图2所示,图2为一种知识图谱的部分结构示意图,当“诗人”为上位实体时,可以看出,“诗人”对应的下位实体有“李白”、“孟浩然”、“杜甫”等,属性可以为实体的内在特性,如图2所示的“代表作”、“祖籍”、“生活年代”等,而属性值则可以为属性的具体内容,如图2所示的“《静夜思》”、“陇西成纪”、“唐朝”等。实体、属性和属性值层层递进构成知识图谱。
具体的,上述处理器120可以内置问题语句分类模型,上述问题语句分类模型需要通过训练用数据的训练才能使用,通过上述数据库130可以对训练用数据进行自动标注,利用上述标注好的训练用数据可以快速准确地完成对上述问题语句分类模型的训练,上述处理器120获取到问题语句采集装置110采集的问题语句数据后,可以通过训练好的问题语句分类模型识别上述问题语句数据中的语义,并确定与上述语义相关的关联数据,通过关联数据和语义确定上述问题语句的类别。上述数据库130可以连接处理器120,需要说明的是,上述问题语句采集装置110可以集成在上述处理器120上也可以独立存在,在此不做具体限定。
通过上述系统构架,可以利用数据库自动对训练用数据进行标注,提升了构建问题语句分类模型的效率,并且降低了人力成本。
下面结合图3对本申请实施例中一种问题语句分类方法作详细说明,图3为本申请实施例中一种问题语句分类方法的流程示意图,具体包括以下步骤:
步骤301,接收待分类的问题语句。
其中,用户可以将待分类的问题语句以语音、文字、图片等形式输入上述电子设备,电子设备可以自动将接收到的任意形式的问题语句转换为文本数据,在此对电子设备接收待分类的问题语句的方式不做具体限定。
通过接收待分类的问题语句,可以以多种方式接收待分类的问题语句,提高用户输入问题语句的方便程度。
步骤302,确定所述问题语句的分类特征。
其中,所述分类特征用于表示上述问题语句的语义和关联知识,上述关联知识为语义中被提问对象对应的关联知识;上述分类特征可以包括语义特征和结构特征,语义特征和结构特征可以以向量形式存在,上述语义特征可以表示问题语句的文字内容,上述结构特征可以表示问题语句的结构信息。可以通过以下步骤确定上述问题语句的分类特征:
首先,对上述问题语句进行命名实体识别(Name Entity Recognition,NER)确定上述问题语句的关联数据,上述关联数据包括语句实体、上述语句实体对应的属性和上述语句实体对应的属性值,上述语句实体可以表示问题语句中的主体对象,上述语句实体对应的属性可以表示上述语句实体的关联特征,上述语句实体对应的属性值可以表示跟上述关联特征对应的具体数据,举例来说,“诗人李白的代表作是《静夜思》吗?”这个问题语句的语句实体为“诗人李白”、属性为“代表作”,属性值为“《静夜思》”,当问题语句中不存在属性或者属性值时,可以将不存在的部分设定为空值,一个问题语句中可能存在多个语句实体,如“李白和孟浩然都是唐朝诗人吗?”存在“李白”和“孟浩然”两个语句实体,在此对问题语句中的语句实体个数不做具体限定,上述NER可以基于手动设定的规则、特征模板、神经网络等识别问题语句中的语句实体,上述神经网络可以采用BiLSTM-CRF模型;
同时,对上述问题语句进行分词处理得到上述问题语句的分词向量,上述分词处理可以得到上述问题语句中的每个词语,并通过词向量转化(Word to vector,Word2vec)将上述每个词语都用向量进行表示,通过Word2vec可以将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector);
其次,根据上述分词向量确定对应的语义特征,上述语义特征可以通过将分词向量整合来得到,上述语义特征可以用向量表示;
最后,根据上述语句实体、上述语句实体对应的属性和上述语句实体对应的属性值确定上述问题语句对应的结构特征,上述结构特征可以用向量表示,可以通过翻译模型TransG结合数据库得到上述结构特征。
具体的,举例来说,若问题语句为“诗人李白的代表作是什么?”,可以首先通过分词处理得到“诗人/李白/的/代表作/是/什么/?”,并识别出语句实体为“诗人李白”,通过Word2vec将每个词用向量表示得到语义向量,通过TransG方法结合知识图谱得到结构向量,上述结构向量和语义向量即为上述分类特征。
通过确定所述问题语句的分类特征,可以确定用于问题语句分类的优先级较高的特征,提高对问题语句分类的准确性。
步骤303,根据所述分类特征确定所述问题语句的类别。
其中,可以通过利用预先训练好的问句分类模型来确定上述问题语句的类别,具体可以包括下列步骤:
首先,通过在预先训练好的问句分类模型中分别输入上述语义特征和上述结构特征以确定追加语义特征和追加结构特征,上述问句分类模型可以包括输入层、注意力层、双方向长短期记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)层、软注意力Soft-attention层、池化层、合并层、全连接层和归一化Softmax输出层,下面结合图4对每个层级作详细说明,图4为本申请实施例中一种问句分类模型的结构示意图。
将上述语义特征(Word embedding)和上述结构特征(Knowledge graphembedding)分别输入上述输入层,可以分别丰富语义信息和结构信息得到追加语义特征和追加结构特征,这样可以避免将语义特征和结构特征叠加输入模型产生的不良影响,上述输入层可以根据上述语义特征和上述结构确定输入向量。
将上述输入向量作为注意力层的输入,通过注意力层生成扩展词向量,具体过程如下所示:
假设一个问题语句长度为n,hi∈Rk(1<<i<<n)为该问题语句中第i个词对应的k维词向量表示。当n=6时,h1~h6是对应的词向量表示。
令mi为hi的上下文向量,mi由多个词向量的加权和得到:
式中:αi,j为注意力权重,通过softmax函数得到:
其中,αi,j=0,αi,j=1
其中,score函数用来计算两个词语的相关度:
其中,和Wa是训练学习到的参数;
可以根据上述追加语义特征中的词语间距和上述追加结构特征中的词语间距确定词语相关度,考虑到两个词语间的相关性往往随着间隔的距离增大而减小,因此引入距离衰减因子λ,同时考虑到距离变化对词语间相关性的影响,例如两个词语间的距离从1变为3要比距离从10变为13的影响大得多,因此引入从而更加准确地描述两个词语的相关性,其中,u表示两个词语之间的距离;
其中,λ∈[0,1),u=|j-i|-1。当λ趋近于0时,2个词语间的相关性几乎不受距离因素的影响;当λ趋近1时,2个词语间的相关性则几乎取决于跟这两个词语距离较近的词语。通过词向量hi和上下文向量mi可以得到最终拓展向量h′i
将其作为后续Bi-LSTM层的输入。
将注意力层的输出向量h′i作为双向LSTM层的输入,通过Bi-LSTM层对输入向量进行编码处理并将其用于后续的相关计算。上述编码处理主要是获取输入向量的前向隐层表示(如图4中该层的前向箭头)和后向隐层表示/>(如图4中该层的后向箭头),将两者进行拼接成一个向量后,作为Bi-LSTM层的输出向量。
将Bi-LSTM层的输出向量作为Soft-attention层的输入,主要用来获取问题语句中每个词语的重要程度。
将Soft-attention层的输出向量作为池化层的输入,在降维的同时获得语句关键特征,并将其作为该层的输出向量。
将池化层的输出向量作为合并层的输入向量,主要是用来将丰富后的语义特征和结构特征聚合起来,得到问题语句的追加分类特征,具体如下所示:
其中,和/>分别表示问句分类模型基于Word embedding和Konwledge graphembedding获取的追加分类特征。
将合并层的输出向量作为全连接层的输入向量,主要是用来将学习得到的综合特征表示映射到样本空间,具体如下所示:
z=Wsr+Bs
其中,ws∈Rc×|r|和Bs∈Rc分别表示全连接矩阵的权重和偏置,C为问句的种类数。
将全连接层的输出向量作为Softmax层的输入向量,输出上述问题语句对应每个类别的概率值;
根据上述每个类别的概率值确定上述问题语句的类别,可以确定概率值最大的第一概率值和概率值第二大的第二概率值;判断所述第一概率值是否大于预设概率阈值,以及判断所述第一概率值和所述第二概率值之差是否大于预设差值阈值;若都为是,则确定所述第一概率值对应的类别为所述问题语句的类别。若所述第一概率值小于预设概率阈值和/或所述第一概率值和所述第二概率值之差小于预设差值阈值,则将所述问题语句标记为未知类别。
具体的,取softmax层输出概率的最大值和第二大值分别为f1和f2。即当满足时,记输出结果为可信结果,否则为不可信结果。其中tre>0,具体数值可根据经验值或其它方法进行设置。从而可实现输出结果高可信,降低可信结果造成的不良影响。这对结果可信度要求高的应用场景具有重要意义。
可见,根据所述分类特征确定所述问题语句的类别,优化了注意力机制,考虑到词语之间距离变化的不同对注意力生成的影响,并且对模型输出结果可靠性提出了一种判断依据,设置置信度。确保输出结果的可靠性,避免不可靠结果的影响。
下面结合图5对本申请实施例中另一种问题语句分类方法作详细说明,图5为本申请实施例中另一种问题语句分类方法的流程示意图,具体包括以下步骤:
步骤501,获取训练文本数据。
其中,上述训练文本数据可以包括训练用问句,用于训练问句分类模型,通过训练后才能使问句分类模型更准确地对问题语句进行分类。
步骤502,对所述训练文本数据进行标注得到标注后的训练文本数据。
其中,标注的过程具体分为以下步骤:
首先,对知识图谱中的实体、属性和属性值进行向量化的表示,此处的实体、属性和属性值可以为与训练用问句中的实体对应的关联实体、关联属性和关联属性值,使用k-means方法按照设定类别数进行聚类,获取每种类别簇的质心向量作为该类别的类别表征特征。如给定样本集:
D={x1,x2,x3,…xm}
使用k-means算法针对聚类所得簇划分:
C={C1,C2,C3,…Cm}
确定最小化平方误差:
其中,x作为簇Ci的质心向量。
同时,对每个训练用问句进行命名实体识别,确定上述训练用问句的关键词,上述关键词包括上述训练用问句的实体、上述训练用问句的实体对应的属性和上述训练用问句的实体对应的属性值,将上述关键词用向量表示得到对应的词向量,并求得它们的平均向量作为该问题语句的问句表征特征;
判断上述问句表征特征和任意类别的类别表征特征的相似度是否达到预设相似阈值,上述相似度可以为余弦相似度,上述预设相似阈值可以根据经验设定,当相似度达到预设相似阈值时,确定相似度最大的类别为所述训练用问句的类别,并进行标注,得到所述训练集数据;当相似度未达到预设相似阈值时,可以将该训练用问句标注为“其他”或者“未知”等专门收纳相似度较低的训练用问句的类别。
可选的,得到上述训练集数据之后,还可以判断上述训练集数据的类别均衡度是否达到预设均衡阈值,上述预设均衡阈值可以用于判断训练集数据是否存在类别不均衡现象,若上述训练集数据的类别均衡度未达到预设均衡阈值,则确定此时训练集数据的类别分布不均衡,此时可以对上述需要进行数据均衡的类别对应的训练集数据进行过采样生成第一均衡训练集数据,即随机选取数据量少的类别中的数据进行复制再放回来均衡上述训练集数据;
还可以确定上述需要进行数据均衡的类别对应的训练集数据中每个训练用问句的实体和属性,通过将上述需要进行数据均衡的类别对应的训练集数据中每个训练用问句的实体和属性替换为相似实体和相似属性生成第二均衡训练集数据,具体可以通过知识图谱确定相似实体和相似属性,举例来说当问题语句为“诗人李白的代表作是什么?”,可以确定知识图谱中“诗人李白”的上位实体是“诗人”,“李白”的相似实体可以为“杜甫”、“白居易”、“王浩然”等,对应诗人属性“代表作”的相似属性有“生平”、“生活年代”等,可以替换生成第二均衡训练数据集;
将上述第一均衡训练集数据和上述第二均衡训练集数据按照预设比例补充至上述需要进行数据均衡的类别,上述预设比例可以根据不同情况灵活变化。
通过上述方法,可见,利用知识图谱信息给问句标注,构建数据集。极大降低了人力、时间成本,并且通过补充类别较少的训练集数据,可以利用知识图谱内部结构特点,可以快速找到问句的相似特点和相似属性,进而扩充数量少的类别的数据。节省人力物力的同时有效解决了数据不平衡问题。
步骤503,根据所述标注后的文本数据训练问句分类模型得到训练好的问句分类模型。
其中,问句分类模型进行训练的时候,损失函数采用交叉熵代价函数加正则项,具体如下:
其中,m是训练的样本数量,k是分类的类别数,是训练用问句的实际类别,hθ(x(i))是问句分类模型预测的句子类别,α||θ||2为正则项。
步骤504,接收待分类的问题语句。
步骤505,确定所述问题语句的分类特征。
步骤506,根据所述分类特征确定所述问题语句的类别。
通过上述步骤,极大降低了人力、时间成本的同时有效解决了数据不平衡问题,且为问句分类提供更丰富的语义信息和结构信息,提高分类的准确性,并且通过对输出概率设置置信度阈值,确保输出结果的可靠性,避免不可靠结果的影响。
上述未详细说明的步骤可以参见图3所描述的方法,在此不再赘述。
下面结合图6对本申请实施例中的问题语句分类装置作详细说明,图6为本申请实施例中一种问题语句分类装置600的结构示意图,包括处理单元601和通信单元602。
其中,上述处理单元601用于:接收待分类的问题语句;确定上述问题语句的分类特征,上述分类特征用于表示上述问题语句的语义和关联知识,上述关联知识为语义中被提问对象对应的关联知识;根据上述分类特征确定上述问题语句的类别。
其中,上述问题语句分类装置600还可以包括存储单元603,用于存储电子设备的程序代码和数据。上述处理单元601可以是处理器,上述通信单元602可以是内部通信接口,存储单元603可以是存储器。
可以看出,本申请实施例中问题语句分类装置可以自动对问题语句进行标注,在提高工作效率的同时大大节省了人力成本。
在一个可能的实施例中,上述分类特征包括语义特征和结构特征,在上述确定上述问题语句的分类特征方面,上述处理单元601具体用于:
对上述问题语句进行命名实体识别确定上述问题语句的关联数据,上述关联数据包括语句实体、上述语句实体对应的属性和上述语句实体对应的属性值;
对上述问题语句进行分词处理得到上述问题语句的分词向量;
根据上述分词向量确定对应的语义特征;
根据上述语句实体、上述语句实体对应的属性和上述语句实体对应的属性值确定上述问题语句对应的结构特征。
在一个可能的实施例中,在上述根据上述分类特征确定上述问题语句的类别方面,上述处理单元601具体用于:
通过在预先训练好的问句分类模型中分别输入上述语义特征和上述结构特征以确定追加语义特征和追加结构特征;
根据上述追加语义特征中的词语间距和上述追加结构特征中的词语间距确定词语相关度;
根据上述词语相关度确定追加分类特征;
根据上述追加分类特征输出上述问题语句对应每个类别的概率值;
根据上述每个类别的概率值确定上述问题语句的类别。
在一个可能的实施例中,在上述根据上述每个类别的概率值确定上述问题语句的类别方面,上述处理单元601具体用于:
确定概率值最大的第一概率值和概率值第二大的第二概率值;
判断上述第一概率值是否大于预设概率阈值,以及判断上述第一概率值和上述第二概率值之差是否大于预设差值阈值;
若都为是,则确定上述第一概率值对应的类别为上述问题语句的类别。
在一个可能的实施例中,在上述判断上述第一概率值是否大于预设概率阈值,以及判断上述第一概率值和上述第二概率值之差是否大于预设差值阈值之后,上述处理单元601还具体用于:
若上述第一概率值小于预设概率阈值和/或上述第一概率值和上述第二概率值之差小于预设差值阈值,则将上述问题语句标记为未知类别。
在一个可能的实施例中,在上述接收待分类的问题语句之前,上述处理单元601还用于:
获取训练文本数据,上述训练文本数据包括训练用问句;
对上述训练用问句进行命名实体识别确定上述训练用问句的关键词,上述关键词包括上述训练用问句的实体、上述训练用问句的实体对应的属性和上述训练用问句的实体对应的属性值;
将上述关键词转换为对应的词向量;
计算上述词向量的平均值得到问句表征向量;
根据上述训练用问句的实体确定关联实体、与上述关联实体对应的关联属性以及与上述关联实体对应的关联属性值;
通过将上述关联实体、与上述关联实体对应的关联属性以及与上述关联实体对应的关联属性值进行向量化表示得到类别表征向量;
判断上述问句表征向量和任意类别的类别表征向量的相似度是否达到预设相似阈值;
若是,则确定相似度最大的类别为上述训练用问句的类别,并进行标注,得到上述训练集数据;
根据上述训练集数据得到训练好的问句分类模型。
在一个可能的实施例中,在上述确定相似度最大的类别为上述训练用问句的类别,并进行标注,得到上述训练集数据之后,上述处理单元601还用于:
判断上述训练集数据的类别均衡度是否达到预设均衡阈值;
若否,则对上述需要进行数据均衡的类别对应的训练集数据进行过采样生成第一均衡训练集数据;
确定上述需要进行数据均衡的类别对应的训练集数据中每个训练用问句的实体和属性;
通过将上述需要进行数据均衡的类别对应的训练集数据中每个训练用问句的实体和属性替换为相似实体和相似属性生成第二均衡训练集数据;
将上述第一均衡训练集数据和上述第二均衡训练集数据按照预设比例补充至上述需要进行数据均衡的类别。
上述单元的详细实施方式可以参见图3、图5中的部分或全部方法步骤,在此不再赘述。
下面结合图7对本申请实施例中的一种电子设备做详细说明,图7为本申请实施例中一种电子设备700的结构示意图,包括应用处理器710、存储器720、通信接口730以及一个或多个程序721,其中,上述一个或多个程序721被存储在上述存储器720中,并且被配置由上述应用处理器710执行,上述一个或多个程序721包括用于执行图3、图5中的全部或部分方法步骤,在此不再赘述。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种问题语句分类方法,其特征在于,所述方法包括:
接收待分类的问题语句;
确定所述问题语句的分类特征,所述分类特征包括语义特征和结构特征,所述分类特征用于表示所述问题语句的语义和关联知识,所述关联知识为语义中被提问对象对应的关联知识;
通过在预先训练好的问句分类模型中分别输入所述语义特征和所述结构特征以确定追加语义特征和追加结构特征;
根据所述追加语义特征中的词语间距和所述追加结构特征中的词语间距确定词语相关度;
根据所述词语相关度确定追加分类特征;
根据所述追加分类特征输出所述问题语句对应每个类别的概率值;
根据所述每个类别的概率值确定所述问题语句的类别。
2.根据权利要求1所述的方法,其特征在于,所述确定所述问题语句的分类特征,包括:
对所述问题语句进行命名实体识别确定所述问题语句的关联数据;
对所述问题语句进行分词处理得到所述问题语句的分词向量;
根据所述分词向量确定对应的语义特征;
根据所述关联数据确定所述问题语句对应的结构特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个类别的概率值确定所述问题语句的类别,包括:
确定概率值最大的第一概率值和概率值第二大的第二概率值;
判断所述第一概率值是否大于预设概率阈值,以及判断所述第一概率值和所述第二概率值之差是否大于预设差值阈值;
若都为是,则确定所述第一概率值对应的类别为所述问题语句的类别。
4.根据权利要求3所述的方法,其特征在于,所述判断所述第一概率值是否大于预设概率阈值,以及判断所述第一概率值和所述第二概率值之差是否大于预设差值阈值之后,所述方法还包括:
若所述第一概率值小于预设概率阈值和/或所述第一概率值和所述第二概率值之差小于预设差值阈值,则将所述问题语句标记为未知类别。
5.根据权利要求1所述的方法,其特征在于,所述接收待分类的问题语句之前,所述方法还包括:
获取训练文本数据,所述训练文本数据包括训练用问句;
确定所述训练用问句的问句表征特征和类别表征特征;
判断所述问句表征特征和任意类别的类别表征特征的相似度是否达到预设相似阈值;
若是,则确定相似度最大的类别为所述训练用问句的类别,并进行标注,得到训练集数据;
根据所述训练集数据得到训练好的问句分类模型。
6.根据权利要求5所述的方法,其特征在于,所述确定相似度最大的类别为所述训练用问句的类别,并进行标注,得到所述训练集数据之后,所述方法还包括:
判断所述训练集数据的类别均衡度是否达到预设均衡阈值;
若否,则对需要进行数据均衡的类别对应的训练集数据进行过采样生成第一均衡训练集数据;
确定所述需要进行数据均衡的类别对应的训练集数据中每个训练用问句的实体和属性;
通过将所述需要进行数据均衡的类别对应的训练集数据中每个训练用问句的实体和属性替换为相似实体和相似属性生成第二均衡训练集数据;
将所述第一均衡训练集数据和所述第二均衡训练集数据按照预设比例补充至所述需要进行数据均衡的类别。
7.一种问题语句分类装置,其特征在于,包括处理单元和通信单元,所述处理单元用于:接收待分类的问题语句;确定所述问题语句的分类特征,所述分类特征包括语义特征和结构特征,所述分类特征用于表示所述问题语句的语义和关联知识,所述关联知识为语义中被提问对象对应的关联知识;通过在预先训练好的问句分类模型中分别输入所述语义特征和所述结构特征以确定追加语义特征和追加结构特征;根据所述追加语义特征中的词语间距和所述追加结构特征中的词语间距确定词语相关度;根据所述词语相关度确定追加分类特征;根据所述追加分类特征输出所述问题语句对应每个类别的概率值;根据所述每个类别的概率值确定所述问题语句的类别。
8.一种电子设备,其特征在于,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1~6任一项所述的方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~6任一项所述的方法。
CN201910759198.4A 2019-08-16 2019-08-16 问题语句分类方法、装置、电子设备及存储介质 Active CN110619051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910759198.4A CN110619051B (zh) 2019-08-16 2019-08-16 问题语句分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910759198.4A CN110619051B (zh) 2019-08-16 2019-08-16 问题语句分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110619051A CN110619051A (zh) 2019-12-27
CN110619051B true CN110619051B (zh) 2023-08-04

Family

ID=68921896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910759198.4A Active CN110619051B (zh) 2019-08-16 2019-08-16 问题语句分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110619051B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191442B (zh) * 2019-12-30 2024-02-02 杭州远传新业科技股份有限公司 相似问题生成方法、装置、设备及介质
CN111563166B (zh) * 2020-05-28 2024-02-13 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111753553B (zh) 2020-07-06 2022-07-05 北京世纪好未来教育科技有限公司 语句类型识别方法、装置、电子设备和存储介质
CN112329475B (zh) * 2020-11-03 2022-05-20 海信视像科技股份有限公司 语句处理方法及装置
CN112434133B (zh) * 2020-12-02 2024-05-17 康佳集团股份有限公司 一种意图分类方法、装置、智能终端及存储介质
CN113806558B (zh) * 2021-09-22 2024-03-26 湖北天天数链技术有限公司 问题选择方法、知识图谱构建方法、装置及电子设备
CN114490975B (zh) * 2021-12-31 2023-02-07 马上消费金融股份有限公司 用户问题的标注方法及装置
CN114547273B (zh) * 2022-03-18 2022-08-16 科大讯飞(苏州)科技有限公司 问题回答方法及相关装置、电子设备、存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425640A (zh) * 2012-05-14 2013-12-04 华为技术有限公司 一种多媒体问答系统及方法
CN108536681B (zh) * 2018-04-16 2023-05-30 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN109815321B (zh) * 2018-12-26 2020-12-11 出门问问信息科技有限公司 问答方法、装置、设备及存储介质
CN109992665A (zh) * 2019-03-14 2019-07-09 广州智语信息科技有限公司 一种基于问题目标特征扩展的分类方法

Also Published As

Publication number Publication date
CN110619051A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN109815336B (zh) 一种文本聚合方法及系统
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN110597961A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN110287799B (zh) 基于深度学习的视频ucl语义标引方法与装置
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN114547313A (zh) 资源类型识别方法以及装置
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant