CN110543553A - 问题生成方法、装置、计算机设备及存储介质 - Google Patents
问题生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110543553A CN110543553A CN201910699299.7A CN201910699299A CN110543553A CN 110543553 A CN110543553 A CN 110543553A CN 201910699299 A CN201910699299 A CN 201910699299A CN 110543553 A CN110543553 A CN 110543553A
- Authority
- CN
- China
- Prior art keywords
- question
- template
- candidate
- target
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 201000010099 disease Diseases 0.000 claims description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 25
- 206010020772 Hypertension Diseases 0.000 description 19
- 208000004104 gestational diabetes Diseases 0.000 description 18
- 206010012601 diabetes mellitus Diseases 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 208000007530 Essential hypertension Diseases 0.000 description 8
- 235000005911 diet Nutrition 0.000 description 7
- 230000037213 diet Effects 0.000 description 7
- 208000002672 hepatitis B Diseases 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 208000007342 Diabetic Nephropathies Diseases 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 208000033679 diabetic kidney disease Diseases 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 208000006454 hepatitis Diseases 0.000 description 3
- 231100000283 hepatitis Toxicity 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001631 hypertensive effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 240000005561 Musa balbisiana Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种问题生成方法、问题生成装置、计算机设备及存储介质,通过获取用户输入的问句;根据所述问句获取所述问句中的主题组;将所述问句与预先创建的知识库中的模板问句相匹配,获取各候选问句,并计算各所述候选问句与所述问句之间的匹配结果;及根据所述主题组和所述匹配结果,从所述候选问题中选取与所述问句相关的目标问句。本发明提供的问题生成方法、问题生成装置、计算机及存储介质,不仅考虑了问句与模板问句的匹配程度,还考虑了该问句的主题,从而可以既快速方便又准确高效的获取到该问句的相关问句,非常适合人机交互装置,这些相关问句也更符合用户的实际需求与想法。
Description
技术领域
本发明涉及人机交互技术领域,尤其涉及一种问题生成方法、问题生成装置、计算机设备及存储介质。
背景技术
问答装置是信息检索装置的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答装置是目前人工智能和自然语言处理领域中一个备受关注并具有广泛发展前景的研究方向。因此,问答装置已经广泛的应用于医疗、金融等行业中,成为人们日常生活的一部分。
目前,常见的智能医疗问答装置相关问题的生成主要依赖于语义相似度匹配,没有考虑主题的因素。因此生成的相关问题有时并不是提问者所想要的。例如,妊娠糖尿病应该吃什么?生成的相关问题可能是糖尿病应该吃什么?而患者更关注的是妊娠糖尿病的其他维度,例如妊娠糖尿病应该如何锻炼,妊娠糖尿病应该如何治疗等等。
发明内容
有鉴于此,本发明提出一种问题生成方法、问题生成装置、计算机设备及存储介质,能够识别出问句中的主题,并结合该主题和相似度,生成目标问句,使得所生成的目标问句更符合用户的实际需求和想法。
首先,为实现上述目的,本发明提出一种问题生成方法,该方法包括步骤:
获取用户输入的问句;
根据所述问句,获取所述问句中的主题组;
将所述问句与预先创建的知识库中的模板问句相匹配,获取各候选问句,并计算各所述候选问句与所述问句之间的匹配结果;及
根据所述主题组和所述匹配结果,从所述候选问句中选取与所述问句相关的目标问句。
进一步地,所述根据所述问句,获取所述问句中的主题组的步骤包括:
根据预先创建的问句的分类体系,依次识别出所述问句中的各主题;及
拼接各所述主题,形成所述问句中的主题组。
进一步地,所述分类体系是基于每种疾病特点而创建。
进一步地,所述将所述问句与预先创建的知识库中的模板问句相匹配,获取各候选问句,并计算各所述候选问句与所述问句之间的匹配结果的步骤包括:
基于倒排索引记录表,从所述知识库中查询出与所述问句相关的候选问句;
基于双通道神经网络模型,根据所述问句和各所述候选问句,计算所述问句与各所述候选问句之间的相似值;及
根据所述相似值,获取所述问句与各所述候选问句之间的匹配结果。
进一步地,所述基于双通道神经网络模型,计算所述问句与各所述模板问句的相似值的步骤包括:
将所述问句和各所述模板问句中的一个模板问句输入第一通道神经网络,获取所述问句和一个所述模板问句的第一特征表示;
将所述问句和各所述模板问句中的一个模板问句输入第二通道神经网络,获取所述问句和一个所述模板问句的第二特征表示;
根据预设的连接规则,连接所述第一特征表示和所述第二特征表示,获取所述问句和一个所述模板问句的最终特征表示;及
根据损失函数,计算所述问句与一个所述模板问句的最终特征表示的相似值。
进一步地,所述根据所述主题组和所述匹配结果,从所述候选问句中选取与所述问句相关的的目标问句的步骤包括:
基于惩罚系数矩阵,从所述候选问句中获取与所述主题组在不同维度的第一问句;及
根据所述匹配结果,从所述第一问句中筛选出所述目标问句。进一步地,所述根据所述主题组和所述匹配结果,从所述候选问句中选取与所述问句相关的目标问句的步骤之后,所述方法还包括:
根据所述相似值,对所述目标问句排序,获取排列在预设名次之前的所述目标问句;及
从所述预设名次之前的所述目标问句中随机选取,推送至所述用户。
此外,为实现上述目的,本发明还提供一种问题生成装置,其包括:
所述问题生成装置包括问句获取模块、主题识别模块、语义识别模块、选取问题模块;
所述问句获取模块用于获取用户输入的问句;
所述主题识别模块用于根据预先创建的问句的分类体系,依次识别出所述问句中的各主题;还用于拼接各所述主题,形成所述问句中的主题组;
所述语义识别模块用于将所述问句和各所述模板问句中的一个模板问句输入第一通道神经网络,获取所述问句和一个所述模板问句的第一特征表示;用于将所述问句和各所述模板问句中的一个模板问句输入第二通道神经网络,获取所述问句和一个所述模板问句的第二特征表示;用于根据预设的连接规则,连接所述第一特征表示和所述第二特征表示,获取所述问句和一个所述模板问句的最终特征表示;及还用于根据损失函数,计算所述问句与一个所述模板问句的最终特征表示的相似值;
所述问题选取模块用于根据所述主题组和所述相似值,选取与所述问句相关的目标问句。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
相较于现有技术,本发明所提出的问题生成方法,不仅考虑了问句在语义上与模板问句的匹配程度,还考虑了该问句的主题,从而可以既快速方便又准确高效的获取到该问句的相关问句,非常适合人机交互装置,这些相关问句也更符合用户的实际需求与想法。
附图说明
图1是本发明第一实施例之问题生成方法的流程示意图;
图2是本发明第二实施例之问题生成方法的流程示意图;
图3是本发明第三实施例之问题生成方法的流程示意图;
图4是本发明第四实施例之问题生成方法的流程示意图;
图5是本发明第五实施例之问题生成方法的流程示意图;
图6是本发明第六实施例之问题生成方法的流程示意图;及
图7是本发明第七实施例之问题生成装置的方框示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参考图1,第一个实施例提供了一种问题生成方法。该方法包括以下步骤:
步骤S110,获取用户输入的问句。
具体地,该输入的问句可以是文字信息,也可以是语音信息,在此不作限定。该信息的获取方式可以通过通讯软件获取,如微信、短信或语音等聊天软件,还可以通过输入法软件获取,如用户通过输入法软件输入的文字等信息,在此不做限定。
步骤S120,根据所述问句,获取所述问句中的主题组。
具体地,先对用户所输入的问句进行预处理,该预处理包括分词得到各词条。例如,问句为“小儿乙肝应该吃什么”,分词后,得到各词条为“小儿”、“乙肝”、“应该”、“吃”、“什么”。再利用word2vec将各词条通过词嵌套处理成词向量,再将这些词向量作为分类器的输入,而进行训练,训练好后就可对问句中的各主题进行识别。其中,分类模型包括两个或三个分类器。每一个分类器可识别一类主题。最后各分类器所识别的主题集合而形成主题组。其中,主题组中的主题通常由一至三个主题构成,一般情况下是两个主题,但是对于某些特殊疑问句也可以是三个主题。例如,当用户输入“小儿乙肝应该吃什么”,则通过分类器分类后,获取到该问句中的主题分别为“小儿乙肝”和“吃”,那么该“小儿乙肝”和“吃”这两个主题就构成了一个主题组。又例如,当用户输入“老年人得了高血压应该怎么治疗”,则获取到该问句中的主题分别为“老年人”、“高血压”和“治疗”,那么该“老年人”、“高血压”和“治疗”这三个主题就构成了一个主题组。
步骤S130,将所述问句与预先创建的知识库中的模板问句相匹配,获取各候选问句,并计算各所述候选问句与所述问句之间的匹配结果。
其中,知识库中的每个模板问句和答案也进行预处理,可以得到每个模板问句和答案的各词条等文本特征信息。再根据文本特征信息,将每个问句和答案都映射到倒排记录表中,将具有同一词条的所有问题和答案都映射到该词条上,从而为知识库构建出倒排索引记录表。根据问句,通过倒排索引记录表从知识库中查询到与该问句相关的候选问句。如:问句为“小儿乙肝应该吃什么”,候选问句为“乙肝应该吃什么药”,“得了乙肝应该怎么办”,“小儿乙肝的注意事项是什么”。再分别计算该问句与候选问句之间的相似度。根据该相似度,从而得到各候选问句与问句之间的匹配结果。即相似度越高,候选问句与该问句越匹配。其中该相似度可以由文本相似度、语义相似度、主题相似度和句法相似度经线性加权得到。另外,该知识库是由一个300多万对医疗领域问句构成,训练数据由140万对经过人工标注而组成。因而在计算匹配结果方面能够达到88%的准确率。
步骤S140,根据所述主题组和所述匹配结果,从所述候选问句中选取与所述问句相关的目标问句。
具体地,根据上述所获得的主题组,基于惩罚系数矩阵,从而在候选问句中进一步选取出与主题组中主题在不同维度的第一问句,再根据匹配结果(如,相似值),再从这些第一问句中筛选出与问句最匹配且又在不同维度的目标问句。例如,用户输入“原发性高血压可以做手术吗?”,则根据主题组“原发性高血压”和“手术”,基于惩罚系数矩阵模型,从而去除掉一些与手术维度或原发性高血压维度相同的候选问句,进而获得一些维度不同的第一问句,如“原发性高血压可以吃什么?”、“原发性高血压患者在运动时应该注意什么?”等,再根据匹配结果(如相似值)从这些第一问句里筛选出目标问句。
采用本实施例中的问题生成方法,不仅考虑了问句在语义上与模板问句的匹配程度,还考虑了该问句的主题,从而可以既快速方便又准确高效的获取到该问句的相关问句,非常适合人机交互装置,这些相关问句也更符合用户的实际需求与想法。
在第二个实施例中,请参考图2,第一个实施例中的步骤S120包括:
步骤S210,根据预先创建的问句的分类体系,依次识别出所述问句中的各主题。
具体地,该预先创建的问句的分类体系通常是两层,对于特殊问句为层,根据该分类体系,从而识别出该问句中的各主题。其中,该分类体系由分类器构成。每一个分类器都是一个独立的最近线性组合分类器(Nearest Linear Combination,NLC),分别负责当前层的分类。例如,当用户输入“妊娠糖尿病应该吃什么?”,该问句的分类体系为两层,即妊娠糖尿病-饮食。即有两个分类器,分别对妊娠糖尿病和饮食进行识别分类。那么,对该问句进行预处理后,获得该问句中各词条的词向量,再将各词向量作为分类器的输入。则在妊娠糖尿病这一层,一个分类器识别出该问句中的“妊娠糖尿病”这一主题,在饮食这一层,另一个分类器识别出该问句中的“吃”这一主题。当用户输入“老年人得了高血压应该怎么治疗?”该问句的分类体系为三层,即高血压综合-特殊人群-治疗。即有三个分类器,分别对高血压综合、特殊人群和治疗进行识别分类。那么,在高血压综合这一层,一个分类器识别出该问句中的“高血压”这一主题,在特殊人群这一层,一个分类器识别出“老年人”这一主题,在治疗这一层,另一个分类器识别出“治疗”这一主题。
其中,该分类体系是基于每种疾病特点而创建。例如,糖尿病第一层分类为糖尿病综合、妊娠糖尿病、一型糖尿病及二型糖尿病。糖尿病第二层分类为饮食、治疗、运动、监测、常识、预防。每一种疾病各自有相应的分类体系,使得在用户提出问题时,针对问题中所提到的疾病,采用该疾病所对应的分类体系,对该问句的主题进行识别,使得更有针对性的对用户的问题找出相关问题。另外,分类体系中的每一个分类器都事先经过训练,保证单层识别分类的准确率。
步骤S220,拼接各所述主题,形成所述问句中的主题组。
具体地,将上述所识别出的各主题进行拼接,进而由该问句中的至多三个不同层级的主题所形成的主题组。例如,当用户输入“妊娠糖尿病应该吃什么?”,对于“妊娠糖尿病”和“吃”这两个主题进行拼接,形成该问句的主题组。当用户输入“老年人得了高血压应该怎么治疗?”,对于“高血压”、“老年人”及“治疗”这三个主题进行拼接,形成该问句的主题组。其中,该主题组包含了该问句中不同层级之间的主题,有利于为用户匹配出与主题不同维度的目标问句。
在第三个实施例中,请参考图3,第一个实施例中的步骤S130包括:
步骤S310,基于倒排索引记录表,从所述知识库中查询出与所述问句相关的候选问句。
其中,知识库中的每个模板问句和答案也进行预处理,可以得到每个模板问句和答案的各词条等文本特征信息。再根据文本特征信息,将每个问句和答案都映射到倒排记录表中,将具有同一词条的所有问题和答案都映射到该词条上,从而为知识库构建出倒排索引记录表。利用该倒排索引记录表,通过对问句进行分词获得各词条,再根据该各词条可以从知识库中查询出与该问句相关的候选问句。
步骤S320,基于双通道神经网络模型,根据所述问句和各所述候选问句,计算所述问句与各所述候选问句之间的相似值。
具体地,将该问句和候选问句用向量形式表示,并作为双通道神经网络模型的输入,经过该双通道神经网络模型的嵌入、池化、连接、丢弃等网络层处理之后,计算出该问句与候选问句的一个相似值。其中,双通道神经网络模型是将所输入的两个问句看成一个双通道的问句。该双通道神经网络模型由三部分构成。第一部分时输入层。第二部分是由n个卷积层和池化层组成。第三部分是由一个全连接的多层感知机分类器构成。
步骤S330,根据所述相似值获取所述问句与各所述候选问句之间的匹配结果。
具体地,根据上述得到的相似值,从而知道该候选问句与该问句的匹配情况。例如,相似值较高,则说明该候选问句与该问句匹配程度较高,与该问句较相关。相似值较低,则说明该候选问句与该问句匹配程度较低,与该问句较不相关。
在第四个实施例,请参考图4,第三个实施例步骤中的S320包括:
步骤S410,将所述问句和各所述模板问句中的一个模板问句输入第一通道神经网络,获取所述问句和一个所述模板问句的第一特征表示。
具体地,将用户提出的问句和一个模板问句作为第一通道神经网络的输入,通过该第一通道神经网络的处理后,提取出该问句和该一个模板问句的第一特征表示。
步骤S420,将所述问句和各所述模板问句中的一个模板问句输入第二通道神经网络,获取所述问句和一个所述模板问句的第二特征表示。
具体地,将用户提出的问句和一个模板问句作为第二通道神经网络的输入,通过该第二通道神经网络的处理后,提取出该问句和该一个模板问句的第二特征表示。其中,第一特征表示不同于第二特征表示,使得可以从多维度提取该问句和模板问句的特征向量。
步骤S430,根据预设的连接规则,连接所述第一特征表示和所述第二特征表示,获取所述问句和一个所述模板问句的最终特征表示。
具体地,根据预设的连接规则,将第一特征表示和第二特征表示进行连接,从而获取到该问句和该模板问句的最终特征表示。
步骤S440,根据损失函数,计算所述问句与一个所述模板问句的最终特征表示的相似值。
具体地,该最终特征表示经过损失函数计算后,得到该模板问句与用户提出的问句之间的相似值。
在第五个实施例中,请参考图5,该方法还包括:
步骤S510,基于惩罚系数矩阵,从所述候选问句中获取与所述主题组在不同维度的第一问句。
具体地,先通过一个基于句式的模糊匹配,得到用户所提出的问句与各候选问句在结构上的相似度,然后把这个相似度取倒数,从而得到一个结构相似值。
具体地,将该结构相似值添加到相应的惩罚系数矩阵中,经过该矩阵计算后,从而避免候选问题和问句本身结构内容过于雷同,从而获取到与主题组中主题在不同维度上的第一问句。例如,用户输入问句是“糖尿病肾病应该吃什么”,候选问题为,“糖尿病肾病可以吃香蕉吗”和“得了糖尿病肾病可以做些什么运动”,在双通道神经网络模型加入该惩罚系数矩阵后,候选问题会选择后者作为第一问句,即运动维度,而不是饮食维度,从而能够保证在一个主题不变的情况下(本例是糖尿病肾病),尽可能选择主题在其他维度的问句作为第一问句。
步骤S520,根据所述匹配结果,从所述第一问句中筛选出所述目标问句。
具体地,匹配结果即是候选问句与问句之间的相似值,第一问句是从候选问句中筛选出与用户问句的主题在不同维度的问句。根据相似值,进一步对第一问句进行选择,从而筛选出目标问句,。例如可选择相似值高的第一问句作为目标问句,从而可以推送出更符合用户实际需求的问句。
在第六个实施例中,请参考图6,步骤S140之后,该方法还包括:
步骤S610,根据所述相似值,对所述目标问句排序,获取排列在预设名次之前的所述目标问句。
具体地,相似值用百分比表示,根据该百分比的大小,对与该百分比相对应的目标问句进行排序。即百分比越大,该目标问句的排列名次越靠前。对这些目标问句排序之后,从这些排列后的目标问句中选取预设名次之前的目标问句,如选取排列名次在前五名的目标问句。其中,相似度包括文本相似度,语义相似度,主题相似度及句法相似度等。目标问句与该问句之间的文本相似度的计算方法可以包括以下步骤:统计目标问句与该问句之间的多个指定特征,对该多个指定特征进行线性加权,从而得到文本相似度。其中,多个指定特征包括:目标问句与该问句的共同词条的数量及长度,目标问句和该问句的长度等。语义相似度的计算方法可以采用word2vec算法将目标问句和该问句分别分词后的各词条表示为词向量,将问句中各词向量取平均值得到句子向量,计算两个句子向量之间的余弦相似度,得到目标问句与该问句之间的语义相似度。主题相似度和句法相似度的计算方法均为现有技术,就不在此一一陈述。
步骤S620,从所述预设名次之前的所述目标问句中随机选取,推送至所述用户。
例如,从排列名次在前五名的目标问句中进行随机选取,可从中选取出一个目标问句,或两个目标问句,或三个目标问句等,从而将随机选取的这些目标问句再推送至用户。
在第七个实施例中,提供了一种问题生成装置700。该问题生成装置700包括问句获取模块710、主题识别模块720、语义识别模块730及问题选取模块740。
所述问句获取模块710用于获取用户输入的问句。具体地,该输入的问句可以是文字信息,也可以是语音信息,在此不作限定。该信息的获取方式可以通过通讯软件获取,如微信、短信或语音等聊天软件,还可以通过输入法软件获取,如用户通过输入法软件输入的文字等信息,在此不做限定。
所述主题识别模块720用于根据预先创建的问句的分类体系,依次识别出所述问句中的各主题。具体地,该预先创建的问句的分类体系通常是两层,对于特殊问句为三层,根据该分类体系,从而识别出该问句中的各主题。其中,该分类体系由分类器构成。每一个分类器都是一个独立的最近线性组合分类器(Nearest Linear Combination,NLC),分别负责当前层的分类。例如,当用户输入“妊娠糖尿病应该吃什么?”,该问句的分类体系为两层,即妊娠糖尿病-饮食。即有两个分类器,分别对妊娠糖尿病和饮食进行识别分类。那么,对该问句进行预处理后,获得该问句中各词条的词向量,再将各词向量作为分类器的输入。则在妊娠糖尿病这一层,一个分类器识别出该问句中的“妊娠糖尿病”这一主题,在饮食这一层,另一个分类器识别出该问句中的“吃”这一主题。当用户输入“老年人得了高血压应该怎么治疗?”该问句的分类体系为三层,即高血压综合-特殊人群-治疗。即有三个分类器,分别对高血压综合、特殊人群和治疗进行识别分类。那么,在高血压综合这一层,一个分类器识别出该问句中的“高血压”这一主题,在特殊人群这一层,一个分类器识别出“老年人”这一主题,在治疗这一层,另一个分类器识别出“治疗”这一主题。
其中该分类体系是基于每种疾病特点而创建。例如,糖尿病第一层分类为糖尿病综合、妊娠糖尿病、一型糖尿病及二型糖尿病。糖尿病第二层分类为饮食、治疗、运动、监测、常识、预防。每一种疾病各自有相应的分类体系,使得在用户提出问题时,针对问题中所提到的疾病,采用该疾病所对应的分类体系,对该问句的主题进行识别,使得更有针对性的对用户的问题找出相关问题。另外,分类体系中的每一个分类器都事先经过训练,保证单层识别分类的准确率。
所述主题识别模块720还用于拼接各所述主题,形成所述问句中的主题组。具体地,将上述所识别出的各主题进行拼接,进而由该问句中的至多三个不同层级的主题所形成的主题组。例如,当用户输入“妊娠糖尿病应该吃什么?”,对于“妊娠糖尿病”和“吃”这两个主题进行拼接,形成该问句的主题组。当用户输入“老年人得了高血压应该怎么治疗?”,对于“高血压”、“老年人”及“治疗”这三个主题进行拼接,形成该问句的主题组。其中,该主题组包含了该问句中不同层级之间的主题,有利于为用户匹配出与主题不同维度的目标问句。
基于此,该主题识别模块720由一个三层分类器构成,每一个分类器都是一个独立的最近先行组合分类器(Nearest Linear Combination,NLC),其底层结构为卷积神经网络(Convolutional Neural Network,CNN),该卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括输入层、隐藏层、输出层,其中,隐藏层有包括卷积层(alternating convolutional layer)和池层(pooling layer)。卷积层用于提取特征,池化层也就是下采样。另外,还针对不同兵种的特点加了相应的人工规则和字典,以保证各层分类器能够取得更好的效果。
所述语义识别模块730用于将所述问句和各所述模板问句中的一个模板问句输入第一通道神经网络,获取所述问句和一个所述模板问句的第一特征表示。所述语义识别模块730用于将所述问句和各所述模板问句中的一个模板问句输入第二通道神经网络,获取所述问句和一个所述模板问句的第二特征表示。所述语义识别模块730用于根据预设的连接规则,连接所述第一特征表示和所述第二特征表示,获取所述问句和一个所述模板问句的最终特征表示。及所述语义识别模块730还用于根据损失函数,计算所述问句与一个所述模板问句的最终特征表示的相似值。
所述语义识别模块730是由双通道卷积神经网络构成。其中,双通道神经网络是将所输入的两个问句看成一个双通道的问句。该双通道神经网络由三部分构成。第一部分时输入层。第二部分是由n个卷积层和池化层组成。第三部分是由一个全连接的多层感知机分类器构成。
所述问题选取模块740用于根据所述主题组和所述相似值,选取与所述问句相关的目标问句。
具体地,根据上述所获得的主题组,基于惩罚系数矩阵,从而在候选问句中选取与主题组中主题不同维度的目标问句。例如,用户输入“原发性高血压可以做手术吗?”,则根据主题组“原发性高血压”和“手术”,基于惩罚系数矩阵模型,从而去除掉一些与手术维度或原发性高血压维度相同的候选问句,进而获得一些维度不同的目标问句,如“原发性高血压可以吃什么?”、“原发性高血压患者在运动时应该注意什么?”等。
采用本实施例中的问题生成装置700,不仅考虑了问句在语义上与模板问句的匹配程度,还考虑了该问句的主题,从而可以既快速方便又准确高效的获取到该问句的相关问句,非常适合人机交互装置,这些相关问句也更符合用户的实际需求与想法。
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过装置总线相互通信连接的存储器、处理器等。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储电子装置,被处理器执行时实现本发明的基于主题识别的问题生成方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种问题生成方法,其特征在于,所述方法包括步骤:
获取用户输入的问句;
根据所述问句获取所述问句中的主题组;
将所述问句与预先创建的知识库中的模板问句相匹配,获取各候选问句,并计算各所述候选问句与所述问句之间的匹配结果;及
根据所述主题组和所述匹配结果,从所述候选问句中选取与所述问句相关的目标问句。
2.如权利要求1所述的问题生成方法,其特征在于,所述根据所述问句,获取所述问句中的主题组的步骤包括:
根据预先创建的问句的分类体系,依次识别出所述问句中的各主题;及
拼接各所述主题形成所述问句中的主题组。
3.如权利要求2所述的问题生成方法,其特征在于,所述分类体系是基于每种疾病特点而创建。
4.如权利要求1所述的问题生成方法,其特征在于,所述将所述问句与预先创建的知识库中的模板问句相匹配,获取各候选问句,并计算各所述候选问句与所述问句之间的匹配结果的步骤包括:
基于倒排索引记录表,从所述知识库中查询出与所述问句相关的候选问句;
基于双通道神经网络模型,根据所述问句和各所述候选问句,计算所述问句与各所述候选问句之间的相似值;及
根据所述相似值获取所述问句与各所述候选问句之间的匹配结果。
5.如权利要求4所述的问题生成方法,其特征在于,所述基于双通道神经网络模型,计算所述问句与各所述模板问句的相似值的步骤包括:
将所述问句和各所述模板问句中的一个模板问句输入第一通道神经网络,获取所述问句和一个所述模板问句的第一特征表示;
将所述问句和各所述模板问句中的一个模板问句输入第二通道神经网络,获取所述问句和一个所述模板问句的第二特征表示;
根据预设的连接规则,连接所述第一特征表示和所述第二特征表示,获取所述问句和一个所述模板问句的最终特征表示;及
根据损失函数,计算所述问句与一个所述模板问句的最终特征表示的相似值。
6.如权利要求1所述的问题生成方法,其特征在于,所述根据所述主题组和所述匹配结果,从所述候选问句中选取与所述问句相关的的目标问句的步骤包括:
基于惩罚系数矩阵,从所述候选问句中获取与所述主题组在不同维度的第一问句;及
根据所述匹配结果,从所述第一问句中筛选出所述目标问句。
7.如权利要求4所述的问题生成方法,其特征在于,所述根据所述主题组和所述匹配结果,从所述候选问句中选取与所述问句相关的目标问句的步骤之后,所述方法还包括:
根据所述相似值,对所述目标问句排序,获取排列在预设名次之前的所述目标问句;及
从所述预设名次之前的所述目标问句中随机选取,推送至所述用户。
8.一种问题生成装置,其特征在于,所述问题生成装置包括问句获取模块、主题识别模块、语义识别模块、问题选取模块;
所述问句获取模块用于获取用户输入的问句;
所述主题识别模块用于根据预先创建的问句的分类体系,依次识别出所述问句中的各主题;还用于拼接各所述主题,形成所述问句中的主题组;
所述语义识别模块用于将所述问句和各所述模板问句中的一个模板问句输入第一通道神经网络,获取所述问句和一个所述模板问句的第一特征表示;用于将所述问句和各所述模板问句中的一个模板问句输入第二通道神经网络,获取所述问句和一个所述模板问句的第二特征表示;用于根据预设的连接规则,连接所述第一特征表示和所述第二特征表示,获取所述问句和一个所述模板问句的最终特征表示;及还用于根据损失函数,计算所述问句与一个所述模板问句的最终特征表示的相似值;
所述问题选取模块用于根据所述主题组和所述相似值,选取与所述问句相关的目标问句。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的问题生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述的问题生成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699299.7A CN110543553B (zh) | 2019-07-31 | 2019-07-31 | 问题生成方法、装置、计算机设备及存储介质 |
PCT/CN2019/117965 WO2021017300A1 (zh) | 2019-07-31 | 2019-11-13 | 问题生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699299.7A CN110543553B (zh) | 2019-07-31 | 2019-07-31 | 问题生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110543553A true CN110543553A (zh) | 2019-12-06 |
CN110543553B CN110543553B (zh) | 2024-06-14 |
Family
ID=68710377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910699299.7A Active CN110543553B (zh) | 2019-07-31 | 2019-07-31 | 问题生成方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110543553B (zh) |
WO (1) | WO2021017300A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061851A (zh) * | 2019-12-12 | 2020-04-24 | 中国科学院自动化研究所 | 基于给定事实的问句生成方法及系统 |
CN111984774A (zh) * | 2020-08-11 | 2020-11-24 | 北京百度网讯科技有限公司 | 搜索方法、装置、设备以及存储介质 |
WO2021128246A1 (zh) * | 2019-12-27 | 2021-07-01 | 拉克诺德(深圳)科技有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113469048A (zh) * | 2021-06-30 | 2021-10-01 | 平安科技(深圳)有限公司 | 一种乘员状态确定方法、装置、计算机设备及存储介质 |
CN116089589A (zh) * | 2023-02-10 | 2023-05-09 | 阿里巴巴达摩院(杭州)科技有限公司 | 问句生成方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120301864A1 (en) * | 2011-05-26 | 2012-11-29 | International Business Machines Corporation | User interface for an evidence-based, hypothesis-generating decision support system |
JP2014112316A (ja) * | 2012-12-05 | 2014-06-19 | Kddi Corp | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 |
CN104166648A (zh) * | 2013-05-16 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 基于标签的推荐数据挖掘方法及装置 |
CN107329967A (zh) * | 2017-05-12 | 2017-11-07 | 北京邮电大学 | 基于深度学习的问答系统以及方法 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9483731B2 (en) * | 2012-12-11 | 2016-11-01 | International Business Machines Corporation | Method of answering questions and scoring answers using structured knowledge mined from a corpus of data |
CN104050256B (zh) * | 2014-06-13 | 2017-05-24 | 西安蒜泥电子科技有限责任公司 | 基于主动学习的问答方法及采用该方法的问答系统 |
CN104331523B (zh) * | 2014-11-27 | 2017-07-28 | 韩慧健 | 一种基于概念对象模型的问句检索方法 |
CN105528437B (zh) * | 2015-12-17 | 2018-11-23 | 浙江大学 | 一种基于结构化文本知识提取的问答系统构建方法 |
US20180196921A1 (en) * | 2017-01-12 | 2018-07-12 | International Business Machines Corporation | Abbreviation Expansion in Clinical Notes Using Frequency and Context |
-
2019
- 2019-07-31 CN CN201910699299.7A patent/CN110543553B/zh active Active
- 2019-11-13 WO PCT/CN2019/117965 patent/WO2021017300A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120301864A1 (en) * | 2011-05-26 | 2012-11-29 | International Business Machines Corporation | User interface for an evidence-based, hypothesis-generating decision support system |
JP2014112316A (ja) * | 2012-12-05 | 2014-06-19 | Kddi Corp | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 |
CN104166648A (zh) * | 2013-05-16 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 基于标签的推荐数据挖掘方法及装置 |
CN107329967A (zh) * | 2017-05-12 | 2017-11-07 | 北京邮电大学 | 基于深度学习的问答系统以及方法 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
Non-Patent Citations (1)
Title |
---|
齐乐;张宇;刘挺;: "基于关键信息的问题相似度计算", 计算机研究与发展, vol. 55, no. 07, pages 1539 - 1547 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061851A (zh) * | 2019-12-12 | 2020-04-24 | 中国科学院自动化研究所 | 基于给定事实的问句生成方法及系统 |
CN111061851B (zh) * | 2019-12-12 | 2023-08-08 | 中国科学院自动化研究所 | 基于给定事实的问句生成方法及系统 |
WO2021128246A1 (zh) * | 2019-12-27 | 2021-07-01 | 拉克诺德(深圳)科技有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN111984774A (zh) * | 2020-08-11 | 2020-11-24 | 北京百度网讯科技有限公司 | 搜索方法、装置、设备以及存储介质 |
CN111984774B (zh) * | 2020-08-11 | 2024-02-27 | 北京百度网讯科技有限公司 | 搜索方法、装置、设备以及存储介质 |
CN113469048A (zh) * | 2021-06-30 | 2021-10-01 | 平安科技(深圳)有限公司 | 一种乘员状态确定方法、装置、计算机设备及存储介质 |
CN116089589A (zh) * | 2023-02-10 | 2023-05-09 | 阿里巴巴达摩院(杭州)科技有限公司 | 问句生成方法及装置 |
CN116089589B (zh) * | 2023-02-10 | 2023-08-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 问句生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110543553B (zh) | 2024-06-14 |
WO2021017300A1 (zh) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543553B (zh) | 问题生成方法、装置、计算机设备及存储介质 | |
CN111415740B (zh) | 问诊信息的处理方法、装置、存储介质及计算机设备 | |
CN112035636A (zh) | 医疗问诊系统的问答管理方法、装置、设备及存储介质 | |
Bruni et al. | Distributional semantics from text and images | |
CN110297893B (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
CN113722483B (zh) | 话题分类方法、装置、设备及存储介质 | |
CN113836938B (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN112287085B (zh) | 语义匹配方法、系统、设备及存储介质 | |
CN112347787A (zh) | 方面级别情感分类方法、装置、设备及可读存储介质 | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN113392331A (zh) | 文本处理方法及设备 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN109992665A (zh) | 一种基于问题目标特征扩展的分类方法 | |
CN110795544A (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN117437422A (zh) | 一种医学影像识别方法和装置 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN115714030A (zh) | 一种基于疼痛感知和主动交互的医疗问答系统及方法 | |
CN115878750A (zh) | 信息处理方法、装置、设备及计算机可读存储介质 | |
CN114416929A (zh) | 实体召回模型的样本生成方法、装置、设备及存储介质 | |
US20220318506A1 (en) | Method and apparatus for event extraction and extraction model training, device and medium | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN117195046A (zh) | 异常文本识别方法及相关设备 | |
CN115188376A (zh) | 一种个性化语音交互方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |