CN111931498B

CN111931498B - 基于复杂度分析的用户在线提问处理方法及系统

Info

Publication number: CN111931498B
Application number: CN202010821222.5A
Authority: CN
Inventors: 范晓东; 张文慧; 唐伟佳; 李羊
Original assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Current assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2024-03-01
Anticipated expiration: 2040-08-14
Also published as: CN111931498A

Abstract

本发明提供了一种基于复杂度分析的用户在线提问处理方法及系统，可用于人工智能技术领域，所述方法包括：对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息，并进行句法分析得到用户提问信息的句法特征信息；将所述词法特征信息和句法特征信息输入基于卷积神经网络技术得到的复杂度分析模型得到用户提问信息的复杂度类型；根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户，本发明可提高对用户在线提问问题的匹配准确率，提高用户的咨询体验。

Description

基于复杂度分析的用户在线提问处理方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于复杂度分析的用户在线提问处理方法及系统。

背景技术

近些年，随着人工智能技术的快速发展，基于先进神经语言程序学技术(NaturalLanguage Processing，NLP)的在线智能问答系统在各种场景下以智能客服产品的形式开始得到了广泛应用。在线智能问答系统以客服助手的形式与用户进行单轮或多轮的交互，满足用户常见问题的咨询需求。通过在线智能问答系统对用户在线咨询的常见问答进行在线回复，一方面显著降低了传统人工客服的服务压力，有效降低人工客服的用人成本；另一方面由于智能客服产品可实现全天候的实时在线服务，大大提升了政务服务效率和服务质量，可为用户带来更好的咨询体验。

目前的在线智能问答系统通常采用问题匹配的方式，利用基于深度神经网络的语义理解模型计算用户在线提出的问题与政务知识库中标准的问题的相似度，并输出最相似问题的答案。但是，在实际应用中，用户采用开放式的提问方式，问题语义语法结构可能不完整，从而导致用户提问信息的问题语义复杂程度的不统一。在这种情况下，对用户不同语义复杂的提问进行问题匹配很难达到很好的匹配效果，可能会导致问题匹配错误，无法满足用户在线咨询的需求，降低用户的咨询体验。

发明内容

本发明的一个目的在于提供一种基于复杂度分析的用户在线提问处理方法，提高对用户在线提问问题的匹配准确率，提高用户的咨询体验。本发明的另一个目的在于提供一种基于复杂度分析的用户在线提问处理系统。本发明的再一个目的在于提供一种计算机设备。本发明的还一个目的在于提供一种可读介质。

为了达到以上目的，本发明一方面公开了一种基于复杂度分析的用户在线提问处理方法，包括：

对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息，并进行句法分析得到用户提问信息的句法特征信息；

将所述词法特征信息和句法特征信息输入基于卷积神经网络技术得到的复杂度分析模型得到用户提问信息的复杂度类型；

根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户。

优选的，所述对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息具体包括：

对所述用户提问信息进行分词处理得到词语序列，对所述词语序列进行词向量索引编码得到特征向量；

对分词处理得到的词语序列的词性进行标注，并通过独热编码方式对词性标注后的词语序列进行词性特征编码得到词性向量；

对所述特征向量和所述词性向量进行组合得到词法特征信息。

优选的，所述对所述用户提问信息进行分词处理得到词语序列具体包括：

确定所述用户提问信息中是否存在领域词；

若是，对所述用户提问信息中除了领域词的其他信息进行分词处理得到词汇，将所述词汇和领域词作为词语序列；

若否，对所述用户提问信息进行分词处理得到词汇，将所述分词处理得到的词汇作为词语序列。

优选的，对用户提问信息进行句法分析得到用户提问信息的句法特征信息具体包括：

对所述用户提问信息进行依存句法分析得到用户提问信息包括的句法类型以及每一种句法类型的出现频率进行统计得到统计值向量；

通过七问分析法确定所述用户提问信息的句式特征，并采用独热编码方式对所述句式特征进行编码得到句式特征编码；

确定用户提问信息的句型特征，并对所述句型特征进行二分类编码；

根据所述统计值向量、所述句式特征编码和所述二分类编码得到所述句法特征信息。

优选的，进一步包括预先形成所述复杂度分析模型的步骤：

对历史用户提问信息进行分词和词性分析得到历史词法特征信息，并进行句法分析得到历史句法特征信息；

确定所述历史用户提问信息的复杂度类型标签；

将所述历史词法特征信息、所述历史句法特征信息和对应的复杂度类型标签作为训练数据对所述卷积神经网络进行训练得到所述复杂度分析模型。

优选的，所述根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户具体包括：

若所述复杂度类型为标准时，将所述用户提问信息作为标准问题匹配对应的答复信息以反馈给用户；

若所述复杂度类型为复杂时，通过句子压缩和/或去除停用词根据所述用户提问信息形成标准问题，为所述标准问题匹配对应的答复信息以反馈给用户；

若所述复杂度类型为简短时，向用户反馈进一步交互信息，确定用户反馈的补充信息与用户提问信息的复杂度类型，若所述复杂度类型为简短时，重复向用户反馈进一步交互信息直至所述复杂度类型为标准或复杂，和/或和向用户反馈建议的标准问题，并基于用户选定的标准问题匹配对应的答复信息以反馈给用户。

本发明还公开了一种基于复杂度分析的用户在线提问处理系统，包括：

特征提取模块，用于对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息，并进行句法分析得到用户提问信息的句法特征信息；

复杂度分析模块，用于将所述词法特征信息和句法特征信息输入基于卷积神经网络技术得到的复杂度分析模型得到用户提问信息的复杂度类型；

问题答复模块，用于根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户。

优选的，所述特征提取模块进一步包括：

词语序列提取单元，用于对所述用户提问信息进行分词处理得到词语序列，对所述词语序列进行词向量索引编码得到特征向量；

词性标注单元，用于对分词处理得到的词语序列的词性进行标注，并通过独热编码方式对词性标注后的词语序列进行词性特征编码得到词性向量；

词法特征组合单元，用于对所述特征向量和所述词性向量进行组合得到词法特征信息。

优选的，特征提取模块进一步包括：

句法类型统计单元，用于对所述用户提问信息进行依存句法分析得到用户提问信息包括的句法类型以及每一种句法类型的出现频率进行统计得到统计值向量；

句式特征编码单元，用于通过七问分析法确定所述用户提问信息的句式特征，并采用独热编码方式对所述句式特征进行编码得到句式特征编码；

二分类编码单元，用于确定用户提问信息的句型特征，并对所述句型特征进行二分类编码；

句法特征组合单元，用于根据所述统计值向量、所述句式特征编码和所述二分类编码得到所述句法特征信息。

优选的，所述问题答复模块具体用于若所述复杂度类型为标准时，将所述用户提问信息作为标准问题匹配对应的答复信息以反馈给用户；若所述复杂度类型为复杂时，通过句子压缩和/或去除停用词根据所述用户提问信息形成标准问题，为所述标准问题匹配对应的答复信息以反馈给用户；若所述复杂度类型为简短时，向用户反馈进一步交互信息，确定用户反馈的补充信息与用户提问信息的复杂度类型，若所述复杂度类型为简短时，重复向用户反馈进一步交互信息直至所述复杂度类型为标准或复杂，和/或和向用户反馈建议的标准问题，并基于用户选定的标准问题匹配对应的答复信息以反馈给用户。

本发明还公开了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，

所述处理器执行所述程序时实现如上所述方法。

本发明还公开了一种计算机可读介质，其上存储有计算机程序，

该程序被处理器执行时实现如上所述方法。

本发明通过对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息，对用户提问信息进行句法分析得到句法特征信息，并通过基于卷积神经网络技术得到的复杂度分析模型根据词法特征信息和句法特征信息对用户提问信息的复杂度进行分析，得到用户提问信息的复杂度类型。进一步根据复杂度类型采用不同的问题处理规则对用户提问信息进行处理得到标准问题，通过对处理得到的标准问题匹配对应的答复信息，提高用户提问信息对应的答复信息的匹配准确度。本发明为了降低用户提问信息中用户口语化表述中的冗余信息或关键信息缺失在答复信息直接匹配的情况下对匹配准确度的影响，对用户提问信息进行复杂度分析以采用不同的措施形成标准信息，实现输入问题的规范化，从而可缩小口语化表述和标准问题之间的语法复杂度差异，降低标准问题匹配的处理难度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作标准地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本发明基于复杂度分析的用户在线提问处理方法一个具体实施例的流程图；

图2示出本发明基于复杂度分析的用户在线提问处理方法一个具体实施例S100形成词法特征信息的流程图；

图3示出本发明基于复杂度分析的用户在线提问处理方法一个具体例子形成词法特征信息的流程图；

图4示出本发明基于复杂度分析的用户在线提问处理方法一个具体实施例S110的流程图；

图5示出本发明基于复杂度分析的用户在线提问处理方法一个具体实施例S100形成句法特征信息的流程图；

图6示出本发明基于复杂度分析的用户在线提问处理方法一个具体例子形成句法特征信息的流程图；

图7示出本发明基于复杂度分析的用户在线提问处理方法一个具体实施例S000形成句法特征信息的流程图；

图8示出本发明基于复杂度分析的用户在线提问处理方法一个具体例子复杂度类型确定的流程图；

图9示出本发明基于复杂度分析的用户在线提问处理方法一个具体实施例S300形成句法特征信息的流程图；

图10示出本发明基于复杂度分析的用户在线提问处理方法一个具体例子复杂度类型确定的流程图；

图11示出本发明基于复杂度分析的用户在线提问处理系统一个具体实施例的结构图；

图12示出本发明基于复杂度分析的用户在线提问处理系统一个具体实施例形成词法特征信息的特征提取模块的结构图；

图13示出本发明基于复杂度分析的用户在线提问处理系统一个具体实施例形成句法特征信息的特征提取模块的结构图；

图14示出适于用来实现本发明实施例的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请可用于人工智能技术领域，也可用于除人工智能技术领域之外的任意领域，本申请的应用技术领域不作限定。

目前的在线智能问答系统在对用户提问信息进行处理时通常采用标准的直接匹配方式得到答复信息。但是，由于用户在线提问时采用开放式的提问方式，用户提问信息的语法结构很可能不完整，具有很强的口语化特征。在这种情况下，对于用户在线开放式的提问方式形成的用户提问信息进行答复时可能存在不同的复杂度，对于语法结构混乱或缺少关键信息的用户提问信息的答复信息的匹配很可能不能实现很好的匹配效果。从而导致用户在线提问时答复信息的匹配错误，对用户在线提问的提问方式要求较高，无法满足多种类型用户的在线咨询需求，进而降低用户的咨询体验。

此外，对于政务领域等某些特殊领域来说，知识库中预存的标准问题表达严谨专业，书面化表述和口语化表述之间存在较大差距，从而提高了这些特殊领域用户在线提供的问题匹配难度。并且，目前在线智能问答系统的发展较慢，历史用户提问信息和答复信息没有很好地用于提高在线智能问答系统答复匹配的准确度。

综合以上几点，为了降低用户口语化表述中的冗余信息或关键信息缺失对直接问题匹配的准确度影响，缩小口语化表述和标准问题之间的语法复杂度差异，降低标准问题匹配模型处理难度，需要对输入问题的语法语义复杂度进行预处理分析，并针对不同语法复杂程度结合不同的预处理操作对问题进行分类处理，实现输入问题的规范化，并为后续多引擎的合理调用提供依据。目前，业界常见智能问答系统中的问题预处理通常包括问题拼写纠错、问题同义词改写、问题分词等，暂无以句子语法复杂度为依据的分析，本质上无法改善问题中冗余信息和关键信息缺失的识别，也无法进行口语化句子结构层面的规范化处理。

根据本发明的一个方面，本实施例公开了一种基于复杂度分析的用户在线提问处理方法。如图1所示，本实施例中，所述方法包括：

S100：对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息，并进行句法分析得到用户提问信息的句法特征信息。

S200：将所述词法特征信息和句法特征信息输入基于卷积神经网络(ConvalutionNeural Network,CNN)技术得到的复杂度分析模型得到用户提问信息的复杂度类型。

S300：根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户。

在优选的实施方式中，如图2所示，所述S100中对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息具体包括：

S110：对所述用户提问信息进行分词处理得到词语序列，对所述词语序列进行词向量索引编码得到特征向量。

S120：对分词处理得到的词语序列的词性进行标注，并通过独热编码方式对词性标注后的词语序列进行词性特征编码得到词性向量。

S130：对所述特征向量和所述词性向量进行组合得到词法特征信息。

可以理解的是，在该优选的实施方式中，主要通过对用户输入的用户提问信息进行分词、词向量编码和词性标注等处理步骤，最终输出词语级别的特征表示，即得到包括特征向量和词性向量的词法特征信息。在实际应用时，可在问题分词之前，预先构建包括对应词语序列汇的词语序列库，该词语序列库可用于对用户提问信息中的词汇进行分词识别得到词语序列。并可预先形成包括知识库、真实问答数据集文档等领域数据的词语序列典，该词语序列典可用来对得到的词语序列进行词性标注。还可构建词向量编码模型，该词向量编码模型可用于对分词得到的至少一个词语序列基于预设编码规则形成词性向量。其中，可通过基于word2vec技术的词向量编码训练模型得到该词向量编码模型。其中，Word2vec，是指一组用来产生词向量的相关模型。这些相关模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。

在一个具体例子中，如图3所示，可利用hanlp(一种自然语言处理包)开源文本预处理工具对用户输入问题进行分词处理。将分词后的问题所包含的词语序列进行词向量索引编码，可得到token向量：t₁ ^word，t₂ ^word，......，t_n ^word，t₁ ^word，t₂ ^word，......，t_n ^word为词语序列中的词语向量编码后得到的元素值。进一步的，可利用hanlp工具对每个词语序列的词性进行标注，并采用独热(one-hot)编码方式进行词性特征编码，得到pos向量(记性向量)：pos₁ ^word，pos₂ ^word，......，pos_n ^word，。pos₁ ^word，pos₂ ^word，......，pos_n ^word为对词性编码后得到的元素值。最后，可将特征向量与词性向量进行拼接组合，生成词语级别的词法特征信息：e₁ ^word，e₂ ^word，......，e_2n ^word，e₁ ^word，e₂ ^word，......，e_2n ^word为token向量或pos向量中的元素值。

在优选的实施方式中，如图4所示，所述S110中对所述用户提问信息进行分词处理得到词语序列具体包括：

S111：确定所述用户提问信息中是否存在领域词。

S112：若是，对所述用户提问信息中除了领域词的其他信息进行分词处理得到词汇，将所述词汇和领域词作为词语序列。

S113：若否，对所述用户提问信息进行分词处理得到词汇，将所述分词处理得到的词汇作为词语序列。

可以理解的是，对于用户提供信息中的问题句子(sentence)是否包含词语序列进行识别判断，如果包含词语序列，对词语序列进行固定可以防止被分词工具误切分。即若所述用户提问信息中存在领域词，对所述用户提问信息中除了领域词的其他信息进行分词处理得到词汇，将所述词汇和领域词作为词语序列。而若所述用户提问信息中不存在领域词，可以直接进行分词处理得到词语序列，从而保证识别得到的词语序列的完整和准确。

在优选的实施方式中，如图5所示，S100中对用户提问信息进行句法分析得到用户提问信息的句法特征信息具体包括：

S140：对所述用户提问信息进行依存句法分析得到用户提问信息包括的句法类型以及每一种句法类型的出现频率进行统计得到统计值向量。

S150：通过七问分析法确定所述用户提问信息的句式特征，并采用独热编码方式对所述句式特征进行编码得到句式特征编码。

S160：确定用户提问信息的句型特征，并对所述句型特征进行二分类编码。

S170：根据所述统计值向量、所述句式特征编码和所述二分类编码得到所述句法特征信息。

可以理解的是，为了进一步确定用户提问信息的信息结构，可对用户提问信息中句子进行依存句法结构、句型、句式和句长等分析，构建问题的句法特征。具体的，如图6所示，可通过hanlp工具对问题进行依存句法分析，并对句中存在的句法结构类型以及每一种句法类型出现的次数进行TF(Term Frequency)统计，得到统计值向量：tf₁，tf₂，......，tf_w，其中，若有w种句法标签，tf_w表示第w种标签的TF统计值。其中，TF统计是一种词频统计方法，指的是给定的词语在文件或信息中出现的频率。

进一步的，通过对政务等领域真实的用户提供信息进行分析，得到的结论表示用户在咨询过程中通常会从怎么办、去哪里、为什么、是什么等角度对问题进行表述，而通过对复杂、简短、标准问题的统计分析，在咨询为什么、怎么办等问题时，出现复杂表述的概率较高，原因是在此类问题中通常包括复杂的前置条件，所以增加问题句式的特征，深入挖掘验证句式特征与问题复杂度之间的相关性。总结这些问法句式可采用经典的5W2H七问分析法，提取问题中的句式特征，并采用one-hot进行编码表征特征，得到句式特征编码：[0,0,0,1,0,0,0]。其中，将7种问法定位到向量中的位置，根据问题句子的句式在句式特征编码相应位置上填充1即可。

在在线问答中，用户根据其诉求不同主要可分为办事类问题和咨询类问题，办事类问题通常采用陈述语气进行表述，如“我要查一下我的公积金”，而咨询类问题通常采用疑问句方式进行提问，出现复杂性描述概率较大，如“我怎么才能查到我今年的公积金缴费状况”，因此根据句子中是否包含疑问代词，对问题的陈述句或疑问句句型特征进行提取，并采用(0,1)的编码形式对句型特征进行编码得到二分类编码。最后，将句法结构TF统计特征的统计值向量、问题问法句式编码特征和问题句型分类特征的二分类编码进行特征拼接组合，生成问题句法层级的句法特征信息：e₁ ^sen，e₂ ^sen，......，e_w+9 ^sen。其中，e₁ ^sen，e₂ ^sen，......，e_w+9 ^sen为统计值向量、句式编码特征编码和二分类编码中的元素值。

在优选的实施方式中，如图7所示，所述方法进一步包括预先形成所述复杂度分析模型的步骤S000：

S010：对历史用户提问信息进行分词和词性分析得到历史词法特征信息，并进行句法分析得到历史句法特征信息。

S020：确定所述历史用户提问信息的复杂度类型标签。

S030：将所述历史词法特征信息、所述历史句法特征信息和对应的复杂度类型标签作为训练数据对所述卷积神经网络进行训练得到所述复杂度分析模型。

可以理解的是，基于CNN的复杂度分析模型主要通过对词法特征信息的语义信息理解、句法特征信息表征的语法信息挖掘两个层面分别进行用户提供信息文本分类模型的训练，输入对应的词法特征信息e₁ ^word，e₂ ^word，......，e_2n ^word和句法特征信息e₁ ^sen，e₂ ^sen，......，e_w+9 ^sen。在一个具体例子中，如图8所示，训练好的复杂度分析模型通过非线性加权函数对两部分特征进行处理，最终可输出问题复杂度分类的复杂度类型。其中，复杂度类型可包括标准、复杂和简短等多个类型等级。其中，非线性加权函数优选的可采用ReLU函数。

在模型训练过程中，与对实时用户提供信息进行复杂度类型确定的过程类似，对历史用户提问信息进行分词和词性分析得到历史词法特征信息，并进行句法分析得到历史句法特征信息。确定所述历史用户提问信息的复杂度类型标签。其中，复杂度类型标签的设置可为：标准的标签可设置为0，复杂的标签可设置为1以及简短的标签可设置为2。将所述历史词法特征信息、所述历史句法特征信息和对应的复杂度类型标签作为训练数据对所述卷积神经网络进行训练得到所述复杂度分析模型。

在优选的实施方式中，如图9所示，所述S300中根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户具体包括：

S310：若所述复杂度类型为标准时，将所述用户提问信息作为标准问题匹配对应的答复信息以反馈给用户。

S320：若所述复杂度类型为复杂时，通过句子压缩和/或去除停用词根据所述用户提问信息形成标准问题，为所述标准问题匹配对应的答复信息以反馈给用户。

其中，当所述复杂度类型为复杂时，可采用去除停用词和/或句子压缩(文本摘要)等方式对复杂问题简化。具体的，去除停用词可采用将用户提供信息分词后，分别与预设的停用词库中的词语进行匹配，并将与停用词库中停用词匹配成功的词语从用户提问信息中删除，以达到去除句中冗余信息，简化表述的目标。句子压缩/文本摘要的方法包括通过句子压缩或文本摘要算法，从用户提问信息的上下文语义信息角度出发，对词语在句子核心语义表达中的重要性进行评判。通过删除不重要部分词语达到精简句子表述提炼核心主题的目的。最终，得到简化后的问题将更符合标准问题描述，匹配得到对应问题答复后反馈给用户。其中，句子压缩或文本摘要算法可采用现有技术中的算法，本发明对此并不作限定。

S330：若所述复杂度类型为简短时，向用户反馈进一步交互信息，确定用户反馈的补充信息与用户提问信息的复杂度类型，若所述复杂度类型为简短时，重复向用户反馈进一步交互信息直至所述复杂度类型为标准或复杂，和/或和向用户反馈建议的标准问题，并基于用户选定的标准问题匹配对应的答复信息以反馈给用户。

其中，若所述复杂度类型为简短，可采用以下两种解决方案的至少之一对用户提问信息进行处理。其中，一种是进行知识库检索，通过分词得到的词语序列在知识库中检索，检索到与用户提问信息相关的至少一个标准问题，并可按照相关性进行排序，将标准问题反馈给用户以便于用户自行选择相关的标准问题，从而可为标准问题匹配答复信息。另一种方案是通过多轮交互的方式，引导用户进行意图澄清，补全问题的其他信息，优选的可对补全后的用户提问信息进行复杂度分析，通过标准或复杂的处理方式得到标准问题，并匹配相关答复信息以反馈给用户。可以理解的是，为解决智能问答系统中用户口语化问题因不同复杂度直接进行问题匹配模型，导致准确率不高的问题，通过词法特征抽取和句法特征抽取，组合CNN的深度学习算法进行问题复杂度分类，如图10所示。其中，通过词法分析的语义特征编码和句法分析的语法特征编码，组合多角度特征，可提高复杂度分析的全面性和可信度。基于CNN的深度学习算法进行问题复杂度分类，可深入挖掘已构建问题特征与复杂度之间的关系，实现了对不同复杂度的问题进行分类识别，为后续组合句子压缩生成标准问题进行相似问题匹配、多轮交互进行意图澄清后进行相似问题匹配、或者判定为标准问题直接进行问题匹配等不同的问题预处理策略提供了依据。将问题进行复杂度为类型分类，可提升分类处理的合理性和问答系统不同引擎间协同处理的整体效率，避免了标准问题复杂化预处理或复杂问题标准化的不合理现象。

本实施例为降低用户口语化表述中的冗余信息或关键信息缺失对直接问题匹配的准确度影响，缩小口语化表述和标准问题之间的语法复杂度差异，最大程度避免政务领域的用户口语化问题因不同复杂度直接进行问题匹配模型，导致准确率不高的问题，本发明提出一种基于词法及句法特征的问题复杂度分类方法，旨在通过对用户问题的语法、语义复杂度进行分类分析，并针对不同复杂度的问题结合句子压缩或者多轮意图澄清的后续问题处理方式，最终输出复杂度较为标准统一的问题进行问题匹配，从而达到提升智能问答系统中的问题匹配准确率效果。

该方法从基于词法、句法的多粒度语法语义特征构建和基于语法语义特征的问题复杂度分类分析两个模块进行设计，基于词法、句法的多粒度语法意义特征构建主要进行用户问题词语层级和句子层级的特征抽取，构成问题的多粒度语法语义特征向量；问题复杂度分类模块通过对“复杂”、“标准”、“简短”3类复杂度的问题的多粒度语法语义特征输入到分类算法中进行有监督训练，最终实现对用户问题的复杂度评判，为输入问题后续不同的问题处理提供依据。

基于相同原理，本实施例还公开了一种基于复杂度分析的用户在线提问处理系统。如图11所示，本实施例中，所述系统包括特征提取模块11、复杂度分析模块12和问题答复模块13。

其中，特征提取模块11用于对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息，并进行句法分析得到用户提问信息的句法特征信息。

复杂度分析模块12用于将所述词法特征信息和句法特征信息输入基于卷积神经网络技术得到的复杂度分析模型得到用户提问信息的复杂度类型。

问题答复模块13用于根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户。

在优选的实施方式中，如图12所示，所述特征提取模块11进一步包括词语序列提取单元111、词性标注单元112和词法特征组合单元113。

其中，词语序列提取单元111用于对所述用户提问信息进行分词处理得到词语序列，对所述词语序列进行词向量索引编码得到特征向量。

词性标注单元112用于对分词处理得到的词语序列的词性进行标注，并通过独热编码方式对词性标注后的词语序列进行词性特征编码得到词性向量。

词法特征组合单元113用于对所述特征向量和所述词性向量进行组合得到词法特征信息。

在优选的实施方式中，如图13所示，特征提取模块11进一步包括句法类型统计单元114、句式特征编码单元115、二分类编码单元116和句法特征组合单元117。

其中，句法类型统计单元114用于对所述用户提问信息进行依存句法分析得到用户提问信息包括的句法类型以及每一种句法类型的出现频率进行统计得到统计值向量。

句式特征编码单元115用于通过七问分析法确定所述用户提问信息的句式特征，并采用独热编码方式对所述句式特征进行编码得到句式特征编码。

二分类编码单元116用于确定用户提问信息的句型特征，并对所述句型特征进行二分类编码。

句法特征组合单元117用于根据所述统计值向量、所述句式特征编码和所述二分类编码得到所述句法特征信息。

在优选的实施方式中，所述问题答复模块13具体用于若所述复杂度类型为标准时，将所述用户提问信息作为标准问题匹配对应的答复信息以反馈给用户；若所述复杂度类型为复杂时，通过句子压缩和/或去除停用词根据所述用户提问信息形成标准问题，为所述标准问题匹配对应的答复信息以反馈给用户；若所述复杂度类型为简短时，向用户反馈进一步交互信息，确定用户反馈的补充信息与用户提问信息的复杂度类型，若所述复杂度类型为简短时，重复向用户反馈进一步交互信息直至所述复杂度类型为标准或复杂，和/或和向用户反馈建议的标准问题，并基于用户选定的标准问题匹配对应的答复信息以反馈给用户。

由于该系统解决问题的原理与以上方法类似，因此本系统的实施可以参见方法的实施，在此不再赘述。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备，具体的，计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在一个典型的实例中计算机设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的由客户端执行的方法，或者，所述处理器执行所述程序时实现如上所述的由服务器执行的方法。

下面参考图14，其示出了适于用来实现本申请实施例的计算机设备600的结构示意图。

如图14所示，计算机设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶反馈器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡，调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较标准，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于复杂度分析的用户在线提问处理方法，其特征在于，包括：

根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户；

所述根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户具体包括：

2.根据权利要求1所述的基于复杂度分析的用户在线提问处理方法，其特征在于，所述对用户提问信息进行分词和词性分析得到用户提问信息的词法特征信息具体包括：

3.根据权利要求2所述的基于复杂度分析的用户在线提问处理方法，其特征在于，所述对所述用户提问信息进行分词处理得到词语序列具体包括：

确定所述用户提问信息中是否存在领域词；

4.根据权利要求1所述的基于复杂度分析的用户在线提问处理方法，其特征在于，对用户提问信息进行句法分析得到用户提问信息的句法特征信息具体包括：

5.根据权利要求1所述的基于复杂度分析的用户在线提问处理方法，其特征在于，进一步包括预先形成所述复杂度分析模型的步骤：

确定所述历史用户提问信息的复杂度类型标签；

6.一种基于复杂度分析的用户在线提问处理系统，其特征在于，包括：

问题答复模块，用于根据所述复杂度类型确定对应的问题处理规则得到标准问题，并根据所述标准问题匹配对应的答复信息以反馈给用户；

所述问题答复模块具体用于若所述复杂度类型为标准时，将所述用户提问信息作为标准问题匹配对应的答复信息以反馈给用户；若所述复杂度类型为复杂时，通过句子压缩和/或去除停用词根据所述用户提问信息形成标准问题，为所述标准问题匹配对应的答复信息以反馈给用户；若所述复杂度类型为简短时，向用户反馈进一步交互信息，确定用户反馈的补充信息与用户提问信息的复杂度类型，若所述复杂度类型为简短时，重复向用户反馈进一步交互信息直至所述复杂度类型为标准或复杂，和/或和向用户反馈建议的标准问题，并基于用户选定的标准问题匹配对应的答复信息以反馈给用户。

7.根据权利要求6所述的基于复杂度分析的用户在线提问处理系统，其特征在于，所述特征提取模块进一步包括：

8.根据权利要求6所述的基于复杂度分析的用户在线提问处理系统，其特征在于，所述特征提取模块进一步包括：

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述程序时实现如权利要求1-5任一项所述方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述方法。