发明内容
本申请所要解决的技术问题是针对产品的具体业务提供一种用户诉求分析方法,用以自动地从用户评论信息中挖掘用户诉求,以提高用户诉求挖掘的效率。
本申请还提供一种用户诉求分析装置,用以保证上述方法在实际中的实现及应用。
本申请第一方面提供了一种用户诉求分析方法,所述方法包括:
将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
可选的,候选核心词相关的特征包括:
候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
可选的,在所述选择最大概率对应的候选核心词作为所述用户评论信息的核心词之前,所述方法还包括:
判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述步骤:根据每个候选核心词以及对应的概率分析所述用户评论信息的核心词;
如果所述最大概率小于预设阈值,则根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
可选的,所述根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词,包括:
根据预设场景词列表识别所述用户评论信息是否包含场景词;
如果是,则根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
如果否,则根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
可选的,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
可选的,所述方法还包括:
利用word2vec工具对识别出的所有核心词进行聚类。
本申请第二方面提供了一种用户诉求分析装置,所述装置包括:
分词词性标注单元,用于将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
依存关系分析单元,用于将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
候选核心词分析单元,用于将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
第一选择单元,用于选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
可选的,所述候选核心词分析单元具体提取的每个候选核心词相关的特征包括:候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
可选的,所述装置还包括:
判断单元,用于判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述第一选择单元;
如果所述最大概率小于预设阈值,则执行第二选择单元;
所述第二选择单元,用于根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
可选的,所述第二选择单元,包括:
场景词识别子单元,用于根据预设场景词列表识别所述用户评论信息是否包含场景词;如果是,触发第一识别子单元;如果否,触发第二识别子单元;
第一识别子单元,用于根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
第二识别子单元,用于根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
可选的,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
可选的,所述装置还包括:
聚类单元,用于利用word2vec工具对识别出的所有核心词进行聚类。
本申请提供的技术方案与现有技术相比,具有如下优点:
本申请提供的技术方案,先利用预设的分词词性标注模型对用户评论信息进行分词以及词性标注处理;由于,预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;因此,该词性标注模型针对产品特定业务具有较高的准确性;然后,利用预设的依存关系预测模型分析用户评论信息中各词之间的依存关系;由于,预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;因此,该词性标注模型针对产品特定业务具有较高的预测准确性;再,将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;最后,选择最大概率对应的候选核心词作为所述用户评论信息的核心词。由于,候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;因此,在预测过程中充分考虑了用户评论信息包含的词与产品业务的实际关系,因此能够充分挖掘用户针对产品业务的实际诉求。可见:本申请提供的技术方案,能够自动的挖掘出用户诉求,其挖掘效率和精度远远高于现有技术的人工阅读方式。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模型。一般地,程序模型包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模型可以位于包括存储设备在内的本地和远程计算机存储介质中。
参考图1,示出了本申请提供的一种用户诉求分析方法的流程图,该方法可以包括以下步骤101-104:
步骤101:将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型。
由于,传统分词词性标注器是基于词典实现分词词性标注处理,因此,其与产品的实际业务很可能不匹配,使得利用传统分词词性标注器针对产品特定业务时,其准确性较低,并不能够适用于针对产品业务评论信息的挖掘。因此,本申请提供的技术方案提出了针对产品业务训练特定的分词词性标注模型。但在作模型训练时,训练数据的选取和收集是模型训练的难点,也是提高模型训练效率和可靠性的重要因素。
因此,本申请提供了关于分词词性标注模型的训练方法,以提供模型的训练效率和可靠性,使其能够更好的适用于产品特定业务中。具体的,该训练方法可以包括S11-S13.
S11:利用传统分词词性标注器对采集的用户评论信息进行分词以及词性标注处理,得到用户评论信息包含的词以及对应词性。
举例说明:用户针对产品“支付宝”下的业务“招财宝”发表的评论信息为“招财宝收益下降?”。则经过S11利用传统分词词性标注器进行分词及词性标注处理后,得到的结果是:
“招财宝/动词收益/名词下降/名词”。
在产品“支付宝”下的业务“招财宝”中,“招财宝”是业务名称,其在该产品中本定义为名词,而不是动词。若直接利用这些数据进行模型训练,其训练结果也不可靠,因此,在得到这些数据之后,利用S12对这些数据进行修正。
S12:利用预设的业务关键词词性标注方式对所述词对应的词性进行修正,得到词和修正后的词性。
其中,预设的业务关键词词性标注方式可以包含多种修正规则。
举例说明,一种修正规则为当“当招财宝为动词时,将其词性修正为名词”,通过该方式对上述“招财宝/动词 收益/名词 下降/名词”进行修正,得到的修正结果为:“招财宝/名词 收益/名词 下降/名词”。
通过S12的修正处理,使得修正后的词和对应词性是符合产品特定业务场景的,因此,利用修正后的数据进行模型训练,能够保证模型的可靠性。
S13:将词和修正后的词性作为训练样本,通过隐马尔可夫模型训练得到分词词性标注模型。
本申请提供的这种训练方法,利用传统分词词性标注器可以快速的收集用户评论信息的词和对应词性,再利用预设的业务关键词词性标注方式对词性进行修正,这样,就能够快速收集到真实、可靠的训练样本,再利用训练样本进行模型训练,就能够得到符合产品特定业务场景的分词词性标注模型。
在步骤101之后,执行步骤102。
步骤102:将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型。
由于传统的依存关系分析器是根据结构句法而获得依存句法,其仅仅使用了词本身的特征,并没有针对产品特定业务场景,其针对产品特定业务的用户评论信息的依存句法分析效果并不好,因此,本申请提出了选取标定的产品业务关键词相关的特征训练后得到的预设的依存关系预测模型。
在实现时,可以采用基于转移的依存分类器,通过机器学习方法预先训练得到依存关系预测模型,依存关系预测模型能够对接收到的词和词性进行预测,得到一个动作序列,并将动作序列转换为最终的依存关系。
步骤103:将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系。
在实现时,候选核心词相关的特征也可以包括:
候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
其中,预设的分类模型是通过机器学习训练得到的分类模型,该模型可以采用逻辑斯蒂回归模型、线性模型、决策树模型等用于实现分类的模型。
举例说明:用户评论信息是“花呗需要手续费?”,经过步骤102处理后的结果如图2所示。
其中,“花呗”与根节点root的依存距离为2;
“需要”与根节点root的依存距离为1;
“手续费”与根节点root的依存距离为2。
则步骤103的具体处理过程如下:
将“花呗需要手续费?”包含的每个词分别作为候选核心词,则得到如下信息:
1、将“花呗”作为候选核心词;
2、将“需要”作为候选核心词;
3、将“手续费”作为候选核心词;
对每个候选核心词的处理方式相同,下面仅以候选核心词“花呗”为例进行说明,根据依存关系提取与“花呗”相关的特征,具体如下:
候选核心词:花呗
候选核心词的词性:名词
候选核心词的左边词:无
候选核心词的左边词的词性:无
候选核心词的右边词:需要
候选核心词的右边词的词性:动词
候选核心词的依存距离:2
候选核心词的长度:2
候选核心词第一个字:花
候选核心词最后一字:呗
候选核心词是否为业务关键词:是
候选核心词的左边词是否为业务关键词:否
候选核心词的右边词是否为业务关键词:是
将与“花呗”相关的上述特征输入到预设的分类模型中,预测得到候选核心词“花呗”对应的概率。
步骤104:选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
另外,为了进一步提高关于用户诉求分析的准确性,本申请还提供了另一种实现方案,下面结合图2对该方案进行技术说明。
图2是本申请提供的一种用户诉求分析方法实施例2的流程图,如图2所示,所述方法包括步骤201-205:
步骤201:将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
步骤202:将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
步骤203:将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
步骤204:选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
在执行步骤204之前,先执行步骤205。
步骤205:判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;如果所述最大概率大于或等于预设阈值,则执行步骤204。否则执行步骤206。
例如,在实现时,可以选取准确率为80%对应的概率值作为预设阈值。当然,在实现时,可以根据实际情况来决定以多大的准确率为基准来设定阈值,本申请实施例对此不作具体限定。
步骤206:根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
其中,步骤206在实现时,可以包括:
根据预设场景词列表识别所述用户评论信息是否包含场景词;
如果是,则根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
如果否,则根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
其中,预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
举例说明:对于用户评论信息“花呗需要手续费”,其中,手续费为场景词,而该场景词为名词,则先初步判断出可以采用识别方式8、9、10来识别,进一步地根据识别方式8、9、10的优先级,来决定采用优先级最高的方式来处理,例如,识别方式8的优先级最高,此时,则选择有效动词作为核心词,即选择“需要”作为核心词。
另外,为了给产品优化人员提供精简、有价值的信息,在上述方法实施例1或2的基础上,还可以增加如下步骤:利用word2vec工具对识别出的所有核心词进行聚类。这样,产品优化人员可以根据聚类后的核心词来对产品性能和功能作进一步优化。
与上述方法相对应的,本申请还提供了一种用户诉求分析装置,参见图3,该装置可以包括:
分词词性标注单元301,用于将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
依存关系分析单元302,用于将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
候选核心词分析单元303,用于将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
第一选择单元304,用于选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
可选的,所述候选核心词分析单元具体提取的每个候选核心词相关的特征包括:候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
另外,参见图4,本申请还提供了一种用户诉求分析装置实施例2,如图4所示,该装置是在图3的基础上,还包括:
判断单元305,用于判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述第一选择单元;
如果所述最大概率小于预设阈值,则执行第二选择单元306;
所述第二选择单元,用于根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
可选的,所述第二选择单元,包括:
场景词识别子单元,用于根据预设场景词列表识别所述用户评论信息是否包含场景词;如果是,触发第一识别子单元;如果否,触发第二识别子单元;
第一识别子单元,用于根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
第二识别子单元,用于根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
可选的,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
可选的,所述装置还包括:
聚类单元,用于利用word2vec工具对识别出的所有核心词进行聚类。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种用户诉求分析方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。