CN112463953B

CN112463953B - 一种基于税务咨询问题的热句排序方法

Info

Publication number: CN112463953B
Application number: CN202011370796.1A
Authority: CN
Inventors: 王晶; 苏文强
Original assignee: Hangzhou Fugle Technology Co ltd
Current assignee: Hangzhou Fugle Technology Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-06-17
Anticipated expiration: 2040-11-30
Also published as: CN112463953A

Abstract

本发明涉及一种基于税务咨询问题的热句排序方法。本发明考虑了关键词频次对热度的影响，对原始文本进行正则匹配、去停用词等方法预处理，然后通过统计的词语的频次数据建立词袋模型，并映射词语得到句子向量。计算出句子向量的模值表示句子的热度，并通过一个修正参数修正对长短不齐的句子的热度。通过计算句子两两之间的jaccard相似度和词向量模型的句子向量余弦相似度对数据集去重。并给重复句子给予额外的热度值奖励。结合词语和语义两个层面的重复程度，最终得到按照热度排序的文本，更加准确、高效。

Description

一种基于税务咨询问题的热句排序方法

技术领域

本发明涉及人工智能的自然语言处理技术领域，更具体的说，它涉及一种基于税务咨询问题的热句排序方法。

背景技术

税收是国家治理的基础，在社会经济生活中发挥着巨大的作用。营改增、电子发票、金税三期，以及房产税、各税等税制改革的不断深化，预示着税务行业正迎来有史以来最辉煌的“互联网+”时代。

与之伴随的是，互联网上税务问题咨询的数量日益增长，这给有限税务客服解决大量的税务咨询问题带来了困难。因此，提取税务问题的热点问题，并直接给有相关税务问题咨询需求的人提供标准答案可以有效提高税务问题咨询应答的效率。

目前基于关键词的热点提取方法，最后提取出来的都是热门关键词，这对于表现问题的完整内容是有不足的，可能存在信息缺失的情况。比如，对于税务问题，仅仅提取出关键词是不够的，更重要的是意思明确地组合成句。例如同样是发票问题，如何开具发票和认证发票完全是两个答案。这就涉及到将打乱的句子按照关联词的权重进行重新组合，生成句子向量并对句子进行热度排序，并将热度靠前且语义不重复的句子提取出来的问题。

发明内容

本发明克服了现有技术的不足，提供了一种设计简单、提高效率的一种基于税务咨询问题的热句排序方法。

为了解决上述技术问题，本发明的技术方案如下：

一种基于税务咨询问题的热句排序方法，具体包括如下步骤：

1)获取初级文本数据集步骤：将由个体或企业提出的中文税务相关问题作为原始数据，对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表，获得初级文本数据集；

2)句子向量步骤：统计步骤1)统计初级文本数据集中的词频，构建词袋模型，将词语转化为词袋模型的词向量；统计每个词语在初级文本数据集中的频数；对每个文本中的该词向量和频数加权得到包含每个关键词信息的向量，作为用于计算热度的句子向量；通过已经预训练的word2vec模型，把词语转化成词向量模型的词向量称为嵌入词向量，对嵌入词向量加权TF-IDF值得到用于去重的词向量模型的句子向量；

3)初步热点排序步骤：计算出每个词袋模型句子向量的模作为句子热度的指标；统计初级文本中序列的平均长度，并将每个序列的长度和平均长度的差值的对数作为一个热度修正参数，通过该参数修正每个句子热度；通过对每个句子的热度逆序排序得到初步热点排序的数据集；

4)进一步修正热点排序步骤：先通过计算句子两两之间的Jaccard相似度和词向量模型的词向量的余弦相似度的综合结果，对相似句子进行去重；对重复的句子按照重复数的一定比例增大其热度值；对句子热度值逆序排序，得到最终热点问题的排序结果。

进一步的，序列为文本的有效长度，含关键词信息的长度。

本发明相比现有技术优点在于：

本发明先对原始文本进行正则匹配、去停用词、同义词替换、jieba分词等方法预处理，然后通过统计的词语的频次数据建立词袋模型，并映射词语得到句子向量。计算出句子向量的模值表示句子的热度，并通过一个修正参数修正对长短不齐的句子的热度。再通过计算句子两两之间的jaccard相似度和词向量模型的句子向量余弦相似度对数据集去重，最终得到按照热度排序的文本。热度的计算过程先是考虑了关键词频次对热度的影响，并通过修正系数减少句子长短不一对最终结果的影响，然后通过计算jacacard和词向量模型的句子向量余弦分别从语言表面和语义的层面上对相似问题进行去重。并给重复句子给予额外的热度值奖励。结合词语和语义两个层面的重复程度，得到综合的热度值。

附图说明

图1为本发明的框架流程图；

图2为本发明的如30个示例用户提问图表；

图3为本发明基于图2进行的提取统计图表；

图4为本发明基于图2进行的热句统计图表。

具体实施方式

下面结合附图和具体实施方式对本发明进一步说明。本发明未做详细描述的部分均可采用常规技术方式进行实现，不在进行详细描述。

如图1至图4所示，一种基于税务咨询问题的热句排序方法，具体包括如下步骤：

1)获取初级文本数据集步骤：将由个体或企业提出的中文税务相关问题作为原始数据，对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表，得到获得初级文本数据集。

具体是对提出的税务问题通过正则表达式提取关键词、jieba分词、同义词替换、去停用词的预处理操作。用正则表达式提取文本中的日期信息，如xxxx年、xx月、xx日；时间长度，如xx年、xx个月、xx天、xx周；提取姓+称谓的词组并删除，如x先生、x小姐、x老师；提取文本中的单位费用词组，如xx元/月，xx万元/年；提取文本中的金额，如xx万、x千；提取并删除手机号码和税号；提取文本中的纯数字。

用jieba对提取后的文本进行分词，jieba先读取税务的专业词汇表的词汇再分词。对jieba分词的结果先通过停用词表删除停用词，再对jieba分词的结果判断是否在同义词表中，如果是则换成同义词。对同一个序列中的重复出现的词语去重(并不会维持句子原来的顺序)。最终得到初级文本数据集。

如图2所示是30个示例用户提问，用户提问的句子是经过“分词”、“同义词替换”、“删除停用词”、“句子内词语去重”的步骤后得到句子的分词结果。再统计所有用户问中词语的词频，如图3所示，删除频次小于3的词语，保留分词结果中频次大于3的词语作为有效词语。以图2中的“企业如何开通电子发票？开具完后如何申领？”这句话为例，分词之后应该是“[‘企业’，‘如何’，‘开通’，‘电子发票’，‘？’，‘开具’，‘完’，‘后’，‘如何’，‘申领’]”。其中，“企业”、“开通”、“完”、是频次小于3的无效词语；“如何”、“？”、“后”是停用词被删掉；“电子发票”被同义词表替换成“增值税电子普通发票”、“申领”被同义词表替换成“领取”且都是频次小于3的无效词语，所以这句话最终的有效分词结果是[“开具”]。

2)句子向量步骤：统计步骤1)统计的初级文本数据集中每个词语的词频，构建词袋模型，将词语转化词袋模型的词向量。统计每个词语在初级文本数据集中的频数。对每个文本序列中的该词向量和频数加权得到包含每个序列关键词信息的向量，作为用于计算热度的句子向量。通过已经预训练的word2vec模型，把词语转化成词向量模型的词向量称为嵌入词向量，对嵌入词向量加权TF-IDF值得到用于去重的词向量模型的句子向量。

具体的，统计所有词语在初级文本数据集中的词频，舍弃词频小于3的词语。保留的非重复词语n个，建立有n个词语的词袋模型。不同于其他词袋模型的是，普通词袋模型的词向量是以下标表示词语，值表示该词在当前序列中的频次，而本方案的词向量是以下标表示词语，值表示该词在全部文本中的频次。如图2所示，这一批用户问中有13个有效关键词。所以可以用一个13维的词袋模型向量来表示每个句子的关键词命中情况，这个向量中的每个维度分别表示每个关键词，若用户提问中存在某个关键词，则向量的该维度的值就是该关键词的频次，否则就是0。如用户提问“电子税务局实名登录操作问题汇总！”的有效关键词是[“电子税务局”、“登录”，“汇总”]。这些词语在图2的有效词语中分别是第4、第11、第2个词语，词频分别是6、4、6。所以这句用户问对应的词袋模型句子向量就是[0,6,0,6,0,0,0,0,0,0,4,0,0]。为了对重复句子进行去重和聚类，还需要能够提取更深层语义信息的句子向量。本方案使用的现有的word2vec模型，进行预训练，实现转化关键词。具体该模型是用常规的word2vec方法训练六千条税务问题得到的，词向量维度为300维，这里不展开叙述训练过程。TF-IDF模型是基于这一批用户提问分词的结果统计的，然后用词向量模型的向量去加权TF-IDF值即可得到词向量模型的句子向量。

3)初步排序步骤：计算出每个词袋模型句子向量的模作为句子的热度指标。如用户提问“电子税务局实名登录操作问题汇总！”，这句话对应的词袋模型向量是[0,6,0,6,0,0,0,0,0,0,4,0,0]。那么其热度指标可以用这个向量的模表示。向量模的计算公式为：

其中，H表示热度，n表示有效关键词个数，i表示序号，v表示词袋模型向量中该位置的值。所以该用户问的热度值为(6^2+6^2+4^2)^0.5＝9.38。显然以上的算法会导致越长的用户问命中关键词的可能性就越大，越短的用户问可能得分就越小，为了减少句子长短对最终得到的句子热度的影响，需要对句子过长或过短的句子的热度都进行了修正：统计文本中序列的平均长度(分词后的序列、长度表示该序列分词后的词语数量)，并将每个序列的长度和平均长度的差异作为一个热度修正参数C2。通过该参数修正每个句子的热度；对长度比平均长度短的序列，其热度要乘(1+C2*修正幅度k)；对长度比平均长度长的序列，其热度要乘(1-C2*修正幅度k)。通过对每句子的热度逆序排序得到初步热点排序的数据集。

具体的，计算每个序列的长度修正系数:

C1＝log(|L_i-L_avg|+1) 公式(2)

其中C1是临时变量，L_i表示当前序列的长度，L_avg表示平均序列长度。C2是长度修正系数。

热度的句子长度修正：

H＝H×(1±C2*k) 公式(4)

其中H表示该句子的热度值，k表示修改幅度(默认为0.1)，句子长度大于平均长度时，句子热度乘(1-C2)，句子长度小于平均长度时，句子热度乘(1+C2)。以用户问“电子税务局实名登录操作问题汇总！”为例，分词结果为[“电子税务局”、“登录”，“汇总”]，有效句子长度为3。统计所有用户问的平均有效长度为2.067。根据以上公式:

C1＝log(|3-2.067|+1)＝0.286

H＝9.38×(1-0.278*0.1)＝9.119

该用户问由于长度比平均长度长所以受到一点热度的惩罚，从9.38变成9.110。

4)进一步热点排序步骤：先通过计算句子两两之间的Jaccard相似度、词袋模型词向量的余弦相似度的综合结果，对相似句子进行去重，对去重后数据集重新按照修正后句子热度逆序排序，得到最终热点问题的排序结果。

具体的，从头到尾地在初步热度排序表中取出序列，判断为非重复序列后，加入到新排序表中。若新排序表是空的，直接把序列加入进去；若新排序表不是空的，要加入的序列依次和新排序表中的所有序列比较相似度。

先计算jaccard相似度，其公式计算如下：J＝(A∩B)/(A∪B)。若jaccard相似度>0.5，说明该序列是个重复序列，把该序列放入新排序表底部。

如用户提问“企业用户如何登录电子税务局？”和“电子税务局实名登录操作问题汇总！”，其分词结果为['电子税务局','登录']和[“汇总”,“电子税务局”,“登录”]。

Jaccard＝count(['电子税务局','登录'])/count([“汇总”,“电子税务局”,“登录”])＝2/3＝0.66

若jaccard相似度<＝0.5，进入下一步判断；若jaccard相似度<＝0.5，判断该序列的余弦相似度，其公式为：

similarity＝(A·B)/(||A||·||B||)。

若余弦相似度>0.85，说明该序列是个重复序列，把该序列放入新排序表底部。若余弦相似度<＝0.85，把该序列加入到新排序表中。

然后对重复句子的热度值给予额外热度奖励，具体如下：

H＝H×(1+r÷S*k) 公式(5)

其中H表示热度值，r表示重复数，S表示全部句子的数量，k是修改幅度(默默认为10)。如“疫情防控税收优惠政策热点问答汇总”有4个重复句子。其在长度修正步骤后的热度值为12.33。其重复热度奖励之后的热度值就会变成：

H＝12.33×(1+4÷30*k)＝28.77

最后得到的新排序表按照热度值排序后就是最终的热度排序表。如图4所示为示例用户提问的排序结果。为了便于展示使用了30个用户提问示例，如果使用更多的用户提问，热点排序效果会更显著。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于税务咨询问题的热句排序方法，其特征在于，具体包括如下步骤：

3)初步热点排序步骤：计算出每个词袋模型句子向量的模作为句子热度的指标；向量模的计算公式为：

其中，H表示热度，n表示有效关键词个数，i表示序号，v表示词袋模型向量中该位置的值

统计初级文本中序列的平均长度，并将每个序列的长度和平均长度的差值的对数作为一个热度修正参数C2，通过该参数修正每个句子热度；对长度比平均长度短的序列，其热度要乘(1+C2*修正幅度k)；对长度比平均长度长的序列，其热度要乘(1-C2*修正幅度k)；通过对每个句子的热度逆序排序得到初步热点排序的数据集；

具体的，计算每个序列的长度修正系数:

C1＝log(|L_i-L_avg|+1) 公式(2)

其中C1是临时变量，L_i表示当前序列的长度，L_avg表示平均序列长度；

热度的句子长度修正：

H＝H×(1±C2*k) 公式(4)

其中H表示该句子的热度值，k表示修改幅度，默认为0.1；

4)进一步修正热点排序步骤：先通过计算句子两两之间的Jaccard相似度和词向量模型的词向量的余弦相似度的综合结果，对相似句子进行去重；对重复的句子按照重复数的一定比例增大其热度值；对句子热度值逆序排序，得到最终热点问题的排序结果；

具体的，从头到尾地在初步热度排序表中取出序列，判断为非重复序列后，加入到新排序表中；若新排序表是空的，直接把序列加入进去；若新排序表不是空的，要加入的序列依次和新排序表中的所有序列比较相似度；

先计算jaccard相似度，其公式计算如下：J＝(A∩B)/(A∪B)；若jaccard相似度>0.5，说明该序列是个重复序列，把该序列放入新排序表底部；

similarity＝(A·B)/(||A||·||B||)；

若余弦相似度>0.85，说明该序列是个重复序列，把该序列放入新排序表底部；若余弦相似度<＝0.85，把该序列加入到新排序表中；

然后对重复句子的热度值给予额外热度奖励，具体如下：

H＝H×(1+r÷S*k) 公式(5)

其中H表示热度值，r表示重复数，S表示全部句子的数量，k是修改幅度。

2.根据权利要求1所述的一种基于税务咨询问题的热句排序方法，其特征在于，序列为文本的有效长度，含关键词信息的长度。