CN112463953B - 一种基于税务咨询问题的热句排序方法 - Google Patents
一种基于税务咨询问题的热句排序方法 Download PDFInfo
- Publication number
- CN112463953B CN112463953B CN202011370796.1A CN202011370796A CN112463953B CN 112463953 B CN112463953 B CN 112463953B CN 202011370796 A CN202011370796 A CN 202011370796A CN 112463953 B CN112463953 B CN 112463953B
- Authority
- CN
- China
- Prior art keywords
- sequence
- word
- sentence
- heat
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 72
- 238000012163 sequencing technique Methods 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 230000009849 deactivation Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于税务咨询问题的热句排序方法。本发明考虑了关键词频次对热度的影响,对原始文本进行正则匹配、去停用词等方法预处理,然后通过统计的词语的频次数据建立词袋模型,并映射词语得到句子向量。计算出句子向量的模值表示句子的热度,并通过一个修正参数修正对长短不齐的句子的热度。通过计算句子两两之间的jaccard相似度和词向量模型的句子向量余弦相似度对数据集去重。并给重复句子给予额外的热度值奖励。结合词语和语义两个层面的重复程度,最终得到按照热度排序的文本,更加准确、高效。
Description
技术领域
本发明涉及人工智能的自然语言处理技术领域,更具体的说,它涉及一种基于税务咨询问题的热句排序方法。
背景技术
税收是国家治理的基础,在社会经济生活中发挥着巨大的作用。营改增、电子发票、金税三期,以及房产税、各税等税制改革的不断深化,预示着税务行业正迎来有史以来最辉煌的“互联网+”时代。
与之伴随的是,互联网上税务问题咨询的数量日益增长,这给有限税务客服解决大量的税务咨询问题带来了困难。因此,提取税务问题的热点问题,并直接给有相关税务问题咨询需求的人提供标准答案可以有效提高税务问题咨询应答的效率。
目前基于关键词的热点提取方法,最后提取出来的都是热门关键词,这对于表现问题的完整内容是有不足的,可能存在信息缺失的情况。比如,对于税务问题,仅仅提取出关键词是不够的,更重要的是意思明确地组合成句。例如同样是发票问题,如何开具发票和认证发票完全是两个答案。这就涉及到将打乱的句子按照关联词的权重进行重新组合,生成句子向量并对句子进行热度排序,并将热度靠前且语义不重复的句子提取出来的问题。
发明内容
本发明克服了现有技术的不足,提供了一种设计简单、提高效率的一种基于税务咨询问题的热句排序方法。
为了解决上述技术问题,本发明的技术方案如下:
一种基于税务咨询问题的热句排序方法,具体包括如下步骤:
1)获取初级文本数据集步骤:将由个体或企业提出的中文税务相关问题作为原始数据,对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表,获得初级文本数据集;
2)句子向量步骤:统计步骤1)统计初级文本数据集中的词频,构建词袋模型,将词语转化为词袋模型的词向量;统计每个词语在初级文本数据集中的频数;对每个文本中的该词向量和频数加权得到包含每个关键词信息的向量,作为用于计算热度的句子向量;通过已经预训练的word2vec模型,把词语转化成词向量模型的词向量称为嵌入词向量,对嵌入词向量加权TF-IDF值得到用于去重的词向量模型的句子向量;
3)初步热点排序步骤:计算出每个词袋模型句子向量的模作为句子热度的指标;统计初级文本中序列的平均长度,并将每个序列的长度和平均长度的差值的对数作为一个热度修正参数,通过该参数修正每个句子热度;通过对每个句子的热度逆序排序得到初步热点排序的数据集;
4)进一步修正热点排序步骤:先通过计算句子两两之间的Jaccard相似度和词向量模型的词向量的余弦相似度的综合结果,对相似句子进行去重;对重复的句子按照重复数的一定比例增大其热度值;对句子热度值逆序排序,得到最终热点问题的排序结果。
进一步的,序列为文本的有效长度,含关键词信息的长度。
本发明相比现有技术优点在于:
本发明先对原始文本进行正则匹配、去停用词、同义词替换、jieba分词等方法预处理,然后通过统计的词语的频次数据建立词袋模型,并映射词语得到句子向量。计算出句子向量的模值表示句子的热度,并通过一个修正参数修正对长短不齐的句子的热度。再通过计算句子两两之间的jaccard相似度和词向量模型的句子向量余弦相似度对数据集去重,最终得到按照热度排序的文本。热度的计算过程先是考虑了关键词频次对热度的影响,并通过修正系数减少句子长短不一对最终结果的影响,然后通过计算jacacard和词向量模型的句子向量余弦分别从语言表面和语义的层面上对相似问题进行去重。并给重复句子给予额外的热度值奖励。结合词语和语义两个层面的重复程度,得到综合的热度值。
附图说明
图1为本发明的框架流程图;
图2为本发明的如30个示例用户提问图表;
图3为本发明基于图2进行的提取统计图表;
图4为本发明基于图2进行的热句统计图表。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明。本发明未做详细描述的部分均可采用常规技术方式进行实现,不在进行详细描述。
如图1至图4所示,一种基于税务咨询问题的热句排序方法,具体包括如下步骤:
1)获取初级文本数据集步骤:将由个体或企业提出的中文税务相关问题作为原始数据,对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表,得到获得初级文本数据集。
具体是对提出的税务问题通过正则表达式提取关键词、jieba分词、同义词替换、去停用词的预处理操作。用正则表达式提取文本中的日期信息,如xxxx年、xx月、xx日;时间长度,如xx年、xx个月、xx天、xx周;提取姓+称谓的词组并删除,如x先生、x小姐、x老师;提取文本中的单位费用词组,如xx元/月,xx万元/年;提取文本中的金额,如xx万、x千;提取并删除手机号码和税号;提取文本中的纯数字。
用jieba对提取后的文本进行分词,jieba先读取税务的专业词汇表的词汇再分词。对jieba分词的结果先通过停用词表删除停用词,再对jieba分词的结果判断是否在同义词表中,如果是则换成同义词。对同一个序列中的重复出现的词语去重(并不会维持句子原来的顺序)。最终得到初级文本数据集。
如图2所示是30个示例用户提问,用户提问的句子是经过“分词”、“同义词替换”、“删除停用词”、“句子内词语去重”的步骤后得到句子的分词结果。再统计所有用户问中词语的词频,如图3所示,删除频次小于3的词语,保留分词结果中频次大于3的词语作为有效词语。以图2中的“企业如何开通电子发票?开具完后如何申领?”这句话为例,分词之后应该是“[‘企业’,‘如何’,‘开通’,‘电子发票’,‘?’,‘开具’,‘完’,‘后’,‘如何’,‘申领’]”。其中,“企业”、“开通”、“完”、是频次小于3的无效词语;“如何”、“?”、“后”是停用词被删掉;“电子发票”被同义词表替换成“增值税电子普通发票”、“申领”被同义词表替换成“领取”且都是频次小于3的无效词语,所以这句话最终的有效分词结果是[“开具”]。
2)句子向量步骤:统计步骤1)统计的初级文本数据集中每个词语的词频,构建词袋模型,将词语转化词袋模型的词向量。统计每个词语在初级文本数据集中的频数。对每个文本序列中的该词向量和频数加权得到包含每个序列关键词信息的向量,作为用于计算热度的句子向量。通过已经预训练的word2vec模型,把词语转化成词向量模型的词向量称为嵌入词向量,对嵌入词向量加权TF-IDF值得到用于去重的词向量模型的句子向量。
具体的,统计所有词语在初级文本数据集中的词频,舍弃词频小于3的词语。保留的非重复词语n个,建立有n个词语的词袋模型。不同于其他词袋模型的是,普通词袋模型的词向量是以下标表示词语,值表示该词在当前序列中的频次,而本方案的词向量是以下标表示词语,值表示该词在全部文本中的频次。如图2所示,这一批用户问中有13个有效关键词。所以可以用一个13维的词袋模型向量来表示每个句子的关键词命中情况,这个向量中的每个维度分别表示每个关键词,若用户提问中存在某个关键词,则向量的该维度的值就是该关键词的频次,否则就是0。如用户提问“电子税务局实名登录操作问题汇总!”的有效关键词是[“电子税务局”、“登录”,“汇总”]。这些词语在图2的有效词语中分别是第4、第11、第2个词语,词频分别是6、4、6。所以这句用户问对应的词袋模型句子向量就是[0,6,0,6,0,0,0,0,0,0,4,0,0]。为了对重复句子进行去重和聚类,还需要能够提取更深层语义信息的句子向量。本方案使用的现有的word2vec模型,进行预训练,实现转化关键词。具体该模型是用常规的word2vec方法训练六千条税务问题得到的,词向量维度为300维,这里不展开叙述训练过程。TF-IDF模型是基于这一批用户提问分词的结果统计的,然后用词向量模型的向量去加权TF-IDF值即可得到词向量模型的句子向量。
3)初步排序步骤:计算出每个词袋模型句子向量的模作为句子的热度指标。如用户提问“电子税务局实名登录操作问题汇总!”,这句话对应的词袋模型向量是[0,6,0,6,0,0,0,0,0,0,4,0,0]。那么其热度指标可以用这个向量的模表示。向量模的计算公式为:
其中,H表示热度,n表示有效关键词个数,i表示序号,v表示词袋模型向量中该位置的值。所以该用户问的热度值为(6^2+6^2+4^2)^0.5=9.38。显然以上的算法会导致越长的用户问命中关键词的可能性就越大,越短的用户问可能得分就越小,为了减少句子长短对最终得到的句子热度的影响,需要对句子过长或过短的句子的热度都进行了修正:统计文本中序列的平均长度(分词后的序列、长度表示该序列分词后的词语数量),并将每个序列的长度和平均长度的差异作为一个热度修正参数C2。通过该参数修正每个句子的热度;对长度比平均长度短的序列,其热度要乘(1+C2*修正幅度k);对长度比平均长度长的序列,其热度要乘(1-C2*修正幅度k)。通过对每句子的热度逆序排序得到初步热点排序的数据集。
具体的,计算每个序列的长度修正系数:
C1=log(|Li-Lavg|+1) 公式(2)
其中C1是临时变量,Li表示当前序列的长度,Lavg表示平均序列长度。C2是长度修正系数。
热度的句子长度修正:
H=H×(1±C2*k) 公式(4)
其中H表示该句子的热度值,k表示修改幅度(默认为0.1),句子长度大于平均长度时,句子热度乘(1-C2),句子长度小于平均长度时,句子热度乘(1+C2)。以用户问“电子税务局实名登录操作问题汇总!”为例,分词结果为[“电子税务局”、“登录”,“汇总”],有效句子长度为3。统计所有用户问的平均有效长度为2.067。根据以上公式:
C1=log(|3-2.067|+1)=0.286
H=9.38×(1-0.278*0.1)=9.119
该用户问由于长度比平均长度长所以受到一点热度的惩罚,从9.38变成9.110。
4)进一步热点排序步骤:先通过计算句子两两之间的Jaccard相似度、词袋模型词向量的余弦相似度的综合结果,对相似句子进行去重,对去重后数据集重新按照修正后句子热度逆序排序,得到最终热点问题的排序结果。
具体的,从头到尾地在初步热度排序表中取出序列,判断为非重复序列后,加入到新排序表中。若新排序表是空的,直接把序列加入进去;若新排序表不是空的,要加入的序列依次和新排序表中的所有序列比较相似度。
先计算jaccard相似度,其公式计算如下:J=(A∩B)/(A∪B)。若jaccard相似度>0.5,说明该序列是个重复序列,把该序列放入新排序表底部。
如用户提问“企业用户如何登录电子税务局?”和“电子税务局实名登录操作问题汇总!”,其分词结果为['电子税务局','登录']和[“汇总”,“电子税务局”,“登录”]。
Jaccard=count(['电子税务局','登录'])/count([“汇总”,“电子税务局”,“登录”])=2/3=0.66
若jaccard相似度<=0.5,进入下一步判断;若jaccard相似度<=0.5,判断该序列的余弦相似度,其公式为:
similarity=(A·B)/(||A||·||B||)。
若余弦相似度>0.85,说明该序列是个重复序列,把该序列放入新排序表底部。若余弦相似度<=0.85,把该序列加入到新排序表中。
然后对重复句子的热度值给予额外热度奖励,具体如下:
H=H×(1+r÷S*k) 公式(5)
其中H表示热度值,r表示重复数,S表示全部句子的数量,k是修改幅度(默默认为10)。如“疫情防控税收优惠政策热点问答汇总”有4个重复句子。其在长度修正步骤后的热度值为12.33。其重复热度奖励之后的热度值就会变成:
H=12.33×(1+4÷30*k)=28.77
最后得到的新排序表按照热度值排序后就是最终的热度排序表。如图4所示为示例用户提问的排序结果。为了便于展示使用了30个用户提问示例,如果使用更多的用户提问,热点排序效果会更显著。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (2)
1.一种基于税务咨询问题的热句排序方法,其特征在于,具体包括如下步骤:
1)获取初级文本数据集步骤:将由个体或企业提出的中文税务相关问题作为原始数据,对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表,获得初级文本数据集;
2)句子向量步骤:统计步骤1)统计初级文本数据集中的词频,构建词袋模型,将词语转化为词袋模型的词向量;统计每个词语在初级文本数据集中的频数;对每个文本中的该词向量和频数加权得到包含每个关键词信息的向量,作为用于计算热度的句子向量;通过已经预训练的word2vec模型,把词语转化成词向量模型的词向量称为嵌入词向量,对嵌入词向量加权TF-IDF值得到用于去重的词向量模型的句子向量;
3)初步热点排序步骤:计算出每个词袋模型句子向量的模作为句子热度的指标;向量模的计算公式为:
其中,H表示热度,n表示有效关键词个数,i表示序号,v表示词袋模型向量中该位置的值
统计初级文本中序列的平均长度,并将每个序列的长度和平均长度的差值的对数作为一个热度修正参数C2,通过该参数修正每个句子热度;对长度比平均长度短的序列,其热度要乘(1+C2*修正幅度k);对长度比平均长度长的序列,其热度要乘(1-C2*修正幅度k);通过对每个句子的热度逆序排序得到初步热点排序的数据集;
具体的,计算每个序列的长度修正系数:
C1=log(|Li-Lavg|+1) 公式(2)
其中C1是临时变量,Li表示当前序列的长度,Lavg表示平均序列长度;
热度的句子长度修正:
H=H×(1±C2*k) 公式(4)
其中H表示该句子的热度值,k表示修改幅度,默认为0.1;
4)进一步修正热点排序步骤:先通过计算句子两两之间的Jaccard相似度和词向量模型的词向量的余弦相似度的综合结果,对相似句子进行去重;对重复的句子按照重复数的一定比例增大其热度值;对句子热度值逆序排序,得到最终热点问题的排序结果;
具体的,从头到尾地在初步热度排序表中取出序列,判断为非重复序列后,加入到新排序表中;若新排序表是空的,直接把序列加入进去;若新排序表不是空的,要加入的序列依次和新排序表中的所有序列比较相似度;
先计算jaccard相似度,其公式计算如下:J=(A∩B)/(A∪B);若jaccard相似度>0.5,说明该序列是个重复序列,把该序列放入新排序表底部;
若jaccard相似度<=0.5,进入下一步判断;若jaccard相似度<=0.5,判断该序列的余弦相似度,其公式为:
similarity=(A·B)/(||A||·||B||);
若余弦相似度>0.85,说明该序列是个重复序列,把该序列放入新排序表底部;若余弦相似度<=0.85,把该序列加入到新排序表中;
然后对重复句子的热度值给予额外热度奖励,具体如下:
H=H×(1+r÷S*k) 公式(5)
其中H表示热度值,r表示重复数,S表示全部句子的数量,k是修改幅度。
2.根据权利要求1所述的一种基于税务咨询问题的热句排序方法,其特征在于,序列为文本的有效长度,含关键词信息的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011370796.1A CN112463953B (zh) | 2020-11-30 | 2020-11-30 | 一种基于税务咨询问题的热句排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011370796.1A CN112463953B (zh) | 2020-11-30 | 2020-11-30 | 一种基于税务咨询问题的热句排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463953A CN112463953A (zh) | 2021-03-09 |
CN112463953B true CN112463953B (zh) | 2022-06-17 |
Family
ID=74804936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011370796.1A Active CN112463953B (zh) | 2020-11-30 | 2020-11-30 | 一种基于税务咨询问题的热句排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463953B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792125B (zh) * | 2021-08-25 | 2024-04-02 | 北京库睿科技有限公司 | 基于文本相关性和用户意图的智能检索排序方法和装置 |
CN116775819B (zh) * | 2023-04-25 | 2024-03-19 | 广东源恒软件科技有限公司 | 一种税务信息咨询管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
CN1542649A (zh) * | 2003-03-25 | 2004-11-03 | 自然语言生成系统中用于句子实现中排序的成分结构的语言信息统计模型 | |
CN110008309A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN110990537A (zh) * | 2019-12-11 | 2020-04-10 | 中山大学 | 一种基于边缘信息和语义信息的句子相似度计算方法 |
CN111680476A (zh) * | 2020-05-26 | 2020-09-18 | 广州多益网络股份有限公司 | 一种用于智能生成类文本的业务热词识别转换的方法 |
-
2020
- 2020-11-30 CN CN202011370796.1A patent/CN112463953B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
CN1542649A (zh) * | 2003-03-25 | 2004-11-03 | 自然语言生成系统中用于句子实现中排序的成分结构的语言信息统计模型 | |
CN110008309A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN110990537A (zh) * | 2019-12-11 | 2020-04-10 | 中山大学 | 一种基于边缘信息和语义信息的句子相似度计算方法 |
CN111680476A (zh) * | 2020-05-26 | 2020-09-18 | 广州多益网络股份有限公司 | 一种用于智能生成类文本的业务热词识别转换的方法 |
Non-Patent Citations (1)
Title |
---|
基于热度联合排序的微博热点话题发现;刘培玉等;《计算机科学与探索》;20161231(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112463953A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
Donato et al. | Investigating redundancy in emoji use: Study on a twitter based corpus | |
CN108710647B (zh) | 一种用于聊天机器人的数据处理方法及装置 | |
CN112463953B (zh) | 一种基于税务咨询问题的热句排序方法 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
CN109815485B (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
CN103870000A (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN112016294B (zh) | 一种基于文本的新闻重要性评估方法、装置及电子设备 | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
CN109766547B (zh) | 一种句子相似度计算方法 | |
CN111930895A (zh) | 基于mrc的文档数据检索方法、装置、设备及存储介质 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN116227466B (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
CN112287197A (zh) | 动态记忆案件描述的涉案微博评论讽刺句检测方法 | |
CN112328857A (zh) | 一种产品知识聚合方法、装置、计算机设备及存储介质 | |
CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
Tho et al. | A comparison of lexicon-based and transformer-based sentiment analysis on code-mixed of low-resource languages | |
JP2009053743A (ja) | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム | |
CN113535936B (zh) | 一种基于深度学习的规章制度检索方法及系统 | |
CN112784536B (zh) | 数学应用题解答模型的处理方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A hot sentence sorting method based on tax consulting problems Granted publication date: 20220617 Pledgee: Zhejiang Hangzhou Yuhang Rural Commercial Bank Co.,Ltd. Science and Technology City Branch Pledgor: HANGZHOU FUGLE TECHNOLOGY CO.,LTD. Registration number: Y2024980030832 |