CN109460457A - 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 - Google Patents
文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 Download PDFInfo
- Publication number
- CN109460457A CN109460457A CN201811253082.5A CN201811253082A CN109460457A CN 109460457 A CN109460457 A CN 109460457A CN 201811253082 A CN201811253082 A CN 201811253082A CN 109460457 A CN109460457 A CN 109460457A
- Authority
- CN
- China
- Prior art keywords
- similarity
- sentence
- classification
- word
- consultation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 50
- 238000013145 classification model Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种文本语句相似度计算方法、智能政务辅助解答系统及其工作方法,计算包括但不限于两个句子的语义相似度、长度相似度和词形相似度中的至少两类相似度;将计算的包括两类以上但不限于两类或三类的相似度进行加权相加,得出语句相似度;基于该语句相似度计算方法进行智能匹配解答;解答过程中,对接收的客户端的咨询问题进行分类,分类包括在线咨询问题和非在线咨询问题;根据分类安排解答模式。与现有技术相比,本发明语句相似度匹配更高,对于语义的理解更准确,针对咨询问题解答的效率更高,且解答更准确。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种文本语句相似度计算方法、智能政务辅助解答系统及其工作方法。
背景技术
目前百姓及企业做政务咨询,流程较复杂,需要材料较多,需要多次沟通、多次咨询是政务领域的突出问题。通常,百姓或企业要咨询政务相关的问题,即使不是很繁琐的问题,比如企业想知道某个政策的申报结束日期,都要亲自到政务大厅去咨询,首先需要大约一小时的时间来到政务大厅,然后排队,通常排队需要等待半个小时到几个小时才能得到咨询问题的解答,有时候甚至需要等待一天或者几天。而好不容易见到了政务柜员,往往咨询时间只有短短的几分钟,在短短几分钟时间内很难明确得知该政策的办理流程及所需材料,所以即使是一个常见的小问题,也通常需要花费半天到一天的时间,而真正的咨询时间却只有短短的几分钟,导致同样的问题反复多次的咨询政务柜员。
而对政务专家或政务柜员,如政府发布的扶持政策,由于政策较多、更新较快,每个政策都需要政务方面专家进行政策的一一人工解读,既消耗人力也浪费时间,由于咨询百姓及企业人数较多,政务柜员很难对每个人要咨询的问题花费太多的时间,所以不得不在几分钟内就要完成一个人的咨询。由于时间太短,也很难做到全方面的细心解答。而通常情况下,大量的百姓及企业都只是简单的基础问题,所以政务柜员每天大部分的时间都是在简单的、重复的去解答一些基本相同的问题,机械地做着相同的事情,目前应用比较普遍的政务辅助解答系统有以下几种:
基于电话、网站等的政务辅助解答系统是目前最常见的方式,为百姓及企业提供了定向的服务通道。
电话咨询服务平台的优点是百姓及企业可通过这种平台,快速找到可接待的政务客服人员,便于客服人员对百姓及企业咨询的问题进行记录并传达,省去了百姓及企业去政务大厅的行程时间和排队等待的时间;缺点是多数客服人员对政务知识不太专业,不能及时给出明确回复,一般都是采用回电的方式解答百姓及企业所咨询的问题,大大降低了政务人员解决问题的效率,延长了百姓及企业等待解答的时间。
网站咨询服务平台的优点是将各类服务信息进行了整合,如政府发布的扶持政策,所需信息基本都可在网上查询,方便了百姓及企业随时随地查询政务知识,同时也省去了政务客服及解答专员的解答时间;缺点是扶持政策信息关联不紧密,由于政策整合之后信息较多,查询方式较传统,如果百姓及企业问无法给出想要咨询问题的关键词,系统就无法给出准确答案,导致百姓及企业很难一次查全所需信息。
另外,对咨询问题进行智能解答时,需要对接收的咨询问题和智能解答库中的应答语句进行相似度计算。现有的相似度计算往往只是在计算语义相似度,存在相似度匹配差的缺陷。
发明内容
本发明提供了一种文本语句相似度计算方法,具有相似度匹配更准确的特点。
本发明还提供了一种智能政务辅助解答系统及其工作方法,具有使咨询问题解答效率更高的特点。
本发明还提供了一种计算机可读存储介质,具有能够便于实施上述任何一种方法的特点。
根据本发明提供的一种文本语句相似度计算方法,包括,
计算包括但不限于两个句子的语义相似度、长度相似度和词形相似度中的至少两类相似度;
其中,对于语义相似度,利用训练出来的词向量,将句子中每个词的词向量相加合成一个向量,作为句子的句向量,计算输入的要比较的句向量与文本语句库中每个待比较的句向量的余弦值,利用余弦相似度公式计算句向量间的相似度,作为两个句子的语义相似度;
对于长度相似度len_sim(A,B),是指两个句子,句子A和句子B的长度的相似度,计算公式为:
其中,len(A)表示句子A的长度,len(B)表示句子B的长度;
对于词形相似度word_sim(A,B),是指两个句子,句子A和句子B中相同的词语共同出现的个数频率;
将计算的包括两类以上但不限于两类或三类的相似度进行加权相加,得出语句相似度。
所述词形相似度的计算公式为:
其中,same(A,B)表示句子A和句子B中同时出现的词语的个数,num(A)表示句子A中包含的词语的个数;num(B)表示句子B中包含的词语的个数;m为常数因子,取值范围为1.5到2.2。
进行加权相加,计算语句相似度的具体计算公式为:
sentence_sim(A,B)=λ1×syn_sim(A,B)+λ2×word_sim(A,B)+λ3×len_sim(A,B)
其中,syn_sim(A,B)为句子A和句子B的语义相似度;λ1为语义相似度的加权值;λ2为词形相似度的加权值;λ3为长度相似度的加权值。
根据本发明提供的一种智能政务辅助解答系统工作方法,包括,
接收客户端的咨询问题;
对所述咨询问题进行分类,分类包括在线咨询问题和非在线咨询问题;
根据分类安排解答模式;
其中,
非在线咨询问题是指需要进行人工解答的问题;在线咨询问题是指不需要人工解答,智能解答系统就能自动解答的问题;
智能解答系统自动解答过程中采用了上述文本语句相似度计算方法。
所述分类还包括政务专业问题和非专业问题分类;先进行在线咨询问题和非在线咨询问题分类,再进行政务专业问题和非专业问题分类;或,先进行政务专业问题和非专业问题分类,再进行在线咨询问题和非在线咨询问题分类;
其中,政务专业问题是指与政务相关的专业问题;非专业问题是指与政务不相关的问题。
根据分类安排解答模式的方法包括,如果是在线咨询问题分类,则将咨询问题发送给智能解答系统完成自动解答;如果是非在线咨询问题分类,则将咨询问题发送给人工解答系统;如果既属于在线咨询分类又属于政务专业分类,则将咨询问题发送给智能解答系统的政务专业解答模块完成自动解答;如果既属于在线咨询分类又属于非专业分类,则将咨询问题发送给智能解答系统的非专业解答模块完成自动解答;如果既属于非在线咨询分类又属于政务专业分类,则将咨询问题发送给人工解答系统的政务专业解答模块;如果既属于非在线咨询分类又属于非专业分类,则将咨询问题发送给人工解答系统的非专业解答模块。
所述方法还包括,通过主动引导话术逐步推进问题,直到给出准确答案为止;建立一个话术引导决策树模型,根据客户端的首次提问,根据规则判断与当前交互的信息和状态,判断出走哪个决策树分支,然后通过交互流程控制,主动发问,引导客户端回复,根据不同的回复,在决策树模型中走不同的分支,给予客户端相应的回复;每次客户端回答的语句都会通过规则判断与当前交互节点是否匹配,匹配则给与客户端相应的回复,决策树模型继续往下走,若不匹配,则利用相似度算法计算咨询问题与知识库中知识点与是否相似,将相似度最高的咨询问题的对应答案返回给客户端。
对所述咨询问题进行分类的具体方法包括,
将咨询问题输入问题分类模型进行分类;问题分类模型建立的具体方法包括,基于语料训练,
统计问题分类样本集中文档总数N,统计每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D;计算每个词的卡方值χ2:
将每个词按照卡方值由大到小排序,选取前M个词作为该类别问题的特征词,将所有的特征词作为词典,以词典中的每个词的第i个词作为向量的第i维,对于每个问题建立一个特征向量,以词典中每个词的tfidf值作为特征向量中该词对应维的值,使用支持向量机SVM作为分类器,以每个问题的特征向量为分类器输入的特征,以每个问题的类别作为分类标签,进行问题类别分类模型训练,最终获得所述问题分类模型;
其中,正文档代表符合该分类的文本或文件、负文档代表不符合该分类的文本或文件;
所述tfidf值计算公式表示为:
tfidf=tf×idf
tf=所述词在所属问题中的出现次数
idf=lg(问题库中问题总数/(1+包含所述词的问题数));
进行语料训练的具体方法包括,
建立语料库,以政府部门发布的政策文献为语料,实时获取政府发布的政策到语料库内;
从语料库中提取所有收集到的政策文献,对文献进行分词和词性标注;其中,参照包括政策专有名词库进行分词,获取候选词列表,去除候选词列表中的停用词,保留包括形容词、副词、名词和动词的词语集合;
将词语集合作为训练语料,使用深度学习的word2vec模型训练,将词语转化为数值向量,映射每个词到一个向量,表示词与词之间的关系。
根据本发明提供的一种智能政务辅助解答系统,采用上述工作方法,包括,
咨询问题接收模块,接收客户端的咨询问题;
咨询问题分类模块,对所述咨询问题进行分类,分类包括在线咨询问题和非在线咨询问题;
问题解答引导模块,根据分类安排解答模式。
根据本发明提供的一种计算机可读存储介质,存储有便于处理器加载并执行上述任意一种的方法的计算机程序。
与现有技术相比,本发明语句相似度匹配更高,对于语义的理解更准确,针对咨询问题解答的效率更高,且解答更准确。
附图说明
图1为本发明其中一实施例的智能政务辅助解答系统的工作方法流程示意图。
图2为本发明其中一实施例的语料训练结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
根据本发明提供的一种文本语句相似度计算方法,包括,
计算包括但不限于两个句子的语义相似度、长度相似度和词形相似度中的至少两类相似度;
其中,对于语义相似度,利用训练出来的词向量,将句子中每个词的词向量相加合成一个向量,作为句子的句向量(即将句子表征成向量的形式),计算输入的要比较的句向量与文本语句库中每个待比较的句向量的余弦值,利用余弦相似度公式计算句向量间的相似度,作为两个句子的语义相似度;
对于长度相似度len_sim(A,B),是指两个句子,句子A和句子B的长度的相似度,计算公式为:
其中,len(A)表示句子A的长度,len(B)表示句子B的长度;
对于词形相似度word_sim(A,B),是指两个句子,句子A和句子B中相同的词语共同出现的个数频率;
将计算的包括两类以上但不限于两类或三类的相似度进行加权相加,得出语句相似度。
在本发明的具体实施方案中,采用语义相似度和长度相似度进行加权相加,得出语句相似度;或,采用语义相似度和词形相似度进行加权相加,得出语句相似度;或,采用词形相似度和长度相似度进行加权相加,得出语句相似度;或,采用语义相似度、长度相似度和词形相似度进行加权相加,得出语句相似度。
语义相似度syn_sim(A,B)是指两个句子,句子A和句子B的语义的相似度,通过词向量组合来计算,常用公式为:
其中,n为向量的总维数,Ai为句子A句向量第i维的值,Bi为句子B句向量第i维的值。
本发明技术方案采用至少两类相似度进行加权相加,最后得出语句相似度,相似度匹配更准确,更高达到很高的语义理解效果。
作为本发明的一种实施方式,所述词形相似度的计算公式为:
其中,same(A,B)表示句子A和句子B中同时出现的词语的个数,当某个词语在句子A和句子B中出现次数不同时,以出现次数少的计算;num(A)表示句子A中包含的词语的个数;num(B)表示句子B中包含的词语的个数;m为常数因子,取值范围为1.5到2.2。
作为本发明的一种实施方式,采用语义相似度、长度相似度和词形相似度进行加权相加,得出语句相似度。进行加权相加,计算语句相似度的具体计算公式为:
sentence_sim(A,B)=λ1×syn_sim(A,B)+λ2×word_sim(A,B)+λ3×len_sim(A,B)
其中,syn_sim(A,B)为句子A和句子B的语义相似度;λ1为语义相似度的加权值;λ2为词形相似度的加权值;λ3为长度相似度的加权值。每个加权值的确定根据相似度综合的种类及实际需求来确定。
根据本发明提供的一种智能政务辅助解答系统工作方法,包括,
接收客户端的咨询问题;
对所述咨询问题进行分类,分类包括在线咨询问题和非在线咨询问题;
根据分类安排解答模式;
其中,
非在线咨询问题是指需要进行人工解答的问题;在线咨询问题是指不需要人工解答,智能解答系统就能自动解答的问题;
智能解答系统自动解答过程中采用了上述文本语句相似度计算方法。
作为本发明的一种实施方案,以客户端(包括百姓和企业)咨询的信息作为咨询问题的类别进行分类输入到不同的解答处理模块,进行快速的分类处理,能够辅助对客户端提出的问题进行解答,减少客户端咨询的时间和金钱花费,同时也减少服务端对于大量、重复、简单的政务知识解答时间,提高了通用性及解答的准确性。
作为本发明具体实施方式,接收的咨询问题可以为语音文本也可以为文字文本,对相应的文本进行识别或转换识别后进行分类,生成对应的交互控制策略,通过交互完善用户及企业的政务咨询信息,并提炼总结成标准化问题和基本信息,将该标准化问题和基本信息进行语义表征,转化为数值向量后输入到知识库模型中,输出咨询问题的对应解答,将标准化问题和智能解答信息发送给对应的客户端。
作为本发明的一种实施方式,对于模糊问题,如图1所示,通过主动引导话术逐步推进问题,直到给出准确答案为止。使用相似度算法在政策常识问题知识库中查找相似问句,如果找到相似度大于0.8(该值可以根据需求自由设置)的问句,将相似度最高的问句的对应答案直接返回用户,如果没有找到相似的问句,根据当前所处的上下文情况进行不同处理,当处于多轮交互时,系统会根据当前的交互情况继续进行交互,否则转给人工服务,建立直接交流的通信通道,客户端可以与人工服务端直接进行交流。
作为本发明的一种实施方式,对于多轮交互引导,建立一个话术引导决策树模型,根据客户端的首次提问,根据规则判断与当前交互的信息和状态,判断出走哪个决策树分支,然后系统通过交互流程控制,主动发问,引导客户端回复,根据不同的回复,在决策树模型中走不同的分支,给予客户端相应的回复。每次客户端回答的语句都会通过规则判断与当前交互节点是否匹配,匹配则给与客户端相应的回复,决策树模型继续往下走,若不匹配,则会利用相似度算法计算客户端咨询问题与知识库中知识点与是否相似,将相似度最高的问句的对应答案返回给客户端。
作为本发明的具体实施方式,所述分类还包括政务专业问题和非专业问题分类;先进行在线咨询问题和非在线咨询问题分类,再进行政务专业问题和非专业问题分类;或,先进行政务专业问题和非专业问题分类,再进行在线咨询问题和非在线咨询问题分类;
其中,政务专业问题是指与政务相关的专业问题;非专业问题是指与政务不相关的问题。
如图1所示,作为本发明的一种实施方式,咨询问题分类时,先进行在线咨询问题和非在线咨询问题分类,然后再进行专业政务问题分类和非专业问题分类,安排解答模式。
作为本发明的具体实施方式,政务专有知识一部分通过人工录入,支持单条录入和批量导入,另一部分知识通过百姓及企业的多种咨询和信息反馈,通过神经网络和深度学习技术扩充政务专有知识。
作为本发明的一种实施方式,根据分类安排解答模式的方法包括,如果是在线咨询问题分类,则将咨询问题发送给智能解答系统完成自动解答;如果是非在线咨询问题分类,则将咨询问题发送给人工解答系统;如果既属于在线咨询分类又属于政务专业分类,则将咨询问题发送给智能解答系统的政务专业解答模块完成自动解答;如果既属于在线咨询分类又属于非专业分类,则将咨询问题发送给智能解答系统的非专业解答模块完成自动解答;如果既属于非在线咨询分类又属于政务专业分类,则将咨询问题发送给人工解答系统的政务专业解答模块;如果既属于非在线咨询分类又属于非专业分类,则将咨询问题发送给人工解答系统的非专业解答模块。
作为本发明的一种实施方式,对所述咨询问题进行分类的具体方法包括,
将咨询问题输入问题分类模型进行分类;问题分类模型建立的具体方法包括,基于语料训练,
统计问题分类样本集中文档总数N,统计每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D;计算每个词的卡方值χ2:
将每个词按照卡方值由大到小排序,选取前M(M的取值根据实际情况经验来确定)个词作为该类别问题的特征词,将所有的特征词作为词典,以词典中的每个词的第i个词作为向量的第i维,对于每个问题建立一个特征向量,以词典中每个词的tfidf值作为特征向量中该词对应维的值,使用支持向量机SVM作为分类器,以每个问题的特征向量为分类器输入的特征,以每个问题的类别作为分类标签,进行问题类别分类模型训练,最终获得所述问题分类模型;
其中,正文档代表符合该分类的文本或文件、负文档代表不符合该分类的文本或文件;
所述tfidf值计算公式表示为:
tfidf=tf×idf
tf=所述词在所属问题中的出现次数
idf=lg(问题库中问题总数/(1+包含所述词的问题数));
如图2所示,进行语料训练的具体方法包括,
建立语料库,以政府部门发布的政策文献为语料,实时获取政府发布的政策到语料库内;
从语料库中提取所有收集到的政策文献,对文献进行分词和词性标注;其中,参照包括政策专有名词库进行分词,获取候选词列表,去除候选词列表中的停用词,保留包括形容词、副词、名词和动词的词语集合;
将词语集合作为训练语料,使用深度学习的word2vec模型训练,将词语转化为数值向量,映射每个词到一个向量,表示词与词之间的关系。
word2vec是用来产生词向量的相关模型。这些模型是浅而双层的神经网络,用来训练以重新建构语言的词文本。训练完成之后,word2vec模型用来映射每个词到一个向量,可用来表示词与词之间的关系。通过训练获得的各种模型,能够自主学习并完善解答机制。
根据本发明提供的一种智能政务辅助解答系统,采用上述工作方法,包括,
咨询问题接收模块,接收客户端的咨询问题;
咨询问题分类模块,对所述咨询问题进行分类,分类包括在线咨询问题和非在线咨询问题;
问题解答引导模块,根据分类安排解答模式。
作为本发明的一种实施方式,系统结合了自然语言处理、信息抽取、机器学习、神经网络算法、知识图谱等多项技术,政务解答知识一方面从政务发布的政务文献中提取,另一方面从历史的百姓及企业交互对话中训练学习到政务信息提取,当百姓及企业咨询时,通过多轮自然语言的交互,获取百姓及企业的咨询信息,并生成对应的解答,然后推送给百姓及企业。
对于一些百姓及企业提问的政务常识问题,智能政务辅助解答系统能够自动进行回答,而对于系统不能处理的问题,可接转给人工服务端,由人工服务端直接与客户端进行交流。
根据本发明提供的一种计算机可读存储介质,存储有便于处理器加载并执行上述任意一种的方法的计算机程序。
Claims (10)
1.一种文本语句相似度计算方法,包括,
计算包括但不限于两个句子的语义相似度、长度相似度和词形相似度中的至少两类相似度;
其中,对于语义相似度,利用训练出来的词向量,将句子中每个词的词向量相加合成一个向量,作为句子的句向量,计算输入的要比较的句向量与文本语句库中每个待比较的句向量的余弦值,利用余弦相似度公式计算句向量间的相似度,作为两个句子的语义相似度;
对于长度相似度len_sim(A,B),是指两个句子,句子A和句子B的长度的相似度,计算公式为:
其中,len(A)表示句子A的长度,len(B)表示句子B的长度;
对于词形相似度word_sim(A,B),是指两个句子,句子A和句子B中相同的词语共同出现的个数频率;
将计算的包括两类以上但不限于两类或三类的相似度进行加权相加,得出语句相似度。
2.根据权利要求1所述的文本语句相似度计算方法,所述词形相似度的计算公式为:
其中,same(A,B)表示句子A和句子B中同时出现的词语的个数,num(A)表示句子A中包含的词语的个数;num(B)表示句子B中包含的词语的个数;m为常数因子,取值范围为1.5到2.2。
3.根据权利要求1或2所述的文本语句相似度计算方法,进行加权相加,计算语句相似度的具体计算公式为:
sentence_sim(A,B)=λ1×syn_sim(A,B)+λ2×word_sim(A,B)+λ3×len_sim(A,B)
其中,syn_sim(A,B)为句子A和句子B的语义相似度;λ1为语义相似度的加权值;λ2为词形相似度的加权值;λ3为长度相似度的加权值。
4.一种智能政务辅助解答系统工作方法,包括,
接收客户端的咨询问题;
对所述咨询问题进行分类,分类包括在线咨询问题和非在线咨询问题;
根据分类安排解答模式;
其中,
非在线咨询问题是指需要进行人工解答的问题;在线咨询问题是指不需要人工解答,智能解答系统就能自动解答的问题;
智能解答系统自动解答过程中采用了权利要求1到3之一所述的文本语句相似度计算方法。
5.根据权利要求4所述的智能政务辅助解答系统工作方法,所述分类还包括政务专业问题和非专业问题分类;先进行在线咨询问题和非在线咨询问题分类,再进行政务专业问题和非专业问题分类;或,先进行政务专业问题和非专业问题分类,再进行在线咨询问题和非在线咨询问题分类;
其中,政务专业问题是指与政务相关的专业问题;非专业问题是指与政务不相关的问题。
6.根据权利要求5所述的智能政务辅助解答系统工作方法,根据分类安排解答模式的方法包括,如果是在线咨询问题分类,则将咨询问题发送给智能解答系统完成自动解答;如果是非在线咨询问题分类,则将咨询问题发送给人工解答系统;如果既属于在线咨询分类又属于政务专业分类,则将咨询问题发送给智能解答系统的政务专业解答模块完成自动解答;如果既属于在线咨询分类又属于非专业分类,则将咨询问题发送给智能解答系统的非专业解答模块完成自动解答;如果既属于非在线咨询分类又属于政务专业分类,则将咨询问题发送给人工解答系统的政务专业解答模块;如果既属于非在线咨询分类又属于非专业分类,则将咨询问题发送给人工解答系统的非专业解答模块。
7.根据权利要求4到6之一所述的智能政务辅助解答系统工作方法,所述方法还包括,通过主动引导话术逐步推进问题,直到给出准确答案为止;建立一个话术引导决策树模型,根据客户端的首次提问,根据规则判断与当前交互的信息和状态,判断出走哪个决策树分支,然后通过交互流程控制,主动发问,引导客户端回复,根据不同的回复,在决策树模型中走不同的分支,给予客户端相应的回复;每次客户端回答的语句都会通过规则判断与当前交互节点是否匹配,匹配则给与客户端相应的回复,决策树模型继续往下走,若不匹配,则利用相似度算法计算咨询问题与知识库中知识点与是否相似,将相似度最高的咨询问题的对应答案返回给客户端。
8.根据权利要求4到6之一所述的智能政务辅助解答系统工作方法,对所述咨询问题进行分类的具体方法包括,
将咨询问题输入问题分类模型进行分类;问题分类模型建立的具体方法包括,基于语料训练,
统计问题分类样本集中文档总数N,统计每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D;计算每个词的卡方值χ2:
将每个词按照卡方值由大到小排序,选取前M个词作为该类别问题的特征词,将所有的特征词作为词典,以词典中的每个词的第i个词作为向量的第i维,对于每个问题建立一个特征向量,以词典中每个词的tfidf值作为特征向量中该词对应维的值,使用支持向量机SVM作为分类器,以每个问题的特征向量为分类器输入的特征,以每个问题的类别作为分类标签,进行问题类别分类模型训练,最终获得所述问题分类模型;
其中,正文档代表符合该分类的文本或文件、负文档代表不符合该分类的文本或文件;
所述tfidf值计算公式表示为:
tfidf=tf×idf
tf=所述词在所属问题中的出现次数
idf=lg(问题库中问题总数/(1+包含所述词的问题数));
进行语料训练的具体方法包括,
建立语料库,以政府部门发布的政策文献为语料,实时获取政府发布的政策到语料库内;
从语料库中提取所有收集到的政策文献,对文献进行分词和词性标注;其中,参照包括政策专有名词库进行分词,获取候选词列表,去除候选词列表中的停用词,保留包括形容词、副词、名词和动词的词语集合;
将词语集合作为训练语料,使用深度学习的word2vec模型训练,将词语转化为数值向量,映射每个词到一个向量,表示词与词之间的关系。
9.一种智能政务辅助解答系统,采用权利要求4到8之一所述的工作方法,包括,
咨询问题接收模块,接收客户端的咨询问题;
咨询问题分类模块,对所述咨询问题进行分类,分类包括在线咨询问题和非在线咨询问题;
问题解答引导模块,根据分类安排解答模式。
10.一种计算机可读存储介质,存储有便于处理器加载并执行权利要求1到8任意一种的方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811253082.5A CN109460457A (zh) | 2018-10-25 | 2018-10-25 | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811253082.5A CN109460457A (zh) | 2018-10-25 | 2018-10-25 | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109460457A true CN109460457A (zh) | 2019-03-12 |
Family
ID=65608453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811253082.5A Pending CN109460457A (zh) | 2018-10-25 | 2018-10-25 | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460457A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096567A (zh) * | 2019-03-14 | 2019-08-06 | 中国科学院自动化研究所 | 基于qa知识库推理的多轮对话回复选择方法、系统 |
CN110532363A (zh) * | 2019-08-27 | 2019-12-03 | 华侨大学 | 一种基于决策树的任务导向型自动对话方法 |
CN110532364A (zh) * | 2019-08-30 | 2019-12-03 | 山东浪潮商用系统有限公司 | 一种使用智能机器人的智能咨询的方法 |
CN110688452A (zh) * | 2019-08-23 | 2020-01-14 | 重庆兆光科技股份有限公司 | 一种文本语义相似度评估方法、系统、介质和设备 |
CN110781687A (zh) * | 2019-11-06 | 2020-02-11 | 三角兽(北京)科技有限公司 | 相同意图语句的获取方法及装置 |
CN110990538A (zh) * | 2019-12-20 | 2020-04-10 | 深圳前海黑顿科技有限公司 | 基于句级深度学习语言模型的语义模糊搜索的方法 |
CN111104505A (zh) * | 2019-12-30 | 2020-05-05 | 浙江阿尔法人力资源有限公司 | 信息提示方法、装置、设备和存储介质 |
CN111241847A (zh) * | 2020-01-15 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 一种识别对话情感原因的方法及装置 |
CN111259655A (zh) * | 2019-11-07 | 2020-06-09 | 上海大学 | 一种基于语义的物流智能客服问题相似度计算方法 |
CN111382230A (zh) * | 2020-03-04 | 2020-07-07 | 重庆百事得大牛机器人有限公司 | 用于法律咨询选项的模糊识别方法 |
CN111832945A (zh) * | 2020-07-15 | 2020-10-27 | 中国科学技术大学智慧城市研究院(芜湖) | 政务大数据应用成熟度评价方法和系统 |
CN112100382A (zh) * | 2020-09-30 | 2020-12-18 | 珠海碳云智能科技有限公司 | 聚类方法及装置、计算机可读存储介质、处理器 |
CN112131379A (zh) * | 2020-08-20 | 2020-12-25 | 彭涛 | 用于识别问题类别的方法、装置、电子设备及存储介质 |
CN112445946A (zh) * | 2019-08-29 | 2021-03-05 | 上海卓繁信息技术股份有限公司 | 基于政务领域知识图谱的多轮对话方法及系统 |
CN113438515A (zh) * | 2021-06-17 | 2021-09-24 | 重庆大牛认知科技有限公司 | 一种基于智能交互的iptv端政务咨询方法和系统 |
CN114708117A (zh) * | 2022-03-21 | 2022-07-05 | 广东电网有限责任公司 | 融合先验知识的用电安全检查评级方法、装置及设备 |
CN118093788A (zh) * | 2024-04-22 | 2024-05-28 | 成都同步新创科技股份有限公司 | 一种基于大模型的中小企业知识库的构建与搜索方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070213974A1 (en) * | 2006-03-09 | 2007-09-13 | Fujitsu Limited | Syntax analysis program, syntax analysis method, syntax analysis device, and computer-readable medium storing syntax analysis program |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101431573A (zh) * | 2007-11-08 | 2009-05-13 | 上海赢思软件技术有限公司 | 通过人机交互技术实现自动客户服务的方法和设备 |
CN102147792A (zh) * | 2010-02-09 | 2011-08-10 | 中国科学院计算技术研究所 | 一种客户化知识智能系统 |
CN104008160A (zh) * | 2014-05-29 | 2014-08-27 | 吴春尧 | 一种实现并行话题控制的模糊推理聊天机器人方法和系统 |
CN105095188A (zh) * | 2015-08-14 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 句子相似度计算方法及装置 |
CN105447144A (zh) * | 2015-11-24 | 2016-03-30 | 北京中科汇联科技股份有限公司 | 基于大数据分析技术的微博转发可视化分析方法及系统 |
CN105653840A (zh) * | 2015-12-21 | 2016-06-08 | 青岛中科慧康科技有限公司 | 基于词句分布表示的相似病例推荐系统及相应的方法 |
CN106327157A (zh) * | 2016-08-23 | 2017-01-11 | 黄毅 | 一种在线政务服务系统及其使用方法 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
US9754215B2 (en) * | 2012-12-17 | 2017-09-05 | Sinoeast Concept Limited | Question classification and feature mapping in a deep question answering system |
CN107247868A (zh) * | 2017-05-18 | 2017-10-13 | 深思考人工智能机器人科技(北京)有限公司 | 一种人工智能辅助问诊系统 |
CN107679092A (zh) * | 2017-09-06 | 2018-02-09 | 广东环境保护工程职业学院 | 一种环保咨询类交互式问答方法及系统 |
CN107992472A (zh) * | 2017-11-23 | 2018-05-04 | 浪潮金融信息技术有限公司 | 句子相似度计算方法及装置、计算机存储介质和终端 |
CN108174045A (zh) * | 2016-12-06 | 2018-06-15 | 上海赛特斯信息科技股份有限公司 | 智能客服沟通系统 |
-
2018
- 2018-10-25 CN CN201811253082.5A patent/CN109460457A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070213974A1 (en) * | 2006-03-09 | 2007-09-13 | Fujitsu Limited | Syntax analysis program, syntax analysis method, syntax analysis device, and computer-readable medium storing syntax analysis program |
CN101431573A (zh) * | 2007-11-08 | 2009-05-13 | 上海赢思软件技术有限公司 | 通过人机交互技术实现自动客户服务的方法和设备 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN102147792A (zh) * | 2010-02-09 | 2011-08-10 | 中国科学院计算技术研究所 | 一种客户化知识智能系统 |
US9754215B2 (en) * | 2012-12-17 | 2017-09-05 | Sinoeast Concept Limited | Question classification and feature mapping in a deep question answering system |
CN104008160A (zh) * | 2014-05-29 | 2014-08-27 | 吴春尧 | 一种实现并行话题控制的模糊推理聊天机器人方法和系统 |
CN105095188A (zh) * | 2015-08-14 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 句子相似度计算方法及装置 |
CN105447144A (zh) * | 2015-11-24 | 2016-03-30 | 北京中科汇联科技股份有限公司 | 基于大数据分析技术的微博转发可视化分析方法及系统 |
CN105653840A (zh) * | 2015-12-21 | 2016-06-08 | 青岛中科慧康科技有限公司 | 基于词句分布表示的相似病例推荐系统及相应的方法 |
CN106327157A (zh) * | 2016-08-23 | 2017-01-11 | 黄毅 | 一种在线政务服务系统及其使用方法 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
CN108174045A (zh) * | 2016-12-06 | 2018-06-15 | 上海赛特斯信息科技股份有限公司 | 智能客服沟通系统 |
CN107247868A (zh) * | 2017-05-18 | 2017-10-13 | 深思考人工智能机器人科技(北京)有限公司 | 一种人工智能辅助问诊系统 |
CN107679092A (zh) * | 2017-09-06 | 2018-02-09 | 广东环境保护工程职业学院 | 一种环保咨询类交互式问答方法及系统 |
CN107992472A (zh) * | 2017-11-23 | 2018-05-04 | 浪潮金融信息技术有限公司 | 句子相似度计算方法及装置、计算机存储介质和终端 |
Non-Patent Citations (1)
Title |
---|
文峤: ""基于文本特征提取方法的分本分类研究"", 《电脑知识与技术》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096567A (zh) * | 2019-03-14 | 2019-08-06 | 中国科学院自动化研究所 | 基于qa知识库推理的多轮对话回复选择方法、系统 |
CN110688452A (zh) * | 2019-08-23 | 2020-01-14 | 重庆兆光科技股份有限公司 | 一种文本语义相似度评估方法、系统、介质和设备 |
CN110688452B (zh) * | 2019-08-23 | 2022-09-13 | 重庆兆光科技股份有限公司 | 一种文本语义相似度评估方法、系统、介质和设备 |
CN110532363A (zh) * | 2019-08-27 | 2019-12-03 | 华侨大学 | 一种基于决策树的任务导向型自动对话方法 |
CN110532363B (zh) * | 2019-08-27 | 2022-07-29 | 华侨大学 | 一种基于决策树的任务导向型自动对话方法 |
CN112445946A (zh) * | 2019-08-29 | 2021-03-05 | 上海卓繁信息技术股份有限公司 | 基于政务领域知识图谱的多轮对话方法及系统 |
CN110532364A (zh) * | 2019-08-30 | 2019-12-03 | 山东浪潮商用系统有限公司 | 一种使用智能机器人的智能咨询的方法 |
CN110781687A (zh) * | 2019-11-06 | 2020-02-11 | 三角兽(北京)科技有限公司 | 相同意图语句的获取方法及装置 |
CN110781687B (zh) * | 2019-11-06 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 相同意图语句的获取方法及装置 |
CN111259655B (zh) * | 2019-11-07 | 2023-07-18 | 上海大学 | 一种基于语义的物流智能客服问题相似度计算方法 |
CN111259655A (zh) * | 2019-11-07 | 2020-06-09 | 上海大学 | 一种基于语义的物流智能客服问题相似度计算方法 |
CN110990538A (zh) * | 2019-12-20 | 2020-04-10 | 深圳前海黑顿科技有限公司 | 基于句级深度学习语言模型的语义模糊搜索的方法 |
CN110990538B (zh) * | 2019-12-20 | 2022-04-01 | 深圳前海黑顿科技有限公司 | 基于句级深度学习语言模型的语义模糊搜索的方法 |
CN111104505A (zh) * | 2019-12-30 | 2020-05-05 | 浙江阿尔法人力资源有限公司 | 信息提示方法、装置、设备和存储介质 |
CN111104505B (zh) * | 2019-12-30 | 2023-08-25 | 浙江阿尔法人力资源有限公司 | 信息提示方法、装置、设备和存储介质 |
CN111241847A (zh) * | 2020-01-15 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 一种识别对话情感原因的方法及装置 |
CN111382230A (zh) * | 2020-03-04 | 2020-07-07 | 重庆百事得大牛机器人有限公司 | 用于法律咨询选项的模糊识别方法 |
CN111832945A (zh) * | 2020-07-15 | 2020-10-27 | 中国科学技术大学智慧城市研究院(芜湖) | 政务大数据应用成熟度评价方法和系统 |
CN111832945B (zh) * | 2020-07-15 | 2023-05-23 | 长三角信息智能创新研究院 | 政务大数据应用成熟度评价方法 |
CN112131379A (zh) * | 2020-08-20 | 2020-12-25 | 彭涛 | 用于识别问题类别的方法、装置、电子设备及存储介质 |
CN112100382A (zh) * | 2020-09-30 | 2020-12-18 | 珠海碳云智能科技有限公司 | 聚类方法及装置、计算机可读存储介质、处理器 |
CN112100382B (zh) * | 2020-09-30 | 2024-05-10 | 珠海碳云智能科技有限公司 | 聚类方法及装置、计算机可读存储介质、处理器 |
CN113438515A (zh) * | 2021-06-17 | 2021-09-24 | 重庆大牛认知科技有限公司 | 一种基于智能交互的iptv端政务咨询方法和系统 |
CN114708117A (zh) * | 2022-03-21 | 2022-07-05 | 广东电网有限责任公司 | 融合先验知识的用电安全检查评级方法、装置及设备 |
CN118093788A (zh) * | 2024-04-22 | 2024-05-28 | 成都同步新创科技股份有限公司 | 一种基于大模型的中小企业知识库的构建与搜索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460457A (zh) | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 | |
CN108052583B (zh) | 电商本体构建方法 | |
CN109885672B (zh) | 一种面向在线教育的问答式智能检索系统及方法 | |
CN112069298B (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN106997376A (zh) | 一种基于多级特征的问题和答案句子相似度计算方法 | |
CN110727778A (zh) | 一种面向税务的智能问答系统 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN110895559A (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
KR100481580B1 (ko) | 문서에서 이벤트 문장을 추출하는 장치 및 그 방법 | |
CN113570380A (zh) | 基于语义分析的业务投诉处理方法、装置、设备及计算机可读存储介质 | |
CN113064980A (zh) | 一种智能问答方法、装置、计算机设备及存储介质 | |
AU2021444983A1 (en) | System and method of automatic topic detection in text | |
CN117909466A (zh) | 领域问答系统、构造方法、电子设备及存储介质 | |
CN116542676A (zh) | 一种基于大数据分析的智能客服系统及其方法 | |
CN117633141A (zh) | 业务知识检索库构建方法、装置、电子设备及存储介质 | |
CN111523328A (zh) | 一种智能客服语义处理方法 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN109145106B (zh) | 一种自学习式法律咨询机器人 | |
CN113918697A (zh) | 一种智能问答系统的优化方法以及优化系统 | |
CN113051388A (zh) | 一种智能问答方法、装置、电子设备及存储介质 | |
KR102240910B1 (ko) | 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템 | |
CN112597292A (zh) | 问题回复推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190312 |